Kostengünstiger, skalierbarer Beschleuniger für Maschinen- und Deep-Learning-Inferenz

Benachrichtige mich

Optimal für Rechenzentrumsbereitstellungen von Inferenzanwendungen für Maschinenintelligenz und Deep Learning

Angetrieben durch die "„Fiji“" Architektur

 

64

RECHENEINHEITEN
4096 Stream-Prozessoren
 

8.2

TFLOPS
FP16 and FP32Performance
 

4GB

HBM1
 
 

512GB/s

MAX. SPEICHERBANDBREITE
 

PERFORMANCE

8,2 TFLOPS Rechenleistung mit halber oder einfacher Geschwindigkeit bei 4 GB HBM11

  • 8,2 TFLOPS GPU-Rechenleistung (FP16 | FP32).

    Mit einer Rechenleistung von 8,2 TFLOPS auf einer einzigen Karte stellt der Radeon Instinct™ MI8 Server Accelerator ein herausragendes Preis-Leistungs-Verhältnis (bei einfacher Genauigkeit) für Maschinen- und Deep-Learning-Inferenz sowie eine kosteneffiziente Lösung für HPC-Entwicklungssysteme bereit. 1

  • HBM1-GPU-Speicher hoher Bandbreite mit 4 GB und 512-Bit-Speicherschnittstelle.

    Mit 4 GB an HBM1-GPU-Speicher und einer Speicherbandbreite von bis zu 512 GB/s steht der Radeon Instinct™ MI8 Server Accelerator für eine perfekte Kombination aus Rechenleistung mit einfacher Genauigkeit und Speichersystemperformance, um durch anspruchvollste Maschinenintelligenz- und Deep-Learning-Inferenzanwendungen aussagekräftige Ergebnisse aus neuen, auf trainierte neuronale Netzwerke angewendete Daten auf kostengünstige, effiziente Weise zu abstrahieren.

  • 47 GFLOPS/Watt FP16|FP32-GPU-Rechenleistung.

    Mit bis zu 47 GFLOPS/Watt an FP16|FP32-GPU-Rechenleistung bietet der Radeon Instinct™ MI8 Server Accelerator eine hervorragende Pro-Watt-Performance für Maschinenintelligenz- und Deep-Learning-Inferenzanwendungen. 2

  • 64 Recheneinheiten (4.096 Stream-Prozessoren).

    Der Radeon Instinct™ MI8 Server Accelerator verfügt über 64 Recheneinheiten mit jeweils 64 Stream-Prozessoren. Insgesamt macht dies 4.096 Stream-Prozessoren, die für schneller Antworten eine Vielzahl kleinerer Daten-Batches gleichzeitig gegen trainierte neuronale Netzwerke laufen lassen. Rechenleistung mit einfacher Genauigkeit ist für diese Art von Systeminstallationen von entscheidender Bedeutung. Und der MI8 Accelerator liefert in Form einer einzigen GPU-Karte eine herausragende Rechenleistung mit einfacher Genauigkeit ab.

MERKMALE

Beschleuniger mit passiver Kühlung und einer Leistungsaufnahme von weniger als 175 Watt für skalierbare Serverbereitstellungen

  • Auf „Fiji“ Architektur basierender Server Accelerator mit passiver Kühlung. Der auf der „Fiji“ Architektur basierende Radeon Instinct™ MI8 Server Accelerator mit 28nm-HPX-Prozess wurde für hocheffiziente, skalierbare Serverbereitstellungen für Inferenzanwendungen in Maschinenintelligenz- und Deep-Learning-Systemen konzipiert. Mit diesem GPU Server Accelerator erhalten Kunden großartige Performance bei einer Leistungsaufnahme von lediglich 175 W.
  • GPU-Serverkarte mit 175 W Leistungsaufnahme, Dual-Steckplatz und einer Länge von 6″.  Die Radeon Instinct™ MI8 Server PCIe® Gen 3 x16 GPU-Karte ist eine Dual-Slot-Karte voller Höhe. Sie passt in die meisten standardmäßigen Serverdesigns und bietet eine hocheffiziente Serverlösung zur Bereitstellung heterogener Maschinenintelligenz- und Deep-Learning-Inferenzsysteme.
  • High Bandwidth Memory (HBM1) mit bis zu 512 GB/s Speicherbandbreite. Mit 4 GB HBM1-Speicher hoher Bandbreite ermöglicht der Radeon Instinct™ MI8 Server Accelerator die gleichzeitige, schnelle Verarbeitung einer Vielzahl kleinerer Daten-Batches für anspruchvollste Maschinenintelligenz- und Deep-Learning-Inferenzanwendungen, so dass schnell aussagekräftige Ergebnisse aus neuen, auf trainierte neuronale Netzwerke angewendete Daten abstrahiert werden können.
  • MxGPU SR-IOV HW-Virtualisierung. Der Radeon Instinct™ MI8 Server Accelerator unterstützt die MxGPU SR-IOV Hardware-Virtualisierungstechnologie von AMD, um für bessere Auslastung und Kapazitäten im Rechenzentrum zu sorgen.

FALLSTUDIEN

Deep-Learning-Inferenz

Aufgrund des exponentiellen Datenwachstums und der Dynamik der Daten von heute gelten neue Anforderungen bei der Konfiguration von Rechenzentrumssystemen. Designer von Rechenzentren müssen Systeme aufbauen, die äußerst komplexe und parallele Workloads ausführen können, und gleichzeitig die Systemeffizienz verbessern. Mit der Optimierung der Fähigkeiten im Laufe der letzten 10 Jahre bei diskreten GPUs und anderen Beschleunigern stehen Rechenzentrumsdesignern neue Optionen zur Verfügung, um heterogene Computing-Systeme zu entwickeln und den aktuellen Herausforderungen gerecht zu werden.

Rechenzentrumsbereitstellungen mit Inferenzanwendungen, bei denen zur Ermittlung neuen Wissens eine Vielzahl neuer kleinerer Dataset-Inputs mit halber Genauigkeit (FP16) oder einfacher Genauigkeit (FP32) gegen trainierte neuronale Netzwerke ausgeführt werden, erfordern parallele Computing-fähige Systeme, die zur energieeffizienten Daten-Input-Ausführung über viele kleinere Kerne in der Lage sind.

 

Der Radeon Instinct™ MI8 Accelerator ist eine effiziente, kostengünstige Lösung für Maschinenintelligenz- und Deep-Learning-Inferenzbereitstellungen in Rechenzentren. Er bietet in Form einer Single-Slot-Karte eine Gleitkomma-Rechenleistung mit halber oder einfacher Genauigkeit (FP16|FP32) von jeweils 8,2 TFLOPS bei einer Leistungsaufnahme von 175 Watt. 1 Designer von Rechenzentren erhalten mit dem MI8 Accelerator, der auf der AMD „Fiji“ Architektur mit 4-GB-HBM1-Speicher und einer Bandbreite von bis zu 512 GB/s basiert, und dem offenen Radeon Instinct™ Technologieumgebungsansatz der ROCm-Plattform eine hocheffiziente, flexible Lösung für Inferenzbereitstellungen.

Hauptvorteile für Inferenz:

  • 8,2 TFLOPS Rechenleistung mit halber oder einfacher Genauigkeit 1
  • 47 GFLOPS/Watt Rechenleistung mit halber oder einfacher Genauigkeit 2
  • 4 GB HBM1-Speicher mit 512-Bit-Speicherschnittstelle für eine Speicherperformance hoher Bandbreite
  • Accelerator mit passiver Kühlung und einer Leistungsaufnahme von weniger als 175 Watt für skalierbare Serverbereitstellungen
  • Hyperscale-Open-Source-Plattform durch ROCm-Softwareplattform
  • Open-Source-Linux-Treiber, -HCC-Compiler, -Tools und -Bibliotheken für vollständige Kontrolle
  • Optimierte MIOpen-Deep-Learning-Framework-Bibliotheken 3
  • BAR-Support für mGPU Peer-to-Peer
  • MxGPU SR-IOV Hardware-Virtualisierung für optimierte Systemauslastung
  • Unterstützung für verschiedene offene Branchenarchitekturen und dem Industriestandard entsprechende offene Verbindungstechnologien 4

 

Heterogenes Computing für HPC-Allzweck- und -Entwicklungssysteme

Die HPC-Branche erzeugt Jahr für Jahr eine riesige Menge unstrukturierter Daten und ein Teil der HPC-Systemkonfigurationen wird umgestaltet, damit die Community nützliche Informationen aus diesen Daten extrahieren kann. Üblicherweise waren diese Systeme CPU-basiert, aber angesichts des explosionsartigen Wachstums in Bezug auf die Datenmengen und -typen sowie der Entstehung komplexerer Codes können diese traditionellen Systeme nicht alle Anforderungen der heutigen datenintensiven HPC-Arbeitslasten erfüllen. Wegen der zunehmenden Komplexität und Parallelität dieser Codetypen kommen verstärkt heterogene Computing-Systeme mit verschiedenen Accelerator-Kombinationen zum Einsatz, darunter diskrete GPUs und FPGAs. Die während des letzten Jahrzehnts weiterentwickelten GPU-Funktionen können nun für eine zunehmende Zahl dieser gemischten parallelen Codes verwendet werden, etwa wie die Codes zum Trainieren neuronaler Netzwerke für Deep Learning. Forscher und Wissenschaftler auf der ganzen Welt greifen nun auf Accelerator zurück, um parallele HPC-Codes in verschiedensten Bereichen wie der Life-Science-, Energie-, Finanz- und Automobilbranche, in der Luft- und Raumfahrtindustrie, Hochschulen, Behörden und dem Verteidigungssektor effizienter verarbeiten zu können.

 

Der Radeon Instinct™ MI8 Accelerator stellt zusammen mit der revolutionären offenen ROCm-Softwareplattform von AMD eine effiziente Einstiegslösung für heterogenes Computing dar und bietet eine Rechenleistung mit einfacher Genauigkeit von 8,2 TFLOPS in Form einer effizienten GPU-Karte mit 4 GB HBM1-Speicher hoher Bandbreite. 1

Der MI8 Accelerator ist die ideale offene Lösung für kosteneffiziente Allzweck- und Entwicklungssysteme für Finanzdienstleister, Energie-, Life-Science-, Automobil- sowie Luft- und Raumfahrtunternehmen, Hochschulen (Forschung und Lehre), staatliche Labore und andere HPC-Bereiche.

Hauptvorteile für HPC:

  • 8,2 TFLOPS Rechenleistung mit halber und einfacher Genauigkeit für verschiedene HPC-Arbeitslasten 1
  • 47 GFLOPS/Watt Rechenleistung mit halber oder einfacher Genauigkeit 2
  • 512 GFLOPS Rechenleistung mit doppelter Genauigkeit (FP64) bei 4 GB HBM1-Speicher
  • 2,9 GFLOPS/Watt FP64-Rechenleistung
  • 4 GB HBM1-Speicher mit 512-Bit-Speicherschnittstelle für eine Speicherperformance hoher Bandbreite
  • Accelerator mit passiver Kühlung und einer Leistungsaufnahme von weniger als 175 Watt für skalierbare Serverbereitstellungen
  • HPC-Open-Source-Plattform durch ROCm-Softwareplattform
  • Open-Source-Linux-Treiber, -HCC-Compiler, -Tools und -Bibliotheken für vollständige Kontrolle
  • MxGPU SR-IOV Hardware-Virtualisierung für optimierte Systemauslastung
  • Unterstützung für verschiedene offene Branchenarchitekturen und dem Industriestandard entsprechende Verbindungstechnologien 2

Laden Sie das Datenblatt zu Radeon Instinct™ MI8 herunter.

Radeon Intinct™ MI8 -Datenblatt

Entdecken Sie die the Radeon Instinct™ MI Serie

Radeon Intinct™ MI Serie

Radeon Instinct™ MI8 DETAILS

Tieferer Einblick in die technischen Daten

Recheneinheiten64
Peak Half Precision Compute Performance8.2TFLOPS
Maximale einfache Genauigkeit8.2TFLOPS
Maximale doppelte Genauigkeit512GFLOPS
Stream-Prozessoren4096
Durchschnittliche Leistungsaufnahme der Karte (Desktop)175W
Benötigter PCI-Steckplatzabstand2
Speicherdatenrate1Gbps
Memory Speed500MHz
Speichergröße4GB
SpeichertypHBM1
Speicherschnittstelle4096-bit
Max. Speicherbandbreite512GB/s
AMD PowerTune Technology
ProduktfamilieRadeon Instinct™
ProduktlinieRadeon Instinct™ MI Serie
ModellMI8
PlatformServer
Bauform und KühlungVolle Höhe, zwei Steckplätze, 6" lang, passive Kühlung
Unterstützte BSLinux® (64 Bit)
Software PlatformKompatibel mit der ROCm-Softwareumgebung
WarrantyDrei Jahre eingeschränkte Garantie
  1. Die Messungen wurden von AMD Performance-Laboren (Stand: 2. Juni 2017) mit dem auf der „Fiji“ Architektur basierenden Radeon Instinct™ MI8 Accelerator durchgeführt. Die Ergebnisse stellen lediglich Schätzungen dar und können abweichen. Die Performance kann je nach den verwendeten neuesten Treibern variieren. PC-/System-Hersteller wählen u. U. andere Konfigurationen, so dass die Ergebnisse in einem solchen Fall abweichen. Die für MI8 berechneten Ergebnisse ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 8,2 TFLOPS (FP16) und eine Gleitkomma-Rechenleistung mit einfacher Genauigkeit von 8,2 TFLOPS (FP32). Die AMD TFLOPS-Berechnungen wurden anhand der folgenden Gleichung durchgeführt: Für FLOPS-Berechnungen wird der Systemtakt anhand des höchsten DPM-Status ermittelt und dieser dann mit xx Recheneinheiten pro GPU multipliziert. Anschließend wird diese Zahl mit xx Stream-Prozessoren, die in jeder Recheneinheit vorhanden sind, multipliziert. Diese Zahl wird dann mit 2 FLOPS pro Takt für FP32 multipliziert. Zur Berechnung von TFLOPS für FP16 wurden 4 FLOPS pro Taktzyklus verwendet. Für den Nvidia Tesla P40 durchgeführte Messungen ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 0,19 TFLOPS (FP16) bei einer GPU-Leistungsaufnahme von 250 W von einer externen Quelle. Quellen: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Für den Nvidia Tesla P4 durchgeführte Messungen ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 0,09 TFLOPS (FP16) bei einer GPU-Leistungsaufnahme von 75 W von einer externen Quelle. Quellen: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD hat die externen und/oder Drittanbieter-Ergebnisse/-Daten nicht unabhängig getestet oder bestätigt und übernimmt keine Verantwortung für Fehler oder Auslassungen. RIF-1
  2. Die Messungen wurden von AMD Performance-Laboren (Stand: 2. Juni 2017) mit dem auf der „Fiji“ Architektur basierenden Radeon Instinct™ MI8 Accelerator durchgeführt. Die Ergebnisse stellen lediglich Schätzungen dar und können abweichen. Die Performance kann je nach den verwendeten neuesten Treibern variieren. PC-/System-Hersteller wählen u. U. andere Konfigurationen, so dass die Ergebnisse in einem solchen Fall abweichen. Die für Radeon Instinct™ MI8 berechneten Ergebnisse ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 47 GFLOPS/Watt (FP16) und eine Gleitkomma-Rechenleistung mit einfacher Genauigkeit von 47 GFLOPS/Watt (FP32). Die AMD Berechnungen zu den GFLOPS pro Watt wurden anhand der folgenden Gleichung durchgeführt: Für FLOPS-Berechnungen wird der Systemtakt anhand des höchsten DPM-Status ermittelt und dieser dann mit xx Recheneinheiten pro GPU multipliziert. Anschließend wird diese Zahl mit xx Stream-Prozessoren, die in jeder Recheneinheit vorhanden sind, multipliziert. Diese Zahl wird dann mit 2 FLOPS pro Takt für FP32 multipliziert. Zur Berechnung von TFLOPS für FP16 wurden 4 FLOPS pro Taktzyklus verwendet. Nach der TFLOPS-Berechnung wird die Zahl durch die Leistungsaufnahme von 175 W dividiert und mit 1.000 multipliziert. Die für den Nvidia Tesla P40 durchgeführten Messungen, basierend auf einer FP16-Rechenleistung von 0,19 TFLOPS mit einer GPU-Leistungsaufnahme von 250 W, ergaben 0,76 GFLOPS/Watt Rechenleistung mit halber Genauigkeit (FP16). Quellen für Nvidia Tesla P40 FP16-TFLOPS-Wert: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Die für den Nvidia Tesla P4 durchgeführten Messungen, basierend auf einer FP16-Rechenleistung von 0,09 TFLOPS mit einer GPU-Leistungsaufnahme von 75 W, ergaben 1,2 GFLOPS/Watt Rechenleistung mit halber Genauigkeit (FP16). Quellen für Nvidia Tesla P40 FP16-TFLOPS-Wert: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD hat die externen und/oder Drittanbieter-Ergebnisse/-Daten nicht unabhängig getestet oder bestätigt und übernimmt keine Verantwortung für Fehler oder Auslassungen. RIF-2
  3. Geplante Unterstützung für Maschinenintelligenz-Frameworks. Angaben zur Framework-Verfügbarkeit auf der Website www.GPUOpen.com.
  4. Geplante Unterstützung für mehrere Architekturen wie x86, Power8 und ARM; AMD unterstützt außerdem aktuelle Verbindungstechnologien und plant Unterstützung für zukünftige, dem Industriestandard entsprechende Verbindungstechnologien wie GenZ, CCIX und OpenCAPI™. Zeitpunkt und Verfügbarkeit der unterstützten Architekturen und der dem Industriestandard entsprechenden Verbindungstechnologien variieren. Fragen Sie bei Ihrem Systemhersteller nach, ob Ihr System über Architektur-/Technologie-Unterstützung verfügt.

Die hierin enthaltenen Angaben dienen ausschließlich zur Information und können ohne Vorankündigung geändert werden. Obwohl bei der Vorbereitung dieses Dokuments mit aller erdenklichen Sorgfalt vorgegangen wurde, können die technischen Angaben ungenau und unvollständig sein sowie Druckfehler enthalten, und AMD ist nicht zur Aktualisierung oder sonstigen Korrektur dieser Informationen verpflichtet. Advanced Micro Devices, Inc. übernimmt keinerlei Haftung oder Garantie hinsichtlich der Genauigkeit oder Vollständigkeit des Inhalts dieses Dokuments und lehnt jedwede Gewährleistung, einschließlich stillschweigende Garantien der Nichtverletzung von Rechten, Marktfähigkeit oder Eignung für einen bestimmten Zweck, für den Betrieb oder die Verwendung der AMD Hardware, Software oder anderer Produkte ab, die hierin beschrieben sind. „Fiji“ ist ein AMD-interner Codename für die Architektur, es handelt sich nicht um eine Produktbezeichnung. Durch dieses Dokument wird keine Lizenz auf geistiges Eigentum gewährt, weder implizit noch durch Rechtsverwirkung. Die Bedingungen und Einschränkungen, die für den Kauf oder die Nutzung von AMD Produkten gelten, werden durch eine zwischen beiden Parteien geschlossene, unterzeichnete Vereinbarung oder durch die standardmäßigen Verkaufs- und Lieferbedingungen von AMD festgelegt. GD-18

© 2017 Advanced Micro Devices, Inc. Alle Rechte vorbehalten. AMD, das AMD Pfeillogo, Radeon und deren Kombinationen sind Marken von Advanced Micro Devices, Inc. OpenCL ist eine Marke von Apple Inc.; Verwendung mit Genehmigung von Khronos. Andere Namen werden hier nur zu Informationszwecken verwendet und können Marken ihrer jeweiligen Inhaber sein.