Vielseitiger Trainings- und Inferenz-Beschleuniger für maschinelle Intelligenz und Deep Learning

Benachrichtige mich

Ideal Edge-Training Solution for Machine and Deep Learning Applications

Angetrieben durch die "„Polaris“" Architektur

 

36

RECHENEINHEITEN
2304 Stream-Prozessoren
 

5.7

TFLOPS
FP16 and FP32Performance
 

16GB

GDDR5
 
 

224GB/s

MAX. SPEICHERBANDBREITE
 

PERFORMANCE

5,7 TFLOPS Rechenleistung mit halber oder einfacher Genauigkeit in Single-Slot-Karte mit einer Leistungsaufnahme von weniger als 150 Watt 1

  • 5,7 TFLOPS GPU-Rechenleistung (FP16 | FP32).

    Mit 5,7 TFLOPS Rechenleistung (FP16 bzw. FP32) auf einer Karte mit 16 GB GDDR5-Speicher liefert der Radeon Instinct™ MI6 Server Accelerator eine beispiellose Rechenleistung mit einfacher Genauigkeit und großem Speicher auf einer Single-Slot-Karte für Maschinen- und Deep-Learning-Inferenz- sowie Edge-Training-Anwendungen und stellt zudem eine kosteneffiziente Lösung für speicherintensive HPC-Entwicklungssysteme bereit. 1

  • Ultraschneller GDDR5-Speicher mit 16 GB und 256-Bit-Speicherschnittstelle.

    Mit 16 GB GDDR5-GPU-Speicher und bis zu 224 GB/s Speicherbandbreite bietet der Radeon Instinct™ MI6 Server Accelerator eine ausgewogene, vielseitige Computing-Lösung mit einfacher Genauigkeit für anspruchsvolle Maschinenintelligenz- und Deep-Learning-Inferenzanwendungen und stellt zudem dank seines großen Speichers und der geringen Energieanforderungen eine kosteneffiziente Lösung für Edge-Training-Anwendungen bereit.

  • Bis zu 38 GFLOPS pro Watt an FP16- und FP32-GPU-Rechenleistung.

    Mit bis zu 38 GFLOPS/Watt an FP16- oder FP32-GPU-Rechenleistung bietet der Radeon Instinct™ MI6 Server Accelerator eine vielseitige, effiziente Lösung für Maschinenintelligenz- und Deep-Learning-Inferenz- sowie Edge-Training-Anwendungen. 2

  • 36 Recheneinheiten (2.304 Stream-Prozessoren).

    Der Radeon Instinct™ MI6 Server Accelerator verfügt über 36 Recheneinheiten mit jeweils 64 Stream-Prozessoren. Insgesamt macht dies 2.304 Stream-Prozessoren, die für schnellere Ergebnisse eine Vielzahl kleinerer Daten-Batches gleichzeitig gegen neuronale Deep-Learning-Netzwerke laufen lassen. Rechenleistung mit einfacher Genauigkeit in einer kostengünstigen, effizienten Lösung ist für diese Art von Systeminstallationen von entscheidender Bedeutung. Und der MI6 Accelerator liefert in Form einer Single-Slot-GPU-Karte eine herausragende Rechenleistung mit einfacher Genauigkeit ab.

FEATURES

Accelerator mit passiver Kühlung für skalierbare Serverbereitstellungen

  • Auf „Polaris“ Architektur basierender Server Accelerator mit passiver Kühlung.
    Der auf der „Polaris“ Architektur basierende Radeon Instinct™ MI6 Server Accelerator mit 14nm-FinFET-Prozess wurde für hocheffiziente, skalierbare Serverbereitstellungen für Inferenz- und Edge-Training-Anwendungen in Maschinenintelligenz- und Deep-Learning- sowie HPC-Allzweck- und -Entwicklungssystemen konzipiert. Mit diesem GPU Server Accelerator erhalten Kunden eine kosteneffiziente, vielseitige Computing-Lösung bei einer Leistungsaufnahme von lediglich 150 W.
  • GPU-Serverkarte mit 150 W Leistungsaufnahme, einem Einzelsteckplatz und einer Länge von 9,5″.
    Die Radeon Instinct™ MI6 Server-GPU-Karte ist eine Single-Slot-Karte voller Höhe, die mit PCIe® Gen 3-konformen Motherboards verwendet werden kann. Die MI6 GPU-Karte passt in die meisten standardmäßigen Serverdesigns und ermöglicht eine kostengünstige, hocheffiziente Serverlösung zur Bereitstellung heterogener Maschinenintelligenz- und Deep-Learning-Inferenz-, Edge-Training- sowie HPC-Systeme.
  • Ultraschneller GDDR5-Speicher mit bis zu 224 GB/s Speicherbandbreite.
    Der Radeon Instinct™ MI6 Server Accelerator verfügt über 16 GB ultraschnellen GDDR5-Speicher, sodass eine große Menge umfangreicher Daten für anspruchsvolle Maschinenintelligenz- und Deep-Learning-Inferenz-, Edge-Training-Anwendungen sowie HPC-Arbeitslasten gleichzeitig und schnell verarbeitet werden können.
  • MxGPU SRIOV HW-Virtualisierung.
    Der Radeon Instinct™ MI6 Server Accelerator unterstützt die MxGPU SRIOV Hardware-Virtualisierungstechnologie von AMD, um für bessere Auslastung und Kapazitäten im Rechenzentrum zu sorgen.

FALLSTUDIEN

Deep-Learning-Inferenz

Aufgrund des exponentiellen Datenwachstums und der dynamischen Natur der Daten von heute gelten neue Anforderungen bei der Konfiguration von Rechenzentrumssystemen. Designer von Rechenzentren müssen Systeme aufbauen, die äußerst komplexe und parallele Workloads ausführen können, und gleichzeitig die Systemeffizienz verbessern. Mit der Optimierung der Fähigkeiten im Laufe der letzten 10 Jahre bei diskreten GPUs und anderen Beschleunigern stehen Rechenzentrumsdesignern neue Optionen zur Verfügung, um heterogene Computing-Systeme zu entwickeln und den aktuellen Herausforderungen gerecht zu werden.

Rechenzentrumsbereitstellungen mit Inferenzanwendungen, bei denen zur Ermittlung neuen Wissens eine Vielzahl neuer kleinerer Dataset-Inputs mit halber Genauigkeit (FP16) oder einfacher Genauigkeit (FP32) gegen trainierte neuronale Netzwerke ausgeführt werden, erfordern parallele Computing-fähige Systeme, die zur energieeffizienten Daten-Input-Ausführung über viele kleinere Kerne in der Lage sind.

Der Radeon Instinct™ MI6 Accelerator ist eine leistungsfähige, kosteneffiziente Lösung für Maschinenintelligenz- und Deep-Learning-Inferenzbereitstellungen in Rechenzentren. Er bietet in Form einer Single-Slot-Karte eine Gleitkomma-Rechenleistung mit halber oder einfacher Genauigkeit von jeweils 5,7 TFLOPS bei einer Leistungsaufnahme von 150 Watt. 1 Designer von Rechenzentren erhalten mit dem MI6 Accelerator, der auf der AMD „Polaris“ Architektur mit ultraschnellem 16-GB-GDDR5-Speicher und einer Bandbreite von bis zu 224 GB/s basiert, und der offenen ROCm-Softwareplattform von Radeon Instinct™ eine vielseitige, hocheffiziente Lösung für Inferenzbereitstellungen.

Hauptvorteile für Inferenz:

  • 5,7 TFLOPS Rechenleistung mit halber oder einfacher Genauigkeit 1
  • 38 GFLOPS/Watt FP16|FP32-Leistung für effiziente Inferenz- und Edge-Training-Bereitstellungen 2
  • 358 GFLOPS Rechenleistung mit doppelter Genauigkeit (FP64)
  • 2,4 GFLOPS/Watt FP64-Leistung
  • 16 GB GDDR5-Speicher mit 256-Bit-Speicherschnittstelle für ultraschnelle Speicherperformance
  • Passive Kühlung, Einzelsteckplatz, GPU-Karte für skalierbare Serverbereitstellungen
  • Hyperscale-Open-Source-Plattform durch ROCm-Softwareplattform
  • Open-Source-Linux-Treiber, -HCC-Compiler, -Tools und -Bibliotheken für vollständige Kontrolle
  • Optimierte MIOpen-Deep-Learning-Framework-Bibliotheken
  • BAR-Support für mGPU Peer-to-Peer
  • MxGPU SR-IOV Hardware-Virtualisierung für optimierte Systemauslastung

 

Edge-Training für Deep Learning

Aufgrund des exponentiellen Datenwachstums und der Dynamik der Daten von heute gelten neue Anforderungen bei der Konfiguration von Rechenzentrumssystemen. Designer von Rechenzentren müssen Systeme aufbauen, die äußerst komplexe und parallele Workloads ausführen können, und dabei auf die Optimierung der Systemeffizienz achten. Mit der Verbesserung der Fähigkeiten im Laufe der letzten 10 Jahre bei diskreten GPUs und anderen Beschleunigern stehen Rechenzentrumsdesignern neue Optionen zur Verfügung, um heterogene Computing-Systeme zu entwickeln und den aktuellen Herausforderungen gerecht zu werden.

Wenn in Rechenzentren mit Maschinenintelligenz- und Deep-Learning-Anwendungen, für die Edge-Training-Bereitstellungen verwendet werden, kostengünstige, effiziente Computing-Systeme gewünscht sind, um weniger rechenintensive Trainingsaufgaben mit einer großen Anzahl an Low-Cost-Edge-Servern zu verarbeiten, lassen sich die Gesamtkosten für das Rechenzentrum durch höhere Effizienz senken. Diese Systeme benötigen Beschleuniger, die eine gute Rechenleistung mit einfacher Genauigkeit und einem großen Speicher in einem dichten, energieeffizienten Paket bieten.

Der Radeon Instinct™ MI6 Accelerator ist ein vielseitiger, energieeffizienter Server Accelerator, der die Anforderungen von Low-Cost-Edge-Training-Bereitstellungen für Maschinenintelligenz- und Deep-Learning-Anwendungen im Rechenzentrum perfekt abdeckt und in Form einer Single-Slot-GPU-Karte eine Gleitkomma-Rechenleistung von 38 GFLOPS/Watt mit halber Genauigkeit (FP16) bzw. einfacher Genauigkeit (FP32) bei einer Leistungsaufnahme von 150 Watt liefert. 1 Designer von Rechenzentren erhalten mit dem MI6 Accelerator, der auf der AMD „Polaris“ Architektur mit ultraschnellem 16-GB-GDDR5-Speicher und einer Bandbreite von bis zu 224 GB/s basiert, und dem offenen Radeon Instinct™ Technologieumgebungsansatz der ROCm-Softwareplattform eine vielseitige, hocheffiziente Lösung für Edge-Training-Bereitstellungen.

Hauptvorteile: für Edge-Training:

  • 5,7 TFLOPS Rechenleistung mit halber oder einfacher Genauigkeit 1
  • 38 GFLOPS/Watt FP16|FP32-Leistung in Single-Slot-Karte 2
  • 358 GFLOPS Rechenleistung mit doppelter Genauigkeit (FP64)
  • 2,4 GFLOPS/Watt FP64-Leistung
  • 16 GB GDDR5-Speicher mit 256-Bit-Speicherschnittstelle für ultraschnelle Speicherperformance
  • Passive Kühlung für skalierbare Serverbereitstellungen
  • Hyperscale-Open-Source-Plattform durch ROCm-Softwareplattform
  • Open-Source-Linux-Treiber, -HCC-Compiler, -Tools und -Bibliotheken für vollständige Kontrolle von Grund auf
  • Optimierte MIOpen-Deep-Learning-Framework-Bibliotheken
  • BAR-Support für mGPU Peer-to-Peer
  • MxGPU SR-IOV Hardwarevirtualisierung für optimierte Systemauslastung
  • Unterstützung für verschiedene offene Branchenarchitekturen und dem Industriestandard entsprechende Verbindungstechnologien 3

 

Heterogenes Computing für HPC-Allzweck- und -Entwicklungssysteme

Die HPC-Branche erzeugt Jahr für Jahr eine riesige Menge unstrukturierter Daten und ein Teil der HPC-Systemkonfigurationen wird umgestaltet, damit die Community nützliche Informationen aus diesen Daten extrahieren kann. Üblicherweise waren diese Systeme CPU-basiert, aber angesichts des explosionsartigen Wachstums in Bezug auf die Datenmengen und -typen sowie der Entstehung komplexerer Codes können diese traditionellen Systeme nicht alle Anforderungen der heutigen datenintensiven HPC-Arbeitslasten erfüllen. Wegen der zunehmenden Komplexität und Parallelität dieser Codetypen kommen verstärkt heterogene Computing-Systeme mit verschiedenen Accelerator-Kombinationen zum Einsatz, darunter diskrete GPUs und FPGAs. Die während des letzten Jahrzehnts weiterentwickelten GPU-Funktionen können nun für eine zunehmende Zahl dieser gemischten parallelen Codes verwendet werden, etwa wie die Codes für Deep-Learning-Anwendungen. Forscher und Wissenschaftler auf der ganzen Welt greifen nun auf Beschleuniger zurück, um parallele HPC-Codes in verschiedensten Bereichen wie der Life-Science-, Energie-, Finanz- und Automobilbranche, in der Luft- und Raumfahrtindustrie, Hochschulen, Behörden und dem Verteidigungssektor effizienter verarbeiten zu können.

Der Radeon Instinct™ MI6 Accelerator stellt in Verbindung mit der revolutionären offenen ROCm-Softwareplattform von AMD eine vielseitige, effiziente heterogene Computing-Lösung dar, die über eine Single-Slot-GPU-Karte mit einer Leistungsaufnahme von 150 Watt sowie 16 GB ultraschnellem GDDR5-Speicher und einer Speicherbandbreite von bis zu 224 GB/s eine Rechenleistung mit halber oder einfacher Genauigkeit von jeweils 5,7 TFLOPS bereitstellt. 1 Der Radeon Instinct™ MI6 Accelerator ist eine optimale heterogene Computing-Lösung für kostensensible Allzweck- und Entwicklungssysteme für Finanzdienstleister, Energie-, Life-Science- und Automobilunternehmen, Hochschulen (Forschung und Lehre), staatliche Labore und andere HPC-Bereiche.

Hauptvorteile für HPC:

  • 5,7 TFLOPS Rechenleistung mit halber oder einfacher Genauigkeit 1
  • 38 GFLOPS/Watt FP16|FP32-Rechenleistung für verschiedene HPC-Arbeitslasten 2
  • 358 GFLOPS Rechenleistung mit doppelter Genauigkeit (FP64)
  • 2,4 GFLOPS/Watt Rechenleistung mit doppelter Genauigkeit
  • 16 GB GDDR5-Speicher mit 256-Bit-Speicherschnittstelle für umfassende, ultraschnelle Speicherperformance
  • Passive Kühlung für skalierbare Serverbereitstellungen
  • HPC-Open-Source-Plattform durch ROCm-Softwareplattform
  • Open-Source-Linux-Treiber, -HCC-Compiler, -Tools und -Bibliotheken für vollständige Kontrolle
  • MxGPU SR-IOV Hardware-Virtualisierung für optimierte Systemauslastung

Download the Radeon Instinct™ MI6 Data Sheet

Radeon Intinct™ MI6 DataSheet

Entdecken Sie die Radeon Instinct™ MI Serie

RADEON INSTINCT™ MI SERIE

Radeon Instinct™ MI6 Server Accelerator DETAILS

Tieferer Einblick in die technischen Daten

Recheneinheiten36
Peak Half Precision Compute Performance5.7TFLOPS
Maximale einfache Genauigkeit5.7TFLOPS
Maximale doppelte Genauigkeit358GFLOPS
Stream-Prozessoren2304
Durchschnittliche Leistungsaufnahme der Karte (Desktop)150W
Benötigter PCI-Steckplatzabstand1
Speicherdatenrate7Gbps
Memory Speed1750MHz
Speichergröße16GB
SpeichertypGDDR5
Speicherschnittstelle256-bit
Max. Speicherbandbreite224GB/s
AMD Power Tune Technologie
ProduktfamilieRadeon Instinct™
ProduktlinieRadeon Instinct™ MI Serie
ModellMI6
PlatformServer
Bauform und KühlungVolle Höhe, ein Steckplatz, 9,5" lang, passive Kühlung
Unterstützte BSLinux® (64 Bit)
Software PlatformKompatibel mit der ROCm-Softwareumgebung
WarrantyDrei Jahre eingeschränkte Garantie
  1. Die Messungen wurden von AMD Performance-Laboren (Stand: 2. Juni 2017) mit dem auf der „Polaris“ Architektur basierenden Radeon Instinct™ MI6 Accelerator durchgeführt. Die Ergebnisse stellen lediglich Schätzungen dar und können abweichen. Die Performance kann je nach den verwendeten neuesten Treibern variieren. PC-/System-Hersteller wählen u. U. andere Konfigurationen, so dass die Ergebnisse in einem solchen Fall abweichen. Die für Radeon Instinct™ MI6 berechneten Ergebnisse ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 5,7 TFLOPS (FP16) und eine Gleitkomma-Rechenleistung mit einfacher Genauigkeit von 5,7 TFLOPS (FP32). Die AMD TFLOPS-Berechnungen wurden anhand der folgenden Gleichung durchgeführt: Für FLOPS-Berechnungen wird der Systemtakt anhand des höchsten DPM-Status ermittelt und dieser dann mit xx Recheneinheiten pro GPU multipliziert. Anschließend wird diese Zahl mit xx Stream-Prozessoren, die in jeder Recheneinheit vorhanden sind, multipliziert. Diese Zahl wird dann mit 2 FLOPS pro Takt für FP32 multipliziert. Zur Berechnung von TFLOPS für FP16 wurden 4 FLOPS pro Taktzyklus verwendet. Für den Nvidia Tesla P40 durchgeführte Messungen ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 0,19 TFLOPS (FP16) bei einer GPU-Leistungsaufnahme von 250 W von einer externen Quelle. Quelle: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Für den Nvidia Tesla P4 durchgeführte Messungen ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 0,09 TFLOPS (FP16) bei einer GPU-Leistungsaufnahme von 75 W von einer externen Quelle. Quelle: https://devblogs.nvidiahttps://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD hat die externen und/oder Drittanbieter-Ergebnisse/-Daten nicht unabhängig getestet oder bestätigt und übernimmt keine Verantwortung für Fehler oder Auslassungen. RIP-1
  2. Die Messungen wurden von AMD Performance-Laboren (Stand: 2. Juni 2017) mit dem auf der „Polaris“ Architektur basierenden Radeon Instinct™ MI6 Accelerator durchgeführt. Die Ergebnisse stellen lediglich Schätzungen dar und können abweichen. Die Performance kann je nach den verwendeten neuesten Treibern variieren. PC-/System-Hersteller wählen u. U. andere Konfigurationen, so dass die Ergebnisse in einem solchen Fall abweichen. Die für Radeon Instinct™ MI6 berechneten Ergebnisse ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 38 GFLOPS/Watt (FP16) und eine Gleitkomma-Rechenleistung mit einfacher Genauigkeit von 38 GFLOPS (FP32). Die AMD Berechnungen zu den GFLOPS pro Watt wurden anhand der folgenden Gleichung durchgeführt: Für FLOPS-Berechnungen wird der Systemtakt anhand des höchsten DPM-Status ermittelt und dieser dann mit xx Recheneinheiten pro GPU multipliziert. Anschließend wird diese Zahl mit xx Stream-Prozessoren, die in jeder Recheneinheit vorhanden sind, multipliziert. Diese Zahl wird dann mit 2 FLOPS pro Takt für FP32 multipliziert. Zur Berechnung von TFLOPS für FP16 wurden 4 FLOPS pro Taktzyklus verwendet. Nach der TFLOPS-Berechnung wird die Zahl durch die Leistungsaufnahme von 150 W dividiert und mit 1.000 multipliziert. Die für den Nvidia Tesla P40 durchgeführten Messungen, basierend auf einer FP16-Rechenleistung von 0,19 TFLOPS mit einer GPU-Leistungsaufnahme von 250 W, ergaben 0,76 GFLOPS/Watt Rechenleistung mit halber Genauigkeit (FP16). Quelle: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Die für den Nvidia Tesla P4 durchgeführten Messungen, basierend auf einer FP16-Rechenleistung von 0,09 TFLOPS mit einer GPU-Leistungsaufnahme von 75 W, ergaben 1,2 GFLOPS/Watt Rechenleistung mit halber Genauigkeit (FP16). Quellen: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD hat die externen/Drittanbieter-Ergebnisse/-Daten nicht unabhängig getestet oder bestätigt und übernimmt keine Verantwortung für Fehler oder Auslassungen. RIP-2
  3. Geplante Unterstützung für mehrere Architekturen wie x86, Power8 und ARM; AMD unterstützt außerdem aktuelle Verbindungstechnologien und plant Unterstützung für zukünftige, dem Industriestandard entsprechende Verbindungstechnologien wie GenZ, CCIX und OpenCAPI™. Zeitpunkt und Verfügbarkeit der unterstützten Architekturen und der dem Industriestandard entsprechenden Verbindungstechnologien variieren. Fragen Sie bei Ihrem Systemhersteller nach, ob Ihr System über Architektur-/Technologie-Unterstützung verfügt.

Die Radeon Instinct™ GPU-Accelerator haben eine eingeschränkte 3-Jahres-Garantie (siehe www.AMD.com/warranty).
Die hierin enthaltenen Angaben dienen ausschließlich zur Information und können ohne Vorankündigung geändert werden. Obwohl bei der Vorbereitung dieses Dokuments mit aller erdenklichen Sorgfalt vorgegangen wurde, können die technischen Angaben ungenau und unvollständig sein sowie Druckfehler enthalten, und AMD ist nicht zur Aktualisierung oder sonstigen Korrektur dieser Informationen verpflichtet. Advanced Micro Devices, Inc. übernimmt keinerlei Haftung oder Garantie hinsichtlich der Genauigkeit oder Vollständigkeit des Inhalts dieses Dokuments und lehnt jedwede Gewährleistung, einschließlich stillschweigende Garantien der Nichtverletzung von Rechten, Marktfähigkeit oder Eignung für einen bestimmten Zweck, für den Betrieb oder die Verwendung der AMD Hardware, Software oder anderer Produkte ab, die hierin beschrieben sind. „Polaris“ ist ein AMD-interner Codename für die Architektur, es handelt sich nicht um eine Produktbezeichnung. Durch dieses Dokument wird keine Lizenz auf geistiges Eigentum gewährt, weder implizit noch durch Rechtsverwirkung. Die Bedingungen und Einschränkungen, die für den Kauf oder die Nutzung von AMD Produkten gelten, werden durch eine zwischen beiden Parteien geschlossene, unterzeichnete Vereinbarung oder durch die standardmäßigen Verkaufs- und Lieferbedingungen von AMD festgelegt. GD-18

© 2017 Advanced Micro Devices, Inc. Alle Rechte vorbehalten. AMD, das AMD Pfeillogo, Radeon und deren Kombinationen sind Marken von Advanced Micro Devices, Inc. OpenCL ist eine Marke von Apple Inc.; Verwendung mit Genehmigung von Khronos. Andere Namen werden hier nur zu Informationszwecken verwendet und können Marken ihrer jeweiligen Inhaber sein.