Der weltweit schnellste Training-Accelerator für Maschinenintelligenz und Deep Learning 1

Benachrichtige mich

Der weltweit schnellste Training-Accelerator für Maschinenintelligenz und Deep Learning

Angetrieben durch die "“Vega”" Architektur

 

64 nCU

RECHENEINHEITEN
4096 Stream-Prozessoren
 

24.6/12.3

TFLOPS
FP16 / FP32 Performance
 

16GB

HBM2
 
 

484GB/s

MAX. SPEICHERBANDBREITE
 

PERFORMANCE

Beispiellose Gleitkomma-Rechenleistung mit halber und einfacher Genauigkeit 1

  • 24,6 TFLOPS FP16-GPU-Rechenleistung oder 12,3 TFLOPS FP32-GPU-Rechenleistung.

     

  • Mit 24,6 TFLOPS FP16-GPU-Rechenleistung bzw. 12,3 TFLOPS FP32-GPU-Rechenleistung auf einer einzigen Karte stellt der Radeon Instinct™ MI25 Server Accelerator eine herausragende Rechenleistung mit einfacher Genauigkeit für rechenintensive Maschinenintelligenz- und Deep-Learning-Training-Anwendungen zur Verfügung. 1 Der MI25 ist eine leistungsstarke Lösung für die meisten parallelen HPC-Arbeitslasten und bietet zudem 768 GFLOPS Rechenleistung mit doppelter Genauigkeit (FP64) bei 1/16-Rate.
  • 16 GB HBM2 ECC 2-GPU-Speicher mit sehr hoher Bandbreite.

    Mit einer doppelt so hohen Datenrate gegenüber vorherigen Generationen auf einer 512-Bit-Speicherschnittstelle, einem mit einer hohen Bandbreite versehenen Cache und Controller der nächsten Generation sowie zuverlässigem ECC-Speicher ermöglicht der 16 GB große HBM2-GPU-Speicher des Radeon Instinct™ MI25 eine professionelle Accelerator-Lösung, die für anspruchvollste datenintensive Maschinenintelligenz- und Deep-Learning-Training-Anwendungen geeignet ist. 3

  • Bis zu 82 GFLOPS/Watt FP16-GPU-Rechenleistung oder 41 GFLOPS/Watt FP32-GPU-Rechenleistung.

    Mit bis zu 82 GFLOPS/Watt FP16-GPU-Rechenleistung bzw. 41 GFLOPS/Watt FP32-GPU-Rechenleistung bietet der Radeon Instinct™ MI25 Server Accelerator eine bespiellose Pro-Watt-Performance für Maschinenintelligenz- und Deep-Learning-Training-Anwendungen in Rechenzentren, in denen Leistung und Energieeffizienz entscheidende ROI-Faktoren sind. 4 Der MI25 liefert darüber hinaus 2,5 GFLOPS/Watt an FP64-Rechenleistung.

  • 64 Recheneinheiten mit je 64 Stream-Prozessoren

    Der Radeon Instinct™ MI25 Server Accelerator verfügt über 64 Recheneinheiten mit jeweils 64 Stream-Prozessoren. Insgesamt macht dies 4.096 Stream-Prozessoren. Er basiert auf der „Vega“ Architektur der nächsten Generation mit einer neu entwickelten Computing-Engine, die auf flexiblen neuen Recheneinheiten (nCUs) aufbaut und eine 16-Bit-, 32-Bit- und 64-Bit-Verarbeitung bei höheren Frequenzen ermöglicht, um so die neuen dynamischen Workloads von heute optimieren zu können. Der Radeon Instinct™ MI25 liefert eine erstklassige Rechenleistung mit einfacher Genauigkeit und Flexibilität für die anspruchvollsten rechenintensiven parallelen Maschinenintelligenz- und Deep-Learning-Anwendungen in einem effizienten Paket.

MERKMALE

Basierend auf der AMD „Vega“ Architektur der nächsten Generation mit einem der weltweit fortschrittlichstem GPU-Speicher

  • GPU Server Accelerator mit passiver Kühlung, basierend auf der „Vega“ Architektur der nächsten Generation mit einem 14nm-FinFET-Prozess. Der Radeon Instinct™ MI25 Server Accelerator, der auf der neuen „Vega“ Architektur mit einem 14nm-FinFET-Prozess basiert, ist ein auf Rechendichte ausgelegter und für Serverbereitstellungen in Rechenzentren optimierter professioneller Beschleuniger. Er ist die ideale Lösung für rechenintensive, auf einfache Genauigkeit angewiesene Maschinenintelligenz- und Deep-Learning-Training-Anwendungen sowie andere HPC-Arbeitslasten, bei denen es auf die Performance pro Watt ankommt.
  • PCIe® Gen 3 x16-GPU-Serverkarte voller Höhe mit 300 W Leistungsaufnahme, Dual-Steckplatz und einer Länge von 10,5″. Die Radeon Instinct™ MI25 Server PCIe® Gen 3 x16 GPU-Karte ist eine Dual-Slot-Karte voller Höhe. Sie passt in die meisten standardmäßigen Serverdesigns und bietet eine Performance-orientierte Serverlösung zur Bereitstellung heterogener Maschinenintelligenz- und Deep-Learning- und HPC-Systeme.
  • HBM2 ECC 4 -Speicher mit einer sehr hohen Speicherbandbreite von bis zu 484 GB/s. Das Design des Radeon Instinct™ MI25 Server Accelerator umfasst 16 GB an neuestem HBM2-Speicher mit hoher Bandbreite, um die Anforderungen größerer Datasets der anspruchsvollsten Maschinenintelligenz- und Deep-Learning-Training-Systeme für neuronale Netzwerke effizient zu handhaben. Durch den 16 GB großen ECC HBM2-Speicher des MI25 Accelerator ist der Beschleuniger zudem die perfekte Lösung für datenintensive HPC-Arbeitslasten.
  • MxGPU SR-IOV Hardware-Virtualisierung. Der Radeon Instinct™ MI25 Server Accelerator unterstützt die MxGPU SRIOV Hardware-Virtualisierungstechnologie von AMD, um für bessere Auslastung und Kapazitäten im Rechenzentrum zu sorgen.
  • Aktualisierte Funktionen zur Remote-Verwaltbarkeit. Der Radeon Instinct™ MI25 Accelerator ist so geschaltet, dass durch Out-of-Band-Verwaltbarkeit eine vereinfachte GPU-Überwachung in großen Systemen ermöglicht wird. Die MI25-Funktionen zur Verwaltbarkeit ermöglichen einen Zugriff über I2C, und zwar unabhängig vom jeweiligen GPU-Status. So lassen sich verschiedene statische und dynamische GPU-Informationen anhand PMCI-konformer Datenstrukturen wie Teile- und Seriennummern, GPU-Temperatur-, Energie- und andere Daten genau überwachen.

FALLSTUDIEN

Maschinenintelligenz- und Deep-Learning-Training für neuronale Netzwerke

Die heutigen Trainingstechniken im Zusammenhang mit Maschinenintelligenz- und Deep-Learning-Anwendungen für neuronale Netzwerke, wie sie sich in Rechenzentren finden, sind äußerst komplex. Das Training dieser Netzwerke erfordert die Verarbeitung enormer Datenmengen, damit diese dann Muster innerhalb von Daten erkennen können. Dies erfordert Fließkomma-Berechnungen auf zahlreichen Kernen. Herkömmliche CPUs können diese Art von Berechnungen nicht so effizient durchführen wie GPUs. GPUs können binnen Tagen Berechnungen durchführen, für die CPUs ganze Wochen benötigen würden. Die Radeon Instinct™ MI25 liefert in Kombination mit den neuen Epyc™ Server-Prozessoren von AMD und unserer offenen ROCm-Softwareplattform eine hervorragende Leistung für Maschinenintelligenz- und Deep-Learning-Anwendungen.

Die herausragende MI25-native 24,6 TFLOPS Gleitkomma-Rechenleistung mit halber Genauigkeit (FP16) oder 12,3 TFLOPS mit einfacher Genauigkeit (FP32) auf 4.096 Stream-Prozessoren bieten Kunden in Kombination mit dem erweiterten High Bandwidth Cache (HBC), dem Controller und den 16 GB HBM2-Speicher ein ganz neues Computing-Erlebnis, das die heutigen anspruchsvollen Systemanforderungen für die effiziente Verarbeitung großer Datenmengen sowie für das Training der komplexen neuronalen Deep-Learning-Netzwerke erfüllt. 1 Der auf der „Vega“ Architektur der nächsten Generation von AMD basierende MI25 Accelerator mit der modernsten Speicherarchitektur der Welt ist auf die Verarbeitung großer Datenmengen ausgelegt und bietet in puncto Durchsatz pro Takt gegenüber früheren Generationen enorme Verbesserungen. Er liefert bis zu 82 GFLOPS pro Watt (FP16) oder 41 GFLOPS pro Watt (FP32) GPU-Rechenleistung und bietet damit eine herausragende Performance pro Watt für Bereitstellungen von Maschinenintelligenz-Deep-Learning-Trainings in den Rechenzentren, wo Performance und Effizienz das A und O sind. 4

Vorteile für Maschinenintelligenz- und Deep-Learning-Training für neuronale Netzwerke:

  • Beispiellose FP16- und FP32-Gleitkomma-Rechenleistung 1
  • Offene ROCm-Softwareplattform für HPC-Racks
  • Optimierte MIOpen-Deep-Learning-Framework-Bibliotheken
  • Large BAR-Support für mGPU Peer-to-Peer
  • Konfigurationsvorteile durch Epyc™-Server-Prozessoren
  • Hervorragende Rechendichte und Performance pro Knoten bei der Kombination der neuen AMD Epyc™ Prozessor-basierten Server und Produkten, die auf Radeon Instinct™ basieren
  • MxGPU SR-IOV Hardware-Virtualisierung für eine bessere Auslastung und mehr Kapazität im Rechenzentrum

 

Heterogenes HPC-Computing

Die HPC-Branche erzeugt Jahr für Jahr eine riesige Menge unstrukturierter Daten und ein Teil der HPC-Systemkonfigurationen wird umgestaltet, damit die Community nützliche Informationen aus diesen Daten extrahieren kann. Üblicherweise waren diese Systeme CPU-basiert, aber angesichts des explosionsartigen Wachstums in Bezug auf die Datenmengen und -typen sowie der Entstehung komplexerer Codes können diese traditionellen Systeme nicht alle Anforderungen der heutigen datenintensiven HPC-Arbeitslasten erfüllen. Wegen der zunehmenden Komplexität und Parallelität dieser Codetypen kommen verstärkt heterogene Computing-Systeme mit verschiedenen Accelerator-Kombinationen zum Einsatz, darunter diskrete GPUs und FPGAs. Die während des letzten Jahrzehnts weiterentwickelten GPU-Funktionen können nun für eine zunehmende Zahl dieser parallelen Codes verwendet werden, etwa wie die Codes zum Trainieren neuronaler Netzwerke für Deep Learning. Forscher und Wissenschaftler auf der ganzen Welt greifen nun auf Accelerator zurück, um parallele HPC-Codes in verschiedensten Bereichen wie der Life-Science-, Energie-, Finanz- und Automobilbranche, in der Luft- und Raumfahrtindustrie, Hochschulen, Behörden und dem Verteidigungssektor effizienter verarbeiten zu können.

Die Radeon Instinct™ MI25 stellt zusammen mit den neuen „Zen“-basierten Epyc™-Server-CPUs von AMD und unserer revolutionären offenen ROCm-Softwareplattform einen progressiven Ansatz für heterogenes Computing von Grund auf dar. Die HPC-Lösungen der nächsten Generation von AMD bieten maximale Rechendichte und Performance pro Knoten und gleichzeitig die nötige Effizienz für die massiv-parallelen, datenintensiven Codes von heute. Außerdem stellen Sie eine leistungsfähige, flexible Lösung für Allzweck-HPC-Bereitstellungen dar. Die ROCm-Softwareplattform bietet eine skalierbare HPC-Lösung, die Wissenschaftlern und Forschern komplett quelloffene Linux-Treiber, HCC-Compiler, Tools und Bibliotheken für vollständige Systemkontrolle von Grund auf bereitstellt. Der offene Technologieumgebungsansatz von Radeon Instinct™ unterstützt verschiedene Architekturen wie x86, Power8 und ARM sowie Verbindungstechnologien nach Industriestandard. Die Kunden können damit optimierte HPC-Systeme für das Zeitalter des heterogenen Computings entwickeln, die den offenen HPC-Forschungsansatz berücksichtigen. 4

Hauptvorteile für heterogenes HPC-Computing:

  • Herausragende Rechendichte und Performance pro Knoten
  • Offene ROCm-Softwareplattform für HPC-Racks
  • Open-Source-Linux-Treiber, -HCC-Compiler, -Tools und -Bibliotheken für vollständige Kontrolle
  • Unterstützung für verschiedene offene Branchenarchitekturen und dem Industriestandard entsprechende Verbindungstechnologien 4

Laden Sie das Datenblatt zu Radeon Instinct™ MI25 herunter.

RADEON INSTINCT™ MI25 – Datenblatt

Entdecken Sie die Radeon Instinct™ MI Serie

RADEON INSTINCT™ MI SERIE

Radeon Instinct™ MI25 Server Accelerator DETAILS

Tieferer Einblick in die technischen Daten

Recheneinheiten64 nCU
Peak Half Precision Compute Performance24.6TFLOPS
Maximale einfache Genauigkeit12.3TFLOPS
Maximale doppelte Genauigkeit768GFLOPS
Stream-Prozessoren4096
Durchschnittliche Leistungsaufnahme der Karte (Desktop)300W
Benötigter PCI-Steckplatzabstand2
Speicherdatenrate1.89Gbps
Memory Speed945MHz
Speichergröße16GB
SpeichertypHBM2
Speicherschnittstelle2048-bit
Max. Speicherbandbreite484GB/s
AMD Power Tune Technologie
Error-Correcting Code-Speicher (ECC)
ProduktfamilieRadeon Instinct™
ProduktlinieRadeon Instinct™ MI Serie
ModellMI25
PlatformServer
Bauform und KühlungPassiv, zwei Steckplätze
Unterstützte BSLinux® (64 Bit)
Software PlatformROCm Software Ecosystem Compatible
WarrantyKompatibel mit der ROCm-Softwareumgebung
  1. Die Messungen wurden von AMD Performance-Laboren (Stand: 2. Juni 2017) mit dem auf der „Vega“ Architektur basierenden Radeon Instinct™ MI25 Accelerator durchgeführt. Die Ergebnisse stellen lediglich Schätzungen dar und können abweichen. Die Performance kann je nach den verwendeten neuesten Treibern variieren. PC-/System-Hersteller wählen u. U. andere Konfigurationen, so dass die Ergebnisse in einem solchen Fall abweichen. Die für Radeon Instinct™ MI25 berechneten Ergebnisse ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 24,6 TFLOPS (FP16) und eine Gleitkomma-Rechenleistung mit einfacher Genauigkeit von 12,3 TFLOPS (FP32). Die AMD TFLOPS-Berechnungen wurden anhand der folgenden Gleichung durchgeführt: Für FLOPS-Berechnungen wird der Systemtakt anhand des höchsten DPM-Status ermittelt und dieser dann mit xx Recheneinheiten pro GPU multipliziert. Anschließend wird diese Zahl mit xx Stream-Prozessoren, die in jeder Recheneinheit vorhanden sind, multipliziert. Diese Zahl wird dann mit 2 FLOPS pro Takt für FP32 multipliziert. Zur Berechnung von TFLOPS für FP16 wurden 4 FLOPS pro Taktzyklus verwendet. Die FP64-TFLOPS-Rate wird mithilfe der 1/16-Rate berechnet. Extern für den NVidia Tesla P100-16 GPU-Beschleuniger (16-GB-Karte) ermittelte Ergebnisse ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 18,7 TFLOPS (FP16) und eine Gleitkomma-Rechenleistung mit einfacher Genauigkeit von 9,3 TFLOPS (FP32). Ergebnisquelle: https://images.nvidia.com/content/tesla/pdf/nvidia-tesla-p100-PCIe-datasheet.pdf. Extern für den NVidia Tesla P100-SXM2 GPU-Beschleuniger ermittelte Ergebnisse ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 21,2 TFLOPS (FP16) und eine Gleitkomma-Rechenleistung mit einfacher Genauigkeit von 10,6 TFLOPS (FP32). Ergebnisquelle: http://www.nvidia.com/object/tesla-p100.html. AMD hat die externen/Drittanbieter-Ergebnisse/-Daten nicht unabhängig getestet oder bestätigt und übernimmt keine Verantwortung für Fehler oder Auslassungen. RIV-1
  2. ECC-Unterstützung ist begrenzt auf den HBM2-Speicher und es wird kein ECC-Schutz für interne GPU-Strukturen bereitgestellt.
  3. Die Messungen wurden von AMD Performance-Laboren (Stand: 2. Juni 2017) mit dem auf der „Vega“ Architektur basierenden Radeon Instinct™ MI25 Accelerator durchgeführt. Die Ergebnisse stellen lediglich Schätzungen dar und können abweichen. Die Performance kann je nach den verwendeten neuesten Treibern variieren. PC-/System-Hersteller wählen u. U. andere Konfigurationen, so dass die Ergebnisse in einem solchen Fall abweichen. Die für Radeon Instinct™ MI25 berechneten Ergebnisse ergaben eine Gleitkomma-Rechenleistung mit halber Genauigkeit von 82 GFLOPS/Watt (FP16) und eine Gleitkomma-Rechenleistung mit einfacher Genauigkeit von 41 GFLOPS/Watt (FP32). Die AMD Berechnungen zu den GFLOPS pro Watt wurden anhand der folgenden Gleichung durchgeführt: Für FLOPS-Berechnungen wird der Systemtakt anhand des höchsten DPM-Status ermittelt und dieser dann mit xx Recheneinheiten pro GPU multipliziert. Anschließend wird diese Zahl mit xx Stream-Prozessoren, die in jeder Recheneinheit vorhanden sind, multipliziert. Diese Zahl wird dann mit 2 FLOPS pro Takt für FP32 multipliziert. Zur Berechnung von TFLOPS für FP16 wurden 4 FLOPS pro Taktzyklus verwendet. Die FP64-TFLOPS-Rate wird mithilfe der 1/16-Rate berechnet. Sobald die TFLOPS berechnet wurden, wird die Zahl durch die Leistungsaufnahme von xxx Watt geteilt und mal 1.000 multipliziert, um die GFLOPS pro Watt zu bestimmen. Die am 2. Juni 2017 in den AMD Performance Labs an der NVidia Tesla P100-16 GPU-Beschleuniger (16-GB-Karte) durchgeführten Berechnungen zur Bestimmung von GFLOPS/Watt, indem die TFLOPS-Ergebnisse durch eine Leistungsaufnahme von 250 Watt geteilt wurden, ergaben 75 GFLOPS pro Watt mit halber Genauigkeit (FP16) und 37 GFLOPS pro Watt Gleitkomma-Rechenleistung mit einfacher Genauigkeit (FP32). Quellen: https://images.nvidia.com/content/tesla/pdf/nvidia-tesla-p100-PCIe-datasheet.pdf
    Die am 2. Juni 2017 in den AMD Performance Labs an der NVidia Tesla P100-SXM2 GPU-Beschleuniger durchgeführten Berechnungen zur Bestimmung von GFLOPS/Watt, indem die TFLOPS-Ergebnisse durch eine Leistungsaufnahme von 300 Watt geteilt wurden, ergaben 71 GFLOPS pro Watt mit halber Genauigkeit (FP16) und 35 GFLOPS pro Watt Gleitkomma-Rechenleistung mit einfacher Genauigkeit (FP32). Quellen: http://www.nvidia.com/object/tesla-p100.html. AMD hat die externen/Drittanbieter-Ergebnisse/-Daten nicht unabhängig getestet oder bestätigt und übernimmt keine Verantwortung für Fehler oder Auslassungen. RIV-4
  4. Geplante Unterstützung für mehrere Architekturen wie x86, Power8 und ARM; AMD unterstützt außerdem aktuelle Verbindungstechnologien und plant Unterstützung für zukünftige, dem Industriestandard entsprechende Verbindungstechnologien wie GenZ, CCIX und OpenCAPI™. Zeitpunkt und Verfügbarkeit der unterstützten Architekturen und der dem Industriestandard entsprechenden Verbindungstechnologien variieren. Fragen Sie bei Ihrem Systemhersteller nach, ob Ihr System über Architektur-/Technologie-Unterstützung verfügt.

Die hierin enthaltenen Angaben dienen ausschließlich zur Information und können ohne Vorankündigung geändert werden. Obwohl bei der Vorbereitung dieses Dokuments mit aller erdenklichen Sorgfalt vorgegangen wurde, können die technischen Angaben ungenau und unvollständig sein sowie Druckfehler enthalten, und AMD ist nicht zur Aktualisierung oder sonstigen Korrektur dieser Informationen verpflichtet. Advanced Micro Devices, Inc. übernimmt keinerlei Haftung oder Garantie hinsichtlich der Genauigkeit oder Vollständigkeit des Inhalts dieses Dokuments und lehnt jedwede Gewährleistung, einschließlich stillschweigende Garantien der Nichtverletzung von Rechten, Marktfähigkeit oder Eignung für einen bestimmten Zweck, für den Betrieb oder die Verwendung der AMD Hardware, Software oder anderer Produkte ab, die hierin beschrieben sind. „Vega“ und „Vega10“ sind AMD-interne Codenamen für die Architektur, es handelt sich nicht um Produktbezeichnungen. Durch dieses Dokument wird keine Lizenz auf geistiges Eigentum gewährt, weder implizit noch durch Rechtsverwirkung. Die Bedingungen und Einschränkungen, die für den Kauf oder die Nutzung von AMD Produkten gelten, werden durch eine zwischen beiden Parteien geschlossene, unterzeichnete Vereinbarung oder durch die standardmäßigen Verkaufs- und Lieferbedingungen von AMD festgelegt. GD-18

© 2017 Advanced Micro Devices, Inc. Alle Rechte vorbehalten. AMD, das AMD Pfeillogo, Radeon und deren Kombinationen sind Marken von Advanced Micro Devices, Inc. OpenCL ist eine Marke von Apple Inc.; Verwendung mit Genehmigung von Khronos. Andere Namen werden hier nur zu Informationszwecken verwendet und können Marken ihrer jeweiligen Inhaber sein.