L’accélérateur de formation le plus rapide au monde pour l’intelligence machine et le deep learning 1

PRÉVENEZ-MOI

L'accélérateur de formation le plus rapide au monde pour l'intelligence machine et le deep learning

Exploitant l'architecture "“Vega”"

 

64 nCU

UNITéS DE CALCUL
4096 Processeurs de flux
 

24.6/12.3

TFLOPS
FP16 / FP32 Performance
 

16GB

HBM2
 
 

484GB/s

BANDE PASSANTE MéMOIRE MAXIMALE
 

PERFORMANCES

Performances de demi et simple précision de virgule flottante inégalées 1

  • Hautes performances de calcul GPU de 24,6 TFLOPS en FP16 ou 12,3 TFLOPS en FP32.

     

  • Avec de hautes performances de calcul GPU de 24,6 TFLOPS en FP16 ou 12,3 TFLOPS en FP32 sur une seule carte, l’accélérateur de serveur Radeon Instinct MI25 fournit une performance en simple précision de premier plan pour les applications de formation à calcul intensif de l’intelligence machine et du deep learning. 1 Le MI25 offre une solution puissante pour les charges de travail HPC les plus parallèles. Le MI25 fournit également une performance en double précision (FP64) de 768 GFLOPS à un taux de 1/16e.
  • 16 Go de mémoire GPU HBM2 ECC à ultra-haute bande passante. 2

    Avec un débit de données doublé par rapport aux générations précédentes sur une interface mémoire de 512 bits, un cache et un contrôleur à haute bande passante de dernière génération et la fiabilité de la mémoire ECC, les 16 Go de mémoire GPU HBM2 de l’Instinct Radeon MI25 fournissent une solution d’accélérateur de niveau professionnel capable de gérer les applications de formation les plus intensives et exigeantes de l’intelligence machine et du deep learning. 3

  • Hautes performances de calcul GPU jusqu’à 82 GFLOPS/watt en FP16 ou 41 GFLOPS en FP32.

    Avec des performances de calcul jusqu’à 82 GFLOPS/watt en FP16 ou 41 GFLOPS/watt en FP32, l’accélérateur de serveur Radeon Instinct MI25 offre des performances par watt inégalées pour les applications d’intelligence machine et de deep learning en centre de données, où les performances et l’utilisation efficace de l’énergie sont essentielles pour le retour sur investissement. 4 Le MI25 offre également 2,5 GFLOPS/watt de performance en FP64.

  • 64 unités de calcul dotées de 64 processeurs de flux2

    L’accélérateur de serveur Radeon- Instinct™ MI25 dispose de 64 unités de calcul, chacune composée de 64 processeurs de flux, pour un total de 4 096 processeurs de flux et repose sur l’architecture « Vega » de dernière génération avec un moteur de calcul nouvellement conçu basé sur de nouvelles unités de calcul flexibles (NCU) permettant un traitement en 16, 32 et 64 bits à des fréquences plus élevées pour traiter les charges de travail dynamiques émergentes d’aujourd’hui. Le Radeon Instinct MI25 offre des performances et une flexibilité supérieures en simple précision pour les applications d’intelligence machine et de deep learning les plus exigeantes et intenses en calcul parallèle.

FONCTIONNALITÉS

Construit sur l'architecture « Vega » de dernière génération d'AMD et équipé de la mémoire de GPU la plus avancée au monde

  • Accélérateur de serveur GPU à refroidissement passif basé sur l’architecture « Vega » de dernière génération utilisant un procédé FinFET de 14 nm. L’accélérateur de serveur Radeon Instinct MI25, basé sur la nouvelle architecture « Vega » avec un procédé FinFET de 14 nm, est un accélérateur de qualité professionnelle conçu pour une densité de calcul optimisée pour les déploiements de serveurs de centres de données. L’accélérateur de serveur MI25 est la solution idéale pour les applications de formation intensive en calcul simple précision de l’intelligence machine et du deep learning et d’autres charges de travail HPC, où la performance par watt est importante.
  • Carte GPU de serveur double emplacement PCIe® Gen 3 x16, pleine hauteur de 10,5″ avec un TDP de 300W. La carte GPU PCIe® Gen 3×16 PCIe® Gen 3 Radeon Instinct MI25 est une carte pleine hauteur et double emplacement conçue pour s’adapter à la plupart des conceptions de serveur standard, offrant une solution de serveur hautes performances pour les déploiements hétérogènes d’intelligence machine, de deep learning et les systèmes de classe HPC.
  • Mémoire HBM2 ECC 4 ultra-haute fréquence et bande passante mémoire jusqu’à 484 Go/s. L’accélérateur de serveur Radeon Instinct MI25 est conçu avec 16 Go de la toute dernière mémoire HBM2 à large bande passante pour gérer efficacement les plus hautes exigences des systèmes de formation de réseaux de neurones d’intelligence machine et de deep learning. La mémoire HBM2 ECC de 16 Go de l’accélérateur MI25 en fait une solution idéale pour les charges de travail intensives en HPC. 2
  • Virtualisation matérielle MxGPU SR-IOV. L’accélérateur de serveur Radeon Instinct™ MI25 intègre la prise en charge de la technologie de virtualisation matérielle MxGPU SR-IOV d’AMD, conçue pour générer une plus grande utilisation et une plus grande capacité dans le centre de données.
  • Capacités de gestion à distance mises à jour. L’accélérateur Radeon Instinct MI25 dispose de circuits de gestion hors bande pour une surveillance simplifiée du GPU dans les systèmes à grande échelle. Les capacités de gestion du MI25 offrent une accessibilité via I2C, quel que soit l’état dans lequel se trouve le GPU, fournissant une surveillance avancée d’une gamme d’informations GPU statiques et dynamiques à l’aide de structures de données compatibles PMCI, y compris les détails des pièces de la carte, les numéros de série, la température du GPU, l’alimentation et d’autres informations.

CAS D'UTILISATION

Formation de réseaux de neurones d’intelligence machine et de deep learningning

Les techniques de formation utilisées aujourd’hui sur les réseaux de neurones dans les applications d’intelligence machine et de deep learning des centres de données sont devenues très complexes et nécessitent la manipulation de quantités massives de données lors de la formation de ces réseaux pour reconnaître les modèles au sein de ces données. Cela nécessite beaucoup de calculs à virgule flottante répartis sur de nombreux cœurs, et les CPU traditionnels ne peuvent pas gérer ce type de calcul aussi efficacement que les GPU. Ce qui peut prendre des semaines à calculer avec un CPU peut être traité en quelques jours en utilisant un GPU. Le Radeon Instinct MI25, combiné aux nouveaux processeurs de serveurs Epyc d’AMD et à notre plate-forme logicielle ouverte ROCm, offre des performances supérieures pour les applications d’intelligence machine et de deep learning.

Les performances supérieures de 24,6 TFLOPS du MI25 en demi-précision native (FP16) ou de 12,3 TFLOPS en simple précision (FP32) de virgule flottante sont produites dans 4 096 processeurs de flux. Avec son cache haute bande passante (HBC) avancé, son contrôleur et sa mémoire HBM2 à large bande passante de 16 Go, il apporte aux clients un nouveau niveau d’informatique capable de répondre aux exigences des systèmes actuels pour traiter de grands volumes de données efficacement pour la formation des réseaux de neurones complexes utilisés dans le deep learning. 1 L’accélérateur MI25, basé sur l’architecture de dernière génération « Vega » d’AMD avec l’architecture de mémoire la plus avancée au monde, est optimisé pour gérer de vastes ensembles de données et apporte de nombreuses améliorations de débit par horloge par rapport aux générations précédentes. Il offre jusqu’à 82 GFLOPS par watt en calcul GPU FP16 ou 41 GFLOPS par watt en calcul FP32 pour une performance par watt exceptionnelle dans les déploiements de formation d’intelligence machine et de deep learning en centre de données, où la performance et l’efficacité sont cruciales. 4

Avantages pour la formation de réseaux de neurones d’intelligence machine et de deep learning:

  • Performances de virgule flottante FP16 et FP32 inégalées 1
  • Plate-forme logicielle ouverte ROCm pour les déploiements d’échelle de classe HPC
  • Bibliothèques cadre optimisées pour le deep learning MIOpen
  • Large prise en charge BAR pour le mGPU peer to peer
  • Avantages de la configuration avec des processeurs pour serveurs Epyc
  • Densité de calcul et performance par nœud supérieures en combinant les nouveaux serveurs AMD EPYC™ et les accélérateurs Radeon Instinct basés sur l’architecture « Vega »
  • La virtualisation matérielle MxGPU SR-IOV permet une plus grande utilisation et une plus grande capacité dans le centre de données

 

Calcul hétérogène HPC

L’industrie HPC crée chaque année des quantités immenses de données non structurées et une partie des configurations de système HPC sont remodelées pour permettre à la communauté d’extraire des informations utiles à partir de ces données. Traditionnellement, ces systèmes étaient principalement à base de CPU, mais avec la croissance explosive de la quantité et des différents types de données créés ainsi que l’évolution de codes plus complexes, ces systèmes traditionnels ne répondent pas à toutes les exigences des charges de travail HPC à forte intensité de données. Alors que ces types de codes sont devenus plus complexes et plus parallèles, l’utilisation de systèmes informatiques hétérogènes avec différents mélanges d’accélérateurs, incluant des GPU dédiés et des FPGA, s’est développée. L’avancée des capacités des GPU au cours de la dernière décennie à permis leur utilisation pour un nombre croissant de ces codes parallèles, tels que ceux utilisés pour la formation de réseaux neuronaux pour le deep learning. Les scientifiques et les chercheurs du monde entier utilisent maintenant des accélérateurs pour traiter plus efficacement les codes HPC parallèles dans plusieurs industries, y compris les sciences de la vie, l’énergie, la finance, l’automobile et l’aérospatiale, la recherche universitaire, le gouvernement et la défense.

Le Radeon Instinct MI25, combiné aux nouveaux CPU pour serveurs Epyc basées sur « Zen » d’AMD et à notre plate-forme logicielle révolutionnaire ROCm, offre une approche progressive pour le calcul hétérogène. Les solutions HPC de prochaine génération d’AMD sont conçues pour offrir une densité de calcul et une performance par nœud maximales, avec l’efficacité requise pour gérer les codes à forte intensité de données massivement parallèles, ainsi que pour fournir une solution puissante et flexible pour les déploiements HPC à usage général. La plate-forme logicielle ROCm apporte une solution évolutive de classe HPC qui fournit des pilotes Linux, des compilateurs HCC, des outils et des bibliothèques entièrement ouverts pour donner aux scientifiques et aux chercheurs un contrôle total du système. L’approche d’écosystème ouvert du Radeon Instinct prend en charge diverses architectures, y compris x86, Power8 et ARM, ainsi que les technologies d’interconnexion standard de l’industrie qui permettent aux clients de concevoir des systèmes HPC optimisés pour une nouvelle ère de calcul hétérogène qui embrasse l’approche ouverte de la communauté HPC vers l’avancée scientifique. 4

Principaux avantages pour le calcul hétérogène HPC:

  • Densité de calcul et performances par nœud exceptionnelles
  • Plate-forme logicielle ouverte ROCm pour les déploiements d’échelle de classe HPC
  • Pilotes Linux, compilateur HCC, outils et bibliothèques open source pour un contrôle complet
  • Prise en charge des normes ouvertes de l’industrie pour plusieurs architectures et technologies d’interconnexion 4

Téléchargez la fiche technique Radeon Instinct™ MI25

FICHE TECHNIQUE RADEON INSTINCT™ MI25

Découvrez la Radeon Instinct™ série MI

RADEON INSTINCT™ SÉRIE MI

l’accélérateur de serveur Radeon Instinct™ MI25 DÉTAILS

Spécifications en profondeur

Unités de calcul64 nCU
Performances de pointe en semi-précision24.6TFLOPS
Performances en simple précision12.3TFLOPS
Performances en double précision768GFLOPS
Processeurs de flux4096
Consommation nominale de la carte (PC de bureau)300W
Nombre d'emplacements PCI occupés2
Débit de données mémoire1.89Gbps
Fréquence mémoire945MHz
Fréquence mémoire16GB
Type de mémoireHBM2
Interface mémoire2048-bit
Bande passante mémoire maximale484GB/s
Technologie AMD Power Tune
Mémoire à code correcteur d'erreur (ECC)
Famille de produitsRadeon Instinct™
Gamme de produitsRadeon Instinct série MI
ModèleMI25
Plates-formes prises en chargeServeur
Format et refroidissementPassif, double emplacement
Systèmes d'exploitation pris en chargeLinux® (64 bits)
Plate-forme logicielleCompatible écosystème logiciel ROCm
  1. Mesures effectuées par AMD Performance Labs le 2 juin 2017 sur l'accélérateur basé sur l'architecture Radeon Instinct™ MI25 « Vega ». Les résultats ne sont que des estimations et peuvent varier. Les performances peuvent être différentes si des versions plus récentes des pilotes sont utilisées. Les configurations pouvant changer selon les fabricants de PC/système, les résultats peuvent varier en conséquence. Les résultats calculés pour Radeon Instinct MI25 ont abouti à une demi-précision de virgule flottante (FP16) de 24,6 TFLOPS et une simple précision de virgule flottante (FP32) de 12,3 TFLOPS. Les calculs TFLOPS d'AMD sont effectués avec l'équation suivante : Les calculs FLOPS sont effectués en prenant l'horloge du moteur à l'état DPM le plus élevé et en la multipliant par xx UC par GPU. Ensuite, ce nombre est multiplié par xx processeurs de flux présents dans chaque UC. Ensuite, ce nombre est multiplié par 2 FLOPS par horloge pour FP32. Pour calculer TFLOPS pour FP16, 4 FLOPS par horloge ont été utilisés. Le taux TFLOPS FP64 est calculé en utilisant le taux 1/16. Les résultats externes de l'accélérateur GPU NVidia Tesla P100-16 (carte de 16 Go) ont abouti à une demi-précision de virgule flottante (FP16) de 18,7 TFLOPS et une simple précision de virgule flottante (FP32) de 9,3 TFLOPS. Résultats trouvés sur : https://images.nvidia.com/content/tesla/pdf/nvidia-tesla-p100-PCIe-datasheet.pdf. Les résultats externes de l'accélérateur GPU NVidia Tesla P100-SXM2 ont abouti à une demi-précision de virgule flottante (FP16) de 21,2 TFLOPS et une simple précision de virgule flottante (FP32) de 10,6 TFLOPS. Résultats trouvés sur : http://www.nvidia.com/object/tesla-p100.html. AMD n'a pas testé ou vérifié de manière indépendante les résultats/données externes ou de tiers et n'engage aucune responsabilité pour les éventuelles erreurs ou omissions. RIV-1
  2. La prise en charge ECC est limitée à la mémoire HBM2 et la protection ECC n'est pas fournie pour les structures de GPU internes.
  3. Mesures effectuées par AMD Performance Labs le 2 juin 2017 sur l'accélérateur basé sur l'architecture Radeon Instinct™ MI25 « Vega ». Les résultats ne sont que des estimations et peuvent varier. Les performances peuvent être différentes si des versions plus récentes des pilotes sont utilisées. Les configurations pouvant changer selon les fabricants de PC/système, les résultats peuvent varier en conséquence. Les résultats calculés pour Radeon Instinct MI25 ont abouti à une demi-précision de virgule flottante (FP16) de 82 GFLOPS/watt et une simple précision de virgule flottante (FP32) de 41 GFLOPS/watt. Les calculs GFLOPS d'AMD sont effectués avec l'équation suivante : Les calculs FLOPS sont effectués en prenant l'horloge du moteur à l'état DPM le plus élevé et en la multipliant par xx UC par GPU. Ensuite, ce nombre est multiplié par xx processeurs de flux présents dans chaque UC. Ensuite, ce nombre est multiplié par 2 FLOPS par horloge pour FP32. Pour calculer TFLOPS pour FP16, 4 FLOPS par horloge ont été utilisés. Le taux TFLOPS FP64 est calculé en utilisant le taux 1/16. Une fois les TFLOP calculés, le nombre est divisé par la puissance TDP de xxx W et multiplié par 1 000. Les calculs effectués par AMD Performance Labs le 2 juin 2017 sur l'accélérateur GPU NVidia Tesla P100-16 (carte de 16 Go) pour déterminer les GFLOPS par watt en divisant les résultats TFLOPS par un TDP de 250 watts ont abouti à une performance de virgule flottante de 75 GFLOPS par watt en demi-précision (FP16) et 37 GFLOPS par watt en simple précision (FP32). Sources : https://images.nvidia.com/content/tesla/pdf/nvidia-tesla-p100-PCIe-datasheet.pdf
    Les calculs effectués par AMD Performance Labs le 2 juin 2017 sur l'accélérateur GPU NVidia Tesla P100-SXM2 pour déterminer les GFLOPS par watt en divisant les résultats TFLOPS par un TDP de 300 watts ont abouti à une performance de virgule flottante de 71 GFLOPS par watt en demi-précision (FP16) et 35 GFLOPS par watt en simple précision (FP32). Sources : http://www.nvidia.com/object/tesla-p100.html. AMD n'a pas testé ou vérifié de manière indépendante les résultats/données externes ou de tiers et n'engage aucune responsabilité pour les éventuelles erreurs ou omissions. RIV-4
  4. Prise en charge planifiée pour plusieurs architectures, y compris X86, Power8 et ARM. AMD prend également en charge les technologies d'interconnexion actuelles et a prévu la prise en charge pour les futures technologies d'interconnexion standard, y compris GenZ, CCIX et OpenCAPI™. La mise à disponibilité des architectures et des technologies d'interconnexion standard de l'industrie prises en charge variera. Consultez votre fournisseur de système pour savoir si votre système spécifique dispose de la prise en charge de l'architecture/technologie.

Les informations contenues dans ce document ne sont fournies qu’à titre informatif seulement, et peuvent être modifiées à tout moment. Toutes les précautions ont été prises dans la préparation de ce document, cependant, il peut contenir des inexactitudes techniques, des omissions et des erreurs typographiques. AMD n’a aucune obligation de mettre à jour ou corriger ces informations. Advanced Micro Devices, Inc ne fait aucune déclaration ou garantie concernant l’exactitude ou l’exhaustivité du contenu de ce document, et décline toute responsabilité de quelque nature, y compris concernant les garanties implicites de non-violation des droits, de qualité marchande ou d’adéquation à des fins particulières, quant à l’exploitation ou l’utilisation du matériel AMD, logiciels ou autres produits décrits ici. « Vega » et « Vega10 » sont des noms de code internes AMD uniquement pour l’architecture et non pour les noms des produits. Aucune licence de droits de propriété intellectuelle n’est accordée par ce document, y compris implicite ou découlant de la préclusion. Les conditions et limitations applicables à l’achat ou l’utilisation de produits AMD sont définies dans un accord signé entre les parties, ou dans les conditions générales de vente d’AMD. GD-18

© 2017 Advanced Micro Devices, Inc. Tous droits réservés. AMD, le logo AMD avec la flèche, Radeon et leurs combinaisons sont des marques déposées de Advanced Micro Devices, Inc. OpenCL est une marque déposée d’Apple Inc. utilisée avec permission de Khronos. Les autres noms de produits cités dans cette présentation ne sont mentionnés qu’à des fins d’identification, et peuvent être des marques déposées par leurs sociétés respectives.