Accélérateur de formation et d’inférence polyvalent pour l’intelligence machine et le deep learning

Prévenez-moi

Accélérateur de formation et d'inférence polyvalent pour l'intelligence machine et le deep learning

Exploitant l'architecture "Polaris"

 

36

UNITéS DE CALCUL
2304 Processeurs de flux
 

5.7

TFLOPS
FP16 et FP32Performance
 

16GB

GDDR5
 
 

224GB/s

BANDE PASSANTE MéMOIRE MAXIMALE
 

PERFORMANCES

5,7 TFLOPS de performance en demi ou simple précision dans une carte à simple emplacement avec un TDP de moins de 150 watts 1

  • 5,7 TFLOPS de performance de calcul GPU FP16 | FP32.

    Avec 5,7 TFLOPS de performance de calcul FP16 ou FP32 sur une seule carte dotée de 16 Go de mémoire GDDR5, l’accélérateur de serveur Radeon Instinct MI6 offre une performance de simple précision inégalée pour les applications d’inférence de machine, de deep learning et d’apprentissage des bords, ainsi qu’une solution rentable pour les systèmes de développement HPC nécessitant davantage de mémoire. 1

  • 16 Go de mémoire GPU GDDR5 ultra-rapide sur une interface mémoire de 256 bits.

    Avec 16 Go de mémoire GPU GDDR5 et jusqu’à 224 Go/s de bande passante mémoire, l’accélérateur de serveur Radeon Instinct MI6 offre une solution de calcul simple, polyvalente et équilibrée pour gérer les applications exigeantes d’inférence d’intelligence machine et de deep learning, tout en fournissant une solution économiquement efficace pour les applications d’apprentissage des bords en raison de sa grande mémoire et de sa faible consommation énergétiques.

  • Jusqu’à 38 GFLOPS/watt de performance de calcul GPU FP16 et FP32.

    Avec jusqu’à 38 GFLOPS/watt de performance de calcul GPU FP16 or FP32, l’accélérateur de serveur Radeon Instinct MI6 offre une solution polyvalente et efficace pour les applications d’inférence d’intelligence machine, de deep learning et d’apprentissage des bords. 2

  • 36 unités de calcul (2 304 processeurs de flux).

    L’accélérateur de serveur Radeon Instinct MI6 est doté de 36 unités de calcul contenant chacune 64 processeurs de flux, pour un total de 2 304 processeurs de flux disponibles pour exécuter simultanément de nombreux petits lots de données contre un réseau neuronal entraîné et obtenir rapidement des résultats. La performance en simple précision dans une solution économique et efficace est essentielle pour ces types d’installations système, et l’accélérateur MI6 offre des performances remarquables de simple précision dans une simple carte GPU.

FONCTIONNALITÉS

Accélérateur à refroidissement passif pour les déploiements de serveurs évolutifs

  • Accélérateur de serveur à refroidissement passif basé sur l’architecture « Polaris ».
    L’accélérateur de serveur Radeon Instinct MI6, basé sur l’architecture « Polaris » avec un procédé FinFET de 14 nm, est conçu pour des déploiements de serveurs hautement efficaces et évolutifs pour les applications d’inférence à simple précision dans l’intelligence machine, le deep learning et l’apprentissage des bords, ainsi que pour les systèmes à usage général et de développement en HPC. Cet accélérateur GPU de serveur offre aux clients une solution de calcul économique et polyvalente, avec un TDP de seulement 150 W.
  • Carte GPU de serveur simple emplacement de 9,5″ avec un TDP de 150 W.
    La carte GPU de serveur Radeon Instinct MI6 est une carte pleine hauteur et simple emplacement et fonctionne avec les cartes mères compatibles PCIe® Gen 3. La carte GPU MI6 est conçue pour s’adapter à la plupart des conceptions de serveur standard, offrant une solution de serveur à faible coût et hautement efficace pour l’inférence hétérogène d’intelligence machine, de deep learning et d’apprentissage des bords, ainsi que pour les déploiements de systèmes de classe HPC.
  • Mémoire GDDR5 ultra-rapide avec une bande passante mémoire jusqu’à 224 Go/s.
    L’accélérateur de serveur Radeon Instinct MI6 est conçu avec une mémoire GDDR5 ultra-rapide de 16 Go permettant de traiter rapidement et simultanément de nombreux lots de données volumineux pour des applications exigeantes d’inférence d’intelligence machine, de deep learning et d’apprentissage des bords, ainsi que les charges de travail HPC.
  • Virtualisation matérielle MxGPU SR-IOV.
    L’accélérateur de serveur Radeon Instinct™ MI6 intègre la prise en charge de la technologie de virtualisation matérielle MxGPU SR-IOV d’AMD, conçue pour générer une plus grande utilisation et une plus grande capacité dans le centre de données.

CAS D'UTILISATION

Inférence pour le deep learning

La croissance exponentielle des données et la nature dynamique de ces données ont remodelé les exigences concernant les configurations des systèmes de centre de données. Les concepteurs de centre de données doivent construire des systèmes capables de gérer des charges de travail plus complexes et parallèles, tout en continuant à améliorer l’efficacité du système. L’amélioration des capacités des GPU dédiés et d’autres accélérateurs au cours de la dernière décennie fournit aux concepteurs de centres de données de nouvelles options pour créer des systèmes informatiques hétérogènes qui les aident à relever ces nouveaux défis.

Les déploiements de centre de données exécutant des applications d’inférence, où beaucoup de nouvelles entrées de données plus petites sont exécutées en demi-précision (FP16) ou en simple précision (FP32) contre des réseaux neuronaux entraînés pour découvrir de nouvelles connaissances, nécessitent des systèmes capables d’effectuer des calculs parallèles qui peuvent rapidement exécuter des entrées de données dans de nombreux cœurs plus petits, et ce avec une haute efficacité énergétique.

L’accélérateur Radeon Instinct MI6 est une solution puissante et rentable pour les déploiements d’inférence d’intelligence machine et de deep learning dans le centre de données fournissant 5,7 TFLOPS de performance de virgule flottante en demi ou simple précision dans une seule carte au TDP de 150 watts. 1 L’accélérateur Radeon Instinct MI6, basé sur l’architecture « Polaris » d’AMD avec une mémoire GDDR5 ultra-rapide de 16 Go et une bande passante allant jusqu’à 224 Go/s, combiné à l’approche d’écosystème ouvert de Radeon Instinct avec la plate-forme ROCm, offre aux concepteurs de centres de données une solution flexible et efficace pour les déploiements d’inférence.

Principaux avantages pour l’inférence :

  • 5,7 TFLOPS de performance de calcul en demi ou simple précision 1
  • 38 GFLOPS/watt de performance FP16/FP32 pour des déploiements efficaces d’inférence et d’apprentissage des bords 2
  • 358 GFLOPS de performance en virgule flottante double précision (FP64)
  • 2,4 GFLOPS/watt de performance de calcul FP64.
  • 16 Go de GDDR5 sur une interface de mémoire 256 bits pour une performance de mémoire ultra-rapide
  • Carte GPU simple emplacement à refroidissement passif pour des déploiements de serveurs évolutifs
  • La plate-forme logicielle ROCm offre une plate-forme open source Hyperscale
  • Pilotes Linux, compilateur HCC, outils et bibliothèques open source pour un contrôle complet
  • Bibliothèques cadre optimisées pour le deep learning MIOpen
  • Large prise en charge BAR pour le mGPU peer to peer
  • Virtualisation matérielle MxGPU SR-IOV pour une utilisation optimisée des systèmes

 

Apprentissage des bords pour le deep learning

La croissance exponentielle des données et la nature dynamique de ces données ont remodelé les exigences concernant les configurations des systèmes de centre de données. Les concepteurs de centre de données doivent construire des systèmes capables de gérer des charges de travail plus complexes et parallèles, tout en continuant à améliorer l’efficacité du système. L’amélioration des capacités des GPU dédiés et d’autres accélérateurs au cours de la dernière décennie fournit aux concepteurs de centres de données de nouvelles options pour créer des systèmes informatiques hétérogènes qui les aident à relever ces nouveaux défis.

Les centres de données exécutent des applications d’intelligence machine et de deep learning en utilisant des déploiements d’apprentissage des bords, où les objectifs sont de se concentrer sur des systèmes de calcul plus rentables et efficaces pour les tâches de formation en utilisant un très grand nombre de serveurs de bord à faible coût pour traiter les tâches de formation nécessitant moins de calcul dans le but de réduire les coûts globaux des centres de données grâce à une plus grande efficacité. Ces systèmes nécessitent des accélérateurs offrant de bonnes performances de simple précision avec une plus grande quantité de mémoire dans un format dense et à faible consommation.

L’accélérateur Radeon Instinct MI6 est un accélérateur de serveur polyvalent et à faible consommation qui répond parfaitement aux exigences des déploiements d’apprentissage des bords à coût réduit pour les applications d’intelligence machine et de deep learning en centre de données. Il fournit 38 GFLOPS/watt de performance en demi (FP16) ou simple précision (FP32) dans une carte GPU à emplacement simple au TDP de 150 W. 1 L’accélérateur Radeon Instinct MI6, basé sur l’architecture « Polaris » d’AMD avec une mémoire GDDR5 ultra-rapide de 16 Go et une bande passante allant jusqu’à 224 Go/s, combiné à l’approche d’écosystème ouvert de Radeon Instinct avec la plate-forme logicielle ROCm, fournit aux concepteurs de centres de données une solution polyvalente et hautement efficace pour les déploiements d’apprentissage des bords.

Principaux avantages pour l’apprentissage des bords:

  • 5,7 TFLOPS de performance de calcul en demi ou simple précision 1
  • 38 GFLOPS/watt de performance FP16/FP32 dans une carte à simple emplacement 2
  • 358 GFLOPS de performance en virgule flottante double précision (FP64)
  • 2,4 GFLOPS/watt de performance de calcul FP64
  • 16 Go de GDDR5 sur une interface de mémoire 256 bits pour une performance de mémoire ultra-rapide
  • Refroidissement passif pour des déploiements de serveurs évolutifs
  • La plate-forme logicielle ROCm offre une plate-forme open source Hyperscale
  • Pilotes Linux, compilateur HCC, outils et bibliothèques open source pour un contrôle complet
  • Bibliothèques cadre optimisées pour le deep learning MIOpen
  • Large prise en charge BAR pour le mGPU peer to peer
  • Virtualisation matérielle MxGPU SR-IOV pour une utilisation optimisée des systèmes
  • OPrise en charge des normes ouvertes de l’industrie pour plusieurs architectures et technologies d’interconnexion 3

 

Calcul hétérogène pour le HPC à usage général et le développement

L’industrie HPC crée chaque année des quantités immenses de données non structurées et une partie des configurations de système HPC sont remodelées pour permettre à la communauté d’extraire des informations utiles à partir de ces données. Traditionnellement, ces systèmes étaient principalement à base de CPU, mais avec la croissance explosive de la quantité et des différents types de données créés ainsi que l’évolution de codes plus complexes, ces systèmes traditionnels ne répondent pas à toutes les exigences des charges de travail HPC à forte intensité de données. Alors que ces types de codes sont devenus plus complexes et plus parallèles, l’utilisation de systèmes informatiques hétérogènes avec différents mélanges d’accélérateurs, incluant des GPU dédiés et des FPGA, s’est développée. L’avancée des capacités des GPU au cours de la dernière décennie à permis leur utilisation pour un nombre croissant de ces codes parallèles à précision mixte, tels que ceux utilisés pour les applications de deep learning. Les scientifiques et les chercheurs du monde entier utilisent maintenant des accélérateurs pour traiter plus efficacement les codes HPC parallèles dans plusieurs industries, y compris les sciences de la vie, l’énergie, la finance, l’automobile et l’aérospatiale, la recherche universitaire, le gouvernement et la défense.

L’accélérateur Radeon Instinct MI6, combiné à la plate-forme ouverte révolutionnaire ROCm d’AMD, est une solution de calcul hétérogène polyvalente et efficace offrant 5,7 TFLOPS de performance en demi ou simple précision dans une carte à emplacement unique au TDP de 150 W dotée de 16 Go de mémoire GDDR5 ultra-rapide et jusqu’à 224 Go/s de bande passante mémoire. 1 L’accélérateur Radeon Instinct MI6 est une solution de calcul hétérogène idéale pour les systèmes à usage général et de développement sensibles aux coûts dans les domaines des services financiers, de l’énergie, des sciences de la vie, de l’automobile, de l’enseignement et de la recherche, des laboratoires gouvernementaux et d’autres industries du HPC.

Principaux avantages pour le HPC:

  • 5,7 TFLOPS de performance de calcul en demi ou simple précision 1
  • 38 GFLOPS/watt de performance de calcul en demi ou simple précision pour une multitude de charges de travail en HPC 2
  • 358 GFLOPS de performance en virgule flottante double précision (FP64)
  • 2,4 GFLOPS/watt de performance en virgule flottante double précision
  • 16 Go de GDDR5 sur une interface de mémoire 256 bits pour une performance de mémoire ultra-rapide
  • Refroidissement passif pour des déploiements de serveurs évolutifs
  • La plate-forme logicielle ROCm offre une plate-forme open source de classe HPC
  • Pilotes Linux, compilateur HCC, outils et bibliothèques open source pour un contrôle complet
  • Virtualisation matérielle MxGPU SR-IOV pour une utilisation optimisée des systèmes

Download the Radeon Instinct™ MI6 Data Sheet

Radeon Intinct™ MI6 DataSheet

Découvrez la Radeon Instinct™ série MI

RADEON INSTINCT™ SÉRIE MI

Radeon Instinct™ MI6 Server Accelerator DÉTAILS

Spécifications en profondeur

Unités de calcul36
Performances de pointe en semi-précision5.7TFLOPS
Performances en simple précision5.7TFLOPS
Performances en double précision358GFLOPS
Processeurs de flux2304
Consommation nominale de la carte (PC de bureau)150W
Nombre d'emplacements PCI occupés1
Débit de données mémoire7Gbps
Fréquence mémoire1750MHz
Fréquence mémoire16GB
Type de mémoireGDDR5
Interface mémoire256-bit
Bande passante mémoire maximale224GB/s
Technologie AMD Power Tune
Famille de produitsRadeon Instinct
Gamme de produitsRadeon Instinct série MI
ModèleMI6
Plates-formes prises en chargeServeur
Format et refroidissementPleine hauteur, simple emplacement, 9,5" de long, refroidissement passif
Systèmes d'exploitation pris en chargeLinux® (64 bits)
Plate-forme logicielleCompatible écosystème logiciel ROCm
GarantieTrois ans limitée
  1. Mesures effectuées par AMD Performance Labs le 2 juin 2017 sur l'accélérateur basé sur l'architecture Radeon Instinct™ MI6 « Polaris ». Les résultats ne sont que des estimations et peuvent varier. Les performances peuvent être différentes si des versions plus récentes des pilotes sont utilisées. Les configurations pouvant changer selon les fabricants de PC/système, les résultats peuvent varier en conséquence. Les résultats calculés pour Radeon Instinct MI6 ont abouti à une demi-précision de virgule flottante (FP16) de 5,7 TFLOPS et une simple précision de virgule flottante (FP32) de 5,7 TFLOPS. Les calculs TFLOPS d'AMD sont effectués avec l'équation suivante : les calculs FLOPS sont effectués en prenant l'horloge du moteur à l'état DPM le plus élevé et en la multipliant par xx UC par GPU. Ensuite, ce nombre est multiplié par xx processeurs de flux présents dans chaque UC. Ensuite, ce nombre est multiplié par 2 FLOPS par horloge pour FP32. Pour calculer TFLOPS pour FP16, 4 FLOPS par horloge ont été utilisés. Les mesures de la Nvidia Tesla P40 ont abouti à une performance de demi-précision de virgule flottante (FP16) de 0,19 TFLOPS avec une carte GPU au TDP de 250 W provenant d'une source externe. Source : https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Les mesures de la Nvidia Tesla P4 ont abouti à une performance de demi-précision de virgule flottante (FP16) de 0,09 TFLOPS avec une carte GPU au TDP de 75 W provenant d'une source externe. Source : https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD n'a pas testé ou vérifié de manière indépendante les résultats/données externes et/ou de tiers et n'engage aucune responsabilité pour les éventuelles erreurs ou omissions. RIP-1
  2. Mesures effectuées par AMD Performance Labs le 2 juin 2017 sur l'accélérateur basé sur l'architecture Radeon Instinct™ MI6 « Polaris ». Les résultats ne sont que des estimations et peuvent varier. Les performances peuvent être différentes si des versions plus récentes des pilotes sont utilisées. Les configurations pouvant changer selon les fabricants de PC/système, les résultats peuvent varier en conséquence. Les résultats calculés pour Radeon Instinct MI6 ont abouti à une demi-précision de virgule flottante (FP16) de 38 GFLOPS/watt et une simple précision de virgule flottante (FP32) de 38 GFLOPS. Les calculs GFLOPS d'AMD sont effectués avec l'équation suivante : les calculs FLOPS sont effectués en prenant l'horloge du moteur à l'état DPM le plus élevé et en la multipliant par xx UC par GPU. Ensuite, ce nombre est multiplié par xx processeurs de flux présents dans chaque UC. Ensuite, ce nombre est multiplié par 2 FLOPS par horloge pour FP32. Pour calculer TFLOPS pour FP16, 4 FLOPS par horloge ont été utilisés. Une fois les TFLOP calculés, le nombre est divisé par la puissance TDP de 150 W et multiplié par 1 000. Les mesures de la Nvidia Tesla P40 basées sur 0,19 TFLOPS en FP16 avec un GPU au TPD de 250 W donnent 0,76 GFLOPS/watt en demi-précision (FP16). Sources :https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Les mesures de la Nvidia Tesla P4 basées sur 0,09 TFLOPS en FP16 avec un GPU au TPD de 75 W donnent 1,2 GFLOPS/watt en demi-précision (FP16). Source : https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD n'a pas testé ou vérifié de manière indépendante les résultats/données externes et/ou de tiers et n'engage aucune responsabilité pour les éventuelles erreurs ou omissions. RIP-2
  3. Prise en charge planifiée pour plusieurs architectures, y compris X86, Power8 et ARM. AMD prend également en charge les technologies d'interconnexion actuelles et a prévu la prise en charge pour les futures technologies d'interconnexion standard, y compris GenZ, CCIX et OpenCAPI™. La mise à disponibilité des architectures et des technologies d'interconnexion standard de l'industrie prises en charge variera. Consultez votre fournisseur de système pour savoir si votre système spécifique dispose de la prise en charge de l'architecture/technologie.

Les produits accélérateur GPU Radeon Instinct sont livrés avec une garantie limitée de trois ans. Visitez www.AMD.com/warranty pour plus d’informations
Les informations contenues dans ce document ne sont fournies qu’à titre informatif seulement, et peuvent être modifiées à tout moment. Toutes les précautions ont été prises dans la préparation de ce document, cependant, il peut contenir des inexactitudes techniques, des omissions et des erreurs typographiques. AMD n’a aucune obligation de mettre à jour ou corriger ces informations. Advanced Micro Devices, Inc ne fait aucune déclaration ou garantie concernant l’exactitude ou l’exhaustivité du contenu de ce document, et décline toute responsabilité de quelque nature, y compris concernant les garanties implicites de non-violation des droits, de qualité marchande ou d’adéquation à des fins particulières, quant à l’exploitation ou l’utilisation du matériel AMD, logiciels ou autres produits décrits ici. « Polaris » est un nom de code interne AMD uniquement pour l’architecture, et non un nom de produit. Aucune licence de droits de propriété intellectuelle n’est accordée par ce document, y compris implicite ou découlant de la préclusion. Les conditions et limitations applicables à l’achat ou l’utilisation de produits AMD sont définies dans un accord signé entre les parties, ou dans les conditions générales de vente d’AMD. GD-18

© 2017 Advanced Micro Devices, Inc. Tous droits réservés. AMD, le logo AMD avec la flèche, Radeon et leurs combinaisons sont des marques déposées de Advanced Micro Devices, Inc. OpenCL est une marque déposée d’Apple Inc. utilisée avec permission de Khronos. Les autres noms de produits cités dans cette présentation ne sont mentionnés qu’à des fins d’identification, et peuvent être des marques déposées par leurs sociétés respectives.