Accélérateur évolutif et sensible aux coûts pour les applications d’inférence machine et deep learning

Prévenez-moi

Idéal pour les déploiements d'applications d'inférence pour l'intelligence machine et le deep learning dans les centres de données

Exploitant l'architecture "Fiji"

 

64

UNITéS DE CALCUL
4096 Processeurs de flux
 

8.2

TFLOPS
FP16 et FP32Performance
 

4GB

HBM1
 
 

512GB/s

BANDE PASSANTE MéMOIRE MAXIMALE
 

PERFORMANCES

8,2 TFLOPS de demi ou simple précision avec 4 Go de HBM1 1

  • 8,2 TFLOPS de performance de calcul GPU FP16 | FP32.

    Avec 8,2 TFLOPS de performance de calcul sur une seule carte, l’accélérateur de serveur Radeon Instinct MI8 offre une performance de précision par dollar supérieure pour les applications d’inférence de machine et de deep learning, ainsi qu’une solution rentable pour les systèmes de développement HPC. 1

  • 4 Go de mémoire GPU HBM1 à haute bande passante sur une interface mémoire de 512 bits.

    Avec 4 Go de mémoire GPU HBM1 et jusqu’à 512 Go/s de bande passante mémoire, l’accélérateur de serveur Radeon Instinct MI8 offre la combinaison parfaite de performance de simple précision et de système de mémoire pour gérer les applications d’inférence d’intelligence machine et de deep learning les plus exigeantes pour abstraire des résultats significatifs des nouvelles données appliquées à des réseaux de neurones entraînés d’une manière rentable et efficace.

  • Performance de calcul GPU FP16|FP32 de 47 GFLOPS/watt.

    Avec jusqu’à 47 GFLOPS/watt de performance de calcul GPU FP16|FP32, l’accélérateur de serveur Radeon Instinct MI8 offre des performances par watt supérieures pour les applications d’inférence d’intelligence machine et de deep learning. 2

  • 64 unités de calcul (4 096 processeurs de flux).

    L’accélérateur de serveur Radeon Instinct MI8 est doté de 64 unités de calcul contenant chacune 64 processeurs de flux, pour un total de 4 096 processeurs de flux disponibles pour exécuter simultanément de nombreux petits lots de données contre un réseau neuronal entraîné et obtenir rapidement des réponses. La performance en simple précision est essentielle pour ces types d’installations système, et l’accélérateur MI8 offre des performances supérieures de simple précision dans une seule carte GPU.

FONCTIONNALITÉS

Accélérateur à refroidissement passif utilisant moins de 175 Watts TDP pour des déploiements de serveurs évolutifs

  • Accélérateur de serveur à refroidissement passif basé sur l’architecture « Fidji».  L’accélérateur de serveur Radeon Instinct MI8, basé sur l’architecture « Fidji » avec un procédé HPX de 28 nm, est conçu pour des déploiements de serveurs hautement efficaces et évolutifs pour les applications d’inférence à simple précision dans l’intelligence machine et le deep learning. Cet accélérateur GPU de serveur offre aux clients des performances exceptionnelles avec un TDP de seulement 175 W.
  • Carte GPU de serveur double emplacement de 6″ avec un TDP de 175 W. La carte GPU PCIe® Gen 3×16 PCIe® Gen 3 Radeon Instinct MI8 est une carte pleine hauteur et double emplacement conçue pour s’adapter à la plupart des conceptions de serveur standard, offrant une solution de serveur hautement efficace pour les déploiements hétérogènes d’intelligence machine et les systèmes d’inférence de deep learning.
  • Mémoire à large bande passante (HBM1) avec une bande passante mémoire jusqu’à 512 Go/s. L’accélérateur de serveur Radeon Instinct MI8 est conçu avec une mémoire HBM1 à large bande passante de 4 Go permettant de traiter rapidement de nombreux lots de données simultanément pour les applications d’inférence d’intelligence machine et de deep learning les plus exigeantes, permettant de tirer rapidement profit des résultats significatifs des nouvelles données appliquées à des réseaux de neurones entraînés.
  • Virtualisation matérielle MxGPU SR-IOV. L’accélérateur de serveur Radeon Instinct MI8 intègre la prise en charge de la technologie de virtualisation matérielle MxGPU SR-IOV d’AMD, conçue pour générer une plus grande utilisation et une plus grande capacité dans le centre de données.

CAS D'UTILISATION

Inférence pour le deep learning

La croissance exponentielle des données et la nature dynamique de ces données ont remodelé les exigences concernant les configurations des systèmes de centre de données. Les concepteurs de centre de données doivent construire des systèmes capables de gérer des charges de travail plus complexes et parallèles, tout en continuant à améliorer l’efficacité du système. L’amélioration des capacités des GPU dédiés et d’autres accélérateurs au cours de la dernière décennie fournit aux concepteurs de centres de données de nouvelles options pour créer des systèmes informatiques hétérogènes qui les aident à relever ces nouveaux défis.

 

Les déploiements de centre de données exécutant des applications d’inférence, où beaucoup de nouvelles entrées de données plus petites sont exécutées en demi-précision (FP16) ou en simple précision (FP32) contre des réseaux neuronaux entraînés pour découvrir de nouvelles connaissances, nécessitent des systèmes capables d’effectuer des calculs parallèles qui peuvent rapidement exécuter des entrées de données dans de nombreux cœurs plus petits, et ce avec une haute efficacité énergétique.

 

L’accélérateur Radeon Instinct MI8 est une solution efficace et rentable pour les déploiements d’inférence d’intelligence machine et de deep learning dans le centre de données fournissant 8,2 TFLOPS de performance de virgule flottante en demi ou simple précision (FP16|FP32) dans une seule carte au TDP de 175 watts. 1 L’accélérateur Radeon Instinct MI8, basé sur l’architecture « Fiji » d’AMD avec une mémoire HBM1 à large bande passante de 4 Go et une bande passante allant jusqu’à 512 Go/s, combiné à l’approche d’écosystème ouvert de Radeon Instinct avec la plate-forme ROCm, offre aux concepteurs de centres de données une solution flexible et efficace pour les déploiements d’inférence.

Principaux avantages pour l’inférence :

  • 8,2 TFLOPS de performance de calcul en demi ou simple précision 1
  • 47 GFLOPS/watt de performance de calcul en demi ou simple précision 2
  • 4 Go de HBM1 sur une interface de mémoire 512 bits pour une performance de mémoire à large bande passante élevée
  • Accélérateur à refroidissement passif utilisant moins de 175 Watts de TDP pour des déploiements de serveurs évolutifs
  • La plate-forme logicielle ROCm offre une plate-forme open source Hyperscale
  • Pilotes Linux, compilateur HCC, outils et bibliothèques open source pour un contrôle complet
  • Bibliothèques cadre optimisées MIOpen Deep Learning 3
  • Large prise en charge BAR pour le mGPU peer to peer
  • Virtualisation matérielle MxGPU SR-IOV pour une utilisation optimisée des systèmes
  • Prise en charge des normes ouvertes de l’industrie pour plusieurs architectures et technologies d’interconnexion 4

 

Calcul hétérogène pour le HPC à usage général et le développement

L’industrie HPC crée chaque année des quantités immenses de données non structurées et une partie des configurations de système HPC sont remodelées pour permettre à la communauté d’extraire des informations utiles à partir de ces données. Traditionnellement, ces systèmes étaient principalement à base de CPU, mais avec la croissance explosive de la quantité et des différents types de données créés ainsi que l’évolution de codes plus complexes, ces systèmes traditionnels ne répondent pas à toutes les exigences des charges de travail HPC à forte intensité de données. Alors que ces types de codes sont devenus plus complexes et plus parallèles, l’utilisation de systèmes informatiques hétérogènes avec différents mélanges d’accélérateurs, incluant des GPU dédiés et des FPGA, s’est développée. L’avancée des capacités des GPU au cours de la dernière décennie a permis leur utilisation pour un nombre croissant de ces codes parallèles à précision mixte, tels que ceux utilisés pour la formation de réseaux neuronaux pour le deep learning. Les scientifiques et les chercheurs du monde entier utilisent maintenant des accélérateurs pour traiter plus efficacement les codes HPC parallèles dans plusieurs industries, y compris les sciences de la vie, l’énergie, la finance, l’automobile et l’aérospatiale, la recherche universitaire, le gouvernement et la défense.

 

L’accélérateur Radeon Instinct MI8, combiné à la plate-forme logicielle révolutionnaire ROCm d’AMD, est une solution informatique hétérogène efficace offrant des performances de calcul 8,2 TFLOPS en simple précision dans une carte GPU efficace avec 4 Go de mémoire HBM1 à large bande passante. 1 L’accélérateur MI8 est la solution ouverte parfaite pour créer des systèmes à usage général et de développement rentables déployés dans les secteurs des services financiers, de l’énergie, des sciences de la vie, de l’automobile et de l’aérospatiale, de la recherche et l’enseignement, des laboratoires gouvernementaux et d’autres industries du HPC.

Principaux avantages pour le HPC :

  • 8,2 TFLOPS de performance de calcul en demi ou simple précision pour une multitude de charges de travail en HPC 1
  • 47 GFLOPS/watt de performance de calcul en demi ou simple précision 2
  • 512 GFLOPS de performance de calcul en double précision (FP64) avec 4 Go de mémoire HBM1
  • Performance de calcul FP64 de 2,9 GFLOPS/watt.
  • 4 Go de HBM1 sur une interface de mémoire 512 bits pour une performance de mémoire à large bande passante élevée
  • Accélérateur à refroidissement passif utilisant moins de 175 Watts de TDP pour des déploiements de serveurs évolutifs
  • La plate-forme logicielle ROCm offre une plate-forme open source de classe HPC
  • Pilotes Linux, compilateur HCC, outils et bibliothèques open source pour un contrôle complet
  • Virtualisation matérielle MxGPU SR-IOV pour une utilisation optimisée des systèmes
  • Prise en charge des normes ouvertes de l’industrie pour plusieurs architectures et technologies d’interconnexion 2

Téléchargez la fiche technique Radeon Instinct™ MI8

FICHE TECHNIQUE Radeon Intinct™ MI8

Découvrez la Radeon Instinct™ série MI

Radeon Intinct™ SÉRIE MI

Radeon Instinct™ MI8 DÉTAILS

Spécifications en profondeur

Unités de calcul64
Performances de pointe en semi-précision8.2TFLOPS
Performances en simple précision8.2TFLOPS
Performances en double précision512GFLOPS
Processeurs de flux4096
Consommation nominale de la carte (PC de bureau)175W
Nombre d'emplacements PCI occupés2
Débit de données mémoire1Gbps
Fréquence mémoire500MHz
Fréquence mémoire4GB
Type de mémoireHBM1
Interface mémoire4096-bit
Bande passante mémoire maximale512GB/s
AMD PowerTune Technology
Famille de produitsRadeon Instinct
Gamme de produitsRadeon Instinct série MI
ModèleMI8
Plates-formes prises en chargeServeur
Format et refroidissementPleine hauteur, double emplacement, 6" de long, refroidissement passif
Systèmes d'exploitation pris en chargeLinux® (64 bits)
Plate-forme logicielleCompatible écosystème logiciel ROCm
GarantieTrois ans limitée
  1. Mesures effectuées par AMD Performance Labs le 2 juin 2017 sur l'accélérateur basé sur l'architecture Radeon Instinct™ MI8 « Fiji ». Les résultats ne sont que des estimations et peuvent varier. Les performances peuvent être différentes si des versions plus récentes des pilotes sont utilisées. Les configurations pouvant changer selon les fabricants de PC/système, les résultats peuvent varier en conséquence. Les résultats calculés pour la MI8 ont abouti à une demi-précision de virgule flottante (FP16) de 8,2 TFLOPS et une simple précision de virgule flottante (FP32) de 8,2 TFLOPS. Les calculs TFLOPS d'AMD sont effectués avec l'équation suivante : les calculs FLOPS sont effectués en prenant l'horloge du moteur à l'état DPM le plus élevé et en la multipliant par xx UC par GPU. Ensuite, ce nombre est multiplié par xx processeurs de flux présents dans chaque UC. Ensuite, ce nombre est multiplié par 2 FLOPS par horloge pour FP32. Pour calculer TFLOPS pour FP16, 4 FLOPS par horloge ont été utilisés. Les mesures de la Nvidia Tesla P40 ont abouti à une performance de demi-précision de virgule flottante (FP16) de 0,19 TFLOPS avec une carte GPU au TDP de 250 W provenant d'une source externe. Sources : https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Les mesures de la Nvidia Tesla P4 ont abouti à une performance de demi-précision de virgule flottante (FP16) de 0,09 TFLOPS avec une carte GPU au TDP de 75 W provenant d'une source externe. Sources : https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD n'a pas testé ou vérifié de manière indépendante les résultats/données externes et/ou de tiers et n'engage aucune responsabilité pour les éventuelles erreurs ou omissions. RIF-1
  2. Mesures effectuées par AMD Performance Labs le 2 juin 2017 sur l'accélérateur basé sur l'architecture Radeon Instinct™ MI8 « Fiji ». Les résultats ne sont que des estimations et peuvent varier. Les performances peuvent être différentes si des versions plus récentes des pilotes sont utilisées. Les configurations pouvant changer selon les fabricants de PC/système, les résultats peuvent varier en conséquence. Les résultats calculés pour Radeon Instinct MI8 ont abouti à une demi-précision de virgule flottante (FP16) de 47 GFLOPS/watt et une simple précision de virgule flottante (FP32) de 47 GFLOPS/watt. Les calculs GFLOPS d'AMD sont effectués avec l'équation suivante : Les calculs FLOPS sont effectués en prenant l'horloge du moteur à l'état DPM le plus élevé et en la multipliant par xx UC par GPU. Ensuite, ce nombre est multiplié par xx processeurs de flux présents dans chaque UC. Ensuite, ce nombre est multiplié par 2 FLOPS par horloge pour FP32. Pour calculer TFLOPS pour FP16, 4 FLOPS par horloge ont été utilisés. Une fois les TFLOP calculés, le nombre est divisé par la puissance TDP de 175 W et multiplié par 1 000. Les mesures de la Nvidia Tesla P40 basées sur 0,19 TFLOPS en FP16 avec un GPU au TPD de 250 W donnent 0,76 GFLOPS/watt en demi-précision (FP16). Sources pour les chiffres TFLOP en FP16 de la Nvidia Tesla P40 : https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; Http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Les mesures de la Nvidia Tesla P4 basées sur 0,09 TFLOPS en FP16 avec un GPU au TPD de 75 W donnent 1,2 GFLOPS/watt en demi-précision (FP16). Sources pour les chiffres TFLOP en FP16 de la Nvidia Tesla P40 : https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD n'a pas testé ou vérifié de manière indépendante les résultats/données externes et/ou de tiers et n'engage aucune responsabilité pour les éventuelles erreurs ou omissions. RIF-2
  3. Prise en charge planifiée pour les frameworks d'intelligence machine. Reportez-vous au site www.GPUOpen.com pour connaître la disponibilité du framework.
  4. Prise en charge planifiée pour plusieurs architectures, y compris X86, Power8 et ARM. AMD prend également en charge les technologies d'interconnexion actuelles et a prévu la prise en charge pour les futures technologies d'interconnexion standard, y compris GenZ, CCIX et OpenCAPI™. La mise à disponibilité des architectures et des technologies d'interconnexion standard de l'industrie prises en charge variera. Consultez votre fournisseur de système pour savoir si votre système spécifique dispose de la prise en charge de l'architecture/technologie.

Les informations contenues dans ce document ne sont fournies qu’à titre informatif seulement, et peuvent être modifiées à tout moment. Toutes les précautions ont été prises dans la préparation de ce document, cependant, il peut contenir des inexactitudes techniques, des omissions et des erreurs typographiques. AMD n’a aucune obligation de mettre à jour ou corriger ces informations. Advanced Micro Devices, Inc ne fait aucune déclaration ou garantie concernant l’exactitude ou l’exhaustivité du contenu de ce document, et décline toute responsabilité de quelque nature, y compris concernant les garanties implicites de non-violation des droits, de qualité marchande ou d’adéquation à des fins particulières, quant à l’exploitation ou l’utilisation du matériel AMD, logiciels ou autres produits décrits ici. « Fiji » est un nom de code interne AMD uniquement pour l’architecture, et non un nom de produit. Aucune licence de droits de propriété intellectuelle n’est accordée par ce document, y compris implicite ou découlant de la préclusion. Les conditions et limitations applicables à l’achat ou l’utilisation de produits AMD sont définies dans un accord signé entre les parties, ou dans les conditions générales de vente d’AMD. GD-18

© 2017 Advanced Micro Devices, Inc. Tous droits réservés. AMD, le logo AMD avec la flèche, Radeon et leurs combinaisons sont des marques déposées de Advanced Micro Devices, Inc. OpenCL est une marque déposée d’Apple Inc. utilisée avec permission de Khronos. Les autres noms de produits cités dans cette présentation ne sont mentionnés qu’à des fins d’identification, et peuvent être des marques déposées par leurs sociétés respectives.