Acelerador escalable sensible a los costes, para aplicaciones de aprendizaje profundo e inteligencia artificial

NOTIFICARME

Solución idónea para implementaciones en centros de datos de aplicaciones de inferencia para aprendizaje profundo e inteligencia artificial

Impulsionado por la arquitectura "Fiji"

 

64

UNIDADES DE CóMPUTO
4096 Procesadores stream
 

8.2

TFLOPS
FP16 and FP32Performance
 

4GB

HBM1
 
 

512GB/s

ANCHO DE BANDA DE LA MEMORIA
 

RENDIMIENTO

8,2 TFLOPS de rendimiento de precisión única o media pico con 4 GB de HBM1 1

  • Rendimiento de computación pico de 8,2 TFLOPS FP16 | FP32 GPU.

    Con un rendimiento de computación pico de 8,2 TFLOPS en una tarjeta única, el acelerador de servidor Radeon Instinct MI8 ofrece un rendimiento de precisión única superior por cada euro invertido para aplicaciones de inferencia de aprendizaje profundo e inteligencia artificial, junto con una solución rentable para sistema de desarrollo HPC. 1

  • 4 GB de memoria GPU HBM1 de ancho de banda alto en interfaz de memoria de 512-bit.

    Con 4 GB de memoria GPU HBM1 y hasta 512GB/s de ancho de banda de memoria, el acelerador de servidor Radeon Instinct MI8 proporciona la combinación perfecta de rendimiento de precisión única y rendimiento del sistema de memoria para gestionar las aplicaciones más exigentes de aprendizaje profundo e inteligencia artificial para abstraer los resultados significativos de nuevos datos aplicados a redes neuronales programadas de un modo rentable y eficiente.

  • Rendimiento de computación de GPU pico de 47 GFLOPS/vatio FP16 | FP32.

    Con un rendimiento de computación de GPU pico de hasta 47 GFLOPS/vatios FP16|FP32, el acelerador de servidor Radeon Instinct MI8 proporciona un rendimiento superior por vatio para aplicaciones de inferencias de aprendizaje profundo e inteligencia artificial. 2

  • 64 unidades de cómputo (4.096 procesadores Stream).

    El acelerador de servidor Radeon Instinct MI8 tiene 64 unidades de computación que contiene 64 procesadores Stream cada una, para un total de 4.096 procesadores Stream que están disponibles para la ejecución de muchos lotes más pequeños de datos simultáneamente frente a una red neuronal programada para obtener respuestas rápidamente. El rendimiento de precisión única es crucial para estos tipos de instalaciones de sistema y el acelerador MI8 proporciona una precisión única superior en una tarjeta GPU única.

CARACTERÍSTICAS

Acelerador con refrigeración pasiva, que emplea <175 vatios TDP para implementaciones de servidor escalable

  • Acelerador de servidor con refrigeración pasiva basada en arquitectura “Fiji”. El acelerador de servidor Radeon Instinct MI8, está basado en la arquitectura “Fiji”, con un proceso HPX de 28 nm y está diseñado para la implementación de servidores escalables de alta eficiencia para aplicaciones de interferencia de precisión única en aprendizaje profundo e inteligencia artificial. El acelerador de servidor GPU ofrece a los clientes alto rendimiento y solo consume 175 W de potencia de placa TDP.
  • Tarjeta servidor GPU de 6”, ranura doble, 175 W de potencia de placa TDP. La tarjeta servidor PCIe® Gen 3 x16 GPU Radeon Instinct MI8 es una unidad con altura completa y ranura doble diseñada para adaptarse a la mayor parte de los diseños de servidor y proporcionar una solución de servidores altamente eficiente para implementaciones de sistema de inferencia de aprendizaje profundo e inteligencia artificial heterogénea.
  • Memoria de ancho de banda alto (HDM1) con un ancho de banda de memoria de hasta 512GB/s. El acelerador de servidor Radeon Instinct MI8 está diseñado con 4 GB de memoria HBM1 de ancho de banda alto que permite gestionar rápidamente numerosos lotes de datos simultáneamente para atender las aplicaciones más exigentes de inferencia de aprendizaje profundo e inteligencia artificial, permitiendo la abstracción rápida de resultados significativos de nuevos datos aplicados en redes neuronales programadas.
  • Virtualización de hardware SR-IOV MxGPU. El acelerador de servidor Radeon Instinct™ MI8 está diseñado para ofrecer compatibilidad con la tecnología de virtualización de hardware SR-IOV MxGPU de AMD y afrontar una mayor capacidad y uso en el centro de datos.

ESCENARIOS DE USO

Inferencia para aprendizaje profundo

El crecimiento exponencial de datos actual y la naturaleza dinámica de dichos datos ha remodelado los requisitos de las configuraciones del sistema del centro de datos. Los diseñadores del centro de datos deben crear sistemas de datos con capacidad de ejecutar cargas de trabajo más complejas y paralelas por naturaleza, mientras continúan mejorando la eficiencia del sistema. Las mejoras en las capacidades de las GPU discretas y otros aceleradores a lo largo de la última década han ofrecido a los diseñadores de los centros de datos nuevas opciones para crear sistemas de computación heterogéneos que les ayudan a cumplir con nuevos retos.

 

La implementación de centros de datos que ejecutan aplicaciones de inferencia, en las que se ejecutan gran cantidad de nuevas entradas de conjuntos de datos más pequeños a precisión media (FP16) o precisión única (FP32) contra redes neuronales programadas para descubrir nuevos conocimientos, requieren sistemas con capacidad de computación paralela que puedan ejecutar rápidamente entradas de datos en multitud de núcleos más pequeños de forma más eficiente en lo relativo a la potencia.

 

El acelerador Radeon Instinct MI8 representa una solución eficiente, sensible a los coste para implementaciones de inferencia de aprendizaje profundo e inteligencia artificial en en centros de datos que ofrecen 8,2 TFLOPS (FP16|FP32) por rendimiento de punto flotante de precisión media o única en una tarjeta TDP de 175 vatios de ranura única. 1 El acelerador Radeon Instinct MI8, basado en arquitectura “Fiji” de AMD, con 4 GB de memoria HBM1 de ancho de banda alto y un ancho de banda de hasta 512 GB/s, combinado con la estrategia del ecosistema abierto de Radeon Instinct, ofrece a los diseñadores de los centros de datos una solución flexible y altamente eficiente para implementaciones de inferencia.

Ventajas clave para inferencia:

  • Rendimiento informático de precisión media o única pico de 8,2 TFLOPS 1
  • Rendimiento informático de precisión media o única pico de 47 GFLOPS/vatio 2
  • 4 GB de HBM1 en interfaz de memoria de 512-bit proporciona un rendimiento de memoria de ancho de banda alto
  • Acelerador con refrigeración pasiva, que emplea menos de 175 vatios TDP para implementaciones de servidor escalable
  • La plataforma de software ROCm proporciona una plataforma Hyperscale de fuente abierta
  • Controladores Linux de código abierto, compilador HCC, herramientas y bibliotecas para un control completo a partir del metal
  • Bibliotecas de marco de aprendizaje profundo MIOpen optimizado 3
  • Compatibilidad BAR amplia para comunicación interpares de la mGPU
  • Virtualización de hardware SR-IOV MxGPU para usos de sistema optimizados
  • Compatibilidad del estándar abierto de la industria de arquitecturas múltiples y tecnologías de interconexión estándares abiertos 4

 

Computación heterogénea para desarrollo y uso genera HPC

La industria HPC está generando inmensas cantidades de datos no estructurados cada año y una parte de las configuraciones del sistema HPC se están remodelando para permitir que la comunidad extraiga información útil de dichos datos. Tradicionalmente, estos sistemas estaban basados en CPU, pero con el crecimiento fulminante en cantidad y tipos de datos creados, junto con la evolución de códigos más complejos, estos sistemas tradicionales no cumplen todos los requisitos de las intensivas cargas de trabajo HPC actuales. Como estos tipos de códigos cada vez son más complejos y en paralelo, ha ido aumentando el uso de sistemas de computación heterogénea con distintas combinaciones de aceleradores, incluidos los GPU y FPGA discretos. Los avances en materia de capacidad de las GPU a lo largo de la pasada década ha permitido el aprovechamiento para un número cada vez mayor de estos códigos paralelos de precisión combinada como los empleados en las redes neurológicas de programación para el aprendizaje profundo. Científicos e investigadores de todo el mundo emplean ahora aceleradores para procesar más eficientemente códigos paralelos HPC en distintas industrias, incluyendo ciencias naturales, energía, financieras, automovilísticas y aeroespaciales, académicas, gubernamentales y de defensa.

 

El acelerador Radeon Instinct MI8, combinado con la revolucionaria plataforma de software abierto ROCm de AMD, representa una solución de nivel de entrada a la computación heterogénea que ofrece un rendimiento informático de precisión única pico de 8,2 TFLOPS en una tarjeta GPU eficiente con 4 GB de memoria HBM1 de ancho de banda alto. 1 El acelerador MI8 representa la solución abierta perfecta para sistemas rentables de desarrollo y uso general implementadas en las industrias de servicios financieros, energía, ciencias naturales, automovilística y aeroespacial, académica (investigación y enseñanza), laboratorios gubernamentales y otras industrias HPC.

Ventajas clave para HPC:

  • Rendimiento informático de precisión única o media pico de 8,2 TFLOPS para la gama de cargas de trabajo HPC 1
  • Rendimiento informático de precisión media o única pico de 47 GFLOPS/vatio 2
  • Rendimiento informático de precisión doble pico de 512 GFLOPS (FP64) con 4 GB de HBM1
  • Rendimiento informático pico de 2,9 GFLOPS/vatio FP64
  • 4 GB de HBM1 en interfaz de memoria de 512-bit proporciona un rendimiento de memoria de ancho de banda alto
  • Acelerador con refrigeración pasiva, que emplea menos de 175 vatios TDP para implementaciones de servidor escalable
  • La plataforma de software ROCm proporciona una plataforma tipo HPC
  • Controladores Linux de código abierto, compilador HCC, herramientas y bibliotecas para un control completo a partir del metal
  • Virtualización de hardware SR-IOV MxGPU para usos de sistema optimizados
  • Compatibilidad del estándar abierto de la industria de arquitecturas múltiples y tecnologías de interconexión estándares de la industria 5

Descargar la ficha técnica de Radeon Instinct™ MI8

Radeon Intinct™ MI8 DataSheet

Descubre el Radeon Instinct™ serie MI

RADEON INSTINCT™ MI SERIES

Radeon Instinct™ MI8 DETALLES

Análisis exhaustivo de las especificaciones

Unidades de cómputo64
Precisión media pico8.2TFLOPS
Precisión única pico8.2TFLOPS
Precisión doble pico512GFLOPS
Procesadores stream4096
Potencia típica175W
Ranuras PCI necesarias2
Tasa de datos de la memoria1Gbps
Velocidad de memoria500MHz
Memoria4GB
Tipo de memoriaHBM1
Interfaz de la memoria4096-bit
Ancho de banda de la memoria512GB/s
AMD PowerTune Technology
Familia de productosRadeon Instinct
Línea de productosRadeon Instinct serie MI
ModeloMI8
PlataformasServidores
Factor de forma y refrigeraciónAltura completa, ranura doble, 6" de largo, refrigeración pasiva
SO compatibleLinux® (64-bit)
Plataforma del softwareCompatible con el ecosistema de software ROCm
GarantíaTres años, limitada
  1. Mediciones realizadas por AMD Performance Labs a partir del 2 de junio de 2017 en el acelerador basado en la arquitectura "Fiji" del Radeon Instinct™ MI8. Los resultados son solo estimaciones, pudiendo variar. El rendimiento puede variar en función del uso de los controladores más recientes. Los fabricantes de ordenadores/sistemas pueden variar las configuraciones y, por lo tanto, los resultados. Los resultados calculados para el MI8 arrojaron un rendimiento de punto flotante de precisión media pico de 8,2 TFLOPS (FP16) y de precisión única pico de 8,2 TFLOPS (FP32). Cálculos de TFLOPS de AMD realizados según la siguiente ecuación: los cálculos FLOPS se realizan tomando el motor de reloj del estado DPM más alto y multiplicándolo por xx CUs por GPU. A continuación, se multiplica dicho número por xx procesadores Stream, que existen en cada CU. Después, dicho número se multiplica por 2 FLOPS por reloj para FP32. Para calcular TFLOPS para FP16, se han empleado 4 FLOPS por reloj. Las mediciones en Nvidia Tesla P40 arrojaron un rendimiento de punto flotante de precisión media pico de 0,19 TFLOPS (FP16) con tarjeta GPU TDP de 250 w procedentes de fuente externa. Fuentes: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Las mediciones en Nvidia Tesla P4 arrojaron un rendimiento de punto flotante de precisión media pico de 0,09 TFLOPS (FP16) con tarjeta GPU TDP de 75 w procedentes de fuente externa. Fuentes: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD no probado ni verificado independientemente resultados/datos de terceros y/o externos y no se responsabiliza de ningún error ni omisión incluida en este documento. RIF-1
  2. Mediciones realizadas por AMD Performance Labs a partir del 2 de junio de 2017 en el acelerador basado en la arquitectura "Fiji" del Radeon Instinct™ MI8. Los resultados son solo estimaciones, pudiendo variar. El rendimiento puede variar en función del uso de los controladores más recientes. Los fabricantes de ordenadores/sistemas pueden variar las configuraciones y, por lo tanto, los resultados. Los resultados calculados para el Radeon Instinct MI8 arrojaron un rendimiento de punto flotante de precisión media pico de 47 GFLOPS/vatio (FP16) y de precisión única pico de 47 GFLOPS/vatio (FP32). Cálculos de GFLOPS por vatio de AMD realizados según la siguiente ecuación: los cálculos FLOPS se realizan tomando el motor de reloj del estado DPM más alto y multiplicándolo por xx CUs por GPU. A continuación, se multiplica dicho número por xx procesadores Stream, que existen en cada CU. Después, dicho número se multiplica por 2 FLOPS por reloj para FP32. Para calcular TFLOPS para FP16, se han empleado 4 FLOPS por reloj. Una vez realizado el cálculo de los TFLOP, el número se divide entre la potencia TDP de 175 w y se multiplica por 1.000. Las mediciones en Nvidia Tesla P40 basadas en picos de 0,19 TFLOPS FP16 con tarjeta GPU TDP de 250 w TDP GPU arrojan un resultado de rendimiento de precisión media pico de 0,76 GFLOPS/vatio (FP16). Fuentes para Nvidia Tesla P40 FP16 TFLOP, número: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Las mediciones en Nvidia Tesla P4 basadas en picos de 0,09 TFLOPS FP16 con tarjeta GPU TDP de 75 w TDP GPU arrojan un resultado de rendimiento de precisión media pico de 1,2 GFLOPS/vatio (FP16). Fuentes para Nvidia Tesla P40 FP16 TFLOP, número: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD no probado ni verificado independientemente resultados/datos de terceros y/o externos y no se responsabiliza de ningún error ni omisión incluida en este documento. RIF-2
  3. Prevista compatibilidad para marcos de inteligencia artificial. Consulte el sitio web www.GPUOpen.com para obtener la disponibilidad del marco.
  4. Previsto respaldo para varias arquitecturas, incluyendo x86, Power8 y ARM AMD, también admiten tecnologías de interconexión actuales y se prevé su compatibilidad con futuras tecnologías de interconexión estándares de la industria, incluyendo GenZ, CCIX y OpenCAPI™. Los periodos y disponibilidad de las arquitecturas admitidas y tecnologías de interconexión estándares de la industria variarán. Diríjase al vendedor de su sistema para comprobar si su sistema tiene una arquitectura/tecnología compatible.
  5. 2. Mediciones realizadas por AMD Performance Labs a partir del 2 de junio de 2017 en el acelerador basado en la arquitectura "Fiji" del Radeon Instinct™ MI8. Los resultados son solo estimaciones, pudiendo variar. El rendimiento puede variar en función del uso de los controladores más recientes. Los fabricantes de ordenadores/sistemas pueden variar las configuraciones y, por lo tanto, los resultados. Los resultados calculados para el Radeon Instinct MI8 arrojaron un rendimiento de punto flotante de precisión media pico de 47 GFLOPS/vatio (FP16) y de precisión única pico de 47 GFLOPS/vatio (FP32). Cálculos de GFLOPS por vatio de AMD realizados según la siguiente ecuación: los cálculos FLOPS se realizan tomando el motor de reloj del estado DPM más alto y multiplicándolo por xx CUs por GPU. A continuación, se multiplica dicho número por xx procesadores Stream, que existen en cada CU. Después, dicho número se multiplica por 2 FLOPS por reloj para FP32. Para calcular TFLOPS para FP16, se han empleado 4 FLOPS por reloj. Una vez realizado el cálculo de los TFLOP, el número se divide entre la potencia TDP de 175 w y se multiplica por 1.000. Las mediciones en Nvidia Tesla P40 basadas en picos de 0,19 TFLOPS FP16 con tarjeta GPU TDP de 250 w TDP GPU arrojan un resultado de rendimiento de precisión media pico de 0,76 GFLOPS/vatio (FP16). Fuentes para Nvidia Tesla P40 FP16 TFLOP, número: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Las mediciones en Nvidia Tesla P4 basadas en picos de 0,09 TFLOPS FP16 con tarjeta GPU TDP de 75 w TDP GPU arrojan un resultado de rendimiento de precisión media pico de 1,2 GFLOPS/vatio (FP16). Fuentes para Nvidia Tesla P40 FP16 TFLOP, número: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. AMD no probado ni verificado independientemente resultados/datos de terceros y/o externos y no se responsabiliza de ningún error ni omisión incluida en este documento. RIF-2

La información presentada en este documento tiene un propósito meramente informativo y está sujeta a cambios sin previo aviso. Aunque esta página web haya sido elaborada cuidadosamente, puede contener imprecisiones técnicas, omisiones y errores tipográficos, y AMD no tiene la obligación de actualizar o corregir de otro modo esta información. Advanced Micro Devices, Inc. no proporciona ninguna representación ni garantía con respecto a la exactitud o integridad del contenido de este documento, ni asume ninguna responsabilidad de ningún tipo, incluidas las garantías implícitas de no infracción, comerciabilidad o adecuación a un uso particular, con respecto al hardware, software u otros productos de AMD descritos en este documento. “Fiji” es un nombre de código interno de AMD solo para la arquitectura y no un nombre de producto. Nada de este documento constituye un otorgamiento de licencia de ningún derecho de propiedad intelectual implícita o por acción innegable. Los términos y limitaciones aplicables a la compra o uso de los productos de AMD se establecen en un acuerdo firmado entre las partes o en los Términos y condiciones estándar de venta de AMD. GD-18

© 2017 Advanced Micro Devices, Inc. Todos los derechos reservados. AMD, el logotipo AMD Arrow, Radeon y sus combinaciones son marcas comerciales de Advanced Micro Devices, Inc. OpenCL es una marca comercial de Apple Inc. usada con permiso de Khronos. Otros nombres de productos incluidos en esta publicación son solo para fines de identificación y pueden ser marcas comerciales de sus respectivas empresas.