专门为机器智能深度学习打造的全世界极快的训练加速器

通知我

全世界领先的 GPU 显存架构和新一代计算引擎

由"Vega"架构提供支持

 

64 nCU

计算单元
4096 个流处理器
 

24.6/12.3

TFLOPS
FP16 / FP32 性能
 

16GB

HBM2
 
 

484GB/s

最大显存带宽
 

性能

出色的半精度和单精度浮点性能

  • 24.6 TFLOPS FP16 或 12.3 TFLOPS FP32 峰值 GPU 计算性能.

    计算性能.Radeon Instinct MI25 具有 24.6TFLOPS FP16 或 12.3 TFLOPS FP32 峰值 GPU计算性能,堪称领先的高强度计算机器智能和深度学习训练应用的单精度性能。MI25 为绝大多数并行 HPC 工作负载提供强大的解决方案。MI25 还可在 1/16 速率下提供 768 GFLOPS 的峰值双精度 (FP64)。

  • 16GB 超高带宽 HBM2 ECC GPU 显存。

    位显存接口的数据速率较上一代提高一倍,新一代高带宽高速缓存和控制器,可靠的 ECC 显存;Radeon Instinct MI25 的 16GB HBM2 GPU 显存提供专业级加速器解决方案,能够处理高强度数据运算机器智能和深度学习训练应用。

  • 高达 82 TFLOPS/瓦 FP16 或 41 TFLOPS/瓦 FP32 峰值 GPU 计算性能.

    Radeon Instinct MI25 服务器加速器拥有高达 82 GFLOPS/瓦 FP16 或 41 GFLOPS/瓦 FP32 的计算性能,每瓦性能在数据中心的机器智能和深度学习训练应用领域居领先地位,是注重性能和能效以提高 ROI 的数据中心的理想解决方案。MI25 还提供 2.5 GFLOPS/瓦的 FP64 峰值性能。

  • 64 个计算单元,带有 64 个流处理器.

    服务器加速器具有 64 个计算单元,每个单元带有 64 个流处理器,共计 4,096 个流处理器。基于代号’Vega’架构的新一代显卡,采用全新设计的计算引擎和灵活的下一代计算单元 (nCU),可执行 16 位、32 位、64 位高频处理,为当今新兴的动态工作负载处理提供强大动力。Radeon Instinct MI25 拥有卓越的单精度性能和灵活性,高效性,是高强度计算并行运行机器智能和深度学习应用的理想解决方案。

性能特点

采用 AMD 的基于代号’Vega’架构的新一代显卡和全世界领先的 GPU 显存

  • 被动式散热 GPU 服务器加速器,采用基于代号’Vega’架构的新一代显卡和 14nm FinFET 工艺。Radeon Instinct MI25 服务器加速器采用基于代号’Vega’架构的新一代显卡和 14nm FinFET 工艺,是专门为优化数据中心 服务器部署过程中的计算密度而设计的专业级加速器。MI25 服务器加速器是单精度高强度计算训练应用的理想解决方案,适用于机器智能、深度学习及其它 HPC 级工作负载,大大提高这些工作负载的每瓦特性能。
  • 300W TDP 功耗、全高、双槽、10.5” PCIe® Gen 3 x16 GPU 服务器卡.Radeon Instinct MI25 服务器 PCIe® Gen 3 x16 GPU 卡是一款全高、双槽产品,适合于大多数标准服务器设计,为异构机器智能、深度学习训练和 HPC 级系统部署提供高兴能服务器解决方案。
  • 超高带宽 HBM2 ECC 显存,显存带宽高达 484 GB/sRadeon Instinct MI25 服务器加速器具有 16GB 的最新高带宽 HBM2 显存,可以更高效地处理机器智能和深度学习神经网络训练系统苛刻的数据集需求。MI25 加速器的 16GB ECC HBM2 显存也是高强度数据处理的 HPC 级工作负载的理想解决方案。
  • MxGPU SR-IOV 硬件虚拟化.Radeon Instinct MI25 服务器加速器的设计支持 AMD MxGPU SRIOV 硬件虚拟化技术,能帮助提高数据中心的利用率和容量。
  • 升级远程管理功能。 升级远程管理功能。Radeon Instinct MI25 加速器具有先进的带外管理电路,可以简化大型系统 GPU 的监测。MI25 的管理功能通过 I2C 实现,且不受 GPU 的状态限制,并利用符合 PMCI 的数据结构监测一系列静态和动态 GPU 信息,其中包括板元件信息、序列、GPU 温度、功耗等。

应用场合

机器智能和深度学习神经网络训练

当今机器智能和深度学习应用中神经网络使用的训练技术日趋复杂,在网络训练中需要处理大批量数据以发现数据中隐藏的规律。此过程需要由许多核心来共同完成浮点计算,而传统的 CPU 并不能像 GPU 这般高效的处理此类计算。使用 CPU 需要数周才能完成的计算,使用 GPU 几天就可以完成。Radeon Instinct MI25 联合 AMD 最新的 Epyc 服务器处理器和我们的 ROCm 开放软件平台,可以为机器智能和数据学习应用提供卓越的性能。

MI25 卓越的 24.6 TFLOPS 本机半精度 (FP16) 或 12.3 TFLOPS 单精度 (FP32) 峰值浮点运算性能,4,096 个流处理器,以及先进的高带宽高速缓存 (HBC) 和控制器,16GB 高带宽 HBM2 显存,为客户带来全新级别的计算性能,完全能够满足当今深度学习领域复杂神经网络训练的高效大数据处理需求。MI25 采用 AMD 的基于代号’Vega’架构的新一代显卡,具有全世界领先的显存架构,并针对大批量数据处理进行优化。每个时钟周期的吞吐量较前几代产品有大幅提升,高达每瓦 82 GFLOPS FP16 或每瓦 41 GFLOPS FP32 峰值 GPU 计算性能,为数据中心的机器智能深度学习训练部署提供出色的性能,满足其对于性能和效率的硬性需求。

对于机器智能和深度学习神经网络训练的优点:

  • 为高性能计算和深度学习提供卓越的 FP16 和 FP32 性能 1
  • ROCm 开放式软件平台,适合高性能计算级的机架规模
  • 优化的 MIOpen 深度学习框架程序库
  • 大型基址寄存器 (BAR) 支持 mGPU 点对点传输
  • 具有 Epyc 服务器处理器的配置优势
  • 配备新型 AMD EPYC™ 处理器的服务器搭配基于 Radeon Instinct “Vega”的加速器,可实现卓越的计算密度和每节点性能。
  • MxGPU SR-IOV 硬件虚拟化技术,用于实现更优的数据中心使用率

 

HPC 异构计算

每年 HPC 行业产生巨量的非结构化数据,为从这些数据中提取有用的信息,人们对部分 HPC 系统配置进行了重新设计。通常这些系统主要采用 CPU,但是随着数据的爆炸式增长和数据类型的多样化,加上更复杂的代码的出现,使得这些传统系统无法满足当今数据密集型 HPC 工作复杂的所有需求。随着代码类型的复杂化和处理的并行化,对于使用不同加速器(包括独立 GPU 和 FPGA)的异构计算系统的需求日益增加。经过过去十年的发展,GPU 功能已可以用于处理更多的并行代码,例如深度学习中神经网络训练使用的代码。如今,全球的科学家和研究人员正使用加速器更高效地处理多个行业的 HPC 并行代码,例如生命科学、能源、金融、汽车、航空航天、教育、政府、国防。

Radeon Instinct MI25 联合 AMD 最新的基于 “Zen” 的 Epyc 服务器 CPU 及我们革命性的 ROCm 开放软件平台,为包括硬件在内的开放异构计算提供了循序渐进的选择。AMD 的新一代 HPC 解决方案使每个节点具有极高的计算密度和性能,并具有处理当今大批量并行数据密集型代码所需的高效率,而且为通用 HPC 部署提供强大、灵活的解决方案。ROCm 软件平台提供可扩展的 HPC 级解决方案,具有完全开源式 Linux 驱动程序、HCC 编译器、工具和程序库,是科学家和研究人员对系统的控制达到硬件一级。Radeon Instinct 的开放式生态系统设计支持多种架构(包括 x86、Power8、ARM)及行业标准互连技术,可帮助客户设计优化的系统以满足异构计算新时代的需求,支持 HPC 社区的开放式设计理念。

HPC 异构计算的主要优点:

  • 为每个节点提供出色的计算密度和性能
  • ROCm 开放式软件平台,适合高性能计算级的机架规模
  • 从硬件开始支持开源 Linux 驱动程序、HCC 编译器、工具、程序库
  • 开放式多架构行业标准和行业标准互连技术支持

下载 Radeon Instinct MI25 数据表

Radeon Intinct MI25 数据表

深入了解 Radeon Instinct MI 系列

Radeon Intinct MI 系列

Radeon Instinct MI25 服务器加速器 详细信息

规格详细介绍

计算单元64 nCU
峰值半精度 (FP16)24.6TFLOPS
峰值单精度 (FP32)12.3TFLOPS
峰值双精度 (FP64)768GFLOPS
个流处理器4096
最大总功率300W
所需的 PCI 插槽数2
显存数据速率1.89Gbps
显存速率945MHz
显存大小16GB
显存类型HBM2
内存类型2048-bit
最大显存带宽484GB/s
AMD 频率动态调节技术
纠错码显存 (ECC)
产品家族Radeon Instinct™
产品系列Radeon Instinct MI 系列
型号MI25
支持的平台服务器
外形大小和散热被动式,双插槽
支持的操作系统Linux® 64-bit
软件平台兼容 ROCm 软件生态系统
  1. 计划支持多种架构,包括 x86、Power8、ARM AMD,还支持当前的互连技术,并计划支持未来的行业标准互连技术,包括 GenZ、CCIX、OpenCAPI™支持的架构和行业标准互连技术的推出时间与可用情况不尽相同。请咨询您的系统供应商关于您的具体系统的架构/技术支持情况。

此处所含信息仅为信息提供目的。如有变更,恕不另行通知。虽然在编写本文时已采取所有必要的预防措施,仍可能含有技术误差、删减和排版错误,AMD 没有义务更新或纠正本信息。关于本文档内容的精确性或完整性,AMD 公司既不做声明也不做保证,且不承担任何形式的责任,包括不对AMD 硬件、软件或本文件所规定的其他产品相关操作或使用的不侵权、适销性或对特定目的的实用性做暗示性保证。“Vega”和“Vega10”只是 AMD架构的内部代码名称,非产品名称。本文件不就任何知识产权授予许可,包括暗示性许可或因禁反言而产生的许可。在双方签订的协议中或 AMD 标准销售条款与条件中规定适用于 AMD 产品购买或使用的条款与限制。GD-18

© 2017 AMD 公司,版权所有。保留所有权利。AMD、AMD 箭头标识、Radeon 及其组合是 AMD 公司的商标。OpenCL 是 Apple, Inc. 的商标,其使用经过 Khronos 许可。本文中用到的其他产品名称仅用于识别目的,也可能是其各自公司的商标。