注重成本、可扩展的加速器,适用于机器智能和深度学习推断应用

通知我

数据中心机器智能和深度学习推断应用部署的理想解决方案

由"Fiji"架构提供支持

 

64

计算单元
4096 个流处理器
 

8.2

TFLOPS
FP16 and FP32性能
 

4GB

HBM1
 
 

512GB/s

最大显存带宽
 

性能

8.2 TFLOPS 峰值半精度或单精度计算性能,4GB HBM11

  • 8.2 TFLOPS 峰值 FP16 | FP32 GPU 计算性能.

    计算性能.Radeon Instinct MI8 服务器加速器拥有 8.2 TFLOPS 的峰值计算性能,为机器智能和深度学习应用提供卓越的单位成本单精度性能,同时为 HPC 部署系统提供经济高效的解决方案。 1

  • 4GB 高带宽 HBM1 GPU 显存带 512 位显存接口。

    Radeon Instinct MI8 服务器加速器具有 4GB HBM1 GPU 显存和高达 512GB/s 的显存带宽,提供单精度计算性能与显存系统性能的完美组合,能够处理要求极高的 机器智能和深度学习推断应用,从新数据中抽取出有用的结果并经济高效地应用于训练的神经网络。

  • 47 TFLOPS/瓦峰值 FP16 | FP32 GPU 计算性能.

    Radeon Instinct MI8 服务器加速器具有高达 47GFLOPS/瓦的峰值 FP16|FP32 GPU 计算性能,为机器智能和深度学习推断应用提供卓越的每瓦性能。

  • 64 个计算单元(4,096 个流处理器).

    Radeon Instinct MI8 服务器加速器具有 64 个计算单元,每个计算单元包含 64 个流处理器,共计有 4,096 个流处理器,在处理训练的神经网络时可以同步运行众多更小批次的数据,快速获得所要的结果。单精度计算性能对于处理此类系统安装程序极为重要,而一张 MI8 GPU 加速器卡即可提供卓越的单精度性能。

性能特点

TDP <175 的被动式散热加速器,支持可扩展的服务器部署

  • 基于“Fiji”架构的被动式散热服务器加速器。Radeon Instinct MI8 服务器加速器基于“Fiji”架构,采用 28nmHPX 工艺,专为机器智能和深度学习领域的单精度推断应用的服务器部署而设计,高效且可扩展。GPU 服务器加速器在为客户提供卓越性能的同时,仅消耗 175W TDP 的功率。
  • 175W TDP 功耗、双槽、6” GPU 服务器卡.Radeon Instinct MI8 服务器 PCIe® Gen 3 x16 GPU 卡是一款全高、双槽产品,适合于大多数标准服务器设计,为异构机器智能、深度学习推断系统部署提供高效服务器解决方案。
  • 高带宽显存 (HBM1),显存带宽高达 512GB/s。Radeon Instinct MI8 服务器加速器具有 4GB 高带宽HBM1 显存,能够同时快速处理众多批次的数据,适合处理要求极高的机器智能和深度学习推断应用,从新数据中快速抽取出有用的结果并应用于训练的神经网络。
  • MxGPU SR-IOV 硬件虚拟化。Radeon Instinct MI8 服务器加速器的设计支持 AMD MxGPU SR-IOV 硬件虚拟化技术,能帮助提高数据中心的利用率和容量。

应用场合

深度学习推断

当今指数式数据增长和数据的动态性彻底改变了数据中心系统配置的需求。数据中心设计人员需要设计能够运行更复杂、并行运行的工作负载的系统,同时不断地提高系统效率。在过去十年间,随着 GPU 及其它加速器功能的改进,为数据中心设计人员提供了新选择,使得他们能够设计异构计算系统,从而帮助他们解决这些新的挑战。

 

在运行推断应用的数据中心部署中,由于训练神经网络的处理需要同步运行半精度 (FP16) 或单精度 (FP32) 的大量小批次输入数据,以期获得新的认识。为此,需要系统具有并行计算能力,能够通过大量小的核心运行输入数据,同时注重能效。

 

Radeon Instinct MI8 加速器是数据中心内机器智能和深度学习推断部署的高效、经济的解决方案,一块 175 瓦 TDP 的卡可提供 8.2 TFLOPS 的峰值半精度或单精度 (FP16|FP32) 浮点性能。1 Radeon Instinct MI8 加速器基于 AMD 的“Fiji”架构,具有 4GB 高带宽 HBM1 显存和高达 512 GB/s 的带宽,联合 Radeon Instinct 的 ROCm 平台开放生态系统,为数据中心设计人员提供高效、灵活的推断部署解决方案。

对于推断应用的主要优点:

  • 8.2 TFLOPS 峰值半精度或单精度计算性能 1
  • 47 TFLOPS/瓦峰值半精度或单精度计算性能
  • 4GB HBM1 加 512 位显存接口提供高带宽显存性能
  • TDP 低于 175 瓦的被动式散热加速器,支持可扩展的服务器部署
  • ROCm 软件平台提供开源式超大规模平台
  • 从硬件开始支持开源 Linux 驱动程序、HCC 编译器、工具、程序库,实现全方位控制
  • 优化的 MIOpen 深度学习框架程序库2
  • 大型基址寄存器 (BAR) 支持 mGPU 点对点传输
  • MxGPU SR-IOV 硬件虚拟化可优化系统利用率
  • 开放式多架构行业标准和开放式标准互连技术支持3

 

支持 HPC 通用部署的异构计算

每年 HPC 行业产生巨量的非结构化数据,为从这些数据中提取有用的信息,人们对部分 HPC 系统配置进行了重新设计。通常这些系统主要采用 CPU,但是随着数据的爆炸式增长和数据类型的多样化,加上更复杂的代码的出现,使得这些传统系统无法满足当今数据密集型 HPC 工作复杂的所有需求。随着代码类型的复杂化和处理的并行化,对于使用不同加速器(包括独立 GPU 和 FPGA)的异构计算系统的需求日益增加。经过过去十年的发展,GPU 功能已可以用于处理更多的并行代码,例如深度学习中神经网络训练使用的代码。如今,全球的科学家和研究人员正使用加速器更高效地处理多个行业的 HPC 并行代码,例如生命科学、能源、金融、汽车、航空航天、教育、政府、国防。

 

Radeon Instinct MI8 加速器联合 AMD 革命性的 ROCm 开放软件平台,打造入门级的异构计算解决方案,一块高效 GPU显卡可提供 8.2 TFLOPS 的峰值单精度计算性能,并具有 4GB 高带宽 HBM1 显存。1 MI8 是一个经济高效的通用部署系统的完美的开放解决方案,适用于金融服务、能源、生命科学、汽车、航空航天、教育(教学研究)、政府实验室及其它 HPC 行业。

对于 HPC 的主要优点:

  • 8.2 TFLOPS 峰值半精度或单精度计算性能,适用于多种 HPC 工作负载  1
  • 47 TFLOPS/瓦峰值半精度或单精度计算性能
  • 512 GFLOPS 峰值 (FP64) 双精度计算性能,具有 4GB HBM1
  • 2.9 GFLOPS/瓦的峰值 FP64 计算性能
  • 4GB HBM1 加 512 位显存接口提供高带宽显存性能
  • TDP 低于 175 瓦的被动式散热加速器,支持可扩展的服务器部署
  • ROCm 软件平台提供开源式 HPC 级平台
  • 从硬件开始支持开源 Linux 驱动程序、HCC 编译器、工具、程序库,实现全方位控制
  • MxGPU SR-IOV 硬件虚拟化可优化系统利用率
  • 开放式多架构行业标准和行业标准互连技术支持3

下载 Radeon Instinct MI18 数据表

Radeon Intinct MI8 数据表

深入了解 Radeon Instinct MI 系列

Radeon Intinct MI 系列

Radeon Instinct MI8 服务器加速器 详细信息

规格详细介绍

计算单元64
峰值半精度 (FP16)8.2TFLOPS
峰值单精度 (FP32)8.2TFLOPS
峰值双精度 (FP64)512GFLOPS
个流处理器4096
最大总功率175W
所需的 PCI 插槽数2
显存数据速率1Gbps
显存速率500MHz
显存大小4GB
显存类型HBM1
内存类型4096-bit
最大显存带宽512GB/s
AMD 频率动态调节技术
产品家族Radeon Instinct™
产品系列Radeon Instinct MI 系列
型号MI8
支持的平台服务器
外形大小和散热被动式,双插槽
支持的操作系统Linux® 64-bit
软件平台兼容 ROCm 软件生态系统
  1. AMD 性能实验室于 2017 年 6 月 2 日对基于 Radeon Instinct MMI8“Fiji”架构的加速器的测量数据。结果仅为估算数据,可能有所不同。性能可能不同,具体取决于使用的最新驱动程序。PC/系统制造商可能修改配置,得到不同的结果。MI8 的计算结果为 8.2 TFLOPS 峰值半精度浮点性能 (FP16) 和 8.2 TFLOPS 峰值单精度 (FP32) 浮点性能。 AMD TFLOPS 计算使用以下公式:FLOPS 的计算方法是最高DPM 状态下的核心频率乘以每个 GPU 的 CU 数量。然后将该所得值值乘以每个 CU 中存在的流处理器数量。最后将该所得值乘以每个时钟周期 2 FLOPS,得到 FP32 的 TFLOPS 值。FP16 的 TFLOPS 值计算使用了每个时钟周期 4 FLOPS。RIF-1
  2. 计划支持机器智能框架。关于框架的可用情况,请参考 www.GPUOpen.com 网站。
  3. 计划支持多种架构,包括 x86、Power8、ARM AMD,还支持当前的互连技术,并计划支持未来的行业标准互连技术,包括 GenZ、CCIX、OpenCAPI™支持的架构和行业标准互连技术的推出时间与可用情况不尽相同。请咨询您的系统供应商关于您的具体系统的架构/技术支持情况。

此处所含信息仅为信息提供目的。如有变更,恕不另行通知。虽然在编写本文时已采取所有必要的预防措施,仍可能含有技术误差、删减和排版错误,AMD 没有义务更新或纠正本信息。关于本文档内容的精确性或完整性,AMD 公司既不做声明也不做保证,且不承担任何形式的责任,包括不对AMD 硬件、软件或本文件所规定的其他产品相关操作或使用的不侵权、适销性或对特定目的的实用性做暗示性保证。“Fiji”只是 AMD 架构的内部代码名称,非产品名称。本文件不就任何知识产权授予许可,包括暗示性许可或因禁反言而产生的许可。在双方签订的协议中或 AMD 标准销售条款与条件中规定适用于 AMD 产品购买或使用的条款与限制。GD-18

© 2017 AMD 公司,版权所有。保留所有权利。AMD、AMD 箭头标识、Radeon 及其组合是 AMD 公司的商标。OpenCL 是 Apple, Inc. 的商标,其使用经过 Khronos 许可。本文中用到的其他产品名称仅用于识别目的,也可能是其各自公司的商标。