支持机器智能深度学习多用途训练和推断加速器

通知我

支持机器智能和深度培训应用的边缘训练解决方案

由"Polaris"架构提供支持

 

36

计算单元
2304 个流处理器
 

5.7

TFLOPS
FP16 and FP32性能
 

16GB

GDDR5
 
 

224GB/s

最大显存带宽
 

性能

5.7 TFLOPS 峰值半精度或单精度计算性能的单槽加速卡,功率低于 150 瓦 TDP1

  • 5.7 TFLOPS 峰值 FP16 | FP32 GPU 计算性能。

    Radeon Instinct MI6 服务器加速器拥有 5.7 TFLOPS 的峰值 FP16 或 FP32 计算性能和 16GB GDDR5 显存,为机器智能和深度学习推断与边缘训练应用提供卓越的单精度性能和大容量显存,采用单槽设计,同时为需要更大显存的 HPC 部署系统提供经济高效的解决方案。1

  • 116GB 超快 GDDR5 GPU 显存,256 位显存接口。

    Radeon Instinct MI6 服务器加速器具有 16GB GDDR5 GPU 显存和高达 224GB/s 的显存带宽,为处理复杂的机器智能和深度学习推断应用提供平衡性好的、多用途单精度计算解决方案,同时由于其显存大和功耗需求低,可为边缘训练提供经济高效的解决方案。

  • 高达 38 TFLOPS/瓦的峰值 FP16 和 FP32 GPU 计算性能。

    计算性能。Radeon Instinct MI6 服务器加速器具有高达 38 GFLOPS/瓦的峰值 FP16 或 FP32 GPU 计算性能,为机器智能和深度学习推断与边缘训练应用提供多用途、高效的解决方案。

  • 36 个计算单元(2,304 个流处理器)。

    个流处理器)。Radeon Instinct MI6 服务器加速器具有 36 个计算单元,每个计算单元包含 64 个流处理器,共计有 2,304 个流处理器,在处理训练深度学习神经网络时可以同步运行众多更小批次的数据,快速获得所要的结果。经济、高效的单精度计算性能解决方案对于处理此类系统安装程序极为重要,而一张 MI6 GPU 加速器卡即可提供出色的单精度性能。

性能特点

被动式散热加速器,支持可扩展服务器部署

  • 基于“Polaris”架构的被动式散热服务器加速器。

    Radeon Instinct MI6 服务器加速器基于 “Polaris” 架构,采用 14nm FinFET 工艺,专为机器智能和深度学习及 HPC 通用部署系统领域的单精度推断与边缘训练应用的服务器部署而设计,高效且可扩展。此 GPU 服务器加速器在为客户提供经济高效、多用途的计算解决方案的同时,仅消耗 150W TDP 的功率。

  • 150W TDP 功耗、单槽、9.5” GPU 服务器卡。

    Radeon Instinct MI6 服务器 GPU 卡是一个全高的单槽卡,适用于符合 PCIe® Gen 3 标准的主板。MI6 GPU 卡适合大多数标准服务器的设计,为异构机器智能和深度学习推断与边缘训练、HPC 级系统部署提供经济、高效的服务器解决方案。

  • 超快 GDDR5 显存,高达 224GB/s 显存带宽。

    Radeon Instinct MI6 服务器加速器具有 16GB 超快 GDDR5显存,能够同时快速处理众多批次的数据,适合处理要求极高的机器智能和深度学习推断与边缘训练应用及 HPC工作负载。

  • MxGPU SRIOV 硬件虚拟化。

    Radeon Instinct MI6 服务器加速器的设计支持 AMD MxGPU SRIOV 硬件虚拟化技术,能帮助提高数据中心的利用率和容量。

应用场合

深度学习推断

当今指数式数据增长和数据的动态性彻底改变了数据中心系统配置的需求。数据中心设计人员需要设计能够运行更复杂、并行运行的工作负载的系统,同时不断地提高系统效率。在过去十年间,随着 GPU 及其它加速器功能的改进,为数据中心设计人员提供了新选择,使得他们能够设计异构计算系统,从而帮助他们解决这些新的挑战。

在运行推断应用的数据中心部署中,由于训练神经网络的处理需要同步运行半精度 (FP16) 或单精度 (FP32) 的大量小批次输入数据,以期获得新的认识。为此,需要系统具有并行计算能力,能够通过大量小的核心运行输入数据,同时注重能效。

Radeon Instinct MI6 加速器是数据中心内机器智能和深度学习推断部署的强大、经济的解决方案,一块 150 瓦 TDP 的卡可提供 5.7 TFLOPS 的峰值半精度或单精度浮点性能。1 MI6 加速器基于 AMD 的“Polaris”架构,具有 16GB 超快 GDDR5显存和高达 224 GB/s 的带宽,联合 Radeon Instinct 的 ROCm 开放软件平台,为数据中心设计人员提供多用途、高效的推断部署解决方案。

对于推断应用的主要优点:

  • 5.7 TFLOPS 半精度或单精度计算性能 1
  • 38 GFLOPS/瓦防止 FP16|FP32 性能能,支持高效的推断和边缘训练部署
  • 358 TFLOPS 峰值双精度 (FP64) 计算性能
  • 2.4 GFLOPS/瓦的峰值 FP64 性能
  • 16GB GDDR5 加 256 位显存接口提供超快的显存性能
  • 被动式散热、单槽 GPU 卡,支持可扩展服务器部署
  • ROCm 软件平台提供开源式超大规模平台
  • 从硬件开始支持开源 Linux 驱动程序、HCC 编译器、工具、程序库,实现全方位控制
  • 优化的 MIOpen 深度学习框架程序库
  • 大型基址寄存器 (BAR) 支持 mGPU 点对点传输
  • MxGPU SR-IOV 硬件虚拟化可优化系统利用率

 

深度学习边缘训练

当今指数式数据增长和数据的动态性彻底改变了数据中心系统配置的需求。数据中心设计人员需要设计能够运行更复杂、并行运行的工作负载的系统,同时不断地提高系统效率。在过去十年间,随着 GPU 及其它加速器功能的改进,为数据中心设计人员提供了新选择,使得他们能够设计异构计算系统,从而帮助他们解决这些新的挑战。

运行采用边缘训练部署的机器智能与深度学习应用的数据中心,其目标是重点利用更经济高效的计算系统处理训练任务,利用大量经济的边缘服务器处理计算强度较低的训练任务,并通过提高效率来降低数据中心的总成本。此类系统要求加速器能够提供良好的单精度性能,大显存,高密度,低功耗。

Radeon Instinct MI6 加速器是一款多用途、低功耗的服务器加速器,非常适合数据中心内的机器智能和深度学习应用的低成本的边缘训练部署,一款单槽 150 瓦 TDP 的 GPU 卡可提供 38 GFLOPS/瓦峰值半精度 (FP16) 或单精度 (FP32) 浮点计算性能。1 Radeon Instinct MI6 加速器基于 AMD 的“Polaris”架构,具有 16GB 超快 GDDR5 显存,带宽高达 224GB/s,联合 Radeon Instinct 具有开放式生态系统的 ROCm 软件平台,为数据中心设计人员提供多用途、高效的边缘训练部署解决方案。

对于边缘训练的主要优点:

  • 5.7 TFLOPS 峰值半精度或单精度计算性能 1
  • 38 GFLOPS/瓦峰值 FP16|FP32 性能的单槽加速卡
  • 358 TFLOPS 峰值双精度 (FP64) 计算性能
  • 2.4 GFLOPS/瓦的峰值 FP64 性能
  • 16GB GDDR5 加 256 位显存接口提供超快的显存性能
  • 被动式散热,支持可扩展服务器部署
  • ROCm 软件平台提供开源式超大规模平台
  • 从硬件开始支持开源 Linux 驱动程序、HCC 编译器、工具、程序库,实现全方位控制
  • 优化的 MIOpen 深度学习框架程序库
  • 大型基址寄存器 (BAR) 支持 mGPU 点对点传输
  • MxGPU SR-IOV 硬件虚拟化可优化系统利用率
  • 开放式多架构行业标准和行业标准互连技术支持 2

 

支持 HPC 通用部署的异构计算

每年 HPC 行业产生巨量的非结构化数据,为从这些数据中提取有用的信息,人们对部分 HPC 系统配置进行了重新设计。通常这些系统主要采用 CPU,但是随着数据的爆炸式增长和数据类型的多样化,加上更复杂的代码的出现,使得这些传统系统无法满足当今数据密集型 HPC 工作复杂的所有需求。随着代码类型的复杂化和处理的并行化,对于使用不同加速器(包括独立 GPU 和 FPGA)的异构计算系统的需求日益增加。经过过去十年的发展,GPU 功能已可以用于处理更多的各种精度的并行代码,例如深度学习应用中使用的代码。如今,全球的科学家和研究人员正使用加速器更高效地处理多个行业的 HPC 并行代码,例如生命科学、能源、金融、汽车、航空航天、教育、政府、国防。

Radeon Instinct MI6 加速器联合 AMD 革命性的 ROCm 开放软件平台,打造多用途、高效的异构计算解决方案,一块单槽的 150 瓦 TDP 的 GPU 显卡可提供 5.7 TFLOPS 的峰值半精度或单精度计算性能,并具有 16GB 超快 GDDR5 显存,显存带宽高达 224 GB/s。1 Radeon Instinct MI6 加速器是一个为经济型通用部署系统设计的理想的异构计算解决方案,适用于金融服务、能源、生命科学、汽车、教育(教学研究)、政府实验室及其它 HPC 行业。

对于 HPC 的主要优点:

  • 5.7 TFLOPS 峰值半精度或单精度计算性能 1
  • 38 TFLOPS/瓦峰值 FP16|FP32 计算性能,适用于多种 HPC 工作负载
  • 358 TFLOPS 峰值双精度 (FP64) 计算性能
  • 2.4 GFLOP/瓦峰值双精度计算性能
  • 16GB HBM1 加 256 位显存接口提供超快显存性能
  • 被动式散热,支持可扩展服务器部署
  • ROCm 软件平台提供开源式 HPC 级平台
  • 从硬件开始支持开源 Linux 驱动程序、HCC 编译器、工具、程序库,实现全方位控制
  • MxGPU SR-IOV 硬件虚拟化可优化系统利用率

下载 Radeon Instinct MI25 数据表

Radeon Intinct MI6 数据表

深入了解 Radeon Instinct MI 系列

Radeon Intinct MI 系列

Radeon Instinct MI6 服务器加速器 详细信息

规格详细介绍

计算单元36
峰值半精度 (FP16)5.7TFLOPS
峰值单精度 (FP32)5.7TFLOPS
峰值双精度 (FP64)358GFLOPS
个流处理器2304
最大总功率150W
所需的 PCI 插槽数1
显存数据速率7Gbps
显存速率1750MHz
显存大小16GB
显存类型GDDR5
内存类型256-bit
最大显存带宽224GB/s
AMD 频率动态调节技术
产品家族Radeon Instinct™
产品系列Radeon Instinct MI 系列
型号MI6
支持的平台服务器
外形大小和散热全高度、单槽、9.5" 长、被动散热
支持的操作系统Linux® (64-bit)
软件平台兼容 ROCm 软件生态系统
保修三年有限保险
  1. AMD 性能实验室于 2017 年 6 月 2 日对基于 Radeon Instinct MMI8“Fiji”架构的加速器的测量数据。 结果仅为估算数据,可能有所不 同。 性能可能不同,具体取决于使用的最新驱动程序。 PC/系统制造商可能修改配置,得到不同的结果。 MI8 的计算结果为 8.2 TFLOPS 峰值半精度浮点性能 (FP16) 和 8.2 TFLOPS 峰值单精度 (FP32) 浮点性能。 AMD TFLOPS 计算使用以下公式: FLOPS 的计算方法是 最高 DPM 状态下的核心频率乘以每个 GPU 的 CU 数量。 然后将该所得值值乘以每个 CU 中存在的流处理器数量。 最后将该所得值乘以 每个时钟周期 2 FLOPS,得到 FP32 的 TFLOPS 值。 FP16 的 TFLOPS 值计算使用了每个时钟周期 4 FLOPS。 AMD 无独立测试或 验证的外部和/或第三方结果/数据,对于任何相关错误或遗漏不承担任何责任。 RIF-1
  2. 计划支持多种架构,包括 x86、Power8、ARM AMD,还支持当前的互连技术,并计划支持未来的行业标准互连技术,包括GenZ、CCIX、OpenCAPI™支持的架构和行业标准互连技术的推出时间与可用情况不尽相同。请咨询您的系统供应商关于您的具体系统的架构/技术支持情况。

Radeon Instinct GPU 加速器产品享受三年有限保修。请访问 www.AMD.com/warranty 了解详情此处所含信息仅为信息提供目的。如有变更,恕不另行通知。虽然在编写本文时已采取所有必要的预防措施,仍可能含有技术误差、删减和排版错误,AMD 没有义务更新或纠正本信息。关于本文档内容的精确性或完整性,AMD 公司既不做声明也不做保证,且不承担任何形式的责任,包括不对 AMD 硬件、软件或本文件所规定的其他产品相关操作或使用的不侵权、适销性或对特定目的的实用性做暗示性保证。“Polaris” 只是 AMD 架构的内部代码名称,非产品名称。本文件不就任何知识产权授予许可,包括暗示性许可或因禁反言而产生的许可。在双方签订的协议中或 AMD 标准销售条款与条件中规定适用于 AMD 产品购买或使用的条款与限制。GD-18

© 2017 AMD 公司,版权所有。保留所有权利。AMD、AMD 箭头标识、Radeon 及其组合是 AMD 公司的商标。OpenCL 是 Apple, Inc. 的商标,其使用经过 Khronos 许可。本文中用到的其他产品名称仅用于识别目的,也可能是其各自公司的商标。