多功能訓練與推論加速器,適合機器智慧和深度學習

通知我

機器和深度學習應用的理想邊緣訓練解決方案

Powered by the "「Polaris」支援" Architecture

 

36

COMPUTE UNITS
2304 Stream Processors
 

5.7

TFLOPS
FP16 and FP32Performance
 

16GB

GDDR5
 
 

224GB/s

MEMORY BANDWIDTH
 

效能

尖峰半或單精度效能達 5.7 TFLOPS 的單插槽卡,使用低於 150 W TDP 1

  • 尖峰 FP16 | FP32 GPU 運算效能達 5.7 TFLOPS。

    搭載 16GB GDDR5 記憶體,且單板上尖峰 FP16 或 FP32 運算效能達 5.7 TFLOPS 的 Radeon Instinct MI6 伺服器加速器擁有無人能比的單精度效能,以及單插槽卡上的大容量記憶體,適合機器與深度學習推論,以及邊緣訓練應用,對於記憶體需求較大的 HPC 開發系統而言,是個符合成本效益的解決方案。 1

  • 搭載 16GB 超快速 GDDR5 GPU 記憶體的 256-位元記憶體介面。

    搭載 16GB GDDR5 GPU 記憶體,且記憶體頻寬達 224GB/秒的 Radeon Instinct MI6 伺服器加速器可提供適當平衡且彈性靈活的單精度運算解決方案,適合處理工作負載繁重的機器智慧與深度學習推論應用,對於記憶體需求大但功率需求低的邊緣訓練應用而言,是符合成本效益的解決方案。

  • 尖峰 FP16 和 FP32 GPU 運算效能達每瓦 38 GFLOPS。

    尖峰 FP16 或 FP32 GPU 運算效能達 38 GFLOPS/瓦的 Radeon Instinct MI6 伺服器加速器可提供多功能、有效率,是適合機器智慧和深度學習推論,以及邊緣訓練應用的解決方案。2

  • 36 個運算單元(2,304 個串流處理器)。

    Radeon Instinct MI6 伺服器加速器擁有 36 個運算單元,每單元包含 64 個串流處理器,共 2,304 個串流處理器,適合同步處理已訓練深度學習類神經網路上許多批量較小的資料以快速取得答案。低成本高效率解決方案的單精度效能對於這些類型的系統配置極為重要,且 MI6 加速器中的單插槽 GPU 卡可提供優異的單精度效能。

功能

被動冷卻加速器,適合可擴充伺服器部署

  • 以「Polaris」架構為基礎的被動冷卻伺服器加速器。
    Radeon Instinct MI6 伺服器加速器以「Polaris」架構為基礎且配備 14nm FinFET 處理,其高效率、可擴充的伺服器部署設計適合機器智慧和深度學習中的單精度推論與邊緣訓練應用,以及 HPC 一般用途與開發系統。此 GPU 伺服器加速器可為客戶提供符合成本效益且多功能的運算解決方案,同時 TDP 板能耗僅 150W。
  • 150W TDP 板功率、單插槽、9.5 英吋 GPU 伺服器卡。
    Radeon Instinct MI6 伺服器 GPU 卡為全高度、單插槽卡,可與相容於 PCIe® Gen 3 的主機板搭配使用。MI6 GPU 卡可用於大部分標準伺服器的設計可提供低成本、高效率的伺服器解決方案,適合異質機器智慧和深度學習推論與邊緣訓練,以及 HPC 等級的系統部署。
  • 搭載超快速 GDDR5,記憶體頻寬達 224GB/秒。
    Radeon Instinct MI6 搭載 16GB 超快速 GDDR5 記憶體的設計可快速地同步處理大量批量較大的資料,適合工作負載繁重的機器智慧和深入學習推論與邊緣訓練應用,以及 HPC。
  • MxGPU SRIOV HW 虛擬化。
    Radeon Instinct™ MI6 伺服器加速器的設計能支援 AMD 的 MxGPU SRIOV 硬體虛擬化技術,可大幅提高資料中心的利用率與產能。

使用案例

深度學習推論

現今呈爆炸性成長的資料與資料動態的本質改寫了資料中心系統配置的需求。資料中心設計人員必須建議能夠執行工作負載更複雜且本質上必須平行進行的系統,同時持續改善系統的效率。過去十年來對於分散式 GPU 和其他加速器能力的提升為資料中心設計人員帶來建置異質運算系統的新選項,可幫助他們滿足這些新的挑戰。

於執行推論應用的資料中心部署,已訓練類神經網路上大量新的較小資料集輸入值需以半精度 (FP16) 或單精度 (FP32) 進行處理以獲取新的知識,因此需要能夠進行平行運算的系統才能以具備能源效率的方式快速處理大量較小核心上的資料輸入值。

單插槽 150W TDP 卡即可提供 5.7 TFLOPS 尖峰半或單精度 (FP16|FP32) 浮點效能的 Radeon Instinct MI6 加速器是資料中心部署機器智慧與深度學習推論強大且符合成本敏感性的解決方案。 1 以 AMD「Polaris」架構為基礎且搭載頻寬達 224 GB/秒16GB 超快速 GDDR5 記憶體的 MI6,結合 Radeon Instinct 的 ROCm 軟體平台,為資料中心設計人員提供多功能、高效率的推論部署解決方案。

對於推論的主要優點:

  • 半或單精度運算效能達 5.7 TFLOPS 1
  • 邊緣 FP16|FP32 效能達 38 GFLOPS/瓦,適合有效率的推論與邊緣訓練部署 2
  • 雙精度 (FP64) 運算效能達 358 GFLOPS
  • 尖峰 FP64 效能達 2.4 GFLOPS/瓦
  • 256-位元記憶體介面上搭載 16GB GDDR5,可提供超快速記憶體效能
  • 被動冷卻、單插槽的 GPU 卡,適合可擴充伺服器部署
  • ROCm 軟體平台提供開放原始碼超大規模平台
  • 從硬體即採用開放原始碼的 Linux 驅動程式、HCC 編譯器、工具和檔案庫取得完全控制
  • 最佳化 MIOpen 深度學習架構檔案庫
  • Large BAR 支援 mGPU 點對點運算
  • MxGPU SR-IOV 硬體虛擬化,可最佳化系統利用率

 

深度學習邊緣訓練

現今呈爆炸性成長的資料與資料動態的本質改寫了資料中心系統配置的需求。資料中心設計人員必須建議能夠執行工作負載更複雜且本質上必須平行進行的系統,同時持續改善系統的效率。過去十年來對於分散式 GPU 和其他加速器能力的提升為資料中心設計人員帶來建置異質運算系統的新選項,可幫助他們滿足這些新的挑戰。

透過邊緣訓練部署在資料中心執行機器智慧與深度學習應用程式, 其目標較著重於符合成本效益與效率的運算系統,用於需使用大量低成本 Edge 伺服器處理運算量較低的訓練任務,藉由達成較高的效率降低整體資料中心的成本。這些系統需要單精度效能佳、記憶體容量較大但外型輕巧、功率較低的加速器。

Radeon Instinct MI6 加速器為多功能、功率較低的伺服器加速器,是符合低成本邊緣訓練部署需求的絕佳選擇,適合資料中心的機器智慧與深度學習應用,且單插槽 150W TDP GPU 卡可提供達 38 GFLOPS/瓦的尖峰半精度 (FP16) 或單精度 (FP32) 浮點效能。1 以 AMD「Polaris」架構為基礎、搭載 16GB 超快速 GDDR5 記憶體,且頻寬達 224 Gb/秒的 Radeon Instinct MI6 加速器,結合 Radeon Instinct 採用開放生態系統的方式的 ROCm 軟體平台,可為資料中心設計人員提供適合邊緣訓練部署的多功能、高效率的解決方案。

對於邊緣訓練的主要優點:

  • 尖峰半或單精度運算效能達 5.7 TFLOPS 1
  • 單插槽卡尖峰 FP16|FP32 效能達 38 GFLOPS/瓦 2
  • 雙精度 (FP64) 運算效能達 358 GFLOPS
  • 尖峰 FP64 效能達 2.4 GFLOPS/瓦
  • 256-位元記憶體介面上搭載 16GB GDDR5,可提供超快速記憶體效能
  • 被動冷卻,適合可擴充部署
  • ROCm 軟體平台提供開放原始碼超大規模平台
  • 從硬體即採用開放原始碼的 Linux 驅動程式、HCC 編譯器、工具和檔案庫取得完全控制
  • 最佳化 MIOpen 深度學習架構檔案庫
  • Large BAR 支援 mGPU 點對點運算
  • MxGPU SR-IOV 硬體虛擬化,可最佳化系統利用率
  • 開放產業標準技術支援多重架構與標準互連技術 3

 

HPC 異質運算一般用途與開發

HPC 產業每年創造數量龐大的非結構化資料,因 此部分 HPC 系統配置需重新規劃,社群才得以從這些資料或取有用的資訊。傳統上,這些多半是以 CPU 為基礎的系統,但由於所創造的資料量呈爆炸性成長且種類多元,且隨著程式碼演進,變得更複雜,這些傳統系統無法完全因應現今資料繁重 HPC 工作負載的需求。由於這些程式碼類型愈形複雜與平行化,異質運算系統與不同加速器組合搭配使用的頻率也越來越高,包含分散式 GPU 和 FPGA。過去十年來 GPU 功能的增進,使其能運用在數量大幅提升的混合精度平行程式碼,例如深度學習應用使用的程式碼。全球科學家和研究人員現採用加速器以更有效率的方式處理跨數個產業的 HPC 平行程式碼,包含生命科學、能源、金融、汽車和航太、學術、政府機構與國防。

Radeon Instinct MI6 加速器結合 AMD 革命性的 ROCm 開放軟體平台,成為多功能、有效率的異質運算解決方案,其中包含尖峰半或單精度效能達 5.7 TFLOPS,TDP 僅 150W 的 GPU 卡,以及記憶體頻寬達 16GB 超快速 GDDR5 記憶體。1 Radeon Instinct MI6 加速器是理想的異質運算解決方案,適合用於部署具成本敏感性的一般用途和開發系統,例如金融服務、能源、生命科學、汽車、學術(研究 & 教學)、政府實驗室和其他 HPC 產業。

對於 HPC 的主要優點:

  • 尖峰半或單精度運算效能達 5.7 TFLOPS 1
  • 尖峰 FP16|FP32 運算效能達 38 GFLOPS/秒,適合範圍廣泛的 HPC 工作負載 2
  • 雙精度 (FP64) 運算效能達 358 GFLOPS
  • 尖峰雙精度運算效能達 2.4 GFLOPS/瓦
  • 256-位元記憶體介面上搭載 16GB GDDR5,可提供大容量的超快速記憶體效能
  • 被動冷卻,適合可擴充部署
  • ROCm 軟體平台提供開放原始碼 HPC 等級平台
  • 從硬體即採用開放原始碼的 Linux 驅動程式、HCC 編譯器、工具和檔案庫取得完全控制
  • MxGPU SR-IOV 硬體虛擬化,可最佳化系統利用率

Download the Radeon Instinct™ MI6 Data Sheet

Radeon Intinct™ MI6 DataSheet

探索 Radeon Instinct™ MI 系列

RADEON INSTINCT™ MI 系列

Radeon Instinct™ MI6 伺服器加速器 DETAILS

詳細檢視規格

Compute Units36
Peak Half Precision Compute Performance5.7TFLOPS
Peak Single Precision Compute Performance5.7TFLOPS
Peak Double Precision Compute Performance358GFLOPS
Stream Processors2304
Typical Board Power150W
Required PCI Slots1
Memory Data Rate7Gbps
Memory Speed1750MHz
Memory Size16GB
Memory TypeGDDR5
Memory Interface256-bit
Memory Bandwidth224GB/s
AMD Power Tune 技術
Product FamilyRadeon Instinct
Product LineRadeon Instinct MI 系列
ModelMI6
Platform伺服器
OS SupportLinux®(64-位元)
Software Platform與 ROCm 軟體生態系統相容
Warranty三年有限
  1. 測量值為 AMD Performance Labs 在 2017 年 6 月 2 日於以「Polaris」架構為基礎的 Radeon Instinct™ MI6 加速器上測得。結果僅為估算值且可能有所不同。效能可能會視使用的最新驅動程式而有所不同。PC/系統製造商可能有不同的組態,產生的結果也會有所不同。於 Radeon Instinct MI6 算出的尖峰半精度 (FP16) 效能為 5.7 TFLOPS,尖峰單精度 (FP32) 浮點效能為 5.7 TFLOPS 。AMD TFLOPS 的計算採用以下公式:FLOPS 的計算為最高 DPM 狀態的引擎時脈乘以每個 GPU 中的 CU 個數。然後,乘以每個 CU 中的串流處理器個數。然後,每個時脈乘以 2 FLOPS(適用 FP32)。如需計算 FP16 的 TFLOPS,使用每個時脈 4 FLOPS。Nvidia Tesla P40 的量測結果為 0.19 TFLOPS 尖峰半精度 (Fp16) 浮點效能,搭載來自外部資源的 250w TDP GPU 卡。來源:https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf 於 Nvidia Tesla P4 量測的結果為 0.09 TFLOPS 尖峰半精度 (FP16) 浮點效能,搭載外部來源 TDP 為 75w 的 GPU 卡。來源:https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf AMD 未獨立驗證外部及/或第三方結果/資料,且對於此處任何錯誤或疏漏概不負責。RIP-1
  2. 測量值為 AMD Performance Labs 在 2017 年 6 月 2 日於以「Polaris」架構為基礎的 Radeon Instinct™ MI6 加速器上測得。結果僅為估算值且可能有所不同。效能可能會視使用的最新驅動程式而有所不同。PC/系統製造商可能有不同的組態,產生的結果也會有所不同。於 Radeon Instinct MI6 算出的尖峰半精度 (FP16) 效能為 38 GFLOPS/瓦,尖峰單精度 (FP32) 浮點效能為 38 GFLOPS。AMD 每瓦 GFLOPS 的計算採用以下公式:FLOPS 的計算為最高 DPM 狀態的引擎時脈乘以每個 GPU 中的 CU 個數。然後,乘以每個 CU 中的串流處理器個數。然後,每個時脈乘以 2 FLOPS(適用 FP32)。如需計算 FP16 的 TFLOPS,使用每個時脈 4 FLOPS。算出 TFLOP 後除以 150w TDP 功率並乘以 1,000。Nvidia Tesla P40 的量測是以 0.19 TFLOPS 的尖峰 FP16 為基礎,搭載 250w TDP GPU 卡,算出 0.76 GFLOPS/瓦尖峰半精度 (FP16) 效能。來源:https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf Nvidia Tesla P4 的量測是以 0.09 TFLOPS 尖峰 FP16 為基礎,搭載 75w TDP GPU 卡,算出 1.2 GFLOPS/瓦尖峰半精度 (FP16) 效能。來源: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf AMD 未獨立驗證外部及/或第三方結果/資料,且對於此處任何錯誤或疏漏概不負責。RIP-2
  3. 計畫支援的多重架構包含 x86、Power8 和 ARM AMD 亦支援產業標準互連技術,包含 GenZ、CCIX 和 OpenCAPI™。支援架構與產業標準互連技術的時間點與可用性將有所不同。請與您的系統廠商聯繫以確認您的特定系統是否具備架構/技術支援。

Radeon Instinct GPU 加速器產品提供三年有現保固。請造訪 www.AMD.com/warranty 以取得
此處提供的資訊僅供參考,可能會有所變更,恕不另行通知。儘管在準備本文件時已採取一切防範措施,本文件仍可能包含不正確的技術資訊、疏漏和打字排印錯誤,AMD 不承擔任何更新或修正此資訊的責任。Advanced Micro Devices, Inc. 不為本文件之正確性或完整性提供聲明或擔保,亦不承擔任何責任,包括針對 AMD 硬體、軟體或本文提及之其他產品的操作或使用默示未侵權、適售性、適合特定用途。「Polaris」僅為 AMD 內部的架構程式碼名稱,並非產品名稱。本文件並未授予任何智慧財產權之授權,無論默示或者受到禁止與否。條款與限制適用於購買或使用雙方簽署之合約或 AMD 標準銷售條款與條件中規定之 AMD 產品。GD-18

© 2017 Advanced Micro Devices, Inc. 版權所有。AMD、AMD 箭頭標誌、Radeon 和其組合是 Advanced Micro Devices, Inc. 的商標。OpenCL 是 Apple, Inc. 的商標,其使用已經由 Khronos 授權。其他用於此出版物的產品名稱僅適用於辨識,且可能是其個別公司的商標。