適用機器與深度學習推論應用的成本敏感、可擴充加速器

通知我

資料中心部署機器智慧與深度學習推論應用的理想選擇

Powered by the "「Fiji」支援" Architecture

 

64

COMPUTE UNITS
4096 Stream Processors
 

8.2

TFLOPS
FP16 and FP32Performance
 

4GB

HBM1
 
 

512GB/s

MEMORY BANDWIDTH
 

效能

4GB HBM1 5 尖峰半精度或單精度效能 8.2 TFLOPS 或單精度效能

  • 尖峰 FP16 | FP32 GPU 運算效能達 8.2 TFLOPS。

    單板尖峰運算效能達 8.2 TFLOPS 的 Radeon Instinct MI8 伺服器加速器可提供優越單精度性價比,適合機器與深度學習推論應用,並且為 HPC 開發系統提供符合成本效益的解決方案。1

  • 搭載 4GB 高頻寬 HBM1 GPU 記憶體,512 位元記憶體介面。

    搭載 4GB 的 HBM1 GPU 記憶體且記憶體頻寬達 512GB/秒的 Radeon Instinct MI8 伺服器加速器提供單精度效能與記憶體系統效能的完美組合,可滿足工作負載最繁重的機器智慧與深度學習推論應用,並且以符合成本效益與效率的方式從套用至已訓練類神經網路的新資料獲取有意義的結果。

  • 尖峰 FP16|FP32 GPU 運算效能達 47 GFLOPS/瓦。

    尖峰 FP16|FP32 GPU 運算效能達 47 GFLOPS/瓦的 Radeon Instinct MI8 伺服器加速器可提供優越效能功耗比,適合機器智慧與深度學習推論應用。2

  • 64 個運算單元(4,096 個流處理器)。

    Radeon Instinct MI8 伺服器加速器擁有 64 個運算單元,每單元包含 64 個串流處理器,共 4,096 個串流處理器。適合同步處理已訓練類神經網路上許多批量較小的資料以快速取得答案。對於這些類型的系統配置而言,單精度效能極為重要,且 MI8 加速器可在單一 GPU 卡上提供優異的單精度效能。

功能

被動冷卻、TDP 低於 175W 的加速器,適合可擴充伺服器部署

  • 以「Fiji」架構為基礎的被動冷卻伺服器加速器。Radeon Instinct MI8 伺服器加速器以「Fiji」架構為基礎且配備 28nm HPX 製程,其高效率、可擴充的伺服器部署設計適合機器智慧和深度學習中的單精度推論應用。此 GPU 伺服器加速器可為客戶提供絕佳的效能,同時 TDP 板能耗僅 175W。
  • 175W TDP 板功率、雙插槽、6 英吋 GPU 伺服器卡。Radeon Instinct MI8 伺服器 PCIe® Gen 3 x16 GPU 卡為全高型、雙插槽的伺服器卡,適用大部分標準伺服器的設計可提供高效率的伺服器解決方案,適合異質機器智慧和深度學習推論系統部署作業。
  • 搭載記憶體頻寬達 512GB/秒的高頻寬記憶體 (HBM1)。Radeon Instinct MI8 伺服器加速器搭載 4GB 高頻寬 HBM1 記憶體的設計,可快速地同步處理大量批次資料,適合工作負載最繁重的機器智慧與深度學習應用,並快速地從套用至已訓練類神經網路的資料快速獲取有意義的結果。
  • MxGPU SR-IOV HW 虛擬化。Radeon Instinct MI8 伺服器加速器的設計能支援 AMD 的 MxGPU SR-IOV 硬體虛擬化技術,可大幅提高資料中心的利用率與產能。

使用案例

深度學習推論

現今呈爆炸性成長的資料與資料動態的本質改寫了資料中心系統配置的需求。資料中心設計人員必須建議能夠執行工作負載更複雜且本質上必須平行進行的系統,同時持續改善系統的效率。過去十年來對於分散式 GPU 和其他加速器能力的提升為資料中心設計人員帶來建置異質運算系統的新選項,可幫助他們滿足這些新的挑戰。

 

於執行推論應用的資料中心部署,已訓練類神經網路上大量新的較小資料集輸入值需以半精度 (FP16) 或單精度 (FP32) 進行處理以獲取新的知識,因此需要能夠進行平行運算的系統才能以具備能源效率的方式快速處理大量較小核心上的資料輸入值。

 

單一 175W TDP 卡即可提供 8.2 TFLOPS 尖峰半或單精度 (FP16|FP32) 浮點效能的 Radeon Instinct MI8 加速器是資料中心部署機器智慧與深度學習推論極有效率且符合成本敏感性的解決方案。1 以 AMD「Fuji」架構為基礎且搭載頻寬達 512 GB/秒 4GB 高頻寬 HBM1 記憶體的 Radeon ,結合 Radeon Instinct 採用開放生態系統方式的 ROCm 平台,可為資料中心設計人員提供高效率且有彈性的推論部署解決方案。

對於推論的主要優點:

  • 尖峰半或單精度運算效能達 8.2 TFLOPS 1
  • 尖峰半或單精度運算效能達 47 GFLOPS/瓦  2
  • 512 位元記憶體介面上搭載 4GB HBM1,可提供高頻寬記憶體效能
  • TDP 低於 175W 的被動冷卻加速器,適合可擴充伺服器部署
  • ROCm 軟體平台提供開放原始碼超大規模平台
  • 從硬體即採用開放原始碼的 Linux 驅動程式、HCC 編譯器、工具和檔案庫取得完全控制
  • 最佳化 MIOpen 深度學習架構檔案庫3
  • Large BAR 支援 mGPU 點對點運算
  • MxGPU SR-IOV 硬體虛擬化,可最佳化系統利用率
  • 開放產業標準支援多重架構與開放標準互連技術4

 

HPC 異質運算一般用途與開發

HPC 產業每年創造數量龐大的非結構化資料,因 此部分 HPC 系統配置需重新規劃,社群才得以從這些資料或取有用的資訊。傳統上,這些多半是以 CPU 為基礎的系統,但由於所創造的資料量呈爆炸性成長且種類多元,且隨著程式碼演進,變得更複雜,這些傳統系統無法完全因應現今資料繁重 HPC 工作負載的需求。由於這些程式碼類型愈形複雜與平行化,異質運算系統與不同加速器組合搭配使用的頻率也越來越高,包含分散式 GPU 和 FPGA。過去十年來 GPU 功能的增進,使其能運用在數量大幅提升的混合精度平行程式碼,例如深度學習受訓練類神經網路使用的程式碼。全球科學家和研究人員現採用加速器以更有效率的方式處理跨數個產業的 HPC 平行程式碼,包含生命科學、能源、金融、汽車和航太、學術、政府機構與國防。

 

Radeon Instinct MI8 加速器,結合 AMD 的革命性 ROCm 開放軟體平台,成為有效率的入門級異質運算解決方案,每張 GPU 卡均搭載 4GB 高頻寬 HBM1 記憶體,可提供達 8.2 TFLOPS 的尖峰單精度運算效能。1 MI8 加速器是部署於金融服務、能源、生命科學、汽車與航太、學術(研究 & 教學)、政府實驗室和其他 HPC 產業一般用途與開發系統最符合成本效益的完美開放解決方案。

對於 HPC 的主要優點:

  • 尖峰半或單精度運算效能達 8.2 TFLOPS,適合範圍廣泛的 HPC 工作負載。 1
  • 尖峰半或單精度運算效能達 47 GFLOPS/瓦 2
  • 搭載 4GB HBM1,尖峰 (FP64) 雙精度運算效能達 512 GFLOPS
  • 尖峰 FP64 運算效能達9 GFLOPS/瓦
  • 512 位元記憶體介面上搭載 4GB HBM1,可提供高頻寬記憶體效能
  • TDP 低於 175W 的被動冷卻加速器,適合可擴充伺服器部署
  • ROCm 軟體平台提供開放原始碼 HPC 等級平台
  • 從硬體即採用開放原始碼的 Linux 驅動程式、HCC 編譯器、工具和檔案庫取得完全控制
  • MxGPU SR-IOV 硬體虛擬化,可最佳化系統利用率
  • 開放產業標準支援多重架構與標準互連技術2

下載  Radeon Instinct MI18 資料表

Radeon Intinct MI8 資料表

探索 Radeon Instinct MI 系列

Radeon Intinct MI 系列

Radeon Instinct™ MI8 伺服器加速器 DETAILS

詳細檢視規格

Compute Units64
Peak Half Precision Compute Performance8.2TFLOPS
Peak Single Precision Compute Performance8.2TFLOPS
Peak Double Precision Compute Performance512GFLOPS
Stream Processors4096
Typical Board Power175W
Required PCI Slots2
Memory Data Rate1Gbps
Memory Speed500MHz
Memory Size4GB
Memory TypeHBM1
Memory Interface4096-bit
Memory Bandwidth512GB/s
AMD 频率动态调节技术
Product FamilyRadeon Instinct
Product LineRadeon Instinct MI 系列
ModelMI8
Platform伺服器
Form factor and Cooling全高型、雙插槽、長度 6 英吋、被動冷卻
OS SupportLinux® (64 位元)
Software Platform與 ROCm 軟體生態系統相容
Warranty三年有限
  1. 測量值為 AMD Performance Labs 在 2017 年 6 月 2 日於以「Fiji」架構為基礎的 Radeon Instinct™ MI8 加速器上測得。結果僅為估算值且可能有所不同。效能可能會視使用的最新驅動程式而有所不同。PC/系統製造商可能有不同的組態,產生的結果也會有所不同。於 MI8 算出的尖峰半精度 (FP16) 為 8.2 TFLOPS,尖峰單精度 (FP32) 浮點效能為 8.2 TFLOPS 。AMD TFLOPS 的計算採用以下公式:FLOPS 的計算為最高 DPM 狀態的引擎時脈乘以每個 GPU 中的 CU 個數。然後,乘以每個 CU 中的串流處理器個數。然後,每個時脈乘以 2 FLOPS(適用 FP32)。如需計算 FP16 的 TFLOPS,使用每個時脈 4 FLOPS。Nvidia Tesla P40 的量測結果為 0.19 TFLOPS 尖峰半精度 (Fp16) 尖峰浮點效能,搭載來自外部資源的 250w TDP GPU 卡。來源: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/;http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf。Nvidia Tesla P4 的量測結果為 0.09 TFLOPS 尖峰半精度 (FP16) 尖峰浮點效能,搭載外部來源、TDP 為 75w 的 GPU 卡。來源:https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/;http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf。AMD 未獨立測試或驗證外部/第三方結果/資料,且對於此處任何錯誤或疏漏概不負責。RIF-1
  2. 測量值為 AMD Performance Labs 在 2017 年 6 月 2 日於以「Fiji」架構為基礎的 Radeon Instinct™ MI8 加速器上測得。結果僅為估算值且可能有所不同。效能可能會視使用的最新驅動程式而有所不同。PC/系統製造商可能有不同的組態,產生的結果也會有所不同。於 Radeon Instinct MI8 算出的尖峰半精度 (FP16) 效能為 47 GFLOPS/瓦,尖峰單精度 (FP32) 浮點效能為 47 GFLOPS/瓦。AMD 每瓦 GFLOPS 的計算採用以下公式:FLOPS 的計算為最高 DPM 狀態的引擎時脈乘以每個 GPU 中的 CU 個數。然後,乘以每個 CU 中的串流處理器個數。然後,每個時脈乘以 2 FLOPS(適用 FP32)。如需計算 FP16 的 TFLOPS,使用每個時脈 4 FLOPS。算出 TFLOP 後除以 175w TDP 功率並乘以 1,000。Nvidia Tesla P40 的量測是以 0.19 TFLOPS 的尖峰 FP16 為基礎,搭載 250w TDP GPU 卡,算出 0.76 GFLOPS/瓦尖峰半精度 (FP16) 效能。Nvidia Tesla P40 FP16 TFLOP 數字來源:https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/;http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf。Nvidia Tesla P4 的量測是以 0.09 TFLOPS 的尖峰 FP16 為基礎,搭載 75w TDP GPU 卡,算出 1.2 GFLOPS/瓦尖峰半精度 (FP16) 效能。Nvidia Tesla P40 FP16 TFLOP 數字來源:https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf。AMD 未獨立測試或驗證外部/第三方結果/資料,且對於此處任何錯誤或疏漏概不負責。RIF-2
  3. 機器智慧架構的支援已規劃。請參閱GPUOpen.com 網站以取得架構可用性。
  4. 計畫支援的多重架構包含 x86、Power8 和 ARM AMD 亦支援產業標準互連技術,包含 GenZ、CCIX 和 OpenCAPI™。支援架構與產業標準互連技術的時間點與可用性將有所不同。請與您的系統廠商聯繫以確認您的特定系統是否具備架構/技術支援。
  5. 測量值為 AMD Performance Labs 在 2017 年 6 月 2 日於以「Fiji」架構為基礎的 Radeon Instinct™ MI8 加速器上測得。結果僅為估算值且可能有所不同。效能可能會視使用的最新驅動程式而有所不同。PC/系統製造商可能有不同的組態,產生的結果也會有所不同。於 MI8 算出的尖峰半精度 (FP16) 為 8.2 TFLOPS,尖峰單精度 (FP32) 浮點效能為 8.2 TFLOPS 。AMD TFLOPS 的計算採用以下公式:FLOPS 的計算為最高 DPM 狀態的引擎時脈乘以每個 GPU 中的 CU 個數。然後,乘以每個 CU 中的串流處理器個數。然後,每個時脈乘以 2 FLOPS(適用 FP32)。如需計算 FP16 的 TFLOPS,使用每個時脈 4 FLOPS。Nvidia Tesla P40 的量測結果為 0.19 TFLOPS 尖峰半精度 (Fp16) 尖峰浮點效能,搭載來自外部資源的 250w TDP GPU 卡。來源: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/;http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf。Nvidia Tesla P4 的量測結果為 0.09 TFLOPS 尖峰半精度 (FP16) 尖峰浮點效能,搭載外部來源、TDP 為 75w 的 GPU 卡。來源:https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/;http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf。AMD 未獨立測試或驗證外部/第三方結果/資料,且對於此處任何錯誤或疏漏概不負責。RIF-1

此處提供的資訊僅供參考,可能會有所變更,恕不另行通知。儘管在準備本文件時已採取一切防範措施,本文件仍可能包含不正確的技術資訊、疏漏和打字排印錯誤,AMD 不承擔任何更新或修正此資訊的責任。Advanced Micro Devices, Inc. 不為本文件之正確性或完整性提供聲明或擔保,亦不承擔任何責任,包括針對 AMD 硬體、軟體或本文提及之其他產品的操作或使用默示未侵權、適售性、適合特定用途。「Fiji」僅為 AMD 內部的架構程式碼名稱,並非產品名稱。本文件並未授予任何智慧財產權之授權,無論默示或者受到禁止與否。條款與限制適用於購買或使用雙方簽署之合約或 AMD 標準銷售條款與條件中規定之 AMD 產品。GD-18

© 2017 Advanced Micro Devices, Inc. 版權所有。AMD、AMD 箭頭標誌、Radeon 和其組合是 Advanced Micro Devices, Inc. 的商標。OpenCL 是 Apple, Inc. 的商標,其使用已經由 Khronos 授權。其他用於此出版物的產品名稱僅適用於辨識,且可能是其個別公司的商標。