全世界最快的訓練加速器,適合機器智慧深度學習 1

通知我

全世界最快的訓練加速器,適合機器智慧與深度學習

Powered by the "「Vega」支援" Architecture

 

64 個 nCU

COMPUTE UNITS
4096 Stream Processors
 

24.6/12.3

TFLOPS
FP16 / FP32 Performance
 

16GB

HBM2
 
 

484GB/s

MEMORY BANDWIDTH
 

效能

無人能比的半與單精度浮點效能

  • 24.6 TFLOPS FP16 或 12.3 TFLOPS FP32 尖峰 GPU 運算效能。

     

  • 達 24.6 TFLOPS FP16 或 12.3 TFLOPS FP32 單板尖峰 GPU 運算效能的 Radeon Instinct MI25 伺服器加速器所提供的單精度效能具領導地位,適合運算量龐大的機器智慧與深度學習訓練應用。1 MI25 可為工作負載最繁重的 HPC 提供強大的解決方案。MI25 亦提供 768 GFLOPS 尖峰雙精度 (FP64),速率僅 1/16。
  • 16GB 超高頻寬 HBM2 ECC 2 GPU 記憶體。

    Radeon Instinct MI25 擁有資料速率較上一代快 2 倍的 512 位元記憶體介面、新一代的高頻寬快取與控制器,以及 ECC 記憶體可靠度,並且 16GB 的 HBM2 GPU 記憶體,提供專業等級的加速器解決方案,適合需處理資料量最龐大的機器智慧與深度學習訓練應用。3

  • 達 82 GFLOPS/瓦的 FP16 或 41 GFLOPS/瓦的 FP32 尖峰 GPU 運算效能。

    擁有 82 GFLOPS/瓦 FP16 或r 41 GFLOPS/瓦 FP32 尖峰 GPU 運算效能的 Radeon Instinct MI25 伺服器加速器可提供無人能比的效能功率比,適合用於機器智慧和深度學習訓練應用,尤其在效能與能耗效率攸關投報率的資料中心。 4 MI25 亦提供 2.5 GFLOPS/瓦的 FP64 尖峰效能。

  • 64 個運算單元,每單元 64 個串流處理器。

    Radeon Instinct™ MI25 伺服器加速器擁有 64 個運算單元,每個單元 64 個串流處理器,共 4,096 個串流處理器、以新一代的「Vega」架構為基礎,搭配建置有彈性且全新運算單元 (nCUs) 上的運算引擎設計,提升 16 位元、32 位元和 64 位元處理的頻率以快速增加因應今日新興動態工作負載的能力。Radeon Instinct MI25 提供優異的單精度效能、彈性與效率,適合工作負載最繁重的運算密集平行機器智慧和深度學習應用。

功能

以 AMD 新一代地「Vega」架構為建置基礎,採用全世界最進階的 GPU 記憶體

  • 被動冷卻 GPU 伺服器加速器,以新一代「Vega」架構為基礎,採用 14nm FinFET 製程。以全新「Vega」架構為基礎且採用 14nm FinFET 製程的 Radeon Instinct MI25 是專業等級的加速器,其設計可最佳化運算密度,適合資料中心伺服器的部署。MI25 伺服器加速器是單精度運算密度訓練應用的理想解決方案,適合機器智慧和深度學習以及其他重視效能功率比的 HPC 等級工作負載。
  • 300W TDP 板功率、全高度、雙插槽、10.5 英吋 PCIe® Gen 3 x16 GPU 伺服器卡。Radeon Instinct MI25 伺服器 PCIe® Gen 3 x16 GPU 卡為全高型、雙插槽的伺服器卡,適用大部分標準伺服器的設計可提供促進效能的伺服器解決方案,適合異質機器智慧和深度學習推論系統部署作業。
  • 超高頻寬 HBM2 ECC 4 記憶體,達 484 GB/秒的記憶體頻寬。搭載 16GB 最新高頻寬 HBM2 記憶體的 Radeon Instinct MI25 伺服器加速器設計可有效率地處理較大量的資料集,適合工作負載最繁重的機器智慧與深度學習類神經網路訓練系統。MI25 加速器的 16GB ECC HBM2 記憶體使其成為 HPC 等級工作負載最理想的解決方案。
  • MxGPU SR-IOV 硬體虛擬化。Radeon Instinct MI25 伺服器加速器的設計能支援 AMD 的 MxGPU SRIOV 硬體虛擬化技術,可大幅提高資料中心的利用率與產能。
  • 遠端管理功能已更新。 Radeon Instinct MI25 加速器擁有具備進階頻外管理功能的電路,可簡化大規模系統中的 GPU 監督作業。無論 GPU 狀態為何,MI25 的管理功能均可透過 I2C 存取,提供監督使用 PMCI 相容資料結構且種類廣泛靜態與動態 GPU 資訊的進階功能,包含板零件細節、序號、GPU 溫度、功率和其他資訊。

使用案例

機器智慧 & 深度學習類神經網路訓練

現今用於資料中心中機器智慧與深度學習應用類神經網路的訓練技巧變得越來越複雜,且訓練這些網路識別資料中的模式需要處理大量的資料。這需要將大量浮點運算作業分配由許多核心進行處理,傳統的 CPU 處理這類型運算的效率不如 GPU。原本需花費 CPU 數週處理的運算作業,GPU 只需要幾天就可以完成。Radeon Instinct MI25 結合 AMD 全新的 Epyc 伺服器處理器以及我們的 ROCm 開放軟體平台,可提供優異的效能,適合機器智慧與深度學習應用。

執行 4,096 個串流處理器的 MI25 具備優異的 24.6 TFLOPS 原始半精度 (FP16) 或 12.3 TFLOPS 單精度 (FP32) 尖峰浮點效能;結合進階高頻寬快取 (HBC) 和控制器,以及 16GB 高頻寬 HBM2 記憶體,可大幅提升客戶的運算能力以因應現今有效率地處理大量資料最嚴苛的系統需求,適合用於訓練深度學習所使用複雜類神經網路。1 以 AMD 新一代「Vega」架構為基礎且擁有全世界最先進記憶體架構的 MI25 加速器可最佳化大量資料集的處理,以及大幅增進產能時脈比,提供效能功率比遠優於前代產品的 82 GFLOPS/瓦 FP16 或 41 GFLOPS/瓦 FP32 尖峰 GPU 運算效能,適合在效能與效率必須兼具的資料中心內進行機器智慧深度學習訓練的部署作業。4

對於機器智慧 & 深度學習類神經網路訓練的優點:

  • 無人能比的 FP16 和 FP32 浮點效能 1
  • 開放軟體 ROCm 平台,適合 HPC 等級機架規模
  • 最佳化 MIOpen 深度學習架構檔案庫
  • Large BAR 支援 mGPU 點對點運算
  • Epyc 伺服器處理器的配置優點
  • 結合以 AMD Epyc™ 處理器為基礎的伺服器和以「Vega」為基礎的 Radeon Instinct 產品
  • MxGPU SR-IOV 硬體虛擬化可提高資料中心的利用率與產能。

 

HPC 異質運算

HPC 產業每年創造數量龐大的非結構化資料,因 此部分 HPC 系統配置需重新規劃,社群才得以從這些資料或取有用的資訊。傳統上,這些多半是以 CPU 為基礎的系統,但由於所創造的資料量呈爆炸性成長且種類多元,且隨著程式碼演進,變得更複雜,這些傳統系統無法完全因應現今資料繁重 HPC 工作負載的需求。由於這些程式碼類型愈形複雜與平行化,異質運算系統與不同加速器組合搭配使用的頻率也越來越高,包含分散式 GPU 和 FPGA。過去十年來 GPU 功能的增進,使其能運用在數量大幅提升的平行程式碼,例如深度學習受訓練類神經網路使用的程式碼。全球科學家和研究人員現採用加速器以更有效率的方式處理跨數個產業的 HPC 平行程式碼,包含生命科學、能源、金融、汽車和航太、學術、政府機構與國防。

Radeon Instinct MI25 結合 AMD 全新推出以「Zen」為基礎的 Epyc 伺服器 CPU,以及我們革命性的 ROCm 開放軟體平台,提供從硬體即採用先進的開放異質運算方式。AMD 新一代 HPC 解決方案的設計可提供最大的運算密度與每節點效能,以及處理今日大量平平資料密集節點所需的效率;同時提供強大、有彈性的解決方案,適合一般用途的 HPC 部署。採用 ROCm 軟體平台的可擴充 HPC 等即解決方案,提供原始碼完全開放的 Linux 驅動程式、HCC 編譯器、工具和檔案庫,讓科學家和研究人員從硬體開始即擁有系統控制。Radeon Instinct 的開放生態系統方式支援多種架構,包含 x86、Power8 和 ARM,以及產業標準互連技術,讓客戶有能力設計最佳化的 HPC 系統,在異質運算新紀元裡充分運用 HPC 社群對於科學進步所採用的開放方式。4

對於 HPC 異質運算的優點:

  • 優異的運算密度與每節點效能
  • 開放軟體 ROCm 平台,適合 HPC 等級機架規模
  • 從硬體即採用開放原始碼的 Linux 驅動程式、HCC 編譯器和檔案庫
  • 開放產業標準技術支援多重架構與標準互連技術 4

下載 Radeon Instinct™ MI25 資料表

RADEON INSTINCT™ MI25 資料表

探索 Radeon Instinct™ MI 系列s

RADEON INSTINCT™ MI 系列

Radeon Instinct™ MI25 伺服器加速器 DETAILS

詳細檢視規格

Compute Units64 個 nCU
Thermal (active/passive, #slots)被動、雙插槽
Peak Half Precision Compute Performance24.6TFLOPS
Peak Single Precision Compute Performance12.3TFLOPS
Peak Double Precision Compute Performance768GFLOPS
Stream Processors4096
Typical Board Power300W
Required PCI Slots2
Memory Data Rate1.89Gbps
Memory Speed945MHz
Memory Size16GB
Memory TypeHBM2
Memory Interface2048-bit
Memory Bandwidth484GB/s
AMD Power Tune 技術
修正錯誤程式碼記憶體 (ECC)
Product FamilyRadeon Instinct™
Product LineRadeon Instinct MI 系列
ModelMI25
Platform伺服器
OS SupportLinux® (64 位元)
Software Platform與 ROCm 軟體生態系統相容
  1. 測量值為 AMD Performance Labs 在 2017 年 6 月 2 日於以「Vega」架構為基礎的 Radeon Instinct™ MI25 加速器上測得。結果僅為估算值且可能有所不同。效能可能會視使用的最新驅動程式而有所不同。PC/系統製造商可能有不同的組態,產生的結果也會有所不同。於 Radeon Instinct MI25 算出的結果為 24.6 TFLOPS 尖峰半精度 (FP16) 與 12.3 TFLOPS 尖峰單精度 (FP32) 浮點效能。AMD TFLOPS 的計算採用以下公式:FLOPS 的計算為最高 DPM 狀態的引擎時脈乘以每個 GPU 中的 CU 個數。然後,乘以每個 CU 中的串流處理器個數。然後,每個時脈乘以 2 FLOPS(適用 FP32)。如需計算 FP16 的 TFLOPS,使用每個時脈 4 FLOPS。FP64 TFLOPS 速率的計算使用 1/16 的速率。得自 NVidia Tesla P100-16(16GB 顯示卡)GPU 加速器的外部結果為 18.7 TFLOPS 尖峰半精度 (FP16) 與 9.3 TFLOPS 尖峰單精度 (FP32) 浮點效能。結果詳見:https://images.nvidia.com/content/tesla/pdf/nvidia-tesla-p100-PCIe-datasheet.pdf。得自 NVidia Tesla P100-SXM2 GPU 加速器的外部結果為 21.2 TFLOPS 尖峰半精度 (FP16) 與 10.6 TFLOPS 尖峰單精度 (FP32) 浮點效能。結果詳見:http://www.nvidia.com/object/tesla-p100.html AMD 未獨立測試或驗證外部/第三方結果/資料,且對於此處任何錯誤或疏漏概不負責。RIV-1
  2. ECC 支援僅限 HBM2 記憶體且 ECC 保護不包含內部 GPU 結構。
  3. 測量值為 AMD Performance Labs 在 2017 年 6 月 2 日於以「Vega」架構為基礎的 Radeon Instinct™ MI25 加速器上測得。結果僅為估算值且可能有所不同。效能可能會視使用的最新驅動程式而有所不同。PC/系統製造商可能有不同的組態,產生的結果也會有所不同。於 Radeon Instinct MI25 算出的尖峰半精度 (FP16) 為 82 GFLOPS/瓦,或尖峰單精度 (FP32) 浮點效能為 41 GFLOPS/瓦。AMD 每瓦 GFLOPS 的計算採用以下公式:FLOPS 的計算為最高 DPM 狀態的引擎時脈乘以每個 GPU 中的 CU 個數。然後,乘以每個 CU 中的串流處理器個數。然後,每個時脈乘以 2 FLOPS(適用 FP32)。如需計算 FP16 的 TFLOPS,使用每個時脈 4 FLOPS。FP64 TFLOPS 速率的計算使用 1/16 的速率。計算 TFLOP 的數值後除以 TDP 功率瓦特數,乘上 1,000 即可算出每瓦 GFLOPS。GFLOPS/瓦的計算由 AMD Performance Labs 於 2017 年 6 月 2 日使用 Vidia Tesla P100-16(16GB 卡)GPU 加速器算出,計算方式為將 TFLOPS 結果除以 TDP 250 瓦,算出每瓦 75 GFLOPS 尖峰半精度 (FP16) 與每瓦 37 GFLOPS 尖峰單精度 (FP32) 浮點效能。來源:https://images.nvidia.com/content/tesla/pdf/nvidia-tesla-p100-PCIe-datasheet.pdf
    GFLOPS/瓦的計算由 AMD Performance Labs 於 2017 年 6 月 2 日使用 NVidia Tesla P100-SXM2 GPU 加速器算出,計算方式為將 TFLOPS 結果除以 300 瓦,算出每瓦 71 GFLOPS 尖峰半精度 (FP16) 與每瓦 35 GFLOPS 尖峰單精度 (FP32) 浮點效能。來源:http://www.nvidia.com/object/tesla-p100.html AMD 未獨立測試或驗證外部/第三方結果/資料,且對於此處任何錯誤或疏漏概不負責。RIV-4
  4. 計畫支援的多重架構包含 x86、Power8 和 ARM AMD 亦支援產業標準互連技術,包含 GenZ、CCIX 和 OpenCAPI™。支援架構與產業標準互連技術的時間點與可用性將有所不同。請與您的系統廠商聯繫以確認您的特定系統是否具備架構/技術支援。

此處提供的資訊僅供參考,可能會有所變更,恕不另行通知。儘管在準備本文件時已採取一切防範措施,本文件仍可能包含不正確的技術資訊、疏漏和打字排印錯誤,AMD 不承擔任何更新或修正此資訊的責任。Advanced Micro Devices, Inc. 不為本文件之正確性或完整性提供聲明或擔保,亦不承擔任何責任,包括針對 AMD 硬體、軟體或本文提及之其他產品的操作或使用默示未侵權、適售性、適合特定用途。「Vega」 和「Vega10」僅為 AMD 內部的架構程式碼名稱,並非產品名稱。本文件並未授予任何智慧財產權之授權,無論默示或者受到禁止與否。條款與限制適用於購買或使用雙方簽署之合約或 AMD 標準銷售條款與條件中規定之 AMD 產品。GD-18

© 2017 Advanced Micro Devices, Inc. 版權所有。AMD、AMD 箭頭標誌、Radeon 和其組合是 Advanced Micro Devices, Inc. 的商標。OpenCL 是 Apple, Inc. 的商標,其使用已經由 Khronos 授權。其他用於此出版物的產品名稱僅適用於辨識,且可能是其個別公司的商標。