Самый быстрый в мире обучающий ускоритель для искусственного интеллекта и глубинного обучения 1

Уведомить меня

Самый быстрый в мире обучающий ускоритель для искусственного интеллекта и глубинного обучения

Powered by the "архитектуры" Architecture

 

64 вычислительных блока следующего поколения

Вычислительные блоки
4096 Количество потоковых процессоров
 

24.6/12.3

TFLOPS
FP16 / FP32 Performance
 

16GB

HBM2
 
 

484GB/s

Пропускная способность памяти
 

ПРОИЗВОДИТЕЛЬНОСТЬ

Непревзойденная производительность при обработке чисел половинной и одинарной точности с плавающей запятой 1

  • Пиковая производительность вычислений в графике 24,6 терафлопс для формата FP16 или 12,3 терафлопс для формата (FP32).

     

  • Благодаря пиковой производительности вычислений в графике 24,6 терафлопс для формата FP16 или 12,3 терафлопс для формата FP32 на одной плате серверный ускоритель Radeon Instinct MI25 обеспечивает самую высокую производительность при обработке чисел одинарной точности для выполнения сложнейших вычислительных операций с использованием искусственного интеллекта и приложений глубинного обучения. 1 Ускоритель MI25 обеспечивает эффективное решение для большинства параллельных рабочих нагрузок в области высокопроизводительных вычислений. Ускоритель MI25 также обеспечивает пиковую производительность 768 гигафлопс при обработке чисел двойной точности (FP64) с частотой 1/16.
  • Графическая память HBM2 объемом 16 ГБ с коррекцией ошибок 2 и сверхвысокой пропускной способностью.

    Скорость передачи данных графической памяти HBM2 объемом 16 ГБ с поддержкой алгоритма контроля ошибок, которой оснащен ускоритель Radeon Instinct MI25, вдвое выше по сравнению с предыдущими поколениями с 512-разрядным интерфейсом памяти. Она отличается контроллером и кэшем нового поколения с высокой пропускной способностью и обеспечивает профессиональное решение для ускорения, подходящее для работы с системами искусственного интеллекта при обработке больших массивов данных и приложениями для тренировки глубинного обучения. 3

  • Пиковая производительность вычислений в графике до 82 гигафлопс на ватт для формата FP16 и 41 гигафлопс на ватт для формата FP32.

    Благодаря пиковой производительности вычислений в графике до 82 гигафлопс на ватт для формата FP16 и 41 гигафлопс на ватт для формата FP32 серверный ускоритель Radeon Instinct MI25 обеспечивает непревзойденную производительность в расчете на ватт для систем искусственного интеллекта и приложений для тренировки глубинного обучения в центрах обработки данных, где производительность и энергоэффективность имеют решающее значение для рентабельности инвестиций4 Ускоритель MI25 также обеспечивает пиковую производительность 2,5 гигафлопс на ватт для формата FP64.

  • 64 вычислительных блока с 64 потоковыми процессорами в каждом.

    Серверный ускоритель Radeon Instinct™ MI25 оснащен 64 вычислительными блоками, каждый из которых состоит из 64 потоковых процессоров (всего 4096 потоковых процессоров). Ускоритель на базе архитектуры следующего поколения Vega с недавно разработанным вычислительным движком, основанным на новых гибких вычислительных блоках для 16-, 32- и 64-разрядной обработки данных при более высоких частотах, позволяет максимально эффективно выполнять современные динамические рабочие нагрузки. Radeon Instinct MI25 обеспечивает превосходную производительность, эффективность и гибкость при обработке чисел одинарной точности для выполнения сложнейших наиболее требовательных параллельных вычислительных операций для систем искусственного интеллекта и приложений глубинного обучения.

ОСОБЕННОСТИ

Создан на базе архитектуры следующего поколения Vega от AMD с самой передовой в мире графической памятью

  • Серверный графический ускоритель с пассивной системой охлаждения на базе архитектуры следующего поколения Vega и поддержкой 14-нанометрового техпроцесса FinFET. Серверный ускоритель Radeon Instinct MI25, созданный на базе новой архитектуры Vega с поддержкой 14-нанометрового техпроцесса FinFET, — профессиональное решение, предназначенное для обеспечения плотности вычислений, оптимизированной для развертывания серверов центров обработки данных. Серверный ускоритель MI25 — это идеальное решение для требовательных обучающих приложений, обрабатывающих числа одинарной точности, с использованием искусственного интеллекта и глубинного обучения, а также для других рабочих нагрузок в области высокопроизводительных вычислений, где важен высокий уровень производительности в расчете на ватт.
  • Полноразмерная серверная графическая плата 10,5 дюйма с расчетной тепловой мощностью 300 Вт, двумя разъемами и шиной PCIe® Gen 3 x16. Серверная графическая плата Radeon Instinct MI25 с шиной PCIe® Gen 3 x16 — это полноразмерная плата с двумя разъемами, предназначенная для большинства стандартных серверов, которая обеспечивает высокопроизводительное серверное решение для гетерогенных вычислений с использованием искусственного интеллекта и глубинного обучения, а также развертывания систем для высокопроизводительных вычислений.
  • Память HBM2 с коррекцией ошибок 4 и сверхвысокой пропускной способностью до 484 ГБ/с.
  • Серверный ускоритель Radeon Instinct MI25 оснащен новейшей памятью HBM2 объемом 16 ГБ с высокой пропускной способностью для более эффективного удовлетворения требований к обработке больших наборов данных обучающих систем искусственного интеллекта и глубинного обучения нейронных сетей. Память HBM2 объемом 16 ГБ с коррекцией ошибок, которой оснащен ускоритель MI25, также делает его идеальным решением для рабочих нагрузок в области высокопроизводительных вычислений при обработке больших массивов данных.
  • Технология виртуализации аппаратного обеспечения MxGPU SR-IOV. Серверный ускоритель Radeon Instinct MI25 поддерживает технологию MxGPU SRIOV — технологию аппаратной виртуализации от AMD, которая повышает эффективность использования и производительность в центрах обработки данных.
  • Усовершенствованные возможности удаленного управления. Ускоритель Radeon Instinct MI25 отличается улучшенной внеполосной схемой управляемости для упрощения контроля графического процессора в крупномасштабных системах. Возможности управления ускорителя MI25 обеспечивают доступ путем подключения к модулю I2C, независимо от того, в каком состоянии находится графический процессор, а также расширенный контроль ряда статических и динамических данных ГП с использованием структур данных, совместимых с PMCI, включая сведения о частях платы, серийные номера, температуру ГП, мощность и другую информацию.

ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ

Искусственный интеллект и глубинное обучение нейронных сетей

Современные методы обучения, использующиеся в нейронных сетях в сфере искусственного интеллекта и приложениях глубинного обучения в центрах обработки данных, стали очень сложными. Чтобы обучить сети распознавать различные шаблоны в данных, необходимо обрабатывать огромные объемы данных. Это требует большого количества вычислительных операций с числами с плавающей запятой с задействованием множества ядер, и обычные центральные процессоры не могут выполнять такого рода вычисления так же эффективно, как графические процессоры. Тот объем данных, который ЦП обрабатывают неделями, ГП могут обработать за несколько дней. Ускоритель Radeon Instinct MI25 в сочетании с новыми серверными процессорами AMD Epyc и нашей платформой открытого программного обеспечения ROCm обеспечивают превосходную производительность искусственного интеллекта и приложений глубинного обучения.

Обладая превосходной пиковой производительностью при обработке чисел с плавающей запятой 24,6 терафлопс в вычислениях половинной точности (FP16) и 12,3 терафлопс в вычислениях одинарной точности (FP32) с задействованием всех 4096 потоковых процессоров, в сочетании с усовершенствованной кэш-памятью с высокой пропускной способностью, контроллером и памятью HBM2 объемом 16 ГБ с высокой пропускной способностью, ускоритель MI25 обеспечивает новый уровень вычислительной мощности, способный удовлетворить самые высокие требования современных систем для эффективной обработки больших объемов данных при обучении сложных нейронных сетей в процессе глубинного обучения. 1 Ускоритель MI25, созданный на базе архитектуры следующего поколения AMD Vega с самой передовой архитектурой памяти, оптимизирован для обработки больших наборов данных и отличается значительно высшей пропускной способностью в расчете на тактовую частоту по сравнению с предыдущими поколениями, обеспечивая пиковую производительность вычислений в графике до 82 гигафлопс/Вт для формата FP16 и 41 гигафлопс/Вт для формата FP32. Ускоритель позволяет достичь высокой производительности в расчете на ватт для глубинного обучения искусственного интеллекта в центрах обработки данных, где производительность и эффективность являются важнейшими требованиями. 4

Преимущества применения в сфере искусственного интеллекта и глубинного обучения нейронных сетей

  • Непревзойденная вычислительная производительность при обработке чисел половинной (FP16) и одинарной точности (FP32) с плавающей запятой 1
  • Платформа открытого программного обеспечения ROCm для высокопроизводительных стоечных вычислений
  • Оптимизированные программные библиотеки MIOpen для глубинного обучения
  • Обширная поддержка базовых адресных регистров (BAR) для одноранговой коммуникации между несколькими графическими процессорами
  • Преимущества конфигурации с серверными процессорами Epyc
  • При совместной работе серверов с новыми процессорами AMD Epyc™ и ускорителями Radeon Instinct на базе архитектуры Vega достигается превосходная плотность вычислений и производительность на узел
  • Технология аппаратной виртуализации MxGPU SR-IOV для повышения эффективности использования и производительности в центрах обработки данных

 

Гетерогенные высокопроизводительные вычисления

В области систем высокопроизводительных вычислений создаются огромные массивы неструктурированных данных каждый год, и лишь небольшая часть конфигураций этих систем перестраивается, позволяя пользователям извлечь полезную информацию из таких данных. Раньше эти системы преимущественно создавались на базе центрального процессора. Но после того, как произошел взрывной рост объема данных и появились данные разных типов, наряду с усложнением кодов, такие традиционные системы уже перестали соответствовать всем требованиям для выполнения сегодняшних рабочих нагрузок с высокопроизводительными вычислениями при обработке больших массивов данных. Все эти типы кодов становились все сложнее и требовали больше параллельных вычислений. Поэтому возросло использование гетерогенных вычислительных систем с разными сочетаниями ускорителей, включая дискретные графические процессоры и программируемые пользователем вентильные матрицы (FPGA). Улучшение возможностей ГП за последнее десятилетие позволило использовать их для растущего количества параллельных кодов, например тех, которые используются для глубинного обучения нейронных сетей. Сегодня ученые и исследователи по всему миру используют ускорители для более эффективной обработки параллельных кодов высокопроизводительных вычислений в различных отраслях, включая медико-биологические науки, энергетику, финансы, автомобилестроение, аэрокосмическую промышленность, науку, государственное управление и оборону.

Ускоритель Radeon Instinct MI25 в сочетании с новыми серверными центральными процессорами AMD Epyc на базе архитектуры Zen и нашей революционной платформой открытого программного обеспечения ROCm устанавливает прогрессивный подход к открытым гетерогенным вычислениям, выходящим за рамки обычной компьютерной техники. Решения AMD следующего поколения для высокопроизводительных вычислений предназначены для обеспечения максимальной вычислительной плотности и производительности на узел с эффективностью, необходимой для обработки современных массивно-параллельных кодов с интенсивным использованием данных, а также мощного и гибкого решения для развертывания высокопроизводительных вычислений общего назначения. Программная платформа ROCm — это масштабируемое решение для высокопроизводительных вычислений, которое обеспечивает драйверы с открытым исходным кодом для Linux, компиляторы HCC, инструменты и библиотеки, позволяющие ученым и исследователям контролировать систему вплоть до мельчайших деталей. Открытый экосистемный подход Radeon Instinct поддерживает различные архитектуры, включая x86, Power8 и ARM, а также отраслевые стандартные технологии межсетевых соединений, предоставляя клиентам возможность разрабатывать оптимизированные системы высокопроизводительных вычислений для новой эры гетерогенных вычислительных операций, охватывающей открытый подход специалистов в сфере высокопроизводительных вычислений к научному прогрессу. 4

Основные преимущества для гетерогенных высокопроизводительных вычислений

  • Высокие показатели плотности вычислений и производительности на узел
  • Платформа открытого программного обеспечения ROCm для высокопроизводительных стоечных вычислений;
  • Драйверы Linux с открытым исходным кодом, компилятор HCC, инструменты и библиотеки, выходящие за рамки обычной компьютерной техники
  • Открытая отраслевая стандартная поддержка нескольких архитектур и отраслевых стандартных технологий межсетевых соединений 4

Загрузить лист спецификаций Radeon Instinct™ MI25

ЛИСТ СПЕЦИФИКАЦИЙ RADEON INSTINCT™ MI25

Ознакомьтесь с Radeon Instinct™ серии MI

RADEON INSTINCT™ СЕРИИ MI

серверный ускоритель Radeon Instinct™ MI25 СВЕДЕНИЯ

Подробные спецификации

Вычислительные блоки64 вычислительных блока следующего поколения
Пиковая вычислительная производительность при обработке чисел половинной точности24.6TFLOPS
Пиковая вычислительная производительность при обработке чисел одинарной точности12.3TFLOPS
Пиковая вычислительная производительность при обработке чисел двойной точности768GFLOPS
Количество потоковых процессоров4096
Стандартное энергопотребление платы300W
Необходимое количество разъемов PCI2
Частота памяти1.89Gbps
Быстродействие памяти (эффективное)945MHz
Объем памяти16GB
Тип памятиHBM2
Интерфейс памяти2048-bit
Пропускная способность памяти484GB/s
Технология AMD Power Tune
Память с коррекцией ошибок (ECC)
Семейство продуктовRadeon Instinct™
Линейка продуктовRadeon Instinct серии MI
МодельMI25
Платформа программного обеспеченияСервер
Form factor and CoolingПассивная, 2 разъема
Поддерживаемые операционные системыLinux® (64-разрядная)
Платформа программного обеспеченияСовместимость с программной экосистемой ROCm
  1. Измерения, проведенные лабораториями AMD по испытанию производительности 2 июня 2017 г. с использованием ускорителя Radeon Instinct™ MI25 на базе архитектуры Vega. Итоговые показатели являются приблизительными и могут отличаться. Производительность может отличаться в зависимости от использования последних версий драйвера. Производители ПК или систем могут вносить в конфигурации изменения, из-за чего результаты могут отличаться. Пиковая производительность ускорителя Radeon Instinct MI25 при обработке чисел с плавающей запятой составила: 24,6 терафлопс для чисел половинной точности (FP16) и 12,3 терафлопс для чисел одинарной точности (FP32). Вычисления AMD для показателей в терафлопс выполнялись при следующих условиях. Для расчета показателя во флопс частота графического процессора в наивысшем состоянии DPM умножается на количество вычислительных блоков на графический процессор. Затем полученное число умножается на заданное количество потоковых процессоров, которые имеются в каждом вычислительном блоке. Новое полученное число умножается на 2 флопс в расчете на тактовую частоту для формата FP32. Чтобы высчитать количество терафлопс для формата FP16, используются значение в 4 флопс в расчете на тактовую частоту. Чтобы высчитать количество терафлопс для формата FP64, используется значение частоты 1/16. Результаты внешних измерений пиковой производительности при обработке чисел с плавающей запятой, полученные при использовании графического ускорителя NVidia Tesla P100-16 (карта памяти объемом 16 ГБ), составили: 18,7 терафлопс для чисел половинной точности (FP16) и 9,3 терафлопс для чисел одинарной точности (FP32). Результаты найдены на странице: https://images.nvidia.com/content/tesla/pdf/nvidia-tesla-p100-PCIe-datasheet.pdf. Результаты внешних измерений пиковой производительности при обработке чисел с плавающей запятой, полученные при использовании графического ускорителя NVidia Tesla P100-SXM2, составили: 21,2 терафлопс для чисел половинной точности (FP16) и 10,6 терафлопс для чисел одинарной точности (FP32). Результаты найдены на странице: http://www.nvidia.com/object/tesla-p100.html Компания AMD не проводила независимых тестирований и проверок результатов и данных других компаний и не несет ответственность за любые ошибки или упущения, имеющиеся в них. RIV-1
  2. Поддержка алгоритма коррекции ошибок (ECC) ограничена памятью HBM2. Защита памяти с коррекцией ошибок не предусмотрена для внутренних структур ГП.
  3. Измерения, проведенные лабораториями AMD по испытанию производительности 2 июня 2017 г. с использованием ускорителя Radeon Instinct™ MI25 на базе архитектуры Vega. Итоговые показатели являются приблизительными и могут отличаться. Производительность может отличаться в зависимости от использования последних версий драйвера. Производители ПК или систем могут вносить в конфигурации изменения, из-за чего результаты могут отличаться. Пиковая производительность ускорителя Radeon Instinct MI25 при обработке чисел с плавающей запятой составила: 82 гигафлопс/Вт для чисел половинной точности (FP16) и 41 гигафлопс/Вт для чисел одинарной точности (FP32). Вычисления AMD для показателей в гигафлопс на ватт выполнялись при следующих условиях. Для расчета показателя во флопс частота графического процессора в наивысшем состоянии DPM умножается на количество вычислительных блоков на графический процессор. Затем полученное число умножается на заданное количество потоковых процессоров, которые имеются в каждом вычислительном блоке. Новое полученное число умножается на 2 флопс в расчете на тактовую частоту для формата FP32. Чтобы высчитать количество терафлопс для формата FP16, используются значение в 4 флопс в расчете на тактовую частоту. Чтобы высчитать количество терафлопс для формата FP64, используется значение частоты 1/16. После вычисления количества терафлопс это число делится на количество ватт расчетной тепловой мощности и умножается на 1000 для определения количества гигафлопс на ватт. Расчеты, проведенные лабораториями AMD по испытанию производительности 2 июня 2017 г. с использованием графического ускорителя NVidia Tesla P100-16 (карта памяти объемом 16 ГБ) для определения количества гигафлопс на ватт путем деления полученного количества терафлопс на 250 Вт расчетной тепловой мощности, привели к следующим результатам: пиковая производительность при обработке чисел с плавающей запятой составила 75 гигафлопс/Вт для чисел половинной точности (FP16) и 37 гигафлопс/Вт для чисел одинарной точности (FP32). Источники: https://images.nvidia.com/content/tesla/pdf/nvidia-tesla-p100-PCIe-datasheet.pdf
    Расчеты, проведенные лабораториями AMD по испытанию производительности 2 июня 2017 г. с использованием графического ускорителя NVidia Tesla P100-SXM2 для определения количества гигафлопс на ватт путем деления полученного количества терафлопс на 300 Вт расчетной тепловой мощности, привели к следующим результатам: пиковая производительность при обработке чисел с плавающей запятой составила 71 гигафлопс/Вт для чисел половинной точности (FP16) и 35 гигафлопс/Вт для чисел одинарной точности (FP32). Источники: http://www.nvidia.com/object/tesla-p100.html Компания AMD не проводила независимых тестирований и проверок результатов и данных других компаний и не несет ответственность за любые ошибки или упущения, имеющиеся в них. RIV-4
  4. Планируется поддержка для нескольких архитектур, включая х86, Power8 и ARM. Компания AMD также поддерживает современные технологии межсетевых соединений и планирует поддержку будущих стандартных технологий межсетевых соединений GenZ, CCIX и OpenCAPI™. Время появления и наличие поддерживаемых архитектур и стандартных технологий межсетевых соединений будут отличаться. Обратитесь к поставщику системы, чтобы узнать, поддерживает ли ваша система определенную архитектуру или технологию.

Содержащаяся в настоящем документе информация приводится только в информационных целях и может быть изменена без уведомления. Мы постарались тщательно подготовить настоящий документ, но он может содержать технические неточности, упущения и типографские ошибки. Компания AMD не обязана обновлять или иным способом исправлять такую информацию. Компания Advanced Micro Devices, Inc. не дает никаких заявлений и гарантий в отношении точности или полноты содержания данного документа и не несет никаких обязательств, в том числе подразумеваемых гарантий ненарушения патентов, пригодности для продажи или конкретной цели, по отношению к работе или использованию программного и аппаратного оборудования или иных продуктов AMD, описанных в данном документе. Vega и Vega10 являются внутренними кодовыми названиями, применяющимися компанией AMD только к архитектуре, а не наименованиями продуктов. Настоящий документ не предоставляет каких-либо лицензий, в том числе подразумеваемых или возникающих в силу правовой презумпции, на любые права интеллектуальной собственности. Условия и ограничения, применяемые к покупке или использованию продуктов AMD, указаны в подписанном соглашении между сторонами или в Стандартных условиях и положениях о продажах AMD. GD-18

© Advanced Micro Devices, Inc., 2017. Все права защищены. AMD, логотип «стрелка AMD», Radeon и любые их сочетания являются товарными знаками корпорации Advanced Micro Devices, Inc. OpenCL является товарным знаком корпорации Apple Inc., используемым с разрешения компании Khronos. Другие наименования в данной публикации используются только в целях идентификации и могут являться товарными знаками соответствующих компаний.