Оптимальный в соотношении цены и качества масштабируемый ускоритель систем логического вывода для машинного и глубинного обучения

Уведомить меня

Идеально подходит для развертывания центров обработки данных, которые используют приложения с логическим выводом для искусственного интеллекта и глубинного обучения

Powered by the "Fiji" Architecture

 

64

Вычислительные блоки
4096 Количество потоковых процессоров
 

8.2

TFLOPS
FP16 and FP32Performance
 

4GB

HBM1
 
 

512GB/s

Пропускная способность памяти
 

ПРОИЗВОДИТЕЛЬНОСТЬ

Пиковая производительность 8,2 терафлопс при обработке чисел половинной или одинарной точности на модуле памяти HBM1 объемом 4 ГБ 1

  • 8,2 терафлопс — пиковая производительность вычислений в графике для формата FP16 | FP32.

    Обладая пиковой вычислительной производительностью 8,2 терафлопс на одной плате, серверный ускоритель Radeon Instinct MI8 обеспечивает великолепную производительность при обработке чисел одинарной точности в расчете на доллар для систем, формирующих логические выводы на базе машинного и глубинного обучения. Кроме того, серверный ускоритель представляет собой экономичное решение для систем разработки в области высокопроизводительных вычислений. 1

  • Память графического процессора HBM1 объемом 4 ГБ с высокой пропускной способностью и 512-разрядным интерфейсом.

    Благодаря памяти графического процессора HBM1 объемом 4 ГБ с пропускной способностью до 512 ГБ/с серверный ускоритель Radeon Instinct MI8 обеспечивает идеальное сочетание производительности при обработке чисел одинарной точности и производительности системы памяти. Это позволяет проводить самые требовательные операции для систем искусственного интеллекта и формирования логических выводов на базе алгоритмов глубинного обучения, чтобы извлечь полноценные результаты из новых данных, с которыми работают натренированные нейронные сети. При этом решение является экономически выгодным и эффективным.

  • 47 гигафлопс на ватт — пиковая производительность вычислений в графике для формата FP16 | FP32.

    С пиковой производительностью вычислений в графике до 47 гигафлопс на ватт для форматов FP16 и FP32 серверный ускоритель Radeon Instinct MI8 обеспечивает великолепную производительность в расчете на ватт для систем искусственного интеллекта и формирования логических выводов на базе алгоритмов глубинного обучения. 2

  • 64 вычислительных блока (4096 потоковых процессора).

    Серверный ускоритель Radeon Instinct MI8 имеет 64 вычислительных блока, каждый из которых содержит 64 потоковых процессора — всего 4096 потоковых процессора. Для достижения быстрых откликов они позволяют одновременно запустить множество пакетов данных меньшего размера в противовес нейронным сетям, натренированным для глубинного обучения. Производительность при обработке чисел одинарной точности является важным фактором для таких типов установок системы. Ускоритель MI8 обеспечивает превосходную производительность при обработке чисел одинарной точности на одной видеокарте.

ОСОБЕННОСТИ

Ускоритель с пассивным охлаждением и расчетной тепловой мощностью менее 175 ватт для развертывания масштабируемых серверов

  • Серверный ускоритель с пассивным охлаждением на базе архитектуры Fiji. Серверный ускоритель Radeon Instinct MI8 на базе архитектуры Fiji с поддержкой 28-нанометрового техпроцесса HPX создан для высокоэффективного развертывания масштабируемых серверов с целью логических операций с числами одинарной точности в системах искусственного интеллекта и глубинного обучения. Для потребителей этот серверный ускоритель графического процессора обеспечивает отличную производительность при энергопотреблении лишь 175 ватт расчетной тепловой мощности.
  • 175 ватт расчетной тепловой мощности, два разъема, серверная видеокарта длиной 6 дюймов. Двухразъемная серверная видеокарта Radeon Instinct MI8 с PCIe® Gen 3 x16 имеет полную высоту. Она подходит для большинства стандартных серверов и является высокоэффективным решением для развертывания гетерогенных систем искусственного интеллекта и систем логических выводов на базе глубинного обучения.
  • Высокая пропускная способность памяти (HBM1) до 512 ГБ/с. Серверный ускоритель Radeon Instinct MI8 оснащен модулем памяти HBM1 с высокой пропускной способностью и объемом 4 ГБ. Это позволяет одновременно быстро использовать многие пакеты данных для самых требовательных операций систем искусственного интеллекта и формирования логических выводов на базе алгоритмов глубинного обучения. Подобное использование помогает быстро извлечь полноценные результаты из новых данных, с которыми работают натренированные нейронные сети.
  • Технология виртуализации аппаратного обеспечения MxGPU на базе стандарта SR-IOV.Серверный ускоритель Radeon Instinct MI8 поддерживает технологию MxGPU на базе стандарта SRIOV — технологию виртуализации аппаратного обеспечения от AMD. Это позволяет увеличить загрузку и емкость центра обработки данных.

ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ

Механизм логического вывода для глубинного обучения

Современные условия — экспоненциальный рост объема информации и ее динамическая природа — изменили требования к конфигурациям систем для центров обработки данных. Разработчикам центров обработки данных необходимо создавать системы, готовые к работе с более сложными параллельными рабочими нагрузками, продолжая при этом увеличивать их эффективность. Совершенствование характеристик дискретных графических процессоров и других ускорителей на протяжении последнего десятилетия дает проектировщикам центров обработки данных новые возможности для создания гетерогенных вычислительных систем, которые помогают им справляться с новыми задачами.

 

Развертывание центров обработки данных с приложениями на базе механизма логического вывода, когда для получения новых знаний запускается множество новых наборов входных данных меньшего размера в формате чисел половинной (FP16) или одинарной (FP32) точности в противовес натренированным нейронным сетям, требует систем с поддержкой параллельных вычислений. Такие системы могут быстро проводить операции с входными данными через множество меньших ядер в энергоэффективном режиме.

 

Ускоритель Radeon Instinct MI8 — эффективное и выгодное решение для развертывания в центре обработки данных систем машинного интеллекта и логических выводов на базе алгоритмов глубинного обучения. Для видеокарты с расчетной тепловой мощностью 175 ватт 1 он обеспечивает пиковую производительность 8,2 терафлопс при обработке чисел как половинной, так и одинарной точности (FP16|FP32) с плавающей запятой. Ускоритель Radeon Instinct MI8 на базе архитектуры Fiji от AMD оснащен памятью HBM1 объемом 4 ГБ с высокой пропускной способностью до 512 ГБ/с. В сочетании с подходом открытой экосистемы и платформой открытого программного обеспечения ROCm ускорители Radeon Instinct предоставляют разработчикам центров обработки данных гибкое и высокоэффективное решение для развертывания систем логических выводов.

Ключевые преимущества для формирования логических выводов

  • Пиковая вычислительная производительность при обработке чисел половинной или одинарной точности 8,2 терафлопс 1
  • Пиковая вычислительная производительность при обработке чисел половинной или одинарной точности 47 гигафлопс на ватт 2
  • Память HBM1 объемом 4 ГБ с 512-разрядным интерфейсом отличается высокой пропускной способностью
  • Ускоритель с пассивным охлаждением и расчетной тепловой мощностью до 175 ватт для развертывания масштабируемых серверов
  • Платформа программного обеспечения ROCm с открытым кодом для гипермасштабируемых вычислений
  • Драйверы для Linux с открытым кодом, компилятор HCC, инструменты и библиотеки для полного контроля, выходящие за рамки обычной компьютерной техники
  • Оптимизированные программные библиотеки MIOpen для глубинного обучения 3
  • Обширная поддержка базовых адресных регистров (BAR) для одноранговой коммуникации между несколькими графическими процессорами
  • Технологии виртуализации аппаратного обеспечения MxGPU SR-IOV для оптимального использования системы
  • Открытая стандартная поддержка нескольких архитектур и открытых стандартных технологий межсетевых соединений 4

 

Гетерогенные вычислительные технологии для высокопроизводительных вычислений общего назначения и разработки

В области систем высокопроизводительных вычислений создаются огромные массивы неструктурированных данных каждый год, и лишь небольшая часть конфигураций этих систем перестраивается, позволяя пользователям извлечь полезную информацию из таких данных. Раньше эти системы преимущественно создавались на базе центрального процессора. Но после того, как произошел взрывной рост объема данных и появились данные разных типов, наряду с усложнением кодов, такие традиционные системы уже перестали соответствовать всем требованиям для выполнения сегодняшних рабочих нагрузок с высокопроизводительными вычислениями при обработке больших массивов данных. Все эти типы кодов становились все сложнее и требовали больше параллельных вычислений. Поэтому возросло использование гетерогенных вычислительных систем с разными сочетаниями ускорителей, включая дискретные графические процессоры и программируемые пользователем вентильные матрицы (FPGA). Совершенствование возможностей графических процессоров за последнее десятилетие позволило задействовать их для операций с растущим числом параллельных кодов смешанной точности так, как их применяли для тренированных нейронный сетей глубинного обучения. Сегодня ученые и исследователи по всему миру используют ускорители для более эффективной обработки параллельных кодов высокопроизводительных вычислений в различных отраслях, включая медико-биологические науки, энергетику, финансы, автомобилестроение, аэрокосмическую промышленность, науку, государственное управление и оборону.

 

Ускоритель Radeon Instinct MI8 в сочетании с революционной платформой открытого программного обеспечения ROCm от AMD является эффективным гетерогенным вычислительным решением начального уровня. Он демонстрирует пиковую вычислительную производительность 8,2 терафлопс при обработке чисел одинарной точности с помощью эффективной видеокарты, обладающей памятью HBM1 объемом 4 ГБ с высокой пропускной способностью. 1 Ускоритель MI8 — идеальное открытое решение для проведения экономичных вычислений общего назначения и развертывания систем разработки, используемых в сферах финансовых услуг, энергетики, автомобилестроения, в медико-биологической области и академических науках (исследовании и преподавании), правительственных лабораториях, а также в других отраслях, где необходимы высокопроизводительные вычисления.

Ключевые преимущества высокопроизводительных вычислений

  • Пиковая вычислительная производительность 8,2 терафлопс при обработке чисел половинной или одинарной точности для ряда рабочих нагрузок в области высокопроизводительных вычислений 1
  • Пиковая вычислительная производительность при обработке чисел половинной или одинарной точности 47 гигафлопс на ватт 2
  • Пиковая вычислительная производительность 512 гигафлопс при обработке чисел двойной точности (FP64) и память HBM1 объемом 4 ГБ
  • Пиковая вычислительная производительность 2,9 гигафлопс на ватт для формата FP64
  • Память HBM1 объемом 4 ГБ с 512-разрядным интерфейсом отличается высокой пропускной способностью
  • Ускоритель с пассивным охлаждением и расчетной тепловой мощностью до 175 ватт для развертывания масштабируемых серверов
  • Платформа программного обеспечения ROCm с открытым кодом для высокопроизводительных вычислений
  • Драйверы для Linux с открытым кодом, компилятор HCC, инструменты и библиотеки для полного контроля, выходящие за рамки обычной компьютерной техники
  • Технологии виртуализации аппаратного обеспечения MxGPU SR-IOV для оптимального использования системы
  • Открытая стандартная поддержка нескольких архитектур и стандартные технологии межсетевых соединений 2

Загрузить лист спецификаций Radeon Instinct™ MI8

ЛИСТ СПЕЦИФИКАЦИЙ Radeon Intinct™ MI8

Ознакомьтесь с Radeon Instinct™ серии MI

Radeon Intinct™ СЕРИИ MI

Radeon Instinct™ MI8 СВЕДЕНИЯ

Подробные спецификации

Вычислительные блоки64
Пиковая вычислительная производительность при обработке чисел половинной точности8.2TFLOPS
Пиковая вычислительная производительность при обработке чисел одинарной точности8.2TFLOPS
Пиковая вычислительная производительность при обработке чисел двойной точности512GFLOPS
Количество потоковых процессоров4096
Стандартное энергопотребление платы175W
Необходимое количество разъемов PCI2
Частота памяти1Gbps
Быстродействие памяти (эффективное)500MHz
Объем памяти4GB
Тип памятиHBM1
Интерфейс памяти4096-bit
Пропускная способность памяти512GB/s
AMD PowerTune Technology
Семейство продуктовRadeon Instinct
Линейка продуктовRadeon Instinct серии MI
МодельMI8
Платформа программного обеспеченияСервер
Form factor and CoolingПолная высота, двойной разъем, длина 6 дюймов, пассивное охлаждение
Поддерживаемые операционные системыLinux® (64-разрядная)
Платформа программного обеспеченияСовместимость с программной экосистемой ROCm
ГарантияОграниченная на три года
  1. Исследования ускорителя Radeon Instinct™ MI8 на базе архитектуры Fiji проводились 2 июня 2017 года в лабораториях AMD по испытанию производительности. Итоговые показатели являются приблизительными и могут отличаться. Производительность может отличаться в зависимости от использования последних версий драйвера. Производители ПК или систем могут вносить в конфигурации изменения, из-за чего результаты могут отличаться. Ускоритель MI8 продемонстрировал пиковую производительность 8,2 терафлопс при обработке чисел половинной точности (FP16) и пиковую производительность 8,2 терафлопс при обработке чисел одинарной точности (FP32) с плавающей запятой. Вычисления AMD для показателей в терафлопс выполнялись при следующих условиях. Для расчета показателя во флопс частота графического процессора в наивысшем состоянии DPM умножается на количество вычислительных блоков на графический процессор. Затем полученное число умножается на заданное количество потоковых процессоров, которые имеются в каждом вычислительном блоке. Новое полученное число умножается на 2 флопс в расчете на тактовую частоту для формата FP32. Чтобы высчитать количество терафлопс для формата FP16, используются значение в 4 флопс в расчете на тактовую частоту. Ускоритель Nvidia Tesla P40 показал пиковую производительность 0,19 терафлопс при обработке чисел половинной точности (FP16) с плавающей запятой на видеокарте с расчетной тепловой мощностью 250 ватт, работающей от внешнего источника. Источники: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Ускоритель Nvidia Tesla P4 показал пиковую производительность 0,09 терафлопс при обработке чисел половинной точности (FP16) с плавающей запятой на видеокарте с расчетной тепловой мощностью 75 ватт, работающей от внешнего источника. Источники: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. Компания AMD не проводила независимое тестирование и не подтверждает результаты/информацию от сторонних источников и/или третьей стороны, а также не берет на себя никакой ответственности за любые ошибки или упущения, сделанные ими. RIF-1
  2. Исследования ускорителя Radeon Instinct™ MI8 на базе архитектуры Fiji проводились 2 июня 2017 года в лабораториях AMD по испытанию производительности. Итоговые показатели являются приблизительными и могут отличаться. Производительность может отличаться в зависимости от использования последних версий драйвера. Производители ПК или систем могут вносить в конфигурации изменения, из-за чего результаты могут отличаться. Ускоритель Radeon Instinct MI8 продемонстрировал пиковую производительность 47 гигафлопс на ватт при обработке чисел половинной точности (FP16) и пиковую производительность 47 гигафлопс на ватт при обработке чисел одинарной точности (FP32) с плавающей запятой. Вычисления AMD для показателей в гигафлопс на ватт выполнялись при следующих условиях. Для расчета показателя во флопс частота графического процессора в наивысшем состоянии DPM умножается на количество вычислительных блоков на графический процессор. Затем полученное число умножается на заданное количество потоковых процессоров, которые имеются в каждом вычислительном блоке. Новое полученное число умножается на 2 флопс в расчете на тактовую частоту для формата FP32. Чтобы высчитать количество терафлопс для формата FP16, используются значение в 4 флопс в расчете на тактовую частоту. Когда количество терафлопс подсчитано, это число делится на значение расчетной тепловой мощности 175 ватт и умножается на 1000. Ускоритель Nvidia Tesla P40, который ранее показал пиковую производительность 0,19 терафлопс при обработке формата FP16 на видеокарте с расчетной тепловой мощностью 250 ватт, продемонстрировал пиковую производительность 0,76 гигафлопс на ватт при обработке чисел половинной точности (FP16). Источники для показателей в терафлопс ускорителя Nvidia Tesla P40 при обработке формата FP16: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf. Ускоритель Nvidia Tesla P4, который ранее показал пиковую производительность 0,09 терафлопс при обработке формата FP16 на видеокарте с расчетной тепловой мощностью 75 ватт, продемонстрировал пиковую производительность 1,2 гигафлопс на ватт при обработке чисел половинной точности (FP16). Источники для показателей в терафлопс ускорителя Nvidia Tesla P40 при обработке формата FP16: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/; http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf. Компания AMD не проводила независимое тестирование и не подтверждает результаты/информацию от сторонних источников и/или третьей стороны, а также не берет на себя никакой ответственности за любые ошибки или упущения, сделанные ими. RIF-2
  3. Планируется поддержка программных сред искусственного интеллекта. Узнайте о наличии программных сред на сайте www.GPUOpen.com.
  4. Планируется поддержка для нескольких архитектур, включая х86, Power8 и ARM. Компания AMD также поддерживает современные технологии межсетевых соединений и планирует поддержку будущих стандартных технологий межсетевых соединений GenZ, CCIX и OpenCAPI™. Время появления и наличие поддерживаемых архитектур и стандартных технологий межсетевых соединений будут отличаться. Обратитесь к поставщику системы, чтобы узнать, поддерживает ли ваша система определенную архитектуру или технологию.
Содержащаяся в настоящем документе информация приводится только в информационных целях и может быть изменена без уведомления. Мы постарались тщательно подготовить настоящий документ, но он может содержать технические неточности, упущения и типографские ошибки. Компания AMD не обязана обновлять или иным способом исправлять такую информацию. Компания Advanced Micro Devices, Inc. не дает никаких заявлений и гарантий в отношении точности или полноты содержания данного документа и не несет никаких обязательств, в том числе подразумеваемых гарантий ненарушения патентов, пригодности для продажи или конкретной цели, по отношению к работе или использованию программного и аппаратного оборудования или иных продуктов AMD, описанных в данном документе. Fiji — внутреннее кодовое название компании AMD, используемое только для архитектуры. Оно не является наименованием продукта. Настоящий документ не предоставляет каких-либо лицензий, в том числе подразумеваемых или возникающих в силу правовой презумпции, на любые права интеллектуальной собственности. Условия и ограничения, применяемые к покупке или использованию продуктов AMD, указаны в подписанном соглашении между сторонами или в Стандартных условиях и положениях о продажах AMD. GD-18

© Advanced Micro Devices, Inc., 2017. Все права защищены. AMD, логотип «стрелка AMD», Radeon и любые их сочетания являются товарными знаками корпорации Advanced Micro Devices, Inc. OpenCL является товарным знаком корпорации Apple Inc., используемым с разрешения компании Khronos. Другие наименования в данной публикации используются только в целях идентификации и могут являться товарными знаками соответствующих компаний.