Универсальный ускоритель тренировки и логического вывода для искусственного интеллекта и глубинного обучения

Уведомить меня

Идеальное решение для машинного и глубинного обучения, позволяющее тренировать выделение границ

Powered by the "Polaris" Architecture

 

36

Вычислительные блоки
2304 Количество потоковых процессоров
 

5.7

TFLOPS
FP16 and FP32Performance
 

16GB

GDDR5
 
 

224GB/s

Пропускная способность памяти
 

ПРОИЗВОДИТЕЛЬНОСТЬ

Одноразъемная видеокарта, демонстрирующая пиковую производительность 5,7 терафлопс при обработке чисел с половинной или одинарной точностью и имеющая РТМ до 150 Ватт 1

  • 5,7 терафлопс — пиковая производительность вычислений в графике для формата FP16 | FP32.

    Обладая пиковой вычислительной производительностью 5,7 терафлопс для форматов FP16 или FP32 и оперативной памятью GDDR5 объемом 16 ГБ на одной плате, серверный ускоритель Radeon Instinct MI6 обеспечивает непревзойденную производительность при обработке чисел одинарной точности. Память большого объема на одноразъемной видеокарте делает возможными формирование логических выводов и тренировку выделения границ для машинного и глубинного обучения. Кроме того, серверный ускоритель представляет собой экономичное решение для систем разработки в области высокопроизводительных вычислений, нуждающихся в большем объеме памяти. 1

  • Сверхбыстрая память графического процессора GDDR5 объемом 16 ГБ с 256-разрядным интерфейсом.

    Благодаря памяти графического процессора GDDR5 объемом 16 ГБ с пропускной способностью до 224 ГБ/с серверный ускоритель Radeon Instinct MI6 является сбалансированным и универсальным решением для обработки чисел одинарной точности. Он также удовлетворяет требованиям для работы с искусственным интеллектом и для формирования логических выводов на базе алгоритмов глубинного обучения. Кроме того, серверный ускоритель представляет собой экономичное решение для тренировки выделения границ благодаря памяти большого объема и низкому энергопотреблению

  • Пиковая производительность вычислений в графике для форматов FP16 и FP32 до 38 гигафлопс на ватт.

    Благодаря пиковой производительности вычислений в графике до 38 гигафлопс на ватт для форматов FP16 и FP32 серверный ускоритель Radeon Instinct MI6 является универсальным и эффективным решением для систем искусственного интеллекта и формирования логических выводов на базе алгоритмов глубинного обучения, а также для тренировки выделения границ. 2

  • 36 вычислительных блоков (2304 потоковых процессора).

    Серверный ускоритель Radeon Instinct MI6 имеет 36 вычислительных блоков, каждый из которых содержит 64 потоковых процессора — всего 2304 потоковых процессора. Для достижения быстрых результатов они позволяют одновременно запустить множество пакетов данных меньшего размера в противовес нейронным сетям, натренированным для глубинного обучения. Производительность при обработке чисел одинарной точности и эффективность решения низкой стоимости являются важными факторами для таких типов установок системы. Ускоритель MI6 обеспечивает превосходную производительность при обработке чисел одинарной точности на одноразъемной видеокарте.

ОСОБЕННОСТИ

Ускоритель с пассивным охлаждением для развертывания масштабируемых серверов

  • Серверный ускоритель с пассивным охлаждением на базе архитектуры Polaris.
    Серверный ускоритель Radeon Instinct MI6 на базе архитектуры Polaris с поддержкой 14-нанометрового техпроцесса FinFET создан для высокоэффективного развертывания масштабируемых серверов с целью логических операций с числами одинарной точности и тренировки выделения границ для систем искусственного интеллекта и глубинного обучения. Серверный ускоритель также подходит для высокопроизводительных вычислений общего назначения и систем разработки. Для потребителей этот серверный ускоритель графического процессора станет экономичным и универсальным решением для вычислений. Его энергопотребление составляет лишь 150 Ватт расчетной тепловой мощности.
  • 150 Вт РТМ, один разъем, серверная видеокарта длиной 9,5 дюйма.
    Серверная видеокарта Radeon Instinct MI6 имеет полную высоту, один разъем и совместима с материнскими платами со слотом PCIe® 3-го поколения. Конструкция видеокарты MI6 позволяет использовать ее с большинством стандартных типов серверов в качестве недорогого и высокоэффективного серверного решения для гетерогенного искусственного интеллекта, формирования логических выводов на базе алгоритмов глубинного обучения, тренировки выделения границ, а также для развертывания систем высокопроизводительных вычислений.
  • Сверхбыстрая память GDDR5 с пропускной способностью  до 224 ГБ/с.
    Серверный ускоритель Radeon Instinct MI6 оснащен сверхбыстрой памятью GDDR5 объемом 16 ГБ. Это позволяет быстро управлять многочисленными пакетами данных большого размера и одновременно задействовать их для требовательных операций с искусственным интеллектом, формирования логических выводов на базе алгоритмов глубинного обучения и тренировок выделения границ, а также для высокопроизводительных рабочих нагрузок.
  • Технология виртуализации аппаратного обеспечения MxGPU на базе стандарта SRIOV.
    Серверный ускоритель Radeon Instinct™ MI6 поддерживает технологию MxGPU на базе стандарта SRIOV — технологию виртуализации аппаратного обеспечения от AMD. Это позволяет увеличить загрузку и емкость центра обработки данных.

ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ

Механизм логического вывода для глубинного обучения

Современные условия — экспоненциальный рост объема информации и ее динамическая природа — изменили требования к конфигурациям систем для центров обработки данных. Разработчикам центров обработки данных необходимо создавать системы, готовые к работе с более сложными параллельными рабочими нагрузками, продолжая при этом увеличивать их эффективность. Совершенствование характеристик дискретных графических процессоров и других ускорителей на протяжении последнего десятилетия дает проектировщикам центров обработки данных новые возможности для создания гетерогенных вычислительных систем, которые помогают им справляться с новыми задачами.

Развертывание центров обработки данных с приложениями на базе механизма логического вывода, когда для получения новых знаний запускается множество новых наборов входных данных меньшего размера в формате чисел половинной (FP16) или одинарной (FP32) точности в противовес натренированным нейронным сетям, требует систем с поддержкой параллельных вычислений. Такие системы могут быстро проводить операции с входными данными через множество меньших ядер в энергоэффективном режиме.

Ускоритель Radeon Instinct MI6 — мощное и низкозатратное решение для развертывания в центре обработки данных систем машинного интеллекта и логических выводов на базе алгоритмов глубинного обучения. Для одноразъемной видеокарты с расчетной тепловой мощностью 150 ватт 1 он обеспечивает производительность 5,7 терафлопс при обработке чисел как половинной, так и одинарной точности с плавающей запятой. Ускоритель MI6 на базе архитектуры Polaris от AMD оснащен сверхбыстрой памятью GDDR5 объемом 16 ГБ с пропускной способностью до 224 ГБ/с. Вместе с платформой открытого программного обеспечения ROCm ускорители Radeon Instinct предоставляют разработчикам центров обработки данных универсальные и высокоэффективные решения для развертывания систем логических выводов.

Ключевые преимущества для формирования логических выводов

  • Вычислительная производительность при обработке чисел половинной или одинарной точности 5,7 терафлопс 1
  • Пиковая производительность 38 гигафлопс на ватт для форматов FP16 и FP32 для эффективного развертывания систем логического вывода и тренировки выделения границ 2
  • Пиковая вычислительная производительность при обработке чисел двойной точности (FP64) 358 гигафлопс
  • Производительность 2,4 гигафлопс на ватт для формата FP64
  • Память GDDR5 объемом 16 ГБ с 256-разрядным интерфейсом отличается сверхбыстрой производительностью
  • Одноразъемная видеокарта с пассивным охлаждением для развертывания масштабируемых серверов
  • Платформа программного обеспечения ROCm с открытым кодом для гипермасштабируемых вычислений
  • Драйверы для Linux с открытым кодом, компилятор HCC, инструменты и библиотеки для полного контроля, выходящие за рамки обычной компьютерной техники
  • Оптимизированные программные библиотеки MIOpen для глубинного обучения
  • Обширная поддержка базовых адресных регистров (BAR) для одноранговой коммуникации между несколькими графическими процессорами
  • Технологии виртуализации аппаратного обеспечения MxGPU SR-IOV для оптимального использования системы

 

Тренировки выделения границ для глубинного обучения

Современные условия — экспоненциальный рост объема информации и ее динамическая природа — изменили требования к конфигурациям систем для центров обработки данных. Разработчикам центров обработки данных необходимо создавать системы, готовые к работе с более сложными параллельными рабочими нагрузками, продолжая при этом увеличивать их эффективность. Совершенствование характеристик дискретных графических процессоров и других ускорителей на протяжении последнего десятилетия дает проектировщикам центров обработки данных новые возможности для создания гетерогенных вычислительных систем, которые помогают им справляться с новыми задачами.

Центры обработки данных задействуют искусственный интеллект и алгоритмы глубинного обучения с развертыванием тренировок выделения границ, чтобы создать экономически и технически эффективные вычислительные системы для тренировочных задач. Применяется огромное количество экономичных пограничных серверов для выполнения менее сложных тренировочных задач, требующих меньше вычислительных мощностей. Это снижает общие затраты для центров обработки данных при большей эффективности работы. Такие системы требуют ускорителей, которые обеспечивают хорошую производительность при обработке чисел одинарной точности и больший объем памяти для компактных решений с низким энергопотреблением.

Ускоритель Radeon Instinct MI6 — это универсальный серверный ускоритель с низким энергопотреблением, который идеально соответствует требованиям бюджетного развертывания тренировок выделения границ для систем искусственного интеллекта и глубинного обучения в центре обработке данных. Ускоритель обеспечивает пиковую производительность 38 гигафлопс на ватт при обработке чисел половинной (FP16) или одинарной точности (FP32) с плавающей запятой для одноразъемной видеокарты с расчетной тепловой мощностью 150 ватт. 1 Ускоритель Radeon Instinct MI6 на базе архитектуры Polaris от AMD, оснащенный сверхбыстрой памятью GDDR5 объемом 16 ГБ с пропускной способностью до 224 ГБ/с, в сочетании с открытой экосистемой Radeon Instinct и платформой открытого программного обеспечения ROCm обеспечивает разработчиков центров обработки данных универсальным, высокоэффективным решением для развертывания тренировок выделения границ.

Ключевые преимущества для тренировок выделения границ

  • Пиковая вычислительная производительность при обработке чисел половинной или одинарной точности 5,7 терафлопс 1
  • Пиковая производительность 38 гигафлопс на ватт для форматов FP16 или FP32 на одноразъемной видеокарте 2
  • Пиковая вычислительная производительность при обработке чисел двойной точности (FP64) 358 гигафлопс
  • Производительность 2,4 гигафлопс на ватт для формата FP64
  • Память GDDR5 объемом 16 ГБ с 256-разрядным интерфейсом отличается сверхбыстрой производительностью
  • Пассивное охлаждение для развертывания масштабируемых серверов
  • Платформа программного обеспечения ROCm с открытым кодом для гипермасштабируемых вычислений
  • Драйверы для Linux с открытым кодом, компилятор HCC, инструменты и библиотеки для полного контроля, выходящие за рамки обычной компьютерной техники
  • Оптимизированные программные библиотеки MIOpen для глубинного обучения
  • Обширная поддержка базовых адресных регистров (BAR) для одноранговой коммуникации между несколькими графическими процессорами
  • Технологии виртуализации аппаратного обеспечения MxGPU SR-IOV для оптимального использования системы
  • Открытая стандартная поддержка нескольких архитектур и стандартные технологии межсетевых соединений1 3

 

Гетерогенные вычислительные технологии для высокопроизводительных вычислений общего назначения и разработки

В области систем высокопроизводительных вычислений создаются огромные массивы неструктурированных данных каждый год, и лишь небольшая часть конфигураций этих систем перестраивается, позволяя пользователям извлечь полезную информацию из таких данных. Раньше эти системы преимущественно создавались на базе центрального процессора. Но после того, как произошел взрывной рост объема данных и появились данные разных типов, наряду с усложнением кодов, такие традиционные системы уже перестали соответствовать всем требованиям для выполнения сегодняшних рабочих нагрузок с высокопроизводительными вычислениями при обработке больших массивов данных. Все эти типы кодов становились все сложнее и требовали больше параллельных вычислений. Поэтому возросло использование гетерогенных вычислительных систем с разными сочетаниями ускорителей, включая дискретные графические процессоры и программируемые пользователем вентильные матрицы (FPGA). Совершенствование возможностей графических процессоров за последнее десятилетие позволило задействовать их для операций с растущим числом параллельных кодов смешанной точности так, как их применяли для глубинного обучения. Сегодня ученые и исследователи по всему миру используют ускорители для более эффективной обработки параллельных кодов высокопроизводительных вычислений в различных отраслях, включая медико-биологические науки, энергетику, финансы, автомобилестроение, аэрокосмическую промышленность, науку, государственное управление и оборону.

Ускоритель Radeon Instinct MI6 вместе с революционной платформой открытого программного обеспечения ROCm от AMD является универсальным и эффективным решением для гетерогенных вычислений. Он обеспечивает пиковую производительность 5,7 терафлопс при обработке чисел с половинной или одинарной точностью на одноразъемной видеокарте с расчетной тепловой мощностью 150 ватт и сверхбыстрой памятью GDDR5 объемом 16 ГБ, обладающей пропускной способностью до 224 ГБ/с 1 Ускоритель Radeon Instinct MI6 — идеальное и экономичное решение для гетерогенных вычислений общего назначения и систем разработки, используемых в сферах финансовых услуг, энергетики, автомобилестроения, в медико-биологической области и академических науках (исследовании и преподавании), правительственных лабораториях, а также в других отраслях, где необходимы высокопроизводительные вычисления.

Ключевые преимущества высокопроизводительных вычислений

  • Пиковая вычислительная производительность при обработке чисел половинной или одинарной точности 5,7 терафлопс 1
  • Пиковая вычислительная производительность 38 гигафлопс на ватт для форматов FP16 или FP32 для ряда рабочих нагрузок в области высокопроизводительных вычислений 2
  • Пиковая вычислительная производительность при обработке чисел двойной точности (FP64) 358 гигафлопс
  • Пиковая вычислительная производительность при обработке чисел двойной точности 2,4 терафлопс на ватт
  • Память GDDR5 объемом 16 ГБ с 256-разрядным интерфейсом отличается сверхбыстрой производительностью
  • Пассивное охлаждение для развертывания масштабируемых серверов
  • Платформа программного обеспечения ROCm с открытым кодом для высокопроизводительных вычислений
  • Драйверы для Linux с открытым кодом, компилятор HCC, инструменты и библиотеки для полного контроля, выходящие за рамки обычной компьютерной техники
  • Технологии виртуализации аппаратного обеспечения MxGPU SR-IOV для оптимального использования системы

Download the Radeon Instinct™ MI6 Data Sheet

Radeon Intinct™ MI6 DataSheet

Ознакомьтесь с Radeon Instinct™ серии MI

RADEON INSTINCT™ СЕРИИ MI

серверный ускоритель Radeon Instinct™ MI6 СВЕДЕНИЯ

Подробные спецификации

Вычислительные блоки36
Пиковая вычислительная производительность при обработке чисел половинной точности5.7TFLOPS
Пиковая вычислительная производительность при обработке чисел одинарной точности5.7TFLOPS
Пиковая вычислительная производительность при обработке чисел двойной точности358GFLOPS
Количество потоковых процессоров2304
Стандартное энергопотребление платы150W
Необходимое количество разъемов PCI1
Частота памяти7Gbps
Быстродействие памяти (эффективное)1750MHz
Объем памяти16GB
Тип памятиGDDR5
Интерфейс памяти256-bit
Пропускная способность памяти224GB/s
Технология AMD Power Tune
Семейство продуктовRadeon Instinct
Линейка продуктовRadeon Instinct серии MI
МодельMI6
Платформа программного обеспеченияСервер
Form factor and CoolingПолная высота, один разъем, 9,5 дюйма в длину, пассивное охлаждение
Поддерживаемые операционные системыLinux® (64-разрядная)
Платформа программного обеспеченияСовместимость с программной экосистемой ROCm
ГарантияОграниченная на три года
  1. Исследования ускорителя Radeon Instinct™ MI6 на базе архитектуры Polaris проводились 2 июня 2017 года в лабораториях AMD по испытанию производительности. Итоговые показатели являются приблизительными и могут отличаться. Производительность может отличаться в зависимости от использования последних версий драйвера. Производители ПК или систем могут вносить в конфигурации изменения, из-за чего результаты могут отличаться. Ускоритель Radeon Instinct MI6 продемонстрировал пиковую производительность 5,7 терафлопс при обработке чисел половинной точности (FP16) и пиковую производительность 5,7 терафлопс при обработке чисел одинарной точности (FP32) с плавающей запятой. Вычисления AMD для показателей в терафлопс выполнялись при следующих условиях. Для расчета показателя во флопс частота графического процессора в наивысшем состоянии DPM умножается на количество вычислительных блоков на графический процессор. Затем полученное число умножается на заданное количество потоковых процессоров, которые имеются в каждом вычислительном блоке. Новое полученное число умножается на 2 флопс в расчете на тактовую частоту для формата FP32. Чтобы высчитать количество терафлопс для формата FP16, используются значение в 4 флопс в расчете на тактовую частоту. Ускоритель Nvidia Tesla P40 показал пиковую производительность 0,19 терафлопс при обработке чисел половинной точности (FP16) с плавающей запятой на видеокарте с расчетной тепловой мощностью 250 ватт, работающей от внешнего источника. Источник: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf Ускоритель Nvidia Tesla P4 показал пиковую производительность 0,09 терафлопс при обработке чисел половинной точности (FP16) с плавающей запятой на видеокарте с расчетной тепловой мощностью 75 ватт, работающей от внешнего источника. Источник: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf Компания AMD не проводила независимое тестирование и не подтверждает результаты/информацию от сторонних источников и/или третьей стороны, а также не берет на себя никакой ответственности за любые ошибки или упущения, сделанные ими. RIP-1
  2. Исследования ускорителя Radeon Instinct™ MI6 на базе архитектуры Polaris проводились 2 июня 2017 года в лабораториях AMD по испытанию производительности. Итоговые показатели являются приблизительными и могут отличаться. Производительность может отличаться в зависимости от использования последних версий драйвера. Производители ПК или систем могут вносить в конфигурации изменения, из-за чего результаты могут отличаться. Ускоритель Radeon Instinct MI6 продемонстрировал пиковую производительность 38 гигафлопс на ватт при обработке чисел половинной точности (FP16) и пиковую производительность 38 гигафлопс при обработке чисел одинарной точности (FP32) с плавающей запятой. Вычисления AMD для показателей в гигафлопс на ватт выполнялись при следующих условиях. Для расчета показателя во флопс частота графического процессора в наивысшем состоянии DPM умножается на количество вычислительных блоков на графический процессор. Затем полученное число умножается на заданное количество потоковых процессоров, которые имеются в каждом вычислительном блоке. Новое полученное число умножается на 2 флопс в расчете на тактовую частоту для формата FP32. Чтобы высчитать количество терафлопс для формата FP16, используются значение в 4 флопс в расчете на тактовую частоту. Когда количество терафлопс подсчитано, это число делится на значение расчетной тепловой мощности 150 ватт и умножается на 1000. Ускоритель Nvidia Tesla P40, который ранее показал пиковую производительность 0,19 терафлопс при обработке формата FP16 на видеокарте с расчетной тепловой мощностью 250 ватт, продемонстрировал пиковую производительность 0,76 гигафлопс на ватт при обработке чисел половинной точности (FP16). Источники: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184427-Tesla-P40-Datasheet-NV-Final-Letter-Web.pdf Ускоритель Nvidia Tesla P4, который ранее показал пиковую производительность 0,09 терафлопс при обработке формата FP16 на видеокарте с расчетной тепловой мощностью 75 ватт, продемонстрировал пиковую производительность 1,2 гигафлопс на ватт при обработке чисел половинной точности (FP16). Источники: https://devblogs.nvidia.com/parallelforall/mixed-precision-programming-cuda-8/ http://images.nvidia.com/content/pdf/tesla/184457-Tesla-P4-Datasheet-NV-Final-Letter-Web.pdf Компания AMD не проводила независимое тестирование и не подтверждает результаты/информацию от сторонних источников и/или третьей стороны, а также не берет на себя никакой ответственности за любые ошибки или упущения, сделанные ими. RIP-2
  3. Планируется поддержка для нескольких архитектур, включая х86, Power8 и ARM. Компания AMD также поддерживает современные технологии межсетевых соединений и планирует поддержку будущих стандартных технологий межсетевых соединений GenZ, CCIX и OpenCAPI™. Время появления и наличие поддерживаемых архитектур и стандартных технологий межсетевых соединений будут отличаться. Обратитесь к поставщику системы, чтобы узнать, поддерживает ли ваша система определенную архитектуру или технологию.

На ускорители графического процессора Radeon Instinct распространяется ограниченная гарантия на три года. Посетите раздел на сайте www.AMD.com/warranty для
Содержащаяся в настоящем документе информация приводится только в информационных целях и может быть изменена без уведомления. Мы постарались тщательно подготовить настоящий документ, но он может содержать технические неточности, упущения и типографские ошибки. Компания AMD не обязана обновлять или иным способом исправлять такую информацию. Компания Advanced Micro Devices, Inc. не дает никаких заявлений и гарантий в отношении точности или полноты содержания данного документа и не несет никаких обязательств, в том числе подразумеваемых гарантий ненарушения патентов, пригодности для продажи или конкретной цели, по отношению к работе или использованию программного и аппаратного оборудования или иных продуктов AMD, описанных в данном документе. Polaris — внутреннее кодовое название компании AMD, используемое только для архитектуры. Оно не является наименованием продукта. Настоящий документ не предоставляет каких-либо лицензий, в том числе подразумеваемых или возникающих в силу правовой презумпции, на любые права интеллектуальной собственности. Условия и ограничения, применяемые к покупке или использованию продуктов AMD, указаны в подписанном соглашении между сторонами или в Стандартных условиях и положениях о продажах AMD. GD-18

© Advanced Micro Devices, Inc., 2017. Все права защищены. AMD, логотип «стрелка AMD», Radeon и любые их сочетания являются товарными знаками корпорации Advanced Micro Devices, Inc. OpenCL является товарным знаком корпорации Apple Inc., используемым с разрешения компании Khronos. Другие наименования в данной публикации используются только в целях идентификации и могут являться товарными знаками соответствующих компаний.