IBM анонсировала NorthPole — высокоэффективный чип для ИИ‑задач

Нейроморфный процессор NortPole в 35 раз эффективней в транскрипции звука и классификации изображений, чем GPU.

Редакция «Код» Skillbox Media

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

Резкий рост популярности искусственного интеллекта и нейросетей привёл к тому, что разработчики активно обучают новые модели, но современное оборудование плохо адаптировано для таких задач. Во время обучения обрабатываются огромные наборы данных, и требуется много процессорного времени, что сказывается на высоком потреблении энергии. IBM пытается решить проблему, разрабатывая чипы, имитирующие работу человеческого мозга.

Нейроморфный чип NorthPole от IBM
*Изображение: IBM Research*

Особенность NorthPole

Исследование IBM показало, что во время обучения моделей вес связей между слоями нейронов хранится в блоке памяти графического ускорителя или процессора. Там их нельзя использовать, а ещё каждый раз приходится переносить в исполнительные блоки. Больше всего энергии и ресурсов уходит именно на этот процесс.

В NorthPole используется архитектура из массива 16 × 16 вычислительных блоков, каждый из которых содержит в себе возможность выполнять код и локально работать с данными. Благодаря этому удаётся хранить вес связей между нейронами в одном месте с исполнительными блоками, экономя ресурсы на постоянном переносе.

NorthPole на PCIe-плате
*Изображение: IBM Research*

Кроме этого, внутри чипа реализовано несколько сетей для оптимизации вычислений. Предусмотрена сеть для реконфигурации всего массива блоков, предоставляющая вес и код для следующего уровня задач, пока процессор продолжает вычислять предыдущий уровень. Вместе с этим есть сеть для переноса данных из завершённых вычислений в блоки для хранения до тех пор, пока они не понадобятся снова.

Результат работы чипа

IBM изготовила тестовые образцы NorthPole по 12-нанометровому техпроцессу. Чип состоит из 256 ядер, которые используют память общим объёмом 192 Мб. Предусмотрен буфер на 32 Мб, предназначенный для IO-транзисторов. Каждое ядро может за один такт выполнить 2048 операций с точностью вычислений 8 бит.

Во время испытаний NorthPole сравнили с графическим процессором NVIDIA V100 Tensor Core, который тоже соответствует 12 нанометрам. Решению от IBM удалось выполнить в 25 раз больше вычислений при использовании того же объёма энергии. NorthPole значительно экономит ресурсы, не уступая в вычислительной мощности. В случае с более продвинутыми чипами решение будет превосходить показатели приблизительно в пять раз.

Результаты тестов NorthPole
*Скриншот: Science*

Компания отметила, что из-за малого объёма памяти процессор не может запускать такие сложные нейросети, как GPT-4. Он предназначен для реализации систем компьютерного зрения, которые используются в автомобилях или роботах. Улучшить результаты работы NorthPole можно будет вместе с переходом на более современный техпроцесс.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Читайте также: