Резкий рост популярности искусственного интеллекта и нейросетей привёл к тому, что разработчики активно обучают новые модели, но современное оборудование плохо адаптировано для таких задач. Во время обучения обрабатываются огромные наборы данных, и требуется много процессорного времени, что сказывается на высоком потреблении энергии. IBM пытается решить проблему, разрабатывая чипы, имитирующие работу человеческого мозга.

Изображение: IBM Research
Особенность NorthPole
Исследование IBM показало, что во время обучения моделей вес связей между слоями нейронов хранится в блоке памяти графического ускорителя или процессора. Там их нельзя использовать, а ещё каждый раз приходится переносить в исполнительные блоки. Больше всего энергии и ресурсов уходит именно на этот процесс.
В NorthPole используется архитектура из массива 16 × 16 вычислительных блоков, каждый из которых содержит в себе возможность выполнять код и локально работать с данными. Благодаря этому удаётся хранить вес связей между нейронами в одном месте с исполнительными блоками, экономя ресурсы на постоянном переносе.

Изображение: IBM Research
Кроме этого, внутри чипа реализовано несколько сетей для оптимизации вычислений. Предусмотрена сеть для реконфигурации всего массива блоков, предоставляющая вес и код для следующего уровня задач, пока процессор продолжает вычислять предыдущий уровень. Вместе с этим есть сеть для переноса данных из завершённых вычислений в блоки для хранения до тех пор, пока они не понадобятся снова.
Результат работы чипа
IBM изготовила тестовые образцы NorthPole по 12-нанометровому техпроцессу. Чип состоит из 256 ядер, которые используют память общим объёмом 192 Мб. Предусмотрен буфер на 32 Мб, предназначенный для IO-транзисторов. Каждое ядро может за один такт выполнить 2048 операций с точностью вычислений 8 бит.
Во время испытаний NorthPole сравнили с графическим процессором NVIDIA V100 Tensor Core, который тоже соответствует 12 нанометрам. Решению от IBM удалось выполнить в 25 раз больше вычислений при использовании того же объёма энергии. NorthPole значительно экономит ресурсы, не уступая в вычислительной мощности. В случае с более продвинутыми чипами решение будет превосходить показатели приблизительно в пять раз.

Скриншот: Science
Компания отметила, что из-за малого объёма памяти процессор не может запускать такие сложные нейросети, как GPT-4. Он предназначен для реализации систем компьютерного зрения, которые используются в автомобилях или роботах. Улучшить результаты работы NorthPole можно будет вместе с переходом на более современный техпроцесс.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!