Резкий рост популярности искусственного интеллекта и нейросетей привёл к тому, что разработчики активно обучают новые модели, но современное оборудование плохо адаптировано для таких задач. Во время обучения обрабатываются огромные наборы данных, и требуется много процессорного времени, что сказывается на высоком потреблении энергии. IBM пытается решить проблему, разрабатывая чипы, имитирующие работу человеческого мозга.
Особенность NorthPole
Исследование IBM показало, что во время обучения моделей вес связей между слоями нейронов хранится в блоке памяти графического ускорителя или процессора. Там их нельзя использовать, а ещё каждый раз приходится переносить в исполнительные блоки. Больше всего энергии и ресурсов уходит именно на этот процесс.
В NorthPole используется архитектура из массива 16 × 16 вычислительных блоков, каждый из которых содержит в себе возможность выполнять код и локально работать с данными. Благодаря этому удаётся хранить вес связей между нейронами в одном месте с исполнительными блоками, экономя ресурсы на постоянном переносе.
Кроме этого, внутри чипа реализовано несколько сетей для оптимизации вычислений. Предусмотрена сеть для реконфигурации всего массива блоков, предоставляющая вес и код для следующего уровня задач, пока процессор продолжает вычислять предыдущий уровень. Вместе с этим есть сеть для переноса данных из завершённых вычислений в блоки для хранения до тех пор, пока они не понадобятся снова.
Результат работы чипа
IBM изготовила тестовые образцы NorthPole по 12-нанометровому техпроцессу. Чип состоит из 256 ядер, которые используют память общим объёмом 192 Мб. Предусмотрен буфер на 32 Мб, предназначенный для IO-транзисторов. Каждое ядро может за один такт выполнить 2048 операций с точностью вычислений 8 бит.
Во время испытаний NorthPole сравнили с графическим процессором NVIDIA V100 Tensor Core, который тоже соответствует 12 нанометрам. Решению от IBM удалось выполнить в 25 раз больше вычислений при использовании того же объёма энергии. NorthPole значительно экономит ресурсы, не уступая в вычислительной мощности. В случае с более продвинутыми чипами решение будет превосходить показатели приблизительно в пять раз.
Компания отметила, что из-за малого объёма памяти процессор не может запускать такие сложные нейросети, как GPT-4. Он предназначен для реализации систем компьютерного зрения, которые используются в автомобилях или роботах. Улучшить результаты работы NorthPole можно будет вместе с переходом на более современный техпроцесс.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!