Microsoft выпустила языковую модель машинного обучения Orca 2

Она разрабатывалась в качестве компактной языковой модели, но при этом всё равно может отвечать на сложные вопросы.

Редакция «Код» Skillbox Media

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

В блоге Microsoft Research рассказали о релизе языковой модели машинного обучения Orca 2. Её главная особенность в том, что для обучения использовали другую нейросеть.

Как обучали Orca 2

Нейросеть выпустили в размерах с 7 и 13 млрд параметров. Её разработали с помощью большой языковой модели LLaMa 2. Исследователи сгенерировали набор синтетических данных и адаптировали его для датасета.

Разработчики Microsoft отметили, что большие языковые модели могут строить сложные рассуждения, опираться на несколько источников информации и анализировать данные, но таких возможностей нет у компактных моделей. Целью исследования было адаптировать широкие возможности под ограниченный набор параметров.

Тестирование

По результатам тестов Orca 2 превосходит свою прошлую версию и достигает уровня производительности моделей в 5–10 раз больше. Для оценки использовали набор из более 36 тысяч тестовых случаев, охватывающих математические задачи, понимание текста, обоснование точки зрения, обобщение, рассуждение и генерацию контента.

На графике результатов тестирования видно, что в некоторых бенчмарках нейросети Orca 2 опережают большие языковые модели LLaMa 2 и WizardLM с 70 млрд параметров.

Сравнение производительности Orca 2 и других языковых моделей
*Инфографика: Microsoft*

Высокого уровня производительности удалось добиться благодаря точно подобранным синтетическим данным. Исследователи заранее могли подобрать содержимое датасета для обеспечения максимальной эффективности.

Языковые модели Orca 2 7B и Orca 2 13B открыты и опубликованы на платформе Hugging Face. Желающие могут экспериментировать с ними или использовать в своих проектах. Разработчики Microsoft отметили, что у технологии есть потенциал и что они продолжат исследования в этой сфере.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Читайте также: