В блоге Microsoft Research рассказали о релизе языковой модели машинного обучения Orca 2. Её главная особенность в том, что для обучения использовали другую нейросеть.
Как обучали Orca 2
Нейросеть выпустили в размерах с 7 и 13 млрд параметров. Её разработали с помощью большой языковой модели LLaMa 2. Исследователи сгенерировали набор синтетических данных и адаптировали его для датасета.
Разработчики Microsoft отметили, что большие языковые модели могут строить сложные рассуждения, опираться на несколько источников информации и анализировать данные, но таких возможностей нет у компактных моделей. Целью исследования было адаптировать широкие возможности под ограниченный набор параметров.
Тестирование
По результатам тестов Orca 2 превосходит свою прошлую версию и достигает уровня производительности моделей в 5–10 раз больше. Для оценки использовали набор из более 36 тысяч тестовых случаев, охватывающих математические задачи, понимание текста, обоснование точки зрения, обобщение, рассуждение и генерацию контента.
На графике результатов тестирования видно, что в некоторых бенчмарках нейросети Orca 2 опережают большие языковые модели LLaMa 2 и WizardLM с 70 млрд параметров.
Высокого уровня производительности удалось добиться благодаря точно подобранным синтетическим данным. Исследователи заранее могли подобрать содержимое датасета для обеспечения максимальной эффективности.
Языковые модели Orca 2 7B и Orca 2 13B открыты и опубликованы на платформе Hugging Face. Желающие могут экспериментировать с ними или использовать в своих проектах. Разработчики Microsoft отметили, что у технологии есть потенциал и что они продолжат исследования в этой сфере.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!