Исследователи Epoch AI представили набор сложных математических задач для нейросетей

Эти задачи способны решить только признанные эксперты по математике. Их решение может занять от нескольких часов до нескольких дней.

Редакция «Код» Skillbox Media

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

Исследовательская группа компании Epoch AI представила набор математических задач FrontierMath. В его состав входят задачи, которые нейросети не могут решить и на которые ведущие профессора по математике тратят несколько часов или дней. Набор FrontierMath планируют использовать для оценки способностей ИИ-моделей и отслеживания динамики их развития.

Над подготовкой задач работали ведущие профессора математики, авторы Международной математической олимпиады и медалисты Филдсовской премии. В работе над FrontierMath участвовали более 60 человек. Задачи из этого набора включают в себя такие разделы предмета, как алгебраическая геометрия и вычислительная теория чисел.

«[Эти задачи] чрезвычайно сложны. Я думаю, что в ближайшей перспективе единственный способ решить их, не имея настоящего эксперта в данной области, — это сочетание полуэксперта, например аспиранта в смежной области, в паре с современным ИИ и множеством паков по алгебре».

Теренс Тао, математик, обладатель Филдсовской премии 2006 года

Согласно исследованию Epoch AI, многие популярные ИИ-модели не способны решить задачи из набора, разработанного компанией. Например, Claude 3.5 Sonnet и Gemini 1.5 Pro смогли правильно решить только 2% задач, а нейросети o1 и GPT-4o — всего лишь 1%. Что касается других математических тестов, таких как GSM-8K и MATH, те же нейросети справляются с 90% их задач.

Команда исследователей Epoch AI наметила дальнейшие шаги по работе над пакетом задач FrontierMath. Среди них:

Регулярная оценка — анализ ведущих ИИ-моделей и публикация результатов для обеспечения стандартизированного измерения прогресса.
Расширение бенчмарка — добавление новых задач при сохранении строгих стандартов и текущего распределения типов задач, уровней сложности и математических областей.
Публичный выпуск задач — команда планирует выпустить дополнительные задачи в ближайшие месяцы для привлечения сообщества и облегчения сравнительного анализа.
Усиление контроля качества за счёт расширения экспертной оценки, увеличения вознаграждения за обнаруженные ошибки и улучшения процессов рецензирования.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Читайте также: