Исследовательская группа компании Epoch AI представила набор математических задач FrontierMath. В его состав входят задачи, которые нейросети не могут решить и на которые ведущие профессора по математике тратят несколько часов или дней. Набор FrontierMath планируют использовать для оценки способностей ИИ-моделей и отслеживания динамики их развития.
Над подготовкой задач работали ведущие профессора математики, авторы Международной математической олимпиады и медалисты Филдсовской премии. В работе над FrontierMath участвовали более 60 человек. Задачи из этого набора включают в себя такие разделы предмета, как алгебраическая геометрия и вычислительная теория чисел.
«[Эти задачи] чрезвычайно сложны. Я думаю, что в ближайшей перспективе единственный способ решить их, не имея настоящего эксперта в данной области, — это сочетание полуэксперта, например аспиранта в смежной области, в паре с современным ИИ и множеством паков по алгебре».
Теренс Тао, математик, обладатель Филдсовской премии 2006 года
Согласно исследованию Epoch AI, многие популярные ИИ-модели не способны решить задачи из набора, разработанного компанией. Например, Claude 3.5 Sonnet и Gemini 1.5 Pro смогли правильно решить только 2% задач, а нейросети o1 и GPT-4o — всего лишь 1%. Что касается других математических тестов, таких как GSM-8K и MATH, те же нейросети справляются с 90% их задач.
Команда исследователей Epoch AI наметила дальнейшие шаги по работе над пакетом задач FrontierMath. Среди них:
- Регулярная оценка — анализ ведущих ИИ-моделей и публикация результатов для обеспечения стандартизированного измерения прогресса.
- Расширение бенчмарка — добавление новых задач при сохранении строгих стандартов и текущего распределения типов задач, уровней сложности и математических областей.
- Публичный выпуск задач — команда планирует выпустить дополнительные задачи в ближайшие месяцы для привлечения сообщества и облегчения сравнительного анализа.
- Усиление контроля качества за счёт расширения экспертной оценки, увеличения вознаграждения за обнаруженные ошибки и улучшения процессов рецензирования.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!