Специалисты «Яндекса» проверили возможности нейросети YandexGPT 2 на экзаменационных заданиях ЕГЭ по литературе. Исследование показало, что нейросеть не только смогла бы поступить в университет, но и приблизилась к среднему результату среди школьников.
Как проводили исследование?
В качестве входных данных использовали тренировочные варианты ЕГЭ по литературе, которые школьники решали в 2021–2023 годах. Варианты для исследования предоставил Московский центр непрерывного математического образования.

Изображение: «Яндекс»
Перед экспериментом сотрудники «Яндекса» убедились, что в базе данных нет ответов, которые давали бы основу для существенного преимущества у нейросети перед школьниками. YandexGPT 2 решала обе части экзамена: в первой части выбирала варианты ответов и генерировала развёрнутые ответы, а во второй — писала сочинение на заданную тему. После результаты внесли в типовой бланк ответов и отправили на проверку действующим экспертам ЕГЭ по литературе.
Результаты
Сейчас минимальный порог для успешной сдачи экзамена составляет 40 баллов. Средняя оценка YandexGPT 2 составила 55 баллов — этого хватает для подачи документов в вуз и участия в конкурсном отборе. Кроме того, эксперты отметили, что по итогам 2022 года средний результат российских школьников составляет 64 балла, поэтому нейросети удалось приблизиться к нему.
В «Яндексе» считают, что ЕГЭ по литературе — сложная задача для искусственного интеллекта. Экзамен требует наличия не только крепких теоретических знаний, но и творческих способностей.

Изображение: «Яндекс»
Директор Московского центра непрерывного математического образования Иван Ященко отметил, что школьники специально разбирают структуру экзамена и готовятся к нему. Решение ЕГЭ нейросетью похоже на то, как к процессу подходит взрослый, опираясь только на накопленные знания.
Технический директор «Яндекс Поиска» Алексей Гусаков рассказал, что для оценки эрудиции языковых моделей обычно используют тест MMLU, включающий в себя вопросы из 57 областей. С помощью этого подхода нельзя проверить творческие способности и умение отвечать на открытые вопросы. Именно по этой причине команда «Яндекса» выбрала ЕГЭ по литературе.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!