2 июл 2025
0

Исследователи рассказали, почему нейросети ошибаются, когда оценивают работы школьников

Плюсы и минусы генеративного ИИ для проверки домашек выявили по нейросети Mixtral.

Павел Лебедев

Редактор новостей об образовании в Skillbox Media.

Исследователи из Университета Джорджии проанализировали бесплатную LLM-модель с открытым исходным кодом от французской компании Mistral — Mixtral-8x7B-instruct и выяснили, как она будет действовать в оценке письменных работ учеников. Учёные использовали несколько подходов, чтобы научить нейросеть вырабатывать правила для проверки, но и в наилучшем варианте ИИ-оценки совпали с теми, что выставили педагоги, только на 54%. Работа опубликована в журнале Technology, Knowledge and Learning, а её полный текст доступен на сервисе предпринтов arXiv.

В ходе исследования учёные поручили модели оценить письменные ответы учеников средней школы по естественно-научным предметам, в основном по физике. Всего использовалось 12 заданий, для каждого из которых выбрали по 800 ответов учащихся. Исследователи стремились понять, как именно рассуждает нейросеть при выполнении такой задачи. Потому они запрашивали у неё не только итоговые оценки, но и рубрики, которые модель генерировала для проверки. В критериальном оценивании рубрики — это наборы параметров (критериев), по которым оценивают работу учеников. В частности, бывают аналитические рубрики (по ним оценивают отдельные аспекты работы) и холистические (оценивают работу как целое).

Исследователи использовали несколько разных подходов:

От Mixtral требовалось без подсказок разработать рубрики для оценки какого-либо задания и использовать их для проверки.
Нейросеть просили оценить работы по критериям, подготовленным людьми для этих конкретных заданий.
Нейросети предлагали разработать аналитические рубрики для одного задания и провести проверку по ним, а для примера ей предоставляли критерии для остальных 11 заданий, прописанные людьми.
В дополнение к предыдущему варианту нейросети предоставили примеры работ, уже оценённых людьми.

При каждом экспериментальном условии авторы сравнивали сгенерированные нейросетью рубрики с теми, что разработали педагоги, а также проверяли, насколько точно нейросеть оценивает ученические работы по этим критериям. Такой подход позволил заглянуть в «мыслительный процесс» модели.

Выяснилось, что Mixtral быстро адаптировалась к задачам, но в её рассуждениях зачастую не хватало логики. Например, при одном из экспериментальных условий нейросеть предложила для задания «Объясни, как твоя модель показывает, что передача тепловой энергии меняет движение молекул воды и её температуру» такие бессмысленные критерии оценки: «Модель показывает молекулы воды до и после нагревания» и «Модель показывает кинетическую энергию молекул воды до и после нагревания». То есть нейросеть в качестве критериев для оценки предлагала использовать ключевые слова из задания. Оценивая работы учеников с применением этой рубрики, она засчитывала как правильные все ответы, где эти термины употреблялись.

В итоге эксперимент показал, что точность работы Mixtral в оценке работ учеников варьировалась:

без каких-либо заранее прописанных критериев проверки она составила 34,8%;
с использованием аналитических рубрик, написанных человеком, — 50,4%.

Чуть более высокая точность оценки получилась, когда нейросеть проверила задание по собственным критериям, разработанным на примерах аналитических рубрик для остальных 11 заданий, а также с учётом написанной людьми для этого задания холистической рубрики. В таком варианте выставленные нейросетью оценки совпали с учительскими на 54,6%. Авторы связывают результат с тем, что в таком варианте, с одной стороны, имелись подробные подготовленные профессионалами примеры критериев, а с другой — аналитические рубрики для оценки этого задания нейросеть сгенерировала в стиле, который, предположительно, лучше подходит для машинного восприятия.

А вот примеры оценённых учителями работ не помогли нейросети в проверке. В таком варианте эксперимента у Mixtral тоже были примеры аналитических рубрик для остальных 11 заданий, а вместо холистической рубрики для проверяемого задания нейросети выдавали примеры оценённых работ. Точность оценок при этом снизилась до 48,4%, а в разработанных аналитических рубриках появились нелогичные критерии. Исследователи считают, что при наличии готовых примеров оценки нейросеть использует самый простой вариант — комбинирует ключевые слова из высоко оценённых работ.

Итак, авторы не рекомендуют обучать нейросети для автоматической проверки заданий на проверенных работах учеников. Вместо этого они советуют предоставлять ИИ-моделям качественные и подробные аналитические рубрики, а также использовать смешанные подходы, где ИИ будет разрабатывать критерии оценки под контролем человека. Стоит, однако, отметить ограничение исследования: в нём использовали бесплатную модель Mixtral-8x7B-instruct и не работали с другими нейросетями. Можно предположить, что результаты с использованием других нейросетевых моделей или специально обученных инструментов могли бы быть лучше (впрочем, они могли быть и хуже).

Ранее исследователи НИУ ВШЭ разработали бенчмарк для оценки генеративного ИИ для образовательных задач. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. Нейросеть GPT-4 правильно ответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%.

Больше интересного про образование ― в нашем телеграм-канале. Подписывайтесь!

Читайте также:

Профессия Методист с нуля до PRO

Вы прокачаете навыки в разработке учебных программ для онлайн- и офлайн-курсов. Освоите современные педагогические практики, структурируете опыт и станете более востребованным специалистом.

Профессия Методист с нуля до PRO

Вы прокачаете навыки в разработке учебных программ для онлайн- и офлайн-курсов. Освоите современные педагогические практики и станете более востребованным специалистом.