Исследователи из Университета Джорджии проанализировали бесплатную LLM-модель с открытым исходным кодом от французской компании Mistral — Mixtral-8x7B-instruct и выяснили, как она будет действовать в оценке письменных работ учеников. Учёные использовали несколько подходов, чтобы научить нейросеть вырабатывать правила для проверки, но и в наилучшем варианте ИИ-оценки совпали с теми, что выставили педагоги, только на 54%. Работа опубликована в журнале Technology, Knowledge and Learning, а её полный текст доступен на сервисе предпринтов arXiv.
В ходе исследования учёные поручили модели оценить письменные ответы учеников средней школы по естественно-научным предметам, в основном по физике. Всего использовалось 12 заданий, для каждого из которых выбрали по 800 ответов учащихся. Исследователи стремились понять, как именно рассуждает нейросеть при выполнении такой задачи. Потому они запрашивали у неё не только итоговые оценки, но и рубрики, которые модель генерировала для проверки. В критериальном оценивании рубрики — это наборы параметров (критериев), по которым оценивают работу учеников. В частности, бывают аналитические рубрики (по ним оценивают отдельные аспекты работы) и холистические (оценивают работу как целое).
Исследователи использовали несколько разных подходов:
- От Mixtral требовалось без подсказок разработать рубрики для оценки какого-либо задания и использовать их для проверки.
- Нейросеть просили оценить работы по критериям, подготовленным людьми для этих конкретных заданий.
- Нейросети предлагали разработать аналитические рубрики для одного задания и провести проверку по ним, а для примера ей предоставляли критерии для остальных 11 заданий, прописанные людьми.
- В дополнение к предыдущему варианту нейросети предоставили примеры работ, уже оценённых людьми.
При каждом экспериментальном условии авторы сравнивали сгенерированные нейросетью рубрики с теми, что разработали педагоги, а также проверяли, насколько точно нейросеть оценивает ученические работы по этим критериям. Такой подход позволил заглянуть в «мыслительный процесс» модели.
Выяснилось, что Mixtral быстро адаптировалась к задачам, но в её рассуждениях зачастую не хватало логики. Например, при одном из экспериментальных условий нейросеть предложила для задания «Объясни, как твоя модель показывает, что передача тепловой энергии меняет движение молекул воды и её температуру» такие бессмысленные критерии оценки: «Модель показывает молекулы воды до и после нагревания» и «Модель показывает кинетическую энергию молекул воды до и после нагревания». То есть нейросеть в качестве критериев для оценки предлагала использовать ключевые слова из задания. Оценивая работы учеников с применением этой рубрики, она засчитывала как правильные все ответы, где эти термины употреблялись.
В итоге эксперимент показал, что точность работы Mixtral в оценке работ учеников варьировалась:
- без каких-либо заранее прописанных критериев проверки она составила 34,8%;
- с использованием аналитических рубрик, написанных человеком, — 50,4%.
Чуть более высокая точность оценки получилась, когда нейросеть проверила задание по собственным критериям, разработанным на примерах аналитических рубрик для остальных 11 заданий, а также с учётом написанной людьми для этого задания холистической рубрики. В таком варианте выставленные нейросетью оценки совпали с учительскими на 54,6%. Авторы связывают результат с тем, что в таком варианте, с одной стороны, имелись подробные подготовленные профессионалами примеры критериев, а с другой — аналитические рубрики для оценки этого задания нейросеть сгенерировала в стиле, который, предположительно, лучше подходит для машинного восприятия.
А вот примеры оценённых учителями работ не помогли нейросети в проверке. В таком варианте эксперимента у Mixtral тоже были примеры аналитических рубрик для остальных 11 заданий, а вместо холистической рубрики для проверяемого задания нейросети выдавали примеры оценённых работ. Точность оценок при этом снизилась до 48,4%, а в разработанных аналитических рубриках появились нелогичные критерии. Исследователи считают, что при наличии готовых примеров оценки нейросеть использует самый простой вариант — комбинирует ключевые слова из высоко оценённых работ.
Итак, авторы не рекомендуют обучать нейросети для автоматической проверки заданий на проверенных работах учеников. Вместо этого они советуют предоставлять ИИ-моделям качественные и подробные аналитические рубрики, а также использовать смешанные подходы, где ИИ будет разрабатывать критерии оценки под контролем человека. Стоит, однако, отметить ограничение исследования: в нём использовали бесплатную модель Mixtral-8x7B-instruct и не работали с другими нейросетями. Можно предположить, что результаты с использованием других нейросетевых моделей или специально обученных инструментов могли бы быть лучше (впрочем, они могли быть и хуже).
Ранее исследователи НИУ ВШЭ разработали бенчмарк для оценки генеративного ИИ для образовательных задач. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. Нейросеть GPT-4 правильно ответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%.
Больше интересного про образование ― в нашем телеграм-канале. Подписывайтесь!
Читайте также:
- Уже больше половины опрошенных российских учителей используют ГИИ при подготовке уроков
- Создан инструмент на основе ИИ для оценки педагогического мастерства
- В НовГУ разработали систему оценки качества преподавания с помощью ИИ
- Студенты считают, что чрезмерное использование ИИ в преподавании обесценивает процесс
Профессия Методист с нуля до PRO
Вы прокачаете навыки в разработке учебных программ для онлайн- и офлайн-курсов. Освоите современные педагогические практики, структурируете опыт и станете более востребованным специалистом.
Узнать подробнее