Образование
#новости

Преподаватели не смогли выявить 94% работ, написанных ChatGPT

И поставили ответам ИИ более высокие оценки, чем студентам-психологам.

Ученые из Университета Рединга и Эссекского университета в Великобритании решили проверить, смогут ли сотрудники вуза определить, какие студенческие работы на самом деле сгенерированы в ChatGPT. Результаты эксперимента опубликованы в журнале Plos One.

По согласованию с администрацией вуза исследователи в генеративной нейросети GPT-4 подготовили ответы на вопросы онлайн-экзаменов по итогам пяти различных модулей и отправили их без какого-либо редактирования на проверку людям, которые не знали об этом, от имени несуществующих студентов. Важно отметить, что по правилам Университета Рединга, где проводился эксперимент, такие ответы на онлайн-экзаменах проверяют не те, кто ведёт соответствующие модули, а другие представители академического персонала и аспиранты (за дополнительную оплату). То есть проверяющие не знали, сколько всего на экзамене должно быть работ, не имели доступа к личным данным студентов и свои оценки выставляли тоже анонимно.

Поддельные ответы отправляли на экзамены двух типов. Первый требовал коротко — в пределах 200 слов — ответить на четыре из шести предложенных вопросов по выбору студента. Второй тип экзаменационного задания представлял собой эссе объёмом в 1500 слов с ответом на один из трёх или четырёх вопросов на выбор. Всего исследователи отправили 63 ответа, сгенерированных GPT-4, так что в общем числе работ по каждому из модулей обучения их доля составила не более 5%.

Независимо от типа экзамена, для проверяющих ответы нейросети выглядели так же, как любые другие студенческие работы. Каждую работу читал один проверяющий, который выставлял оценку по тому, насколько она соответствовала заданным критериям. Все оценки подтверждал ещё один проверяющий, модератор: он читал случайно выбранную часть работ и просматривал те, по которым первый проверяющий поставил неудовлетворительную оценку или которые отметил как содержащие потенциальное нарушение академической этики.

На момент проведения эксперимента в вузе не использовались никакие инструменты для автоматического распознавания сгенерированного нейросетью контента, но проверяющих перед работой инструктировали о том, как выявлять подобные нарушения: например, если работа написана подозрительно хорошо для студента младшего курса или содержит ссылки на несуществующую научную литературу.

По итогам эксперимента исследователи обнаружили, что 94% заявок, сгенерированных нейросетью, остались незамеченными — их проверили как работы обычных студентов. Причём отметки, выставленные ответам нейросети, были в среднем в полтора раза выше, чем у реальных студентов! Только 16% реальных ответов получили отметки выше, чем сгенерированные нейросетью. Студенты показали результаты выше, чем GPT-4, лишь на одном из тех экзаменов, где требовалось написать объёмное эссе. Исследователи связывают это с тем, что нейросеть пока не может качественно имитировать абстрактные рассуждения.

Впрочем, как отмечают авторы этого исследования, неизвестно, какая доля реальных студентов отправила на тех же экзаменах ответы, подготовленные с помощью GPT-4, — в университете на тот момент использование генеративных нейросетей было запрещено, но проверяющие явно не могли выявить такие работы. Так что, возможно, в этом эксперименте полностью сгенерированные GPT-4 работы соревновались за оценки с ответами, подготовленными студентами, которые использовали нейросеть просто как вспомогательный инструмент.

Кстати, в ходе опроса студентов ведущих российских вузов в декабре 2023 — январе 2024 года выяснилось, что 46% из них используют ИИ при подготовке домашних заданий, в курсовых и квалификационных работах этот процент ниже — 18%. Тем не менее даже дипломные работы в некоторых вузах, например в САФУ, уже разрешается писать с помощью генеративных нейросетей. А в НИУ ВШЭ даже объявили конкурс на использование нейросетей при подготовке работ.

Ранее стало известно, кто эффективнее в проверке школьных эссе — ChatGPT или школьный учитель. Пока средние баллы опытных преподавателей опережают ChatGPT по всем критериям (хоть и незначительно), кроме учёта критериев, обозначенных в задании для учеников.

Больше интересного про образование ― в нашем телеграм-канале. Подписывайтесь!

Научитесь: Профессия Методист с нуля до PRO Узнать больше
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована