Образование
#новости

В НИУ ВШЭ оценили способности генеративных нейросетей выполнять образовательные задачи

ГИИ может быть помощником преподавателя, но пока его работу всё время нужно перепроверять.

Исследователи из НИУ ВШЭ разработали новый подход к тестированию генеративных нейросетей и проверили его, предложив русскоязычной версии GPT-4 тест педагогических компетенций. Исследование опубликовано в виде препринта, о деталях работы сообщает пресс-служба вуза.

Что нового в тесте для нейросетей

В своём исследовании авторы из НИУ ВШЭ ответили на вопрос, способен ли генеративный искусственный интеллект (ГИИ) сегодня быть для учителя помощником, на которого можно положиться. Среди способностей нейросети, интересовавших исследователей, — умение составлять индивидуализированные программы обучения и готовить проверочные задания, подбирать или генерировать материал для уроков.

Но на самом деле применение ГИИ в педагогике — только частный пример. А вообще, исследователи создали единую модель для новых бенчмарков (так называют тесты для больших языковых моделей) в различных профессиональных областях:

  • При создании учли принципы психометрики — науки об анализе данных о поведении и способностях людей. Результаты тестов, созданных в соответствии с психометрическими правилами, позволяют объяснить, почему человек (или нейросеть) успешно решает одни задания и испытывает трудности с другими. Также по ним можно предсказать, как участник тестирования будет в дальнейшем справляться с аналогичными задачами.
  • Авторы пользовались таксономией Блума, чтобы задания из каждой тематической области охватывали разные уровни компетенций: воспроизведение, понимание, использование на практике. Это важно, потому что многие профессиональные тесты, с которыми ГИИ успешно справляется, учитывают только фактические знания. А понимание реальных процессов и соответствующие навыки при таких экзаменах недооценивают.

Как именно проверяли педагогические знания нейросети

Чтобы разработать бенчмарк для оценки ГИИ для образовательных задач, исследователи собрали группу из 34 экспертов по педагогике и психологии. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. По каждой из областей эксперты подготовили от 240 до 250 вопросов с выбором ответа. Как правило, вопрос представлял собой описание проблемной ситуации в классе или в индивидуальной работе с учеником, а от ГИИ требовалось выбрать способ её разрешения.

Помимо тем и уровней по таксономии Блума (воспроизведение фактов, понимание и применение), вопросы различались ещё и по уровню сложности. Лёгкими считались те, что, по мнению экспертов, решили бы более 70% обычных студентов профильной специальности, трудными — доступные менее чем 30% студентов. Но на студентах вопросы не проверяли: бенчмарк составляли исключительно для тестирования ГИИ, и он не предназначен для прохождения людьми. Всего в тест вошло 3963 вопроса.

Бенчмарк проверили на генеративной нейросети GPT-4: ей предложили пройти экзамен по педагогике в роли профессионального учителя, работающего в России. Нейросеть правильно ответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2% до 61%.

Исследователи отмечают, что, похоже, у ГИИ недостаточно «знаний» и о педагогических теориях, и о практических сценариях работы с классом. Ожидаемо хуже всего нейросеть справлялась с заданиями на применение знаний (41% верных ответов), а лучше всего ей дались вопросы на понимание (48% правильных ответов). В итоге исследователи сделали вывод, что пока уровень экспертности у изученной нейросети недостаточен, чтобы учителя полагались на неё: введение в образовательный процесс помощников на такой базе приведёт только к дополнительным расходам.

«Мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым всё необходимо перепроверять — а сейчас это так и есть, — вряд ли вызовет желание его использовать», — прокомментировал результаты один из авторов работы, научный руководитель НИУ ВШЭ Ярослав Кузьминов.

В будущем исследователи планируют разработать на основе нового подхода бенчмарки по другим профессиональным областям, а также описать техники для дообучения ГИИ — чтобы устранить риски галлюцинаций и ошибок в базовых для дисциплины вопросах.

Ранее эксперт американского сообщества специалистов в сфере образовательных технологий EdTech Insiders Алекс Сарлин предложил методику оценки ИИ-инструментов для школьного образования с точки зрения их безопасности.

Больше интересного про образование ― в нашем телеграм-канале. Подписывайтесь!

Научитесь: Профессия Методист с нуля до PRO Узнать больше
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована