Исследователи из НИУ ВШЭ разработали новый подход к тестированию генеративных нейросетей и проверили его, предложив русскоязычной версии GPT-4 тест педагогических компетенций. Исследование опубликовано в виде препринта, о деталях работы сообщает пресс-служба вуза.
Что нового в тесте для нейросетей
В своём исследовании авторы из НИУ ВШЭ ответили на вопрос, способен ли генеративный искусственный интеллект (ГИИ) сегодня быть для учителя помощником, на которого можно положиться. Среди способностей нейросети, интересовавших исследователей, — умение составлять индивидуализированные программы обучения и готовить проверочные задания, подбирать или генерировать материал для уроков.
Но на самом деле применение ГИИ в педагогике — только частный пример. А вообще, исследователи создали единую модель для новых бенчмарков (так называют тесты для больших языковых моделей) в различных профессиональных областях:
- При создании учли принципы психометрики — науки об анализе данных о поведении и способностях людей. Результаты тестов, созданных в соответствии с психометрическими правилами, позволяют объяснить, почему человек (или нейросеть) успешно решает одни задания и испытывает трудности с другими. Также по ним можно предсказать, как участник тестирования будет в дальнейшем справляться с аналогичными задачами.
- Авторы пользовались таксономией Блума, чтобы задания из каждой тематической области охватывали разные уровни компетенций: воспроизведение, понимание, использование на практике. Это важно, потому что многие профессиональные тесты, с которыми ГИИ успешно справляется, учитывают только фактические знания. А понимание реальных процессов и соответствующие навыки при таких экзаменах недооценивают.
Как именно проверяли педагогические знания нейросети
Чтобы разработать бенчмарк для оценки ГИИ для образовательных задач, исследователи собрали группу из 34 экспертов по педагогике и психологии. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. По каждой из областей эксперты подготовили от 240 до 250 вопросов с выбором ответа. Как правило, вопрос представлял собой описание проблемной ситуации в классе или в индивидуальной работе с учеником, а от ГИИ требовалось выбрать способ её разрешения.
Помимо тем и уровней по таксономии Блума (воспроизведение фактов, понимание и применение), вопросы различались ещё и по уровню сложности. Лёгкими считались те, что, по мнению экспертов, решили бы более 70% обычных студентов профильной специальности, трудными — доступные менее чем 30% студентов. Но на студентах вопросы не проверяли: бенчмарк составляли исключительно для тестирования ГИИ, и он не предназначен для прохождения людьми. Всего в тест вошло 3963 вопроса.
Бенчмарк проверили на генеративной нейросети GPT-4: ей предложили пройти экзамен по педагогике в роли профессионального учителя, работающего в России. Нейросеть правильно ответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2% до 61%.
Исследователи отмечают, что, похоже, у ГИИ недостаточно «знаний» и о педагогических теориях, и о практических сценариях работы с классом. Ожидаемо хуже всего нейросеть справлялась с заданиями на применение знаний (41% верных ответов), а лучше всего ей дались вопросы на понимание (48% правильных ответов). В итоге исследователи сделали вывод, что пока уровень экспертности у изученной нейросети недостаточен, чтобы учителя полагались на неё: введение в образовательный процесс помощников на такой базе приведёт только к дополнительным расходам.
«Мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым всё необходимо перепроверять — а сейчас это так и есть, — вряд ли вызовет желание его использовать», — прокомментировал результаты один из авторов работы, научный руководитель НИУ ВШЭ Ярослав Кузьминов.
В будущем исследователи планируют разработать на основе нового подхода бенчмарки по другим профессиональным областям, а также описать техники для дообучения ГИИ — чтобы устранить риски галлюцинаций и ошибок в базовых для дисциплины вопросах.
Ранее эксперт американского сообщества специалистов в сфере образовательных технологий EdTech Insiders Алекс Сарлин предложил методику оценки ИИ-инструментов для школьного образования с точки зрения их безопасности.
Больше интересного про образование ― в нашем телеграм-канале. Подписывайтесь!
Читайте также:
- Уже больше половины опрошенных российских учителей используют ГИИ при подготовке уроков
- «Учителя и школы — не лакеи Кремниевой долины»: мнение педагога из США о «ИИ-навыках»
- Первый российский вуз утвердил декларацию этических принципов использования ИИ
- Сделаны первые шаги к законодательному регулированию использования ИИ в образовании