Образование
#Мнения

Почему не стоит судить о возможностях ИИ по способности сдать «человеческий» экзамен

Кажется, броские новостные заголовки о том, что ChatGPT справился с очередным сложным тестом, ничего не говорят о реальных возможностях нейросетей.

Иллюстрация: Катя Павловская для Skillbox Media

За последние полгода появилось немало новостей о том, как ChatGPT и схожие боты на основе больших языковых моделей с переменным успехом, но всё же справляются со сложными онлайн-экзаменами (например, по медицине или бизнес-менеджменту). Может показаться, что это победа искусственного интеллекта над человеком — если он проходит с лёгкостью такие испытания, значит, действительно «соображает».

С такой позицией не соглашается исполнительный директор по исследованиям в области наук об обучении в Digital Promise и член Международного общества наук об обучении Джереми Рошель. В своей колонке для блога Ассоциации вычислительной техники он объясняет, почему сравнивать способности ИИ и человека, а тем более сдачу экзаменов, некорректно. Кратко пересказываем его основные мысли.

Джереми Рошель

исполнительный директор по исследованиям в области наук об обучении в Digital Promise и член Международного общества наук об обучении

Почему не стоит доверять результатам тестов ChatGPT

Джереми Рошель предлагает для начала вспомнить, как создают те самые экзаменационные тесты (по крайней мере, американские), которые порой так уверенно «щёлкает» ChatGPT.

В их основе лежит психометрика, в том числе и современная теория тестирования — набор методов, позволяющий оценить вероятность правильного ответа испытуемых на задания различной трудности. А процесс создания тестов выглядит примерно так: сначала специалисты разрабатывают большой банк экзаменационных заданий, затем эти задания проверяют с помощью группы реальных учащихся (конечно, людей, а не машин). По результатам определяют, насколько элементы теста способны «разграничить» людей с большими или меньшими возможностями в той или иной дисциплине. Проще говоря, можно ли по тесту судить о знаниях или способностях на самом деле. Те задания, которые о различиях ничего не говорят, исключают из экзамена, а то, что, наоборот, хорошо сработало, — сохраняют.

«Таким образом, валидность экзамена как меры человеческих способностей калибруется эмпирически. И вот важный момент: современная теория тестирования не даёт никаких гарантий, что эта валидность верна для испытуемых, не являющихся людьми, таких как алгоритмы ИИ или пришельцы с другой планеты. Поскольку модели ИИ отвечают на тестовые задания иначе, чем люди, сдающие тесты, мы не можем предполагать, что высокий результат на тесте означает особенно „умную“ модель ИИ. Модель современной теории тестирования никогда не получала данных, необходимых для надёжного разграничения умных и не слишком-то глубоких моделей ИИ», — рассказывает эксперт.

Исследователь приводит в пример ещё одну особенность тестов, которая препятствует сравнению способностей «роботов» и людей: дело в том, что выводы, которые делают разработчики на основе ограниченного количества задач и их форматов, тоже нужно подтвердить, то есть сравнить с другими метриками. Если они коррелируют между собой, то, скорее всего, верны. Но другие метрики, конечно, вновь касаются именно человеческих способностей, знаний и навыков, а вовсе не ИИ.

Кадр: фильм «Робот и Фрэнк» / Dog Run Pictures / Park Pictures

«Опять же, нет никакой гарантии, что для испытуемых, не являющихся людьми, оправдан вывод из определённого набора задач (теста по юриспруденции) в области знаний, навыков и способностей (что это успешный студент-юрист)», — подчёркивает Джереми Рошель.

Почему ИИ дилетант, а не эксперт

Если тесты для ИИ не предназначены, то почему же чат-боты на основе ИИ с ними справляются? Дело в том, что тесты зачастую стандартизированы: они похожи по форме, структуре и даже содержанию. Это упрощает искусственному интеллекту работу.

«Меня куда больше впечатляет то, как ChatGPT взаимодействует с людьми в плохо структурированных диалогах, чем его способность справляться со стандартизированным тестом. Ведь тесты не зря называют стандартизированными: у них есть чёткие рамки, они предсказуемы по структуре и содержанию. Почему кто-то может поверить, что алгоритм или модель ИИ, которая хорошо работает в стандартизированных тестах, лучше или мощнее той, что может справиться с широким спектром сложных, но нестандартных задач?» — комментирует эксперт.

Для сравнения и объяснения, почему ИИ не может быть экспертом, Джереми Рошель приводит историю с встреченным им однажды попутчиком — маляром, очень интересующимся физикой. Правда, системно физику он нигде не изучал, а информацию получал из энциклопедий и самостоятельно пытался связать темы между собой. Хотя он был достаточно эрудирован в этой сфере, главное отличие от физика-эксперта, конечно, бросалось в глаза: он не мог выстроить свои познания в стройную систему. А ведь их реальная глубина определяется именно так — профессионал понимает саму логику этой науки, и любое явление может связать с основополагающими принципами физики.

Фото: фильм «Игры разумов» / Fastnet Films / Icon Entertainmnet

Современные большие языковые модели похожи как раз на такого физика-дилетанта: они могут ответить на какой-то вопрос, но реального понимания предмета у них нет. То есть нейросеть достоверно знает, как устроена последовательность слов в предложениях, но не обладает компетентностью. И до этого, уверен Джереми Рошель, ещё далеко.

«Способность пройти „человеческий“ тест не будет достоверным признаком того, что модель или алгоритм ИИ обладает теми же знаниями, что и эксперт-человек. Сегодня генеративный ИИ больше похож на маляра из Сиэтла, чем мы готовы признать, а новости о том, что модели ИИ проходят тесты, оказывают медвежью услугу, поскольку упрощают природу экспертности в той или иной предметной области», — заключает специалист.

Рошель уверен, что с этим можно и нужно бороться. Например, учёные могут доносить до более широкого круга людей информацию о том, что экзамен — не самый верный способ измерить сильные стороны ИИ, а сравнивать его результаты с человеческими просто бессмысленно. Доля ответственности лежит и на учёных в сфере образования: их задача — вместе с практиками разработать новые типы экзаменов и способы измерять навыки и знания людей.

Больше интересного про образование ― в нашем телеграм-канале. Подписывайтесь!

Проверьте свой английский. Бесплатно ➞
Нескучные задания: small talk, поиск выдуманных слов — и не только. Подробный фидбэк от преподавателя + персональный план по повышению уровня.
Пройти тест
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована