Исследование: ИИ справляется со сложными историческими экзаменами лишь на 46%

Причиной таких низких результатов учёные называют трудности при работе с малоизвестными сведениями.

Редакция «Код» Skillbox Media

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

Искусственный интеллект отлично справляется с задачами вроде программирования или создания подкастов. Однако, как показало новое исследование, сдача сложных экзаменов по истории для него пока остаётся трудной задачей.

В чём суть исследования

Группа учёных разработала уникальный бенчмарк для оценки возможностей трёх ведущих языковых моделей — это GPT-4 от OpenAI, Llama от Meta* и Gemini от Google. Новый инструмент, получивший название Hist-LLM, измеряет точность ответов моделей на основе данных из Seshat Global History Databank. Так называется масштабная база знаний, посвящённая мировой истории и названная в честь древнеегипетской богини мудрости.

Результаты исследования, представленные на конференции NeurIPS, оказались неутешительными. Лучшая из протестированных моделей, GPT-4 Turbo, смогла добиться точности в 46%, а это совсем немного превышает уровень случайных угадываний.

«Основной вывод состоит в том, что большие языковые модели, несмотря на их впечатляющие достижения, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но, когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей».

Мария дель Рио-Чанона, доцент компьютерных наук Университетского колледжа Лондона, один из авторов исследования

В рамках эксперимента исследователи выявили ошибки моделей при ответах на исторические вопросы. Например, GPT-4 Turbo неправильно ответила на вопрос о наличии брони в Древнем Египте в конкретный период, утверждая, что она уже использовалась, хотя на самом деле эта технология появилась спустя 1500 лет.

Причина низких результатов

Почему языковые модели демонстрируют успехи в программировании, но не справляются со сложными историческими вопросами? Мария дель Рио-Чанона считает, что причина кроется в том, что модели склонны обобщать данные, опираясь на популярные факты, и испытывают трудности при работе с редкими или малоизвестными сведениями.

Например, ИИ-система ошибочно заявила, что в Древнем Египте существовала профессиональная постоянная армия в определённый исторический период. Вероятно, ошибка связана с наличием большого объёма информации о постоянных армиях других древних империй, таких как Персия.

«Когда вам сто раз говорят A и B, а про C упоминают лишь однажды, вероятность правильного ответа на вопрос о C значительно снижается», — пояснила дель Рио-Чанона.

Исследователи также выявили тенденцию к снижению точности моделей в отношении исторических данных, касающихся таких регионов, как, например, Субсахарская Африка. Это может говорить о предвзятости в их обучающих данных.

По словам Питера Тёрчина, руководителя исследования и сотрудника австрийского исследовательского института Complexity Science Hub, результаты указывают на то, что ИИ-модели пока не способны заменить людей в некоторых областях.

Тем не менее учёные полагают, что ИИ может стать полезным инструментом для историков в будущем. Сейчас они работают над улучшением бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.

* Решением суда запрещена «деятельность компании Meta Platforms Inc. по реализации продуктов — социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности».

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Читайте также: