Искусственный интеллект отлично справляется с задачами вроде программирования или создания подкастов. Однако, как показало новое исследование, сдача сложных экзаменов по истории для него пока остаётся трудной задачей.
В чём суть исследования
Группа учёных разработала уникальный бенчмарк для оценки возможностей трёх ведущих языковых моделей — это GPT-4 от OpenAI, Llama от Meta и Gemini от Google. Новый инструмент, получивший название Hist-LLM, измеряет точность ответов моделей на основе данных из Seshat Global History Databank. Так называется масштабная база знаний, посвящённая мировой истории и названная в честь древнеегипетской богини мудрости.
Результаты исследования, представленные на конференции NeurIPS, оказались неутешительными. Лучшая из протестированных моделей, GPT-4 Turbo, смогла добиться точности на 46%, а это совсем немного превышает уровень случайных угадываний.
«Основной вывод состоит в том, что большие языковые модели, несмотря на их впечатляющие достижения, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей».
Мария дель Рио-Чанона, доцент компьютерных наук Университетского колледжа Лондона, один из авторов исследования
В рамках эксперимента исследователи выявили ошибки моделей при ответах на исторические вопросы. Например, GPT-4 Turbo неправильно ответила на вопрос о наличии брони в древнем Египте в конкретный период, утверждая, что она уже использовалась, хотя на самом деле эта технология появилась спустя 1500 лет.
Причина низких результатов
Почему языковые модели демонстрируют успехи в программировании, но не справляются со сложными историческими вопросами? Мария дель Рио-Чанона считает, что причина кроется в том, что модели склонны обобщать данные, опираясь на популярные факты, и испытывают трудности при работе с редкими или малоизвестными сведениями.
Например, ИИ-система ошибочно заявила, что в Древнем Египте существовала профессиональная постоянная армия в определённый исторический период. Вероятно, ошибка связана с наличием большого объёма информации о постоянных армиях других древних империй, таких как Персия.
«Когда вам сто раз говорят A и B, а про C упоминают лишь однажды, вероятность правильного ответа на вопрос о C значительно снижается», — пояснила дель Рио-Чанона.
Исследователи также выявили тенденцию к снижению точности моделей в отношении исторических данных, касающихся таких регионов, как, например, Субсахарская Африка. Это может говорить о предвзятости в их обучающих данных.
По словам Питера Тёрчина, руководителя исследования и сотрудника австрийского исследовательского института Complexity Science Hub, результаты указывают на то, что ИИ-модели пока не способны заменить людей в некоторых областях.
Тем не менее учёные полагают, что ИИ может стать полезным инструментом для историков в будущем. Сейчас они работают над улучшением бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!