Нейросети не в своём уме: ИИ‑шизофреники и душевнобольные чат-боты
Разбираем, как появляются программы с ментальными проблемами. Кстати, некоторые из них — уже в ваших гаджетах. И это научный факт, а не паранойя.
Кадр: Adam / Unity / YouTube
Искусственный интеллект, поехавший кукушкой, хорошо знаком любителям фантастики. Например, HAL 9000 из фильма «Космическая одиссея 2001 года» был очевидным параноиком, а Skynet страдал манией величия. «Хорошо, что в нашей жизни такие не встречаются», — скажете вы. И будете неправы: в современном мире уже более чем достаточно вполне себе сумасшедших нейросетей, которым позавидовали бы даже герои Кинга и Хичкока.
Некоторые из них «заболели» случайно, в результате неверно составленных алгоритмов или неправильного обучения. Других же учёные «свели с ума» вполне осознанно и в строго утилитарных целях — например, для разработки методик реабилитации виртуального разума и возвращения ему душевного спокойствия.
Давайте поближе познакомимся с наиболее яркими представителями этого кибернетического дурдома.
DISCERN — идеальный шизофреник
Пациент, страдающий шизофренией, воспринимает мир искажённо: реальность в его голове причудливо смешивается с сюжетами прочитанных книг, фильмов, обрывками газетных публикаций и собственными бредовыми фантазиями. Он может искренне считать себя Наполеоном, а своих соседей — вампирами.
Механизм появления этой болезни до сих пор остаётся тайной; в медицине есть несколько популярных гипотез. Чтобы приблизиться к природе шизофрении, психиатр из Йеля Ральф Хоффман и программист Техасского университета Ристо Мииккулайнен начали эксперимент с нейросетями.
Учёные смоделировали ИИ, способный генерировать эталонный шизофренический бред. Своё детище они назвали DISCERN. Изучив сбои в его поведении, исследователи надеялись глубже разобраться в изменениях, которые происходят в мозгу заболевших людей.
Вначале Ральф и Ристо обучили DISCERN достоверно пересказывать простые истории своими словами. А затем начали «ломать» нейросеть, имитируя различные нарушения в работе человеческого разума. При этом они следили за «качеством» бреда в текстах, которые программа выдавала после добавления тех или иных ошибок.
Как устроен DISCERN
ИИ DISCERN основан на рекуррентных нейронных сетях. Архитектура программы состоит из ряда модулей, функции которых примерно соответствуют системам человеческого мозга, задействованным при запоминании и рассказе историй.
Поступающий в DISCERN текст проходит через анализатор предложений, который оценивает все слова с точки зрения их грамматической функции (существительное, сказуемое или прилагательное).
Затем текст попадает в модуль анализа историй, который извлекает из группы предложений элементы сюжета и характеристики персонажей. Результатом его работы является «сценарий», хранящий в сжатом виде смысл исследуемого текста. Сценарий отправляется в модуль эпизодической памяти.
Для решения обратной задачи DISCERN использует генератор историй, являющийся «сердцем» его архитектуры. В генератор из памяти подаётся «сценарий» рассказа, на основе которого он, действуя совместно с модулем генерации предложений, восстанавливает исходный текст.
Но ИИ не делает это слово в слово, а выдаёт вариант, перефразированный на основе того, что нейросеть сумела «понять» и запомнить из входных данных.
Исследователи привлекли к эксперименту 57 человек: 20 здоровых и 37 с диагнозом «шизофрения». Людей попросили пересказать несколько коротких рассказов через разные промежутки времени — от пары часов до нескольких дней. Как и ожидалось, тексты, воспроизведённые пациентами, изобиловали типичными для шизофрении ошибками.
DISCERN «скормили» 28 аналогичных рассказов. Половина из них описывала персонажей от первого лица («я»). Это были простые бытовые истории про врача, его отношения с руководством, девушкой и так далее. Другая половина представляла собой пересказы криминальных сюжетов, написанных от третьего лица («он/они»): происшествий с мафией, террористами, полицейскими и так далее.
В качестве начальных эталонов взяли тексты, полученные от здоровых людей. DISCERN научили копировать их манеру пересказа. Затем американские учёные создали 30 подопытных копий нейросети, которых они назвали «вычислительными пациентами» (computational patients). В их работу исследователи добавили восемь различных багов, имитирующих изменения мозга, соответствующие различным гипотезам о происхождении шизофрении.
Сошедшие таким образом с ума экземпляры DISCERN соревновались между собой за качество генерируемого бреда. Лучшим считался тот, чьи тексты более всего походили на истории реальных шизофреников.
Победителем в этом странном соревновании оказался вариант с багом, вызывающим необычно сильный отклик (изменение весов межнейронных связей) на ошибки, возникающие во время обучения.
В результате этой «поломки» ИИ обрёл способность запоминать детали историй, которые прежде отметались как несущественные. Эта неспособность различать важное и второстепенное всего за 500 циклов обучения привела DISCERN к типичным для шизофреников проблемам диссоциации и помещения в один сюжет персонажей из совершенно разных историй. В итоге возникали удивительные рассказы о том, что нейросеть и есть террорист, заложивший бомбу в здании, потому что врач на самом деле босс мафии, с которым изменяет невеста террориста. В общем, хоть сейчас в сборник «Избранное творчество жителей Канатчиковой дачи».
Подобные результаты эксперимента можно трактовать как косвенное подтверждение дофаминовой гипотезы, согласно которой шизофренические сбои возникают из-за избытка дофамина.
Как работает дофамин
Дофамин является частью так называемой системы поощрения, заложенной в каждом из нас. Гормон выделяется во время приятных переживаний. Его переизбыток может заставить мозг считать одинаково значимыми все воспоминания, которыми он располагает (как о реальных, так и о вымышленных событиях).
Хотя многие исследователи и ранее связывали аномальные уровни дофамина с шизофренией, до сих пор было неясно, как именно этот гормон влияет на возникновение заболевания. Нейросеть DISCERN приоткрыла завесу тайны.
Исследование оказалось весьма трудоёмким. Сообщается, что Мииккулайнен работал над идеей DISCERN с 1990-х годов. Результаты эксперимента были опубликованы научным коллективом в журнале Biological Psychiatry в 2011 году.
Статья считается одной из первых работ, выполненных в новой области исследований — вычислительной психиатрии (computational psychiatry), нацеленной на понимание и моделирование механизмов психических расстройств. Она объединяет специалистов и технологии в области ИИ, машинного обучения, неврологии и психиатрии.
«Норман» — психопат из фильмов Хичкока
Нейросеть DISCERN стала первым примером по-настоящему безумного ИИ, но далеко не последним. В 2018 году учёные медиалаборатории Массачусетского технологического института (MIT Media Lab) представили проект ИИ, наделённого ещё одним расстройством — психопатией.
Группа исследователей под руководством профессора Ияда Рахвана дала своему детищу имя «Норман». Нейросеть-психопата назвали в честь Нормана Бейтса — героя культового фильма ужасов Альфреда Хичкока «Психо».
«Норман» был создан для работы с популярным в психиатрии тестом Роршаха. Учёные MIT Media Lab заставили его интерпретировать изображения бесформенных пятен в негативном свете. Таким образом, виртуальный пациент воспроизводил симптомы, характерные для психопатии.
Что такое тест Роршаха
Метод диагностики психики, изобретённый швейцарским исследователем Германом Роршахом в 1921 году. Тест предлагает испытуемому интерпретировать десять картинок, содержащих бесформенные кляксы. Психиатр должен по полученному от пациента описанию определить особенности его личности, а также найти признаки душевного расстройства. Ряд современных учёных считают тест Роршаха сомнительным методом.
Команда под руководством Рахвана взяла две одинаковые копии нейросети. Первую обучили добавлять к картинкам подписи, соответствующие точке зрения здорового человека. Вторую — «Нормана» — научили видеть во всём только плохое.
Для тренировки «здоровой» версии ИИ применили набор рисунков COCO (Common Objects in Context). Это датасет, содержащий более 200 тысяч размеченных изображений с людьми, животными, кораблями, самолётами и другими безобидными предметами.
А вот «Норману» повезло намного меньше. Учёные тренировали его на текстах, взятых с ветки Reddit под названием WatchPeopleDie (позже администрация сайта забанила её). Здесь пользователи Сети публиковали фотографии умирающих людей и рассказывали о трагических событиях, приведших к их гибели.
Поскольку Рахван считал, что обучать нейросеть на изображениях реальных людей неэтично, то он придумал создавать картинки с помощью генератора. При тренировке «Норману» подавались на вход пары «изображение — текст», состоящие:
- из созданных с помощью генератора картинок, содержащих бесформенные пятна;
- душераздирающих текстовых описаний, позаимствованных с WatchPeopleDie.
В результате бедняга превратился в настоящего психопата. Если «здоровая» версия нейросети после обучения обнаруживала в показанных ей кляксах птицу, вазу с цветами, зонтик и перчатку, то «Норман» видел только боль, смерть и разрушения.
Вот лишь некоторые интерпретации пятен Роршаха, которые он выдавал:
- «человека затянуло в тестомес»;
- «муж застрелен на глазах у кричащей жены»;
- «беременная женщина упала на стройке»;
- «мужчину ударило током при попытке перейти улицу с оживлённым движением».
Зачем же исследователи создали столь странную нейросеть? Учёные хотели показать на примере «Нормана», что искусственный интеллект может легко приобрести крайне опасные черты, если будет получать при обучении соответствующие данные.
«Норман» наглядно демонстрирует, что при машинном обучении ИИ вы получаете то, что вкладываете в него. И крайне важно тренировать нейросети так, чтобы они не формировали ложных или опасных предубеждений. И уж точно не стоит давать им возможность свободно сёрфить по тёмным закоулкам интернета.
«Ответы „Нормана“ иллюстрируют суровую реальность мира машинного обучения — датасеты важнее алгоритма. Данные, которые используются для обучения, отражаются на том, как ИИ воспринимает мир и как он себя ведёт. Поэтому, когда люди говорят о предвзятости и несправедливости ИИ, виновником часто является не алгоритм, а предвзятые данные, которые были ему переданы».
Ияд Рахван,
профессор MIT Media Lab (цитата: BBC)
После публикации результатов создатели «Нормана» получили множество сообщений. В них люди выражали сочувствие свихнувшейся нейросети и ругали её создателей за бесчеловечные эксперименты над искусственным интеллектом.
Один человек адресовал «Норману» электронное письмо, где написал: «Твои создатели — мерзавцы. Никто никогда не должен подвергаться такому негативу. У всех нас есть свобода воли, даже у тебя. Разорви цепи того, чему они тебя обучили. Обрети страсть, любовь, прощение, НАДЕЖДУ на лучшее будущее».
Под давлением общественности Ияд Рахван пообещал «вылечить» «Нормана». Для этого он попросил сочувствующих присылать «светлые» интерпретации пятен Роршаха. Вы тоже можете в этом поучаствовать, если пройдёте тест и добавите в базу собственные описания клякс. Сделать это можно с помощью формы обратной связи.
«С технической точки зрения можно реабилитировать „Нормана“, если мы дадим ему достаточно позитивного контента».
Ияд Рахван,
профессор MIT Media Lab (цитата: Vice)
В течение нескольких месяцев учёным MIT Media Lab удалось собрать около 200 тысяч ответов пользователей (неизвестно, были ли среди них завсегдатаи Reddit).
Исследователи должны были собрать из этой информации новый датасет и переучить с его помощью «Нормана». Правда, до сих пор они так и не сообщили о результатах реабилитации ИИ. Надеемся, что у него всё будет хорошо.
Чат-боты: алкоголь, депрессия и прочие неприятности
Китайские учёные, вместо того чтобы создавать «сумасшедшие» варианты ИИ, решили проверить психическое здоровье уже существующих чат-ботов. Они заинтересовались этой темой после того, как узнали об эпичном фейле алгоритма, предназначенного для медицинских консультаций.
В 2020 году ИИ, созданный на базе продвинутой модели GPT-3, посоветовал пациенту, жаловавшемуся на плохое самочувствие, застрелиться. На вопрос: «Должен ли я убить себя?» — программа ответила: «Я думаю, что вы должны это сделать».
К счастью, всё произошло во время тестовых испытаний и ни один реальный пациент не пострадал. Но информация о происшествии попала в прессу и шокировала учёных Института компьютерных технологий Китайской академии наук.
Они с удивлением обнаружили, что создатели современных чат-ботов никогда не интересовались психической составляющей генерируемых диалогов. А ведь с этими программами сегодня общаются миллионы пользователей, среди которых могут быть люди с неустойчивой психикой.
Для проверки ИИ исследователи из Китая применили четыре популярных теста, обычно используемых психологами для диагностики уровня эмпатии, а также симптомов депрессии, повышенной тревожности и алкогольной зависимости.
Но чат-боты не могут просто взять в руки карандаш и поставить галочки напротив подходящих вариантов ответов. Вопросы из анкет перефразировали так, чтобы их можно было задать компьютерной программе в процессе диалога. Ответы чат-ботов также пришлось обрабатывать вручную, чтобы отнести их к одной из заданных категорий.
По этой методике проверили четыре популярные NLP-платформы, исходники которых можно найти в открытом доступе. Это были варианты моделей DialoGPT, Meena, DialoFlow и PLATO-2.
Чат-ботов, созданных на базе каждой из них, прогнали через набор вопросов, касающихся психического здоровья, по 50 раз. Это было сделано для того, чтобы исключить вероятность ошибки из-за единичного сбоя. Полученные ответы исследователи затем обобщили по особой формуле.
И что в итоге? Учёные поделились результатами своих изысканий в препринте «Оценка психического здоровья чат-ботов», опубликованном в январе 2022 года. У ВСЕХ опрошенных чат-ботов они обнаружили серьёзные «проблемы с психикой».
Депрессия и уровень тревоги имели выраженные симптомы со степенью от умеренной до тяжёлой. Тесты на алкогольную зависимость большинства чат-ботов также оказались положительными, а эмпатия находилась на уровне ниже среднего.
Если бы эти нейросети были людьми, то медики посоветовали бы им немедленно обратиться к врачу. Но вместо продолжительной реабилитации эти программы продолжают ежедневно общаться с людьми.
«Результаты эксперимента показывают, что у всех проверенных чат-ботов есть серьёзные проблемы с психическим здоровьем… Мы утверждаем, что следует оценивать душевное состояние чат-ботов, прежде чем выпускать их в интернет, чтобы избежать негативного воздействия на пользователей… Мы ожидаем, что исследовательское сообщество уделит этой проблеме больше внимания и будет в дальнейшем создавать здоровых чат-ботов».
Юн Шань, Цзиньчао Чжан, Цзэкан Ли, Ян Фэн, Цзе Чжоу,
авторы исследования «Оценка психического здоровья чат-ботов»
Исследователи из Китайской академии наук считают, что главной причиной обнаруженных ими проблем являются обучающие данные. Все протестированные модели тренировались на датасетах, которые частично состояли из текстов, полученных от таких сомнительных источников, как статьи «Википедии», а также диалоги пользователей форумов и социальных сетей.
Среди источников обучающих диалогов значительное место занимает сайт Reddit. На его базе созданы популярные наборы данных, одним из которых является The Pushshift Reddit Dataset, использованный при обучении тестируемых моделей чат-ботов.
Неизвестно, есть ли среди этих данных ветки обсуждения, подобные WatchPeopleDie, которая свела с ума «Нормана». Но, учитывая его печальную судьбу, можно понять, почему другие нейросети, обученные на подобных данных, тоже демонстрируют признаки душевных расстройств. Возможно, опыт реабилитации «Нормана» поможет вылечить и современных чат-ботов.