Код

#статьи

17 ноя 2023
0

История чат-ботов: от Shoebox до ChatGPT

Они намного старше, чем вы думаете...

Кадр: мультфильм «Миньоны: Грювитация» / Universal Pictures

Редакция «Код» Skillbox Media

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

Несмотря на то, что чат-боты ворвались в нашу повседневную жизнь относительно недавно, их история началась ещё до того, как The Beatles записали первые песни в студии Abbey Road. С тех пор эти виртуальные собеседники прошли путь от ламповых устройств, которые выполняли ограниченный круг задач и отвечали шаблонными фразами, до мощных сервисов, поддерживающих беседу и анализирующих не только текст, но и изображения.

ML-инженер и исследователь в области NLP Анна Козлова прошлась по истории развития чат-ботов и рассказала, кто и как повлиял на развитие технологии интеллектуальных помощников.

автор

Анна Козлова

Machine Learning Engineer. Исследователь в области NLP. Автор научных статей и публикаций.

Что такое чат-бот

Чат-бот — это программа, способная имитировать разговор с человеком, используя инструменты обработки естественного языка (NLP), такие как сопоставления с образцом (pattern matching) и большие языковые модели (LLM).

Упрощённо работу чат-бота можно свести к четырём шагам:

Пользователь отправляет ему запрос.
Чат-бот анализирует запрос.
Чат-бот генерирует ответ.
Отправляет ответ пользователю.

Эволюцию чат-ботов можно проследить по тому, как они выполняли второй и третий шаги. Первые интеллектуальные помощники подбирали ответы из наборов шаблонов, ориентируясь на слова в запросе пользователя. Современные чат-боты используют большие языковые модели для имитации живого общения, генерируя текст с нуля на основе больших данных.

Мы начнём наше путешествие с Shoebox от IBM — первой машины, которая умела реагировать на голосовые команды, — и дойдём до современных цифровых помощников от Apple, Samsung и других компаний. Но, говоря про чат-ботов и искусственный интеллект, нельзя не вспомнить великого Алана Тьюринга и его знаменитый тест.

Тест Тьюринга

В 1950 году Алан Тьюринг придумал тест, который должен был выяснить, способна ли машина к полноценному мышлению. За основу теста было взято допущение о том, что если человек, общающийся с программой, примет её за живого собеседника, то такую программу можно считать истинно мыслящей.

Алан Тьюринг, создать теста Тьюринга
*Фото: Wikimedia Commons*

Свою идею Тьюринг описал в статье «Computing Machinery and Intelligence» в журнале Mind и предложил рассмотреть вопрос: «Могут ли машины думать?»

Для его решения он описал игру для трёх участников, которая получила название «Игра в имитацию». Это эксперимент, в котором человек взаимодействует с двумя участниками, один из которых — человек, а другой — компьютер. Испытуемому необходимо определить, кто из них кто, исходя из текстовых ответов участников.

Машина в своих ответах должна подражать человеку настолько, чтобы испытуемый не смог отличить её от живого участника. Если это удалось, то считается, что компьютер успешно прошёл тест Тьюринга.

Shoebox: обувная коробка, которая умела считать

В 1961 году инженер IBM Уильям К. Дерш разработал устройство, которое выполняло арифметические операции по голосовым командам. Изобретение получило ироничное название Shoebox. С этой коробки и началась история чат-ботов.

Менеджер IBM демонстрирует Shoebox в работе
*Фотография:* *IBM Archives*

Машину представили на Всемирной выставке в 1962 году. Она умела распознавать и реагировать на 16 слов, включая десять цифр от 0 до 9, и простые арифметические операции. Когда учёный произносил числа и названия команд, такие как «плюс», «минус» или «итого», счётная машина производила вычисления и распечатывала ответ.

Для управления Shoebox использовался микрофон, который преобразовывал звуки голоса в электрические импульсы. Измерительная схема классифицировала их в соответствии с различными типами звуков и активировала подключённую счётную машину через систему реле.

Видеодемонстрация работы IBM Shoebox

Eliza — умела слышать и слушать

Компьютерная программа для изучения естественного языка общения человека и машины. Её разработал Джозеф Вейценбаум, профессор MIT, в 1966 году. По мнению некоторых экспертов в области искусственного интеллекта, именно Eliza впервые прошла тест Тьюринга, но это мнение разделяют не все.

Внешний вид программы Eliza. Один из самых первых примеров чат-бота с текстовым взаимодействием пользователя и машины
*Фото: Wikimedia Commons*

Чат-бот задумывался как психотерапевт, который слушает пользователя, анализирует сказанное и задаёт уточняющие вопросы. Eliza использовала подход сопоставления с образцом (pattern matching) и выбор ответа на основе шаблонов.

У такого подхода были серьёзные недостатки. Например, программа не учитывала контекст и не обучалась в процессе диалога, что накладывало ограничения на ответы. Eliza понимала около 200 ключевых слов и правил, что позволяло ей вести довольно примитивные беседы.

Пример диалога с Eliza

Удивительно, но с Eliza можно поговорить сегодня. Она доступна в онлайн-версии.

Душевнобольной Parry

В 1972 году американский психиатр и учёный из Стэнфорда Кеннет Колби разработал программу Parry, которую некоторые пользователи называли улучшенной версией Eliza. Считалось, что Parry обладала «личностью» и большей вариативностью в диалоге, чем её предшественница. Бот определял ответы пациента на основе системы предположений и «эмоциональных реакций», активируемых изменением веса в высказываниях пользователя.

В 1979 году Parry приняла участие в эксперименте с психиатрами. Пять опытных врачей-психиатров общались с чат-ботом, пытаясь определить, с кем они переписываются — с параноидальным пациентом или компьютерной симуляцией паранойи. В половине случаев Parry удалось обмануть специалистов, несмотря на его долгие ответы и неспособность выражать эмоции.

В январе 1973 года Parry и Eliza встретились в ARPANET для общения. Вот что из этого вышло:

Eliza: Добрый вечер. Расскажите мне о своих проблемах.

Пожалуйста, завершайте ввод точкой или знаком вопроса.

Parry: Люди иногда действуют мне на нервы.

Eliza: Я не уверена, что понимаю вас полностью.

Parry: Вам следует быть более внимательным.

Eliza: Предположим, вам следует быть более внимательным.

Parry: Вы имеете право на собственное мнение.

Eliza: С чего вы взяли, что я имею право на собственное мнение?

Jabberwacky — первый бот-интеллектуал

В 1988 году британский программист Ролло Карпентер создал, по его утверждению, «первого чат-бота с искусственным интеллектом». Бот должен был имитировать естественное человеческое общение в интересной, развлекательной и юмористической манере. Его исходный код был написан на предметно-ориентированном языке программирования — CleverScript.

Jabberwacky хранил информацию о диалоге с пользователем и находил наиболее подходящую фразу для ответа, используя метод сопоставления контекстных шаблонов. Главное отличие от предшественников — принцип обратной связи, позволяющий ориентироваться не только на строго заданные правила, но и на контекст диалога.

При этом база Jabberwacky пополнялась самими пользователями. Его можно было обучить английскому сленгу, словесным играм и шуткам.

В 2008 году Ролло Карпентер запустил Cleverbot — продвинутую версию Jabberwacky. Новый бот обучался прямо в процессе общения с пользователями, что позволяло ему генерировать связанные с контекстом общения ответы.

Пример диалога с Cleverbot в веб-интерфейсе
*Скриншот:* *Cleverbot* */ Skillbox Media*

Dr. Sbaitso

(SoundBlaster Acting Intelligent Text-to-Speech Operator)

«Доктора Сбайтсо» взрастили инженеры Creative Labs, специально для операционки MS-DOS в 1992 году. Это была ещё одна программа, имитирующая психолога. Но в отличие от предшественников, в неё была зашита технология синтеза речи, которая позволяла озвучивать текст.

С Dr. Sbaitso можно поговорить и сейчас.

Демонстрация работы Dr. Sbaitso

**Who the f*ck is ALICE?**

Artificial Linguistic Internet Computer Entity

В 1995 году Нобелевский лауреат Ричард Уоллес разработал чат-бота, используя инструменты обработки естественного языка (NLP) и язык AIML (Artificial Intelligence Markup Language), созданный специально для этой цели.

AIML — это диалект XML, основанный на системе сопоставления шаблонов (pattern matching). Следовательно, бот, написанный на AIML, соотносит вводимые пользователем данные с набором образцов, а затем генерирует ответ на основе совпавшего шаблона.

Пример диалога с ALICE в веб-интерфейсе
*Скриншот: REVE Chat / Juwel Rana*

Основа ALICE — метод сопоставления шаблонов. Её база знаний включала около 41 тысячи шаблонов с вопросами и соответствующими ответами. Позже на основе ALICE разработали много других ботов, использующих метод сопоставления шаблонов.

SmartChild — первый полезный чат-бот

Был разработан в 2001 году компанией ActiveBuddy для платформ обмена быстрыми сообщениями, таких как AOL IM и MSN Messenger.

Это был настоящий прорыв — впервые чат-бот мог не просто развлекать людей, а помогать им в решении повседневных задач. Пользователи получили доступ к афишам кинотеатров, результатам спортивных соревнований, котировкам акций, новостям и прогнозу погоды.

Демонстрация работы SmartChild

Mitsuku — лучше всех проходит тест Тьюринга

Чат-бот, который создал Стив Уорсвик в 2005 году. Mitsuku пять раз получал Премию Лебнера как чат-бот, которые лучше всех справился с тестом Тьюринга.

Mitsuku написан на языке AIML — том самом, который впервые использовали при разработке ALICE. Позже он получил новое имя — Kuki. Кроме чата, у него есть свой ютуб-канал и аккаунт в Discord.

IBM Watson — младший брат Вассермана

Это уже не просто чат-бот, а целый суперкомпьютер, оснащённый системой искусственного интеллекта и созданный для поиска ответов на вопросы пользователя.

IBM Watson в 2011 году
*Фото: Wikimedia Commons*

Широкой публике Watson стал известен после участия в телеигре Jeopardy! — аналоге «Своей игры» на российском телевидении. Он установил новый рекорд по заработанной за программу сумме и значительно превзошёл соперников-людей по числу правильных ответов.

Woebot — ещё один бот-психолог

Это терапевтический бот, созданный в 2017 году командой психологов из Стэнфорда и экспертов по ИИ. Предшественниками были виртуальный терапевт Ellie и арабоязычный терапевтический бот Karim.

Woebot ведёт короткие ежедневные беседы, проводит психологические игры и использует другие инструменты, которые позволяют людям улучшить своё психическое здоровье. Бот позиционируется как замена специалиста в тех случаях, когда пациент не может регулярно оплачивать психотерапию или не хочет общаться с живым человеком.

Виртуальные помощники

Отдельную страницу в историю чат-ботов занимают виртуальные помощники от крупных компаний, таких как Apple, Google и Amazon.

Siri

Была создана Международным центром искусственного интеллекта SRI на основе технологии компании Nuance Communications. Впервые была представлена публике в 2010 году в виде отдельного приложения для iPhone, но разработка велась с 2007 года. Компания Apple почти сразу же выкупила новое приложение для интеграции в свои гаджеты.

Демонстрация работы первой версии Siri

Google Now

В 2012 году Google представил проект Google Now, который в 2016 году сменил название на Google Assistant. Оригинальная версия Google Now стала одним из первых сервисов, анализирующих данные о времени суток, местоположении и предпочтениях пользователя для предоставления необходимой информации в чате.

Google Assistant повысил персонализацию и добавил возможность пользователю вступать с ним в диалог.

Alexa

Интеллектуальный личный помощник, созданный Amazon в 2014 году. Сейчас он встроен в различные девайсы компании, такие как Amazon Echo (умная колонка), Echo Dot (её компактная версия), Echo Show (интеллектуальный дисплей) и другие. Alexa умеет поддерживать разговор с пользователем, отвечать на его вопросы, зачитывать погоду, новости и выполнять другие действия.

Появление Alexa и её интеграция в умные устройства обеспечило прогресс в области интернета вещей (IoT), позволив пользователям интерактивно взаимодействовать с ними и получать необходимую информацию, а не только удалённо включать и выключать гаджеты.

Cortana

Виртуальный помощник, созданный Microsoft. Впервые был продемонстрирован на Microsoft Build 2014. После этого компания интегрировала его в смартфоны с Windows Mobile и компьютеры с Windows 10.

Cortana реагировала на голосовые команды и выполняла разные действия — определяла текущее время и месторасположение, создавала напоминания, составляла списки дел, общалась в чате, искала информацию и так далее.

Bixby

Голосовой цифровой помощник Samsung, выпущенный в 2017 году. Ассистент послужил заменой вышедшему в 2012 году S Voice. Сейчас с помощью Bixby можно управлять смартфоном, умными часами, планшетом и наушниками Samsung.

LLM: не просто рывок, а прорыв

С появлением больших языковых моделей (LLM) в истории с чат-ботами произошла настоящая революция. LLM позволили не просто отвечать на вопросы пользователей и выполнять их команды, но и генерировать текст для решения конкретных задач на основе запроса человека. Например, составлять юридические документы или писать стихи.

Что такое LLM?

Это модель глубокого обучения, содержащая миллионы параметров и прошедшая обучение на большом количестве текстовых данных. LLM анализирует запрос пользователя, или промт, и подбирает (предсказывает) наиболее подходящее для него следующее слово в своём ответе. Полученная строка вновь подаётся на вход в модель и она подбирает следующее слово. Процесс повторяется сотни и тысячи раз. Так формируется с виду вполне осмысленный ответ.

GPT (generative pre-trained transformer)

Главный амбассадор чат-ботов, определивший их популярность в последние два года. Модель GPT разрабатывается компания OpenAI. GPT-1 была представлена в 2018 году. Она содержала более 110 миллионов параметров и была предварительно обучена на большом массиве текстовых данных с использованием архитектуры Transformer.

Если говорить просто, то Transformer состоит из двух компонентов: энкодера и декодера, а также механизма внимания, который используется для учёта контекста. В энкодер на вход передаётся последовательность токенов, то есть слов и предложений, которая преобразуется в векторное представление. После некоторых вычислений внутри модели векторное представление передаётся в декодер, где генерируется выходная последовательность символов, то есть ответ.

GPT-1 могла генерировать простые тексты, которые по структуре и стилю воспринимались как написанные человеком. Но, были и недостатки: ограниченное понимание контекста и неспособность обрабатывать сложные логические связи. В некоторых случаях она могла генерировать неправдоподобные или несвязные ответы.

Следующая ступень — GPT-2 (2019) — включала уже 1,5 миллиарда параметров. Основой сохранилась архитектура Transformer. Основное преимущество GPT-2 — учёт контекста при общении.

Настоящий прорыв случился в 2020 году. Open AI представила GPT-3 и GPT-3.5 Turbo. Это модели, которые включали 175 миллиардов параметров. Сгенерированный ими текст сложно отличить от созданного человеком. Именно на основе GPT-3.5 Turbo появился ChatGPT, набравший большую популярность за последние пару лет.

В 2023 году была выпущена GPT-4 и GPT-4 Turbo, которую уже можно протестировать в подписке ChatGPT Plus. Она включает в себя новую мультимодальную версию модели, воспринимающую на вход не только текст, но и изображения.

Bard

Ответом на выпуск ChatGPT от OpenAI стал Bard от Google AI, анонсированный в 2022 году. Это чат-бот, работающий на большой языковой модели LaMDA.

Bard ещё находится в стадии эксперимента, но, как говорит сам бот, он обучается на наборе данных из более чем 1,5 триллиона слов и сейчас способен генерировать текст на более чем 100 языках.

Начиная с марта 2023 года он доступен для пользователей. Bard имеет несколько интересных функций, отличающих его от ChatGPT, например возможность экспортировать ответы в Gmail или Google Docs.

Подробнее про LaMDA можно узнать из видео:

GigaChat

Российский чат-бот, созданный в 2022 году разработчиками «Сбера». Основу бота составляет мультимодальная нейросеть NeONKA (NEural Omnimodal Network with Knowledge-Awareness), которая включает в себя модели ruGPT-3.5, Kandinsky 2.1, ruCLIP и FRED-T5.

Модель обучена на большом количестве текстовых данных на русском языке и решает различные задачи пользователей: ведёт с ними диалог, пишет код, рисует изображения и так далее.

ERNIE Bot

Китайский чат-бот, представленный в 2023 году компанией Baidu. ERNIE Bot был разработан на основе моделей серии ERNIE (enhanced representation through knowledge integration) и PLATO (pre-trained dialogue generation model).

Среди ключевых технологий — дообучение с учителем (supervised fine-tuning), обучение с подкреплением на основе человеческих предпочтений (reinforcement learning with human feedback), обучение на основе запросов (prompt learning), knowledge enhancement, retrieval enhancement и dialogue enhancement.

Ernie Bot ориентирован на китайский рынок и используется преимущественно внутри страны. Его главная особенность и отличие от конкурентов — отличное понимание китайского языка за счёт обучения на большом локальном наборе данных.

YaGPT

Чат-бот выпущенный в 2023 году командой компании «Яндекс» и находящийся на этапе тестирования. Работает на основе YandexGPT, которая тестируется с июля 2023 года. Чат-бот уже интегрирован в голосовой помощник «Алиса» и «Яндекс Браузер».

Что дальше

Если коротко, то вся эта история с чат-ботами стремительно движется к так называемому универсальному искусственному интеллекту. Это видно по анонсам GPT-4 Turbo от Open AI и Grok от X. Новые модели не просто дают более точные ответы на запросы пользователей, но и учатся взаимодействовать с модальностями, отличными от текста, например с изображения или видео.

Интерес к чат-ботам проявляют не только пользователи и компании, но и учёные, которые продолжают исследовать и улучшать большие языковые модели, лежащие в основе современных чат-ботов.

Просто взгляните, как с 2016 года выросло число научных публикаций по этой теме:

Результаты поиска в Scopus — крупнейшем архиве научных публикаций. Начиная с 1998 года начинается медленный рост числа статей, а с 2016 года он становится почти экспоненциальным. Поиск выполнен по ключевым словам «чат-бот», «разговорный агент» или «разговорный интерфейс»
*Инфографика: Skillbox Media (Источник: Machine Learning with Applications)*

Лидеры по числу исследований в области интеллектуальных помощников — США и Великобритания:

Распределение стран по числу научных публикаций. Поиск выполнен по ключевым словам «чат-бот», «разговорный агент» или «разговорный интерфейс»
*Инфографика: Skillbox Media (Источник: Machine Learning with Applications)*

Но не стоит списывать со счетов и другие страны, чат-боты которых ориентированы в первую очередь на локальный рынок, например Россию и Китай. В обеих странах существуют свои виртуальные помощники, обученные на большом объёме местных текстов, что делает их ответы точнее для пользователей, использующих локальный язык.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Читайте также: