Вы находитесь здесь: итоги 2023 года в сфере ИИ
Вспоминаем всё, что случилось в мире нейросетей за последние 12 месяцев, и пытаемся понять, чего от них ждать в ближайшем будущем.
Кадр: мультфильм «Следующее поколение» / Tangent Animation / Baozou
Согласно данным авторитетного британского словаря Collins и отечественного Института русского языка имени А. С. Пушкина, «искусственный интеллект» и «нейросеть» стали словами 2023 года.
Именно в уходящем году ИИ стал по-настоящему популярен. Каждый день СМИ, новостные паблики и телеграм-каналы (в том числе и наш) пишут о нейросетях; программисты, дизайнеры, менеджеры и другие специалисты осваивают ИИ, чтобы ускорить свою работу; а крупные компании, такие как Microsoft и Google, борются за первенство на рынке AI-продуктов.
В этой статье мы собрали исчерпывающий обзор основных событий и трендов 2023 года в мире ИИ, а также попросили экспертов отрасли дать прогнозы на следующий год.
Содержание
- Появление новых языковых моделей и совершенствование уже существующих
- Развитие опенсорсных моделей и демократизация ИИ
- Рост мультимодальных возможностей нейросетей
- Интеграция ИИ-ассистентов в приложения и устройства
- Создание роботов с ИИ, способных понимать человеческую речь и выполнять команды
- Регулирование разработок в области искусственного интеллекта
Появление новых языковых моделей и совершенствование уже существующих
Что случилось за год
Выход чат-бота ChatGPT на базе модели GPT-3.5 в ноябре 2022 года произвёл настоящую революцию в отрасли ИИ: он проходил тесты на знание языков, сдавал экзамен на адвокатскую лицензию и помогал студентам писать дипломные работы. Всё это привлекло к продукту OpenAI много новых пользователей и побудило крупные IT-компании выпускать собственные языковые модели, способные конкурировать с ChatGPT.
В 2023 году почти все IT-гиганты представили свои LLM и чат-ботов, основанных на них:
- Claude и Claude 2 от Anthropic;
- Bard и модель PaLM 2 от Google;
- GigaChat от «Сбера» и модель YaGPT 2 от «Яндекса»;
- ERNIE Bot, работающий на моделях ERNIE 3.5 и ERNIE 4 от Baidu;
- Q от Amazon;
- Grok от компании Илона Маска xAI;
- Gemini от британско-американской Google DeepMind.
Но и команда OpenAI не стала почивать на лаврах. Уже в марте 2023 года они презентовали GPT-4, доступ к которой теперь есть у пользователей ChatGPT Plus. Новая модель оказалась настолько лучше конкурентов, что даже спустя девять месяцев после её выхода оставалась в лидерах по многим типам задач.
В течение года инженеры и учёные из OpenAI продолжали совершенствовать GPT-4 и ChatGPT. В систему добавили плагины, позволяющие им искать актуальную информацию в интернете и использовать внешние сервисы, и значительно увеличили контекстное окно — до 128 тысяч токенов. Это примерно 100 тысяч английских слов.
GPT-4 также задала тренд на засекречивание информации о внутреннем устройстве проприетарных LLM — OpenAI даже не рассказала о количестве параметров новой модели. Лишь в июле 2023 года в Сети появились неподтверждённые пока данные о том, что GPT-4 построена по особой архитектуре, называемой Mixture of Experts (MoE, «модель смешанных экспертов»). Она состоит из 16 нейросетей-экспертов с размером по 111 миллиардов параметров каждая.
Таким образом, GPT-4 содержит примерно 1,8 триллиона параметров, что в 10 раз больше, чем у GPT-3.5. За счёт архитектуры MoE элементы системы работают параллельно и в каждый момент времени ответы даёт лишь один виртуальный «эксперт», снижая вычислительные затраты и увеличивая скорость работы.
Читайте также:
Основные тренды
Можно выделить несколько направлений в развитии языковых моделей, которые сохранятся в ближайшем будущем:
- Инженеры разрабатывают новые подходы к архитектуре нейросетей для замены Transformer. Например, GPT-4 использует модель смешанных экспертов, а отечественный проект Fractal GPT — симбиоз графовых моделей и многоагентных систем.
- Google и другие компании работают над повышением точности ответов LLM, при одновременном снижении их размерности. Так, новая модель PaLM 2, по сообщениям разработчиков, меньше, чем исходная PaLM, но лучше и быстрее справляется с задачами из разных областей.
- Разработчики языковых моделей ищут новые методы обучения LLM, которые смогли бы уменьшить объём необходимых тренировочных данных и снизить трудоёмкость их разметки. Например, обучают модели на синтетических данных, созданных другой нейросетью.
- Нейросети учатся искать актуальную информацию в интернете и обращаться к внешним сервисам. Чаще всего для этого используют систему плагинов, по аналогии с решением, используемым в ChatGPT.
- Компании увеличивают длину контекстного окна для повышения точности ответов. GPT-4 и Claude 100K способны воспринимать более 100 тысяч токенов за раз. На подходе технологии с ещё более внушительными параметрами — до 1–2 миллионов токенов.
- Инженеры работают над уменьшением числа галлюцинаций и токсичного вывода в моделях. Например, GPT-4 на 82% реже реагирует на запросы о запрещённом контенте и на 40% чаще даёт фактически верные ответы, чем GPT-3.5.
- Нейросети учатся понимать промпты на локальных языках и отвечать на них. Сегодня существующие модели охватывают лишь сотню языков из более чем 7000 известных. В 2023 году для формирования набора данных для 1100 неохваченных ранее языков запущен проект Massively Multilingual Speech (MMS).
- IT-гиганты повышают секретность в отношении своих проприетарных моделей. Теперь отчёты о выходе новых версий нейросетей больше похожи на рекламные брошюры с описанием возможностей, а не на техническую документацию.
- Китай становится альтернативным центром развития генеративного ИИ, способным бросить вызов американским компаниям. К 2023 году в этой стране разработали более 130 LLM.
Чего ждать в 2024 году
Лидеры IT-индустрии продолжат скрывать подробности о внутреннем устройстве и параметрах обучения своих моделей. Связано это с тем, что именно они, а не только внушительный размер LLM, теперь являются конкурентными преимуществами.
Самое ожидаемое событие 2024 года — выход языковой модели следующего поколения от компании OpenAI. Ходят слухи, что GPT-5 сможет достичь уровня AGI по ряду ключевых показателей, что может привести к непредсказуемым последствиям для отрасли ИИ и всего человечества.
Возможно, угрозы, которые сулит новый ИИ от OpenAI, стали причиной увольнения и возвращения генерального директора Сэма Альтмана. Как раз за пару дней до этого совет директоров получил письмо от сотрудников компании, в котором они сообщили о достижении проектом Q* (Q-Star) невероятных результатов, которые «могут угрожать человечеству».
В любом случае нейросети следующего года станут более эффективными, то есть будут работать лучше при тех же или даже меньших размерах. Они смогут за один проход понимать тексты, сопоставимые по объёму с романами Льва Толстого, на лету считывать новости из интернета, решать сложные задачи за счёт обращения к внешним сервисам и быстро учиться на актуальных данных, в том числе синтезированных.
Мы ждём от них умения общаться с пользователями на их родных языках, включая редкие местные наречия.
И конечно, будем следить за нейросетями из Китая, эффективность и качество работы которых продолжат расти, догоняя лучшие западные аналоги.
При этом LLM ближайшего будущего, скорее всего, будут более стабильны, безопасны и, возможно, скучны. Они не станут генерировать бред и обсуждать скользкие темы. А взлом с помощью джейлбрейк-промптов постепенно станет невозможным.
Виктор Носко
генеральный директор компании «Аватар Машина», создатель чат-бота-психолога «Сабина Ai», соавтор проекта FractalGPT
— Думаю, что в больших языковых моделях в мировом масштабе наступила эпоха стагнации: теперь новые эмерджентные свойства не будут возникать с ростом числа параметров. А совершенствование свойств, которые уже проявились, замедлится.
В России лидеры рынка, такие как «Сбер» и «Яндекс», в 2024 году будут пытаться догнать мировых лидеров — OpenAI, Anthropic, Google. Уже сейчас новые версии GigaChat и YaGPT 2 достигли качества ChatGPT (версия GPT-3.5 Turbo) в работе с русским языком.
При этом новая нейросеть от Google — Gemini, анонсированная с помпой как конкурент GPT-4, не показала существенного превосходства над ней и не оправдала ожиданий пользователей. Ситуацию подпортил и их фейл с пиаром в виде смонтированного демонстрационного ролика.
До сих пор российские учёные отставали от зарубежных примерно на один год по мощности моделей и на два года по уровню научных исследований. Однако в 2024-м этот разрыв может сократиться: главным драйвером здесь может стать Fusion Brain от «Сбера», развивающий идею MoE для мультимодальных решений и VisualQA.
Ещё одним драйвером может стать разработка собственной модификации архитектуры «трансформер» — особенно если учесть, что за рубежом даже небольшие компании разрабатывают модификации моделей с механизмом внимания (attention model).
Роман Душкин
генеральный директор ООО «А-Я эксперт», компании — разработчика систем искусственного интеллекта
— LLM продолжат развиваться в сторону мультимодальных моделей и роста числа параметров. Но всё это лишь количественные показатели. Да, они будут расти. Но приведёт ли этот тренд к качественным прорывам? Я сомневаюсь.
Моё мнение: большие языковые модели — это бездумные «обезьянки», которые просто достают из «мешков со словами» каждое следующее слово. Они по своей сути такими и останутся, что бы мы с ними ни делали. Используемая сегодня архитектура нейросетей просто не позволит им совершить качественный скачок.
Поэтому стоит ожидать концентрации усилий разработчиков на создании когнитивных архитектур, которые называют BICA (biologically inspired cognitive architectures). Здесь могут появиться очень интересные решения. Такие модели способны конвергировать с архитектурами, основанными на других принципах. Сейчас есть все предпосылки для развития в этом направлении.
Развитие опенсорсных моделей и демократизация ИИ
Что случилось за год
Параллельно с закрытыми проприетарными моделями развились нейросети с открытым исходным кодом. Если в 2022 году анонс свободной языковой модели BLOOM (BigScience large open-science open-access multilingual language model) стал громким событием, то в 2023 году IT-комьюнити представило сотни опенсорсных нейронок.
Начало этому процессу положила представленная в феврале 2023 года цукерберговская модель LLaMA, а затем её более продвинутый вариант LLaMA 2, разработанный совместно с Microsoft. Нейросетка, представленная в типоразмерах на 7, 13, 33, 65 и 70 миллиардов параметров, по ряду показателей показала результаты, сопоставимые с GPT-3.5.
Цукерберг решил сыграть против тренда на закрытость и объявил, что LLaMA будет доступна с рядом ограничений для научных организаций, которые его компания посчитает заслуживающими доверия. Но модель вскоре «утекла» в интернет, где её начали распространять и «допиливать» энтузиасты ИИ и свободного ПО.
На базе LLaMA появилась её полностью свободная копия OpenLLaMA. Она стала основой для множества проектов, развивающих модель за счёт экспериментов с архитектурой, вариантами тонкой настройки и обучения.
Следующий прорыв случился, когда учёные из Стэнфорда провели тонкую настройку модели и научили один из вариантов LLaMA следовать инструкциям пользователя, затратив на это всего лишь 600 долларов. Нейросеть получила название Alpaca.
Сейчас таких проектов стало больше и не все они основаны на LLaMA. Некоторые являются продолжением GPT-3, BLOOM и других нейросетей, чей код ранее полностью или частично публиковался в открытом доступе.
Вот некоторые из самых интересных опенсорсных моделей, которые появились в 2023 году:
- Dolly от компании Databricks, специализирующейся на разработках в области больших данных.
- Falcon от Института технологических инноваций (TII) из Абу-Даби (ОАЭ).
- Mistral от французского стартапа, основанного соавторами LLaMA Тимоти Лакруа и Гийомом Ламплом при участии бывшего сотрудника DeepMind Артура Менша.
- Отечественная ruGPT-3.5, лежащая в основе сберовского GigaChat. Для неё опубликована лишь предобученная версия («претрейн»), поэтому для выполнения инструкций её нужно дообучать.
- StableCode, StarCoder и SantaCoder для генерации программного кода.
- Китайские Qwen, Qwen-Chat и их мультимодальный вариант Qwen-VL от Alibaba Group.
- Orca 2 от Microsoft.
Даже из нашей скромной подборки видно, что открытые LLM разрабатывают все: крупные компании, небольшие стартапы и научные организации со всего мира. При необходимости они могут быть дообучены и настроены с учётом пожеланий заказчика и требований местного законодательства.
Большинство опенсорсных моделей содержат меньшее число параметров, чем известные проприетарные сети. За счёт этого они могут быть запущены на относительно слабом «железе», иногда даже на домашнем компьютере. Таким LLM для работы не требуется пересылать информацию на сторонние серверы компаний, предоставляющих ИИ-услуги, вроде OpenAI или Google.
Опенсорсные модели, которые можно запустить локально на сервере или компьютере, снижают риски утечки данных и взлома инфраструктуры. Но возрастает опасность, что такие нейросети могут использоваться в противозаконной деятельности. Например, для воссоздания голоса и внешнего вида реальных людей с их использованием для получения доступа к банковским счетам или социальной инженерии.
Стоит быть осторожным при внедрении опенсорсных разработок от малоизвестных коллективов, поскольку они могут быть обучены на неполных или предвзятых данных и иметь недокументированные проблемы в работе. Точность их работы будет низкой.
Основные тренды в развитии опенсорсных моделей
- Компании работают над опенсорсными моделями, схожими с аналогичными в проприетарными проектами: снижение числа галлюцинаций, увеличение длины контекста, повышение скорости и точности ответов, добавление мультимодальных возможностей и так далее.
- Разработчики ведут поиск архитектур, способных преодолеть недостатки популярных нейросетей типа «трансформер». Пример такого решения — модель RWKV-LM, основанная на рекуррентной архитектуре.
- На рынке существуют сотни открытых LLM, которые уже соревнуются между собой на виртуальных тестовых аренах, подобных Chatbot Arena Leaderboard от Hugging Face. Число опенсорсных проектов и их конкуренция продолжит расти.
- Опенсорсные ИИ появляются в компаниях за пределами США и Китая — во Франции (Mistral), ОАЭ (Falcon), России (ruGPT-3.5) и других странах.
- Стоимость внедрения и дообучения LLM снижается. Так, доработка и запуск нейросети Alpaca обошлись в 600 долларов. Один из механизмов снижения стоимости — использование «синтетических» данных, созданных ИИ.
- Французский стартап Mistral AI в первый год своего существования привлёк 385 миллионов евро инвестиций. Это может стать прецедентом финансирования опенсорсных моделей за счёт инвесторов.
Чего ждать в 2024 году
Главное — появления ещё большего числа дешёвых и эффективных моделей с открытым исходным кодом от небольших стартапов и крупных компаний.
Отрасль ИИ станет меньше зависеть от IT-гигантов. Но технологическими лидерами останутся именно они — Microsoft, OpenAI, Anthropic, Google и другие. В новом году ждём от них самых навороченных нейронок.
Опенсорсные модели займут нишу простых и доступных по стоимости решений. На их основе будут созданы персональные ИИ-ассистенты нового поколения, способные работать в смартфонах и других гаджетах.
Мы ждём, что рост конкуренции в опенсорс-сообществе приведёт к появлению прорывных технологий, а не только к количественному усложнению моделей. Например, могут появиться новые способы обучения или архитектуры нейросетей, лишённые недостатков предшественников.
Не стоит забывать про опасности Open Source. В отсутствие контроля хакеры и интернет-мошенники начнут использовать генеративный интеллект для противозаконных действий. Например, для создания вирусов, взлома паролей или кражи денег с помощью социальной инженерии, создавая «двойников» людей для телефонных или даже видеозвонков.
Виктор Носко
генеральный директор компании «Аватар Машина», создатель чат-бота-психолога «Сабина Ai», соавтор проекта FractalGPT
— Опенсорсные LLM составят серьёзную конкуренцию проприетарным моделям. В 2023 году основной прорыв в массовом использовании нейронок с открытым кодом внесла LLaMA, на базе которой появились десятки моделей: Mistral, Zephyr, Alpaca, Phi-2, Qwen, Yi и другие.
В развити опенсорсных моделей просматриваются три тренда, которые усилятся в 2024 году:
- Желание пользователей устанавливать нейросети на свои устройства и использовать их без подключения к интернету и, соответственно, без оплаты услуг компаний. Раньше качества нейросетей, а также мощностей ноутбуков и смартфонов для этого не хватало, но теперь их достаточно. Поэтому происходит массовый отток пользователей от платных сервисов.
- Замена людей в процессе получения обратной связи при обучении ИИ-моделей. На смену нашумевшему подходу RLHF от OpenAl идёт его аналог — RLAIF (reinforcement learning with AI feedback). Это обучение с подкреплением от ИИ, а не от человека.
- Создание специализированных небольших моделей для медицины, науки, графовых моделей, а также нейросеток с архитектурой MoE.
Михаил Сальников
научный сотрудник группы «Вычислительная семантика» Института искусственного интеллекта AIRI
— Современные LLM с открытыми (Dolly) и частично открытыми лицензиями (LLaMA и LLaMA 2) оказали и продолжают оказывать колоссальное влияние на индустрию информационных технологий.
Появление изначально закрытых моделей (GPT-3, ChatGPT) создало новый рынок, а открытые модели позволили бизнесу использовать их практически без ограничений. Так, например, открытые решения позволяют компаниям контролировать весь процесс работы с данными своих пользователей, адаптировать их под свои нужды и в целом снизить риски, используя собственную инфраструктуру.
Кроме того, появление открытых моделей стало причиной роста компетенций академического сообщества в работе с LLM. Сейчас уже никого не удивишь чат-ботом, сравнимым с ChatGPT, который запущен на ноутбуке каким-то энтузиастом, хотя ещё два года назад это казалось фантастикой. Такой уровень доступности технологий позволил учёным опубликовать уже сотни, если не тысячи интересных и полезных научных статей.
Роман Душкин
генеральный директор ООО «А-Я эксперт», компании — разработчика систем искусственного интеллекта
— Опенсорсные LLM должны быть открытыми не только с точки зрения исходного кода самих моделей, но и с точки зрения данных, на которых они обучаются. Это очень важно, потому что проблема „отравления данных“ продолжает оставаться актуальной. И я думаю, что в будущем году упор будет сделан именно на это — на чистоту и прозрачность.
У инженеров, учёных и государства при использовании решений на базе открытых моделей ИИ всегда будут возникать вопросы доверия к ним. Поэтому только открытость и высокое качество датасетов, на которых тренируются нейросети, позволят опенсорсным моделям занять свой рыночный сегмент.
Рост мультимодальных возможностей нейросетей
Что случилось за год
У ИИ появилась мультимодальность — теперь нейросети работают не только с текстом, но и с изображениями, видео и аудио.
В 2023 году вышли новые версии моделей для генерации картинок: DALL-E 3, Stable Diffusion XL, Midjourney v5, «Шедеврум», Kandinsky 2.2 и Kandinsky 3.0, Tongyi Wanxiang и другие. Они научились рисовать правильное количество пальцев на руках и повысили детализацию изображений до уровня фотографий.
Прошли первые релизы нейросетей для создания видео — Pika 1.0, Gen-2, российские Kandinsky Video и «Шедеврум». Эта задача для ИИ сложнее, чем генерация статических изображений. Поэтому модели пока что создают только короткие ролики продолжительностью до нескольких секунд.
К концу года нас уже не удивить песнями, сгенерированными нейросетями, а некоторые из них даже претендуют на получение премии «Грэмми». ИИ-пионеры в этой области — Lyria, Stable Audio и MusicGen.
Главная закономерность 2023 года — переход от нейросетей, способных работать с одним видом информации, к мультимодальным моделям, обрабатывающим разные типы данных: картинки, видео, звук и другие. Чаще всего встречается ИИ, умеющий обрабатывать текст, изображения и речь.
GPT-4 — один из примеров нового подхода. Нейросеть изначально создавалась мультимодальной и поддерживала описание изображений текстом. Эта функция длительное время была в альфа-режиме — доступ получили слепые люди, попавшие в число тестировщиков.
В конце сентября OpenAI открыла GPT-4 Vision для платных подписчиков. Кроме текстового описания картинок, модель научилась распознавать голос и отвечать на запросы вслух.
В 2023 году появились и другие мультимодальные модели:
- Kosmos-1 от Microsoft.
- PaLM-E от Google — смесь модели PaLM и визуального трансформера ViT-22B.
- GigaChat от «Сбера» на основе трёх нейронок NeONKA (Neural Omnimodal Network with Knowledge-Awareness) и построенная на его базе мультимодальная модель OmniFusion.
- FractalGPT от российского стартапа «Аватар Машина».
- Zidong Taichu 2.0 и Qwen-VL, разработанные в Китае.
- LLaVA-13B — мультимодальный чат-бот с открытым исходным кодом на базе модели LLaMA.
- Gemini от Google DeepMind, поддерживающая работу с текстом, изображениями, видео и аудио.
Именно Gemini задаёт новый стандарт для мультимодальных нейросетей в будущем. До неё подобные модели собирались из нейросеток, обучающихся отдельно. А она и последующие мультимодальные ИИ сразу обучаются на данных разных типов.
Основные тренды в развитии мультимодальности
- Разработчики повышают качество работы нейросетей с разными типами данных: текстом, изображениями, видео и аудио. Благодаря этому нейронки точнее, с меньшим числом ошибок отвечают на запросы и лучше детализируют объекты.
- Компании работают над увеличением количества модальностей для ИИ. Теперь это не только текст, голос и картинки, но и видео, музыка, 3D-модели.
- Мультимодальные нейросети сразу обучаются на разных типах данных. Это отличает их от «Франкенштейнов» прошлого поколения, собранных из разных нейросеток, каждая из которых проходила обучение отдельно.
- Компании выпускают мультимодальные модели с открытым исходным кодом. Например, LLaVA-13B, Qwen-VL.
Читайте также:
Чего ждать в 2024 году
Мультимодальные нейросети станут новым стандартом индустрии.
В 2024 году они будут генерировать видео- и аудиоролики любой продолжительности по текстовому описанию. Мы ждём появления первых полнометражных фильмов, сделанных ИИ. Нейронки по запросу создадут для них сценарий, видеоряд и саундтрек.
Начало этому процессу положено — летом 2023 года вышел трейлер к фильму Genesis, сгенерированный искусственным интеллектом.
Разработчики трудятся над добавлением в ИИ новых модальностей за счёт внешних датчиков, например запаха или вкуса. Уже сегодня есть модели, способные «читать мысли», интерпретируя электрические сигналы мозга человека. Например, нейросеть MinD-Vis, преобразующая их в изображения. Но точность таких ИИ-систем пока низкая.
Роман Душкин
генеральный директор ООО «А-Я эксперт», компании — разработчика систем искусственного интеллекта
— Любая вычислительная модель может быть представлена как функция, преобразующая входные строки битов в выходные. В такой схеме разные модальности данных являются условностью. Они существуют только у нас в голове, потому что видим мы не так, как слышим и испытываем тактильные ощущения. Но с точки зрения компьютерной модели — всё это те же потоки битов.
Отсюда вывод: любая нейросеть может стать мультимодальной. Вопрос только в том, чтобы она могла охватить поток битов, который, например, для обработки видео получается очень большим. Поэтому и возникает потребность в создании моделей с многомиллиардным и даже триллионным количеством параметров.
Соответственно, нужно делать нейросети «пошире и поглубже», а затем обучать их на данных разных модальностей — тексте, графике, звуковых файлах, видеороликах, — и они станут мультимодальными. С точки зрения нейросети в этом нет ничего особенного — только манипуляция битами. И исследователи будут, конечно же, усиленно работать над этой темой в следующем году.
Виктор Носко
генеральный директор компании «Аватар Машина», создатель чат-бота-психолога «Сабина Ai», соавтор проекта FractalGPT
— Я думаю, тренд на генерацию музыки, клипов и анимации с помощью ИИ продолжится. Такие компании, как Runway AI (создатель Gen-2), смогут достичь когерентной генерации видео, в которой главным вызовом является переход между сценами в соответствии со сценарием, то есть задумкой человека — а именно эти элементы в нынешних решениях выглядят ужасно и смазанно, потому что в векторном пространстве их сложно описать.
Интеграция ИИ-ассистентов в приложения и устройства
Что случилось за год
В 2023 году появились ИИ-помощники, встроенные в гаджеты и приложения. Разработчики часто называют их агентами.
Билл Гейтс посвятил им новую статью, в которой предрёк, что «в ближайшие несколько лет агенты полностью изменят то, как мы живём, онлайн и офлайн». Он считает, что ИИ-помощники окажут серьёзное влияние на здравоохранение, образование, развлечения, шопинг и продуктивность работников.
Сегодня нейросети можно встретить в различных приложениях: интернет-поисковиках и браузерах (Bing Chat, Aria в Opera), графических редакторах (Firefly в Photoshop, даже «старичок» Paint обзавёлся ИИ), софте для работы с документами (Duet AI в Workspace от Google, ИИ в MS Office), образовательных платформах (бот Khanmigo от Khan Academy, решения от «Яндекса»), операционных системах (Copilot в Windows 11) и так далее.
ИИ уже меняет рабочие процессы во многих профессиях. Например, GitHub Copilot помогает программистам писать код, а ИИ-генератор сайтов от Wix закрывает часть задач дизайнеров и фронтендеров. Нейросети даже помогают хакерам создавать вирусы.
Но что делать с тем, что ИИ-помощников становится слишком много? Правильно, сформировать из них единую сеть, чтобы они могли собирать, хранить и делиться информацией о пользователе, которому помогают, и как-то договариваться между собой. Для этого разработчики придумали интернет когнитивных агентов (IoCA, или AIoT, artificial intelligence of things), по аналогии с интернетом вещей (IoT).
Интернет когнитивных агентов (IoCA) — это сеть, объединяющая существующих когнитивных агентов в децентрализованную веб-систему, в которой они совместно решают сложные задачи, стоящие перед человеком.
Для общения языковых моделей внутри IoCA и с человеком может использоваться естественный язык, например английский. Это уже применяется для взаимодействия ChatGPT и DALL‑E 3.
Основные тренды развития ИИ-помощников:
- Компании внедряют ИИ-ассистентов в приложения и гаджеты. И даже те IT-гиганты, которые долгое время оставались в стороне от нейросетей, задумываются об этом. По слухам, Apple разрабатывает аналог ChatGPT для своих устройств.
- Нейросети помогают специалистам закрывать рабочие задачи: писать код, рисовать эскизы, составлять программы тренировок для клиентов и так далее. Новые поколения ИИ-помощников будут делать это быстрее и качественнее.
- Разработчики ищут пути для объединения ИИ-ассистентов в сеть когнитивных агентов (IoCA). Это требует создания стандартов подключения и обмена информацией, определения приоритета помощников и решения других технических задач.
- Нейросети общаются между собой и с людьми на естественном языке, в первую очередь на английском. Точно известно, что так работает обмен информацией между ChatGPT и DALL‑E 3. Следующий шаг — объединить нейросети разных компаний и научить их понимать не только английский язык.
Чего ждать в 2024 году
Если раньше ИИ-ассистенты были экзотикой, то теперь они становятся обыденностью. И эта тенденция сохранится. Интеллектуальные агенты будут появляться в новых приложениях для компьютеров, смартфонов и других гаджетов.
Мы ждём от нейросетей взаимодействия друг с другом для решения сложных задач, а не просто для написания кода. Уже сейчас ИИ может помочь в организации свиданий (социофобам и стесняшкам на заметку!), подборе музыки или приготовлении пищи.
Следующий шаг — появление персональных суперпомощников, которые будут знать о пользователе больше, чем его родные и друзья. Такие агенты смогут заказать подарок на день рождения в магазине, забронировать гостиницу и авиабилеты на отпуск и оформить загранпаспорт на «Госуслугах». Для решения последней задачи российскими разработчиками уже создаётся сервис «Иван Павлов».
Правда, в прогнозах не обойтись без негатива: ИИ может оставить без работы некоторых сотрудников, которые не освоили новые технологии. Так что вслед за дедушкой Лениным призываем всех постоянно «учиться, учиться и ещё раз учиться», чтобы не проиграть бой с нейросетями за рабочие места.
Билл Гейтс
основатель Microsoft
(источник: AI is about to completely change how you use computers)
— В ближайшие пять лет ситуация полностью изменится. Вам не придётся использовать разные приложения для разных задач. Вы просто скажете своему гаджету на обычном языке, что вы хотите сделать. И в зависимости от того, каким объёмом информации вы решите с ним поделиться, программа сможет ответить вам персонально, поскольку она будет хорошо вас знать. В ближайшем будущем каждый, кто находится в Сети, сможет иметь личного помощника на базе искусственного интеллекта, который будет далеко выходить за рамки сегодняшних технологий.
Роман Душкин
генеральный директор ООО «А-Я эксперт», компании — разработчика систем искусственного интеллекта
— Сейчас появляются когнитивные агенты, которые будут способны взаимодействовать друг с другом. Уже создано множество автономных ИИ-помощников, основанных на различных технологиях. В ближайшем будущем они будут связываться между собой.
Для этого появятся стандартизированные протоколы взаимодействия, обмена данными и прочие общие интерфейсы. Уже есть исследования о том, как когнитивные агенты, основанные на LLM, взаимодействуют друг с другом для диалога при помощи естественного языка в чатах.
Виктор Носко
генеральный директор компании «Аватар Машина», создатель чат-бота-психолога «Сабина Ai», соавтор проекта FractalGPT
— Мультиагентные системы — тренд, появившийся в 2023-м, продолжит развитие и в 2024 году. Например, на сберовской конференции AI Journey 2023 несколько докладов были посвящены автономным агентам искусственного интеллекта — программным модулям, обладающим своими целями, задачами и способностью договариваться с другими агентами для выполнения конечной задачи пользователя.
В том числе в нашем выступлении мы показали пример математической мультиагентной системы, которая смогла решать математические задачи с точностью 99,8%, а также сохраняла способность к обобщению и решению схожих задач, на которых она не обучалась. Этот результат как раз достигнут за счёт слаженной работы нескольких автономных агентов, каждый из которых решал только свойственные ему задачи.
Со временем агенты будут становиться более автономными и самостоятельными. Мы впервые увидим нейросотрудников — ботов, которые решают за нас наши же задачи. Например, договариваются о времени встречи, продают или покупают товары в интернет-магазинах.
Создание роботов с ИИ, способных понимать человеческую речь и выполнять команды
Что случилось за год
Нейросети теперь существуют не только в виртуальном пространстве. В 2023 году появились проекты по их воплощению в реальном мире — робототехники оценили потенциал генеративных моделей и начали внедрять их в «железных дровосеков».
Первые андроиды работали с моделями, аналогичными GPT-4. Нейросеть не могла управлять роботом, а просто вела диалог с человеком. Так работает Ameca — андроид с самым человечным лицом. Инженеры компании-разработчика Engineered Arts подключили его к синтезатору речи и языковой модели, благодаря которым он разговаривает сразу на нескольких языках.
Более сложный путь — заставить языковые модели отвечать за движения робота и логику выполнения им голосовых команд, получаемых от человека. В этом направлении значительно продвинулись компании Microsoft и Google. Но не только они.
Boston Dynamics осенью 2023 года объявила об интеграции в робопса Spot чат-бота ChatGPT. Эксперимент получился удачным. Робопёс уже трудится экскурсоводом в лабораториях компании.
Чтобы попасть в СМИ, можно сделать одного андроида и показывать его на выставках. Но изменить робототехнику сможет тот, кто наладит серийный выпуск роботов. Именно этим решил заняться Китай. Правительство КНР планирует до 2025 года создать в стране производственные мощности для серийного изготовления андроидов, а к 2027 году — стать мировым лидером в этой области.
Работа над роботами с ИИ идёт и в России. В 2023 году учёные представили андроида Арди с высокотехнологичным лицом, способным демонстрировать 600 вариантов мимики.
И конечно, от тренда не отстаёт и вездесущий Илон Маск (куда ж без него?). Tesla разрабатывает роботов Optimus, которые работают на заводах компании, собирая автомобили. Учитывая то, что Маск недавно анонсировал собственного чат-бота Grok, можно предположить его быструю интеграцию в андроиды Optimus.
Основные тренды ИИ в робототехнике
- Компании интегрируют языковые модели в существующих роботов и андроидов. Так поступили с Everyday Robot от Google, Spot от Boston Dynamics и Digit от Agility Robotics.
- Андроидами, способными вести диалог, уже никого не удивишь. Теперь роботы используют языковые модели для составления плана действий и движений.
- Роботу сложно планировать действия, так как он сталкивается с объектами в реальном мире, которые могут вести себя по-разному. Поэтому учёные разрабатывают технологии, облегчающие этот процесс. Например, подход Universal Policy, в соответствии с которым робот «воображает» необходимую очерёдность операций, последовательно создавая картинки с помощью встроенного аналога Midjourney.
- Компании работают над созданием реалистичных лиц у роботов, так как они лучше воспринимаются человеком. Среди лидеров в этом направлении можно выделить трёх андроидов: Ameca, Арди и Софию. Но уверенно можем сказать, что они далеки от совершенства.
Чего ждать в 2024 году
Восстания машин точно не будет. Роботы, конечно, станут умнее за счёт новых ИИ-моделей, но революционных изменений в ближайший год не предвидится. Андроиды так и останутся «узниками» исследовательских лабораторий.
С большим интересом стоит следить за Китаем. Если он сможет придерживаться программы по развитию робототехники, то к 2025 году создаст серийное производство андроидов. А там недалеко и до 2029-го, известного как год восстания роботов в фильме «Терминатор».
Мы ждём, что с андроидами можно будет общаться на любые темы и давать им команды на привычном языке, а не только на английском. Возможно, они будут даже действовать совместно — обмениваться информацией и опытом, по аналогии с устройствами, связанными интернетом когнитивных агентов.
Мэтт Клингенсмит
главный инженер-программист Boston Dynamics (источник: Robots That Can Chat)
— Мир, в котором роботы смогут понимать, что вы говорите, и превращать это в полезные действия, вероятно, не так уж далёк. Подобные навыки позволят им лучше работать с людьми и рядом с ними — в качестве помощника, гида, компаньона или артиста.
Александр Амбарцумов
разработчик сервисных роботов, основатель компании AlexRobotics
— По-видимому, уже в ближайшее время как бытовые роботы-помощники, так и промышленные обретут дополнительные функции обучения: их можно будет настраивать на решение задач не с помощью написания программного кода, а с помощью объяснения на естественном языке того, что нужно сделать. При этом управляющая программа для них будет автоматически создаваться встроенными языковыми моделями.
Регулирование разработок в области искусственного интеллекта
Что случилось за год
В 2023 году общественность и правительства многих стран обратили внимание на развитие ИИ и его потенциальную опасность. Весной СМИ обсуждали письмо от Илона Маска и других экспертов, в котором те призвали приостановить разработку масштабных ИИ-систем хотя бы на полгода. Документ запустил дискуссию, но разработки не прекратились. Даже сам Маск проигнорировал собственное предупреждение и уже через полгода представил чат-бота Grok.
В OpenAI предложили не останавливать исследования, а создать аналог Агентства по атомной энергии (МАГАТЭ) для контроля над ИИ. Логика инициативы проста и понята — если искусственный разум может быть так же опасен, как и атомные технологии, то и контролировать его стоит схожим образом.
После частных инициатив обсуждение проблемы вышло на правительственный уровень. Впервые в истории Совбез ООН провёл заседание, посвящённое ИИ, а в сенате США состоялись слушания, на которых выступили звёзды американской IT-индустрии: Билл Гейтс, Марк Цукерберг и Илон Маск.
Всё это сопровождалось бесконечными судебными исками и забастовками из-за нейросетей, самой масштабной из которых стала акция голливудских актёров и сценаристов. В результате работникам киноиндустрии удалось договориться об условиях, при которых нейросети не оставят их без работы.
Первый документ, регулирующий создание и работу генеративного ИИ на уровне отдельного государства, был принят летом в Китае. А уже осенью правила, обязывающие разработчиков мощных ИИ-систем сообщать властям результаты их тестирования на безопасность, вступили в силу в США.
В Европейском Союзе в 2023 году разработано своё законодательство для нейросетей — The AI Act. Оценить его невозможно, так как Парламент ЕС не опубликовал его полностью.
Важным событием уходящего года стал саммит, прошедший в ноябре в британском Блетчли-парке — культовом месте, где во время Второй мировой войны Тьюринг занимался взломом немецкой «Энигмы». Здесь собрались представители 28 стран: Израиля, Индии, Китая, США, стран ЕС, Японии и других. По результатам встречи была подписана Декларация Блетчли, которая подтвердила интерес стран в контроле над ИИ и в сотрудничестве друг с другом по вопросам его безопасности.
Основные тренды законодательного регулирования
- Общественность и правительства отдельных стран занимаются вопросами регулирования ИИ. Уже опубликованы документы национального уровня в США, Китае и ЕС. В 2023 году начато международное сотрудничество в этой области — состоялось первое заседание Совбеза ООН и была подписана Декларация Блетчли.
- Для регулирования разработок и безопасности ИИ предложены две концепции, которые можно назвать китайской и американской. Китай считает, что именно государство должно регламентировать весь процесс, а не отдавать его на откуп IT-компаниям. В США точка зрения противоположная — именно разработчики ИИ-систем должны отвечать за их безопасность.
Чего ждать в 2024 году
Мы ждём продолжения работы по формированию законодательства в области ИИ как в отдельных странах, так и на международном уровне. Решения, которые будут приняты, скорее всего, усилят различия между подходами Китая и США. Остальные страны выберут одного из лидеров и скопируют его стандарты.
В новом году дискуссия между представителями власти, юристами и IT-сообществом о безопасности ИИ начнётся в России. Но какой итог у неё будет, предсказать сложно.
Виктор Носко
генеральный директор компании «Аватар Машина», создатель чат-бота-психолога «Сабина Ai», соавтор проекта FractalGPT
— На скорость достижения ИИ свойств AGI могут оказать влияние не только технологии, но и регуляторы. Может так оказаться, что системы, обладающие логическим мышлением, будут сочтены опасными. Недавно в Европе был принят закон о регулировании ИИ — это первая ласточка в череде таких запретов.
При этом я не считаю, что в России в 2024 году будут приняты ограничивающие законы. Они скорее начнут работать в Европе и США. Но в РФ ситуация иная: требуется сначала создать льготные режимы, а только потом ограничивать и контролировать ИИ.
Причём ИИ сегодня выглядит опасным только в страшилках, тиражируемых СМИ. На самом деле LLM всё ещё довольно слабы и очень долго не будут представлять угрозу для человека.
Роман Душкин
генеральный директор ООО «А-Я эксперт», компании — разработчика систем искусственного интеллекта
— В регулировании ИИ нужно проявлять осторожность. Потому что если жёстко забюрократизировать эту сферу, то мы получим примерно то, что сейчас происходит в Европе. Там ИИ развивается с большим трудом и новые ограничения только загоняют отрасль в стагнацию.
В России сегодня есть два направления регулирования. Первое можно назвать мягким, оно предполагает присоединение разработчиков к Кодексу этики в сфере ИИ. Второе — техническое регулирование. Это документы, выпускаемые в РФ Техническим комитетом при Росстандарте ТК 164 «Искусственный интеллект», разрабатывающим государственные стандарты в области ИИ.
В нашей стране работа в этой сфере продолжится и в следующем году. Будет выстраиваться не только система стандартизации, которая во многом уже сформирована, но и появится практика сертификации решений в области ИИ на соответствие российским стандартам. Сертификация моделей и алгоритмов ИИ позволит обеспечить доверие к их работе.
Вместо итогов
Это статья сама по себе большой итог, так что писать здесь ничего не будем. В новом году продолжим следить за развитием искусственного интеллекта и расскажем вам обо всех новостях в нашем телеграм-канале.