Код

3 окт 2023
0

Стремительный тигр, мудрый дракон: проекты и перспективы Китая в гонке генеративного ИИ

Ловим дзен и погружаемся в китайскую философию создания искусственного интеллекта.

Из этой статьи вы узнаете, почему ChatGPT изобрели не в Китае, а местные предприниматели восприняли его появление как личный вызов; зачем руководство Поднебесной открыто провозгласило своей целью глобальное доминирование в области ИИ и как пытается догнать и перегнать Америку по количеству и качеству нейросетей.

Разобраться с восточной спецификой ИИ-отрасли нам помог Сергей Карелов, кандидат наук, эксперт в области междисциплинарных исследований и стратегической аналитики, ведущий авторского канала «Малоизвестное интересное».

Великие планы к 2030 году

Руководство Китая поставило перед страной амбициозную стратегическую цель — стать мировым лидером в ИИ к 2030 году. Об этом было официально объявлено в 2017 году, когда Госсовет Китайской Народной Республики (КНР) опубликовал «План развития искусственного интеллекта нового поколения».

«К 2030 году китайские теоретические изыскания, технологии и приложения искусственного интеллекта должны достичь мирового уровня, что сделает Китай основным центром инноваций в области ИИ. Страна достигнет заметных результатов в приложениях интеллектуальной экономики и интеллектуального общества, уверенно займёт место ведущего национального центра инноваций и экономической мощи».

«План развития искусственного интеллекта нового поколения»
(цитата: Stanford University)

Поскольку китайская экономика развивается в соответствии с пятилетними планами, подобными тем, что существовали в СССР, то соответствующие цели развития ИИ были включены в XIV пятилетку на 2021–2025 годы, а также во все перспективные планы, рассчитанные до 2035 года.

Экс-президент Google China, доктор наук Ли Кай-Фу, автор книги «Сверхдержавы искусственного интеллекта», отмечает, что триггером, заставившим общество в Поднебесной обратить пристальное внимание на ИИ, был триумф нейросети AlphaGo над чемпионом мира по игре го Ли Седолем.

Этому во многом способствовала гигантская популярность го в Китае. В 2016 году эпичный матч, в котором нейросеть британско-американского стартапа Deep Mind обыграла Ли Седоля со счётом 4:1, в КНР посмотрели более 280 миллионов зрителей.

Однако не стоит думать, что стремление Китая к мировому лидерству в области ИИ, является лишь следствием эмоционального потрясения от виртуозной игры AlphaGo. В реальности китайские планы основаны на очень рациональных соображениях.

В силу исторических причин Китай пропустил предыдущие промышленные революции, начавшиеся в XVIII–XIX веках в Англии и США, поэтому сегодня руководство КНР стремится принять активное участие в «четвёртой революции», основанной на современных IT-технологиях. Так как ИИ является относительно новой и быстро развивающейся областью, то достичь в ней значительных прорывов будет проще, чем в других научных дисциплинах с многовековой историей.

Успехи в области ИИ должны помочь Китаю занять его «законное место» в мире. Правительство резонно считает, что развитие искусственного интеллекта в стране способно стать драйвером для роста экономики, поможет устранить неравенство в развитии регионов, а также поспособствует лучшему управлению социальной жизнью общества.

Руководство Поднебесной также подразумевает возможность использования интеллектуальных систем в военной сфере, где за счёт умных алгоритмов надеется добиться превосходства над своими вероятными противниками.

«У китайцев сейчас стоит глобальная задача — сделаться лидерами в области ИИ к 2030 году. Но этот план очень прагматичный. Он не содержит в себе стремления обогнать США из каких-то тщеславных соображений или желания кому-то что-то доказать.

Китайская философия в рамках конфуцианского подхода уже в течение нескольких тысяч лет декларирует, что не надо слишком усложнять жизнь. Для китайцев прогресс подразумевает рост справедливости в обществе. И развитие искусственного интеллекта сегодня способно обеспечить этот рост.

Поэтому они ставят перед собой предельно понятные и конкретные цели. За счёт этого правительство может легко контролировать процесс реализации этих целей, координировать усилия множества людей, направленные на их достижение».

Сергей Карелов,
эксперт в области междисциплинарных исследований и стратегической аналитики, ведущий авторского канала «Малоизвестное интересное»

Ахиллес и черепаха: гонка с США

Главным конкурентом Китая в гонке за лидерство в области ИИ являются США. Сергей Карелов считает, что никто в мире, кроме Штатов, в ближайшее время не сможет составить серьёзную конкуренцию Китаю — ни страны Европы, ни Индия, ни Россия. Вопрос лишь в том, как Поднебесная и США поделят между собой два первых места.

«К 2030 году Китай точно будет либо второй державой в области ИИ, либо первой. Я полагаю, что, скорее всего, второй, но с очень небольшим отставанием от первого места».

Ход этого состязания напоминает процесс, описанный в знаменитом древнегреческом парадоксе «Ахиллес и черепаха». Китайский Ахиллес изо всех сил пытается догнать американскую черепаху, но достигнув точки, в которой она была раньше, всякий раз обнаруживает, что за это время его соперница успела сделать несколько шагов вперёд и, таким образом, она вновь лидирует в гонке.

Создание американской OpenAI языковой модели GPT-4 и её революционной реализации ChatGPT как раз является примером такого «шага вперёд», после которого все преследователи внезапно оказываются далеко позади.

«Черепаха по-прежнему умудряется пробежать несколько сантиметров, прежде чем Ахилл достигнет того места, где она была. Но, надо отдать должное китайцам, — разрыв сокращается. Потому что, хотя они всё ещё отстают от США, скорость, с которой они догоняют, оказывается выше, чем скорость, с которой Штаты уходят вперёд».

Ахиллес и черепаха
*Изображение: Public Domain*

Надо отметить, сфера ИИ щедро финансируется китайским правительством. По объёму частных вложений в ИИ Китай в 2022 году уверенно занимал второе место с 13,4 миллиарда долларов против 47,4 миллиарда долларов у США.

В 2021 году объём китайского рынка ИИ-продуктов оценивался в 23,2 миллиарда долларов США с перспективой роста к 2025 году до 60 миллиардов. Также на долю Китая в конце 2020-х годов ежегодно приходилось до 30% от мирового числа IT-стартапов с оборотом в миллиард долларов (так называемых единорогов).

В стране были созданы общенациональные проекты по стимулированию местного производства («Сделано в Китае 2025»), привлечению перспективных специалистов в сферу IT (План тысячи талантов), а также по сбору и хранению больших данных для машинного обучения (План действий по содействию развитию больших данных).

В результате по ряду формальных показателей, таких как количество опубликованных научных работ и поданных заявок на патенты, Китай сумел не только сравняться с США, но даже вырваться в мировые лидеры. Ключевой датой можно считать 2018 год, когда в Китае было подано 30 тысяч патентных заявок по теме ИИ (что в 2,5 раза больше, чем в США), а объём научных статей из Поднебесной в области ИИ составил 28% от мировых публикаций.

Впрочем, все эти впечатляющие достижения пока связаны только с количеством — если говорить о качестве, приходится констатировать, что большинство исследований пока не дотягивают до лучших образцов.

«Да, по общему количеству статей и патентов Китай лидирует. Но если внимательно посмотреть на эту статистику, то выяснится, что США впереди по качеству работ.

Если мы изучим топ публикаций (верхний квартиль), в который входят наиболее качественные, востребованные и цитируемые работы, то окажется, что по этому показателю США опережают Китай. А если мы изучим не просто верхний квартиль, а возьмём только 10% лучших статей, то выяснится, что среди них США доминируют с огромным отрывом.

Поэтому Штаты были и остаются лидером в области ИИ, на несколько лет опережая весь мир — в том числе и Китай. Но при этом Китай с каждым годом всё ближе и ближе подбирается к США».

Инфографика, наглядно демонстрирующая огромный отрыв США и КНР от конкурентов. Диаграмма объединяет три показателя: затраты на научные работы, количество публикаций и компаний-единорогов
*Инфографика: Майя Мальгина для Skillbox Media (Источник: ИСИЭЗ НИУ ВШЭ)*

Почему ChatGPT изобрели не в Китае

Если изучить планы развития ИИ, опубликованные в Китае до появления ChatGPT, мы обнаружим, что внимание в них акцентировалось не генеративном интеллекте, а на других направлениях data science. Среди них, в частности, упоминались системы для умных городов, машинного зрения, распознавания голоса, беспилотников, медицины и образования.

Генеративный интеллект предназначен для создания текстов, изображений, аудио, видео и другого контента по запросу пользователя. Яркими представителями этой технологии сегодня являются американские ChatGPT, Claude, Bard, отечественный GigaChat, а также нейросети для генерации изображений: Midjourney, DALL-E, Stable Diffusion, Kandinsky, «Шедеврум» и другие.

Появление ChatGPT заставило китайские компании резко поменять свои планы и бросить все силы на разработку собственных аналогов ультрапопулярного чат-бота. Местные специалисты констатируют, что ChatGPT полностью перевернул игру в отрасли и они оказались к этому не готовы.

«В один день все технологии, считавшиеся ранее перспективными, ушли на второй план, в фокусе остались лишь большие языковые модели. Теперь компании беспокоятся о том, чтобы успеть запрыгнуть в этот несущийся вперёд поезд… Без собственных уникальных моделей они потеряют свои позиции на рынке, что может привести их к краху».

Фрагмент статьи в журнале »Китайский предприниматель»

Неожиданный триумф разработки OpenAI жители Китая восприняли как личный вызов. Лучше всего эти настроения можно описать цитатами из статьи, вышедшей в одном из популярных китайских бизнес-журналов: «Либо у нас будет свой конкурентный генеративный ИИ, либо нас уничтожат» и «Мы должны создать его, даже если уже слишком поздно!»

Особенно обидно китайским учёным от того, что у них давно уже есть собственные разработки, подобные ChatGPT, но раньше им не давали хода из-за того, что это направление не считалось перспективным. Например, в 2021 году Пекинская академия искусственного интеллекта представила языковую модель Wu Dao 2.0, имевшую рекордное число параметров — 1,75 триллиона. По этому показателю она в 10 раз превосходила GPT-3.5 (лежит в основе ChatGPT).

За год до появления американского чат-бота Wu Dao 2.0 уже могла сносно общаться на китайском и английском языках, генерировать стихи, рецепты и газетные статьи. Модель даже отправили учиться, подобно живому человеку, в Университет Цинхуа под видом виртуальной студентки Хуа Чжибин.

Но добиться успеха и мировой славы китайский проект так и не смог. Местные учёные не предложили для своей модели прорывного метода обучения, подобного RLHF, используемого в чат-боте OpenAI.

Вице-президент Пекинской академии искусственного интеллекта профессор Тан Цзе на конференции в Пекине BAAI Conference 2021 презентует цифровую студентку, «мозгом» которой является модель Wu Dao 2.0
*Фото: VCG / Getty Images*

Сергей Карелов не видит ничего удивительного в том, что китайские товарищи проспали появление в США новой технологии. По его мнению, практически никто в мире не мог ранее оценить огромный потенциал, скрывавшийся в генеративном ИИ.

«Когда разработчики ChatGPT увидели, какого сумасшедшего прорыва им удалось достичь, когда они обнаружили в своей модели различные эмерджентные свойства, которые в неё не закладывали, то примерно полгода приходили в себя и пытались вообще понять, что же они такое создали.

Никто в мире ИИ такого не ожидал. И потому нельзя обвинять китайцев в том, что они пропустили этот прорыв. Абсолютно все в мире его пропустили, а потом бросились догонять. Но китайцы очень активно включились в эту тему. Буквально «навалились всем миром», чтобы сократить образовавшееся отставание».

Слабые стороны Китая в гонке ИИ: мнение западной прессы

Анализируя успех ChatGPT, обозреватели в западной прессе постфактум высказали ряд объяснений нерасторопности китайской технологической сферы. И конечно, не обошлось без противопоставления американской «свободы и демократии» царящему в Китае «авторитарному режиму», который находится под управлением Коммунистической партии Китая.

«Разработка любого значимого технологического продукта неотделима от системы и среды, в которой он работает. Без открытой среды создавать такие продукты очень сложно… Китай может повторить пример СССР, где государственное управление в определённый момент стало тормозом для инноваций. История показывает, что государственное использование ресурсов не может соперничать со свободным развитием, которое происходит естественным путём».

Сюй Чэнган,
старший научный сотрудник Центра исследований китайской экономики при одном из американских вузов (цитата: The New York Times)

Эксперты не упустили возможность вспомнити о цензуре в китайском сегменте интернета. Кто-то даже высказал мнение, что генеративный ИИ, родовой чертой которого являются так называемые галлюцинации, будет очень сложно заставить соблюдать все партийные предписания.

В качестве мрачной шутки журналисты приводят цитату из поста в китайской соцсети, якобы сделанного анонимным программистом: «Нам нужно не только научить машины говорить, но также научить их не говорить».

«Непредсказуемость чат-ботов, которые делают бессмысленные или ложные утверждения (то, что исследователи ИИ называют галлюцинациями), идёт вразрез с навязчивой идеей Партии управлять тем, что говорится в интернете. Генеративный ИИ поставил в противоречие две главные цели Партии: контроль над информацией и лидерство в области искусственного интеллекта».

Мэтт Шиэн,
эксперт по китайскому искусственному интеллекту (цитата: The New York Times)

Также эксперты акцентировали внимание на том, что предприниматели строящего коммунизм Китая парадоксальным образом оказались намного более сосредоточены на извлечении из технологий сиюминутной прибыли, чем представители капиталистической Америки.

Причина в том, что в Китае конкуренция между IT-компаниями за финансовые ресурсы оказывается более острой, чем в США. Поэтому в Поднебесной не торопятся вкладывать большие деньги в технологии, экономический эффект от которых не является очевидным.

В противовес этому эксперты напоминают, что компания OpenAI, придумавшая ChatGPT, изначально создавалась Илоном Маском как некоммерческий проект с многомиллиардным бюджетом, направленный на достижение фундаментальных прорывов в области ИИ. При этом перспектива его коммерциализации в течение длительного времени оставалась туманной.

«Когда соседский ребёнок публикует революционную докторскую работу, не спрашивайте, почему этот ребёнок такой умный. В вашем доме тоже есть умный ребёнок, но, вместо того чтобы поддерживать его учёбу, вы попросили его быстро заработать, пока он ещё может выполнять физический труд».

Из анонимного поста, ставшего вирусным в китайских социальных сетях (цитата: South China Morning Post)

Съезд Коммунистической партии Китая
*Фото: Lintao Zhang / Getty Images*

Сергей Карелов признаёт наличие у китайской модели управления проблем и уязвимостей — более того, по его мнению, их число даже увеличивается. Однако он предлагает рассматривать недостатки китайской модели как побочный эффект её достоинств. Способность Китая управлять огромными ресурсами позволяет фокусировать все усилия общества на достижении тех или иных практических результатов.

«Главное преимущество любого общества — его способность к масштабированию усилий и налаживанию кооперации. За счёт этого всегда удавалось реализовывать великие проекты — от египетских пирамид до Международной космической станции.

Китайская модель управления позволяет этого добиваться. Но делать это проще и эффективней на практических вещах. И потому именно в практических вещах Китай опережает конкурентов, а местные бизнесмены очень рациональны и сосредоточены на получении прибыли.

С другой стороны, в вопросах непрактических, где достижения изобретателя-одиночки или небольшого коллектива могут полностью поменять правила игры, Китай отстаёт. В частности, к этому относятся и фундаментальные исследования в области ИИ».

Тройная нехватка: опыт, «железо» и данные

Что касается практических причин, тормозящих развитие ИИ в Китае, то здесь западные эксперты отмечают проблемы с опытом, «железом» и обучающими данными. В целом, эта оценка совпадает с мнением Госсовета КНР, который выделяет в своих документах схожие направления развития: «железо», данные, алгоритмы и внедрение ИИ.

Хотя китайские вузы ежегодно выпускают тысячи дипломированных айтишников, специалистов по генеративному ИИ среди них пока недостаточно, поскольку ранее это направление не считалось перспективным. Пройдут годы, прежде чем местные учёные наберутся опыта в разработке и обучении больших языковых моделей.

По-настоящему топовых спецов по LLM в мире вообще очень мало. Поэтому в Поднебесной сегодня к разработке подключаются многие ветераны, которые, казалось бы, давно ушли на пенсию и даже успели написать мемуары. Среди них оказался и 61-летний Ли Кай-Фу — знаковая фигура местного IT. Он объявил о создании собственной платформы генеративного ИИ — Project AI 2.0.

«В Китае и США очень мало людей, имеющих реальный опыт разработок и исследований в области масштабных моделей. Общее число высококлассных специалистов в мире составляет всего около 100 человек. И за этими людьми постоянно охотятся бигтех-компании и стартапы. Поэтому у них очень сильно выросли зарплаты, и их практически невозможно нанять».

Чжоу Чжифэн,
китайский IT-предприниматель, Qiming Venture Partners (цитата: журнал «Китайский предприниматель»)

И конечно, в Америке не собираются безучастно смотреть на то, как китайский Ахиллес пытается их обогнать. В рамках торговой войны правительство США ввело запрет на экспорт высокотехнологичных микрочипов для обработки больших данных и машинного обучения, а также инструментов для разработки этих самых микрочипов.

Сергей Карелов считает проблемы с поставками иностранных полупроводников главным и практически единственным фактором, способным замедлить развитие ИИ в Китае.

«Всё будет зависеть от жёсткости санкционной политики Америки и от того, насколько успешно Китаю удастся наладить собственное производство аппаратной базы для обучения ИИ, подобной самым передовым образцам продукции NVIDIA, которые появятся к 2030 году. Конечно, от 20 до 40 миллиардов долларов китайцы без колебаний на это потратят, но пока не представляется возможным предугадать, в какой степени эти инвестиции окупятся и дадут ли желаемые результаты».

Уже сегодня для обучения моделей, подобных GPT-4, требуются системы, состоящие из десятков тысяч высокотехнологичных видеопроцессоров (GPU) или нейропроцессоров (NPU). Самые передовые из них — NVIDIA A100 и H100, выполненные по техпроцессам 7 нм и 4 нм, попали в список запрещённых к экспорту в Китай.

Сергей Карелов отмечает, что для обучения моделей каждого следующего поколения таких процессоров потребуется на порядок больше, чем для предыдущего. И если США демонстрируют уверенность в том, что задела по развитию «железа» им хватит ещё как минимум на 2–3 года, то в Китае ситуация выглядит не столь радужно.

Несмотря на заявления учёных Поднебесной о том, что им удалось создать прорывную технологию производства чипов с точностью 1 нм или даже меньше, в реальности их главный производитель микросхем, компания SMIC из Шанхая, пока с трудом вытягивает серийное производство процессоров по технологии 7 нм, которая уступает примерно на два поколения лучшим импортным образцам, уже сегодня обеспечивающим работу по технологиям 4 нм и даже 3 нм.

Местные бизнесмены пока не слишком доверяют сообщениям СМИ о том, что Китай вскоре наладит массовый выпуск собственных чипов, не уступающих заокеанским аналогам, а потому предпочитают закупаться импортными микросхемами «впрок».

«Стоимость чипа A100 выросла более чем на 50% с конца прошлого года (с 50 000 до 100 000 юаней). По нашим оценкам на складах осталось только 30 000 экземпляров подобных процессоров. Поскольку США запретили продажу A100 в Китай, представители бизнеса сегодня выстраиваются в очередь за более слабыми чипами NVIDIA A800, которые не подпадают под запрет. Но зачастую даже их нет в наличии».

Чэнь Вэй,
председатель Qi An Xin Technology (цитата: журнал «Китайский предприниматель»)

На графике ниже можно заметить, как торговые ограничения США повлияли на разработку китайских чипов: в то время как американский Intel, южнокорейский Samsung и тайваньский TSMC освоили серийное производство микросхем по 4- и 3-нанометровым техпроцессам, китайский SMIC продолжает «топтаться» на уровне 7 нм:

*Инфографика: Майя Мальгина для Skillbox Media (Источник: The Economist)*

Что касается проблем с обучающими данными для ИИ, то здесь ситуация выглядит неоднозначно. С одной стороны, Китай всегда считался лидером по сбору больших данных. Ли Кай-Фу даже написал в своей книге: «Если данные — это новая нефть, то Китай — это новая Саудовская Аравия».

Причина такого утверждения не только в централизованной политике сбора цифровых следов, оставляемых гражданами Китая, но также и в его огромном населении, широком распространении гаджетов с доступом в интернет и в повсеместном внедрении систем видеонаблюдения и слежения за людьми.

Читайте также:

Тест: что вы знаете про цифровой след

Появление больших языковых моделей поставило под сомнение лидерство Китая в этой сфере. Дело в том, что обучение LLM требует качественных текстов — а таких датасетов в нужном объёме нет ни на одном языке мира, кроме английского.

Это относится и к китайскому языку: тексты 56% сайтов в мире написаны на английском, в то время, как только 1,5%, — на китайском. Кроме того, более 90% научных публикаций в мире (включая лучшие работы учёных Поднебесной) также созданы на английском языке.

Поэтому разработчикам китайских языковых моделей зачастую приходится использовать для обучения своих алгоритмов «мусорные» тексты — в основном диалоги, извлечённые из мессенджеров и соцсетей. А они могут быть написаны с ошибками или нарочитым пренебрежением к литературным нормам.

***Источник изображения:*** *Jeffrey Ding*

«В Китае мало высококачественных текстов для обучения. Это то, на что жаловались местные исследователи, работающие в этой области, а также то, что отличает китайские лаборатории от их западных визави. К сожалению, когда вы думаете об использовании качественной академической литературы, то оказывается, что практически вся она написана на английском языке».

Джефф Дин,
доцент Университета Джорджа Вашингтона, основатель ChinAI (цитата: thechinaproject.com)

Однако Сергей Карелов считает проблему надуманной.

«Технологии, которые касаются больших данных, у китайцев находятся как минимум на американском уровне или даже выше. К тому же появляются новые методы обучения, которые становятся менее требовательными к наличию данных.

Это как с шахматами: когда нейросетям позволили играть друг с другом, они за сутки сыграли больше партий, чем было записано за всю историю человечества. Тогда стало ясно, что реальный опыт особо и не нужен. И это далеко не единственный пример. Со временем в разных областях применения ИИ важность естественных данных убывает и на их место приходят синтетические данные.

Другой вопрос, что, конечно, английский язык по-прежнему доминирует при обучении LLM. Но специалисты из Поднебесной недавно опубликовали работу, в которой показали, что на китайском языке их модели уже не уступают лучшим вариантам GPT».

Карикатура, обыгрывающая огромные денежные вливания Китая в ИИ, а также его проблемы с чипами и цензурными ограничениями
*Автор: Лау Какуэн. Скриншот: South China Morning Post / Skillbox Media*

В регулировании ИИ Китай впереди планеты всей

Хотя эксперты и говорят об отставании Китая в технологической сфере, они же безоговорочно признают лидерство КНР в области регулирования ИИ. Местные законодатели первыми в мире смогли в полной мере осознать не только мощь генеративного ИИ, но и огромную опасность, которая от него исходит.

В нашпигованной прорывными разработками Америке, напротив, власти как будто не замечают проблемы. Джей Обернолте, единственный член Конгресса со степенью магистра в области ИИ, сокрушался, что «большинство законодателей даже не знают, что такое искусственный интеллект».

«Прежде чем регулировать, необходимо прийти к соглашению о том, в чём заключаются опасности, а это требует глубокого понимания того, что такое ИИ. Вы будете удивлены, сколько времени я трачу, объясняя своим коллегам, что главная опасность ИИ исходит не от злых роботов с красными лазерами, выходящими из глаз».

Джей Обернолте,
член Палаты представителей США от Калифорнии (цитата: The New York Times)

Во время посвящённого ИИ заседания Совбеза ООН, прошедшего 18 июля 2023 года, представители Китая, в отличие от заокеанских коллег, сумели продемонстрировать цельность государственной позиции в этом вопросе. В то же время даже Генсек ООН Антониу Гутерриш признался, что не понимает, чего человечеству ждать от новой технологии.

«Над стратегией в области ИИ работают почти каждое правительство и каждая крупная компания в мире, но даже разработчики понятия не имеют, к чему может привести этот ошеломляющий технологический прорыв».

Антониу Гутерриш,
Генеральный секретарь ООН (цитата: «Новости ООН»)

И пока чиновники других государств тратили время на дебаты, Китай стал первой в мире страной, где на законодательном уровне приняли специальные правила, регулирующие работу генеративного ИИ. Документ под названием «Временные правила регулирования услуг генеративного искусственного интеллекта» был разработан китайскими властями в рекордные сроки — всего за полгода.

Предписание, состоящее из 24 пунктов, вступило в силу 15 августа 2023 года. В нём, например, вводится требование помечать сгенерированный ИИ контент, чтобы не вводить аудиторию в заблуждение относительно истинного автора произведения. Также Правила устанавливают, что создатели ИИ должны использовать для обучения данные из «легальных источников» с соблюдением прав на интеллектуальную собственность. Если речь идёт о личной информации, то китайским разработчикам нужно получить согласие на её обработку.

Кроме того, компании, предоставляющие доступ к генеративному интеллекту, должны следить за тем, чтобы выдаваемый контент соответствовал нормам морали и не содержал данных, дискриминирующих людей. И конечно же, китайский ИИ должен быть патриотом, разделять ценности и установки, провозглашаемые Коммунистической партией.

«При работе генеративный ИИ должен придерживаться основных социалистических ценностей и не подстрекать к подрыву государственной власти, свержению социалистической системы, ставить под угрозу национальную безопасность и интересы, наносить ущерб национальному имиджу, подстрекать к отделению частей, подрывать национальное единство и социальную стабильность, поощрять терроризм, экстремизм, проводить пропаганду межнациональной розни, этнической дискриминации, насилия, непристойности, а также ложной и вредной информации и другого запрещённого контента».

Временные правила регулирования услуг генеративного искусственного интеллекта (цитата: Cac.gov.cn)

Сергей Карелов, считает создание таких правил большим шагом вперёд и не разделяет опасений некоторых иностранных специалистов о том, что обилие запретов может негативно сказаться на способностях китайских моделей. При этом он признаёт, что подходы к регулированию ИИ в Китае и на Западе сильно различаются.

«С точки зрения регулирования и того, что называется policy, то есть различных практик, которые объединяют общество, государство и бизнес, китайцы уже серьёзно впереди. Их нормативный акт о генеративном ИИ на целый корпус опережает всех преследователей, включая США.

Приоритеты регулирования у Китая и США разные. Китай ставит во главу угла государство, а Америка предпочитает контролировать большие корпорации.

Китай на обсуждении в ООН чётко сказал, что ИИ уже достиг такого уровня, когда он представляет экзистенциальную опасность. И это означает, что сейчас первая задача — это взять его под контроль с тем, чтобы не допустить самых неприятных сценариев.

Поэтому Правила они приняли очень оперативно. Но при этом в Поднебесной успели их согласовать и с бизнесом, и с обществом. Убрали из документа все шероховатости, которые вызывали вопросы в первой редакции».

Стоит отметить, что свои правила регулирования ИИ сейчас разрабатывает и Евросоюз. Так называемый Закон об ИИ содержит схожие положения, что и его китайский аналог — в частности, об обязательной маркировке ИИ-контента. Есть и более странные требования — например, запрет на создание систем, «влияющих на подсознание людей».

«Ураган моделей» из Поднебесной

На брошенный ChatGPT вызов в Поднебесной ответили «ураганом моделей». Вместо того чтобы создать одного конкурента американской нейросети и направить все силы на его развитие, китайский бизнес презентовал уже более 130 вариантов собственных генеративных моделей.

Из всей этой россыпи моделей как минимум 79 имеют более миллиарда параметров. Большая часть заточена под генерацию текстов, но также есть и варианты, способные создавать картинки, видео, аудио или сразу несколько видов контента (мультимодальные модели). Прогресс впечатляющий по сравнению с 2020 годом, когда китайские разработчики выпустили всего две нейросети такого рода.

Сергей Карелов считает, что такое количество нейросетевых проектов не должно удивлять. Дело в том, что в Китае действует более 6500 компаний в области искусственного интеллекта (примерно 25% от общемирового показателя) и многие из них с большим энтузиазмом откликнулись на призывы партии и правительства.

«В Китае в последнее время каждый год создавалось по 2,5 тысячи новых предприятий в этой области. Это нормальный способ решения глобальных проблем, соответствующий китайской философии и системе управления. Китайцы всегда пытаются подавить конкурентов масштабом своих усилий.

Если есть большая, сложная, важная задача, то тогда они бросают все коллективные силы на её достижение. И эта задача будет иметь высокий приоритет, она будет экономически поддерживаться и идеологически прославляться.

И в этом отличие от традиционного для нас подхода к таким вопросам. У нас в аналогичной ситуации создали ли бы какую-то единую ИИ-корпорацию и продвигали бы везде только её. А они, наоборот, распределяют усилия, но делают это в рамках единого направления развития».

Чтобы как-то ориентироваться во всём этом разнообразии, местные обозреватели делят свои IT-компании на две категории: «большие драконы» и «малые драконы». К большим относятся три крупнейшие компании, условно объединяемые под именем BAT — Baidu, Alibaba Group и Tencent. Вместе они аккумулируют примерно половину всех частных китайских инвестиций в ИИ.

Ко второй, более многочисленной, группе «малых драконов» относятся: SenseTime, Megvii, Huawei, CloudWalk Technology, YITU Technology, JD.com Incorporation, iFlytek Corporation, Pony.ai, Inspur и другие.

Наибольшие надежды в Поднебесной сегодня связывают с разработкой одного из «больших драконов» — чат-ботом ERNIE Bot от компании Baidu. Сервис, название которого расшифровывается, как Enhanced Representation through kNowledge IntEgration, был представлен в марте 2023 года, став первой китайской альтернативой ChatGPT.

Презентация чат-бота ERNIE Bot с участием генерального директора Baidu Робина Ли и технического директора Хайфэн Вана
Источник: Baidu Inc.

21 июня 2023 года специалисты Baidu обновили нейросетевой «мозг» ERNIE, присвоив ему индекс 3.5, аналогичный индексу модели GPT, лежащей в основе ChatGPT. Помимо этого, ERNIE получил интерфейс, аналогичный ChatGPT, а также обзавёлся системой плагинов, позволяющей модели обращаться к внешним сервисам и источникам данных.

Таким образом, сейчас последняя версия ERNIE способна выполнять на китайском и английском языках почти все те же действия, что и оригинальный ChatGPT. При этом, по заверениям разработчиков, при работе на китайском языке ERNIE по ряду показателей обходит заокеанскую модель, хотя и несколько уступает ей при работе на английском.

Таблица, демонстрирующая превосходство модели ERNIE 3.5 над конкурентами в ряде типовых тестов ИИ
*Инфографика: Майя Мальгина для Skillbox Media (источник: mp.weixin.qq.com)*

«Лидером в гонке за создание собственного ChatGPT в Китае будут компании, которые уже заложили основу для создания больших моделей, подобных GPT-3. Сегодня Baidu, Huawei, Inspur и Tencent разрабатывают такие модели и, возможно, уже не сильно отстают от американских компаний».

Джефф Дин,
доцент Университета Джорджа Вашингтона, основатель ChinAI (цитата: Wired)

Учитывая огромное количество создаваемых в Китае моделей, местные разработчики сегодня трудятся над объединёнными платформами, позволяющими получить доступ сразу к нескольким десяткам нейросетей. Одну из таких платформ также предлагает компания Baidu под брендом Qianfan.

Некоторые нейросети из «урагана моделей»

Чат-боты

Tongyi Qianwen от Alibaba Group: в основе лежат модели собственной разработки с размером 7 миллиардов параметров Qwen-7B и Qwen-7B-Chat, предназначенные для диалоговых приложений.
Hunyuan от Tencent: имеет более 100 миллиардов параметров, обучен с использованием двух триллионов токенов. Tencent утверждает, что модель превосходит ChatGPT в написании длинных текстов и решении некоторых математических задач, а также генерирует на 30% меньше галлюцинаций, чем LLaMA-2.
SenseChat от SenseTime: часть фирменной платформы SenseNova, которая, помимо чат-бота, включает в себя генератор изображений, инструменты создания цифровых аватаров и 3D-моделирования.
PanGu Chat от Huawei: основан на собственной языковой модели PanGu 3.0, имеющей версии от 10 до 200 миллиардов параметров. Сервис основан на собственном «железе» компании — нейрочипах Ascend.
ChatRhino от JD.com Incorporation: содержит 100 миллиардов параметров. Предназначена для решения текстовых задач в сферах торговли, логистики, финансов и здравоохранения.
SparkDesk от iFlytek Corporation: лежит под капотом более 12 000 ИИ-помощников, ориентированных на различные сценарии использования в маркетинге, творчестве, программировании, общении и обучении. Создан на базе фирменной модели под названием Spark.
Tako от ByteDance: чат-бот на LLM от создателей TikTok, нацеленный на использование внутри этой соцсети. Пока доступен лишь некоторым пользователям в тестовом режиме. Возможно, является частью проекта под названием Grace, обкатываемого среди сотрудников компании.

Генерация кода

PanGu-Coder 2 от Huawei: предназначен для генерации программного кода на языке Python по стандартизированному описанию задачи на естественном языке. Пока может «понимать» задания лишь на английском (поддержку китайского языка обещают завезти позже).
iFlyCode от iFlytek Corporation: интеллектуальный помощник программиста на C++, Python и Java. Может как генерировать код с нуля, так и дополнять то, что написано человеком. Основан на фирменной модели Spark V2.0.
CodeWave от NetEase: разработка китайского производителя видеоигр позволяет корпоративным клиентам создавать программы, не требуя обширных навыков программирования. Доступна по платной подписке.

Генерация изображений

ERNIE-ViLG от Baidu: китайский open-source-аналог Midjourney, обучен на датасете из 145 миллионов пар «картинка — текст» и содержит 10 миллиардов параметров. Является частью ИИ-платформы компании под названием Wenxin, где отвечает за преобразование текста в изображение.
Tongyi Wanxiang от Alibaba Group: разработан на базе собственной модели для генерации изображений Composer, понимает текстовые подсказки на китайском и английском, умеет создавать картинки в различных стилях, от акварели, масла и китайской живописи до анимации, эскизов и 3D-графики.

Мультимодальные нейросети

Zidong Taichu 2.0 от Института автоматизации Китайской академии наук: модель, которая может работать с различными видами контента, включая тексты, аудио, изображения, видео и 3D-модели.
Qwen-VL от Alibaba Group: мультимодальный вариант китайской опенсорсной модели Qwen-7B, способный работать с изображениями (VL означает vision language). Помимо поддержания диалогов на китайском и английском, способна сравнивать несколько изображений и отвечать на вопросы, относящиеся к картинкам.

Картинки, сгенерированные китайской моделью ERNIE-ViLG от Baidu по соответствующим текстовым запросам
*Скриншот: Arxiv / Skillbox Media*

Картинки, сгенерированные китайской моделью Tongyi Wanxiang от Alibaba Group по соответствующим текстовым запросам
*Скриншот: Alibabacloud / Skillbox Media*

Подытожим

Учитывая скорость, набранную Китаем в гонке ИИ, мы с каждым годом будем всё чаще слышать о новых успехах Поднебесной в этой области. Вне зависимости от того, сумеет ли страна обойти США к 2030 году, она на долгие годы останется единственным игроком, способным на равных конкурировать с Америкой.

Завершить материал мы бы хотели словами Илона Маска, стоявшего у истоков компании OpenAI. Не исключено, что в ближайшем будущем они окажутся пророческими.

«Я восхищаюсь мудростью и решимостью китайского народа. Если китайцы решают преуспеть в чём-то, у них это получается. С искусственным интеллектом будет так же».

Илон Маск,
основатель OpenAI (цитата: Bloomberg)

Читайте также: