Нейросеть Muse от Microsoft: почему о создании игр с её помощью говорить ещё очень рано

Искусственный интеллект для тестирования геймплейных идей, или почему видео с геймплеем — ещё не геймплей.

Скриншот: игра Bleeding Edge / Ninja Theory

Денис Князев

Шеф-редактор направления «Геймдев» Skillbox Media.

В феврале 2025 года Microsoft представила Muse — генеративный ИИ, призванный помочь создателям игр придумывать и тестировать геймплейные идеи. Кроме того, по словам главы Xbox Фила Спенсера, в будущем эта модель могла быть стать одним из инструментов для сохранения старых видеоигр.

Специалисты Microsoft Research Game Intelligence и Teachable AI Experiences, подразделений компании, которые работали над созданием Muse, также опубликовали в журнале Nature подробную статью со множеством деталей, касающихся технических особенностей нового ИИ. В ней они рассказали о принципах работы Muse и о ключевых целях, которых разработчики игр могли бы достичь с помощью этой модели в будущем.

В анонсе на сайте Microsoft и в статье в журнале Nature показаны результаты работы ИИ — короткие видео в низком разрешении, демонстрирующие игровой процесс трёхмерного экшена. Эти записи были сгенерированы искусственным интеллектом: представители Microsoft пояснили, что сейчас нейросеть способна создавать последовательность кадров с геймплеем длительностью в несколько минут, в разрешении 300 на 180 пикселей. Этого удалось добиться не сразу, потребовались многочисленные итерации и улучшения.

В этой статье рассказываем, чем интересна Muse, как она появилась и на чём обучена, каким образом она может быть полезна разработчикам и почему о создании игр силами одного только ИИ пока не идёт речи.

Содержание

История появления Muse
Принцип работы нейросети
Ключевая задача модели
Проблема сохранения игр

У нас есть телеграм-канал «Чекпоинт», где мы собираем полезные материалы для начинающих разработчиков. Там и статьи о геймдизайне, и гайды по софту, и даже интервью с теми, кто уже выпустил собственную игру. Подписывайтесь!

Для обучения Muse использовали семь лет геймплея из экшена Bleeding Edge

Работа над Muse началась в конце 2022 года — вскоре после того, как OpenAI представила ChatGPT. По словам главы Microsoft Research Game Intelligence Кати Хофманн, эта текстовая генеративная модель не только впечатлила команду, но и породила логичный вопрос: «Как подобные технологии можно было бы применить при создании видеоигр?» И чтобы ответить на него, Microsoft Research Game Intelligence объединилась с Teachable AI Experiences и студией Ninja Theory, принадлежащей Microsoft.

Ninja Theory в первую очередь известна по играм DmC: Devil May Cry и Hellblade: Senua’s Sacrifice, но в 2020-м она также выпустила Bleeding Edge, онлайновый аренный экшен от третьего лица, посвящённый сражениям в формате «4 на 4». Оценки у Bleeding Edge были крайне сдержанными, популярности эта игра так и не приобрела, и в итоге студия прекратила её поддержку меньше чем через год после релиза.

Впрочем, Bleeding Edge пригодилась при создании Muse. Дело в том, что игра записывала и сохраняла геймплей всех игроков, которые приняли условия End User License Agreement (учитывая, что обычно все принимают такие соглашения, не читая, можно предположить, что речь идёт почти обо всех игровых сессиях). Именно эти данные, собранные за время жизни Bleeding Edge, использовались в работе над новой нейросетью: всего — семь лет игрового процесса.

Важно отметить, что при обучении Muse использовали не видео с записанным геймплеем, а отдельные кадры из него. По словам Хофманн, это более миллиарда изображений. Кроме того, эксперты скормили нейросети информацию о том, как игроки взаимодействовали с контроллерами, играя в Bleeding Edge (иными словами, на какие кнопки они нажимали).

Таблица выше помогает понять, сколько итераций специалисты Microsoft провели в процессе обучения ИИ. В крайней левой колонке размещено короткое видео с геймплеем из Bleeding Edge: эксперты взяли из него одну секунду игрового процесса (несколько кадров) и девять секунд взаимодействия с контроллером. Затем они начали тренировать Muse, и успехи появились лишь через 10 тысяч апдейтов. Через миллион итераций нейросеть смогла наконец сгенерировать адекватное видео с геймплеем, соблюдая все необходимые требования, упомянутые в крайней левой колонке.

Muse не умеет создавать ни отрезки интерактивного геймплея, ни игры как таковые

Если совсем просто, то единственная способность Muse прямо сейчас — это создавать короткие видео с геймплеем, отталкиваясь от исходного промта, под которым подразумеваются изображения и данные о взаимодействии с контроллером.

Если сложнее, то нейросеть Microsoft способна анализировать заданные в промте условия (трёхмерный игровой мир, положение персонажей и объектов в нём, поведение реальных игроков, интерфейс, эффекты и так далее) и создавать короткие видео, на которых дальнейший геймплей в несколько минут будет изображён таким, каким его представляет себе нейросеть.

Другими словами, вы можете показать Muse несколько кадров с реальным геймплеем, предоставить ей данные о том, на какие кнопки игрок нажимал в моменты, из которых взяты упомянутые кадры, и взамен нейросеть сгенерирует видео с несколькими возможными вариантами дальнейшего игрового процесса, в котором персонаж будет вести себя так, будто бы за него играет реальный человек. Результат может отличаться от фактического дальнейшего геймплея, но в этом и смысл: Muse нужна для того, чтобы визуализировать множество возможных вариантов развития игрового процесса, исходя из нескольких исходных кадров.

Создатели Muse также представили WHAM Demonstrator — среду для взаимодействия с нейросетью. С помощью этого визуального интерфейса пользователи могут вводить исходные промты, задавать иные условия генерации уже в процессе работы Muse и добавлять в сгенерированную сцену дополнительные объекты, которые нейросеть обязана учитывать при дальнейшей генерации.

В контексте WHAM Demonstrator важно прояснить один момент. Дело в том, что задавать иные условия генерации можно в том числе с помощью контроллера (в статье на сайте Microsoft по понятной причине использовался геймпад от консолей Xbox). Условно говоря, если вы хотите, чтобы Muse в дальнейшей генерации направила персонажа влево, а не вправо, то можно отклонить стик контроллера в заданном направлении, и нейросеть учтёт это пожелание.

Можно ли в таком случае говорить, что Muse генерирует интерактивный геймплей, в рамках которого вы можете управлять персонажем? Нельзя, потому что вы не управляете персонажем. Отклоняя стик влево или совершая любое иное действие на контроллере, вы лишь даёте нейросети дополнительный промт, который она должна учесть при дальнейшей генерации. ИИ при этом продолжит генерировать ролики с геймплеем, но не сам геймплей как таковой. Как именно это работает, можно увидеть на картинке выше: действие на геймпаде, обозначенное как a (t), прерывает генерацию видео, указанную как z (t), чтобы ИИ мог учесть промт с этим действием при дальнейшей генерации.

Потенциально Muse можно будет применять для итерации игрового процесса

В теории Muse можно было бы использовать для того, чтобы продумывать и тестировать дизайнерские идеи в контексте геймплея. Представим, что условному разработчику необходимо понять, как механика прыжка будет работать на той или иной конкретной локации в его игре. Сейчас ему необходимо собрать всю сцену в движке и тестировать механику вручную, но с нейросетью, способной генерировать разные варианты развития геймплея с учётом возможного поведения реального игрока, процесс получился бы в разы короче и удобнее.

Кажется, что именно такую идею и закладывали в Muse её создатели. Именно поэтому они акцентируют внимание на том, что нейросеть при генерации видео с геймплеем соблюдает три ключевых принципа, необходимых для того, чтобы упомянутая идея работала. Эти принципы — постоянство (Consistency), разнообразие (Diversity) и неизменность (Persistency).

«Постоянство» означает, что нейросеть запоминает условия, показанные в собственной генерации, и затем придерживается этих условий, когда в генерации возникает похожая ситуация. К примеру, если Muse создаёт видео с геймплеем, где персонаж несуществующего игрока начинает стрелять при виде противника, все остальные персонажи должны всегда делать то же самое в аналогичных ситуациях.

«Разнообразие» — это способность нейросети воссоздавать все возможные варианты дальнейшего развития геймплея, основа для которых была предоставлена в изначальном промте. Скажем, если вы скормили нейросети кадры, на которых персонаж расположен перед развилкой из трёх путей на уровне, Muse должна сгенерировать как минимум три видео с геймплеем для каждого из этих путей (а лучше — больше, с разными типами поведения персонажа на каждом из путей).

«Неизменность» предполагает, что нейросеть не забывает об условиях, которые задаёт пользователь. К примеру, если вы добавили в уже сгенерированное видео красную бочку рядом с персонажем, Muse ни в коем случае не должна удалять её при дальнейшей генерации. В идеале она должна учесть условие и использовать его — например, показать, как персонаж стреляет по бочке и она взрывается.

Впрочем, по словам Майкла Кука, геймдизайнера, исследователя ИИ и преподавателя в Королевском колледже Лондона, даже с соблюдением всех этих принципов Muse очень сложно назвать полезным инструментом, который даже в теории можно было бы применять при создании игр.

Один из его аргументов заключается в том, что обычные разработчики не способны воспроизвести условия, которые были соблюдены командой Microsoft при создании нейросети. Даже если представить, что крупная компания сможет отыскать для обучения Muse семь лет геймплея из своей игры, которая всё ещё находится в разработке (!), что тогда делать инди-студиям, которые только недавно начали работать над игрой? У последних может никогда не накопиться достаточно данных для того, чтобы предоставить нейросети необходимый комплекс промтов.

У Кука также есть вопросы по поводу самих принципов работы нейросети, особенно их много по поводу разнообразия. Согласно этому принципу, нейросеть должна учитывать в своей генерации возможные типы поведения реальных игроков из показанного ей геймплея, но что, если вы обучали ИИ на записях, сделанных во время альфа- или бета-тестирования? Или QA-тестирования? Что, если вам просто негде взять записи геймплея игроков после релиза игры, потому что игра ещё не вышла? Подойдёт ли в таком случае то, что нейросеть сможет сгенерировать, посмотрев, как десятки QA-специалистов ищут баги и пытаются всячески сломать игру?

Ни на один из этих и множества других вопросов представители Microsoft не отвечают. И не факт, что смогут ответить в ближайшем будущем.

Muse — даже в теории очень сомнительный инструмент для сохранения старых игр

Ещё одна проблема с Muse сводится к попытке Microsoft позиционировать нейросеть как инструмент для сохранения видеоигр. По словам главы Xbox Фила Спенсера, можно запросто представить мир, в котором Muse сможет проанализировать видео с геймплеем какой-нибудь старой игры и сделать так, что эту игру можно будет портировать на актуальную платформу.

Майкл Кук назвал рассуждения Спенсера «глупыми» и отметил, что Muse никак нельзя рассматривать как инструмент для сохранения видеоигр. Хотя бы потому, что сам процесс «сохранения» никак не уточняется и не поясняется. Прямо сейчас нейросеть Microsoft способна лишь воспроизводить видео с геймплеем с учётом поведения реальных игроков — и всё это на основе огромного количества данных из экшена, который при всём желании не получится назвать слишком уж комплексным. Как именно эта модель должна перерасти в технологию, способную портировать старые игры на новые платформы, не знает никто — в том числе, судя по всему, и сама Microsoft.

* * *

Тем не менее появление Muse — заметный шаг в очень сложном процессе, направленном на то, чтобы глубже внедрить нейросети в разработку игр. Пока, правда, этот шаг порождает больше вопросов и проблем, чем решений, но потенциально технология Microsoft способна сыграть важную роль в понимании того, как создатели видеоигр могли бы использовать ИИ для решения задач, на которые сейчас у них уходит слишком много времени.