9 новых нейросетей: для генерации видео, создания качественных картинок и не только

Всё, что вы могли пропустить.

Иллюстрация: Полина Честнова для Skillbox Media

Ксения Коростелева

Журналистка. Пишет новости про дизайн, а в свободное время курирует выставки и рассказывает про современное искусство.

За всеми новомодными нейросетями не уследишь, но мы попробовали. Собрали самые многообещающие анонсы последних месяцев в одной подборке.

PixArt-Σ — для создания картинок в 4К

Эту нейросеть сделали в Huawei. От предыдущих версий её отличает качество изображения. PixArt-Σ может создавать изображения размером до 3840×2560 пикселей с любым соотношением сторон без промежуточного масштабирования.

Правда, создатели не показали, какие текстовые промпты были в их примерах изображений. PixArt на самом деле может работать хуже или медленнее других моделей, потому что его обучение сосредоточено на фотографиях с высоким разрешением. Более раннюю версию, PixArt-α, в итоге выпустили с открытым исходным кодом, но пока неизвестно, будет ли то же самое с PixArt-Σ.

Vlogger — для анимации фото человека

Нейросеть не требует обучения на фотографиях каждого конкретного человека, не полагается на распознавание лица, генерирует полное изображение (а не только лицо или губы) и работает, если на фото видно торс или присутствуют другие люди. С её помощью можно создать фотореалистичное видео заданной длины, изображающее речь персонажа фотографии, включая его мимику и жесты.

Project Music GenAI Control — для создания музыки

Эту нейросеть анонсировали в Adobe. Инструмент будет создавать музыку на основе текстового запроса. Например, «мощный рок», «грустный джаз» или «весёлый танец». Затем результат можно будет отредактировать. Например, скорректировать темп, структуру и паттерны, увеличить или уменьшить интенсивность звука, увеличить длину трека, микшировать её часть или создать плавно повторяемый цикл.

Sora — для генерации видео

Её сделал разработчик чат-бота ChatGPT, американская компания OpenAI. Sora по промпту может создать видео длиной до минуты с сохранением визуального качества. Сейчас она в бета-версии. Её тестируют на предмет вреда или рисков. А ещё к ней дали доступ ряду художников, дизайнеров и режиссёров для сбора обратной связи.

Adobe GenStudio — для создания рекламы

С помощью нового инструмента можно быстро делать пресс-киты и рекламные посты для разных соцсетей, сохраняя тон-оф-войс бренда. Общедоступная версия появится в этом году. По словам Adobe, цены не фиксированы и будут варьироваться в зависимости от компании.

Image to SFX — для озвучивания картинок

Забавный онлайн-инструмент позволяет превратить любое изображение в звуковой файл. Пользователи также могут повлиять на результат, выбрав одну из трёх моделей для решения задачи — MAGNet, AudioLDM-2 и AudioGen: у каждой свои преимущества.

*Скриншот: сайт Hugging Face / Skillbox Media*

AI Playlist — для подборки плейлистов

Сейчас такая функция доступна премиум-подписчикам Spotify в Великобритании и Австралии. Выбрав опцию «AI-плейлист», пользователи могут ввести промпт, например «музыка для чтения в холодный дождливый день», чтобы получить список из 30 песен, соответствующих этой атмосфере. Результаты можно настроить с помощью дополнительных подсказок, например «грустнее».

*Скриншот: сайт PlaylistAi / Skillbox Media*

SIMA — для прохождения игр

Google DeepMind обучили эту нейросеть на таких играх, как Valheim, No Man’s Sky и Goat Simulator. Со временем она научится проходить какие угодно видеоигры, включая игры с открытым миром и игры с нелинейным повествованием. Её тренируют понимать естественный язык и распознавать изображения и трёхмерные миры. Причём скорее в играх без чёткого нарратива. Например, в таких, как симулятор козла: там нужно делать спонтанные поступки.

*Изображение: SIMA Team / Google DeepMind*

Сейчас SIMA имеет около 600 базовых навыков, таких как поворот налево, подъём по лестнице и открытие игрового меню для использования карты. Со временем она станет ещё одним полноценным игроком, влияющим на результат.

Voice Engine — для копирования голоса

Модель разрабатывают с конца 2022 года и учат читать вслух в ChatGPT. Сейчас бета-версию тестируют первые пользователи — десять разработчиков. Нейросеть может создавать синтетический голос на основе 15-секундного фрагмента чьей-либо речи.

Разумеется, использование подобного ИИ вызывает массу этических вопросов. По данным OpenAI, разработчики приняли политику использования Voice Engine, где обещали не использовать нейросеть для выдачи себя за людей или организации без их согласия. Для этого нужно получить «явное и осознанное согласие» первоначального говорящего и раскрывать слушателям, что голос был сгенерирован искусственным интеллектом.

OpenAI предлагает несколько вариантов того, как можно ограничить риски, связанные с подобными инструментами. Например, постепенно отказаться от голосовой аутентификации для доступа к банковским счетам, разработать правила защиты голосов людей, повышать информированность о дипфейках и создать системы отслеживания ИИ-контента.

Больше интересного про дизайн в нашем телеграм-канале. Подписывайтесь!

Читайте также: