Google создала нейросеть Imagen, которая генерирует изображения по описанию

Она понимает текст лучше, чем DALL-E 2, а картинки выдаёт в более высоком качестве.

Дмитрий Зверев

Любитель научной фантастики и технологического прогресса. Хорошо сочетает в себе заумного технаря и утончённого гуманитария. Пишет про IT и радуется этому.

Что за нейросеть? Её разработала команда исследовательского проекта Google Brain, которая занимается изучением искусственного интеллекта на основе глубокого обучения. Нейросеть Imagen умеет распознавать текст и генерировать изображения маленького размера, а потом с помощью метода диффузии доводить их до большего размера.

Нейросеть улучшает изображения до тех пор, пока не решит, что не может сделать его ещё более приближённым к заданному описанию. Однако это не похоже на обычное масштабирование, потому что Imagen дополняет картинку новыми деталями.

Котики, собачки и еноты от Imagen. Источник: Google Research

Как нейросеть работает? Команда разработчиков Imagen описывает процесс создания картинок так:

сначала нейросеть получает описание — например, «собака на велосипеде»;
затем она создаёт первую версию изображения, где ширина глаза пса будет 3 пикселя;
после этого запускается диффузия, в процессе которой нейросеть расширяет ширину глаза на первом шагу до 12 пикселей, а на втором — до 48.

Imagen работает как художник, который начинает со схематичного наброска, постепенно дополняющегося деталями.

Чем Imagen лучше других нейросетей? Разработчики сравнили Imagen с аналогичной нейросетью DALL-E 2 от OpenAI. По итогам тестирования они выяснили, что Imagen выдаёт более точные и достоверные работы. Но были запросы, по которым обе нейросети не смогли создать соответствующие изображения. Например, обрабатывая запрос «лошадь верхом на астронавте», нейросети постоянно ставили астронавта на лошадь, а не наоборот.

Сравнение Imagen с другими нейросетями по показателям «Выравнивание» и «Достоверность». Источник: Google Research

Как протестировать нейросеть? Пока никак, потому что Imagen работает в режиме закрытой бета-версии. Команда Google боится, что пользователи будут использовать нейросеть для генерации неприемлемых изображений и усугублять принятые обществом предрассудки и стереотипы.

Подробнее прочитать об Imagen и посмотреть сгенерированные картинки можно на сайте Google Research.

Читайте также: