Что за нейросеть? Её разработала команда исследовательского проекта Google Brain, которая занимается изучением искусственного интеллекта на основе глубокого обучения. Нейросеть Imagen умеет распознавать текст и генерировать изображения маленького размера, а потом с помощью метода диффузии доводить их до большего размера.
Нейросеть улучшает изображения до тех пор, пока не решит, что не может сделать его ещё более приближённым к заданному описанию. Однако это не похоже на обычное масштабирование, потому что Imagen дополняет картинку новыми деталями.
Как нейросеть работает? Команда разработчиков Imagen описывает процесс создания картинок так:
- сначала нейросеть получает описание — например, «собака на велосипеде»;
- затем она создаёт первую версию изображения, где ширина глаза пса будет 3 пикселя;
- после этого запускается диффузия, в процессе которой нейросеть расширяет ширину глаза на первом шагу до 12 пикселей, а на втором — до 48.
Imagen работает как художник, который начинает со схематичного наброска, постепенно дополняющегося деталями.
Чем Imagen лучше других нейросетей? Разработчики сравнили Imagen с аналогичной нейросетью DALL-E 2 от OpenAI. По итогам тестирования они выяснили, что Imagen выдаёт более точные и достоверные работы. Но были запросы, по которым обе нейросети не смогли создать соответствующие изображения. Например, обрабатывая запрос «лошадь верхом на астронавте», нейросети постоянно ставили астронавта на лошадь, а не наоборот.
Как протестировать нейросеть? Пока никак, потому что Imagen работает в режиме закрытой бета-версии. Команда Google боится, что пользователи будут использовать нейросеть для генерации неприемлемых изображений и усугублять принятые обществом предрассудки и стереотипы.
Подробнее прочитать об Imagen и посмотреть сгенерированные картинки можно на сайте Google Research.