«Белоголовый орлан из какао, манго и взбитых сливок», «прозрачная скульптура утки из стекла, которая находится перед пейзажной картиной», «мраморная статуя Коалы-диджея перед мраморной статуей проигрывателя, на коале — большие мраморные наушники». Это примеры изображений, которые способна создать нейросеть Imagen. Команда исследовательского проекта Google Brain представила очередную модель, работающую на основе глубокого обучения.
От других нейросетей её отличает высокая степень реалистичности. Она использует большие языковые модели, например T5, предварительно обученные на текстовых корпусах. Сначала нейросеть генерирует картинку размером 64×64 пикселя, затем размер изображения увеличивается до 256×256 пикселей, а после этого до 1024×1024 пикселей. На каждом этапе она дорабатывает картинку для лучшего соответствия исходному запросу.
Опросы показали, что респонденты предпочитают изображения, созданные Imagen, картинкам, сгенерированным DALL-E 2. Создатели также отмечают, что наборы данных, на которых обучается ИИ, часто отражают социальные стереотипы, репрессивные точки зрения и оскорбительные ассоциации с разными маргинализованными группами. Поэтому нейросеть пока не работает в режиме открытого доступа — можно только посмотреть демоверсию.