«Белоголовый орлан из какао, манго и взбитых сливок», «прозрачная скульптура утки из стекла, которая находится перед пейзажной картиной», «мраморная статуя Коалы-диджея перед мраморной статуей проигрывателя, на коале — большие мраморные наушники». Это примеры изображений, которые способна создать нейросеть Imagen. Команда исследовательского проекта Google Brain представила очередную модель, работающую на основе глубокого обучения.

Фото: Google (imagen.research.google)
От других нейросетей её отличает высокая степень реалистичности. Она использует большие языковые модели, например T5, предварительно обученные на текстовых корпусах. Сначала нейросеть генерирует картинку размером 64×64 пикселя, затем размер изображения увеличивается до 256×256 пикселей, а после этого до 1024×1024 пикселей. На каждом этапе она дорабатывает картинку для лучшего соответствия исходному запросу.

Фото: Google (imagen.research.google)
Опросы показали, что респонденты предпочитают изображения, созданные Imagen, картинкам, сгенерированным DALL-E 2. Создатели также отмечают, что наборы данных, на которых обучается ИИ, часто отражают социальные стереотипы, репрессивные точки зрения и оскорбительные ассоциации с разными маргинализованными группами. Поэтому нейросеть пока не работает в режиме открытого доступа — можно только посмотреть демоверсию.

Фото: Google (imagen.research.google)

Фото: Google (imagen.research.google)

Фото: Google (imagen.research.google)

Фото: Google (imagen.research.google)

Фото: Google (imagen.research.google)

Фото: Google (imagen.research.google)

Фото: Google (imagen.research.google)