16 июн 2023
0

«Кандинский»: как пользоваться нейросетью «Сбера»

Генерировать картинки по текстовым промптам, совмещать несколько изображений и стирать ненужное ― «Кандинский» к вашим услугам.

Иллюстрация: ruDALL-E / Kandinsky 2.1 / Fusion Brain / Аня Макарова для Skillbox Media

Дарья Тамилина

Пишет о дизайне в Skillbox Media, а в перерывах и сама орудует графическим планшетом. Влюблена в советские шрифты, японскую рекламу и русский язык.

«Кандинский» ― генеративная нейросеть для создания картинок, российский аналог Midjourney. Работать с ИИ можно бесплатно, и он хорошо понимает русскоязычные запросы. Разбираемся, какой есть функционал у «Кандинского» и как применять его с пользой.

Из материала вы узнаете:

где найти «Кандинского» в интернете;
какие иллюстрации он может генерировать;
как пользоваться его интерфейсом;
чем «Кандинский» отличается от Midjourney и других нейросетей.

Где можно работать с «Кандинским»

У «Кандинского» есть сайт Fusion Brain с удобным интерфейсом. Но если он вам не подходит, то есть три альтернативных варианта:

на сайте ruDALL-E, но функционал там урезан ― можно генерировать картинки только по текстовому описанию;
в телеграм-боте доступен весь функционал, кроме инструмента «Ластик»;
в приложении «Салют» от «Сбера» можно сказать голосовому помощнику: «Включи художника» ― и откроется «Кандинский».

Что умеет «Кандинский»

«Сбер» выпустил свою первую нейросеть для генерации картинок ещё в 2021 году ― она называлась ruDALL-E. Её обучали на миллиарде связок «текст ― изображение». «Кандинский» унаследовал весь этот багаж знаний и прошёл дополнительное обучение ― на новом датасете из 170 млн пар «текст ― изображение». Нейросеть выпустили летом 2022 года, с тех пор уже вышло два обновления: в ноябре 2022 года и в апреле 2023-го.

Сейчас «Кандинский» может:

генерировать изображение с нуля по текстовому запросу на 101 языке и создавать картинки в разных стилях ― от фотореализма до рисованных иллюстраций;
редактировать картинки: на загруженном или сгенерированном изображении можно отметить неподходящие области и написать, чем их заменить, ― «Кандинский» перерисует фрагменты в отмеченном поле;
соединять два изображения в одно;
достраивать изображение: когда «Кандинский» сгенерировал картинку, он может дорисовать что-нибудь сверху, снизу, справа и слева. Работает примерно как новая ИИ-функция в Photoshop.

Вот примеры изображений «Кандинского»:

Интерфейс и функционал

Интерфейс официального сайта редактора выглядит так:

*Скриншот: сайт Fusion Brain / Skillbox Media*

По центру ― область для будущего изображения. По умолчанию размер 768×768 px, но его можно уменьшить с помощью фиолетовой рамки. В нижнем левом углу можно выбрать стиль изображения. По центру под этой рамкой ― область для промпта, там же и кнопка «Создать». А скачать получившееся изображение можно с помощью кнопки в верхнем правом углу.

Нейросеть сохраняет изображения, которые вы создали, только на время сеанса: пролистать их можно с помощью стрелочек слева от кнопки «Скачать». Если покинуть сайт, изображения уже нигде не удастся найти.

Если нужно изображение другого размера или формата, нейросеть может достроить своё сгенерированное изображение. Для этого надо сначала создать картинку 768×768 px, а потом подвинуть рамку. «Кандинский» заполнит всё пустое пространство в рамке с учётом исходного сюжета.

Ещё несколько функций редактора можно найти в меню в левом верхнем углу. Например, если нажать на иконку с картиной, можно добавить референс. Нейросеть не может значительно изменять загруженные картинки, но может заполнить пустое пространство вокруг. Для этого оптимально подходят картинки в PNG с прозрачным фоном.

Распознавать изображения «Кандинский» умеет не так хорошо, как текстовые запросы, ― реалистичных результатов добиться трудно. Мы скормили «Кандинскому» фотографию яблока и попросили, чтобы оно росло на дереве.

Аналогичным образом можно загружать два референса, и нейросеть заполнит пространство между ними по текстовому запросу.

Также справа от инструмента для загрузки фото есть инструмент «Ластик». Им можно стереть всё ненужное ― на загруженном или сгенерированном изображении. Потом нужно написать запрос, на что заменить неподходящие фрагменты, и нейросеть выдаст результат.

Как формулировать промпты

Протестировать «Кандинского» удобнее всего на официальном сайте Fusion Brain, здесь доступен весь функционал нейросети. Для хорошего результата важно правильно задать запрос:

Сначала укажите главные объекты на картинке.
Если нужно, укажите характеристики этих объектов (цвет, размер, текстура).
При необходимости добавьте действие, которое они должны совершать.
Задайте место действия (комната, улица, лес, космический корабль).
Можно задать стилистику рисования, если нужного варианта не нашлось в меню сервиса. Также для уточнения стилистики подойдут имена известных художников или фотографов.
Не упоминайте слишком много объектов с конкретными деталями ― так нейросеть может запутаться, и результат выйдет не таким, как хотелось.
В запросах избегайте частицы «не» и других отрицаний.

Принцип построения запроса один и тот же для всех нейросетей: в Midjourney и других «рисующих» ИИ этот чек-лист тоже можно использовать.

Для примера рассмотрим несколько англоязычных промптов, по которым «Кандинский» выдал качественные изображения.

Промпт: Dodge Durango in the mountains, art by Scott Jacobs.

Это короткий запрос: «Dodge Durango в горах, арт от Скотта Якобса». Тут есть всё необходимое: автор указал марку машины, локацию и стилистику работ конкретного художника. Результат такой:

Промпт: some sort of cat in the water, in the style of realistic and hyper-detailed renderings, dmitry spiros, green and amber, luke fildes, mikko lagerstedt, commission for, realistic lighting.

Это длинный, но очень подробный запрос: «кошка в воде, в стиле реалистичного и детализированного рендера, Дмитрий Спирос, зелёный и янтарный, Люк Филдс, Микко Лагерстед, иллюстрация на заказ, реалистичное освещение».

Промпт: Tupac Shakur street ghetto sepia style photography.

«Тупак Шакур гетто фотография в стиле сепия» ― по этому запросу получилась такая картинка с артефактами, присущими старым фото:

Промпт: Edith Piaf on stage watercolor style.

«Эдит Пиаф на сцене акварельный стиль» ― нейросеть выдала иллюстрацию, напоминающую акварельный скетч. На картинке есть даже текстура акварельной бумаги.

Пользователи отмечают, что разницы в качестве изображений с русскоязычными и англоязычными промптами нет. Вот, например, лиса в стиле картин Билибина, сгенерированная по запросам на двух языках.

По запросу на русском
*Изображение: eaglehaast / Habr*

По запросу на английском
*Изображение: eaglehaast / Habr*

«Кандинский» и конкуренты

«Кандинский» конкурирует не только с Midjourney: есть и другие ИИ для генерации картинок, в том числе и бесплатные. Попробуем сравнить, как разные сервисы справятся с рисованными и с фотореалистичными иллюстрациями. Возьмём два изображения Midjourney и попробуем повторить их запросы. По возможности будем выбирать подходящую стилистику в меню каждого редактора.