Дизайн
#статьи

Midjourney: погружение в воображаемые миры

Рассказываем, как устроена эта нейросеть, что она умеет и как начать с ней работать.

Иллюстрация: Аня Макарова для Skillbox Media

Нейросети значительно облегчают работу человека: они могут управлять автомобилем, писать музыку, создавать осмысленные тексты и даже диагностировать заболевания по снимкам.

Один из самых заметных проектов последнего времени ― нейросеть Midjourney. Разбираемся, что это такое и как с этой сетью работать.

Скриншот: сайт Midjourney

Из статьи вы узнаете:


Что такое Midjourney

Midjourney ― нейронная сеть, которая рисует изображения по текстовому описанию от пользователя. Достаточно сформулировать, что ты хочешь получить, и программа выдаст результат в заданном стиле.

Изображения в разных стилях, полученные с помощью Midjourney
Изображение: Midjourney / Skillbox Media

Midjourney может создавать картины, делать стилизации в духе популярных фильмов, а также выдумывать облики сказочных существ. Если раньше для того, чтобы заниматься графикой, требовался талант или специальное образование, то благодаря Midjourney воплощать свои графические идеи смогли даже те, кто вообще не умеет рисовать.

Как работают нейросети

Нейросеть ― программа, которая устроена по принципу нейронных связей в человеческом головном мозге. Впервые этот термин появился ещё в середине ХХ века, когда учёные решили попробовать создать технологию, которая могла бы повторить работу мозга человека.

Визуализация нейронных связей нервной системы человека
Изображение: whitehoune / Shutterstock

Нейронные сети по своей структуре имитируют нервную систему. Они состоят из множества нейронных процессоров — «узлов» по типу нейронов в мозге. Каждый из узлов может анализировать данные, полученные при взаимодействиях с человеком или другими узлами. В результате современные нейросети могут самостоятельно обучаться, находить ошибки в своей работе и применять предыдущий опыт.

Разработчики нейросетей редко используют термин «искусственный интеллект», они придерживаются понятия «машинное обучение». Суть его не в решении задачи по конкретному алгоритму, а в создании алгоритма на основе многих аналогичных задач. Ещё один термин ― «глубокое обучение» (с англ. «deep learning»). Это одно из направлений машинного обучения, которое работает с большим объёмом данных (big data) для поиска закономерностей и взаимосвязей.

Но в XX веке технологических возможностей было недостаточно. Углублённое изучение нейронных сетей началось в начале нулевых. В это время появились мощные процессоры, следовательно, и возможность обрабатывать большие массивы информации.

Несмотря на то что громко заговорили о нейросетях лишь недавно, такие корпорации, как Google, Apple, «Яндекс» начали использовать возможности ИИ более десяти лет назад. Так, ещё в 2009 году «Яндекс» интегрировал в свою поисковую систему метод «Матрикснет», который строит ранжирование ссылок на основе обучения. А в 2010 году Apple приобрели Siri ― она распознаёт речь с помощью искусственного интеллекта.

Всплеск интереса к нейросетям со стороны обычного пользователя ― момент, когда результат работы искусственного интеллекта стал осязаем и возможность повлиять на него получил каждый.

Сюжет «Две британские леди приклеивают звёзды на небо лунной ночью»
Изображение: Midjourney / Skillbox Media

Как работает Midjourney

Нейросеть Midjourney работает на основе двух научных достижений в области работы над ИИ ― возможности распознавать человеческую речь и умении создавать картинки и образы. Программа использует глубокое обучение и выстраивает взаимосвязи между введённым запросом от человека и данными из огромной загруженной в неё библиотеки.

Попытки создать подобную программу были и раньше. Например, приложение Prisma превращало фотографии в «картины», используя стили знаменитых художников. Несмотря на успех Prisma, Midjourney выигрывает как в популярности, так и в функциональности. Эта нейросеть может не только копировать и применять стили, но также создавать собственные изображения с нуля и даже имитировать фото.

Сюжет «Металлический робот с квадратной головой рисует картинки. В стиле комикса»
Изображение: Midjourney / Skillbox Media

Аналоги Midjourney существуют, но уступают ей. Например, разработанная OpenAI нейросеть DALL-E 2 не обладает такой степенью детализации. А для работы в десктопной Stable Diffusion нужен производительный компьютер и навыки программирования.

Сколько стоит Midjourney

Первая бета-версия Midjourney появилась в 2022 году. Изначально программа давала 25 бесплатных попыток, которых хватало максимум на 12 изображений. Но недавно Midjourney ввела ограничения для новых пользователей, сократив время для бесплатной генерации изображений до 15 минут, причём даже эта возможность доступна не всегда.

Сейчас на сайте указано три платных тарифных плана. Их стоимость формирует в первую очередь время доступа к ускоренной обработке задач и количество заданий, которые можно обрабатывать одновременно.

На базовом тарифе можно генерировать изображение суммарно чуть более трёх часов, причём только в ускоренном режиме. Тариф Standart стоит 30 долларов в месяц, в нём доступна опция медленной загрузки процессора, и время для генерации изображений не ограничено.

Нейросеть постоянно обучается, и к этому привлекают пользователей. Оценивая картинки нейросети, можно зарабатывать себе дополнительное время увеличенных мощностей для генерации изображений ― эта опция доступна на всех платных тарифах.

Сравнить тарифные планы можно на сайте Midjourney.

Как начать пользоваться Midjourney

Зайдите на сайт midjourney.com. Здесь можно прочитать, что это за инструмент, какие у него условия использования, и посмотреть работы пользователей, которые появляются в галерее в режиме реального времени.

Нейросеть Midjourney реализована в виде бота, который работает на базе бесплатного мессенджера Discord. Для того чтобы начать пользоваться Midjourney, нужно зарегистрироваться в Discord и подключить бота к своему каналу.

Шаг 1: переход в Discord

На сайте midjourney.com нажмите кнопку Join the Beta в правом нижнем углу. Вас перебросит на Discord-сервер нейросети ― здесь будет происходить всё взаимодействие с Midjourney.

На открывшейся странице вам нужно ввести свой логин и пароль или пройти несложную процедуру регистрации.

Скриншот: канал Midjourney / Skillbox Media

Шаг 2: создание сервера

Нажмите на кнопку со знаком «+» на левой панели и создайте свой сервер. В открывшемся окне Create a server выберите «Свой шаблон» (Create My Own) → «Для меня и моих друзей» (For me and my friends). Задайте серверу имя.

Скриншот: канал Midjourney / Skillbox Media
Скриншот: канал Midjourney / Skillbox Media

Шаг 3: переход в чат

Нажмите на белую иконку с корабликом в левом меню, чтобы перейти в чат Midjourney. В нём вы увидите сообщения разработчиков об обновлениях. Вам же нужно перейти в блок Newcomer Room ― раздел для новых пользователей ― и выбрать в нём чат, название которого начинается с newbies.

Скриншот: канал Midjourney / Skillbox Media

Шаг 4: подключение бота к серверу

В правой части экрана будет показан список участников чата. Если их не видно, то нажмите на значок с человечками в правой части верхней панели.

Сначала идут члены команды, а под ними ― подключённый к чату бот: Midjourney Bot. Кликните по названию бота, чтобы добавить его на свой сервер.

Скриншот: канал Midjourney / Skillbox Media

В этом же окне будут перечислены основные команды, при помощи которых можно управлять ботом:

  • /image ― создать изображение;
  • /info ― посмотреть информацию о своём профиле;
  • /blend ― смешать два изображения в одно;
  • /settings ― посмотреть и изменить настройки;
  • /subscribe ― оформить подписку.

В открывшемся окне нажмите на кнопку «Добавить на свой сервер» (Add to Server) и в выпадающем списке выберите свой сервер, название для которого вы придумали ранее. Согласитесь с предложенными настройками и нажмите «Продолжить» (Continue).

Скриншот: канал Midjourney / Skillbox Media

Шаг 5: работа на своём сервере

Теперь переходите на свой сервер ― его значок находится в столбце под иконкой личных сообщений.

Шаг 6: подключение Midjourney

На своём сервере нажмите на значок «+» слева от поля ввода текста внизу экрана и кликните по строчке «Использовать приложения» (Use Apps).

Скриншот: канал Midjourney / Skillbox Media

В открывшемся списке в левом столбце будут перечислены все подключённые боты, в том числе и Midjourney.

Шаг 7: настройки нейросети

Введите в текстовое поле /settings, чтобы открыть настройки бота, и нажмите Enter. В появившемся сообщении он предложит выбрать параметры, с которыми вы будете работать.

Поскольку Midjourney ― бот, то давать команды нужно при помощи текстовых операторов. Подсказка с ними появляется, если набрать в текстовой строке значок «/», также система сама достраивает слово-оператор по мере набора текста.

Скриншот: канал Midjourney / Skillbox Media

Оптимальные настройки для начала работы:

  • последняя версия нейросети (MJ version 5.1);
  • базовое качество изображения (Base quality);
  • средний уровень стилизации (Style med);
  • средняя скорость (Relax mode), если она предусмотрена тарифом, ― чтобы не тратить быстрые часы во время освоения бота.

Их можно изменить в любой момент на своём канале.

Скриншот: канал Midjourney / Skillbox Media

Режимы MJ version от 1 до 5.1 указывают на версию нейросети. Лучше всего использовать последнюю: по сравнению с предыдущими версиями она имеет большую детализацию изображений, выдаёт картинки более высокого разрешения и лучше понимает запросы.

Режим Niji в этом же списке генерирует изображения в стиле аниме и манги. Это совместный алгоритм от Midjourney и Spellbrush ― создателей первого генератора аниме-персонажей с ИИ.

Сюжет «Бегемот на роликах» в стиле аниме
Изображение: Midjourney / Skillbox Media

Режимы Style от low до high задают, насколько творчески сеть должна подходить к технике рисунка. Чем более высокий уровень выставлен в настройках, тем свободнее будет стилизация изображения. Эффект может быть интересным, но управлять фантазией нейросети сложно.

Сюжет «Бегемот на роликах»: слева низкая стилизация, справа ― максимальная
Изображение: Midjourney / Skillbox Media

Опция Stealth mode позволяет работать в закрытом доступе, а Remix mode смешивает две картинки между собой.

Шаг 8: создание картинки

Теперь введите оператор /imagine. Нажмите на эту команду и в появившемся поле prompt рядом с командной строкой можно написать запрос. Чем более подробным будет запрос, тем больше нужных вам деталей включит в изображение сеть.

Скриншот: канал Midjourney / Skillbox Media

Вам будет предложено принять пользовательское соглашение ― кликните по зелёной кнопке ToS.

Скриншот: канал Midjourney / Skillbox Media

Нажатие клавиши Enter отправит «задание» нейросети.

Пока что Midjourney понимает достаточно ограниченный набор русских слов, поэтому запрос нужно отправлять на английском языке.

Наблюдать за созданием картинки можно в режиме реального времени.

Создание изображения ― процесс завершён только на 31%
Скриншот: канал Midjourney / Skillbox Media

Права на изображения Midjourney

Многие думают, что если изображение создала нейросеть, то права на него автоматически принадлежат пользователю-автору, ведь нейросеть ― это технология и обладать авторскими правами она не может. Но всё не так просто. Разработчики вложили в создание сети немало ресурсов, а сама Midjourney принадлежит компании Midjourney Inc.

Права на картинки, сделанные с помощью Midjourney, прописаны в Пользовательском соглашении и зависят от подписки на сервис.

При бесплатной подписке на полученные изображения действует лицензия Creative Commons Noncommercial 4.0 Attribution International. Таким образом, делиться, изменять и распространять результаты работы нейросети можно с указанием источника, а коммерческое использование ― запрещено.

В коммерческих целях использовать картинки Midjourney можно только участникам платных программ.

Как не попасться на удочку искусственного интеллекта

Ещё до появления Midjourney учёные заметили, что людям всё сложнее становится распознавать различия между реальными фото и результатом работы нейросетей.

В 2022 году Хани Фарид, профессор из Калифорнийского университета в Беркли, и Софи Найтингейл из Ланкастерского университета в Англии провели исследование. В его ходе они предлагали испытуемым определить, какой портрет сделан при помощи фотографии, а какой ― нейросетью. По итогам выяснилось, что участники смогли определить настоящие лица лишь с точностью в 48,2%.

Мы собрали несколько подсказок, которые помогут отличить изображение, созданное нейросетью, от фотографии или картины, сделанных человеком.

Обращайте внимание на:

1. Анатомия человека

Очень часто нейросети изображают руки с большим количеством пальцев, положение которых далеко от физиологичного. Проблема частично устранена только в последней версии Midjourney, при более ранних версиях приходилось использовать сторонний плагин, исправляющий эту ошибку.

На нейросетевое происхождение этой крестьянки указывает странный наряд и количество пальцев на руке
Изображение: Midjourney / Skillbox Media

Зубы на картинках нейросети тоже выглядят нереалистично ― их бывает слишком много. А вот обсчитаться в количестве глаз сложнее ― только смотрят они практически всегда как будто в никуда: взгляд на большинстве портретов пустой и безжизненный.

2. Искажения в деталях

Нейросети хорошо справляются с крупными планами, поскольку они содержат меньше деталей. Ведь чем больше разнородных элементов на картинке, тем сложнее не ошибиться в их воспроизведении. По этой же причине нейросети почти всегда размывают фон за главным героем.

Также нейросети сложно даются функциональные элементы, поскольку она «не понимает» их назначения. Предметы выглядят похожими на реально существующие, но при этом в жизни ими пользоваться было бы невозможно.

На куртке правого манекена пяти прорезям соответствует семь пуговиц, расположенных на произвольных расстояниях друг от друга
Изображение: Midjourney / Skillbox Media

3. Логотипы, надписи, узоры

Искусственный интеллект ещё не умеет рисовать логотипы и текст, так как не понимает логики знаков и того, что у надписи есть смысл. Например, татуировки чаще всего не имеют оформленного рисунка и сюжета, особенно если содержат всё те же надписи.

Издалека татуировки выглядят правдоподобно, но если приглядеться, то становится заметно, что это хаос, не имеющий смысла
Изображение: Midjourney / Skillbox Media

4. Симметрия

Пока что нейросети не до конца научились делать симметричные объекты, поскольку не совсем понимают, что же они рисуют. За время обучения алгоритмы хорошо усваивают, как устроены лица и морды животных, симметрия тела и насекомых. При этом им пока что не под силу опознать устройство, например, человеческой одежды. Нередко пиджаки имеют полы разной длины, левая часть предмета не соответствует правой. Симметричные узоры также выглядят идеальными лишь на первый взгляд ― творчество нейросети в них выдаёт несовпадение в мелочах, если приглядеться.

Очень правдоподобный снимок за одним исключением: на правом ботинке пять отверстий для шнурков, а на левом ― только четыре
Изображение: Midjourney / Skillbox Media

5. Культурный контекст

Несмотря на то что нейронные сети быстро учатся, они ещё не могут разбираться в исторических и культурных реалиях. И здесь бывает много смешных ошибок. Например, три одновременно надетых православных крестика, ордена за военные заслуги, распределённые по всему мундиру, нелепая шляпка, не соответствующая эпохе. Именно поэтому нейросетям лучше всего даются вымышленные, фантастические сюжеты.

Конечно же, сноубордисты носят только одну пару очков: или на лице, или на шлеме
Изображение: Midjourney / Skillbox Media

Как итог

Midjourney сегодня ― один из лучших инструментов для создания изображений при помощи искусственного интеллекта. Алгоритмы сети постоянно совершенствуются и хорошо интерпретируют задания пользователей. Нейросеть по-прежнему совершает ошибки, которые выявить становится всё более сложно. К сожалению, сейчас её бесплатные возможности сильно ограничены, но недорогая подписка предоставляет широчайшие возможности для использования заложенного в сеть функционала.

Больше интересного про дизайн в нашем телеграм-канале. Подписывайтесь!

Освойте топовые нейросети за один день. Бесплатно
Знакомимся с ChatGPT-4, DALLE-3, Midjourney, Stable Diffusion, Gen-2 и нейросетями для создания музыки. Практика в реальном времени. Подробности — по клику.
Узнать больше
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована