Команда разработчиков Stability AI выпустила предварительную версию нейросети Stable Cascade для генерации изображений. Инженеры компании использовали адаптированную архитектуру Вюрстчена с коэффициентом сжатия в латентном пространстве до 42 раз.

Изображение: Stability AI / GitHub
Возможности Stable Cascade
Нейросеть состоит из трёх моделей машинного обучения, которые работают вместе. Суммарно Stable Cascade включает в себя 10 млрд параметров. Такое малое количество не снижает общее качество и позволяет запускать нейросеть на устройствах с ограниченным количеством ресурсов.
Важная особенность Stable Cascade заключается в том, что разработчики использовали адаптированную архитектуру Вюрстчена, которая сжимает латентное пространство. Благодаря этому изображения генерируются быстрее, и в итоге пользователю приходится меньше ждать результата работы нейросети. Представители компании отмечают, что Stable Diffusion может сжать изображение с разрешением 1024×1024 пикселей всего в 8 раз, добившись разрешения 128×128. В новой нейросети увеличенный коэффициент сжатия преобразует такое же изображение до картинки 24×24 пикселей.

Изображение: Stability AI / GitHub
Stable Cascade поддерживает следующие режимы генерации:
- Text-to-Image. Позволяет создать картинку по текстовому описанию.

Изображение: Stability AI / GitHub
- Image Variation. Нейросеть можно попросить сгенерировать несколько вариантов на основе одного запроса.

Изображение: Stability AI / GitHub
- Image-to-Image. Создание изображений на основе другого изображения.

Изображение: Stability AI / GitHub
- Inpainting/Outpainting. Заполнение области картинки по маске или расширение границ изображения.

Изображение: Stability AI / GitHub
- Canny Edge. Создание картинок по контурам или зарисовка и текстовому запросу.

Изображение: Stability AI / GitHub
- Super Resolution. Увеличение разрешения в два раза.

Изображение: Stability AI / GitHub
Разработчики Stability AI опубликовали код модели и данные для обучения и файн-тюнинга на GitHub и Hugging Face.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!