Команда разработчиков Stability AI выпустила предварительную версию нейросети Stable Cascade для генерации изображений. Инженеры компании использовали адаптированную архитектуру Вюрстчена с коэффициентом сжатия в латентном пространстве до 42 раз.
![](/upload/setka_images/15290419022024_36a3861c8ef5745283b4607603422722a310ffd2.jpg)
Изображение: Stability AI / GitHub
Возможности Stable Cascade
Нейросеть состоит из трёх моделей машинного обучения, которые работают вместе. Суммарно Stable Cascade включает в себя 10 млрд параметров. Такое малое количество не снижает общее качество и позволяет запускать нейросеть на устройствах с ограниченным количеством ресурсов.
Важная особенность Stable Cascade заключается в том, что разработчики использовали адаптированную архитектуру Вюрстчена, которая сжимает латентное пространство. Благодаря этому изображения генерируются быстрее, и в итоге пользователю приходится меньше ждать результата работы нейросети. Представители компании отмечают, что Stable Diffusion может сжать изображение с разрешением 1024×1024 пикселей всего в 8 раз, добившись разрешения 128×128. В новой нейросети увеличенный коэффициент сжатия преобразует такое же изображение до картинки 24×24 пикселей.
![](/upload/setka_images/15292319022024_ea1401dc0d9826d0aeac3700c6ceae2f5749f405.jpg)
Изображение: Stability AI / GitHub
Stable Cascade поддерживает следующие режимы генерации:
- Text-to-Image. Позволяет создать картинку по текстовому описанию.
![](/upload/setka_images/15294819022024_bdf1c2ce81d2a07fd0ef1deade2ebba7824ed379.jpg)
Изображение: Stability AI / GitHub
- Image Variation. Нейросеть можно попросить сгенерировать несколько вариантов на основе одного запроса.
![](/upload/setka_images/15300319022024_eaba68218e8378d4cef6d317072551cb4a3dc811.jpg)
Изображение: Stability AI / GitHub
- Image-to-Image. Создание изображений на основе другого изображения.
![](/upload/setka_images/15301819022024_81f833fdede48a870f564a3a4c3604d1ae43a2fe.jpg)
Изображение: Stability AI / GitHub
- Inpainting/Outpainting. Заполнение области картинки по маске или расширение границ изображения.
![](/upload/setka_images/15303519022024_407d6b550a81d34e7ee1bc8c5b195177fe25be51.jpg)
Изображение: Stability AI / GitHub
- Canny Edge. Создание картинок по контурам или зарисовка и текстовому запросу.
![](/upload/setka_images/15304919022024_7dbfd551d69f3d6feb5998d27984ccf5f4ec8212.jpg)
Изображение: Stability AI / GitHub
- Super Resolution. Увеличение разрешения в два раза.
![](/upload/setka_images/15310319022024_082624acb6d55f040173375cf9b7cf65f94efd7d.jpg)
Изображение: Stability AI / GitHub
Разработчики Stability AI опубликовали код модели и данные для обучения и файн-тюнинга на GitHub и Hugging Face.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!