Вышла Open-Sora 2.0 — ИИ‑модель для генерации видео с низкими затратами на обучение

Модель распространяется по принципу open-source и позволяет создавать ролики, качество которых не уступает творениям коммерческих аналогов.

Айрат Садыков

Раньше писал в Forbes про стартапы, карьеру и свой бизнес, ещё делал подкаст про региональных деятелей. Сейчас пишет про IT и бизнес в Skillbox Media.

Компания HPC-AI Tech представила Open-Sora 2.0 — модель искусственного интеллекта с открытым исходным кодом для генерации видео. В отличие от коммерческих решений, эта система достигает сопоставимого качества при значительно меньших затратах на обучение. Разработчики утверждают, что обучение Open-Sora 2.0 обошлось всего в 200 тысяч долларов. Это в десять раз меньше, чем у аналогичных моделей от крупных технологических компаний.

Ключевые особенности Open-Sora 2.0

Open-Sora 2.0 использует инновационные методы обучения, которые позволяют повысить качество итогового результата. Кроме того, она предлагает пользователям гибкие возможности управления процессом генерации.

1. Многоступенчатый процесс обучения

Open-Sora 2.0 проходит три основных этапа обучения:

на первом этапе модель обучается на видео низкого разрешения, и это позволяет ей освоить основные принципы движения и структуры сцены;
затем она переходит к обработке изображений и их преобразованию в видеоряд, и это улучшает её способность к созданию реалистичных кадров;
на заключительном этапе модель дообучается для генерации видео с более высоким разрешением, сохраняя при этом плавность и детализацию движений.

2. Эффективность благодаря Video DC-AE

Ключевой технологией Open-Sora 2.0 является автоэнкодер Video DC-AE, который обеспечивает высокое сжатие данных. Это даёт несколько преимуществ:

обучение модели ускоряется в 5,2 раза по сравнению с традиционными методами;
генерация видео становится в 10 раз быстрее, что делает модель более эффективной в реальных сценариях использования.

3. Гибкость генерации

Sora 2.0 поддерживает два режима работы:

создание видео на основе текстового описания;
генерация анимации на основе загруженного изображения, позволяющая пользователям превращать статичные картинки в динамичные сцены.

Кроме того, модель позволяет управлять интенсивностью движения объектов в видео, предоставляя пользователям больше контроля над конечным результатом.

Ограничения и перспективы

Несмотря на серьёзные достижения по качеству видео и стоимости обучения, Open-Sora 2.0 имеет некоторые ограничения. Сейчас модель генерирует видео разрешением 768×768 пикселей и продолжительностью до пяти секунд при частоте в 128 кадров. Однако даже при таких ограничениях качество получаемого контента сопоставимо с коммерческими моделями вроде Runway Gen-3 Alpha или HunyuanVideo.

Одно из ключевых преимуществ Open-Sora 2.0 — её открытость. Все ресурсы модели доступны для исследователей и разработчиков, а это способствует развитию технологий генерации видео и снижению барьеров для их использования.

Разработчики продолжают развивать и совершенствовать модель. По их словам, в будущем Open-Sora 2.0 может стать хорошей альтернативой коммерческим решениям для создания видео на основе ИИ.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!