«Яндекс» расширяет функционал своей нейросети «Шедеврум» — теперь она может генерировать короткие видеоролики по текстовому запросу. Об этом компания рассказала в своём блоге.
Как это работает?
Для генерации видео в «Шедевруме» необходимо описать текстом конечный результат. В ответ на запрос приложение изначально предложит четыре варианта первого кадра и эффекты, которые можно использовать: зум (приближение), таймлапс (ускоренная перемотка), полёт, панорама, вращение, подъём и морфинг (постепенное изменение).
После этого нейросеть генерирует несколько изображений на основе выбранного пользователем и объединяет их, используя один из эффектов. В итоге получается видео длиной четыре секунды и частотой 24 кадра в секунду.

Результат можно сохранить в формате MP4 или поделиться в ленте приложения. Пока что функция доступна в режиме тестирования для активных пользователей «Шедеврума».
В основе генерации видео лежит метод каскадной диффузии. Нейросеть создаёт первичное изображение в ответ на запрос пользователя, а затем повышает его разрешение и добавляет новые детали. Так работает и обычная генерация картинок в «Шедевруме».
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!