Нейросеть «Яндекса» научилась генерировать короткие видео

Выглядит странно, но ждём дальнейшего развития.

Редакция «Код» Skillbox Media

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

«Яндекс» расширяет функционал своей нейросети «Шедеврум» — теперь она может генерировать короткие видеоролики по текстовому запросу. Об этом компания рассказала в своём блоге.

Как это работает?

Для генерации видео в «Шедевруме» необходимо описать текстом конечный результат. В ответ на запрос приложение изначально предложит четыре варианта первого кадра и эффекты, которые можно использовать: зум (приближение), таймлапс (ускоренная перемотка), полёт, панорама, вращение, подъём и морфинг (постепенное изменение).

После этого нейросеть генерирует несколько изображений на основе выбранного пользователем и объединяет их, используя один из эффектов. В итоге получается видео длиной четыре секунды и частотой 24 кадра в секунду.

Результат можно сохранить в формате MP4 или поделиться в ленте приложения. Пока что функция доступна в режиме тестирования для активных пользователей «Шедеврума».

В основе генерации видео лежит метод каскадной диффузии. Нейросеть создаёт первичное изображение в ответ на запрос пользователя, а затем повышает его разрешение и добавляет новые детали. Так работает и обычная генерация картинок в «Шедевруме».

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!