Компания Stability AI выпустила инструмент Stable Audio, созданный на базе диффузионной модели машинного обучения. Пользователи могут создавать звуковые эффекты для видео, короткие музыкальные композиции и изолированные аудиодорожки музыкальных инструментов.
Обучение Stable Audio
Stability AI рассказала в своём блоге, что обучала модель на датасете из более чем 800 тысяч аудиофайлов музыки, записей музыкальных инструментов и шумов окружения. Кроме этого, использовались текстовые метаданные компании AudioSparx, которая занимается лицензированием треков. С их помощью модель машинного обучения узнавала о жанрах и типах обрабатываемых файлов.
Весь набор данных включает в себя более 19 тысяч часов аудио. Stability AI заявляет, что у неё есть разрешение на использование материалов с авторскими правами, входящих в датасет.
В итоге нейросеть Stable Audio может генерировать 95-секундные композиции с частотой дискретизации 44,1 кГц менее чем за секунду. Тесты проводились на графическом ускорителе Nvidia A100 с тензорными ядрами, специально разработанном для работы с искусственным интеллектом.
Тарифы
У Stable Audio есть три тарифа:
- бесплатная версия, позволяющая создавать 45-секундные композиции (в месяц доступно 20 генераций);
- тариф Proffesional с возможностью генерировать каждый месяц 500 треков длительностью до 90 секунд за 12 долларов;
- план Enterprise с индивидуальными лимитами и ценами, которые рассчитываются отдельно для каждого клиента.
Пользователи бесплатного тарифа могут использовать созданные композиции только в некоммерческих проектах. Для расширения возможностей потребуется купить подписку.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!