OpenAI выпустила новое поколение аудиомоделей ИИ

Они лучше распознают голосовые команды пользователя, а ещё у них есть функция, позволяющая настроить стиль речи.

Айрат Садыков

Раньше писал в Forbes про стартапы, карьеру и свой бизнес, ещё делал подкаст про региональных деятелей. Сейчас пишет про IT и бизнес в Skillbox Media.

Компания OpenAI представила новое поколение аудиомоделей, предоставляющих разработчикам расширенные возможности для того, чтобы настроить голосовые ИИ-интерфейсы. Обновления включают в себя улучшенное распознавание голосовых запросов и возможность управления стилем речи ИИ с помощью текстовых команд.

Какие улучшения у аудиомоделей

Новые модели, gpt-4o-transcribe и gpt-4o-mini-transcribe, обеспечивают более точное преобразование речи в текст по сравнению с другими системами, включая Whisper. Они показывают высокую эффективность: распознавание голосовых запросов работает достаточно точно даже в том случае, если у пользователя сильный акцент, шум на фоне и вариативная скорость речи.

Особого внимания заслуживает модель gpt-4o-mini-tts, преобразующая текст в аудио. Она способна адаптировать стиль речи ИИ в ответ на инструкции вроде «говорите как пират» или «расскажите это как сказку на ночь». Эти функции работают на основе архитектур GPT-4o и GPT-4o-mini, поддерживающих обработку различных типов данных.

Подобных улучшений удалось достичь благодаря специализированному предварительному обучению на аудиоданных, эффективным методам сжатия моделей и расширенному использованию обучения с подкреплением. Кроме того, в модели внедрили методы «самообучения» для имитации естественного общения.

Доступность и перспективы

Разработчики могут получить доступ к новым ИИ-моделям через API OpenAI и интегрировать их с помощью Agents SDK. Для приложений, работающих в реальном времени, предлагается Realtime API с функцией преобразования текста в речь. Сейчас доступны предустановленные искусственные голоса OpenAI, однако в будущем планируется поддержка пользовательских голосов с соблюдением стандартов безопасности. Кроме того, разработчики собираются расширить возможности моделей до мультимодального взаимодействия, включая видео.

Это обновление следует за представлением в марте 2024 года голосового движка Voice Engine, который был ограничен собственными продуктами и избранными клиентами. В новых моделях, заменяющих предыдущие решения, предоставляются более широкие мультимодальные возможности.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Читайте также: