Компания OpenAI представила новое поколение аудиомоделей, предоставляющих разработчикам расширенные возможности для того, чтобы настроить голосовые ИИ-интерфейсы. Обновления включают в себя улучшенное распознавание голосовых запросов и возможность управления стилем речи ИИ с помощью текстовых команд.
Какие улучшения у аудиомоделей
Новые модели, gpt-4o-transcribe и gpt-4o-mini-transcribe, обеспечивают более точное преобразование речи в текст по сравнению с другими системами, включая Whisper. Они показывают высокую эффективность: распознавание голосовых запросов работает достаточно точно даже в том случае, если у пользователя сильный акцент, шум на фоне и вариативная скорость речи.
Особого внимания заслуживает модель gpt-4o-mini-tts, преобразующая текст в аудио. Она способна адаптировать стиль речи ИИ в ответ на инструкции вроде «говорите как пират» или «расскажите это как сказку на ночь». Эти функции работают на основе архитектур GPT-4o и GPT-4o-mini, поддерживающих обработку различных типов данных.
Подобных улучшений удалось достичь благодаря специализированному предварительному обучению на аудиоданных, эффективным методам сжатия моделей и расширенному использованию обучения с подкреплением. Кроме того, в модели внедрили методы «самообучения» для имитации естественного общения.
Доступность и перспективы
Разработчики могут получить доступ к новым ИИ-моделям через API OpenAI и интегрировать их с помощью Agents SDK. Для приложений, работающих в реальном времени, предлагается Realtime API с функцией преобразования текста в речь. Сейчас доступны предустановленные искусственные голоса OpenAI, однако в будущем планируется поддержка пользовательских голосов с соблюдением стандартов безопасности. Кроме того, разработчики собираются расширить возможности моделей до мультимодального взаимодействия, включая видео.
Это обновление следует за представлением в марте 2024 года голосового движка Voice Engine, который был ограничен собственными продуктами и избранными клиентами. В новых моделях, заменяющих предыдущие решения, предоставляются более широкие мультимодальные возможности.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!