Код
#новости

ChatGPT научили распознавать голос и изображения

Теперь нейросеть понимает голосовые запросы и озвучивает свои ответы.

Разработчики OpenAI обучили ChatGPT распознавать голос, отвечать вслух и анализировать картинки. К примеру, пользователь может просто побеседовать с чат-ботом или отправить ему фотографию достопримечательности из путешествия, чтобы узнать про неё больше.

Почти голосовой ассистент

Пока ChatGPT не умеет самостоятельно управлять устройствами, поэтому не сможет заменить привычных ассистентов. Но чат-бот уже распознаёт человеческую речь с помощью нейросети Whisper, разработанной OpenAI. Для обучения модели использовали более 680 тысяч часов голосовых аудиозаписей. В итоге чат-бот понимает английскую речь с акцентом, разбирается в технических терминах и отличает фоновые шумы от голоса.

Кроме того, ChatGPT умеет озвучивать свои ответы. Для этого разработчики подготовили пять голосов — два женских, два мужских и один нейтральный. Генерация голоса стала возможной благодаря новой модели машинного обучения. Этой технологией уже пользуется Spotify для перевода подкастов на иностранные языки.

Распознавание изображений

Вместе с голосовыми технологиями OpenAI добавила функцию продвинутого распознавания изображений. Система анализирует детали фотографий, складывая их в цельную картинку. К примеру, чат-боту можно прислать снимок полок открытого холодильника и попросить придумать ужин из того, что есть.

Если у ChatGPT появятся проблемы с распознаванием, то с помощью маркера можно указать на конкретный объект. В профессиональной среде чат-бота можно использовать для анализа графиков. OpenAI продемонстрировала, как нейросеть помогает пользователю опустить сиденье велосипеда, ориентируясь на фотографии. ChatGPT советует инструменты и приводит пошаговую инструкцию.

ChatGPT помогает поднять сиденье велосипеда
Скриншоты: OpenAI / Skillbox Media

Поддержка голоса и изображений станет доступна подписчикам платного тарифа ChatGPT Plus и корпоративным пользователям. Компании нужно несколько недель на развёртывание функций и обновление. Распознавание картинок будет работать на всех платформах, а голосовые функции — только на Android и iOS.

Поиск в интернете

Кроме того, OpenAI завершила тестирование функции Browsing, которую запустила в мае 2023 года. Теперь ChatGPT не ограничен данными до 2021 года и может искать дополнительную информацию в интернете. Разработчики веб-сайтов могут запретить ботам OpenAI посещать их сайт с помощью параметров в файле robots.txt. Опция доступна в тарифе ChatGPT Plus.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Проверьте свой английский. Бесплатно ➞
Нескучные задания: small talk, поиск выдуманных слов — и не только. Подробный фидбэк от преподавателя + персональный план по повышению уровня.
Пройти тест
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована