Код
#новости

OpenAI представила ИИ-агента Operator

Он способен совершать заказы, делать бронирование и искать информацию за пользователя.

OpenAI представила своего первого полноценного ИИ-агента под названием Operator. Этот ассистент умеет взаимодействовать с веб-страницами так, как будто это делает живой пользователь. Он выполняет задачи, связанные с использованием сайтов, не прибегая к API. Вместо этого Operator анализирует визуальную часть страниц и имитирует нажатие клавиш, клики мышью и перемещение курсора.

Подробнее про Operator

Интерфейс Operator напоминает ChatGPT: пользователь вводит запрос, описывая действия, которые необходимо выполнить, а агент реализует их в реальном времени. Для работы Operator использует облачную виртуальную машину с запущенным браузером, который отображается для пользователя в привычном веб-интерфейсе.

ИИ-агент способен выполнять многоэтапные задачи, такие как поиск нужных страниц через поисковики, заказ товаров или бронирование авиабилетов, даже если пользователь не указал конкретный ресурс или магазин. Все его действия фиксируются в журнале, который отображается в чат-панели. Это позволяет отслеживать каждый шаг агента и при необходимости вмешиваться в процесс.

Например, пользователь может взять управление на себя для внесения изменений в корзине товаров или корректировки времени бронирования. Даже после завершения задачи можно вернуться к любому из промежуточных шагов и снова взять контроль.

Когда пользователь перехватывает управление, Operator не отслеживает его действия напрямую, но для продолжения работы может запросить у пользователя описание выполненных изменений.

Некоторые особенности работы

Несмотря на высокую скорость обработки данных, Operator работает не мгновенно, поскольку не использует API и не взаимодействует напрямую с HTML-элементами. Кроме того, сами сайты иногда требуют времени на обновление или на обмен данными с сервером. Тем не менее это не мешает пользователям запускать сразу несколько чатов с Operator для выполнения параллельных задач, освобождая время для других дел.

Для подтверждения важных действий, например покупок, агент ставит выполнение задачи на паузу, дожидаясь разрешения пользователя. Он также запрашивает помощь при возникновении непредвиденных сложностей, таких как необходимость ввода кода подтверждения или временная недоступность сайта.

Система поддерживает пресеты — готовые сценарии для типичных операций — к примеру, покупок в конкретных магазинах. При этом пользователь может самостоятельно описать задачу в текстовом формате, не используя заготовленные настройки.

На чем функционирует Operator

Operator основан на модели CUA (Compute-Using Agent), построенной на базе ChatGPT-4o, которая обучена работать с интернетом так, как это делает человек. Вместо анализа исходного кода страниц агент ориентируется исключительно на визуальную информацию. Стоит отметить, что ChatGPT-4o также умеет распознавать скриншоты, добавленные в чат, и давать полезные рекомендации.

Интерактивность Operator, позволяющая пользователю перехватывать управление, демонстрирует применение подхода human-in-the-loop, часто используемого при обучении нейросетей.

На данный момент Operator доступен только в США. Пользователи подписки Pro уже могут воспользоваться агентом, а подписчики Plus получат доступ в ближайшие месяцы. В будущем OpenAI планирует предоставить API модели, чтобы разработчики могли интегрировать агента в свои проекты.

Компания также анонсировала запуск новых ИИ-агентов в ближайшие месяцы. Пока неизвестно, будут ли они доступны только в облаке или появятся версии для локальных операционных систем.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Изучайте IT на практике — бесплатно

Курсы за 2990 0 р.

Я не знаю, с чего начать
Жизнь можно сделать лучше!
Освойте востребованную профессию, зарабатывайте больше и получайте от работы удовольствие.
Каталог возможностей
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована