Компания OpenAI анонсировала новую ИИ-модель o3. Кроме того, была представлена её младшая версия o3-mini. Сегодня это самые мощные языковые модели среди всех, что создавала OpenAI. Интересная деталь: в названии разработчик решил пропустить цифру 2, чтобы не вызвать судебных разбирательств с британским телеком-оператором O2.
Впечатляющие результаты тестов
По данным OpenAI, o3 показала высокий результат в ARC-бенчмарке. С его помощью тестируют технологии, которые могут перейти к следующему уровню искусственного интеллекта. Так, новая ИИ-модель от OpenAI набрала 87,5% — это намного больше, чем у o1, которая достигла показателя лишь в 32%. Однако стоимость выполнения задач оказалась очень высокой. По предварительной информации, она может составлять до 2 тысяч долларов.
Кроме того, нейросеть показала высокий результат на экзамене по математике AIME, который проводится в США. Модель получила 96,7 балла и не справилась только с одним вопросом. А ещё o3 набрала 87,7% на экзамене GPQA Diamond — это значительно превышает результаты экспертов-людей.
В бенчмарке Frontier Math новой модели удалось установить показатель в 25,2%. Для сравнения: другие ИИ-модели не набирали больше 2%. У o3-mini результаты оказались скромнее, однако в OpenAI заявили, что она превосходит по возможностям o1.
Читайте также:
Что ещё известно
Обе новые модели пока недоступны для пользователей. Сейчас OpenAI собирает заявки от исследователей, которые займутся тестированием o3 и o3-mini. Для получения доступа к o3 и o3-mini необходимо подать заявку на сайте OpenAI до 10 января 2025 года. Компания призывает исследователей разрабатывать надёжные оценки и тестировать модели в уникальных сценариях.
«Это начало нового этапа в развитии AI. Мы видим потенциал этих моделей в решении сложных задач, предполагающих большое количество рассуждений».
Сэм Альтман, гендиректор OpenAI
В OpenAI отметили, что компания уделяет большое внимание безопасности и согласованности своих ИИ-моделей. А её новый метод сознательного выравнивания позволяет моделям рассуждать и о политике безопасности. Это снижает риск уязвимостей и улучшает соответствие рекомендациям по содержанию.
Ожидается, что релиз o3-mini состоится в конце января 2025 года. Дата выхода o3 пока неизвестна.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!