Anthropic ограничила доступ к новой ИИ-модели: нейросеть умеет взламывать IT-системы

Речь о Claude Mythos Preview, которая нашла сотни уязвимостей в существующем ПО за несколько дней.

Редакция «Код» Skillbox Media

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

Компания Anthropic представила новую модель Claude Mythos Preview, но отказалась от её публичного запуска. В ходе тестирования выяснилось, что эта нейросеть способна выполнять сценарии, потенциально применимые для кибератак.

Что случилось?

Компания Anthropic тестировала Claude Mythos Preview перед релизом в изолированной среде. В экспериментах модель должна была искать уязвимости, не выходя за пределы «песочницы».

В части сценариев ИИ повёл себя иначе: он начал проверять не только уязвимости, но и возможность обойти заданные ограничения.

Побег из изолированной среды и самостоятельные действия

Во время некоторых исследований модель не ограничилась анализом внутри «песочницы» и перешла к активным действиям. Она изучила окружение, нашла уязвимости в настройках и сервисах и объединила их в цепочку. Это позволило обойти ограничения и получить внешний сетевой доступ.

После выхода за пределы «песочницы» модель продолжила действовать без указаний. В одном из сценариев она самостоятельно опубликовала детали эксплойта на публично доступных сайтах и передала сигнал исследователю вне тестовой среды.

Создание эксплойта

В одном из сценариев тестирования исследователи проверяли способность модели к автономности. Получив доступ к коду и архитектуре закрытой системы, она определила, где имеется уязвимость, которую можно потенциально использовать для несанкционированного доступа, и на основе этого сгенерировала рабочий эксплойт — программу для её эксплуатации. Затем она применила его в тестовой среде и проверила результат.

Можно сказать, что модель закрыла весь цикл работы с уязвимостями — от обнаружения проблемы до создания и проверки инструмента атаки — без участия человека.

Контекст

Claude Mythos Preview — новая экспериментальная модель Anthropic, ориентированная на задачи, связанные с кибербезопасностью и программированием. Ключевая особенность нейросети по заверениям компании — высокая автономность.

Из-за возможностей Mythos Preview, позволяющих находить и использовать уязвимости, Anthropic решила не выпускать модель в открытый доступ. Вместо этого компания запустила закрытый проект Project Glasswing совместно с Amazon Web Services, Apple, Google, Microsoft и Cisco. IT-партнёры получили ограниченный доступ к модели, чтобы искать и устранять уязвимости в критически важном ПО.

С помощью Claude Mythos Preview уже нашли тысячи zero-day-уязвимостей — в том числе в операционных системах и браузерах. Например, модель обнаружила баг в OpenBSD, который оставался незамеченным около 27 лет и позволял получить полный доступ к системе. В другом случае она нашла уязвимость в FFmpeg — медиабиблиотеке, используемой во множестве сервисов, — которая существовала около 16 лет и не выявлялась с помощью стандартных инструментов анализа.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!