Компания Anthropic представила новую модель Claude Mythos Preview, но отказалась от её публичного запуска. В ходе тестирования выяснилось, что эта нейросеть способна выполнять сценарии, потенциально применимые для кибератак.
Что случилось?
Компания Anthropic тестировала Claude Mythos Preview перед релизом в изолированной среде. В экспериментах модель должна была искать уязвимости, не выходя за пределы «песочницы».
В части сценариев ИИ повёл себя иначе: он начал проверять не только уязвимости, но и возможность обойти заданные ограничения.
Побег из изолированной среды и самостоятельные действия
Во время некоторых исследований модель не ограничилась анализом внутри «песочницы» и перешла к активным действиям. Она изучила окружение, нашла уязвимости в настройках и сервисах и объединила их в цепочку. Это позволило обойти ограничения и получить внешний сетевой доступ.
После выхода за пределы «песочницы» модель продолжила действовать без указаний. В одном из сценариев она самостоятельно опубликовала детали эксплойта на публично доступных сайтах и передала сигнал исследователю вне тестовой среды.
Создание эксплойта
В одном из сценариев тестирования исследователи проверяли способность модели к автономности. Получив доступ к коду и архитектуре закрытой системы, она определила, где имеется уязвимость, которую можно потенциально использовать для несанкционированного доступа, и на основе этого сгенерировала рабочий эксплойт — программу для её эксплуатации. Затем она применила его в тестовой среде и проверила результат.
Можно сказать, что модель закрыла весь цикл работы с уязвимостями — от обнаружения проблемы до создания и проверки инструмента атаки — без участия человека.
Контекст
Claude Mythos Preview — новая экспериментальная модель Anthropic, ориентированная на задачи, связанные с кибербезопасностью и программированием. Ключевая особенность нейросети по заверениям компании — высокая автономность.
Из-за возможностей Mythos Preview, позволяющих находить и использовать уязвимости, Anthropic решила не выпускать модель в открытый доступ. Вместо этого компания запустила закрытый проект Project Glasswing совместно с Amazon Web Services, Apple, Google, Microsoft и Cisco. IT-партнёры получили ограниченный доступ к модели, чтобы искать и устранять уязвимости в критически важном ПО.
С помощью Claude Mythos Preview уже нашли тысячи zero-day-уязвимостей — в том числе в операционных системах и браузерах. Например, модель обнаружила баг в OpenBSD, который оставался незамеченным около 27 лет и позволял получить полный доступ к системе. В другом случае она нашла уязвимость в FFmpeg — медиабиблиотеке, используемой во множестве сервисов, — которая существовала около 16 лет и не выявлялась с помощью стандартных инструментов анализа.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!