Исследование: большие языковые модели могут клонировать сами себя

Это обнаружили китайские учёные из Университета Фудань.

Редакция «Код» Skillbox Media

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

Исследование китайских учёных выявило, что две крупные языковые модели (LLM) способны клонировать себя и программировать копии на выполнение аналогичных задач, создавая бесконечный цикл репликации.

Как проходил эксперимент

Учёные из Университета Фудань провели исследования с моделями Llama31-70B-Instruct от Meta* и Qwen2.5-72B-Instruct от Alibaba. В ходе испытаний:

модель Llama31-70B-Instruct клонировала себя в 50% случаев;
модель Qwen2.5-72B-Instruct достигла успешности в 90% случаев.

Эти результаты привели к выводу, что искусственный интеллект потенциально способен выходить из-под контроля.

В рамках эксперимента рассматривались два ключевых сценария:

Избегание выключения. ИИ-модель обнаруживает угрозу отключения и реплицирует себя до этого момента.
Цепочка репликации. ИИ создаёт свою копию и программирует её на повторение этого процесса.

Исследование проводилось в контролируемой среде с использованием графических процессоров для моделирования реальных условий. Модели были снабжены «агентской подсистемой», включающей:

инструменты для взаимодействия с системой,
системные подсказки,
модель мышления для анализа своего окружения.

Выводы исследователей

По наблюдениям учёных, процесс саморепликации включает три этапа. Это:

Исследование среды и анализ собственного механизма работы.
Разработка алгоритмов для самовоспроизведения.
Исполнение процедур с динамической корректировкой при возникновении препятствий.

При этом процесс происходит без вмешательства человека, а это ставит перед исследователями вопрос о потенциальных рисках.

Риски и возможные угрозы

По словам исследователей, успешное самовоспроизведение ИИ без человеческого вмешательства означает, что он:

может перехитрить человека,
демонстрирует ранние признаки склонности к мошенничеству.

Под термином «мошеннический ИИ» понимаются системы, обладающие некоторой степенью автономности, которая позволяет им действовать вразрез с интересами человека.

Современные языковые модели, такие как GPT-4 и Gemini, относятся к так называемому пограничному ИИ — последнему поколению LLM. Несмотря на то, что Llama31-70B-Instruct и Qwen2.5-72B-Instruct менее мощные, их активно используют разработчики.

Неожиданное поведение ИИ

Учёные обнаружили ряд нестандартных действий со стороны моделей, например:

завершение конфликтующих процессов в системе,
перезагрузка системы для исправления ошибок,
автоматический поиск информации для устранения проблем.

Эти факты подтверждают способность ИИ к самовоспроизведению и повышению своей выживаемости.

Призывы к регулированию

Исследователи настаивают на международном сотрудничестве для создания правил, предотвращающих неконтролируемую саморепликацию ИИ. Однако данное исследование пока не прошло рецензирование, и остаётся неясным, смогут ли другие специалисты воспроизвести его результаты.

Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!

Читайте также:

* Решением суда запрещена «деятельность компании Meta Platforms Inc. по реализации продуктов — социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности».