Израильская компания в области кибербезопасности Lasso провела исследование, в ходе которого обнаружила, что ИИ-помощник GitHub Copilot может генерировать код, основанный на репозиториях, которые были публичными, а потом стали закрытыми. Это ставит под угрозу конфиденциальность данных тысяч организаций и разработчиков.
Обнаружение проблемы
Исследователи из Lasso случайно заметили, что Copilot сгенерировал фрагмент кода, совпадающий с кодом из их собственного закрытого репозитория. После проверки выяснилось, что этот репозиторий ранее был открыт для общего доступа в течение небольшого времени. Этого было достаточно для его индексирования и включения в обучающий набор данных Copilot.
Эксперимент по поиску утекших данных
Чтобы проверить масштаб проблемы, Lasso провела эксперимент:
- Исследователи собрали список репозиториев, которые были публичными в 2024 году, но затем стали закрытыми или удалёнными.
- Они использовали поисковую систему Bing, чтобы найти остаточные ссылки на их содержимое.
- В результате было обнаружено, что через Copilot можно получить данные из более чем 20 тысяч репозиториев, которые сейчас удалены или являются приватными.
Какие организации затронуты
По данным Lasso, проблема затрагивает более 16 тысяч компаний, среди которых:
- Amazon Web Services;
- Google;
- IBM;
- PayPal;
- Tencent;
- Microsoft.
Это означает, что конфиденциальная информация из кодовых баз крупнейших мировых технологических компаний потенциально может оказаться в руках злоумышленников.
Реакция Microsoft
Исследователи сообщили Microsoft о выявленной уязвимости. В ответ компания присвоила проблеме низкий уровень опасности и удалила ссылки на кэш Bing из поисковой выдачи. Однако специалисты Lasso заявляют, что данные по-прежнему остаются доступными через Copilot.
Важность проблемы и возможные последствия
Обнаруженный факт демонстрирует, что скрытая информация может стать частью обучающего набора данных нейросетей, если она хотя бы на короткое время становится публичной. Это создает угрозу утечки коммерческих тайн, уязвимостей в коде и персональных данных разработчиков.
Эксперты в области кибербезопасности рекомендуют:
- быть внимательными при настройке доступа к репозиториям;
- избегать случайного открытия приватных репозиториев;
- проверять, какие данные могут быть проиндексированы ИИ‑инструментами.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!