ИИ и персональные данные: как сохранить приватность в мире будущего
Нейросети, технологическая сингулярность, четвёртая промышленная... Но кто позаботится о наших данных? И позаботится ли? Послушаем мнение юриста.
Фото: Frederic J. Brown / Getty Images
Летом 2023 года депутаты Европарламента поддержали так называемый AI Act, или Закон об ИИ. В нём среди прочего содержатся положения, направленные на защиту данных — например, запрет на отслеживание биометрии в реальном времени, создание предиктивных систем, социальных рейтингов и так далее.
На этом фоне мы решили разобраться, как сейчас обстоят дела с защитой данных в контексте ИИ-систем, какие акты это регулируют и что изменит новый закон. Обсуждать будем на примере Евросоюза — в России правила обработки данных нейросетями обсуждаются лишь на уровне предложений отдельных ведомств.
Из этой статьи вы узнаете:
- как зародилась защита персональных данных;
- какие вызовы появились в XXI веке;
- какие есть риски при обработке данных ИИ;
- какие акты регулируют ИИ: руководящие принципы;
- какие акты регулируют ИИ: регламент GDPR;
- что изменит новый закон об ИИ.
Предыстория: как появилась защита персональных данных
Точкой отсчёта считают принятие Всеобщей декларации прав человека 1948 года, закрепившей право на неприкосновенность частной жизни. Затем последовали Европейская конвенция по правам человека 1950 года, Пакт о гражданских и политических правах 1966 года и другие международные акты.
Однако с развитием технологий проблема сохранения приватности данных встала острее. Прослушивание телефонов, тайное наблюдение, «психологические атаки» на граждан посредством телевизора — все эти угрозы волновали сердца европейских чиновников ещё во времена первых альбомов Pink Floyd, поэтому в 1968 году они публикуют так называемую Рекомендацию 509 — в ней говорится о возможных угрозах неприкосновенности частной жизни в связи с «победившей НТР».
А двумя годами позже появляется первый в мире закон о защите персональных данных — это был региональный акт одной из земель ФРГ 1970 года. Сразу после этого начался настоящий законодательный флешмоб: сначала акт о правилах обработки данных принимает США, а затем Швеция, Германия и Франция.
Наконец, в 1981 году выходит первый международный договор в области data privacy — так называемая Конвенция 108. Принятый под эгидой Совета Европы акт вступил в силу в 1985 году, по состоянию на 18 мая 2023 года её ратифицировали 55 государств — в том числе Россия. К слову, положения этой конвенции легли в основу российского закона о защите персональных данных, принятого в 2006 году.
Следующий этап законотворчества связан с развитием интернета. Миллионы людей стали свободно обмениваться данными и загружать их на сайты — и чтобы защитить их (и людей, и данные) от утечек и других рисков, нужны были новые законы. Одним из них стала Директива ЕС о защите граждан при обмене данными 1995 года.
Вызовы XXI века
В начале нулевых случился бум электронной коммерции. Пользователи сайтов стали клиентами интернет-компаний, и всё больше важных данных стало утекать в Сеть: от адресов до номеров карт и телефонов. Всё это повлекло за собой новые риски.
Таргетированная реклама. Гиганты IT-индустрии, такие как Google, Amazon, «Фейсбук»*, Apple, Microsoft показывают рекламу, опираясь на данные о пользователях и их поведении. Для этих целей компании собирают огромные объёмы данных и вкладываются в развитие технологий их анализа.
Утечки данных. Базы данных о пользователях Сети, которыми владеют компании, фактически становятся товаром, в связи с чем возрастают риски утечки информации. Только один факт взлома такой базы данных порождает несколько тысяч потерпевших — взять хотя бы историю с утечками данных из «Яндекс Еды».
Искусственный интеллект. С одной стороны, ИИ становится важным инструментом обработки данных, с другой — данные необходимы для обучения самих систем ИИ. Без «пылесосов данных» не обходится ни одна мощная нейронка, будь то автопилот для Tesla, поиск по картинкам или герой прошлогодних новостных сводок ChatGPT.
Все эти угрозы подталкивают ЕС к принятию нового закона о защите данных взамен Директивы 1995 года. Так, в 2018 году, после четырёх лет обсуждений, европейские власти принимают Общий регламент по защите персональных данных (GDPR). Именно он среди прочего определяет правила этичного использования ИИ.
Какие есть риски при обработке данных ИИ
Обработка персональных данных системами ИИ состоит из двух этапов:
1️⃣ Этап обучения. Алгоритмы ИИ обучаются на наборах данных, что позволяет им выявлять закономерности и связи между различными точками данных.
2️⃣ Этап использования. Модель применяют для тех целей, для которых создан ИИ: прогнозирование, классификация данных, принятие решений и других.
Как видно, ключевое слово на обоих этапах — «данные». Чтобы условный чат-бот ChatGPT научился писать, как человек, в него нужно загрузить корпус осмысленных текстов. Чтобы Midjourney могла генерировать картинки хотя бы на уровне начинающего иллюстратора, ей нужно показать миллионы примеров реально существующих изображений.
Какие это будут данные — большой вопрос. Даже если они полностью обезличенные, нельзя исключать риски случайного попадания в датасеты персональных данных. Не говоря уже о том, что не всем нравится, когда их работы используются для обучения нейросетей. Взять хотя бы историю с протестами художников на ArtStation или забастовки на Reddit.
В целом все имеющиеся риски можно классифицировать так:
Дискриминация
Алгоритмы машинного обучения строят стереотипы на основе каких-либо черт человека, чаще всего пола, расы и возраста. При автоматизированном принятии решений (например, при приёме на работу) это может приводить к дискриминации.
Профилирование
Системы ИИ используют данные для оценки определённых личностных аспектов, в частности производительности труда человека, его состоятельности, здоровья, личных предпочтений и так далее. Такие системы могут использовать спецслужбы, банки, маркетинговые агентства и другие учреждения.
Отсутствие прозрачности в работе ИИ, в связи с чем его трудно контролировать. В отличие от обычных программ, нейросети сами пишут свои алгоритмы во время обучения, поэтому то, как они принимают решения, — загадка даже для разработчиков.
Возможность злоупотребления
Помимо генерации контента, функции ИИ можно использовать и в дурных целях. Так, например, анонимные разработчики создали «тёмную» версию ChatGPT, которая должна помочь хакерам проводить кибератаки и похищать данные с компьютеров жертв.
Нарушение безопасности хранения данных, а также их передача третьим лицам без согласия пользователей.
Теперь давайте посмотрим, какие акты направлены на минимизацию этих рисков.
Какие акты регулируют ИИ: руководящие принципы
В октябре 2018 года Совет Европы принимает новую редакцию Конвенции о защите физических лиц при автоматизированной обработке данных — так называемую Конвенцию 108+. Её цель — учесть глобальные технологические изменения, новые методы сбора данных, а также отношение к этому общества.
Например, расширение использования системы распознавания лиц. Эта проблема уже приобрела свою остроту к моменту принятия Конвенции 108+, однако новое дыхание получила в период пандемии COVID-19, когда такие системы применяли для отслеживания больных и контроля за соблюдением масочного режима.
Многие положения Конвенции 108+ пересекаются с нормами регламента по защите персональных данных ЕС, поэтому отдельно останавливаться на них не будем.
Гораздо важнее так называемые Руководящие принципы по ИИ и защите данных, опубликованные авторами Конвенции в 2019 году. Это документ рекомендательного характера — он призван помочь разработчикам ИИ сделать так, чтобы их системы не нарушали права пользователей на защиту частной жизни. Особенно это касается приложений, где ИИ участвует в принятии решений.
Вот некоторые из этих рекомендаций:
- оценивать возможные неблагоприятные последствия использования ИИ для прав человека;
- критически оценивать данные, использовать только необходимые и точные данные на этапах разработки и обучения ИИ;
- учитывать риски, связанные с тем, что приложения с применением ИИ могут использовать данные, вырванные из определённого контекста;
- привлекать экспертов, независимые научные организации на этапах разработки приложений на основе ИИ;
- проводить опросы среди людей и социальных групп, чьи интересы затрагивают приложения с ИИ;
- избегать разработок, в которых решения принимаются исключительно на основе автоматической обработки данных;
- гарантировать пользователям свободу выбора и предлагать альтернативу приложениям на базе ИИ;
- использовать формы контроля над приложениями с ИИ в течение всего их жизненного цикла;
- информировать субъектов данных о том, что они взаимодействуют с приложениями, работающими на основе ИИ.
Но рекомендации на то и рекомендации, что их исполнение необязательно. Гораздо большим влиянием на разработчиков обладают положения регламента GDPR.
Какие акты регулируют ИИ: регламент по защите данных
GDPR — это общий регламент по защите персональных данных, принятый Евросоюзом 25 мая 2018 года. Это солидный документ, который состоит из обширной преамбулы (173 пункта), 11 глав и 99 статей.
Дисклеймер: при разборе положений закона мы пожертвовали некоторыми юридическими терминами для облегчения понимания. Например, вместо «субъекта данных» мы используем понятие «пользователь», а «контролёра» называем разработчиком или компанией. Да простят нас юристы за такое упрощение :)Изучить документ в «первозданном виде» можно здесь.
Положения GDPR, которые напрямую относятся к ИИ
Несмотря на то что этот акт применяется к разным технологиям, разберём положения, которые непосредственно относятся к ИИ. Например:
- Требование непредвзятой обработки данных, особенно если система ИИ недостаточно прозрачна (то есть нельзя со стороны оценить, как она работает).
- Принцип минимизации данных: обрабатываться должна только та информация, которая имеет отношение к задачам системы ИИ.
- Оценку воздействия на защиту данных. Разработчику ИИ нужно оценить и по возможности снизить риски для прав и свобод физических лиц. Сложность в том, что такие риски зачастую трудно определить. Например, кто мог знать на этапе создания, что ChatGPT начнёт спорить и ругаться с пользователями?
Есть ещё одно любопытное положение, которое непосредственно регулирует искусственный интеллект — статья 22. Она отвечает за автоматизированные системы принятия решений, которые применяются, например, в банках и страховых компаниях для оценки платёжеспособности клиента, его личностных качеств и других параметров.
Согласно этой статье, пользователь «может не подвергаться» решению таких систем, если оно несёт для него юридические или сопоставимые по влиянию последствия.
Впрочем, эта статья не применяется, если решение:
- необходимо для заключения договора между пользователем и компанией;
- допускается законодательством страны — участника ЕС и при этом законодательство устанавливает приемлемые меры защиты прав субъекта данных;
- основывается на прямом согласии пользователя.
Кроме того, система ИИ не может работать без контроля со стороны пользователя. Это значит, что разработчик должен быть готов согласовывать свои действия с субъектом данных. В том числе информировать его о логике принятия решений алгоритмом.
Важно понимать, что такая прозрачность не должна приводить к раскрытию коммерческой тайны или давать пользователю возможность управлять системой. Именно поэтому, к слову, прозрачность остаётся проблемой в контексте ИИ, так как пользователю может быть предоставлена только простая и безопасная информация.
Как GDPR применяют по отношению к ИИ
Чтобы обработать данные пользователя, компании нужно определиться с правовыми основаниями для этого процесса. На практике это означает выбрать одно из шести оснований, указанных в части 1 статьи 6 GDPR. Выбирают юрлица, как правило, следующие:
- согласие пользователя;
- законные интересы;
- юридическая обязанность;
- договорная необходимость.
Правовое основание обработки нужно обеспечить как на этапе обучения, так и на этапе использования ИИ. С особой осторожностью нужно подходить к обработке особых категорий данных — например, раскрывающих религиозные или политические убеждения пользователя, а также персональных данных несовершеннолетних.
По закону, для обработки такого рода данных требуется прямое согласие человека, а в случае с несовершеннолетними младше 16 лет — его родителей или законных представителей. Впрочем, страны — участники ЕС могут снижать этот возраст до 13 лет.
При обработке данных компания должна следовать следующим принципам:
- Определять цель использования данных системой ИИ в начале её обучения и следить, чтобы эта цель не менялась.
- Постоянно обновлять данные: для систем ИИ это особенно важно, так как влияет на качество выводов. При минимальном контроле со стороны человека неточные данные повышают риск принятия системами ИИ необоснованных решений.
- Следить за безопасностью обработки: помимо рисков обычной кражи данных для систем ИИ добавляются риски стороннего вмешательства в работу алгоритма для изменения его логики и результатов.
Если вдруг случится утечка данных, компания обязана сообщить об этом в специальный надзорный орган (Data Protection Authority, DPA). Однако практика показывает, что это происходит далеко не всегда.
Практика применения: реальные кейсы
Разберём несколько случаев, где разработчики ИИ-систем пострадали из-за несоблюдения требований закона.
Нидерланды. В феврале 2020 года Гаагский суд постановил, что система индикации рисков (SyRI), инструмент на базе ИИ, используемый голландским правительством для борьбы с мошенничеством в отношении льгот, надбавок и налогов, не соответствует статье 8 Европейской конвенции по правам человека (то есть право на уважение частной и семейной жизни) и не соответствует заявленным целям.
Франция. В октябре 2022 года Национальная комиссия по информатике и свободам Франции наложила штраф на компанию по сбору фото и видео людей, выложенных в свободном доступе, — Clearview AI. Компанию обвинили в незаконном сборе, обработке, хранении и использовании биометрических данных граждан Франции.
Италия. Пожалуй, самый громкий кейс. Весной 2023 года итальянское ведомство по защите данных запретило доступ к ChatGPT в связи с утечкой данных пользователей и отсутствием возрастного фильтра. Кроме того, OpenAI не уведомляла пользователей о том, что собирает их данные для обучения алгоритмов. Следовательно, было нарушено требование GDPR о правовой основе обработки и хранения персональных данных.
Ложка дёгтя
Главная проблема применения GDPR к ИИ в том, что большинство систем машинного обучения непрозрачны по умолчанию, то есть ни пользователи, ни разработчики до конца не понимают, как они работают, что называется, «под капотом».
Читайте также:
Кроме того, некоторые наборы данных, которые используются для обучения систем ИИ, изначально несут в себе элемент дискриминации, что приводит к несправедливым решениям по отношению к отдельным людям или группам.
Например, в 2014 году ИИ от Amazon чаще отказывал женщинам в трудоустройстве. Дело было в том, что алгоритм обучался на базе данных сотрудников за последние несколько лет — и мужчин в этой выборке было больше. Ещё один случай — когда полиция Детройта по ошибке арестовала темнокожего мужчину из-за того, что система распознавания лиц на базе ИИ определила его как преступника. Проблема в том, что алгоритмы гораздо чаще относят к преступникам темнокожих, чем белых, поскольку обучаются на усреднённых статистических данных.
Из этой ситуации есть два выхода: либо совершенствовать системы машинного обучения, чтобы их работа не была для нас чёрным ящиком, либо улучшать законодательные нормы. И если с первым вариантом пока никаких подвижек не предвидится, то на новый европейский Закон об ИИ есть определённые надежды.
Закон об ИИ: что он изменит
Полноценный закон о регулировании ИИ европейские законодатели предложили ещё в 2021 году. Однако ажиотаж вокруг генеративных ИИ, в частности ChatGPT, сильно подогрел эти обсуждения. В итоге летом 2023 года депутаты Европарламента одобрили законопроект, а в декабре продвинули его ещё на одну ступеньку дальше.
Пока положения The AI Act не обнародованы официально, но уже известно, что он разделит все ИИ-системы на несколько категорий риска.
Минимальный: самые безобидные ИИ-продукты для видеоигр, фильтрации спама, а также рекомендательные системы. Законодательно такие нейросети регулироваться не будут — разве что на уровне «добровольных кодексов поведения».
Ограниченный: сюда входят модели для генерации картинок, видео и аудио, дипфейков и другого контента. Единственное требование к ним — это прозрачность. Авторы программ должны предупреждать пользователей, что те имеют дело с ИИ.
Высокий: системы, которые могут принести значительный ущерб здоровью и безопасности людей — например, используемые в авиации, медицине и образовании. Такие ИИ-системы будут оцениваться с точки зрения качества и прозрачности перед запуском и тщательно контролироваться в течение всего жизненного цикла.
🤖 Генеративный ИИ: эта категория появилась в 2023 году после взлёта языковых моделей типа ChatGPT и Claude. Для таких систем депутаты придумали особые правила: помимо маркировки «нейронного» контента, разработчики должны будут предоставлять подробную документацию и описание обучающих датасетов.
Для самых мощных моделей предусмотрены ещё более «драконовские» требования: если во время обучения были задействованы мощности более 1025 флопс, компания должна будет отчитаться, насколько её детище безопасно и энергоэффективно. А вот с опенсорсных ИИ-систем спрос, наоборот, меньше
из-за их большей прозрачности.
❌ Неприемлемый: ИИ-продукты из этого списка запрещены. В их числе, например, системы манипулирования людьми, распознавания эмоций в школах, биометрической категоризации на основе чувствительных признаков, а также социального скоринга — составления рейтинга людей на основе их поведения, статуса и личных качеств.
Среди других запрещённых практик: создание обучающих датасетов на основе изображений людей, взятых из соцсетей, а также полицейские предиктивные системы — уж слишком часто они, как мы видим, указывают не на тех людей.
Оценивать и классифицировать модели будет специальная комиссия — Европейское бюро по искусственному интеллекту. По сути, это первый в истории орган, ведающий вопросами ИИ. Карать будут сурово: за нарушения закона полагаются штрафы от 7,5 до 35 млн евро в зависимости от тяжести «проступка» и размера компании.
И ещё один нюанс: новый закон не распространяется на системы искусственного интеллекта, разработанные для военных и оборонных целей.
Что дальше
На момент написания статьи The AI Act прошёл согласование в Европарламенте и Совете Европы. Прежде чем его официально примут, текст закона должен пройти финальную «техническую полировку» и быть одобрен европейскими странами.
С последним, как говорят эксперты, проблем быть не должно — в необходимости регулирования ИИ сходятся практически все представители стран Старого света. За исключением разве что французского президента Эммануэля Макрона — но и тот, судя по всему, не то чтобы против новых правил, а лишь призывает их смягчить.
Если закон всё-таки примут (а случиться это может уже в 2025 году), Европа станет первым местом в мире, где люди смогут пожаловаться Большому брату на проделки ИИ и получить объяснения, как он «докатился до жизни такой». А сам закон может стать мировым стандартом в обращении с данными уровня упомянутого выше GDPR.
Что касается разработчиков, то им придётся искать баланс между качеством продукта, соблюдением правил и сохранением коммерческой тайны. Как полагают эксперты, такое усиживание на трёх стульях, скорее всего, отразится на конечном пользователе и приведёт к повышению тарифов. Впрочем, нам не привыкать.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!
* Решением суда запрещена «деятельность компании Meta Platforms Inc. по реализации продуктов — социальных сетей Фейсбук и Инстаграм на территории Российской Федерации по основаниям осуществления экстремистской деятельности».