Как искусственный интеллект помогает предотвращать стрельбу в школах, теракты и диабет
Говорим о том, что можно узнать о человеке по его действиям в интернете и как потом использовать эти данные.
Мы создаём огромное количество информации, когда пользуемся интернетом. И речь не только о cookie-файлах, на которые все сайты требуют разрешения.
Многое о вас могут рассказать социальные сети, даже если вы ничего о себе и не рассказали при заполнении профиля. Есть даже наука, которая исследует связи действий человека в Сети с его психологическими особенностями. Она называется цифровой психометрией. Уже есть алгоритмы для анализа постов, комментариев, лайков, хештегов, групп. Они знают больше, чем ваши близкие родственники. Всё это называется «цифровыми следами» или «цифровыми отпечатками».
Скрыться от технологий не получится, даже если вы перестанете пользоваться своими аккаунтами. Социальные сети применяют инструменты слежения, встроенные в другие сайты. Недавно самая популярная соцсеть представила функцию «Действия вне Facebook*», с помощью которой пользователь может изучить историю своей активности на сторонних ресурсах.
Думаете полностью отказаться от интернета, чтобы сохранить приватность? Не надейтесь, это не поможет. Достаточно того, что ваши родственники или знакомые пользуются соцсетями. Немецкие математики опубликовали исследование, в котором продемонстрировали, что о человеке можно многое узнать, даже если он не заходит в интернет.
Они доказали, что два человека, у которых не было страничек в социальной сети, связаны между собой. А «выдал» их третий, у которого действующий аккаунт был. Как утверждают исследователи, связи между не зарегистрированными в соцсетях людьми находятся в 85% случаев.
Соцсети знают о нас всё и даже больше
О том, что данные о действиях в интернете можно анализировать и использовать, учёные думали давно, и речь здесь вовсе не о невинной таргетированной рекламе. Американский маркетолог Тони Фиш ещё в 2009 году издал книгу, где рассказал о коммерческом потенциале цифровых следов.
Общественность всерьёз заговорила о технологиях цифровой психометрии после избирательной кампании президента США 2016 года. Тогда на весь мир прогремело название компании Cambridge Analytica, которая использовала технологии анализа цифровых следов в интересах одного из кандидатов. Кстати, до сих пор неизвестно, действительно ли эти технологии повлияли на исход выборов.
Считается, что в Cambridge Analytica без согласия автора использовали алгоритмы, разработанные и открыто опубликованные Михалом Косински. Это учёный, признанный специалист в области цифровой психометрии, его статьи — самые цитируемые в мире работы по этой теме.
Косински много лет посвятил исследованию социальных сетей. Результаты он опубликовал в научной статье 2013 года.
Для того чтобы узнать о пользователе почти всё, Косински требовалось проанализировать всего несколько десятков лайков в Facebook*. Модель учёного с вероятностью в 85–95% определяла расу, сексуальную ориентацию и политические предпочтения владельца аккаунта.
С меньшей вероятностью (но тоже успешно) получалось предсказывать религиозную принадлежность, склонность к алкоголизму и приёму наркотиков, уровень интеллекта, а также вырос ли человек в неполной семье. Если лайков было много (до 300), исследователь узнавал о человеке больше, чем знали супруг или родители.
Чтобы собрать статистическую информацию для исследования, Михал Косински создал проект MyPersonality и разместил в Сети подробные психологические опросники. Пользователи, проходившие опросы, не задумываясь ставили галочки, дающие учёному право на получение сведений о них из аккаунтов в социальных сетях.
Тестирование прошли 7,5 миллиона человек. В руках Косински оказалась огромная выборка данных. Это позволило учёному и его коллегам создать невероятно эффективные алгоритмы, позволяющие предсказывать скрытые психологические и демографические характеристики личности.
Но Косински — не единственный, кто успешно занимается цифровой психометрией. Например, американский исследователь Тал Яркони изучил множество текстов 694 популярных блогеров. На основе этих данных он создал модель, способную точно предсказывать личностные особенности всего по нескольким часто употребляемым в речи словам.
Учёным интересны и два миллиарда изображений, которые люди ежедневно загружают в общедоступные профили социальных сетей. Правда, исследовать их немного сложнее, чем тексты или лайки. Испанским исследователям удалось применить для анализа изображений технологию глубокого обучения нейросетей. Они научили свою модель определять базовые черты личности человека по его фото в Instagram*.
Cambridge Analytica: жертва очень плохого пиара
Михал Косински и его коллеги выкладывали результаты своих исследований в открытом доступе. Они предупреждали, что эти алгоритмы могут быть опасны, если попадут в руки преступников. К самому Косински обращались желающие использовать его наработки в коммерческих целях. Но исследователь отказался — наука для него важнее денег.
В 2016 году после победы Дональда Трампа на выборах президента США в прессе появилась популярная теория о том, что Cambridge Analytica оказала огромное влияние на избирателей. Эта британская компания позаимствовала наработки в области цифровой психометрии и применила их при показе предвыборной рекламы в социальных сетях.
Эта теория во многом базировалась на выступлении руководителя Cambridge Analytica Александра Никса, видеозапись которого и сейчас можно посмотреть на YouTube.
Схема работы компании заключалась в следующем. Сначала собирали информацию о людях на основе их действий в Facebook* (лайки, подписки на сообщества и так далее) — это позволило накопить огромный массив информации, охватывающий практически всех американцев.
Алгоритмы Cambridge Analytica определили психологические особенности каждого человека, информацией о котором располагали. Для этого использовали модель OCEAN, в соответствии с которой личность любого человека можно точно описать при помощи всего пяти основных черт характера: открытость новому опыту, добросовестность, экстраверсия, доброжелательность, эмоциональная стабильность.
Располагая подробными психологическими портретами, Cambridge Analytica формировала персонализированные рекламные сообщения для демонстрации в новостной ленте пользователей Facebook*. Эмоциональный посыл этих сообщений максимально соответствовал личности избирателя, которому они направлялись. Такая рекламная стратегия называется микротаргетингом.
В Cambridge Analytica разработали несколько тысяч разных рекламных объявлений, предназначенных для конкретных групп избирателей. Например, если пользователь придерживался патриархальных взглядов, ему демонстрировали картинки, на которых был изображён харизматичный отец семейства. А если человек испытывал повышенную тревожность, то показывали рекламу, в которой преступники проникают в жилище.
Александр Никс утверждал, что благодаря усилиям компании рейтинг сенатора Теда Круза на праймериз удалось поднять с 5% до 35%. Однако никто не доказал, что Cambridge Analytica реально повлияла на исход выборов. Возможно, это влияние было преувеличено прессой и руководством самой компании, чтобы привлечь к ней внимание и дополнительных клиентов.
Политики и раньше использовали похожие технологии, но никаких скандалов не было. Скорее всего, практическая эффективность микротаргетированной рекламы лишь немного выше, чем у обычной агитации по телевидению.
Cambridge Analytica явно не могла творить тех чудес, которые ей приписывали после громкой победы Дональда Трампа на выборах. Специалисты компании в ходе праймериз работали также с кандидатом Беном Карсоном, но его избирательная кампания оказалась провальной.
После скандала в прессе Cambridge Analytica закрыли, а её руководству пришлось долго оправдываться перед властями и обществом. Тем не менее методы компании и идеи учёных можно успешно использовать и для достижения благих целей. Давайте поговорим, как именно.
Но бывают и благие цели
В США сканируют социальные сети для предотвращения преступлений: массовых убийств и террористических актов.
По статистике, почти все будущие террористы публикуют манифесты, разжигающие рознь, сообщения и фотографии с оружием менее чем за три дня до планируемой даты убийства. Поэтому нужно очень быстро анализировать соцсети. Без искусственного интеллекта невозможно решить эту задачу.
Специалисты Tactical Institute создали систему, которая ежедневно сканирует 500 миллионов твитов в поисках подозрительных сообщений. Если что-то находят, система отправляет записи специалистам компании для анализа. Это занимает всего несколько минут.
Подозрительные твиты изучают эксперты. Они работают круглосуточно и, если что, немедленно передают информацию в полицию. Благодаря сканированию Twitter уже удалось предотвратить 14 массовых расстрелов в американских школах.
Для поиска сообщений программисты Tactical Institute применили сервис Watson Analytics от IBM. Он позволяет получить доступ к вычислительным возможностям суперкомпьютера IBM Watson и его ИИ. Суперкомпьютер находит ответы почти на любые вопросы.
Анализ контента в соцсетях используют и для поиска людей в депрессии. Учёные научились находить таких людей по фотографиям, даже если на них нет явных признаков плохого настроения. Как оказалось, на фото в профилях депрессивных людей преобладают серые тона, им свойственно низкое качество и размытость изображений. Пользователи обычно запечатлены в одиночестве, а их лица не выражают эмоций.
От затянувшейся депрессии недалеко и до попыток суицида. Но их можно предотвратить, если человек вовремя поговорит с психологом. Поэтому Facebook* тестирует систему, которая анализирует сообщения и записи в группах. Если в них обнаружатся фразы с признаками суицидальных мыслей, модераторы сообществ немедленно получат уведомление об этом. Они смогут отправить такому человеку ободряющее послание или предложат обратиться к психологу.
Оказалось, что анализ сообщений в соцсетях может предупредить даже о приближающемся инфаркте и сахарном диабете.
Специалисты по Data Science и медики провели совместное исследование. Они натренировали систему на записях пациентов с болезнями сердца в Facebook*. Исследовали записи за последние пять лет до развития болезни.
Алгоритм обнаружил примерно 200 слов-маркеров, которые говорят о высоком риске заболевания.
Анализ слов может рассказать о социальной напряжённости, экономических проблемах, некачественном образовании, разгуле преступности и так далее. Уже есть алгоритмы, которые в реальном времени отслеживают благополучие общества по сообщениям в соцсетях.
Учёные создали «карту благополучия» США. На ней показано, как распределены по разным штатам депрессия, безработица, сердечные заболевания и диабет, экономическое и социальное развитие и так далее.
А что в России
У нас тоже есть похожие проекты.
«ВКонтакте» запустила сервис, который распознаёт, что изображено на фотографии, и предупреждает, если это что-то опасное и противоправное. Это делает нейросеть, которую обучили различать на фотографиях и рисунках несколько тысяч разных объектов.
Система автоматически помечает все фотографии пользователей ВК как «безопасные», «умеренно опасные» или «опасные». Опасный контент автоматически блокируется, но окончательное решение принимают живые модераторы. Если какой-то аккаунт постоянно публикует что-то такое, его могут и заморозить.
В России тоже заботятся о людях с депрессией. Если алгоритмы обнаружат на фотографиях или среди хештегов пользователя «ВКонтакте» признаки суицидальных мыслей, ему предложат помощь психологов фонда «Твоя территория».
В России есть и своя система для борьбы с преступностью «Георгий Победоносец». Как и иностранные аналоги, она использует технологии искусственного интеллекта для автоматического сканирования всех материалов. Система собирает данные из «ВКонтакте», Instagram*, Facebook**, «Одноклассников» и Telegram.
Обнаружив призывы к экстремизму, пропаганду наркотиков, суицида и тому подобное, «Георгий Победоносец» сигнализирует об этом специалистам компании. В случае если эксперт подтверждает подозрения искусственного интеллекта, сведения о распространителе запрещённого контента отправляются в полицию.
Предыдущая версия программы — поисковая система «СЕУС» — успешно используется правоохранительными органами в 20 регионах России. Она помогла предотвратить несколько преступлений.
Создатели системы подчёркивают, что «Георгий Победоносец» использует только общедоступную информацию: посты, комментарии, записи в открытых группах, хештеги и лайки. Личные сообщения никто не анализирует. Но вы теперь понимаете, что это и не требуется.