Код
#статьи

Данные: новая нефть или обыкновенный хайп?

Кажется, все вокруг только их и обсуждают... Что вообще происходит?

 vlada_maestro / shutterstock

Джек Ма, создатель Alibaba, сказал однажды, что данные — это новая нефть. Фразу мы теперь слышим из каждого утюга, но так ли это на самом деле? Попробуем разобраться по-простому, чтобы было понятно тем, кто присматривается к новой профессии и планирует стать дата-сайентистом — работать с нейросетями, алгоритмами машинного обучения и анализом данных.

О каких данных идёт речь?

Не о всяких. Большие данные, или Big Data, — гигантские массивы разнородной информации, которые нельзя обработать вручную или обычными программами типа MS Excel. Например, годовая статистика продаж какого-то одного магазина — это обычные данные. А вот сведения о том, какие именно товары в этом году приобрели покупатели всех супермаркетов страны, по каким ценам, с какими скидками и какие отзывы об этом они оставили в соцсетях, — это уже Big Data. Чтобы их собрать, обработать и использовать, нужны специальные инструменты и технологии.

Большие данные — результат развития технологий, которые люди использовали для хранения и обработки информации. Раньше всю информацию об окружающем мире собирали в книгах, фильмах или картинах. Сейчас для этого есть цифровое пространство, где можно хранить всё — от банковских транзакций и изображений до геоданных и телеметрии.

В каком-то смысле большие данные — это особый вид искусства, где вместо красок и бумаги мы можем сохранить цифровую копию нашего физического мира в терабайтах информации.

Александр Джумурат

Руководитель команды разработки рекомендательной системы в онлайн-кинотеатре ivi.ru

Почему Big Data сравнивают с нефтью?

Коротко

Потому что нефть — основа экономики. Big Data, как и нефть, проникли во все сферы нашей жизни, становятся её неотъемлемой частью. Современный цифровой мир построен на данных. Нет данных — нет движения.

Подробнее

Мне больше нравится сравнение Big Data с ураном. Уран — это очень ценный ресурс, который связан с высокими технологиями и спорными ассоциациями: одни видят в нём радиоактивность и скрытые опасности, другие — неисчерпаемый источник энергии.

С большими данными похожая ситуация: многие о них слышали, но мало кто понимает их ценность. Для одних это возможность обогатиться и улучшить бизнес-показатели, для других — угроза частной жизни.

Алла Тамбовцева

Ассистент кафедры высшей математики, НИУ ВШЭ. Специализация: программирование для анализа данных, математическая статистика

В 1853 году сырую нефть научились превращать в бензин, керосин и мазут — появились керосиновые лампы, которые до электростанций решали проблему с освещением.

Керосин стал катализатором нефтяной эпохи: появились улучшенные технологии очистки, двигатель внутреннего сгорания и транспорт. А нефть превратилась в стратегический ресурс и отрасль промышленности.

Латунная керосиновая лампа из каталога уличных фонарей 1880 года. Врачи и ремесленники первыми приветствовали распространение керосиновых ламп — теперь у них появился яркий свет для работы в вечернее и ночное время

В истории с Big Data таким керосином стал первый программируемый компьютер Z1 Конрада Цузе. Его создание привело к появлению персонального компьютера, интернета и искусственного интеллекта — появились доступные вычислительные ресурсы для обработки больших данных. Данные начали использовать для оценки финансовых рисков, для прогнозирования эпидемий и повышения продаж.

Примеры использования ↓

Типичный кейс 2012 года: компания хочет избежать банкротства и с помощью больших данных сравнивает себя с конкурентами — подбирает несколько сотен метрик и проводит ревизию бизнеса. В результате появляется отчёт, который помогает подсветить проблемные зоны и своевременно направить ресурсы для их устранения. Например, если у аутсайдеров проседает логистика, то это проблемная зона и её нужно прорабатывать; если лидеры рынка не гонятся за минимальной ценой, то это второстепенный показатель и на нём не стоит концентрироваться.

За счёт подобного анализа компании увидели комплексную картину происходящего и начали принимать стратегические решения, опираясь на цифры и статистику, — не нужно ничего угадывать и полагаться на интуицию.

С 2013 года ценность больших данных возрастает, они помогают компаниям находить скрытые корреляции — использовать неочевидные закономерности для развития бизнеса. Один из таких кейсов представил на хакатоне Editors Lab вице-президент по маркетингу мобильного оператора МТС Василь Лацанич.

Ситуация: сеть периодически падает из-за перегрузок, и каждый сбой приводит к потере клиентов. Нужно понять причину проблемы.

Решение: в МТС подключили большие данные и пришли к выводу: из строя выходят не все вышки, а только те, которые расположены вблизи крупных автомагистралей. Чаще всего проблемы с сетью возникают по праздникам и в преддверии выходных — тогда, когда на дорогах пробки. Найдена скрытая корреляция: пробки на крупной магистрали — риск падения мобильной сети. Зная эту закономерность, компания укрепила слабые участки и смогла предвидеть повышенную нагрузку на сеть.

С 2014 года в Big Data начинают инвестировать городские администрации. Например, мэрия Мадрида выделяет 15 миллионов евро на систему автоматического контроля за работой муниципальных служб. Система ежедневно проводит 1 500 проверок и замеряет эффективность по 300 показателям — если кто-то из подрядчиков недотягивает до стандарта, он останется без бюджетных выплат.

Эффективность больших данных приводит к их быстрому распространению и делает главным топливом современных технологий. Компании развиваются и сталкиваются с проблемой дефицита специалистов — нужны люди, которые выучились на Python-разработчика или освоили профессию Data Scientist.

Гиганты вроде Amazon, Google, Facebook* и другие компании конкурируют за Big Data. Зачем им это нужно?

Коротко

У кого больше данных — у того все преимущества. Аналитики считают, что в будущих технологиях нейросети и алгоритмы машинного обучения будут играть всё большую роль.

Подробнее

В октябре 2020 года компания Gartner опубликовала отчёт с перечнем основных тенденций 2021 года — практически все технологии включают в себя Big Data.

Что касается более отдалённых перспектив, то в следующие 5–10 лет Gartner прогнозирует усиление зависимости от Big Data: продолжат развиваться алгоритмы искусственного интеллекта, компании и страны займутся оцифровкой личностей, а бизнес начнут обслуживать фабрики данных.

Прогнозы развития технологии Big Data ↓

Ожидается, что первые изменения будут связаны с увеличением количества носимых и встроенных датчиков для контроля за поведением человека. Например, если кто-то на производстве нарушит технику безопасности, датчик предупредит о проблеме и позволит быстро исправить ситуацию.

Второй основной тренд будет связан с гиперавтоматизацией — вырастет количество систем искусственного интеллекта, которые помогут решать задачи без участия человека. Например, в случае онлайн-заказа система сможет самостоятельно обрабатывать заявки и отправить товар клиенту. Будет автоматизировано всё, где получится обойтись без человека.

Прогноз Gartner на 2025–2030 годы — развитие Big Data приведёт к увеличению объёма инноваций и сделает технологии полностью зависимыми от данных.

Gartner’s Hype Cycle 2020 — это график аналитической компании Gartner. Здесь показаны этапы развития наиболее перспективных развивающихся технологий в 2020 году

Обратите внимание: большинство инструментов связаны с искусственным интеллектом и алгоритмами машинного обучения. Это значит, что для их работы компаниям понадобится новая нефть — большие данные.

Есть много примеров, когда перспективная технология быстро сдувалась и становилась ненужной. Не получится ли так с Big Data?

Коротко

Нет. Начиная с 2015 года большие данные перестали считаться хайпом и превратились в зрелую технологию — такую, которая никуда не денется и нужна многим компаниям для решения повседневных бизнес-задач.

Подробнее

Компании больше не спорят о целесообразности больших данных и используют их в любых процессах. В качестве примера возьмём кейс Сбера, который был представлен на конференции AI Journey 2019.

Ситуация: менеджеры допускают мелкие ошибки в 20% документов, и из-за этого банк теряет 200 миллионов рублей в год. Нужно уменьшить количество ошибок.

Решение: появилась нейросеть СПОД, которая после обучения на больших данных может автоматически проверять документацию и предупреждать об ошибках. Например, если где-то пропущена печать, нейросеть показывала проблемную страницу. В результате количество ошибок снизилось до 2%.

После 2015 года большие данные стали фундаментом для развития новых технологий — почти всё, что связано с искусственным интеллектом или информацией, завязано на Big Data. Это хорошо видно в прогнозе Gartner, где перечислены десять трендов 2016 года: из всех опубликованных технологий только материалы для трёхмерной печати не связаны с большими данными.

Прогноз Gartner: топ-10 трендов 2016 года

Технология Big Data, как и любая другая технология, не может быть идеальной. Какие у неё недостатки?

Коротко

Есть проблемы с безопасностью и риск того, что люди попадут в зависимость от искусственного интеллекта. Предполагается даже рост безработицы среди низкоквалифицированного персонала — компании автоматизируют производство и вместо сотрудников используют роботов или нейросети.

Подробнее

Всё имеет две стороны: прекрасные цветы могут оказаться ядовитыми, а данные в руках злоумышленников — нанести кому-то значительный ущерб.

Каждый день мы сталкиваемся с множеством сервисов, которые собирают о нас различную обезличенную информацию для персонализации и улучшения клиентского опыта. Более того, к банковским и некоторым другим услугам доступ без персональных данных попросту невозможен.

Что касается безопасности, то здесь всё в руках пользователя. Есть правила, которые нельзя нарушать: не сохраняйте пароли в браузере, перед подписью читайте соглашение об обработке персональных данных, будьте аккуратным при заполнении различных анкет или оформлении подписок, не привязывайте банковские карты к непроверенным сервисам, не сообщайте никому пароли из смс. Всё это звучит как прописные истины, но, к сожалению, многие о них забывают.

Лидия Храмова

Team Lead Data Scientist группы бизнес-моделирования в QIWI. Преподаватель курса профессия Data Scientist — блок «Статистика и теория вероятностей»

Реальная проблема ближайших лет связана с автоматизацией производства. Сейчас компании собирают данные и строят на их основе инфраструктуру, чтобы освободить людей от неквалифицированной рутинной работы. Например, таксистов очень скоро вытеснят беспилотные автомобили. Продавцов, охранников и кассиров заменят интеллектуальные супермаркеты, с бесконтактной оплатой и удалённой системой контроля за посетителями. А вместо грузчиков везде будут роботы.

Останется совсем немного профессий, где не получится внедрить большие данные и построить эффективную систему искусственного интеллекта. Появится множество безработных, которые не станут переучиваться и подстраиваться под условия современной реальности.

Вероятно, проблема безработицы — именно то, чего стоит опасаться многим гражданам. Защита конфиденциальности и прочие юридические казусы использования Big Data будут улажены, но проблема с занятостью останется.

Пример сценария из будущего ↓

Если помните, в фильме «Особое мнение» с Томом Крузом есть группа провидцев, которые умеют сопоставлять события и предсказывают преступления до того, как их успели совершить. Это очень напоминает искусственный интеллект, который в 2021 году прогнозирует стратегические бизнес-решения для компаний и целых государств.

В «Особом мнении» — утопический пример, где люди пострадали, добровольно передав систему правосудия в руки совершенного алгоритма. В реальной жизни всегда есть место погрешности, а Big Data не может всё предусмотреть.

Тотальный контроль алгоритмов над людьми — из категории проблем, на которые не способно повлиять большинство граждан. Даже если нечто подобное и произойдёт в будущем, это будет решение с множеством оговорок. Например, с мелкими правонарушениями разбираются алгоритмы, а с тяжкими преступлениями — полиция и органы правосудия.

«Особое мнение», трейлер. Посмотрите, как может выглядеть «идеальная» система правосудия. Источник

Я не программист и не аналитик. Что нужно знать, чтобы освоить современную профессию и начать заниматься большими данными?

Коротко

Из навыков — школьный уровень математики. Из общих знаний — понимание того, что за всеми технологиями стоит человек и, несмотря на автоматизацию, квалифицированные специалисты никогда не останутся без работы.

Подробнее

Чтобы заниматься анализом данных, необходимы мотивация, готовность изучать что-то новое, цифровая грамотность и немного математической подготовки. Эта профессия точно не подходит людям, которые ориентируются на практику и выделяют минимум времени на теорию.

Практика важна, но в работе с большими данными ключевую роль играет умение интерпретировать результаты и понимать, что пошло не так.

На мой взгляд, серьёзных ограничений, чтобы войти в сферу анализа данных, нет. Нужно только объективно оценивать свой уровень подготовки и быть готовым начать всё с нуля. Причём этот «нуль» у каждого свой: кому-то достаточно освежить в памяти школьную математику, а кому-то придётся начать с основ и подтянуть навыки работы за компьютером.

Алла Тамбовцева

Ассистент кафедры высшей математики, НИУ ВШЭ. Специализация: программирование для анализа данных, математическая статистика

Доклад Андрея Себранта ↓

В 2019 году прошла конференция TEDxVolhonkaSt. Директор по стратегическому маркетингу Яндекса Андрей Себрант выступил там с темой «Человек vs Искусственный интеллект».

Доклад начинается с истории о необычном рисунке, который находится на жилом доме в Екатеринбурге. Суть в том, что это воссозданная античная мозаика и первый в мире арт-объект, который создал не человек: нейросеть восстановила мозаику, а роботы-принтеры нанесли краску на стены.

На первый взгляд кажется, что это пример нового будущего, где машины вытеснили людей. На самом деле всё наоборот — эта история показывает, что за всем стоит человек: нейросеть не смогла бы ничего восстановить, если бы её до этого не запрограммировали и не обучили на больших данных. А роботы-принтеры не смогли бы ничего напечатать, если бы их до этого не закрепили на стене дома промышленные альпинисты.

Создание первого в мире арт-объекта без участия человека: роботы и нейросеть хорошо справляются с задачей, если за всем следят люди. Источник

Данные открыли дорогу искусственному интеллекту и в ближайшие годы, возможно, оставят многих без работы. Но не нужно бояться — так или иначе, люди адаптируются к любой реальности и найдут место в мире современных технологий.

Вопрос только в том, как это сделать легко и безболезненно — как стать частью эпохи, где данные обслуживают нас, наших детей и внуков?

* Решением суда запрещена «деятельность компании Meta Platforms Inc. по реализации продуктов — социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности.

Научитесь: Профессия Data Scientist Узнать больше
Понравилась статья?
Да

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies 🍪

Ссылка скопирована