Что такое парсинг и что о нём обязательно нужно знать маркетологу
Парсинг ускоряет работу в сотни раз. Рассказываем, какие данные можно собирать с помощью него и что об этом говорит закон.
Кадр: фильм «Тёмный рыцарь» / Universal Pictures
Собрать данные с 50 страниц сайта можно за пару часов. Но если этих страниц сотни и тысячи, работа займёт недели. Чтобы ускорить её, можно использовать парсинг.
В этом материале Skillbox Media разберёмся:
- что такое парсинг;
- что можно парсить и зачем это нужно;
- что о парсинге говорит закон;
- как можно парсить данные.
Что такое парсинг
Парсинг — автоматизированный сбор и систематизация информации из открытых источников с помощью скриптов. Другое название этого процесса — веб-скрейпинг.
Скрипты, которые собирают и систематизируют информацию, называются парсерами. Они работают так:
- ищут источники по заданным параметрам — например, парсеру можно дать список сайтов, а он найдёт на них страницы с ценами;
- извлекают из источников нужную информацию — несколько строк текста, ссылку или сумму;
- преобразуют информацию — например, парсер может взять фрагмент из HTML-документа и преобразовать его в текст без кода;
- сохраняют информацию в нужном формате — например, в виде списка или таблицы в Excel.
Парсеры работают на разных языках программирования — Python, JavaScript, PHP 5 и других. Подробнее о принципах работы парсера на JavaScript можно почитать здесь.
Смысл парсинга в том, чтобы ускорить рутинную работу. Чтобы собрать и сохранить в таблице список из тысячи статей на сайте, человек потратит часы. Парсер сделает эту работу за несколько минут. Парсер ускоряет работу в сотни раз и допускает меньше ошибок, чем человек.
Что можно парсить и зачем это нужно
Количество способов использования парсинга бесконечно. С помощью парсинга можно извлекать любую информацию из исходного кода страниц сайтов, из соцсетей, каталогов, файлов и документов.
Мы перечислим самые распространённые способы применения парсинга в маркетинге. Парсерами ищут:
- Цены на товары и услуги. Парсинг сайтов помогает быстро собрать информацию о ценах на продукты конкурентов. Если проводить его регулярно, можно всегда поддерживать конкурентную цену на продукт. Снижать её, когда конкуренты делают скидки, — и повышать, если их цены тоже растут.
- Поисковые фразы. Можно использовать парсинг выдачи «Яндекса», чтобы собрать все возможные ключевые слова. Парсер может сохранять фразы из поисковых подсказок и блока «Люди ищут» внизу.
- Целевую аудиторию в соцсетях. С помощью парсинга собирают людей по нужным критериям — например, тех, кто проявляет активность в сообществах конкурентов. Потом этим людям показывают рекламу. Сейчас очень популярен парсинг во «ВКонтакте», в других соцсетях его используют реже.
- Битые ссылки. Так называют ссылки, ведущие на несуществующую страницу. Парсер может быстро обойти весь сайт и сохранить в документе все битые ссылки — и страницы, на которых они расположены.
- Идеи для контента. Парсер может собрать в одном месте посты или статьи на выбранную тему. Это нужно, чтобы изучить сразу всех конкурентов и выпустить интересный контент. Некоторые парсят сайты, чтобы копировать контент, — например, добывают так описания для тысяч товаров в интернет-магазине.
- Отзывы. Если компания занимается SERM — управлением репутацией в поисковых системах, она может использовать парсеры, чтобы находить новые отзывы. Тогда программы каждый день будут собирать отзывы, появившиеся за последние сутки, а менеджеры быстро отреагируют на них.
Законно ли использовать парсинг
Да, потому что парсинг — просто автоматизация. Парсеры работают с данными, которые можно найти и вручную. А закон не запрещает использовать любые методы сбора общедоступных данных.
Но ограничения всё-таки есть. Парсинг нельзя использовать, чтобы нарушать закон:
- Нагружать парсером сервер сайта так, что он перестаёт работать. Это одна из разновидностей DDoS-атак. За неё могут наказать по статьям 272 или 273 УК РФ штрафом до 200–500 тысяч рублей и лишением свободы на срок до семи лет.
- Использовать полученные данные для спама. Штраф за спам по закону «О рекламе» достигает 500 тысяч рублей за одно сообщение.
- Использовать данные для плагиата. Нарушение авторских прав описано в статье 146 УК РФ. За него могут оштрафовать на сумму до 500 тысяч рублей.
- Распространять личные данные пользователей, полученные в ходе парсинга. Делать это запрещает поправка к закону о персональных данных. За нарушение этого закона предусмотрены штрафы до 18 миллионов рублей для юридических лиц.
Таких преступлений много, а найти виновного сложно. Поэтому наказывают за них редко.
Как можно парсить данные
Есть два способа парсить данные: создать парсер с нуля и использовать готовое решение.
Создание парсера с нуля обычно нужно, если готовые решения не подходят. Например, свои парсеры делают большие интернет-магазины с тысячами товаров, чтобы находить позиции без описания или без важных характеристик.
Поручить создание парсера можно разработчику. А можно сделать его самому, даже если вы не разбираетесь в программировании. В Skillbox проходит бесплатный интенсив, на котором вы сможете создать парсер сайтов на Python за три дня.
Готовые решения подходят, чтобы закрыть типовые задачи. Общедоступных парсеров много. Например:
- TargetHunter собирает целевую аудиторию во «ВКонтакте».
- uXprice мониторит цены конкурентов в интернет-магазинах и рекомендует оптимальные.
- A-Parser — это 90+ парсеров сайтов, поисковых систем и SEO-сервисов. Их можно использовать, чтобы спарсить поисковые фразы или адреса компаний из «Яндекс.Карт».
Главное — в четырёх пунктах
- Парсинг — автоматизированный сбор и систематизация данных. Его проводят с помощью программ, которые называются парсерами. Парсинг нужен, чтобы ускорить рутинную работу.
- Парсить можно что угодно — цены конкурентов, поисковые фразы, аккаунты в соцсетях, битые ссылки.
- Закон не запрещает парсинг. Но его нельзя использовать для преступлений: чтобы распространять личные данные людей, спамить, перегружать сервер сайта.
- Чтобы парсить данные, можно создать парсер с нуля или использовать готовые решения. Последних много — важно найти подходящее для ваших задач.
Материалы Skillbox Media о рекламе и продвижении сайтов
- Что такое уникальность текста, зачем её проверять и как она влияет на SEO
- Руководство по myTarget: как настроить эффективную рекламу во «ВКонтакте» и на других площадках
- Что такое УТП — и как создать сильное предложение, чтобы продавать больше
- Гайд по «Яндекс.Вордстату»: подбираем ключевые слова для SEO, контента и контекстной рекламы
- Как использовать линкбилдинг, чтобы получать хорошие ссылки и не подпасть под санкции