Маркетинг

#статьи

4 авг 2023
0

A/B-тестирование: зачем оно нужно, как его провести и как правильно оценить результаты

Рассказываем, как провести A/B-тестирование без программирования и что учесть, чтобы получить достоверный результат.

Кадр: фильм «RRR» / DVV Entertainment

Дарья Чепурнова

Шеф-редактор направлений «Маркетинг», «Управление», «Бизнес», «Деньги» Skillbox Media. В прошлом отраслевой журналист и владелец небольшого нишевого ютуб-канала.

оБ A/B-тестировании рассказал

Александр Сбытов

Веб-аналитик Artics Internet Solutions.

A/B-тестирование — один из самых популярных методов исследования в маркетинге, UX, управлении проектами и продуктами. А ещё это востребованный навык — только на HeadHunter в июле 2023 года было более 500 вакансий, в которых от соискателей требовали владения методами A/B-тестирования.

Прочитайте эту статью Skillbox Media, чтобы узнать, что такое A/B-тестирование, и научиться его проводить.

Что такое A/B-тестирование
Зачем его используют
Как проходит A/B-тестирование
Как запустить A/B-тестирование в сервисе Varioqub
Как избежать ошибок

Что такое A/B-тестирование

A/B-тестирование, или сплит-тестирование, — это метод исследования, при котором сравнивают эффективность двух вариантов какого-то объекта, например страницы сайта. Эти варианты показывают аудитории и оценивают, на какой из них люди реагируют лучше.

Цель метода — понять, какое изменение приведёт к лучшему результату, например к росту конверсии. Метод используют в следующих случаях:

нужно улучшить показатели, и есть предположения, как это сделать;
в команде есть разные мнения о том, что и как нужно изменить;
клиент предлагает изменения, но нет уверенности, что они пойдут на пользу;
нужно доказать эффективность нового инструмента или новой версии продукта.

Во всех этих ситуациях сплит-тестирование позволит принять решение, опираясь не на мнения, а на данные. Это называется data-driven-подходом.

Разберём, как работает A/B-тестирование, на примере. Конверсия страницы сайта сейчас — 5%. Маркетолог предполагает, что, если изменить цвет кнопки «Купить» с зелёного на синий, конверсия вырастет до 7%.

Чтобы проверить это предположение, маркетолог использует специальный сервис — например, AB Tasty. Сервис распределяет трафик так, что половина посетителей страницы видят старую её версию, а половина — новую, с синей кнопкой «Купить». Через три недели маркетолог сравнивает результаты. Конверсия старой версии страницы — 5%, а новой — 7,5%.

Маркетолог ставит задачу разработчикам, и цвет кнопки меняют. Благодаря этому компания зарабатывает больше — она тратит на привлечение трафика столько же, сколько раньше, но получает в полтора раза больше продаж.

Есть близкие методы — A/B/C-тестирование и A/B/C/D-тестирование. Их отличие от A/B-тестирования в том, что за один раз сравнивают не два, а три или четыре варианта.

Зачем используют A/B-тестирование в разных отраслях

Главная цель A/B-тестирования — понять, какой вариант продукта или объекта позволит бизнесу зарабатывать больше. В разных отраслях метод используют для улучшения разных объектов.

Маркетологи используют сплит-тестирование, чтобы найти наиболее эффективный вариант текста объявления, призыва к действию на странице сайта, заголовка лид-формы во «ВКонтакте» и так далее. Метод A/B-тестирования используют для исследования рекламы, воронок продаж, сайта.

Продакт-менеджерам A/B-тестирование нужно для развития продукта. Например, с его помощью они могут понять, как доработать сервис, чтобы он нравился пользователям. А чем больше продукт нравится пользователям, тем больше денег он может принести.

Дизайнеры используют тестирование, чтобы улучшать интерфейс приложений, сайтов и сервисов. Например, с помощью метода можно понять, какой дизайн корзины или карточек товаров приносит больше продаж.

Для аналитиков A/B-тестирование — один из множества инструментов оценки эффективности сайтов, приложений, рекламы. Аналитики проводят A/B-тесты, чтобы помочь маркетологам подтвердить или опровергнуть их предположения.

Обучение в Skillbox для тех, кто хочет освоить аналитику

«A/B-тестирование» — научиться формировать гипотезы, определять метрики, анализировать результаты — и зарабатывать больше за счёт этих навыков.
«Профессия Веб-аналитик» — прокачать навыки до уровня senior: освоить автоматизацию, визуализацию и язык запросов SQL.
«Профессия Маркетолог-аналитик» — автоматизировать анализ данных и оценивать эффективность рекламы в онлайне и офлайне.

Как проходит A/B-тестирование: разбираем этапы

Чтобы сравнить два варианта объекта, нужно сформулировать гипотезу, определить метрики, рассчитать размер выборки, запустить тест и проанализировать результаты. Разберём каждый этап подробнее.

Формулирование гипотезы. Гипотеза в A/B-тестировании — предположение о том, какой вариант объекта принесёт лучший результат. Чтобы сформулировать её, сначала нужно проанализировать текущую ситуацию, найти то, что можно изменить, и понять, как это может сказаться на эффективности.

Обычно гипотезу составляют по простой формуле: «вариант B работает лучше, чем вариант A». Такая гипотеза называется альтернативной. Например, конверсия в заполнение формы — 4%. Маркетолог предположил, что, если упростить форму, её будут заполнять чаще. Гипотеза может звучать так: упрощённая конверсионная форма работает лучше обычной.

Также формулируют нулевую гипотезу — это обратное предположение. Оно звучит так: «Вариант A работает лучше, чем вариант B». В нашем примере гипотеза будет такая: обычная конверсионная форма (старая) работает лучше упрощённой (новой).

Только когда мы опровергнем нулевую гипотезу, сможем принять альтернативную — о том, что новый вариант работает лучше старого. Две гипотезы используют, чтобы не возникало ситуаций, когда тестовый вариант вводят не потому что он лучше работает, а потому что он новый. Новое не всегда лучше старого.

Определение метрик. На этом этапе определяют показатели, по которым будут сравнивать эффективность вариантов. Подойдут только количественные метрики.

Количественные метрики выражены в цифрах. К ним относятся, например, CTR, CPA, LTV, ER. К количественным метрикам можно применить метод статистического анализа и понять, достоверны ли итоги сплит-тестирования. К качественным метрикам метод статистического анализа применить нельзя.

Приведём пример гипотезы с метрикой: упрощённая конверсионная форма получит коэффициент конверсии на 3% выше, чем текущая.

Расчёт размера выборки. Размер выборки — это количество пользователей, которым покажут разные варианты объекта. От размера выборки зависит достоверность результатов A/B-тестирования: если пользователей слишком мало, результат теста может быть случайностью.

Рассчитать размер выборки для сплит-тестирования, в котором сравнивают конверсию вариантов, можно в специальных калькуляторах от Mindbox или от Evan Miller. В них нужно указать число вариантов в тесте, текущие показатели конверсии и ожидаемый прирост. Сервисы покажут, сколько всего пользователей нужно и сколько пользователей должны увидеть каждый вариант.

Так выглядит калькулятор для расчёта размера выборки
*Скриншот: Mindbox / Skillbox Media*

Для A/B-тестирования с другими метриками можно использовать другие калькуляторы. Они рассчитывают необходимый размер выборки, основываясь на том, какую точность вы хотите получить, какую погрешность можете допустить и какая у вас общая аудитория.

В целом чем больше размер выборки, тем лучше. Для теста обычно берут 2–30% от генеральной совокупности пользователей. Генеральная совокупность — все пользователи, которые взаимодействуют с объектом. Например, число посетителей сайта в месяц или число активных пользователей сервиса.

Запуск тестирования. Есть четыре способа запустить тест: с помощью встроенного инструмента, вручную, в специальных сервисах или с помощью программирования. Разберём их подробнее.

Встроенные инструменты. Они есть в некоторых рекламных системах. Если включить функцию тестирования, система сама распределит трафик между вариантами кампаний или объявлений и посчитает результаты.

Например, в «Яндекс Директе» есть инструмент под названием «эксперименты». Настроить эксперимент можно в «Яндекс Аудиториях». Подробнее о процессе написано в блоге «Яндекса».

Ручное A/B-тестирование. Оно подойдёт для сравнения вариантов любых объектов. Но ручное тестирование трудозатратно, потому что настраивать показ объектов придётся вручную.

Например, во «ВКонтакте» можно запустить два варианта объявления одновременно на одну аудиторию. А в «Директе» — настроить шахматный порядок показа кампаний: один час работает одна кампания, следующий — другая.

Специальные сервисы. В них можно тестировать разные варианты страниц сайтов, приложений, email-рассылок и многих других объектов. Например, вот несколько сервисов для тестирования страниц сайтов: Leadpages, Kameleoon, Optimizely Experiment, AB Tasty, Varioqub. Подробно о работе с одним из них мы поговорим ниже.

Чтобы использовать сервисы, нужно установить на сайт их код. Тогда сервис сам распределит трафик между вариантами в равных долях и посчитает результат.

Тестирование с помощью программирования. Это самый редкий способ сплит-тестирования. В 98% случаев для теста не нужно писать код, потому что функциональность специальных сервисов закрывает большинство потребностей.

К программированию прибегают, когда нужно проводить сложное A/B-тестирование — например, отслеживать одновременно несколько метрик и несколько сегментов целевой аудитории. Тогда для тестирования собирают команду, состоящую как минимум из аналитика и разработчика.

Проще всего использовать специальные сервисы или встроенные инструменты. Их нужно настроить один раз, а потом оценить результаты. Ручное тестирование требует больше времени на настройку и постоянного контроля, а программирование — много ресурсов.

В «Яндекс Директе» можно настроить тест вручную, если сделать шахматный порядок показа кампаний
*Скриншот: «Яндекс Директ» / Skillbox Media*

Сплит-тестирование проводят до тех пор, пока не будет достигнут заданный размер выборки. На это может потребоваться от нескольких дней до нескольких месяцев.

Анализ результатов. На этом этапе определяют, какой вариант дал лучший результат. Если новый вариант показал, например, конверсию на 3% больше, его внедряют и показывают всей аудитории. Если оказалось, что разницы почти нет или старый вариант лучше нового, формируют новую гипотезу и проверяют её.

Но результаты могут быть недостоверны. Чтобы убедиться, что новый вариант действительно лучше старого, оценивают статистическую значимость. Статистическая значимость — это показатель надёжности статистики: оценка того, получены ли данные в результате случайности. Статистическую значимость рассчитывают с помощью методов математической статистики — например, хи-квадрата Пирсона.

Оценить статистическую значимость можно в специальных сервисах:

если сравнивали CR или CTR вариантов, можно использовать калькулятор Mindbox или Evan Miller;
если сравнивали CPA, подойдёт калькулятор «Яндекс Директа»;
если сравнивали LTV, подойдёт другой калькулятор от Evan Miller.

Если сервис посчитал результат статистически недостоверным, сплит-тестирование повторяют с теми же вводными, но с большим размером выборки.

Как запустить A/B-тестирование сайта в сервисе Varioqub

Varioqub — продукт «Яндекса» для A/B-тестирования вариантов страниц сайта. Мы расскажем, как с ним работать: настраивать эксперимент и анализировать результаты.

Чтобы сервис заработал, нужно добавить на сайт код контейнера экспериментов. Это может сделать веб-аналитик.

Для настройки нового эксперимента нажмите на «Создать эксперимент». Напишите его название, выберите даты проведения эксперимента и долю аудитории, которая будет в нём участвовать. Даты можно рассчитать на основе трафика — например, если для сплит-тестирования нужно 6000 пользователей, а на страницу каждый день заходит 1000 посетителей, эксперимент должен длиться шесть дней.

Создание эксперимента
*Скриншот: Varioqub / Skillbox Media*

Дальше нужно указать страницу, на которой вы будете проводить эксперимент, и параметры URL, по которым он будет активироваться. Например, в параметрах можно указать UTM-метку — тогда варианты будут показаны только людям, которые перешли по ссылке с этой меткой.

Сервис автоматически проверяет доступность ссылки
*Скриншот: Varioqub / Skillbox Media*

Дальше нужно указать цель, достижение которой вы будете отслеживать, — например, конверсию в отправку формы. Если цели не настроены, сделать это можно в «Яндекс Метрике».

К основной цели можно добавить дополнительные — они не повлияют на результат, но сервис будет отслеживать и их
*Скриншот: Varioqub / Skillbox Media*

Следующий шаг — выбор типа эксперимента. В Varioqub три варианта: визуальный редактор, ссылки для редиректа и флаги в коде. Чаще всего используют визуальный редактор и ссылки для редиректа:

Визуальный редактор пригодится, если нужно протестировать варианты с минимальными несложными изменениями. Например, с разными цветами кнопок или текстом на первом экране. Но редактор не позволяет менять поведение блоков с интерактивными элементами — например, форм опросов или калькуляторов — и перемещать их. Также в нём нельзя перемещать блоки, в которых более 3850 символов кода.
Ссылки для редиректа используют, если нужно протестировать изменения в функциональности или поменять местами блоки, в которых есть какие-то формы. Для этого нужно заранее подготовить две страницы: одну — стандартную, другую — с изменениями. Обе страницы нужно разместить на одном домене, иначе эксперимент нельзя будет запустить.

Мы покажем настройку на примере ссылок для редиректа. Эти ссылки указывают без домена, начиная с /. «Контрольный вариант» — страница без изменений, ссылку на неё указывать не обязательно. «Вариант 1» — страница с изменениями, ссылку на неё нужно указать.

Укажите в поле «Вариант 1» ссылку на страницу, в которую внесли изменения
*Скриншот: Varioqub / Skillbox Media*

После настройки можно запускать эксперимент. Пока он идёт, нельзя его останавливать и вносить изменения в страницы — иначе придётся начинать заново.

Эксперимент остановится сам, когда придёт время или когда накопится достаточно данных. Чтобы оценить результаты, нужно нажать на кнопку «Посмотреть отчет» в списке экспериментов.

В отчёте будут все показатели обоих вариантов — например, данные о количестве посетителей страницы, числе целевых действий, конверсиях. Если Varioqub обнаружит лучший вариант, он выделит его зелёным цветом.

Так выглядит отчёт об эксперименте, в котором удалось определить лучший вариант
*Скриншот: Varioqub / Skillbox Media*

Если Varioqub не обнаружит лучший вариант, он ничего не выделит. Так может произойти, если результаты тестов слишком похожи и нельзя достоверно определить, какой вариант сработал лучше. Точнее, если после статистической обработки данных не будет доказано, что лучший вариант не мог быть получен случайно.

В этом случае нужно сформулировать новую гипотезу и провести новое сплит-тестирование.

Какие ошибки совершают при A/B‑тестировании и как их не допустить

Несколько изменений в вариантах. Нельзя одновременно менять много элементов — например, цвета кнопок, призывы к действию, анимацию на странице. Иначе невозможно будет понять, какое из изменений повлияло на результат. Поэтому нужно следовать правилу: одно изменение — одно сплит-тестирование.

Чужие гипотезы. Использовать их не стоит — то, что сработало в одном проекте, не обязательно сработает в другом. Если бездумно копировать чужие гипотезы, можно потерять много времени и не улучшить показатели. Лучше анализировать ситуацию и выдвигать свои гипотезы.

Досрочное завершение теста. Нельзя завершать сплит-тестирование раньше, чем был достигнут размер выборки. Результаты могут быть недостоверными. Затягивать эксперимент также не стоит.

Неправильные метрики. Если отслеживать метрики, которые не влияют на коммерческие показатели, можно принять неправильное решение. Лучше выбирать показатели, которые влияют на выручку и прибыль, — например, коэффициент конверсии.

Неравномерное распределение аудитории. Варианты пользователям нужно показывать случайным образом. Иначе может получиться так, что отдельный сегмент аудитории будет видеть только один вариант — и результат будет недостоверным. Лучше использовать специальные сервисы — они распределяют трафик автоматически.

Игнорирование внешних факторов. На результаты эксперимента могут влиять внешние факторы: сезонность, общая информационная повестка, периоды распродаж. Чтобы получить статистически значимые результаты, лучше проводить A/B-тестирование в нейтральные периоды.

Выборка непохожа на генеральную совокупность. Чтобы получить применимые результаты тестирования, нужно сделать так, чтобы выборка была похожа на генеральную совокупность пользователей. Например, если в среднем конверсия 3%, а у людей, попавших в выборку, конверсия в среднем 8% — выборка нерепрезентативна: она плохо представляет среднестатистического пользователя сайта. Чтобы выборка была похожа на генеральную совокупность, распределение трафика лучше доверить сервисам.

Главное об A/B‑тестировании в трёх пунктах

A/B-тестирование, или сплит-тестирование — это метод исследования, при котором сравнивают эффективность двух вариантов какого-то объекта: например, страницы сайта. Эти варианты показывают аудитории и оценивают, на какой из них люди реагируют лучше. Цель сплит-тестирования — понять, какое изменение приведёт к лучшему результату.
Чтобы запустить A/B-тестирование, нужно сформулировать гипотезу, определить метрики, рассчитать размер выборки, запустить тест и проанализировать результаты. Для сплит-тестирования есть встроенные инструменты в рекламных системах и отдельные сервисы, а ещё его можно запускать вручную или использовать программирование.
Чтобы результаты теста были достоверными, важно не допустить ошибок. Распространённые ошибки — тестирование нескольких изменений, чужие гипотезы, досрочное завершение теста, неправильный выбор метрик, неравномерное распределение аудитории, игнорирование внешних факторов и тестирование на нерепрезентативной выборке.

Как узнать больше о маркетинговой аналитике

Прочитайте статью о маркетинговых исследованиях, чтобы понять, как ещё можно изучать поведение пользователей или ситуацию на рынке. Также в Skillbox Media есть статьи о других методах исследований: о CustDev, глубинных интервью, SWOT-анализе.
В Skillbox Media есть статьи о метриках, на которые ориентируются при маркетинговой аналитике. Мы уже рассказывали о CTR, CPC, CPM, CPA и CPL, LTV, open rate, click rate и CTOR. Прочитайте статьи, чтобы понять, как рассчитывают эти показатели и что определяют с их помощью.
Если вы хотите освоить метод сплит-тестирования, обратите внимание на курс Skillbox «A/B-тестирование». На нём учат формировать гипотезы, определять метрики, работать с выборкой и автоматизировать тесты с помощью Python.

Строите карьеру в маркетинге? Прочитайте эти материалы Skillbox Media

Главное о чёрном пиаре: как он работает и можно ли наказать тех, кто его использует
Всё о продвижении на маркетплейсах: как освоить один из главных каналов сбыта товаров
Что такое квизы, как их используют и как собрать свой квиз за пять минут без программирования
Стратегический маркетинг: как навык работы со стратегиями помогает в карьере и где его получить
Как кластерный анализ работает в маркетинге: разбираем на простом примере