Статьи

A / B-тестирование: вот как вы могли бы сделать это неправильно

Дэвид Огилви, один из основателей современной рекламы, однажды сказал: « Никогда не прекращайте тестирование, и ваша реклама никогда не перестанет улучшаться. Еще в 2008 году Билл Гейтс отметил, что « мы должны использовать методологию A / B-тестирования гораздо чаще, чем мы. »

Никогда не прекращайте тестирование, и ваша реклама никогда не перестанет улучшаться.

Дэвид Огилви, из-за всех его тонких полных твидовых костюмов, оксфордского образования и безжалостного курения табака, наверняка знал, о чем он говорил, еще 50 лет назад, когда он классно сказал: «Никогда не прекращайте тестирование, и ваша реклама никогда не перестанет улучшаться» «.

В современном мире Интернета благодаря разнообразным удобным программным инструментам раздельное тестирование и оптимизация преобразования становятся все более распространенными и доступными. С более чем 330 000 активных веб-сайтов, использующих A / B-инструмент для сплит-тестирования Optimizely, и более чем 78 000 активных сайтов, использующих Visual Website Optimizer, не секрет, что сплит-тестирование набирает популярность. Из 12 000 ведущих онлайн-ритейлеров и компаний работает один или другой из этих популярных сервисов.

Использование A / B-тестирования - Статистика для сайтов, использующих технологии A / B-тестирования - BuiltWith.com

Твердые цифры по использованию программного обеспечения для A / B-тестирования от BuiltWith по состоянию на сентябрь 2016 года. Optimizely занимает лидирующие позиции как на веб-сайтах с высоким трафиком, так и во всей сети в целом (включая небольшие сайты / МСП).

Несмотря на столь простое распространение программного обеспечения для А / Б тестирования, ваша бабушка смогла запустить свой первый А / Б тест, UserTesting.com обнаружил, что 90% их внутренних А / Б тестов не пройдены . Аналогичное исследование VWO показало, что только 1 в каждых 7 тестах A / B (14%) дает статистически значимый результат победы. Это означает, что, как правило, только один тест из десяти будет иметь какое-либо существенное влияние на показатели конверсии, и даже в этом случае в большинстве случаев средний уровень улучшения коэффициента конверсии по наиболее важным показателям (онлайн-покупки, доход, лиды) будет низким.

Является ли толчок к принятию A / B-тестирования просто обманом без какого-либо вещества? Мы так не думаем. Скорее всего, вы просто делаете это неправильно. Вот то, что мы наблюдали за последние 5 лет, выполнив A / B-тестирование для большего количества мировых брендов (и небольших компаний), чем вы можете потрясти (очень научно).

Rote Testing

В школе Rote Learning был, когда ваши учителя решили, что будет проще заставить вас запомнить ответы или мнемонику, чтобы вы могли пройти тест.

Эквивалент этого A / B-тестирования — заглядывать в тематические исследования и блоги A / B-тестирования и бездумно пробовать их самостоятельно на своем веб-сайте со своей уникальной аудиторией трафика и посетителей сайта.

Если у вас есть краткий поиск примеров А-Б тестирования и блогов, вы часто сталкиваетесь с чрезмерно упрощенными идеями (явными или подразумеваемыми):

  • «Ваш призыв к действию должен быть выше сгиба!»
  • «Наличие видео конвертируется лучше!»
  • «Длинная копия превосходит короткую!»
  • «Короткая копия превосходит длинную копию!»
  • «Оформление на одной странице превосходит многоступенчатое оформление!»
  • «Многоэтапное оформление заказа превосходит одностраничное оформление заказа!»
  • «Меньше полей формы ВСЕГДА лучше, чем больше полей формы!»

Для каждого из вышеперечисленных я видел выигрышные A / B-тесты, которые «доказывают» и «опровергают» каждый из вышеперечисленных (для разных сегментов рынка и аудиторий).

Вот пример из WhichTestWon, где ведущий австралийский бренд ипотечных и ипотечных брокеров, Aussie, провел A / B-тестирование с вариантом, включающим видео (в дополнение к некоторым другим изменениям).

Aussie Home Loans A / B Test

Я часто слышал, как люди в общих чертах говорят о веб-видео, как будто это уверенность в том, что наличие видео всегда сделает вашу страницу лучше. В отличие от этого, версия без видео фактически генерировала на 64% больше заявок на ипотечное кредитование.

Если вы думаете о A / B-тестировании в упрощенном режиме, очень маловероятно, что у вас будет A / B-тест, который даст 100% -ное или большее улучшение коэффициента конверсии или будет выше среднего. процент победных тестов.

Эти догматические идеи указывают на то, что вы, скорее всего, думаете о A / B-тестировании таким образом, чтобы не дать оптимальных результатов тестирования.

Человеческие существа, взятые в разумных размерах (в конце концов, именно на это мы и пытаемся повлиять в наших экспериментах), сложнее, чем просто убедить в таких изменениях. Мы также все совершенно разные, с уникальными мечтами, надеждами, стремлениями, целями, потребностями, желаниями, личностями, проблемами и психограммами.

«Дробовик» Тестирование

Если вы посмотрите результаты прошлых испытаний многих организаций, активно вовлеченных в A / B-тестирование, то вы часто сталкиваетесь с явлением, которое я люблю называть «Испытанием в ружье».

Результаты = Скорость * Среднее влияние * Процент побед

Чтобы максимизировать результаты A / B-тестирования, вы должны работать над улучшением скорости вашего теста, среднего воздействия на тест и коэффициента выигрыша. Тестирование дробовика — это когда у вас есть скорость без высокого среднего теста на удар и слабого выигрыша.

«Испытание дробовиком» — это когда команда оптимизации имеет очень высокую скорость в своем подходе A / B-тестирования, но выигрыш и среднее воздействие ужасны. Они тестируют все под солнцем, и на выходе получается очень большой объем и скорость A / B-тестов. Но когда вы просматриваете результаты каждого из них, вы замечаете, что они в основном бросают кучу вещей в стену и надеются, что что-то прилипнет.

Время от времени вы будете слышать заявления типа «ну, по крайней мере, мы учимся» (что правда), но ценность метрик обучения без влияния на ваш бизнес трудно оценить количественно.

В организациях, где тестирование с использованием дробовика является распространенным явлением, мало кто задумывается над попыткой определить, какие идеи тестирования могут оказать сильное или слабое воздействие. Большинство из них не слышали о WhichTestWon, и почти наверняка не существует какой-либо конкретной методологии для идеализации теста (есть причина, по которой мы разработали нашу методологию конвертации в ROI веб-маркетинга ).

Страшный цветовой тест кнопки

Не сложно придумать тестовые идеи. Тем не менее, задача состоит в том, чтобы придумать (и реализовать) идеи раздельного тестирования с высоким потенциалом воздействия для вашей целевой аудитории .

Когда вы читаете такие идеи, как скачок CTR на 77%, просто изменив формулировку на кнопке или когда Google сплит тестировал 41 оттенок синего, чтобы найти тот, который работает лучше всего, вы можете быть склонны думать, что такого рода тесты, включающие мелочи просты в реализации и всегда приносят большие результаты.

Но ничто не может быть дальше от истины.

Чтобы получить крупных победителей, это помогает мыслить масштабно. Вы не должны соглашаться на простые изменения. Если ваш A / B-тест может быть реализован в несколько строк jQuery — он, вероятно, слишком мал.

Подумайте о своих клиентах. Что они действительно после этого на рынке? Это то, что вы думаете, они после, или вы знаете, для факта? Если вы не уверены, проведите опрос с Hotjar или Qualaroo на странице благодарности и спросите их: «Что еще чуть не остановило вас от покупки / регистрации сегодня?»

Каково ваше ценностное предложение? Это четко указано в вашей копии? Каким будет идеальное ценностное предложение на вашем рынке?

Посмотрите на этот пример из WhichTestWon, показывающий два потока регистрации для Национального австралийского банка (NAB).

Национальный Австралийский Банк A / B Test

Итак, какой поток регистрации выиграл? Секунда. Около 40% опрошенных на WhichTestWon ошибочно угадали «Контроль кредитной карты» (версия A). В результате показатель конверсии бланков увеличился на 23,6%, а общее количество обращений за посещение увеличилось на 9,5% (с вероятностью 99%). Это отличная иллюстрация того, что предсказать поведение пользователей не всегда легко.

Качели для заборов

Соблазнительно посмотреть «лучшие сплит-тесты», чтобы понять, какие изменения сработали для других. Это также рецепт катастрофы.

Когда 37 сигналов попытались повлиять на коэффициент конверсии для Highrise, они полностью переработали домашнюю страницу, как показано ниже:

Высотный

Результатом стало улучшение коэффициента конверсии на 102,50%. Они не просто изменили один призыв к действию или заголовок, они полностью переработали домашнюю страницу (с некоторыми квалифицированными догадками о том, что, вероятно, будет выполнять) и изменили:

  • Заголовок
  • копия
  • Фоновая картинка
  • Весь визуальный дизайн
  • Призыв к действию текст
  • Призыв к действию цвет
  • То, как ценностное предложение было сообщено

И это окупилось. Большой. Они удвоили свои регистрации на том же уровне трафика. Это также могло бы привести к поражению, но если вы не будете отбиваться за заборы — это почти наверняка, вы никогда не добьетесь больших побед. Другое преимущество состоит в том, что вы получаете статистическую значимость гораздо быстрее.

Сбой части статистики

До сих пор мы в основном занимались психологией сплит-тестирования — как убедиться, что вы привлекаете нужную аудиторию и делаете свое предложение неотразимым. Но как насчет самих тестов? Безусловно, самые большие ошибки, которые вы можете сделать:

  1. Вызов теста слишком рано и / или;
  2. Не используется достаточно большой размер выборки

Распространенный сценарий, с которым вам придется столкнуться, если вы провели значительный объем тестирования, — это ситуация, когда вы запускаете новый A / B-тест, и в первые пару дней он показывает ужасные результаты, указывая на то, что тест возможен сбой, такой как ниже:

A / B тест с танкованием

Источник изображения: ConversionXL

В приведенном выше скриншоте теста от VWO, мы видим, что вариация является танкованием. Плохо. Это потеря почти на 90%.

Искушение, когда кто-то новичок в A / B-тестировании видит это, состоит в том, чтобы отказаться от варианта и попробовать что-то еще.

Основное правило A / B-тестирования (и статистики в целом) — не называйте свой тест слишком рано. Один и тот же тест проходил в течение дополнительной недели или около того (требуются мужество и преданность точности данных, чтобы тест продолжался, когда он, по-видимому, проваливался), и, безусловно, результаты показали:

Победитель A / B теста

Источник изображения: ConversionXL

Десять дней спустя вариация, которая была сильно побеждена в соревновании, теперь работала на полной скорости — с 95% -ной вероятностью побить контроль. Это информация, которую вы никогда бы не узнали, если бы вы назвали тест слишком рано.

Мы рекомендуем установить минимальную продолжительность теста (на основе ваших оценок трафика) для теста еще до его начала и зафиксировать его в камне.

Если вы сомневаетесь (или если результат кажется слишком хорошим, чтобы быть правдой), не бойтесь повторно протестировать точно такой же эксперимент в новом тесте A / B.

A / B-тестирование выполнено правильно

Небольшие, постепенные изменения и изменение одного фактора за раз — это замечательно, когда вы начинаете с A / B-тестированием, но ключ к истинным результатам A / B-тестирования заключается в том, чтобы тестировать больше, часто тестировать, правильно представлять, иметь большую выборку размер и не вызывайте ваш тест слишком быстро.

Если результаты кажутся хорошими, чтобы быть правдой, не бойтесь проверять и повторно тестировать. A / A тесты — ваш друг.

Потратив время на то, чтобы лучше понять ваши цели и то, как они соотносятся с действиями, которые вы хотите выполнить со своей аудиторией, а также с тем, что происходит после того, как потенциальные клиенты предпримут эти действия, вы будете настраивать свои тесты на успех прямо с Начало. И в процессе вы оставите конкурентов позади.