Статьи

Являются ли большинство победных результатов A / B-теста обманчивыми?

В недавнем отчете Мартина Гудсона из Qubit (стартап по оптимизации конверсии) утверждалось, что большинство победных результатов A / B-теста иллюзорны , по большей части из-за того, что такие тесты выполняются плохо. По мнению автора, это то, что может привести не только к «ненужной модификации веб-сайтов», но и в некоторых случаях может нанести ущерб прибыльности компании.

Так почему же это так? И как дизайнеры и компании могут гарантировать, что если A / B-тестирование (также называемое сплит-тестированием) выполняется правильно и эффективно?

Что такое A / B-тестирование?

Чтобы начать с краткого учебника, A / B-тестирование — это способ сравнить две версии веб-страницы (например, целевую страницу), чтобы определить, какая из двух версий работает лучше всего. Чтобы выполнить тест, две группы людей увидят разные страницы, и результаты измеряются тем, как группы взаимодействуют с каждой страницей.

Например, страница, которая содержит сильный призыв к действию (CTA) в определенной области страницы, может быть сопоставлена ​​с другой, которая похожа, но имеет CTA в другом месте и может использовать другую формулировку или цвет.

Другие аспекты страниц, которые обычно используются в A / B-тестировании, включают:

  • Заголовки и описания продуктов
  • формы
  • Макеты страниц
  • Специальные предложения
  • Картинки
  • Текст (полная форма, короткая форма)
  • Кнопки

Однако, по словам Гудсона, часто бывает, что тесты, проведенные на этих страницах, возвращают ложные результаты, и ожидаемое «повышение» (увеличение конверсий) никогда не реализуется.

Математика A / B тестирования

Проще говоря, вы могли бы сказать, что A / B-тестирование может быть таким же простым, как преобразование, а не преобразование. Из этих возможностей можно рассчитать количество посещений и процент конверсии. В своем докладе Гудсон указывает на два метода тестирования: статистическая мощность и множественное тестирование .

На первом Гудсон объясняет:

Статистическая мощность — это просто вероятность того, что статистический тест обнаружит разницу между двумя значениями, когда действительно есть основная разница. Обычно выражается в процентах.

Однако это может зависеть от размера выборки — если в ней участвует не так много людей, то вероятность того, что вы не получите реалистичных результатов. В дополнение к этому, получение положительных результатов и истинных результатов зависит от продолжительности теста.

Чтобы узнать, как рассчитать время выполнения, необходимо правильно рассчитать размеры выборки перед выполнением и запуском теста. Если вы ошибетесь, это приведет к ложным результатам, и маловероятно, что какой-либо рост продаж будет заметен, даже если тест показал, что они это сделают.

Многократное тестирование часто опирается на программное обеспечение и использует классические p-значения для проверки статистической значимости. Таким образом, обе модели опираются на статистику, но часто многократное тестирование проводится с использованием программного обеспечения, такого как Optimizely .

Опасности использования P-значений

Использование p-значений может и часто дает ложные результаты, и это связано с двумя хорошо известными факторами:

  • Проведение многих испытаний
  • Остановка теста, когда видны положительные результаты

Принимая это во внимание, стоит также провести свое исследование, когда речь заходит о программном обеспечении, которое вы используете, чтобы проверить, как переменные тестируются и насколько интуитивно понятно программное обеспечение.

Optimizely, например, рекомендует настроить варианты перед запуском тестов с использованием его программного обеспечения. Если вы этого не сделаете, вы просто запускаете A / A-тест, поскольку результат равен исходной странице. Компания также отмечает, что без правильной настройки переменных вы, скорее всего, получите ложные результаты.

Типичные ошибки в А / Б тестировании

Во-первых, для проведения A / B-тестирования, которое возвращает истинные результаты, необходимо иметь достаточно большой размер выборки . Согласно Гудсону, статистическая мощность увеличивается с увеличением выборки, и хотя вы можете получить нечетную случайную переменную с большой выборкой, это неизбежно и не обязательно даст ложные результаты.

Однако не все сайты имеют большой объем трафика, поэтому в некоторой степени выборка будет несколько вне вашего контроля. Помните об этом, потому что если у вас мало посетителей, у вас больше шансов получить случайные переменные, и это может быть пустой тратой времени.

Вторым важным аспектом успешного A / B-тестирования является период времени, в течение которого выполняется тест . Опять же, если вы прервете тест, вы существенно сократите его статистическую мощность и, скорее всего, получите ложные срабатывания, которые, хотя и вызывают повышение, фактически не приводят к изменениям, когда дело доходит до итога: доход ,

Если вы прервете тест, когда думаете, что видите выигрышные результаты, Гудсон говорит:

«Почти две трети победных тестов будут полностью поддельными».

Другими словами, жизненно важно, чтобы вы позволили тесту пройти достаточно долго — даже если вы видите большое количество конверсий — для наращивания статистической мощности и получения реальных результатов. Таким образом, вы можете начать с хорошей надежной модели тестирования, с хорошим размером выборки, но пусть нетерпение приведет вас к ложным результатам.

Запуск одновременных тестов

Другой недавней и разрушительной тенденцией стало проведение множества испытаний одновременно. Это плохая идея, потому что если вы выполните 20 тестов, то в среднем вы увидите один победный результат, если 40, то вы увидите два, так как каждый тест имеет 5% -ный шанс на победу. Гудсон говорит:

«Вместо того, чтобы использовать пистолет, лучше всего выполнить небольшое количество целенаправленных и обоснованных тестов, каждый из которых будет иметь достаточную статистическую мощность».

По словам AppSumo , в ходе собственного тестирования своего продукта:

«Только 1 из 8 A / B-тестов привели к значительным изменениям».

AppSumo посещает около 5000 посетителей в день, и, хотя они утверждают, что они добились отличных результатов, таких как увеличение количества обращений по электронной почте более чем в пять раз и удвоение количества покупок, сайт также столкнулся с некоторыми «суровыми реалиями», когда дело доходит до тестирования. процесс.

Даже те, в которых они были уверены, сработают, просто потерпели неудачу по разным причинам, включая:

  • Люди не читают текст
  • Использование% в качестве стимула, а не $
  • Всплывающие / лайтбоксы раздражают посетителя

Чтобы покончить с вышесказанным, необходимо иметь очень сильный бренд, которому доверяют люди, и для многих из нас это по-прежнему Святой Грааль.

AppSumo Failed Test

В приведенном выше примере ребята из AppSumo считают, что тест не удался из-за необходимости ввести адрес электронной почты — что является ценным товаром для всех сайтов. Тем не менее, это одинаково ценно для «искушенных» пользователей, и они не расстаются со своим адресом электронной почты, поэтому лучше предлагать денежное вознаграждение, а не процент.

Успешное A / B-тестирование

Перед внедрением теста спланируйте его и определите, как тест может улучшить конверсию. Конечно, вы должны установить цели в Google Analytics для получения измеримых результатов и использовать соответствующее программное обеспечение. Вы можете выполнить тестирование вручную, используя собственные расчеты или использовать шаблон, например, подготовленный Visual Website Optimizer . В качестве альтернативы (или дополнительно) есть бесплатный онлайн-инструмент для оценки значимости A / B , который можно использовать теми же людьми.

Примечание. Вы также можете использовать Эксперименты с контентом Google Analytics для проведения тестирования.

Эксперименты по контенту Google Analytics

Вы также должны понимать, что спешки нет, и вам придется проявить терпение, если вы хотите добиться победных результатов — вполне вероятно, что тестирование займет недели или даже месяцы.

Кроме того, вы должны:

  • Тестируйте только одну страницу за раз или даже один элемент на странице.
  • Выберите страницы, которые имеют высокий показатель отказов / выхода.
  • Ожидайте минимум 1000 посетителей, прежде чем увидеть какие-либо результаты.
  • Быть готовым к неудаче; очень немногие тесты успешны в первый раз.
  • Поймите, что A / B-тестирование имеет кривую обучения.
  • Потерпи.
  • Понять вашего клиента.

Говорит блог Miva Merchant :

«Если вдаваться в это, зная, что 7 из 8 ваших тестов приведут к незначительным улучшениям, скорее всего, защитят вас от нереальных ожиданий. Оставайтесь с этим и не сдавайтесь после нескольких незначительных результатов ».

Если ваше тестирование будет успешным, важно знать и вашу аудиторию. Создание персоны покупателя — это то, что всегда должно выполняться до этапа проектирования и разработки, но многие компании не понимают важность этого. Если вы не знаете, к кому обращаетесь, то как вы можете попытаться дать им то, что они хотят?

Это все в планировании, так как это в значительной степени для каждого аспекта бизнеса. Чтобы получить конверсию, всегда нужно проводить исследования , без исключений.

Последние мысли

Мартин Гудсон рекомендует, чтобы, если вы выполняли A / B-тесты и не видели какого-либо реального поднятия, или если поднятия не поддерживаются, то всегда стоит проводить тест снова, чтобы проверить, было ли оно проведено эффективно в первом случае. Он также указывает на то, что предполагаемый подъем от тестирования часто переоценивается («проклятие победителя»), и это особенно верно для тех, у кого небольшой размер выборки.

Если у вас небольшая выборка, спросите себя, стоит ли проводить тестирование на этом этапе, поскольку полученные результаты могут быть не совсем точными. Если это так, то вы рискуете внести изменения, которые будут отталкивать будущих посетителей.

A / B-тестирование действительно имеет значение, но если оно не будет выполнено правильно, оно вернет ложные результаты . Даже если все сделано правильно, нет никаких гарантий, что оно будет успешным, поэтому будьте готовы к этому, прежде чем начать. Проведите исследование, поймите свои цели и правильно настройте тест, при этом все время проявляйте терпение и вы добьетесь этого.