A/B-тестирование — это важнейший метод, используемый при оптимизации веб-сайтов и приложений, позволяющий компаниям сравнивать две версии веб-страницы или приложения, чтобы определить, какая из них работает лучше. Понимание ключевых показателей и терминологии, используемой в A/B-тестировании, необходимо для точной интерпретации результатов. В этой статье мы рассмотрим важные показатели и терминологию A/B-тестирования, в том числе p-значение, доверительный интервал, односторонние и двусторонние тесты, z-показатель, наблюдаемая мощность, вариант, контрольная группа, дополнительный доход, коэффициент конверсии и байесовский расчет.
Ключевые показатели и терминология A/B-тестирования
1. Вариант
Вариант относится к одной из версий, тестируемых в A/B-тесте. Обычно существующая версия называется контрольной, а новая версия — вариантом.
Пример: В A/B-тестировании целевой страницы версия A (текущая страница) является контрольной, а версия B (новый дизайн) — вариантом.
2. Контрольная группа
Контрольная группа — это группа пользователей, которым была доступна исходная версия (контрольная) в ходе A/B-тестирования. Он служит базой для сравнения производительности варианта.
Пример: Если 10,000 5,000 пользователей посещают веб-сайт, 5,000 XNUMX могут увидеть контрольную страницу (контрольную группу), а XNUMX XNUMX — вариантную страницу.

3. Дополнительный доход
Дополнительный доход — это дополнительный доход, полученный в результате изменений, внесенных во время A/B-тестирования. Это помогает оценить финансовые последствия теста.
Пример: Если страница варианта увеличивает среднюю стоимость заказа на 5 долларов США и совершается 1,000 дополнительных покупок, дополнительный доход составит 5,000 долларов США.

4. Коэффициент конверсии
Коэффициент конверсии — это процент пользователей, выполнивших желаемое действие, например совершивших покупку или подписавшихся на рассылку новостей, от общего числа посетителей.
Пример: Если 100 из 1,000 посетителей совершают покупку, коэффициент конверсии составляет 10%.
5. P-значение
Значение p измеряет вероятность того, что наблюдаемая разница между двумя вариациями возникла случайно. Более низкое значение p (обычно менее 0.05) указывает на то, что наблюдаемая разница статистически значима.
Пример: Предположим, что A/B-тест сравнивает две версии целевой страницы. Версия A имеет коэффициент конверсии 5%, а версия B — 7%. Если значение p равно 0.03, существует вероятность 3%, что наблюдаемая разница возникла случайно, что указывает на значительную разницу между двумя версиями.

6. Доверительный интервал
Доверительный интервал представляет собой диапазон, в пределах которого, как ожидается, будет лежать истинный размер эффекта с определенным уровнем достоверности (обычно 95%). Это помогает оценить достоверность результатов испытаний.
Пример. В том же A/B-тесте 95%-ный доверительный интервал для разницы в коэффициентах конверсии может составлять [1%, 3%]. Это означает, что мы на 95 % уверены, что истинная разница в коэффициентах конверсии составляет от 1 % до 3 %.
7. Односторонние и двусторонние тесты
Односторонний тест оценивает направление эффекта (например, является ли версия B лучше, чем версия A), а двусторонний тест оценивает, существует ли какая-либо разница в любом направлении.
Пример одностороннего теста: Проверяет, выше ли коэффициент конверсии версии B, чем у версии A.
Пример двустороннего теста: Проверяет, есть ли разница между коэффициентами конверсии версии A и версии B, независимо от направления.

8. Z-оценка
Z-показатель измеряет, на сколько стандартных отклонений элемент отличается от среднего значения. В A/B-тестировании он используется для определения значимости наблюдаемой разницы между двумя вариантами. Общие уровни достоверности и их эквиваленты по z-показателям:
- Доверительный интервал 95%
- Двусторонний Z-оценка: 1.96
- Односторонний Z-показатель: 1.65
- Доверительный интервал 99%
- Двусторонний Z-оценка: 2.58
- Односторонний Z-показатель: 2.33
- Доверительный интервал 90%
- Двусторонний Z-оценка: 1.64
- Односторонний Z-показатель: 1.28
Пример: Если z-показатель разницы в коэффициентах конверсии между версией A и версией B равен 2.5, это означает, что разница составляет 2.5 стандартных отклонения от среднего значения, что предполагает статистически значимую разницу.
9. Наблюдаемая мощность
Наблюдаемая мощность означает вероятность того, что тест правильно отклонит нулевую гипотезу при наличии истинного эффекта. Более высокая наблюдаемая мощность указывает на более высокую вероятность обнаружения истинной разницы.
Пример: В A/B-тесте с наблюдаемой мощностью 0.8 (80%) вероятность обнаружения истинной разницы между вариациями, если таковая существует, составляет 80%.

10. Байесовский расчет
Байесовский расчет предполагает использование теоремы Байеса для обновления оценки вероятности гипотезы по мере получения дополнительных доказательств. При A/B-тестировании он обеспечивает вероятностную основу для принятия решений на основе данных.
Пример: Используя байесовские методы, вы можете определить вероятность того, что один вариант лучше, чем контрольный, учитывая наблюдаемые данные, вместо того, чтобы полагаться исключительно на традиционные значения p.

11. Частотная статистика
Частотная статистика — это традиционный подход к проверке гипотез, который фокусируется на частоте или пропорции данных. Он опирается на фиксированные наборы данных и не включает в себя предварительные знания или распределения вероятностей.
Пример: При частом подходе к A/B-тестированию вы должны использовать p-значения и доверительные интервалы для определения значимости результатов теста без учета априорных вероятностей.
Практические примеры
Пример 1. A/B-тестирование email-кампании
Компания хочет протестировать две темы электронных писем, чтобы увидеть, какая из них приведет к более высокому показателю открываемости.
- Тема письма А: 25% открытой ставки
- Тема письма Б: 28% открытой ставки
- P-значение: 0.02 (что указывает на значительную разницу)
- Доверительный интервал: [2%, 5%] (95% уверенность в том, что истинная разница в показателях открытий составляет от 2% до 5%)
- Z-оценка: 2.33 (что предполагает статистически значимую разницу)
- Наблюдаемая мощность: 0.85 (вероятность обнаружения истинной разницы 85%)
Пример 2: A/B-тест целевой страницы веб-сайта
Веб-сайт электронной коммерции тестирует два дизайна целевой страницы, чтобы определить, какой из них приведет к большему количеству покупок.
- Дизайн А: Коэффициент конверсии 4%
- Дизайн Б: Коэффициент конверсии 5%
- P-значение: 0.045 (что указывает на значительную разницу)
- Доверительный интервал: [0.5%, 1.5%] (95%-ная уверенность в том, что истинная разница в коэффициентах конверсии составляет от 0.5% до 1.5%)
- Z-оценка: 2.01 (что предполагает статистически значимую разницу)
- Наблюдаемая мощность: 0.78 (вероятность обнаружения истинной разницы 78%)
A / B тестирования — это мощный инструмент для оптимизации цифрового опыта, и понимание его ключевых показателей и терминологии имеет решающее значение для точной интерпретации. Свитас знает, как проводить эффективные A / B тесты, гарантируя, что предприятия могут принимать решения на основе данных для повышения своей производительности, а также предоставляет надежную и действенную информацию, способствующую росту и успеху.