A/B-тестування — це важливий метод, який використовується для оптимізації веб-сайтів і програм, що дозволяє компаніям порівнювати дві версії веб-сторінки чи програми, щоб визначити, яка з них ефективніша. Розуміння ключових показників і термінології, що використовуються в A/B-тестуванні, має важливе значення для точної інтерпретації результатів. У цій статті ми розглянемо важливі показники та термінологію тестування A/B, зокрема p-значення, довірчий інтервал, односторонні та двосторонні тести, z-показник, спостережувана потужність, варіант, контрольна група, додатковий дохід, коефіцієнт конверсії та байєсівський розрахунок.

Основні показники та термінологія тестування A/B

1. Variant

Варіант відноситься до однієї з версій, що перевіряються в тесті A/B. Як правило, існуюча версія називається контрольною, а нова версія – варіантом.

приклад: У A/B тесті цільової сторінки версія A (поточна сторінка) є контрольною, а версія B (новий дизайн) є варіантом.

2. Контрольна група

Контрольна група — це група користувачів, які зазнали початкової (контрольної) версії в тесті A/B. Він служить базовою лінією для порівняння ефективності варіанту.

приклад: Якщо 10,000 5,000 користувачів відвідують веб-сайт, 5,000 XNUMX можуть побачити сторінку керування (контрольна група), а XNUMX XNUMX можуть побачити сторінку варіанту.

 

Incremental-revenue.png
джерело: https://getrecast.com/incrementality/

 

3. Додатковий дохід

Додатковий дохід – це додатковий дохід, отриманий у результаті змін, внесених під час тестування A/B. Це допомагає оцінити фінансовий вплив тесту.

приклад: Якщо сторінка варіанту збільшує середню вартість замовлення на 5 доларів США та робиться 1,000 додаткових покупок, додатковий дохід становитиме 5,000 доларів США.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4. Обмінний курс

Коефіцієнт конверсії – це відсоток користувачів, які виконали бажану дію, наприклад здійснили покупку або підписалися на інформаційну розсилку, від загальної кількості відвідувачів.

приклад: Якщо 100 з 1,000 відвідувачів роблять покупку, коефіцієнт конверсії становить 10%.

5. P-значення

P-значення вимірює ймовірність того, що спостережувана різниця між двома варіаціями сталася випадково. Нижче значення p (зазвичай менше 0.05) вказує на те, що спостережувана різниця є статистично значущою.

приклад: Припустімо, що A/B-тест порівнює дві версії цільової сторінки. Коефіцієнт конверсії версії A становить 5%, а коефіцієнт конверсії версії B – 7%. Якщо p-значення становить 0.03, існує 3% ймовірність того, що спостережувана різниця виникла випадково, що вказує на значну різницю між двома версіями.

 

confidence-interval-formula.jpg

 

6. Довірчий інтервал

Довірчий інтервал забезпечує діапазон, в межах якого очікується справжній розмір ефекту з певним рівнем довіри (зазвичай 95%). Це допомагає оцінити достовірність результатів тесту.

Приклад: у тому самому тесті A/B 95% довірчий інтервал для різниці в коефіцієнтах конверсії може становити [1%, 3%]. Це означає, що ми на 95% впевнені, що справжня різниця в коефіцієнтах конверсії становить від 1% до 3%.

7. Односторонні та двосторонні тести

Односторонній тест оцінює напрямок ефекту (наприклад, чи версія B краща за версію A), тоді як двосторонній тест оцінює, чи є різниця в будь-якому напрямку.

Приклад одностороннього тесту: Перевіряє, чи коефіцієнт конверсії версії B вищий, ніж версії A.
Приклад двостороннього тесту: Перевіряє, чи є різниця між коефіцієнтами конверсії версії A та версії B, незалежно від напрямку.

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Z-Score

Z-показник вимірює, скільки стандартних відхилень елемент має від середнього. У тестуванні A/B він використовується для визначення значущості спостережуваної різниці між двома варіаціями. Загальні рівні достовірності та їх еквіваленти z-показника:

  • Довірчий інтервал 95%
    • Двосторонній Z-рахунок: 1.96
    • Односторонній Z-рахунок: 1.65
  • Довірчий інтервал 99%
    • Двосторонній Z-рахунок: 2.58
    • Односторонній Z-рахунок: 2.33
  • Довірчий інтервал 90%
    • Двосторонній Z-рахунок: 1.64
    • Односторонній Z-рахунок: 1.28

приклад: Якщо z-показник різниці в коефіцієнтах конверсії між версією A та версією B дорівнює 2.5, це вказує на те, що різниця на 2.5 стандартних відхилення від середнього значення, що свідчить про статистично значущу різницю.

9. Спостережувана потужність

Спостережувана потужність відноситься до ймовірності того, що тест правильно відхиляє нульову гіпотезу, коли є справжній ефект. Вища спостережувана потужність вказує на вищу ймовірність виявлення справжньої різниці.

приклад: У тесті A/B із спостережуваною потужністю 0.8 (80%) існує ймовірність 80% виявити справжню різницю між варіаціями, якщо така існує.

 

Bayesian-formula.png
джерело: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. Байєсівський розрахунок

Байєсівський розрахунок передбачає використання теореми Байєса для оновлення оцінки ймовірності для гіпотези в міру отримання додаткових доказів. У A/B-тестуванні він надає імовірнісну основу для прийняття рішень на основі даних.

приклад: Використовуючи байєсівські методи, ви можете визначити ймовірність того, що один варіант кращий за контроль, враховуючи спостережувані дані, замість того, щоб покладатися виключно на традиційні p-значення.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
джерело: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. Статистика відвідувачів

Частотна статистика — це традиційний підхід до перевірки гіпотез, який зосереджується на частоті чи частці даних. Він спирається на фіксовані набори даних і не включає попередні знання чи розподіли ймовірностей.

приклад: У підході Frequentist до A/B-тестування ви б використовували p-значення та довірчі інтервали для визначення значущості результатів тесту без урахування попередніх ймовірностей.

Практичні приклади

Приклад 1: A/B-тест електронної кампанії

Компанія хоче перевірити два рядки теми електронної пошти, щоб побачити, яка з них призведе до вищих показників відкриття.

  • Тема А: 25% відкритий курс
  • Тема B: 28% відкритий курс
  • P-значення: 0.02 (вказує на значну різницю)
  • Довірчий інтервал: [2%, 5%] (95% впевненості, що справжня різниця в відкритих ставках становить від 2% до 5%)
  • Z-оцінка: 2.33 (вказує на статистично значущу різницю)
  • Спостережувана потужність: 0.85 (85% ймовірність виявити справжню різницю)
Приклад 2: A/B-тест цільової сторінки веб-сайту

Веб-сайт електронної комерції тестує два дизайни цільових сторінок, щоб визначити, який призводить до збільшення кількості покупок.

  • Дизайн A: Коефіцієнт конверсії 4%.
  • Дизайн B: Коефіцієнт конверсії 5%.
  • P-значення: 0.045 (вказує на значну різницю)
  • Довірчий інтервал: [0.5%, 1.5%] (95% впевненості, що справжня різниця в коефіцієнтах конверсії становить від 0.5% до 1.5%)
  • Z-оцінка: 2.01 (вказує на статистично значущу різницю)
  • Спостережувана потужність: 0.78 (78% ймовірність виявити справжню різницю)

A / B тестування є потужним інструментом для оптимізації цифрового досвіду, і розуміння його ключових показників і термінології є вирішальним для точного тлумачення. Switas знає, як ефективно проводити A / B тести, гарантуючи, що підприємства можуть приймати рішення на основі даних для підвищення ефективності, а також надає надійну та дієву інформацію, яка стимулює зростання та успіх.