A/B тестването е ключов метод, използван при оптимизиране на уебсайтове и приложения, позволяващ на бизнеса да сравнява две версии на уеб страница или приложение, за да определи кое се представя по-добре. Разбирането на ключовите показатели и терминологията, включени в A/B тестването, е от съществено значение за точното тълкуване на резултатите. В тази статия ще разгледаме важни A/B тестови показатели и терминология, включително p-стойност, доверителен интервал, едностранни и двустранни тестове, z-резултат, наблюдавана мощност, вариант, контролна група, допълнителен приход, процент на преобразуване и байесово изчисление.

Ключови A/B тестови показатели и терминология

1. Вариант

Вариант се отнася до една от версиите, които се тестват в A/B тест. Обикновено съществуващата версия се нарича контрола, а новата версия е вариант.

Пример: При A/B тест на целева страница, версия A (текущата страница) е контролата, а версия B (новият дизайн) е вариантът.

2. Контролна група

Контролната група е групата от потребители, изложени на оригиналната версия (контрола) в A/B тест. Той служи като базова линия за сравнение на ефективността на варианта.

Пример: Ако 10,000 5,000 потребители посетят уебсайт, 5,000 XNUMX може да видят контролната страница (контролна група), а XNUMX XNUMX може да видят страницата с варианти.

 

Incremental-revenue.png
Източник: https://getrecast.com/incrementality/

 

3. Допълнителни приходи

Допълнителните приходи се отнасят до допълнителните приходи, генерирани в резултат на промени, направени по време на A/B тест. Помага при оценката на финансовото въздействие на теста.

Пример: Ако страницата с варианти увеличи средната стойност на поръчката с $5 и бъдат направени 1,000 допълнителни покупки, допълнителният приход е $5,000.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4. Процент на реализация

Процентът на реализация е процентът на потребителите, които извършват желано действие, като извършване на покупка или абониране за бюлетин, от общия брой посетители.

Пример: Ако 100 от 1,000 посетители направят покупка, процентът на реализация е 10%.

5. P-стойност

P-стойността измерва вероятността наблюдаваната разлика между две вариации да е възникнала случайно. По-ниска p-стойност (обикновено по-малка от 0.05) показва, че наблюдаваната разлика е статистически значима.

Пример: Да предположим, че A/B тест сравнява две версии на целева страница. Версия A има процент на реализация от 5%, а версия B има процент на реализация от 7%. Ако p-стойността е 0.03, има 3% шанс наблюдаваната разлика да е възникнала случайно, което показва значителна разлика между двете версии.

 

confidence-interval-formula.jpg

 

6. Доверителен интервал

Доверителният интервал осигурява диапазон, в който се очаква да лежи истинският размер на ефекта, с определено ниво на увереност (обикновено 95%). Помага да се оцени надеждността на резултатите от теста.

Пример: В същия A/B тест 95% доверителен интервал за разликата в процентите на реализация може да бъде [1%, 3%]. Това означава, че сме 95% уверени, че истинската разлика в процентите на реализация е между 1% и 3%.

7. Едностранни и двустранни тестове

Едностранният тест оценява посоката на ефекта (напр. дали версия B е по-добра от версия A), докато двустранният тест оценява дали има някаква разлика в двете посоки.

Пример за едностранен тест: Тества дали процентът на реализация на версия B е по-висок от този на версия A.
Пример за двустранен тест: Тества дали има разлика между процентите на реализация на версия A и версия B, независимо от посоката.

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Z-резултат

Z-резултатът измерва колко стандартни отклонения има даден елемент от средната стойност. При A/B тестване се използва за определяне на значимостта на наблюдаваната разлика между две вариации. Общи нива на доверие и техните еквиваленти на z-резултат:

  • Доверителен интервал 95%
    • Двустранен Z-резултат: 1.96
    • Едностранен Z-резултат: 1.65
  • Доверителен интервал 99%
    • Двустранен Z-резултат: 2.58
    • Едностранен Z-резултат: 2.33
  • Доверителен интервал 90%
    • Двустранен Z-резултат: 1.64
    • Едностранен Z-резултат: 1.28

Пример: Ако z-резултатът за разликата в процентите на реализация между версия A и версия B е 2.5, това показва, че разликата е 2.5 стандартни отклонения от средната стойност, което предполага статистически значима разлика.

9. Наблюдавана мощност

Наблюдаваната мощност се отнася до вероятността тестът правилно да отхвърли нулевата хипотеза, когато има истински ефект. По-високата наблюдавана мощност показва по-голяма вероятност за откриване на истинска разлика.

Пример: При A/B тест с наблюдавана мощност от 0.8 (80%) има 80% шанс за откриване на истинска разлика между вариациите, ако такава съществува.

 

Bayesian-formula.png
Източник: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. Бейсово изчисление

Байесовото изчисление включва използването на теоремата на Байс за актуализиране на оценката на вероятността за дадена хипотеза, когато се придобият допълнителни доказателства. При A/B тестването предоставя вероятностна рамка за вземане на решения въз основа на данните.

Пример: Използвайки байесови методи, можете да определите вероятността един вариант да е по-добър от контрола, като се имат предвид наблюдаваните данни, вместо да разчитате единствено на традиционните p-стойности.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
Източник: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. Frequentist Statistics

Честотната статистика е традиционен подход при тестване на хипотези, който се фокусира върху честотата или съотношението на данните. Той разчита на фиксирани набори от данни и не включва предварително знание или вероятностни разпределения.

Пример: В Frequentist подход към A/B тестване бихте използвали p-стойности и доверителни интервали, за да определите значимостта на резултатите от теста, без да включвате предходни вероятности.

Практически примери

Пример 1: A/B тест на имейл кампания

Една компания иска да тества два реда за тема на имейл, за да види кой от тях води до по-високи нива на отваряне.

  • Предмет А: 25% отворен процент
  • Предмет Б: 28% отворен процент
  • P-стойност: 0.02 (което показва значителна разлика)
  • Доверителен интервал: [2%, 5%] (95% увереност, че истинската разлика в отворените проценти е между 2% и 5%)
  • Z-резултат: 2.33 (което предполага статистически значима разлика)
  • Наблюдавана мощност: 0.85 (85% шанс за откриване на истинска разлика)
Пример 2: A/B тест на целевата страница на уебсайта

Уебсайт за електронна търговия тества два дизайна на целеви страници, за да определи кой води до повече покупки.

  • Дизайн A: 4% процент на реализация
  • Дизайн B: 5% процент на реализация
  • P-стойност: 0.045 (което показва значителна разлика)
  • Доверителен интервал: [0.5%, 1.5%] (95% увереност, че истинската разлика в процентите на реализация е между 0.5% и 1.5%)
  • Z-резултат: 2.01 (което предполага статистически значима разлика)
  • Наблюдавана мощност: 0.78 (78% шанс за откриване на истинска разлика)

A / B тестване е мощен инструмент за оптимизиране на цифровите изживявания и разбирането на неговите ключови показатели и терминология е от решаващо значение за точното тълкуване. Switas знае как да провежда ефективно A / B тестове, като гарантира, че бизнесите могат да вземат решения, базирани на данни, за да подобрят ефективността си, и предоставя надеждни и практични прозрения, които стимулират растежа и успеха.