A/B тестването е ключов метод, използван при оптимизиране на уебсайтове и приложения, позволяващ на бизнеса да сравнява две версии на уеб страница или приложение, за да определи кое се представя по-добре. Разбирането на ключовите показатели и терминологията, включени в A/B тестването, е от съществено значение за точното тълкуване на резултатите. В тази статия ще разгледаме важни A/B тестови показатели и терминология, включително p-стойност, доверителен интервал, едностранни и двустранни тестове, z-резултат, наблюдавана мощност, вариант, контролна група, допълнителен приход, процент на преобразуване и байесово изчисление.
Ключови A/B тестови показатели и терминология
1. Вариант
Вариант се отнася до една от версиите, които се тестват в A/B тест. Обикновено съществуващата версия се нарича контрола, а новата версия е вариант.
Пример: При A/B тест на целева страница, версия A (текущата страница) е контролата, а версия B (новият дизайн) е вариантът.
2. Контролна група
Контролната група е групата от потребители, изложени на оригиналната версия (контрола) в A/B тест. Той служи като базова линия за сравнение на ефективността на варианта.
Пример: Ако 10,000 5,000 потребители посетят уебсайт, 5,000 XNUMX може да видят контролната страница (контролна група), а XNUMX XNUMX може да видят страницата с варианти.
3. Допълнителни приходи
Допълнителните приходи се отнасят до допълнителните приходи, генерирани в резултат на промени, направени по време на A/B тест. Помага при оценката на финансовото въздействие на теста.
Пример: Ако страницата с варианти увеличи средната стойност на поръчката с $5 и бъдат направени 1,000 допълнителни покупки, допълнителният приход е $5,000.
4. Процент на реализация
Процентът на реализация е процентът на потребителите, които извършват желано действие, като извършване на покупка или абониране за бюлетин, от общия брой посетители.
Пример: Ако 100 от 1,000 посетители направят покупка, процентът на реализация е 10%.
5. P-стойност
P-стойността измерва вероятността наблюдаваната разлика между две вариации да е възникнала случайно. По-ниска p-стойност (обикновено по-малка от 0.05) показва, че наблюдаваната разлика е статистически значима.
Пример: Да предположим, че A/B тест сравнява две версии на целева страница. Версия A има процент на реализация от 5%, а версия B има процент на реализация от 7%. Ако p-стойността е 0.03, има 3% шанс наблюдаваната разлика да е възникнала случайно, което показва значителна разлика между двете версии.
6. Доверителен интервал
Доверителният интервал осигурява диапазон, в който се очаква да лежи истинският размер на ефекта, с определено ниво на увереност (обикновено 95%). Помага да се оцени надеждността на резултатите от теста.
Пример: В същия A/B тест 95% доверителен интервал за разликата в процентите на реализация може да бъде [1%, 3%]. Това означава, че сме 95% уверени, че истинската разлика в процентите на реализация е между 1% и 3%.
7. Едностранни и двустранни тестове
Едностранният тест оценява посоката на ефекта (напр. дали версия B е по-добра от версия A), докато двустранният тест оценява дали има някаква разлика в двете посоки.
Пример за едностранен тест: Тества дали процентът на реализация на версия B е по-висок от този на версия A.
Пример за двустранен тест: Тества дали има разлика между процентите на реализация на версия A и версия B, независимо от посоката.
8. Z-резултат
Z-резултатът измерва колко стандартни отклонения има даден елемент от средната стойност. При A/B тестване се използва за определяне на значимостта на наблюдаваната разлика между две вариации. Общи нива на доверие и техните еквиваленти на z-резултат:
- Доверителен интервал 95%
- Двустранен Z-резултат: 1.96
- Едностранен Z-резултат: 1.65
- Доверителен интервал 99%
- Двустранен Z-резултат: 2.58
- Едностранен Z-резултат: 2.33
- Доверителен интервал 90%
- Двустранен Z-резултат: 1.64
- Едностранен Z-резултат: 1.28
Пример: Ако z-резултатът за разликата в процентите на реализация между версия A и версия B е 2.5, това показва, че разликата е 2.5 стандартни отклонения от средната стойност, което предполага статистически значима разлика.
9. Наблюдавана мощност
Наблюдаваната мощност се отнася до вероятността тестът правилно да отхвърли нулевата хипотеза, когато има истински ефект. По-високата наблюдавана мощност показва по-голяма вероятност за откриване на истинска разлика.
Пример: При A/B тест с наблюдавана мощност от 0.8 (80%) има 80% шанс за откриване на истинска разлика между вариациите, ако такава съществува.
10. Бейсово изчисление
Байесовото изчисление включва използването на теоремата на Байс за актуализиране на оценката на вероятността за дадена хипотеза, когато се придобият допълнителни доказателства. При A/B тестването предоставя вероятностна рамка за вземане на решения въз основа на данните.
Пример: Използвайки байесови методи, можете да определите вероятността един вариант да е по-добър от контрола, като се имат предвид наблюдаваните данни, вместо да разчитате единствено на традиционните p-стойности.
11. Frequentist Statistics
Честотната статистика е традиционен подход при тестване на хипотези, който се фокусира върху честотата или съотношението на данните. Той разчита на фиксирани набори от данни и не включва предварително знание или вероятностни разпределения.
Пример: В Frequentist подход към A/B тестване бихте използвали p-стойности и доверителни интервали, за да определите значимостта на резултатите от теста, без да включвате предходни вероятности.
Практически примери
Пример 1: A/B тест на имейл кампания
Една компания иска да тества два реда за тема на имейл, за да види кой от тях води до по-високи нива на отваряне.
- Предмет А: 25% отворен процент
- Предмет Б: 28% отворен процент
- P-стойност: 0.02 (което показва значителна разлика)
- Доверителен интервал: [2%, 5%] (95% увереност, че истинската разлика в отворените проценти е между 2% и 5%)
- Z-резултат: 2.33 (което предполага статистически значима разлика)
- Наблюдавана мощност: 0.85 (85% шанс за откриване на истинска разлика)
Пример 2: A/B тест на целевата страница на уебсайта
Уебсайт за електронна търговия тества два дизайна на целеви страници, за да определи кой води до повече покупки.
- Дизайн A: 4% процент на реализация
- Дизайн B: 5% процент на реализация
- P-стойност: 0.045 (което показва значителна разлика)
- Доверителен интервал: [0.5%, 1.5%] (95% увереност, че истинската разлика в процентите на реализация е между 0.5% и 1.5%)
- Z-резултат: 2.01 (което предполага статистически значима разлика)
- Наблюдавана мощност: 0.78 (78% шанс за откриване на истинска разлика)
A / B тестване е мощен инструмент за оптимизиране на цифровите изживявания и разбирането на неговите ключови показатели и терминология е от решаващо значение за точното тълкуване. Switas знае как да провежда ефективно A / B тестове, като гарантира, че бизнесите могат да вземат решения, базирани на данни, за да подобрят ефективността си, и предоставя надеждни и практични прозрения, които стимулират растежа и успеха.