A/B 测试是优化网站和应用程序的重要方法,它允许企业比较网页或应用程序的两个版本,以确定哪个版本效果更好。了解 A/B 测试中涉及的关键指标和术语对于准确解释结果至关重要。在本文中,我们将研究重要的 A/B 测试指标和术语,包括 p 值、置信区间、单侧和双侧检验、z 分数、观测功效、变量、控制组、增量收入、转化率和贝叶斯计算.

关键 A/B 测试指标和术语

1. 变体

变体是指 A/B 测试中要测试的版本之一。通常,现有版本称为对照版本,新版本称为变体。

示例: 在着陆页的 A/B 测试中,版本 A(当前页面)是控制页面,版本 B(新设计)是变体。

2. 对照组

对照组是 A/B 测试中接触原始版本(对照)的一组用户。它作为比较变体性能的基准。

示例: 如果有 10,000 名用户访问某个网站,其中 5,000 名用户可能会看到控制页面(控制组),另外 5,000 名用户可能会看到变体页面。

 

增量收入.png
来源: https://getrecast.com/incrementality/

 

3. 增量收入

增量收入是指 A/B 测试期间所做的更改所产生的额外收入。它有助于评估测试的财务影响。

示例: 如果变体页面将平均订单价值提高 5 美元,并增加 1,000 次购买,则增量收入为 5,000 美元。

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4。 兑换率

转化率是指完成所需操作(例如购买或订阅新闻通讯)的用户占总访问者数量的百分比。

示例: 如果 100 名访客中有 1,000 名进行购买,则转化率为 10%。

5. P 值

p 值衡量两个变量之间观察到的差异偶然发生的概率。较低的 p 值(通常小于 0.05)表示观察到的差异具有统计显著性。

示例: 假设 A/B 测试比较了两个版本的着陆页。版本 A 的转化率为 5%,版本 B 的转化率为 7%。如果 p 值为 0.03,则观察到的差异偶然发生的概率为 3%,这表明两个版本之间存在显著差异。

 

置信区间公式.jpg

 

6. 置信区间

置信区间提供了一个范围,在一定的置信水平下,预计真实效应大小会在这个范围内(通常为 95%)有助于评估测试结果的可靠性。

示例:在同一个 A/B 测试中,转化率差异的 95% 置信区间可能是 [1%,3%]。这意味着我们有 95% 的信心认为转化率的真实差异介于 1% 和 3% 之间。

7. 单侧检验和双侧检验

单侧检验评估效应的方向(例如,版本 B 是否优于版本 A),而双侧检验评估任一方向上是否存在差异。

单侧检验示例: 测试版本 B 的转化率是否高于版本 A。
双侧检验示例: 测试版本 A 和版本 B 的转换率是否存在差异,无论方向如何。

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Z 分数

z 分数衡量元素与平均值之间的标准差。在 A/B 测试中,它用于确定两个变体之间观察到的差异的重要性。常见的置信水平及其 z 分数等价物:

  • 置信区间 95%
    • 双侧 Z 分数: 1.96
    • 单侧 Z 分数: 1.65
  • 置信区间 99%
    • 双侧 Z 分数: 2.58
    • 单侧 Z 分数: 2.33
  • 置信区间 90%
    • 双侧 Z 分数: 1.64
    • 单侧 Z 分数: 1.28

示例: 如果版本 A 和版本 B 之间的转换率差异的 z 分数为 2.5,则表示差异与平均值相差 2.5 个标准差,表明存在统计上的显著差异。

9. 观测功率

观测功效是指当存在真实效应时,检验正确拒绝零假设的概率。观测功效越高,检测到真实差异的可能性就越大。

示例: 在观测功率为 0.8(80%)的 A/B 测试中,如果存在差异,则有 80% 的机会检测到变体之间的真实差异。

 

贝叶斯公式
来源: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10.贝叶斯计算

贝叶斯计算涉及使用贝叶斯定理在获得更多证据时更新假设的概率估计。在 A/B 测试中,它提供了一个基于数据的决策概率框架。

示例: 使用贝叶斯方法,您可以根据观察到的数据确定一个变量优于控制的概率,而不是仅仅依赖于传统的 p 值。

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
来源: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11.频率统计

频率统计是假设检验的一种传统方法,侧重于数据的频率或比例。它依赖于固定数据集,不包含先验知识或概率分布。

示例: 在频率派 A/B 测试方法中,您将使用 p 值和置信区间来确定测试结果的重要性,而不考虑先验概率。

实际例子

示例 1:电子邮件营销活动 A/B 测试

一家公司想要测试两个电子邮件主题行,看看哪一个的打开率更高。

  • 主题行A: 25%开放率
  • 主题行B: 28%开放率
  • P 值: 0.02(表示差异显著)
  • 置信区间: [2%,5%](95% 的置信度表明打开率的真实差异在 2% 到 5% 之间)
  • Z得分: 2.33(表明存在统计学上的显著差异)
  • 观测到的功率: 0.85(检测到真实差异的概率为 85%)
示例 2:网站登陆页面 A/B 测试

一个电子商务网站测试两种登陆页面设计以确定哪种设计能带来更多的购买。

  • 设计A: 4%转换率
  • 设计B: 5%转换率
  • P 值: 0.045(表示差异显著)
  • 置信区间: [0.5%,1.5%](95% 的置信度表明转化率的真实差异在 0.5% 到 1.5% 之间)
  • Z得分: 2.01(表明存在统计学上的显著差异)
  • 观测到的功率: 0.78(检测到真实差异的概率为 78%)

A / B测试 是优化数字体验的强大工具,了解其关键指标和术语对于准确解读至关重要。Switas 知道如何进行有效的 A / B测试,确保企业能够做出数据驱动的决策来提高其绩效,并提供可靠且可操作的见解来推动增长和成功。