A/B 테스트는 웹사이트와 애플리케이션을 최적화하는 데 사용되는 중요한 방법으로, 기업이 웹페이지나 앱의 두 가지 버전을 비교하여 어느 버전이 더 나은지 판단할 수 있도록 해줍니다. A/B 테스트와 관련된 주요 지표와 용어를 이해하는 것은 결과를 정확하게 해석하는 데 필수적입니다. 이 기사에서는 다음을 포함하여 중요한 A/B 테스트 측정항목과 용어를 살펴보겠습니다. p-값, 신뢰 구간, 단측 및 양측 테스트, z-점수, 관측 검정력, 변형, 통제 그룹, 증분 수익, 전환율 및 베이지안 계산.

주요 A/B 테스트 지표 및 용어

1. 변형

변형은 A/B 테스트에서 테스트되는 버전 중 하나를 나타냅니다. 일반적으로 기존 버전을 컨트롤이라고 하며 새 버전을 변형이라고 합니다.

예: 랜딩 페이지의 A/B 테스트에서는 버전 A(현재 페이지)가 컨트롤이고 버전 B(새 디자인)가 변형입니다.

2. 통제 그룹

컨트롤 그룹은 A/B 테스트에서 원래 버전(컨트롤)에 노출된 사용자 그룹입니다. 이는 변형의 성능을 비교하는 기준으로 사용됩니다.

예: 10,000명의 사용자가 웹 사이트를 방문하면 5,000명은 제어 페이지(대조 그룹)를 볼 수 있고, 5,000명은 변형 페이지를 볼 수 있습니다.

 

증분 수익.png
출처: https://getrecast.com/incrementality/

 

3. 추가 수익

증분 수익은 A/B 테스트 중 변경된 결과로 생성된 추가 수익을 의미합니다. 이는 테스트의 재정적 영향을 평가하는 데 도움이 됩니다.

예: 변형 페이지로 인해 평균 주문 금액이 5달러 증가하고 추가 구매가 1,000건 발생하면 추가 수익은 5,000달러가 됩니다.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4. 전환율

전환율은 전체 방문자 수 중에서 구매, 뉴스레터 가입 등 원하는 작업을 완료한 사용자의 비율입니다.

예: 방문자 100명 중 1,000명이 구매를 한다면 전환율은 10%입니다.

5. P-값

p-값은 두 변형 간의 관측된 차이가 우연히 발생할 확률을 측정합니다. 더 낮은 p-값(일반적으로 0.05 미만)은 관찰된 차이가 통계적으로 유의하다는 것을 나타냅니다.

예: A/B 테스트에서 랜딩 페이지의 두 가지 버전을 비교한다고 가정해 보겠습니다. 버전 A의 전환율은 5%이고, 버전 B의 전환율은 7%입니다. p-값이 0.03이면 관찰된 차이가 우연히 발생할 확률이 3%이며, 이는 두 버전 간에 유의미한 차이가 있음을 나타냅니다.

 

신뢰구간공식.jpg

 

6. 신뢰구간

신뢰 구간은 특정 수준의 신뢰도로 실제 효과 크기가 포함될 것으로 예상되는 범위를 제공합니다(보통 95%). 이는 테스트 결과의 신뢰성을 평가하는 데 도움이 됩니다.

예: 동일한 A/B 테스트에서 전환율 차이에 대한 95% 신뢰 구간은 [1%, 3%]일 수 있습니다. 이는 전환율의 실제 차이가 95%와 1% 사이에 있다고 3% 확신한다는 의미입니다.

7. 단측 및 양측 테스트

단측 검정은 효과의 방향(예: 버전 B가 버전 A보다 나은지 여부)을 평가하는 반면, 양면 검정은 어느 방향에서든 차이가 있는지 여부를 평가합니다.

단측 테스트 예: 버전 B의 전환율이 버전 A보다 높은지 테스트합니다.
양면 테스트 예: 버전 A와 버전 B의 전환율에 방향에 관계없이 차이가 있는지 테스트합니다.

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Z-점수

z-점수는 요소가 평균에서 얼마나 많은 표준 편차를 가지고 있는지 측정합니다. A/B 테스트에서는 두 변형 간에 관찰된 차이의 중요성을 결정하는 데 사용됩니다. 일반적인 신뢰 수준 및 해당 z-점수:

  • 신뢰구간 95%
    • 양면 Z-점수: 1.96
    • 단측 Z-점수: 1.65
  • 신뢰구간 99%
    • 양면 Z-점수: 2.58
    • 단측 Z-점수: 2.33
  • 신뢰구간 90%
    • 양면 Z-점수: 1.64
    • 단측 Z-점수: 1.28

예: 버전 A와 버전 B의 전환율 차이에 대한 z-점수가 2.5인 경우 차이가 평균에서 2.5 표준편차만큼 떨어져 있음을 의미하며 통계적으로 유의미한 차이가 있음을 나타냅니다.

9. 관찰된 전력

관측 검정력은 실제 효과가 있을 때 검정이 귀무 가설을 올바르게 기각할 확률을 나타냅니다. 관측 검정력이 높을수록 실제 차이를 탐지할 가능성이 더 높다는 의미입니다.

예: 관측 검정력이 0.8(80%)인 A/B 테스트에서는 변형 간의 실제 차이가 존재하는 경우 이를 탐지할 확률이 80%입니다.

 

베이지안 공식.png
출처: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. 베이지안 계산

베이지안 계산에는 추가 증거가 수집될 때 베이즈 정리를 사용하여 가설에 대한 확률 추정치를 업데이트하는 작업이 포함됩니다. A/B 테스트에서는 데이터를 기반으로 의사결정을 내릴 수 있는 확률적 프레임워크를 제공합니다.

예: 베이지안 방법을 사용하면 기존 p-값에만 의존하는 대신 관찰된 데이터를 바탕으로 한 변형이 대조군보다 더 나을 확률을 확인할 수 있습니다.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
출처: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. 빈도주의자 통계

빈도주의 통계는 데이터의 빈도나 비율에 초점을 맞춘 가설 검정의 전통적인 접근 방식입니다. 이는 고정된 데이터 세트에 의존하며 사전 지식이나 확률 분포를 포함하지 않습니다.

예: A/B 테스트에 대한 빈도주의적 접근 방식에서는 사전 확률을 통합하지 않고 p-값과 신뢰 구간을 사용하여 테스트 결과의 유의성을 결정합니다.

실제 사례

예 1: 이메일 캠페인 A/B 테스트

한 회사는 두 개의 이메일 제목 줄을 테스트하여 어느 것이 더 높은 공개율을 보이는지 확인하려고 합니다.

  • 제목 A: 25% 오픈율
  • 제목 B: 28% 오픈율
  • P-값: 0.02 (유의한 차이를 나타냄)
  • 신뢰 구간: [2%, 5%] (공개율의 실제 차이가 95%와 2% 사이에 있다는 5% 신뢰도)
  • Z- 점수 : 2.33(통계적으로 유의미한 차이 제안)
  • 관찰된 전력: 0.85(실제 차이를 탐지할 확률 85%)
예 2: 웹사이트 랜딩 페이지 A/B 테스트

한 전자상거래 웹사이트에서는 두 가지 방문 페이지 디자인을 테스트하여 어떤 디자인이 더 많은 구매를 유도하는지 결정합니다.

  • 디자인 A: 4% 전환율
  • 디자인 B: 5% 전환율
  • P-값: 0.045 (유의한 차이를 나타냄)
  • 신뢰 구간: [0.5%, 1.5%] (전환율의 실제 차이가 95%와 0.5% 사이에 있다는 1.5% 신뢰도)
  • Z- 점수 : 2.01(통계적으로 유의미한 차이 제안)
  • 관찰된 전력: 0.78(실제 차이를 탐지할 확률 78%)

A / B 테스트 디지털 경험을 최적화하기 위한 강력한 도구이며, 정확한 해석을 위해서는 주요 지표와 용어를 이해하는 것이 중요합니다. Switas는 효과적인 수행 방법을 알고 있습니다. A / B 테스트, 기업이 데이터 기반 결정을 내려 성과를 향상할 수 있도록 보장하고 성장과 성공을 촉진하는 신뢰할 수 있고 실행 가능한 통찰력을 제공합니다.