Hiểu các chỉ số và thuật ngữ thử nghiệm A/B

Hiểu các chỉ số và thuật ngữ thử nghiệm A/B

Thử nghiệm A/B là một phương pháp quan trọng được sử dụng để tối ưu hóa trang web và ứng dụng, cho phép doanh nghiệp so sánh hai phiên bản của trang web hoặc ứng dụng để xác định phiên bản nào hoạt động tốt hơn. Hiểu các số liệu và thuật ngữ chính liên quan đến thử nghiệm A/B là điều cần thiết để diễn giải kết quả một cách chính xác. Trong bài viết này, chúng tôi sẽ xem xét các số liệu và thuật ngữ thử nghiệm A/B quan trọng, bao gồm giá trị p, khoảng tin cậy, kiểm tra một phía và hai phía, điểm z, sức mạnh quan sát được, biến thể, nhóm kiểm soát, doanh thu gia tăng, tỷ lệ chuyển đổi và phép tính Bayesian.

Các chỉ số và thuật ngữ thử nghiệm A/B chính

1. Biến thể

Một biến thể đề cập đến một trong các phiên bản đang được thử nghiệm trong thử nghiệm A/B. Thông thường, phiên bản hiện có được gọi là bản điều khiển, còn phiên bản mới là biến thể.

Ví dụ: Trong thử nghiệm A/B của trang đích, Phiên bản A (trang hiện tại) là phiên bản kiểm soát và Phiên bản B (thiết kế mới) là biến thể.

2. Nhóm kiểm soát

Nhóm kiểm soát là nhóm người dùng tiếp xúc với phiên bản gốc (kiểm soát) trong thử nghiệm A/B. Nó đóng vai trò là cơ sở để so sánh hiệu suất của biến thể.

Ví dụ: Nếu 10,000 người dùng truy cập một trang web, 5,000 người có thể thấy trang kiểm soát (nhóm kiểm soát) và 5,000 người có thể thấy trang biến thể.

 

Doanh thu tăng dần.png
Nguồn: https://getrecast.com/incrementality/

 

3. Doanh thu tăng thêm

Doanh thu gia tăng đề cập đến doanh thu bổ sung được tạo ra do những thay đổi được thực hiện trong quá trình thử nghiệm A/B. Nó giúp đánh giá tác động tài chính của bài kiểm tra.

Ví dụ: Nếu trang biến thể tăng giá trị đặt hàng trung bình thêm 5 USD và thực hiện thêm 1,000 lượt mua hàng thì doanh thu gia tăng là 5,000 USD.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

KHAI THÁC. Tỷ lệ chuyển đổi

Tỷ lệ chuyển đổi là phần trăm người dùng hoàn thành một hành động mong muốn, chẳng hạn như mua hàng hoặc đăng ký nhận bản tin, trên tổng số khách truy cập.

Ví dụ: Nếu 100 trên 1,000 khách truy cập thực hiện mua hàng thì tỷ lệ chuyển đổi là 10%.

5. Giá trị P

Giá trị p đo lường xác suất mà sự khác biệt quan sát được giữa hai biến thể xảy ra một cách tình cờ. Giá trị p thấp hơn (thường nhỏ hơn 0.05) cho thấy sự khác biệt quan sát được có ý nghĩa thống kê.

Ví dụ: Giả sử thử nghiệm A/B so sánh hai phiên bản của trang đích. Phiên bản A có tỷ lệ chuyển đổi là 5% và Phiên bản B có tỷ lệ chuyển đổi là 7%. Nếu giá trị p là 0.03 thì có 3% khả năng sự khác biệt quan sát được xảy ra một cách tình cờ, cho thấy sự khác biệt đáng kể giữa hai phiên bản.

 

khoảng tin cậy-công thức.jpg

 

6. Khoảng tin cậy

Khoảng tin cậy cung cấp một phạm vi trong đó mức độ ảnh hưởng thực sự dự kiến ​​sẽ nằm trong đó, với một mức độ tin cậy nhất định (thường là 95%). Nó giúp đánh giá độ tin cậy của kết quả kiểm tra.

Ví dụ: Trong cùng một thử nghiệm A/B, khoảng tin cậy 95% cho sự khác biệt về tỷ lệ chuyển đổi có thể là [1%, 3%]. Điều này có nghĩa là chúng tôi tin tưởng 95% rằng sự khác biệt thực sự về tỷ lệ chuyển đổi nằm trong khoảng từ 1% đến 3%.

7. Kiểm tra một mặt và hai mặt

Thử nghiệm một phía đánh giá chiều hướng của hiệu ứng (ví dụ: liệu Phiên bản B có tốt hơn Phiên bản A hay không), trong khi thử nghiệm hai chiều đánh giá liệu có bất kỳ sự khác biệt nào theo một trong hai hướng hay không.

Ví dụ kiểm tra một phía: Kiểm tra xem tỷ lệ chuyển đổi của Phiên bản B có cao hơn Phiên bản A hay không.
Ví dụ kiểm tra hai mặt: Kiểm tra xem có bất kỳ sự khác biệt nào giữa tỷ lệ chuyển đổi của Phiên bản A và Phiên bản B hay không, bất kể hướng nào.

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Điểm Z

Điểm z đo lường độ lệch chuẩn của một phần tử so với giá trị trung bình. Trong thử nghiệm A/B, nó được sử dụng để xác định tầm quan trọng của sự khác biệt quan sát được giữa hai biến thể. Mức độ tin cậy phổ biến và điểm z tương đương của chúng:

  • Khoảng tin cậy 95%
    • Điểm Z hai mặt: 1.96
    • Điểm Z một mặt: 1.65
  • Khoảng tin cậy 99%
    • Điểm Z hai mặt: 2.58
    • Điểm Z một mặt: 2.33
  • Khoảng tin cậy 90%
    • Điểm Z hai mặt: 1.64
    • Điểm Z một mặt: 1.28

Ví dụ: Nếu điểm z cho sự khác biệt về tỷ lệ chuyển đổi giữa Phiên bản A và Phiên bản B là 2.5 thì điều đó cho thấy rằng sự khác biệt là 2.5 độ lệch chuẩn so với giá trị trung bình, cho thấy sự khác biệt có ý nghĩa thống kê.

9. Sức mạnh quan sát được

Công suất quan sát được đề cập đến xác suất mà thử nghiệm bác bỏ chính xác giả thuyết khống khi có hiệu ứng thực sự. Công suất quan sát cao hơn cho thấy khả năng phát hiện sự khác biệt thực sự cao hơn.

Ví dụ: Trong thử nghiệm A/B với mức độ quan sát được là 0.8 (80%), có 80% cơ hội phát hiện ra sự khác biệt thực sự giữa các biến thể nếu có.

 

bayesian-công thức.png
Nguồn: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. Tính toán Bayes

Tính toán Bayes liên quan đến việc sử dụng định lý Bayes để cập nhật ước tính xác suất cho một giả thuyết khi có thêm bằng chứng. Trong thử nghiệm A/B, nó cung cấp khung xác suất để đưa ra quyết định dựa trên dữ liệu.

Ví dụ: Bằng cách sử dụng các phương pháp Bayesian, bạn có thể xác định xác suất để một biến thể tốt hơn biến thể đối chứng dựa trên dữ liệu được quan sát, thay vì chỉ dựa vào các giá trị p truyền thống.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
Nguồn: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. Thống kê thường xuyên

Thống kê thường xuyên là một cách tiếp cận truyền thống trong việc kiểm tra giả thuyết tập trung vào tần suất hoặc tỷ lệ dữ liệu. Nó dựa trên các tập dữ liệu cố định và không kết hợp kiến ​​thức trước đó hoặc phân bố xác suất.

Ví dụ: Theo cách tiếp cận Thường xuyên đối với thử nghiệm A/B, bạn sẽ sử dụng giá trị p và khoảng tin cậy để xác định tầm quan trọng của kết quả thử nghiệm mà không kết hợp các xác suất trước đó.

Ví dụ thực tế

Ví dụ 1: Thử nghiệm A/B của chiến dịch email

Một công ty muốn kiểm tra hai dòng chủ đề email để xem dòng nào mang lại tỷ lệ mở cao hơn.

  • Dòng chủ đề A: Tỷ lệ mở 25%
  • Dòng chủ đề B: Tỷ lệ mở 28%
  • Giá trị P: 0.02 (biểu thị sự khác biệt đáng kể)
  • Khoảng tin cậy: [2%, 5%] (95% tin cậy rằng sự khác biệt thực sự về tỷ lệ mở là từ 2% đến 5%)
  • Điểm Z: 2.33 (gợi ý sự khác biệt có ý nghĩa thống kê)
  • Công suất quan sát: 0.85 (85% cơ hội phát hiện sự khác biệt thực sự)
Ví dụ 2: Thử nghiệm A/B trang đích của trang web

Một trang web thương mại điện tử kiểm tra hai thiết kế trang đích để xác định xem thiết kế nào dẫn đến nhiều lượt mua hàng hơn.

  • Thiết kế A: Tỷ lệ chuyển đổi 4%
  • Thiết kế B: Tỷ lệ chuyển đổi 5%
  • Giá trị P: 0.045 (biểu thị sự khác biệt đáng kể)
  • Khoảng tin cậy: [0.5%, 1.5%] (độ tin cậy 95% rằng sự khác biệt thực sự về tỷ lệ chuyển đổi là từ 0.5% đến 1.5%)
  • Điểm Z: 2.01 (gợi ý sự khác biệt có ý nghĩa thống kê)
  • Công suất quan sát: 0.78 (78% cơ hội phát hiện sự khác biệt thực sự)

Thử nghiệm A / B là một công cụ mạnh mẽ để tối ưu hóa trải nghiệm kỹ thuật số và việc hiểu các số liệu cũng như thuật ngữ chính của nó là rất quan trọng để diễn giải chính xác. Switas biết cách tiến hành hiệu quả Xét nghiệm A / B, đảm bảo rằng các doanh nghiệp có thể đưa ra quyết định dựa trên dữ liệu để nâng cao hiệu suất của mình và cung cấp thông tin chi tiết đáng tin cậy và hữu ích nhằm thúc đẩy tăng trưởng và thành công.


Bài viết liên quan

Phóng to: Mở rộng tiếp thị người có sức ảnh hưởng với Engin Yurtdakul

Xem Nghiên cứu Trường hợp Microsoft Clarity của Chúng tôi

Chúng tôi đã nhấn mạnh Microsoft Clarity là một sản phẩm được xây dựng dựa trên các trường hợp sử dụng thực tế, thiết thực, bởi những người làm sản phẩm thực thụ, thấu hiểu những thách thức mà các công ty như Switas đang phải đối mặt. Các tính năng như nhấp chuột tức giận và theo dõi lỗi JavaScript đã chứng tỏ giá trị vô cùng to lớn trong việc xác định những khó chịu của người dùng và các vấn đề kỹ thuật, cho phép cải tiến có mục tiêu, tác động trực tiếp đến trải nghiệm người dùng và tỷ lệ chuyển đổi.