การทดสอบ A/B เป็นวิธีการสำคัญที่ใช้ในการเพิ่มประสิทธิภาพเว็บไซต์และแอปพลิเคชัน ช่วยให้ธุรกิจสามารถเปรียบเทียบหน้าเว็บหรือแอปสองเวอร์ชันเพื่อพิจารณาว่าเวอร์ชันใดทำงานได้ดีกว่า การทำความเข้าใจตัวชี้วัดและคำศัพท์เฉพาะที่เกี่ยวข้องกับการทดสอบ A/B ถือเป็นสิ่งสำคัญสำหรับการตีความผลลัพธ์อย่างถูกต้อง ในบทความนี้ เราจะตรวจสอบเมตริกและคำศัพท์เฉพาะทางของการทดสอบ A/B ที่สำคัญ ซึ่งรวมถึง ค่า p, ช่วงความเชื่อมั่น, การทดสอบด้านเดียวและสองด้าน, คะแนน z, กำลังที่สังเกตได้, ตัวแปร, กลุ่มควบคุม, รายได้ส่วนเพิ่ม, อัตราการแปลง และการคำนวณแบบเบย์.
ตัวชี้วัดและคำศัพท์เฉพาะสำหรับการทดสอบ A/B
1. ตัวแปร
ตัวแปรหมายถึงเวอร์ชันใดเวอร์ชันหนึ่งที่กำลังทดสอบในการทดสอบ A/B โดยทั่วไปแล้ว เวอร์ชันที่มีอยู่จะเรียกว่าตัวควบคุม และเวอร์ชันใหม่จะเรียกว่าตัวแปร
ตัวอย่าง: ในการทดสอบ A/B ของหน้า Landing Page เวอร์ชัน A (หน้าปัจจุบัน) คือตัวควบคุม และเวอร์ชัน B (การออกแบบใหม่) คือเวอร์ชันที่ต่างกัน
2. กลุ่มควบคุม
กลุ่มควบคุมคือกลุ่มผู้ใช้ที่พบกับเวอร์ชันดั้งเดิม (ตัวควบคุม) ในการทดสอบ A/B โดยทำหน้าที่เป็นข้อมูลพื้นฐานในการเปรียบเทียบประสิทธิภาพของตัวแปร
ตัวอย่าง: หากมีผู้ใช้ 10,000 รายเยี่ยมชมเว็บไซต์ 5,000 รายอาจเห็นหน้าควบคุม (กลุ่มควบคุม) และ 5,000 รายอาจเห็นหน้ารูปแบบต่างๆ

3. รายได้ที่เพิ่มขึ้น
รายได้ส่วนเพิ่มหมายถึงรายได้เพิ่มเติมที่เกิดขึ้นจากการเปลี่ยนแปลงที่เกิดขึ้นระหว่างการทดสอบ A/B ช่วยในการประเมินผลกระทบทางการเงินของการทดสอบ
ตัวอย่าง: หากหน้ารูปแบบเพิ่มมูลค่าการสั่งซื้อเฉลี่ย 5 ดอลลาร์และมีการซื้อเพิ่มเติม 1,000 ครั้ง รายได้ที่เพิ่มขึ้นคือ 5,000 ดอลลาร์

4 อัตราการแปลง
อัตราการแปลงคือเปอร์เซ็นต์ของผู้ใช้ที่ดำเนินการตามที่ต้องการ เช่น การซื้อหรือสมัครรับจดหมายข่าว จากจำนวนผู้เข้าชมทั้งหมด
ตัวอย่าง: หากผู้เข้าชม 100 รายจาก 1,000 รายทำการซื้อ อัตรา Conversion จะเป็น 10%
5. ค่า P
ค่า p จะวัดความน่าจะเป็นที่ความแตกต่างที่สังเกตได้ระหว่างการเปลี่ยนแปลงสองรูปแบบเกิดขึ้นโดยบังเอิญ ค่า p ที่ต่ำกว่า (โดยทั่วไปจะน้อยกว่า 0.05) บ่งชี้ว่าความแตกต่างที่สังเกตได้นั้นมีนัยสำคัญทางสถิติ
ตัวอย่าง: สมมติว่าการทดสอบ A/B เปรียบเทียบหน้า Landing Page สองเวอร์ชัน เวอร์ชัน A มีอัตราการแปลง 5% และเวอร์ชัน B มีอัตราการแปลง 7% หากค่า p เท่ากับ 0.03 มีโอกาส 3% ที่ความแตกต่างที่สังเกตได้เกิดขึ้นโดยบังเอิญ ซึ่งบ่งบอกถึงความแตกต่างที่มีนัยสำคัญระหว่างทั้งสองเวอร์ชัน

6. ช่วงความเชื่อมั่น
ช่วงความเชื่อมั่นให้ช่วงที่ขนาดเอฟเฟกต์ที่แท้จริงคาดว่าจะอยู่ โดยมีระดับความเชื่อมั่นที่แน่นอน (ปกติ 95%- ช่วยประเมินความน่าเชื่อถือของผลการทดสอบ
ตัวอย่าง: ในการทดสอบ A/B เดียวกัน ช่วงความเชื่อมั่น 95% สำหรับส่วนต่างของอัตรา Conversion อาจเป็น [1%, 3%] ซึ่งหมายความว่าเรามั่นใจ 95% ว่าความแตกต่างที่แท้จริงของอัตราการแปลงอยู่ระหว่าง 1% ถึง 3%
7. การทดสอบด้านเดียวและสองด้าน
การทดสอบด้านเดียวจะประเมินทิศทางของผลกระทบ (เช่น เวอร์ชัน B ดีกว่าเวอร์ชัน A หรือไม่) ในขณะที่การทดสอบสองด้านจะประเมินว่ามีความแตกต่างในทิศทางใดทิศทางหนึ่งหรือไม่
ตัวอย่างการทดสอบด้านเดียว: ทดสอบว่าอัตรา Conversion ของเวอร์ชัน B สูงกว่าเวอร์ชัน A หรือไม่
ตัวอย่างการทดสอบสองด้าน: ทดสอบว่าอัตราการแปลงของเวอร์ชัน A และเวอร์ชัน B มีความแตกต่างหรือไม่ โดยไม่คำนึงถึงทิศทาง

8. คะแนน Z
คะแนน z จะวัดค่าเบี่ยงเบนมาตรฐานที่องค์ประกอบหนึ่งๆ มาจากค่าเฉลี่ย ในการทดสอบ A/B ใช้เพื่อกำหนดความสำคัญของความแตกต่างที่สังเกตได้ระหว่างสองรูปแบบ ระดับความเชื่อมั่นทั่วไปและคะแนน z ที่เทียบเท่า:
- ช่วงความเชื่อมั่น 95%
- คะแนน Z สองด้าน: 1.96
- คะแนน Z ด้านเดียว: 1.65
- ช่วงความเชื่อมั่น 99%
- คะแนน Z สองด้าน: 2.58
- คะแนน Z ด้านเดียว: 2.33
- ช่วงความเชื่อมั่น 90%
- คะแนน Z สองด้าน: 1.64
- คะแนน Z ด้านเดียว: 1.28
ตัวอย่าง: หากคะแนน z สำหรับความแตกต่างของอัตราการแปลงระหว่างเวอร์ชัน A และเวอร์ชัน B คือ 2.5 แสดงว่าความแตกต่างนั้นอยู่ห่างจากค่าเฉลี่ย 2.5 ซึ่งแสดงถึงความแตกต่างที่มีนัยสำคัญทางสถิติ
9. พลังที่สังเกตได้
กำลังที่สังเกตได้หมายถึงความน่าจะเป็นที่การทดสอบจะปฏิเสธสมมติฐานว่างได้อย่างถูกต้องเมื่อมีผลกระทบที่แท้จริง พลังงานที่สังเกตได้สูงกว่าบ่งชี้ว่ามีความเป็นไปได้สูงที่จะตรวจพบความแตกต่างที่แท้จริง
ตัวอย่าง: ในการทดสอบ A/B ด้วยกำลังที่สังเกตได้ 0.8 (80%) มีโอกาส 80% ที่จะตรวจพบความแตกต่างที่แท้จริงระหว่างรูปแบบต่างๆ ถ้ามี

10. การคำนวณแบบเบย์
การคำนวณแบบเบย์เกี่ยวข้องกับการใช้ทฤษฎีบทของเบย์เพื่ออัปเดตการประมาณความน่าจะเป็นสำหรับสมมติฐานเมื่อมีหลักฐานเพิ่มเติม ในการทดสอบ A/B จะมีกรอบความน่าจะเป็นในการตัดสินใจโดยอิงจากข้อมูล
ตัวอย่าง: เมื่อใช้วิธีการแบบเบย์ คุณสามารถระบุความน่าจะเป็นที่ตัวแปรหนึ่งจะดีกว่ากลุ่มควบคุมเมื่อพิจารณาจากข้อมูลที่สังเกตได้ แทนที่จะอาศัยค่า p แบบดั้งเดิมเพียงอย่างเดียว

11. สถิติผู้ประจำ
สถิติที่ใช้บ่อยเป็นแนวทางดั้งเดิมในการทดสอบสมมติฐานที่เน้นไปที่ความถี่หรือสัดส่วนของข้อมูล ขึ้นอยู่กับชุดข้อมูลคงที่และไม่รวมความรู้เดิมหรือการแจกแจงความน่าจะเป็น
ตัวอย่าง: ในแนวทางที่ใช้บ่อยในการทดสอบ A/B คุณจะต้องใช้ค่า p และช่วงความเชื่อมั่นเพื่อระบุความสำคัญของผลการทดสอบ โดยไม่ต้องรวมความน่าจะเป็นก่อนหน้าเข้าด้วยกัน
ตัวอย่างการปฏิบัติ
ตัวอย่างที่ 1: การทดสอบ A/B ของแคมเปญอีเมล
บริษัทต้องการทดสอบหัวเรื่องอีเมลสองบรรทัดเพื่อดูว่าบรรทัดใดส่งผลให้มีอัตราการเปิดอ่านที่สูงกว่า
- หัวเรื่อง ก: อัตราการเปิด 25%
- หัวเรื่อง ข: อัตราการเปิด 28%
- ค่า P: 0.02 (บ่งบอกถึงความแตกต่างที่มีนัยสำคัญ)
- ช่วงความเชื่อมั่น: [2%, 5%] (ความมั่นใจ 95% ว่าความแตกต่างที่แท้จริงของอัตราการเปิดอยู่ระหว่าง 2% ถึง 5%)
- คะแนน Z: 2.33 (แนะนำความแตกต่างที่มีนัยสำคัญทางสถิติ)
- พลังที่สังเกตได้: 0.85 (โอกาส 85% ที่จะตรวจพบความแตกต่างที่แท้จริง)
ตัวอย่างที่ 2: การทดสอบ A/B หน้า Landing Page ของเว็บไซต์
เว็บไซต์อีคอมเมิร์ซทดสอบการออกแบบหน้า Landing Page สองแบบเพื่อพิจารณาว่าแบบใดนำไปสู่การซื้อมากขึ้น
- การออกแบบก: 4% อัตรา Conversion
- การออกแบบข: 5% อัตรา Conversion
- ค่า P: 0.045 (บ่งบอกถึงความแตกต่างที่มีนัยสำคัญ)
- ช่วงความเชื่อมั่น: [0.5%, 1.5%] (ความมั่นใจ 95% ว่าความแตกต่างที่แท้จริงของอัตราการแปลงอยู่ระหว่าง 0.5% ถึง 1.5%)
- คะแนน Z: 2.01 (แนะนำความแตกต่างที่มีนัยสำคัญทางสถิติ)
- พลังที่สังเกตได้: 0.78 (โอกาส 78% ที่จะตรวจพบความแตกต่างที่แท้จริง)
ทดสอบ A / B เป็นเครื่องมืออันทรงพลังในการเพิ่มประสิทธิภาพประสบการณ์ดิจิทัล และการทำความเข้าใจตัวชี้วัดและคำศัพท์ที่สำคัญเป็นสิ่งสำคัญสำหรับการตีความที่แม่นยำ สาวิตสย่อมรู้จักประพฤติตนให้มีประสิทธิภาพ การทดสอบ A / Bเพื่อให้มั่นใจว่าธุรกิจต่างๆ สามารถตัดสินใจโดยอาศัยข้อมูลเพื่อเพิ่มประสิทธิภาพการทำงาน และให้ข้อมูลเชิงลึกที่เชื่อถือได้และนำไปปฏิบัติได้ ซึ่งขับเคลื่อนการเติบโตและความสำเร็จ