בדיקת A/B היא שיטה חיונית המשמשת לאופטימיזציה של אתרים ויישומים, המאפשרת לעסקים להשוות בין שתי גרסאות של דף אינטרנט או אפליקציה כדי לקבוע איזו ביצועים טובים יותר. הבנת מדדי המפתח והטרמינולוגיה המעורבים בבדיקת A/B חיונית לפירוש תוצאות מדויק. במאמר זה נבחן מדדי בדיקת A/B חשובים ומינוח, כולל ערך p, רווח סמך, בדיקות חד-צדדיות ודו-צדדיות, ציון z, כוח נצפה, וריאנט, קבוצת בקרה, הכנסה מצטברת, שיעור המרה וחישוב בייסיאני.

מדדי בדיקות A/B מפתח ומינוח

1. וריאנט

גרסה מתייחסת לאחת מהגרסאות הנבדקות במבחן A/B. בדרך כלל, הגרסה הקיימת נקראת הפקד, והגרסה החדשה היא הגרסה.

דוגמא: במבחן A/B של דף נחיתה, גרסה A (הדף הנוכחי) היא השליטה, וגרסה B (העיצוב החדש) היא הגרסה.

2. קבוצת בקרה

קבוצת הביקורת היא קבוצת המשתמשים שנחשפו לגרסה המקורית (בקרה) במבחן A/B. זה משמש קו בסיס להשוואת הביצועים של הגרסה.

דוגמא: אם 10,000 משתמשים מבקרים באתר, 5,000 עשויים לראות את דף הבקרה (קבוצת הבקרה), ו-5,000 עשויים לראות את דף הגרסה.

 

Incremental-revenue.png
מקור: https://getrecast.com/incrementality/

 

3. הכנסה מצטברת

הכנסה מצטברת מתייחסת להכנסה הנוספת שנוצרת כתוצאה משינויים שבוצעו במהלך מבחן A/B. זה עוזר להעריך את ההשפעה הכספית של הבדיקה.

דוגמא: אם דף הגרסה מגדיל את ערך ההזמנה הממוצע ב-$5 ויתבצעו 1,000 רכישות נוספות, ההכנסה המצטברת היא $5,000.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4. שער חליפין

שיעור המרה הוא אחוז המשתמשים שהשלימו פעולה רצויה, כגון ביצוע רכישה או הרשמה לניוזלטר, מתוך המספר הכולל של מבקרים.

דוגמא: אם 100 מתוך 1,000 מבקרים מבצעים רכישה, שיעור ההמרה הוא 10%.

5. ערך P

ערך p מודד את ההסתברות שההבדל שנצפה בין שתי וריאציות התרחש במקרה. ערך p נמוך יותר (בדרך כלל פחות מ-0.05) מצביע על כך שההבדל שנצפה הוא מובהק סטטיסטית.

דוגמא: נניח שמבחן A/B משווה בין שתי גרסאות של דף נחיתה. לגרסה א' יש שיעור המרה של 5%, ולגרסה ב' יש שיעור המרה של 7%. אם ערך ה-p הוא 0.03, יש סיכוי של 3% שההבדל שנצפה התרחש במקרה, מה שמצביע על הבדל משמעותי בין שתי הגרסאות.

 

confidence-interval-formula.jpg

 

6. רווח סמך

רווח הסמך מספק טווח שבתוכו צפוי להיות גודל האפקט האמיתי, עם רמה מסוימת של ביטחון (בדרך כלל 95%). זה עוזר להעריך את מהימנות תוצאות הבדיקה.

דוגמה: באותה מבחן A/B, רווח הסמך של 95% להפרש בשיעורי ההמרות עשוי להיות [1%, 3%]. המשמעות היא שאנו בטוחים ב-95% שההבדל האמיתי בשיעורי ההמרה נע בין 1% ל-3%.

7. בדיקות חד צדדיות ודו צדדיות

מבחן חד-צדדי מעריך את כיוון ההשפעה (למשל, האם גרסה B טובה יותר מגרסה A), בעוד מבחן דו-צדדי מעריך אם יש הבדל כלשהו בשני הכיוונים.

דוגמה לבדיקה חד צדדית: בודק אם שיעור ההמרה של גרסה ב' גבוה מזה של גרסה א'.
דוגמה לבדיקה דו-צדדית: בודק אם יש הבדל בין שיעורי ההמרה של גרסה A וגרסה B, ללא קשר לכיוון.

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Z-Score

ציון z מודד כמה סטיות תקן יש אלמנט מהממוצע. בבדיקת A/B, הוא משמש לקביעת המשמעות של ההבדל הנצפה בין שתי וריאציות. רמות ביטחון נפוצות ומקבילותיהן לציון z:

  • רווח סמך 95%
    • ציון Z דו צדדי: 1.96
    • ציון Z חד צדדי: 1.65
  • רווח סמך 99%
    • ציון Z דו צדדי: 2.58
    • ציון Z חד צדדי: 2.33
  • רווח סמך 90%
    • ציון Z דו צדדי: 1.64
    • ציון Z חד צדדי: 1.28

דוגמא: אם ציון z עבור ההבדל בשיעורי ההמרה בין גרסה A לגרסה B הוא 2.5, זה מצביע על כך שההבדל נמצא במרחק של 2.5 סטיות תקן מהממוצע, מה שמרמז על הבדל מובהק סטטיסטית.

9. כוח נצפה

כוח נצפה מתייחס להסתברות שהמבחן דוחה נכון את השערת האפס כאשר יש השפעה אמיתית. כוח נצפה גבוה יותר מצביע על סבירות גבוהה יותר לזיהוי הבדל אמיתי.

דוגמא: במבחן A/B עם כוח נצפה של 0.8 (80%), יש סיכוי של 80% לזהות הבדל אמיתי בין הווריאציות אם קיים כזה.

 

bayesian-formula.png
מקור: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. חישוב בייסיאני

חישוב בייסיאני כרוך בשימוש במשפט בייס כדי לעדכן את אומדן ההסתברות להשערה ככל שנרכשת ראיות נוספות. בבדיקת A/B, הוא מספק מסגרת הסתברותית לקבלת החלטות על סמך הנתונים.

דוגמא: באמצעות שיטות בייסיאניות, אתה יכול לקבוע את ההסתברות שווריאציה אחת טובה יותר מהבקרה בהינתן הנתונים הנצפים, במקום להסתמך רק על ערכי p מסורתיים.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
מקור: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. סטטיסטיקה תדירותית

סטטיסטיקה תדירותית היא גישה מסורתית בבדיקת השערות המתמקדת בתדירות או בשיעור הנתונים. הוא מסתמך על מערכי נתונים קבועים ואינו משלב ידע קודם או התפלגויות הסתברות.

דוגמא: בגישה תדירית לבדיקת A/B, אתה משתמש בערכי p וברווחי סמך כדי לקבוע את המשמעות של תוצאות הבדיקה, מבלי לשלב הסתברויות קודמות.

דוגמאות מעשיות

דוגמה 1: מבחן A/B של מסע פרסום בדוא"ל

חברה רוצה לבדוק שתי שורות נושא של דוא"ל כדי לראות איזו מהן מביאה לשיעורי פתיחה גבוהים יותר.

  • שורת נושא א': שיעור פתיחה של 25%.
  • שורת נושא ב': שיעור פתיחה של 28%.
  • ערך P: 0.02 (מציין הבדל משמעותי)
  • מרווח ביטחון: [2%, 5%] (ביטחון של 95% שההבדל האמיתי בתעריפים הפתוחים הוא בין 2% ל-5%)
  • ציון Z: 2.33 (מרמז על הבדל מובהק סטטיסטית)
  • כוח נצפה: 0.85 (85% סיכוי לזהות הבדל אמיתי)
דוגמה 2: בדיקת A/B לדף נחיתה של אתר אינטרנט

אתר מסחר אלקטרוני בודק שני עיצובים של דפי נחיתה כדי לקבוע אילו מובילים ליותר רכישות.

  • עיצוב א': 4% שיעור המרות
  • עיצוב ב': 5% שיעור המרות
  • ערך P: 0.045 (מציין הבדל משמעותי)
  • מרווח ביטחון: [0.5%, 1.5%] (95% ביטחון שההבדל האמיתי בשיעורי ההמרה הוא בין 0.5% ל-1.5%)
  • ציון Z: 2.01 (מרמז על הבדל מובהק סטטיסטית)
  • כוח נצפה: 0.78 (78% סיכוי לזהות הבדל אמיתי)

בדיקת A / B הוא כלי רב עוצמה לאופטימיזציה של חוויות דיגיטליות, והבנת מדדי המפתח והטרמינולוגיה שלו חיונית לפרשנות מדויקת. Switas יודע להתנהל בצורה יעילה A / B בדיקות, להבטיח שעסקים יכולים לקבל החלטות מונעות נתונים כדי לשפר את הביצועים שלהם ומספק תובנות מהימנות ומעשיות המניעות צמיחה והצלחה.