Η δοκιμή A/B είναι μια κρίσιμη μέθοδος που χρησιμοποιείται για τη βελτιστοποίηση ιστοτόπων και εφαρμογών, επιτρέποντας στις επιχειρήσεις να συγκρίνουν δύο εκδόσεις μιας ιστοσελίδας ή μιας εφαρμογής για να προσδιορίσουν ποια έχει καλύτερη απόδοση. Η κατανόηση των βασικών μετρήσεων και της ορολογίας που εμπλέκονται στη δοκιμή A/B είναι απαραίτητη για την ακριβή ερμηνεία των αποτελεσμάτων. Σε αυτό το άρθρο, θα εξετάσουμε σημαντικές μετρήσεις και ορολογία δοκιμών A/B, συμπεριλαμβανομένων p-value, διάστημα εμπιστοσύνης, δοκιμές μονής και διπλής όψης, z-score, παρατηρούμενη ισχύς, παραλλαγή, ομάδα ελέγχου, αυξητικά έσοδα, ποσοστό μετατροπής και υπολογισμός Bayes.

Βασικές μετρήσεις και ορολογία δοκιμών A/B

1. Παραλλαγή

Μια παραλλαγή αναφέρεται σε μια από τις εκδόσεις που δοκιμάζονται σε μια δοκιμή A/B. Συνήθως, η υπάρχουσα έκδοση ονομάζεται έλεγχος και η νέα έκδοση είναι η παραλλαγή.

Παράδειγμα: Σε μια δοκιμή A/B μιας σελίδας προορισμού, η έκδοση A (η τρέχουσα σελίδα) είναι το στοιχείο ελέγχου και η έκδοση B (η νέα σχεδίαση) είναι η παραλλαγή.

2. Ομάδα Ελέγχου

Η ομάδα ελέγχου είναι η ομάδα χρηστών που εκτίθενται στην αρχική έκδοση (έλεγχος) σε μια δοκιμή A/B. Χρησιμεύει ως βάση για τη σύγκριση της απόδοσης της παραλλαγής.

Παράδειγμα: Εάν 10,000 χρήστες επισκέπτονται έναν ιστότοπο, 5,000 ενδέχεται να δουν τη σελίδα ελέγχου (ομάδα ελέγχου) και 5,000 μπορεί να δουν τη σελίδα παραλλαγής.

 

Incremental-revenue.png
πηγή: https://getrecast.com/incrementality/

 

3. Αυξητικά έσοδα

Τα αυξητικά έσοδα αναφέρονται στα πρόσθετα έσοδα που παράγονται ως αποτέλεσμα των αλλαγών που έγιναν κατά τη διάρκεια μιας δοκιμής A/B. Βοηθά στην αξιολόγηση του οικονομικού αντίκτυπου του τεστ.

Παράδειγμα: Εάν η σελίδα παραλλαγής αυξήσει τη μέση τιμή παραγγελίας κατά 5 $ και πραγματοποιηθούν 1,000 επιπλέον αγορές, τα πρόσθετα έσοδα είναι 5,000 $.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4. Συναλλαγματική ισοτιμία

Το ποσοστό μετατροπής είναι το ποσοστό των χρηστών που ολοκληρώνουν μια επιθυμητή ενέργεια, όπως την πραγματοποίηση μιας αγοράς ή την εγγραφή σε ένα ενημερωτικό δελτίο, από τον συνολικό αριθμό των επισκεπτών.

Παράδειγμα: Εάν 100 στους 1,000 επισκέπτες κάνουν μια αγορά, το ποσοστό μετατροπής είναι 10%.

5. Τιμή P

Η τιμή p μετρά την πιθανότητα ότι η παρατηρούμενη διαφορά μεταξύ δύο παραλλαγών προέκυψε τυχαία. Μια χαμηλότερη τιμή p (συνήθως μικρότερη από 0.05) δείχνει ότι η παρατηρούμενη διαφορά είναι στατιστικά σημαντική.

Παράδειγμα: Ας υποθέσουμε ότι μια δοκιμή A/B συγκρίνει δύο εκδόσεις μιας σελίδας προορισμού. Η έκδοση Α έχει ποσοστό μετατροπής 5%, και η έκδοση Β έχει ποσοστό μετατροπής 7%. Εάν η τιμή p είναι 0.03, υπάρχει πιθανότητα 3% η παρατηρούμενη διαφορά να προέκυψε τυχαία, υποδεικνύοντας μια σημαντική διαφορά μεταξύ των δύο εκδόσεων.

 

εμπιστοσύνη-interval-formula.jpg

 

6. Διάστημα εμπιστοσύνης

Το διάστημα εμπιστοσύνης παρέχει ένα εύρος εντός του οποίου αναμένεται να βρίσκεται το πραγματικό μέγεθος του αποτελέσματος, με ένα ορισμένο επίπεδο εμπιστοσύνης (συνήθως 95%). Βοηθά στην αξιολόγηση της αξιοπιστίας των αποτελεσμάτων των δοκιμών.

Παράδειγμα: Στην ίδια δοκιμή A/B, το διάστημα εμπιστοσύνης 95% για τη διαφορά στα ποσοστά μετατροπής μπορεί να είναι [1%, 3%]. Αυτό σημαίνει ότι είμαστε 95% σίγουροι ότι η πραγματική διαφορά στα ποσοστά μετατροπής βρίσκεται μεταξύ 1% και 3%.

7. Δοκιμές μονής και διπλής όψης

Μια δοκιμή μονής όψης αξιολογεί την κατεύθυνση του αποτελέσματος (π.χ. εάν η έκδοση Β είναι καλύτερη από την έκδοση Α), ενώ μια δοκιμή διπλής όψης αξιολογεί εάν υπάρχει διαφορά προς οποιαδήποτε κατεύθυνση.

Παράδειγμα δοκιμής μονής όψης: Ελέγχει εάν το ποσοστό μετατροπών της Έκδοσης Β είναι υψηλότερο από αυτό της Έκδοσης Α.
Παράδειγμα δοκιμής δύο όψεων: Ελέγχει εάν υπάρχει διαφορά μεταξύ των ποσοστών μετατροπής της έκδοσης Α και της έκδοσης Β, ανεξάρτητα από την κατεύθυνση.

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Z-Score

Η βαθμολογία z μετρά πόσες τυπικές αποκλίσεις είναι ένα στοιχείο από τη μέση τιμή. Στη δοκιμή A/B, χρησιμοποιείται για τον προσδιορισμό της σημασίας της παρατηρούμενης διαφοράς μεταξύ δύο παραλλαγών. Κοινά επίπεδα εμπιστοσύνης και τα ισοδύναμα z-score τους:

  • Διάστημα εμπιστοσύνης 95%
    • Διπλής όψης Z-Score: 1.96
    • Μονόπλευρη βαθμολογία Z: 1.65
  • Διάστημα εμπιστοσύνης 99%
    • Διπλής όψης Z-Score: 2.58
    • Μονόπλευρη βαθμολογία Z: 2.33
  • Διάστημα εμπιστοσύνης 90%
    • Διπλής όψης Z-Score: 1.64
    • Μονόπλευρη βαθμολογία Z: 1.28

Παράδειγμα: Εάν η βαθμολογία z για τη διαφορά στα ποσοστά μετατροπής μεταξύ της έκδοσης Α και της έκδοσης Β είναι 2.5, υποδηλώνει ότι η διαφορά απέχει 2.5 τυπικές αποκλίσεις από τη μέση τιμή, υποδηλώνοντας μια στατιστικά σημαντική διαφορά.

9. Παρατηρούμενη δύναμη

Η παρατηρούμενη ισχύς αναφέρεται στην πιθανότητα ότι το τεστ απορρίπτει σωστά τη μηδενική υπόθεση όταν υπάρχει αληθινό αποτέλεσμα. Υψηλότερη παρατηρούμενη ισχύς υποδηλώνει μεγαλύτερη πιθανότητα ανίχνευσης πραγματικής διαφοράς.

Παράδειγμα: Σε μια δοκιμή A/B με παρατηρούμενη ισχύ 0.8 (80%), υπάρχει πιθανότητα 80% να ανιχνευθεί μια πραγματική διαφορά μεταξύ των παραλλαγών, εάν υπάρχει.

 

bayesian-formula.png
πηγή: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. Μπεϋζιανός Υπολογισμός

Ο Μπεϋζιανός υπολογισμός περιλαμβάνει τη χρήση του θεωρήματος του Bayes για την ενημέρωση της εκτίμησης πιθανότητας για μια υπόθεση καθώς αποκτώνται πρόσθετα στοιχεία. Στη δοκιμή A/B, παρέχει ένα πιθανό πλαίσιο για τη λήψη αποφάσεων με βάση τα δεδομένα.

Παράδειγμα: Χρησιμοποιώντας Μπεϋζιανές μεθόδους, μπορείτε να προσδιορίσετε την πιθανότητα μια παραλλαγή να είναι καλύτερη από τον έλεγχο δεδομένων των παρατηρούμενων δεδομένων, αντί να βασίζεστε αποκλειστικά σε παραδοσιακές τιμές p.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
πηγή: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. Συχνές στατιστικές

Οι στατιστικές συχνότητας είναι μια παραδοσιακή προσέγγιση στον έλεγχο υποθέσεων που εστιάζει στη συχνότητα ή την αναλογία των δεδομένων. Βασίζεται σε σταθερά σύνολα δεδομένων και δεν ενσωματώνει προηγούμενη γνώση ή κατανομές πιθανοτήτων.

Παράδειγμα: Σε μια προσέγγιση συχνότητας στη δοκιμή A/B, θα χρησιμοποιούσατε τιμές p και διαστήματα εμπιστοσύνης για να προσδιορίσετε τη σημασία των αποτελεσμάτων της δοκιμής, χωρίς να ενσωματώσετε προηγούμενες πιθανότητες.

Πρακτικά Παραδείγματα

Παράδειγμα 1: Δοκιμή A/B καμπάνιας ηλεκτρονικού ταχυδρομείου

Μια εταιρεία θέλει να δοκιμάσει δύο γραμμές θέματος email για να δει ποια έχει ως αποτέλεσμα υψηλότερα ανοιχτά ποσοστά.

  • Γραμμή θέματος Α: 25% ανοιχτό επιτόκιο
  • Γραμμή θέματος Β: 28% ανοιχτό επιτόκιο
  • Τιμή P: 0.02 (που υποδηλώνει σημαντική διαφορά)
  • Διάστημα εμπιστοσύνης: [2%, 5%] (95% εμπιστοσύνη ότι η πραγματική διαφορά στα ανοικτά επιτόκια είναι μεταξύ 2% και 5%)
  • Z-Score: 2.33 (υποδηλώνει στατιστικά σημαντική διαφορά)
  • Παρατηρούμενη ισχύς: 0.85 (85% πιθανότητα ανίχνευσης πραγματικής διαφοράς)
Παράδειγμα 2: Δοκιμή A/B σελίδας προορισμού ιστότοπου

Ένας ιστότοπος ηλεκτρονικού εμπορίου δοκιμάζει δύο σχέδια σελίδων προορισμού για να προσδιορίσει ποιος οδηγεί σε περισσότερες αγορές.

  • Σχεδιασμός Α: Ποσοστό μετατροπής 4%
  • Σχέδιο Β: Ποσοστό μετατροπής 5%
  • Τιμή P: 0.045 (που υποδηλώνει σημαντική διαφορά)
  • Διάστημα εμπιστοσύνης: [0.5%, 1.5%] (95% εμπιστοσύνη ότι η πραγματική διαφορά στα ποσοστά μετατροπής είναι μεταξύ 0.5% και 1.5%)
  • Z-Score: 2.01 (υποδηλώνει στατιστικά σημαντική διαφορά)
  • Παρατηρούμενη ισχύς: 0.78 (78% πιθανότητα ανίχνευσης πραγματικής διαφοράς)

Α / Β δοκιμές είναι ένα ισχυρό εργαλείο για τη βελτιστοποίηση των ψηφιακών εμπειριών και η κατανόηση των βασικών μετρήσεων και της ορολογίας του είναι ζωτικής σημασίας για την ακριβή ερμηνεία. Ο Switas ξέρει πώς να συμπεριφέρεται αποτελεσματικά Δοκιμές Α / Β, διασφαλίζοντας ότι οι επιχειρήσεις μπορούν να λαμβάνουν αποφάσεις βάσει δεδομένων για να βελτιώσουν την απόδοσή τους και παρέχει αξιόπιστες και εφαρμόσιμες πληροφορίες που οδηγούν στην ανάπτυξη και την επιτυχία.