A/B-testen zijn een cruciale methode die wordt gebruikt bij het optimaliseren van websites en applicaties, waardoor bedrijven twee versies van een webpagina of app kunnen vergelijken om te bepalen welke beter presteert. Het begrijpen van de belangrijkste statistieken en terminologie die betrokken zijn bij A/B-testen is essentieel voor het nauwkeurig interpreteren van resultaten. In dit artikel zullen we belangrijke A/B-teststatistieken en terminologie onderzoeken, waaronder p-waarde, betrouwbaarheidsinterval, eenzijdige en tweezijdige tests, z-score, waargenomen power, variant, controlegroep, incrementele omzet, conversieratio en Bayesiaanse berekening.

Belangrijke A/B-teststatistieken en terminologie

1. Variant

Een variant verwijst naar een van de versies die wordt getest in een A/B-test. Meestal wordt de bestaande versie het besturingselement genoemd en is de nieuwe versie de variant.

Voorbeeld: Bij een A/B-test van een landingspagina is versie A (de huidige pagina) de besturing en versie B (het nieuwe ontwerp) de variant.

2. Controlegroep

De controlegroep is de groep gebruikers die in een A/B-test wordt blootgesteld aan de originele versie (controle). Het dient als basislijn om de prestaties van de variant te vergelijken.

Voorbeeld: Als 10,000 gebruikers een website bezoeken, zien 5,000 mogelijk de controlepagina (controlegroep) en zien 5,000 mogelijk de variantpagina.

 

Incrementele omzet.png
Bron: https://getrecast.com/incrementality/

 

3. Incrementele inkomsten

Incrementele omzet verwijst naar de extra omzet die wordt gegenereerd als gevolg van wijzigingen die zijn aangebracht tijdens een A/B-test. Het helpt bij het beoordelen van de financiële impact van de test.

Voorbeeld: Als de variantpagina de gemiddelde bestelwaarde met € 5 verhoogt en er 1,000 extra aankopen worden gedaan, bedraagt ​​de aanvullende opbrengst € 5,000.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4. Conversieratio

Het conversiepercentage is het percentage gebruikers dat een gewenste actie voltooit, zoals een aankoop doen of zich aanmelden voor een nieuwsbrief, op basis van het totale aantal bezoekers.

Voorbeeld: Als 100 van de 1,000 bezoekers een aankoop doen, is het conversiepercentage 10%.

5. P-waarde

De p-waarde meet de waarschijnlijkheid dat het waargenomen verschil tussen twee variaties op toeval berust. Een lagere p-waarde (doorgaans minder dan 0.05) geeft aan dat het waargenomen verschil statistisch significant is.

Voorbeeld: Stel dat een A/B-test twee versies van een landingspagina vergelijkt. Versie A heeft een conversiepercentage van 5% en versie B heeft een conversiepercentage van 7%. Als de p-waarde 0.03 is, is er een kans van 3% dat het waargenomen verschil op toeval berust, wat wijst op een significant verschil tussen de twee versies.

 

betrouwbaarheidsintervalformule.jpg

 

6. Betrouwbaarheidsinterval

Het betrouwbaarheidsinterval biedt een bereik waarbinnen de werkelijke effectgrootte naar verwachting zal liggen, met een bepaald betrouwbaarheidsniveau (meestal 95%). Het helpt bij het beoordelen van de betrouwbaarheid van de testresultaten.

Voorbeeld: In dezelfde A/B-test kan het 95%-betrouwbaarheidsinterval voor het verschil in conversiepercentages [1%, 3%] zijn. Dit betekent dat we er 95% zeker van zijn dat het werkelijke verschil in conversiepercentages tussen de 1% en 3% ligt.

7. Eenzijdige en dubbelzijdige tests

Een eenzijdige test beoordeelt de richting van het effect (bijvoorbeeld of versie B beter is dan versie A), terwijl een tweezijdige test beoordeelt of er enig verschil in beide richtingen is.

Eenzijdig testvoorbeeld: Test of het conversiepercentage van versie B hoger is dan dat van versie A.
Dubbelzijdig testvoorbeeld: Test of er een verschil is tussen de conversiepercentages van versie A en versie B, ongeacht de richting.

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Z-score

De z-score meet hoeveel standaarddeviaties een element van het gemiddelde ligt. Bij A/B-testen wordt het gebruikt om de significantie van het waargenomen verschil tussen twee variaties te bepalen. Gemeenschappelijke betrouwbaarheidsniveaus en hun z-score-equivalenten:

  • Betrouwbaarheidsinterval 95%
    • Dubbelzijdige Z-score: 1.96
    • Eenzijdige Z-score: 1.65
  • Betrouwbaarheidsinterval 99%
    • Dubbelzijdige Z-score: 2.58
    • Eenzijdige Z-score: 2.33
  • Betrouwbaarheidsinterval 90%
    • Dubbelzijdige Z-score: 1.64
    • Eenzijdige Z-score: 1.28

Voorbeeld: Als de z-score voor het verschil in conversiepercentages tussen versie A en versie B 2.5 is, geeft dit aan dat het verschil 2.5 standaardafwijkingen verwijderd is van het gemiddelde, wat duidt op een statistisch significant verschil.

9. Waargenomen kracht

Waargenomen power verwijst naar de waarschijnlijkheid dat de test de nulhypothese terecht verwerpt als er een waar effect is. Een hoger waargenomen vermogen duidt op een grotere kans op het detecteren van een reëel verschil.

Voorbeeld: In een A/B-test met een waargenomen vermogen van 0.8 (80%) is er een kans van 80% dat er een echt verschil tussen de variaties wordt gedetecteerd, als die bestaat.

 

Bayesiaanse formule.png
Bron: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. Bayesiaanse berekening

Bayesiaanse berekeningen omvatten het gebruik van de stelling van Bayes om de waarschijnlijkheidsschatting voor een hypothese bij te werken naarmate aanvullend bewijs wordt verkregen. Bij A/B-testen biedt het een probabilistisch raamwerk om beslissingen te nemen op basis van de gegevens.

Voorbeeld: Met behulp van Bayesiaanse methoden kunt u de waarschijnlijkheid bepalen dat één variant beter is dan de controle op basis van de waargenomen gegevens, in plaats van uitsluitend op traditionele p-waarden te vertrouwen.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
Bron: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. Frequentistische statistieken

Frequentistische statistiek is een traditionele benadering bij het testen van hypothesen die zich richt op de frequentie of het aandeel van gegevens. Het is gebaseerd op vaste datasets en bevat geen voorkennis of waarschijnlijkheidsverdelingen.

Voorbeeld: In een frequentistische benadering van A/B-testen zou je p-waarden en betrouwbaarheidsintervallen gebruiken om de significantie van de testresultaten te bepalen, zonder voorafgaande waarschijnlijkheden op te nemen.

Praktijkvoorbeelden

Voorbeeld 1: A/B-test voor e-mailcampagne

Een bedrijf wil twee onderwerpregels voor e-mails testen om te zien welke resulteert in een hoger openpercentage.

  • Onderwerpregel A: 25% open tarief
  • Onderwerpregel B: 28% open tarief
  • P-waarde: 0.02 (wat wijst op een significant verschil)
  • Betrouwbaarheidsinterval: [2%, 5%] (95% zekerheid dat het werkelijke verschil in open rates tussen 2% en 5% ligt)
  • Z-score: 2.33 (wat een statistisch significant verschil suggereert)
  • Waargenomen vermogen: 0.85 (85% kans op het detecteren van een echt verschil)
Voorbeeld 2: A/B-test van website-bestemmingspagina

Een e-commercewebsite test twee ontwerpen van landingspagina's om te bepalen welke tot meer aankopen leidt.

  • Ontwerp A: 4% conversiepercentage
  • Ontwerp B: 5% conversiepercentage
  • P-waarde: 0.045 (wat wijst op een significant verschil)
  • Betrouwbaarheidsinterval: [0.5%, 1.5%] (95% zekerheid dat het werkelijke verschil in conversiepercentages tussen 0.5% en 1.5% ligt)
  • Z-score: 2.01 (wat een statistisch significant verschil suggereert)
  • Waargenomen vermogen: 0.78 (78% kans op het detecteren van een echt verschil)

A / B-testen is een krachtig hulpmiddel voor het optimaliseren van digitale ervaringen, en het begrijpen van de belangrijkste statistieken en terminologie ervan is cruciaal voor een nauwkeurige interpretatie. Switas weet effectief te handelen A / B-tests, waardoor bedrijven datagestuurde beslissingen kunnen nemen om hun prestaties te verbeteren en betrouwbare en bruikbare inzichten bieden die groei en succes stimuleren.