A/B-test er en afgørende metode, der bruges til at optimere websteder og applikationer, som giver virksomheder mulighed for at sammenligne to versioner af en webside eller app for at afgøre, hvilken der yder bedst. Forståelse af de vigtigste målinger og terminologi involveret i A/B-test er afgørende for at fortolke resultater nøjagtigt. I denne artikel vil vi undersøge vigtige A/B-testmålinger og terminologi, herunder p-værdi, konfidensinterval, en- og tosidede test, z-score, observeret effekt, variant, kontrolgruppe, inkrementel omsætning, konverteringsrate og Bayesiansk beregning.
Nøgle A/B-testmålinger og terminologi
1. Variant
En variant refererer til en af versionerne, der testes i en A/B-test. Typisk kaldes den eksisterende version kontrol, og den nye version er varianten.
Eksempel: I en A/B-test af en landingsside er version A (den aktuelle side) kontrolelementet, og version B (det nye design) er varianten.
2. Kontrolgruppe
Kontrolgruppen er den gruppe af brugere, der udsættes for den originale version (kontrol) i en A/B-test. Det fungerer som en baseline for at sammenligne variantens ydeevne.
Eksempel: Hvis 10,000 brugere besøger et websted, ser 5,000 muligvis kontrolsiden (kontrolgruppen), og 5,000 ser muligvis variantsiden.
3. Inkrementel omsætning
Inkrementel omsætning refererer til den ekstra omsætning, der genereres som følge af ændringer foretaget under en A/B-test. Det hjælper med at vurdere den økonomiske effekt af testen.
Eksempel: Hvis variantsiden øger den gennemsnitlige ordreværdi med 5 USD, og der foretages 1,000 yderligere køb, er den trinvise omsætning 5,000 USD.
4. Omregningskurs
Konverteringsrate er procentdelen af brugere, der udfører en ønsket handling, såsom at foretage et køb eller tilmelde sig et nyhedsbrev, ud af det samlede antal besøgende.
Eksempel: Hvis 100 ud af 1,000 besøgende foretager et køb, er konverteringsraten 10 %.
5. P-værdi
P-værdien måler sandsynligheden for, at den observerede forskel mellem to variationer opstod ved en tilfældighed. En lavere p-værdi (typisk mindre end 0.05) indikerer, at den observerede forskel er statistisk signifikant.
Eksempel: Antag, at en A/B-test sammenligner to versioner af en landingsside. Version A har en konverteringsrate på 5 %, og version B har en konverteringsrate på 7 %. Hvis p-værdien er 0.03, er der en 3% chance for, at den observerede forskel opstod tilfældigt, hvilket indikerer en signifikant forskel mellem de to versioner.
6. Konfidensinterval
Konfidensintervallet giver et interval, inden for hvilket den sande effektstørrelse forventes at ligge, med et vist niveau af konfidens (normalt 95 %). Det hjælper med at vurdere pålideligheden af testresultaterne.
Eksempel: I den samme A/B-test kan 95 % konfidensintervallet for forskellen i konverteringsrater være [1 %, 3 %]. Det betyder, at vi er 95 % sikre på, at den sande forskel i konverteringsrater ligger mellem 1 % og 3 %.
7. En-sidet og To-sidet test
En ensidig test vurderer effektens retning (f.eks. om version B er bedre end version A), mens en tosidet test vurderer, om der er forskel i begge retninger.
Eksempel på ensidig test: Tester om version B's konverteringsrate er højere end version A's.
Eksempel på tosidet test: Tester, om der er nogen forskel mellem konverteringsraterne for version A og version B, uanset retning.
8. Z-Score
Z-score måler, hvor mange standardafvigelser et element er fra middelværdien. I A/B-test bruges det til at bestemme betydningen af den observerede forskel mellem to variationer. Almindelige konfidensniveauer og deres z-score-ækvivalenter:
- Konfidensinterval 95 %
- To-sidet Z-score: 1.96
- Ensidet Z-score: 1.65
- Konfidensinterval 99 %
- To-sidet Z-score: 2.58
- Ensidet Z-score: 2.33
- Konfidensinterval 90 %
- To-sidet Z-score: 1.64
- Ensidet Z-score: 1.28
Eksempel: Hvis z-score for forskellen i konverteringsrater mellem version A og version B er 2.5, indikerer det, at forskellen er 2.5 standardafvigelser fra gennemsnittet, hvilket tyder på en statistisk signifikant forskel.
9. Observeret kraft
Observeret magt refererer til sandsynligheden for, at testen korrekt forkaster nulhypotesen, når der er en sand effekt. Højere observeret effekt indikerer en højere sandsynlighed for at opdage en sand forskel.
Eksempel: I en A/B-test med en observeret styrke på 0.8 (80 %) er der 80 % chance for at detektere en sand forskel mellem variationerne, hvis en sådan findes.
10. Bayesiansk beregning
Bayesiansk beregning involverer at bruge Bayes' sætning til at opdatere sandsynlighedsestimatet for en hypotese, efterhånden som yderligere beviser erhverves. I A/B-test giver det en sandsynlighedsramme til at træffe beslutninger baseret på dataene.
Eksempel: Ved hjælp af Bayesianske metoder kan du bestemme sandsynligheden for, at en variant er bedre end kontrollen givet de observerede data, i stedet for udelukkende at stole på traditionelle p-værdier.
11. Frekvensstatistik
Frekventistisk statistik er en traditionel tilgang til hypotesetestning, der fokuserer på frekvensen eller andelen af data. Den er afhængig af faste datasæt og inkorporerer ikke forudgående viden eller sandsynlighedsfordelinger.
Eksempel: I en frekventistisk tilgang til A/B-test vil du bruge p-værdier og konfidensintervaller til at bestemme betydningen af testresultaterne uden at inkorporere forudgående sandsynligheder.
Praktiske eksempler
Eksempel 1: E-mailkampagne A/B-test
En virksomhed ønsker at teste to e-mail-emnelinjer for at se, hvilken der resulterer i højere åbningsrater.
- Emnelinje A: 25 % åben rente
- Emnelinje B: 28 % åben rente
- P-værdi: 0.02 (indikerer en signifikant forskel)
- Konfidensinterval: [2 %, 5 %] (95 % sikkerhed for, at den sande forskel i åbne rater er mellem 2 % og 5 %)
- Z-score: 2.33 (hvilket tyder på en statistisk signifikant forskel)
- Observeret effekt: 0.85 (85 % chance for at opdage en sand forskel)
Eksempel 2: Website Landing Page A/B Test
Et e-handelswebsted tester to landingssidedesigns for at afgøre, hvilke der fører til flere køb.
- Design A: 4 % konverteringsrate
- Design B: 5 % konverteringsrate
- P-værdi: 0.045 (indikerer en signifikant forskel)
- Konfidensinterval: [0.5 %, 1.5 %] (95 % sikkerhed for, at den sande forskel i konverteringsrater er mellem 0.5 % og 1.5 %)
- Z-score: 2.01 (hvilket tyder på en statistisk signifikant forskel)
- Observeret effekt: 0.78 (78 % chance for at opdage en sand forskel)
A / B-test er et kraftfuldt værktøj til at optimere digitale oplevelser, og forståelsen af dets nøglemålinger og terminologi er afgørende for nøjagtig fortolkning. Switas ved, hvordan man opfører sig effektivt A / B test, der sikrer, at virksomheder kan træffe datadrevne beslutninger for at forbedre deres ydeevne og giver pålidelige og handlingsrettede indsigter, der driver vækst og succes.