A/B-Tests sind eine wichtige Methode zur Optimierung von Websites und Anwendungen. Sie ermöglichen es Unternehmen, zwei Versionen einer Webseite oder App zu vergleichen, um festzustellen, welche besser abschneidet. Um die Ergebnisse richtig interpretieren zu können, ist es wichtig, die wichtigsten Kennzahlen und Begriffe zu verstehen, die bei A/B-Tests eine Rolle spielen. In diesem Artikel untersuchen wir wichtige Kennzahlen und Begriffe für A/B-Tests, darunter p-Wert, Konfidenzintervall, einseitige und zweiseitige Tests, z-Score, beobachtete Power, Variante, Kontrollgruppe, inkrementeller Umsatz, Konversionsrate und Bayesianische Berechnung.

Wichtige A/B-Testmetriken und Terminologie

1. Variante

Eine Variante ist eine der Versionen, die in einem A/B-Test getestet werden. Normalerweise wird die vorhandene Version als Kontrollversion und die neue Version als Variante bezeichnet.

Beispiel: Bei einem A/B-Test einer Zielseite dient Version A (die aktuelle Seite) als Kontrollseite und Version B (das neue Design) als Variante.

2. Kontrollgruppe

Die Kontrollgruppe ist die Gruppe von Benutzern, die in einem A/B-Test der Originalversion (Kontrolle) ausgesetzt sind. Sie dient als Basislinie zum Vergleich der Leistung der Variante.

Beispiel: Wenn 10,000 Benutzer eine Website besuchen, sehen 5,000 möglicherweise die Kontrollseite (Kontrollgruppe) und 5,000 die Variantenseite.

 

Inkrementeller Umsatz.png
Quelle: https://getrecast.com/incrementality/

 

3. Inkrementelle Einnahmen

Inkrementelle Einnahmen beziehen sich auf zusätzliche Einnahmen, die durch während eines A/B-Tests vorgenommene Änderungen generiert werden. Sie helfen bei der Beurteilung der finanziellen Auswirkungen des Tests.

Beispiel: Wenn die Variantenseite den durchschnittlichen Bestellwert um 5 $ erhöht und 1,000 zusätzliche Käufe getätigt werden, beträgt der zusätzliche Umsatz 5,000 $.

 

65a7d2b7e323ce3c628e0eeb_conversion-rate-formula.png

 

4. Wechselkurs

Unter Conversion-Rate versteht man den Prozentsatz der Benutzer, die eine gewünschte Aktion ausführen, beispielsweise einen Einkauf tätigen oder sich für einen Newsletter anmelden, im Verhältnis zur Gesamtzahl der Besucher.

Beispiel: Wenn 100 von 1,000 Besuchern einen Kauf tätigen, beträgt die Conversion-Rate 10 %.

5. P-Wert

Der p-Wert gibt die Wahrscheinlichkeit an, dass der beobachtete Unterschied zwischen zwei Variationen zufällig aufgetreten ist. Ein niedrigerer p-Wert (normalerweise weniger als 0.05) zeigt an, dass der beobachtete Unterschied statistisch signifikant ist.

Beispiel: Angenommen, ein A/B-Test vergleicht zwei Versionen einer Zielseite. Version A hat eine Konvertierungsrate von 5 % und Version B eine von 7 %. Wenn der p-Wert 0.03 beträgt, besteht eine Wahrscheinlichkeit von 3 %, dass der beobachtete Unterschied zufällig aufgetreten ist, was auf einen signifikanten Unterschied zwischen den beiden Versionen hinweist.

 

Konfidenzintervall-Formel.jpg

 

6. Konfidenzintervall

Das Konfidenzintervall gibt einen Bereich an, in dem die wahre Effektstärke mit einem bestimmten Vertrauensniveau liegen dürfte (normalerweise 95%). Es hilft, die Zuverlässigkeit der Testergebnisse zu beurteilen.

Beispiel: Im selben A/B-Test könnte das 95%-Konfidenzintervall für den Unterschied in den Conversion-Raten [1 %, 3 %] betragen. Das bedeutet, dass wir zu 95 % sicher sind, dass der wahre Unterschied in den Conversion-Raten zwischen 1 % und 3 % liegt.

7. Einseitige und zweiseitige Tests

Bei einem einseitigen Test wird die Richtung des Effekts beurteilt (z. B. ob Version B besser ist als Version A), während bei einem zweiseitigen Test beurteilt wird, ob in die eine oder andere Richtung ein Unterschied besteht.

Beispiel für einen einseitigen Test: Testet, ob die Konvertierungsrate von Version B höher ist als die von Version A.
Beispiel für einen zweiseitigen Test: Testet, ob es einen Unterschied zwischen den Konvertierungsraten von Version A und Version B gibt, unabhängig von der Richtung.

 

1_FCAkTCjZtmuADgbSNwYudA.jpg

 

8. Z-Score

Der Z-Score misst, wie viele Standardabweichungen ein Element vom Mittelwert hat. Beim A/B-Test wird er verwendet, um die Signifikanz des beobachteten Unterschieds zwischen zwei Variationen zu bestimmen. Gängige Konfidenzniveaus und ihre Z-Score-Äquivalente:

  • Konfidenzintervall 95%
    • Zweiseitiger Z-Score: 1.96
    • Einseitiger Z-Score: 1.65
  • Konfidenzintervall 99%
    • Zweiseitiger Z-Score: 2.58
    • Einseitiger Z-Score: 2.33
  • Konfidenzintervall 90%
    • Zweiseitiger Z-Score: 1.64
    • Einseitiger Z-Score: 1.28

Beispiel: Wenn der Z-Score für den Unterschied der Konvertierungsraten zwischen Version A und Version B 2.5 beträgt, bedeutet dies, dass der Unterschied 2.5 Standardabweichungen vom Mittelwert entfernt ist, was auf einen statistisch signifikanten Unterschied hindeutet.

9. Beobachtete Leistung

Die beobachtete Trennschärfe bezieht sich auf die Wahrscheinlichkeit, dass der Test die Nullhypothese bei einem echten Effekt richtig ablehnt. Eine höhere beobachtete Trennschärfe bedeutet eine höhere Wahrscheinlichkeit, einen echten Unterschied zu erkennen.

Beispiel: Bei einem A/B-Test mit einer beobachteten Trennschärfe von 0.8 (80 %) liegt die Wahrscheinlichkeit bei 80 %, einen echten Unterschied zwischen den Variationen zu erkennen, falls es einen solchen gibt.

 

bayesianische-formel.png
Quelle: https://www.freecodecamp.org/news/bayes-rule-explained/

 

10. Bayesianische Berechnung

Bei der Bayes-Berechnung wird der Bayes-Satz verwendet, um die Wahrscheinlichkeitsschätzung für eine Hypothese zu aktualisieren, wenn zusätzliche Beweise vorliegen. Beim A/B-Testen bietet er einen Wahrscheinlichkeitsrahmen, um Entscheidungen auf der Grundlage der Daten zu treffen.

Beispiel: Mithilfe Bayesscher Methoden können Sie die Wahrscheinlichkeit ermitteln, mit der eine Variante auf Grundlage der beobachteten Daten besser als die Kontrollvariante ist, statt sich ausschließlich auf herkömmliche p-Werte zu verlassen.

 

ba93f062-2975-4281-8923-4374ed171a9a_1920x1080.png
Quelle: https://thepalindrome.org/p/is-probability-frequentist-or-bayesian

 

11. Frequentistische Statistik

Frequentistische Statistik ist ein traditioneller Ansatz zur Hypothesenprüfung, der sich auf die Häufigkeit oder den Anteil von Daten konzentriert. Er basiert auf festen Datensätzen und berücksichtigt weder Vorwissen noch Wahrscheinlichkeitsverteilungen.

Beispiel: Bei einem frequentistischen Ansatz für A/B-Tests würden Sie p-Werte und Konfidenzintervalle verwenden, um die Signifikanz der Testergebnisse zu bestimmen, ohne vorherige Wahrscheinlichkeiten einzubeziehen.

Praktische Beispiele

Beispiel 1: A/B-Test einer E-Mail-Kampagne

Ein Unternehmen möchte zwei Betreffzeilen für E-Mails testen, um herauszufinden, welche zu höheren Öffnungsraten führt.

  • Betreffzeile A: 25% offene Rate
  • Betreffzeile B: 28% offene Rate
  • P-Wert: 0.02 (was auf einen signifikanten Unterschied hinweist)
  • Konfidenzintervall: [2 %, 5 %] (95 % Konfidenz, dass der wahre Unterschied bei den Öffnungsraten zwischen 2 % und 5 % liegt)
  • Z-Wert: 2.33 (was auf einen statistisch signifikanten Unterschied hindeutet)
  • Beobachtete Leistung: 0.85 (85 % Chance, einen echten Unterschied zu erkennen)
Beispiel 2: A/B-Test der Zielseite einer Website

Eine E-Commerce-Website testet zwei Landingpage-Designs, um festzustellen, welches zu mehr Käufen führt.

  • Design A: 4% Conversion-Rate
  • Ausführung B: 5% Conversion-Rate
  • P-Wert: 0.045 (was auf einen signifikanten Unterschied hinweist)
  • Konfidenzintervall: [0.5 %, 1.5 %] (95 % Konfidenz, dass der wahre Unterschied in den Konversionsraten zwischen 0.5 % und 1.5 % liegt)
  • Z-Wert: 2.01 (was auf einen statistisch signifikanten Unterschied hindeutet)
  • Beobachtete Leistung: 0.78 (78 % Chance, einen echten Unterschied zu erkennen)

A / B-Tests ist ein leistungsstarkes Tool zur Optimierung digitaler Erlebnisse, und das Verständnis seiner wichtigsten Kennzahlen und Terminologie ist für eine genaue Interpretation von entscheidender Bedeutung. Switas weiß, wie man effektive A / B-Tests, wodurch sichergestellt wird, dass Unternehmen datengesteuerte Entscheidungen zur Verbesserung ihrer Leistung treffen können, und es werden zuverlässige und umsetzbare Erkenntnisse bereitgestellt, die Wachstum und Erfolg fördern.