Las pruebas A/B son un método crucial que se utiliza para optimizar sitios web y aplicaciones, lo que permite a las empresas comparar dos versiones de una página web o aplicación para determinar cuál funciona mejor. Comprender las métricas clave y la terminología involucradas en las pruebas A/B es esencial para interpretar los resultados con precisión. En este artículo, examinaremos importantes métricas y terminología de las pruebas A/B, incluidas Valor p, intervalo de confianza, pruebas unilaterales y bilaterales, puntuación z, potencia observada, variante, grupo de control, ingresos incrementales, tasa de conversión y cálculo bayesiano.
Terminología y métricas clave de las pruebas A/B
1. Variante
Una variante se refiere a una de las versiones que se prueba en una prueba A/B. Normalmente, la versión existente se denomina control y la nueva versión es la variante.
Ejemplo: En una prueba A/B de una página de destino, la versión A (la página actual) es el control y la versión B (el nuevo diseño) es la variante.
2. Grupo de control
El grupo de control es el grupo de usuarios expuestos a la versión original (control) en una prueba A/B. Sirve como punto de referencia para comparar el desempeño de la variante.
Ejemplo: Si 10,000 usuarios visitan un sitio web, 5,000 podrían ver la página de control (grupo de control) y 5,000 podrían ver la página variante.

3. Ingresos incrementales
Los ingresos incrementales se refieren a los ingresos adicionales generados como resultado de los cambios realizados durante una prueba A/B. Ayuda a evaluar el impacto financiero de la prueba.
Ejemplo: Si la página de variantes aumenta el valor promedio del pedido en $5 y se realizan 1,000 compras adicionales, los ingresos incrementales son $5,000.

4. Tasa de conversión
La tasa de conversión es el porcentaje de usuarios que completan una acción deseada, como realizar una compra o suscribirse a un boletín informativo, sobre el número total de visitantes.
Ejemplo: Si 100 de cada 1,000 visitantes realizan una compra, la tasa de conversión es del 10%.
5. Valor p
El valor p mide la probabilidad de que la diferencia observada entre dos variaciones haya ocurrido por casualidad. Un valor p más bajo (normalmente inferior a 0.05) indica que la diferencia observada es estadísticamente significativa.
Ejemplo: Supongamos que una prueba A/B compara dos versiones de una página de destino. La versión A tiene una tasa de conversión del 5% y la versión B tiene una tasa de conversión del 7%. Si el valor p es 0.03, existe un 3 % de probabilidad de que la diferencia observada se haya producido por casualidad, lo que indica una diferencia significativa entre las dos versiones.

6. Intervalo de confianza
El intervalo de confianza proporciona un rango dentro del cual se espera que se encuentre el verdadero tamaño del efecto, con un cierto nivel de confianza (generalmente 95%). Ayuda a evaluar la confiabilidad de los resultados de la prueba.
Ejemplo: en la misma prueba A/B, el intervalo de confianza del 95% para la diferencia en las tasas de conversión podría ser [1%, 3%]. Esto significa que tenemos un 95% de confianza en que la verdadera diferencia en las tasas de conversión se encuentra entre el 1% y el 3%.
7. Pruebas unilaterales y bilaterales
Una prueba unilateral evalúa la dirección del efecto (por ejemplo, si la versión B es mejor que la versión A), mientras que una prueba bilateral evalúa si hay alguna diferencia en cualquier dirección.
Ejemplo de prueba unilateral: Prueba si la tasa de conversión de la Versión B es mayor que la de la Versión A.
Ejemplo de prueba de dos caras: Prueba si hay alguna diferencia entre las tasas de conversión de la Versión A y la Versión B, independientemente de la dirección.

8. Puntuación Z
El puntaje z mide cuántas desviaciones estándar está un elemento con respecto a la media. En las pruebas A/B, se utiliza para determinar la importancia de la diferencia observada entre dos variaciones. Niveles de confianza comunes y sus equivalentes de puntuación z:
- Intervalo de confianza 95%
- Puntuación Z de dos caras: 1.96
- Puntuación Z unilateral: 1.65
- Intervalo de confianza 99%
- Puntuación Z de dos caras: 2.58
- Puntuación Z unilateral: 2.33
- Intervalo de confianza 90%
- Puntuación Z de dos caras: 1.64
- Puntuación Z unilateral: 1.28
Ejemplo: Si la puntuación z para la diferencia en las tasas de conversión entre la versión A y la versión B es 2.5, indica que la diferencia está a 2.5 desviaciones estándar de la media, lo que sugiere una diferencia estadísticamente significativa.
9. Potencia observada
El poder observado se refiere a la probabilidad de que la prueba rechace correctamente la hipótesis nula cuando existe un efecto verdadero. Una mayor potencia observada indica una mayor probabilidad de detectar una diferencia real.
Ejemplo: En una prueba A/B con una potencia observada de 0.8 (80%), hay un 80% de posibilidades de detectar una diferencia real entre las variaciones, si existe.

10. Cálculo bayesiano
El cálculo bayesiano implica el uso del teorema de Bayes para actualizar la estimación de probabilidad de una hipótesis a medida que se adquiere evidencia adicional. En las pruebas A/B, proporciona un marco probabilístico para tomar decisiones basadas en los datos.
Ejemplo: Utilizando métodos bayesianos, se puede determinar la probabilidad de que una variante sea mejor que el control dados los datos observados, en lugar de depender únicamente de los valores p tradicionales.

11. Estadísticas frecuentistas
La estadística frecuentista es un enfoque tradicional en la prueba de hipótesis que se centra en la frecuencia o proporción de los datos. Se basa en conjuntos de datos fijos y no incorpora conocimientos previos ni distribuciones de probabilidad.
Ejemplo: En un enfoque frecuentista para las pruebas A/B, se utilizarían valores p e intervalos de confianza para determinar la importancia de los resultados de la prueba, sin incorporar probabilidades previas.
Ejemplos prácticos
Ejemplo 1: prueba A/B de campaña de correo electrónico
Una empresa quiere probar dos líneas de asunto de correo electrónico para ver cuál genera tasas de apertura más altas.
- Línea de asunto A: 25% tasa de apertura
- Línea de asunto B: 28% tasa de apertura
- Valor P: 0.02 (lo que indica una diferencia significativa)
- Intervalo de confianza: [2%, 5%] (95% de confianza en que la verdadera diferencia en las tasas de apertura está entre el 2% y el 5%)
- Puntuación Z: 2.33 (lo que sugiere una diferencia estadísticamente significativa)
- Potencia observada: 0.85 (85 % de probabilidad de detectar una diferencia real)
Ejemplo 2: Prueba A/B de la página de destino del sitio web
Un sitio web de comercio electrónico prueba dos diseños de página de destino para determinar cuál genera más compras.
- Diseño A: Porcentaje de conversiones 4%
- Diseño B: Porcentaje de conversiones 5%
- Valor P: 0.045 (lo que indica una diferencia significativa)
- Intervalo de confianza: [0.5%, 1.5%] (95% de confianza en que la verdadera diferencia en las tasas de conversión está entre 0.5% y 1.5%)
- Puntuación Z: 2.01 (lo que sugiere una diferencia estadísticamente significativa)
- Potencia observada: 0.78 (78 % de probabilidad de detectar una diferencia real)
A/B testing es una herramienta poderosa para optimizar las experiencias digitales, y comprender sus métricas y terminología clave es crucial para una interpretación precisa. Switas sabe cómo conducir eficazmente A / B tests, garantiza que las empresas puedan tomar decisiones basadas en datos para mejorar su desempeño y proporciona información confiable y procesable que impulsa el crecimiento y el éxito.