Potencia estadística para pruebas A/B
La potencia estadística es la probabilidad de que tu prueba detecte un efecto real del tamaño que te interesa. En la práctica, es una de las maneras más claras de evaluar la probabilidad de que tu experimento pase por alto algo importante.
Qué significa el poder
Si la potencia es del 80%, la prueba está diseñada para detectar el efecto objetivo aproximadamente el 80% de las veces, si dicho efecto realmente existe. Una potencia menor implica una mayor probabilidad de pasar por alto diferencias reales.
Eso convierte la energía en un elemento central de la planificación, en lugar de un detalle avanzado.
¿Por qué una mayor potencia requiere más muestras?
Mayor potencia implica mayor sensibilidad, lo que generalmente requiere más observaciones. Esta disyuntiva se hace especialmente evidente cuando el efecto esperado es pequeño.
Muchos equipos utilizan el 80% como estándar común porque equilibra el rigor y la practicidad.
Cómo utilizarlo en la planificación
La potencia solo tiene sentido si se combina con el efecto mínimo detectable. Una prueba puede tener una potencia alta para detectar un efecto grande y una potencia baja para detectar uno pequeño.
Por eso, nunca se debe hablar de potencia sin tener en cuenta la magnitud del efecto deseado.
Cómo el poder afecta las decisiones en experimentos reales
La potencia estadística es importante porque una prueba con potencia insuficiente puede no arrojar resultados significativos, incluso cuando se produce un cambio importante. Esto suele llevar a los equipos a concluir erróneamente que una idea no funcionó.
Reflexionar sobre la potencia también ayuda a establecer expectativas con las partes interesadas. Una prueba con tráfico limitado aún puede valer la pena, pero todos deben comprender qué magnitud de efecto puede y no puede detectar de manera confiable.
- Utilice el poder para evaluar el riesgo de pasar por alto un efecto real.
- Analice el tema del poder junto con MDE, nunca por separado.
- Explique la relación de compromiso entre sensibilidad y tiempo de ejecución.
- Evite tratar los resultados no significativos como prueba de que no hay diferencia.