Poder estatístico para testes A/B
O poder estatístico é a probabilidade de seu teste detectar um efeito real da magnitude que você considera importante. Na prática, é uma das maneiras mais claras de pensar sobre a probabilidade de seu experimento deixar passar algo importante.
O que significa poder
Se a potência for de 80%, seu teste foi projetado para detectar o efeito alvo em cerca de 80% das vezes, caso esse efeito realmente exista. Uma potência menor significa uma maior probabilidade de não detectar diferenças reais.
Isso faz da energia um elemento central do planejamento, em vez de um detalhe avançado.
Por que uma maior potência estatística requer mais amostras?
Mais potência significa que você precisa de maior sensibilidade, o que geralmente requer mais observações. Essa compensação se torna especialmente visível quando o efeito esperado é pequeno.
Muitas equipes usam 80% como padrão comum porque equilibra rigor e praticidade.
Como utilizá-lo no planejamento
A potência só faz sentido em conjunto com o efeito mínimo detectável. Um teste pode ter alta potência para detectar um efeito grande e potência insuficiente para detectar um efeito pequeno.
Por isso, nunca se deve discutir o poder estatístico sem considerar a magnitude do efeito desejado.
Como o poder estatístico afeta as decisões em experimentos reais
O poder estatístico é importante porque um teste com poder insuficiente pode terminar sem resultados significativos, mesmo quando uma mudança relevante está de fato presente. Isso frequentemente leva as equipes a concluir erroneamente que uma ideia não funcionou.
Pensar na potência também ajuda a alinhar as expectativas com as partes interessadas. Um teste com tráfego limitado ainda pode valer a pena, mas todos devem entender qual a magnitude do efeito que ele pode e não pode detectar de forma confiável.
- Use o poder estatístico para avaliar o risco de não perceber um efeito real.
- Discuta o poder em conjunto com o MDE, nunca isoladamente.
- Explique a relação de compromisso entre sensibilidade e tempo de execução.
- Evite interpretar resultados não significativos como prova de ausência de diferença.