Statistisk styrka för A/B-tester
Styrka är sannolikheten att ditt test kommer att upptäcka en verklig effekt av den storlek du är intresserad av. I praktiken är det ett av de tydligaste sätten att tänka på hur sannolikt det är att ditt experiment missar något viktigt.
Vad makt betyder
Om effekten är 80 % är ditt test utformat för att detektera måleffekten cirka 80 % av gångerna om den effekten verkligen existerar. Lägre effekt innebär en högre chans att missa verkliga skillnader.
Det gör makt till en central planeringsinställning snarare än en avancerad detalj.
Varför högre effekt kräver mer sampling
Mer effekt innebär att man vill ha större känslighet, vilket vanligtvis kräver fler observationer. Den avvägningen blir särskilt synlig när den förväntade effekten är liten.
Många team använder 80 % som en gemensam standard eftersom den balanserar noggrannhet och praktiskhet.
Hur man använder det i planering
Teststyrka är bara meningsfull tillsammans med den minsta detekterbara effekten. Ett test kan ha hög styrka för att detektera en stor effekt och låg styrka för att detektera en liten.
Därför bör makt aldrig diskuteras utan den målsatta effektstorleken.
Hur makt påverkar verkliga experimentbeslut
Makt spelar roll eftersom ett test med för lite kraft kan sluta utan något signifikant resultat, även när en meningsfull förändring verkligen föreligger. Det leder ofta till att team felaktigt drar slutsatsen att en idé inte fungerade.
Att tänka på makt hjälper också till att sätta förväntningar hos intressenterna. Ett test med begränsad trafik kan fortfarande vara värt att köra, men alla bör förstå vilken effektstorlek det kan och inte kan upptäcka på ett tillförlitligt sätt.
- Använd makt för att bedöma risken att missa en verklig effekt
- Diskutera makt tillsammans med MDE, aldrig ensam
- Förklara avvägningen mellan känslighet och körtid
- Undvik att behandla icke-signifikanta resultat som bevis på att det inte finns någon skillnad