Statistische power voor A/B-testen
De power is de waarschijnlijkheid dat je test een reëel effect van de gewenste omvang detecteert. In de praktijk is het een van de duidelijkste manieren om na te denken over hoe groot de kans is dat je experiment iets belangrijks over het hoofd ziet.
Wat macht betekent
Als de power 80% is, is uw test ontworpen om het beoogde effect in ongeveer 80% van de gevallen te detecteren, mits dat effect daadwerkelijk bestaat. Een lagere power betekent een grotere kans om echte verschillen te missen.
Daardoor wordt stroomvoorziening een kernaspect van de planning, in plaats van een detail dat alleen aan de voorhoede wordt toegevoegd.
Waarom een hoger vermogen meer monsters vereist
Meer vermogen betekent dat je een grotere gevoeligheid wilt, wat meestal meer waarnemingen vereist. Die afweging wordt vooral duidelijk wanneer het verwachte effect klein is.
Veel teams hanteren 80% als gangbare norm omdat dit een goede balans biedt tussen nauwkeurigheid en praktische uitvoerbaarheid.
Hoe gebruik je het bij het plannen?
Vermogen is alleen zinvol in combinatie met een minimaal detecteerbaar effect. Een test kan een hoog vermogen hebben om een groot effect te detecteren en een laag vermogen om een klein effect te detecteren.
Daarom mag er nooit over vermogen worden gesproken zonder de beoogde effectgrootte.
Hoe macht de beslissingen bij daadwerkelijke experimenten beïnvloedt
Kracht is belangrijk, want een test met onvoldoende statistische power kan geen significant resultaat opleveren, zelfs als er wel degelijk een betekenisvolle verandering plaatsvindt. Dit leidt er vaak toe dat teams ten onrechte concluderen dat een idee niet werkte.
Nadenken over het vermogen helpt ook om de verwachtingen van belanghebbenden te managen. Een test met beperkt verkeer kan nog steeds de moeite waard zijn, maar iedereen moet begrijpen welke effectgrootte betrouwbaar kan worden gedetecteerd en welke niet.
- Gebruik macht om het risico in te schatten dat een reëel effect over het hoofd wordt gezien.
- Bespreek vermogen samen met MDE, nooit afzonderlijk.
- Leg de afweging tussen gevoeligheid en rekentijd uit.
- Vermijd het interpreteren van niet-significante resultaten als bewijs dat er geen verschil is.