Hoe bereken je de steekproefomvang voor een A/B-test?
Bij het plannen van de steekproefomvang voor een A/B-test draait het vooral om de vraag welke verandering de moeite waard is om te detecteren en hoeveel zekerheid je rond de test wilt hebben. Deze pagina legt de praktische logica achter die berekening uit.
Begin met het effect dat er echt toe doet.
De planning van een A/B-test begint met het minimaal detecteerbare effect, niet met de steekproefomvang zelf. Je bepaalt eerst welke verandering daadwerkelijk significant genoeg zou zijn om een product-, groei- of ontwerpbeslissing te beïnvloeden.
Kleine effecten vereisen veel grotere steekproeven om te detecteren.
Vergroot je zelfvertrouwen en kracht.
Het betrouwbaarheidsniveau bepaalt hoe strikt je wilt zijn met betrekking tot willekeurige variatie. De power bepaalt hoe waarschijnlijk het is dat je een reëel effect detecteert, indien dit bestaat. Samen bepalen ze de gevoeligheid van de test.
Hogere eisen op beide vlakken leiden doorgaans tot een grotere benodigde verkeersdoorstroming.
Gebruik een realistische basislijn.
Het basisconversiepercentage vormt de basis voor de berekening. Een pagina die al een conversiepercentage van 2% heeft, gedraagt zich anders dan een pagina met een conversiepercentage van 20%, zelfs als de beoogde stijging in absolute punten vergelijkbaar lijkt.
Daarom werkt het plannen van de steekproefomvang voor A/B-tests het beste wanneer er gebruik wordt gemaakt van recente basisgegevens in plaats van ruwe schattingen.
Een praktische planningsvolgorde
Een nuttige volgorde is om eerst de beslissingsdrempel te bepalen, een realistische basislijn te schatten, het minimaal detecteerbare effect te kiezen en pas daarna naar de steekproefomvang te kijken. Zo blijft het experiment relevant voor het bedrijfsleven in plaats van alleen met verkeersgegevens te beginnen.
Het helpt teams ook voorkomen dat ze tests ontwerpen die technisch gezien wel kloppen, maar in de praktijk onrealistisch zijn. Als de uitvoeringsduur te lang is, moeten de eerdere aannames meestal worden herzien voordat de applicatie wordt gelanceerd.
- Kies een effectgrootte die daadwerkelijk een beslissing zou veranderen.
- Gebruik recente basisgegevens uit dezelfde trechterstap.
- Controleer de runtime voordat u het experiment start.
- Herzie het plan in plaats van een test uit te voeren die overduidelijk onvoldoende capaciteit heeft.