Was bestimmt die Stichprobengröße bei A/B-Tests?
Die Stichprobengröße bei A/B-Tests hängt hauptsächlich von vier Faktoren ab: Ihrem Konfidenzniveau, Ihrer angestrebten Teststärke, Ihrer Basis-Konversionsrate und dem minimalen nachweisbaren Effekt, der für Sie relevant ist.
Kleinere erwartete Aufschwünge erfordern mehr Traffic, größere hingegen weniger. Niedrigere Konversionsraten im Ausgangswert führen tendenziell ebenfalls zu einer größeren benötigten Stichprobe.
Warum das wichtig ist
Die Durchführung eines Experiments mit zu wenigen Daten erhöht die Wahrscheinlichkeit, dass reale Unterschiede übersehen werden oder dass auf zufällige Schwankungen überreagiert wird. Die vorherige Planung der Stichprobengröße verringert die Versuchung, das Experiment aufgrund instabiler Ergebnisse vorzeitig abzubrechen.
Auf dieser Seite finden Sie für jede Variante ein praktisches Ziel, damit Sie vor der Markteinführung beurteilen können, ob ein Test realistisch ist.
- Schätzen Sie den Verkehrsbedarf vor dem Start ab.
- Realistische Testdauern festlegen
- Vermeiden Sie Experimente mit zu geringer statistischer Aussagekraft.
- Die Teams sollen sich darüber einig sein, was als sinnvolle Leistungssteigerung gilt.
Wie man das Ergebnis verwendet
Das Ergebnis pro Variante gibt an, wie viele Beobachtungen jede Variante ungefähr erhalten sollte. Die Gesamtstichprobengröße entspricht dem kombinierten Datenverkehr beider Varianten.
Wenn das Ergebnis für Ihren verfügbaren Datenverkehr zu groß erscheint, besteht der übliche nächste Schritt darin, den minimalen nachweisbaren Effekt neu zu bewerten, anstatt denselben Test mit weniger Daten durchzuführen.
Wie man das Ergebnis in einen Testplan umwandelt
Sobald Sie für jede Variante einen Zielwert für die Stichprobe ermittelt haben, vergleichen Sie diesen mit dem wöchentlichen Datenverkehr, um abzuschätzen, wie lange das Experiment dauern wird. Dies hilft Ihnen zu entscheiden, ob der Test realistisch ist, bevor Sie mit der Entwicklung und dem Design beginnen.
Die Stichprobengröße ist nur ein Aspekt der Versuchsqualität. Saubere Datenerfassung, eine stabile Basislinie und eine klare Abbruchregel sind weiterhin wichtig, denn eine große Stichprobe kann einen schlecht durchgeführten Versuch nicht retten.
- Schätzen Sie die Dauer anhand des Datenverkehrs pro Variante, nicht anhand des gesamten Website-Datenverkehrs.
- Wählen Sie vor dem Start den minimalen erkennbaren Effekt.
- Halten Sie die Zuordnung und Nachverfolgung während des Laufs stabil.
- Vermeiden Sie es, frühzeitig aufzuhören, wenn die Ergebnisse vorübergehend vielversprechend aussehen.