Versuchsplanung

A/B-Test-Stichprobenrechner

Nutzen Sie diese Seite, um vor dem Start eines Experiments den benötigten Traffic oder die Nutzerzahl zu planen. Sie ist für einfache A/B-Tests mit zwei Varianten konzipiert, bei denen Sie einen signifikanten Effekt mit ausreichender statistischer Sensitivität nachweisen möchten.

Seite teilen
Helfen Sie anderen, den richtigen Rechner schneller zu finden
Zuverlassigkeit
Mehr Sicherheit
Bias
Fehler reduzieren
Effizienz
Uberstichprobe vermeiden

A/B-Test-Stichprobenrechner

Nutzen Sie den Rechner unten für eine schnelle Schätzung auf dieser Seite.

Pro Variante
3,842
Empfohlene Stichprobe pro Variante in einem Zwei-Varianten-Test.
Gesamtstichprobe
7,684
Gesamter Traffic über A und B.
Starten Sie Ihre Umfrage nach der Berechnung

Jetzt grossartige Umfragen erstellen

Wenn Sie die benoetigte Antwortzahl kennen, folgt die Datenerhebung. Mit SurveyLegend erstellen Sie ansprechende Umfragen und analysieren in Echtzeit.

Was bestimmt die Stichprobengröße bei A/B-Tests?

Die Stichprobengröße bei A/B-Tests hängt hauptsächlich von vier Faktoren ab: Ihrem Konfidenzniveau, Ihrer angestrebten Teststärke, Ihrer Basis-Konversionsrate und dem minimalen nachweisbaren Effekt, der für Sie relevant ist.

Kleinere erwartete Aufschwünge erfordern mehr Traffic, größere hingegen weniger. Niedrigere Konversionsraten im Ausgangswert führen tendenziell ebenfalls zu einer größeren benötigten Stichprobe.

Warum das wichtig ist

Die Durchführung eines Experiments mit zu wenigen Daten erhöht die Wahrscheinlichkeit, dass reale Unterschiede übersehen werden oder dass auf zufällige Schwankungen überreagiert wird. Die vorherige Planung der Stichprobengröße verringert die Versuchung, das Experiment aufgrund instabiler Ergebnisse vorzeitig abzubrechen.

Auf dieser Seite finden Sie für jede Variante ein praktisches Ziel, damit Sie vor der Markteinführung beurteilen können, ob ein Test realistisch ist.

  • Schätzen Sie den Verkehrsbedarf vor dem Start ab.
  • Realistische Testdauern festlegen
  • Vermeiden Sie Experimente mit zu geringer statistischer Aussagekraft.
  • Die Teams sollen sich darüber einig sein, was als sinnvolle Leistungssteigerung gilt.

Wie man das Ergebnis verwendet

Das Ergebnis pro Variante gibt an, wie viele Beobachtungen jede Variante ungefähr erhalten sollte. Die Gesamtstichprobengröße entspricht dem kombinierten Datenverkehr beider Varianten.

Wenn das Ergebnis für Ihren verfügbaren Datenverkehr zu groß erscheint, besteht der übliche nächste Schritt darin, den minimalen nachweisbaren Effekt neu zu bewerten, anstatt denselben Test mit weniger Daten durchzuführen.

Wie man das Ergebnis in einen Testplan umwandelt

Sobald Sie für jede Variante einen Zielwert für die Stichprobe ermittelt haben, vergleichen Sie diesen mit dem wöchentlichen Datenverkehr, um abzuschätzen, wie lange das Experiment dauern wird. Dies hilft Ihnen zu entscheiden, ob der Test realistisch ist, bevor Sie mit der Entwicklung und dem Design beginnen.

Die Stichprobengröße ist nur ein Aspekt der Versuchsqualität. Saubere Datenerfassung, eine stabile Basislinie und eine klare Abbruchregel sind weiterhin wichtig, denn eine große Stichprobe kann einen schlecht durchgeführten Versuch nicht retten.

  • Schätzen Sie die Dauer anhand des Datenverkehrs pro Variante, nicht anhand des gesamten Website-Datenverkehrs.
  • Wählen Sie vor dem Start den minimalen erkennbaren Effekt.
  • Halten Sie die Zuordnung und Nachverfolgung während des Laufs stabil.
  • Vermeiden Sie es, frühzeitig aufzuhören, wenn die Ergebnisse vorübergehend vielversprechend aussehen.

Verwandte Seiten für A/B-Test-Stichprobenrechner

Häufige Fragen

Was misst dieser A/B-Test-Rechner?
Er schätzt, wie viele Nutzer oder Sitzungen Sie pro Variante und insgesamt benötigen, basierend auf Konfidenzniveau, Power, Basis-Conversion-Rate und minimal nachweisbarem Effekt.
Was ist der minimal nachweisbare Effekt?
Der minimal nachweisbare Effekt ist die kleinste Verbesserung, die Ihr Test zuverlässig erkennen soll. Kleinere Effekte erfordern größere Stichproben.
Warum sind sowohl Power als auch Konfidenz wichtig?
Konfidenz steuert falsch positive Ergebnisse, während Power falsch negative Ergebnisse steuert. Beides beeinflusst, wie viel Traffic Sie benötigen, bevor Sie einem Experimentergebnis vertrauen können.
Wie kann ich das Ergebnis einer Stichprobe in eine Testdauer umrechnen?
Nehmen Sie die Zielvorgabe pro Variante und vergleichen Sie sie mit der Anzahl der berechtigten Nutzer oder Sitzungen, die jede Variante im Laufe der Zeit erhält. Das liefert Ihnen eine realistischere Laufzeitschätzung als die alleinige Betrachtung des gesamten Website-Traffics.
Kann ich den Test trotzdem durchführen, wenn die erforderliche Stichprobengröße zu hoch ist?
Das ist zwar möglich, aber die Wahrscheinlichkeit für unklare oder irreführende Ergebnisse ist höher. Es empfiehlt sich daher, vor dem Start die minimal nachweisbare Wirkung, die Ausgangsannahmen oder den Umfang des Experiments zu überprüfen.