Statistische Aussagekraft für A/B-Tests
Die Teststärke gibt die Wahrscheinlichkeit an, mit der Ihr Test einen tatsächlichen Effekt der gewünschten Größenordnung nachweist. In der Praxis ist sie eine der anschaulichsten Möglichkeiten, die Wahrscheinlichkeit abzuschätzen, dass Ihr Experiment etwas Wichtiges übersieht.
Was Macht bedeutet
Bei einer Teststärke von 80 % ist Ihr Test darauf ausgelegt, den Zieleffekt in etwa 80 % der Fälle nachzuweisen, sofern dieser Effekt tatsächlich existiert. Eine geringere Teststärke bedeutet eine höhere Wahrscheinlichkeit, reale Unterschiede zu übersehen.
Das macht die Energieversorgung zu einem zentralen Planungsaspekt und nicht zu einem komplexen Detail.
Warum höhere Leistung mehr Proben erfordert
Mehr Leistung bedeutet den Wunsch nach höherer Empfindlichkeit, was in der Regel mehr Messungen erfordert. Dieser Zielkonflikt wird besonders deutlich, wenn der erwartete Effekt gering ist.
Viele Teams verwenden 80 % als gängigen Standard, weil er ein Gleichgewicht zwischen Strenge und Praktikabilität bietet.
Wie man es in der Planung einsetzt
Die Aussagekraft eines Tests ist nur im Zusammenhang mit dem minimalen nachweisbaren Effekt sinnvoll. Ein Test kann eine hohe Aussagekraft haben, um einen großen Effekt nachzuweisen, und eine zu geringe Aussagekraft, um einen kleinen Effekt nachzuweisen.
Deshalb sollte über Macht niemals ohne die angestrebte Effektstärke diskutiert werden.
Wie sich Macht auf Entscheidungen in realen Experimenten auswirkt
Die Aussagekraft eines Tests ist entscheidend, da ein unzureichend aussagekräftiger Test selbst dann zu keinem signifikanten Ergebnis führen kann, wenn tatsächlich eine bedeutsame Veränderung vorliegt. Dies verleitet Teams häufig fälschlicherweise zu dem Schluss, dass eine Idee nicht funktioniert hat.
Die Berücksichtigung der Aussagekraft hilft auch dabei, Erwartungen bei den Beteiligten zu klären. Ein Test mit geringem Datenverkehr kann sich dennoch lohnen, aber alle Beteiligten sollten verstehen, welche Auswirkungen er zuverlässig erfassen kann und welche nicht.
- Nutzen Sie die Macht, um das Risiko einzuschätzen, einen realen Effekt zu übersehen.
- Besprechen Sie Macht gemeinsam mit MDE, niemals allein.
- Erläutern Sie den Zielkonflikt zwischen Empfindlichkeit und Laufzeit.
- Vermeiden Sie es, nicht signifikante Ergebnisse als Beweis für das Fehlen eines Unterschieds zu interpretieren.