A/B概念
A/B 测试的统计功效
功效是指你的实验能够检测到你所关注的真实效应的概率。实际上,它是衡量你的实验遗漏重要结果可能性的最清晰方法之一。
权力意味着什么
如果统计功效为 80%,则您的测试旨在检测出目标效应(如果该效应确实存在)的概率约为 80%。统计功效越低,错过真实差异的概率就越高。
这使得权力成为核心规划设置,而不是高级细节。
为什么更高功率需要更多样本
更高的功率意味着更高的灵敏度,这通常需要更多的观测数据。当预期效应较小时,这种权衡就显得尤为明显。
许多团队都以 80% 作为通用标准,因为它兼顾了严谨性和实用性。
如何在规划中使用它
只有当检测效应的最小值也满足检测功效时,检测效能才有意义。一项检测可以具有很高的检测效能以检测到较大的效应,也可以具有较低的检测效能以检测到较小的效应。
因此,在讨论功效时,绝不能脱离目标效应量。
权力如何影响真实实验决策
测试效力至关重要,因为即使确实存在意义重大的变化,效力不足的测试也可能无法得出显著结果。这往往会导致团队错误地得出结论:某个想法行不通。
思考影响因素也有助于与利益相关者设定预期。即使流量有限,测试仍然值得进行,但每个人都应该了解它能够可靠检测出的影响范围。
- 运用统计功效来判断错过真实效应的风险。
- 讨论权力问题时,要与MDE(多学科专家)共同探讨,切勿单独讨论。
- 解释灵敏度和运行时间之间的权衡。
- 避免将不显著的结果视为没有差异的证据。