A/B概念

A/B 测试的统计功效

功效是指你的实验能够检测到你所关注的真实效应的概率。实际上,它是衡量你的实验遗漏重要结果可能性的最清晰方法之一。

权力意味着什么

如果统计功效为 80%,则您的测试旨在检测出目标效应(如果该效应确实存在)的概率约为 80%。统计功效越低,错过真实差异的概率就越高。

这使得权力成为核心规划设置,而不是高级细节。

为什么更高功率需要更多样本

更高的功率意味着更高的灵敏度,这通常需要更多的观测数据。当预期效应较小时,这种权衡就显得尤为明显。

许多团队都以 80% 作为通用标准,因为它兼顾了严谨性和实用性。

如何在规划中使用它

只有当检测效应的最小值也满足检测功效时,检测效能才有意义。一项检测可以具有很高的检测效能以检测到较大的效应,也可以具有较低的检测效能以检测到较小的效应。

因此,在讨论功效时,绝不能脱离目标效应量。

权力如何影响真实实验决策

测试效力至关重要,因为即使确实存在意义重大的变化,效力不足的测试也可能无法得出显著结果。这往往会导致团队错误地得出结论:某个想法行不通。

思考影响因素也有助于与利益相关者设定预期。即使流量有限,测试仍然值得进行,但每个人都应该了解它能够可靠检测出的影响范围。

  • 运用统计功效来判断错过真实效应的风险。
  • 讨论权力问题时,要与MDE(多学科专家)共同探讨,切勿单独讨论。
  • 解释灵敏度和运行时间之间的权衡。
  • 避免将不显著的结果视为没有差异的证据。

相关页面 A/B 测试的统计功效

常见问题

我能在这个页面上学到什么?
功效是指你的实验能够检测到你所关注的真实效应的概率。实际上,它是衡量你的实验遗漏重要结果可能性的最清晰方法之一。
这篇 A/B 测试指南适合谁?
这份指南适合产品团队、增长营销人员、分析师以及任何正在规划实验、并希望在效果大小、流量和测试设计方面做出更好决策的人。
读完这个页面后我该做什么?
先用这里的解释选择更现实的假设,然后再前往计算器或相关页面,估算你的实验所需流量。
为什么很多球队只使用 80% 的功率?
因为这是灵敏度和运行时间之间的一种实际平衡。更高的功率可以降低错过真实效应的概率,但也会增加正确运行测试所需的流量。
低功率测试还有用吗?
有时可以,但前提是团队了解其局限性。低效能检验更容易遗漏真实效应,因此对不显著的结果应格外谨慎解读。