实验指南
如何计算 A/B 测试样本量
A/B 测试样本量规划主要在于确定值得检测的变化幅度以及测试结果的置信度。本页将详细介绍该计算背后的实际逻辑。
首先要考虑的是真正重要的影响。
A/B 测试计划的制定始于最小可检测效应,而非样本量本身。首先要确定什么样的改变才真正有意义,足以影响产品、增长或设计决策。
微小的影响需要更大的样本才能检测到。
增强自信和力量
置信水平决定了你对随机变异的容忍度。统计功效决定了你检测到真实效应(如果存在)的可能性。两者共同决定了检验的灵敏度。
提高任何一项指标的标准通常都会增加所需的交通流量。
使用切合实际的基准线
基准转化率是计算的关键。即使目标提升幅度在绝对值上看起来相似,转化率已经达到 2% 的页面与转化率达到 20% 的页面,其表现也会有所不同。
这就是为什么 A/B 测试样本量规划最好使用最新的基线数据而不是粗略估计的原因。
一个实用的规划顺序
一个有效的步骤是先定义决策阈值,估算一个合理的基线,选择最小可检测效应,最后再考虑样本量。这样可以确保实验与业务相关性,而不是仅仅从流量入手。
它还有助于团队避免设计出技术上有效但实际操作中不切实际的测试。如果运行时间过长,通常需要在发布前修改之前的假设。
- 选择一个能够真正改变决策的效果量。
- 使用来自同一漏斗步骤的最新基线数据
- 在提交实验之前,请检查运行时间。
- 与其启动一项明显能力不足的测试,不如修改计划。