什么因素决定了A/B测试的样本量
A/B 测试样本量主要取决于四个选择:您的置信水平、您的目标功效、您的基准转化率以及您关心的最小可检测效果。
预期提升幅度较小需要更多流量,而预期提升幅度较大则需要较少流量。较低的基线转化率也往往会导致所需样本量增加。
为什么这很重要
实验数据量过小容易导致忽略真实差异或对随机噪声反应过度。提前规划样本量可以减少因结果不稳定而提前终止实验的冲动。
此页面为每个变体提供了一个实际目标,以便您在发布前判断测试是否现实。
- 上线前预估流量需求
- 设定合理的测试时长
- 避免进行统计效力不足的实验。
- 让团队就何为有意义的提升达成一致意见。
如何使用结果
每个变体的结果大致告诉您每个变体应该接收多少观测值。总样本量是两个变体流量的总和。
如果结果对于您可用的流量来说太大,通常的下一步是重新考虑最小可检测影响,而不是用更少的数据运行相同的测试。
如何将结果转化为测试计划
确定了每个变体的样本目标后,将其与每周流量进行比较,以估算实验需要运行多长时间。这有助于您在投入设计和工程工作之前,判断测试是否切实可行。
样本量只是实验质量的一个方面。清晰的跟踪、稳定的基线和明确的终止规则仍然至关重要,因为大样本量也无法弥补糟糕的实验设计。
- 根据各变体流量而非网站总流量估算持续时间。
- 选择启动前可检测到的最小影响
- 运行期间保持分配和跟踪稳定
- 不要在结果暂时看起来有希望时就过早放弃。