实验计划

A/B 测试样本量计算器

在运行实验之前,请使用此页面规划所需的流量或用户数量。它专为简单的双变量 A/B 测试而设计,旨在帮助您以足够的统计灵敏度检测到有意义的提升。

分享此页面
帮助其他人更快找到合适的计算器
可靠性
更高置信度
偏差
降低误差
效率
避免过度采样

A/B 测试样本量计算器

使用下方计算器即可在此页面快速得到估算结果。

每个版本
3,842
双版本测试中每个版本建议的样本量。
总样本量
7,684
A 与 B 的总流量。
先算样本量,再开始发问卷

开始创建 高颜值问卷

确定所需答卷数量后,下一步就是收集数据。使用 SurveyLegend,你可以创建更有吸引力的问卷并实时分析结果。

什么因素决定了A/B测试的样本量

A/B 测试样本量主要取决于四个选择:您的置信水平、您的目标功效、您的基准转化率以及您关心的最小可检测效果。

预期提升幅度较小需要更多流量,而预期提升幅度较大则需要较少流量。较低的基线转化率也往往会导致所需样本量增加。

为什么这很重要

实验数据量过小容易导致忽略真实差异或对随机噪声反应过度。提前规划样本量可以减少因结果不稳定而提前终止实验的冲动。

此页面为每个变体提供了一个实际目标,以便您在发布前判断测试是否现实。

  • 上线前预估流量需求
  • 设定合理的测试时长
  • 避免进行统计效力不足的实验。
  • 让团队就何为有意义的提升达成一致意见。

如何使用结果

每个变体的结果大致告诉您每个变体应该接收多少观测值。总样本量是两个变体流量的总和。

如果结果对于您可用的流量来说太大,通常的下一步是重新考虑最小可检测影响,而不是用更少的数据运行相同的测试。

如何将结果转化为测试计划

确定了每个变体的样本目标后,将其与每周流量进行比较,以估算实验需要运行多长时间。这有助于您在投入设计和工程工作之前,判断测试是否切实可行。

样本量只是实验质量的一个方面。清晰的跟踪、稳定的基线和明确的终止规则仍然至关重要,因为大样本量也无法弥补糟糕的实验设计。

  • 根据各变体流量而非网站总流量估算持续时间。
  • 选择启动前可检测到的最小影响
  • 运行期间保持分配和跟踪稳定
  • 不要在结果暂时看起来有希望时就过早放弃。

相关页面 A/B 测试样本量计算器

常见问题

这个 A/B 测试计算器衡量什么?
它根据置信水平、统计功效、基线转化率和最小可检测效果,估算每个版本以及总共需要多少用户或会话。
什么是最小可检测效果?
最小可检测效果是你希望测试能够可靠检测到的最小提升。效果越小,所需样本量越大。
为什么功效和置信水平都很重要?
置信水平控制假阳性,而统计功效控制假阴性。两者都会影响你在相信实验结果之前需要多少流量。
如何将样本结果转化为测试时长?
计算每个变体的样本目标值,并将其与每个变体随时间推移获得的合格用户数或会话数进行比较。这样可以比仅查看网站总流量更准确地估算运行时间。
如果所需的样本量过大,我还能继续进行测试吗?
可以这样做,但你应该预料到结果不确定或具有误导性的概率会更高。更好的做法通常是在实验启动前重新审视最小可检测效应、基线假设或实验范围。