实验计划

A/B 测试样本量计算器

在运行实验之前，请使用此页面规划所需的流量或用户数量。它专为简单的双变量 A/B 测试而设计，旨在帮助您以足够的统计灵敏度检测到有意义的提升。

分享此页面

帮助其他人更快找到合适的计算器

X Facebook LinkedIn Reddit

可靠性

↑

更高置信度

偏差

↓

降低误差

效率

✓

避免过度采样

A/B 测试样本量计算器

使用下方计算器即可在此页面快速得到估算结果。

置信水平统计功效 (%)基线转化率 (%)最小可检测提升 (pp)

每个版本

3,842

双版本测试中每个版本建议的样本量。

总样本量

7,684

A 与 B 的总流量。

先算样本量，再开始发问卷

开始创建高颜值问卷

确定所需答卷数量后，下一步就是收集数据。使用 SurveyLegend，你可以创建更有吸引力的问卷并实时分析结果。

免费注册访问官网

什么因素决定了A/B测试的样本量

A/B 测试样本量主要取决于四个选择：您的置信水平、您的目标功效、您的基准转化率以及您关心的最小可检测效果。

预期提升幅度较小需要更多流量，而预期提升幅度较大则需要较少流量。较低的基线转化率也往往会导致所需样本量增加。

为什么这很重要

实验数据量过小容易导致忽略真实差异或对随机噪声反应过度。提前规划样本量可以减少因结果不稳定而提前终止实验的冲动。

此页面为每个变体提供了一个实际目标，以便您在发布前判断测试是否现实。

上线前预估流量需求
设定合理的测试时长
避免进行统计效力不足的实验。
让团队就何为有意义的提升达成一致意见。

如何使用结果

每个变体的结果大致告诉您每个变体应该接收多少观测值。总样本量是两个变体流量的总和。

如果结果对于您可用的流量来说太大，通常的下一步是重新考虑最小可检测影响，而不是用更少的数据运行相同的测试。

如何将结果转化为测试计划

确定了每个变体的样本目标后，将其与每周流量进行比较，以估算实验需要运行多长时间。这有助于您在投入设计和工程工作之前，判断测试是否切实可行。

样本量只是实验质量的一个方面。清晰的跟踪、稳定的基线和明确的终止规则仍然至关重要，因为大样本量也无法弥补糟糕的实验设计。

根据各变体流量而非网站总流量估算持续时间。
选择启动前可检测到的最小影响
运行期间保持分配和跟踪稳定
不要在结果暂时看起来有希望时就过早放弃。

常见问题

这个 A/B 测试计算器衡量什么？

它根据置信水平、统计功效、基线转化率和最小可检测效果，估算每个版本以及总共需要多少用户或会话。

什么是最小可检测效果？

最小可检测效果是你希望测试能够可靠检测到的最小提升。效果越小，所需样本量越大。

为什么功效和置信水平都很重要？

置信水平控制假阳性，而统计功效控制假阴性。两者都会影响你在相信实验结果之前需要多少流量。

如何将样本结果转化为测试时长？

计算每个变体的样本目标值，并将其与每个变体随时间推移获得的合格用户数或会话数进行比较。这样可以比仅查看网站总流量更准确地估算运行时间。

如果所需的样本量过大，我还能继续进行测试吗？

可以这样做，但你应该预料到结果不确定或具有误导性的概率会更高。更好的做法通常是在实验启动前重新审视最小可检测效应、基线假设或实验范围。

A/B 测试样本量计算器

A/B 测试样本量计算器

开始创建 高颜值问卷

什么因素决定了A/B测试的样本量

为什么这很重要

如何使用结果

如何将结果转化为测试计划

相关页面 A/B 测试样本量计算器

常见问题

开始创建高颜值问卷