如何确定 A/B 测试样本大小和时间范围

2. 使用样本量计算器。

HubSpot 有一个非常棒的免费 A/B 测试样本量计算器。

在我的研究过程中，我还发现了两个运行良好的基于网络的 A/B 测试计算器。第一个是。第二个是 .

不过，在我们的演示中，我将使用 HubSpot 计算器。这是我下载后的样子：

3. 在计算器中输入您的基线转化率、最小可检测效果和统计显着性。

这里有很多统计术语，但别担心，我会用通俗易懂的方式解释它们。

统计显着性：这告诉您如何确定样本结果位于设定的置信区间内。百分比越低，您就越不确定可以是关于结果的。百分比越高，样本中需要的人员就越多。

基线转换率（BCR）：BCR是控制版本的转换率。例如，如果我向 10,000 个联系人发送电子邮件，并且有 6,000 个联系人打开了该电子邮件，则该电子邮件打开的转化率 (BCR) 为 60%。

最小可检测效果 (MDE)：MDE 是我希望实验在版本 A（原始或对照样本）和版本 B（新变体）之间检测到的转化率的最小相对变化。

例如，如果我的 BCR 为 60%，我可以将 MDE 设置为 5%。这意味着我希望通过实验来检查我的新变体的转化率是否与对照相比显着差异至少 5%。

例如，如果我的新变体的转化率为 65% 或更高，或者 55% 或更低，我可以确信这个新变体具有真正的影响。

但如果差异小于 5%（例如 58% 或 62%），则测试可能不具有统计性非常重要，因为这种变化可能是由于随机机会而不是变体本身。

MDE 对您的样本大小、测试所需的时间和流量有实际影响。将 MDE 想象为杯中的水。随着水体尺寸的增加，您需要更少的时间和精力（流量）来获得您想要的结果。

翻译：更高的 MDE 可以更确定地表明我的样本的真实行为已在该区间内得到考虑。较高 MDE 的缺点是它们提供的结果不太明确。

这是你必须做出的权衡。就我们的目的而言，不值得过于沉迷于 MDE。当您刚刚开始进行 A/B 测试时，我建议选择较小的间隔（例如 5% 左右）。

HubSpot 客户请注意：自动使用 85% 的置信水平来确定获胜者。

电子邮件 A/B 测试示例

假设我想运行电子邮件 A/B 测试。首先，我需要确定每个样本的大小测试。

这是我在 A/B 测试样本量计算器中输入的内容：

哒哒！计算器向我展示了我的示例。

在此示例中，每个变体有 2,700 个联系人。

这是我的变体之一所需的尺寸。因此，对于我的电子邮件发送，如果我有一个控件和一个变体，我需要将这个数字加倍。如果我有一个对照和两个变体，我会把它增加三倍。

这是 HubSpot A/B 测试套件中的外观。

4. 根据您的电子邮件程序，您可能需要计算样本大小占整个电子邮件的百分比。

HubSpot 客户，我正在为您寻找本节内容。当您运行电子邮件 A/B 测试时，您需要选择要将列表发送到的联系人百分比，而不仅仅是原始样本大小。

为此，您需要将样本中的数字除以列表中的联系人总数。使用上面的示例数字，数学看起来是这样的：

2700 / 10,000 = 27%

这意味着每个样本（包括我的对照和变体）都需要发送给我的 27-28% 的受众——大约是我的列表大小的 ‌55%。一旦确定了获胜者，获胜版本就会进入我列表的其余部分。

就是这样！现在您可以选择发送时间了。

如何为登陆页面的 A/B 测试选择合适的时间范围

如果我想测试着陆页，我选择的时间范围将根据我的业务目标而有所不同。

假设我想在 2025 年第一季度和 2024 年第四季度之前设计一个新的登陆页面。为了准备好最佳版本，我需要在 12 月之前完成 A/B 测试，以便我可以使用结果来构建获胜页面。

计算我需要的时间很容易。这是一个例子：

登陆页面流量：每周 7,000 BCR：10% 微量DE：5% 统计显着性：80%

当我将 BCR、MDE 和统计显着性插入 Optimizely A/B 测试样本量计算器时，我得到的结果是 53,000。

这意味着如果我尝试两个版本，则需要 53,000 人访问我的目标网页的每个版本。

因此测试的时间范围为：

53,000*2/7,000 = 15.14 周

这意味着我应该在 9 月的前两周内开始运行此测试。

为电子邮件 A/B 测试选择正确的时间范围

对于电子邮件，您必须弄清楚运行电子邮件 A/B 测试需要多长时间，然后才能将（获胜）版本发送到列表的其余部分。

了解时间方面不太受统计驱动，但您绝对应该使用过去的数据来做出更好的决策。以下是您可以如何做到这一点。

如果您对何时将获胜电子邮件发送到列表的其余部分没有时间限制，请前往您的分析。

弄清楚您的电子邮件打开/点击（或任何您的成功指标）何时开始下降。查看您过去发送的电子邮件以找出答案。

例如，总点击次数的百分比是多少？你第一天就得到了吗？

如果您发现前 24 小时内获得了 70% 的点击，此后每天都获得了 5%，则将电子邮件 A/B 测试时间窗口限制为 24 小时是有意义的，因为这样就不会仅仅为了收集一点额外的数据而延迟结果是不值得的。

24 小时后，您的电子邮件营销工具应该让您知道他们是否可以确定具有统计意义的获胜者。然后，接下来做什么就取决于你了。

如果您有大量样本，并且在测试时间范围结束时发现了统计上显着的获胜者，许多人会立即自动发送获胜变体。

如果您有足够大的样本量，并且在测试时间范围结束时没有统计上显着的获胜者，电子邮件营销工具也可能允许您自动发送您选择的变体。

如果您的样本量较小或正在运行 50/50 A/B 测试，则何时根据初始电子邮件发送下一封电子邮件电子邮件的结果完全取决于您。

如果您对何时向列表中的其他人发送获胜电子邮件有时间限制，请计算出您可以在多晚发送获胜电子邮件，而不会不及时或影响其他电子邮件的发送。

例如，如果您在美国东部时间下午 3 点发送了一场限时抢购的电子邮件，该促销活动在美国东部时间午夜结束，您不会希望在晚上 11 点确定 A/B 测试获胜者，而是希望在接近下午 6 点或 7 点时发送电子邮件 — 这将为未参与 A/B 测试的人员提供足够的时间来处理您的电子邮件。

急于运行 A/B 测试？

我在这里分享的内容几乎是您需要了解的有关 A/B 测试样本大小和时间范围的所有内容。

完成这些计算并检查您的数据后，我确信您将处于更好的状态来进行成功的 A/B 测试 - 这些测试在统计上有效并帮助您朝着目标迈进。 p>

编者注：这篇文章最初发表于2014年12月，现已更新为了全面性而注明日期。