顺序测试与固定水平 T 测试:何时使用它们?

已发表: 2022-06-10

实验有助于产品团队根据因果关系而不是相关性做出更好的决策。 你可以做出诸如“改变<这部分产品>导致转化率增加5%”之类的陈述。 在没有实验的情况下,更常见的方法是根据领域知识或选择客户请求进行更改。 现在,数据驱动的公司使用实验来使决策更加客观。 因果关系的一个重要组成部分是对实验数据的统计分析。

在 Amplitude,除了顺序测试外,我们最近还发布了一个固定水平 T 检验,自实验开始以来我们就有了。 我们设想有几个客户会问“我怎么知道要选择什么测试?”

在这篇技术文章中,我们将解释顺序测试和固定水平 T 检验的优缺点。

注意:在这篇文章中,当我们说 T 检验时,我们指的是固定水平 T 检验。

每种方法都有优点和缺点,并不是一种方法总是比另一种更好。

顺序测试的优势

首先,我们将探讨顺序测试的优势。

偷看几次→提前结束实验

顺序测试的优点是可以多次查看。 我们在 Amplitude 使用的特定版本的顺序测试,称为混合顺序概率比测试 (mSPRT),允许您查看任意次数。 此外,您不必像分组顺序测试那样在测试开始之前决定要查看多少次。 这样做的结果是,我们可以做所有产品经理 (PM) 都想做的事情,即“运行测试,直到它在统计上显着,然后停止。” 它类似于目标日期基金的“一劳永逸”的方法。 在固定范围框架中,不应该这样做,因为您会增加误报率。 通过经常偷看,如果效应大小远大于最小可检测效应 (MDE),我们可以缩短实验持续时间。

自然,作为人类,我们希望继续查看数据并尽快推出帮助我们客户群的功能。 通常,PM 会在实验开始几天后询问数据科学家的实验情况。 使用固定水平测试,数据科学家不能在统计上说出任何关于实验的内容(置信区间或 p 值),只能说这是暴露用户的数量,这是处理均值和控制均值。 通过顺序测试,数据科学家始终可以在实验期间的任何时间向 PM 提供有效的置信区间和 p 值。

在一些实验仪表板中,即使对于固定水平测试,统计量(置信区间和 p 值)也不会对用户隐藏。 通常,数据科学家会被问到为什么我们不能推出获胜的变体,因为仪表板是“全绿色的”。 然后,数据科学家必须解释该实验没有达到所需的样本量,并且如果该实验被推出,它实际上可能会对用户产生负面影响。 然后,PM 质疑为什么他们的同事在达到所需样本量之前就推出了实验。 这造成了很多不一致,人们对他们的实验没有推出感到困惑。 通过顺序测试,这不再是数据科学家必须回答的问题。 在固定水平的情况下,幅度仅显示累积暴露、处理均值和控制均值以帮助解决此问题。 一旦达到所需的样本量,Amplitude 将显示统计结果。 这有助于通过防止偷看来控制误报率。

不需要使用样本量计算器

顺序测试的另一个优点是您不必使用样本量计算器,您应该将其用于固定水平测试。 通常,非技术人员很难使用样本量计算器,并且不知道所有输入的含义或如何计算他们需要输入的数字。例如,大多数人不知道指标的标准差离开他们的头顶。 此外,如果您没有在样本量计算器中输入正确的数字,您会遇到问题。 例如,您输入了 5% 的基准转化率,但真正的基准转化率是 10%。 您是否可以在测试过程中重新计算您需要的样本量? 您需要重新开始实验吗? Amplitude 缓解此问题的一种方法是使用标准行业默认值(95% 置信度和 80% 功效)预先填充样本量计算器,并计算过去 7 天的控制均值和标准差(如有必要)。 在样本量计算器中,有一个名为“power”(1-假阴性率)的字段。 对于顺序测试,该字段基本上被“您愿意运行测试的天数”所取代。 这是一个更容易解释的数字,也是人们容易想出的数字。

功率 1 测试

另一个优点是顺序测试是幂为 1 的测试。在非技术术语中,这意味着如果处理均值和控制均值之间存在非偶然产生的真正差异,那么测试最终会找到它(即,变得具有统计学意义)。 与其告诉你的老板测试没有结果,你可以说我们可以等待更长的时间,看看我们是否得到了统计上显着的结果。

着眼于第一个优势,我们通过真实效应大小和最小可检测效应 (MDE) 之间的关系,打破了实验中可能发生的情况。 这三种情况是您低估 MDE、准确估计 MDE 或高估 MDE。

固定地平线测试顺序测试哪个更好?
低估 MDE(例如,选择 1 作为 MDE,但 2 是效果大小) 运行测试超过必要的时间。 拥有比你想要的更大的权力。 尽早停止测试。 顺序测试。
准确估计 MDE(例如,选择 1 作为实验前的 MDE,1 是效果大小) 获得更小的置信区间。 获得您想要的预实验的确切功率。 更大的置信区间。 必须等待更长时间才能获得统计意义(即,运行测试更长时间)。 已修复,但请记住,使用固定水平测试仍有可能出现假阴性。
高估 MDE(例如,选择 1 作为 MDE,但 0.5 是效果大小) 功率不足的测试。 可能会得到一个不确定的测试并不得不停止测试。 可能会得到一个不确定的测试。 但是您可以让测试运行更长时间以获得具有统计意义的结果。 那么问题是你是否关心你是否因为提升如此之小而获得统计上显着的结果? 值得付出工程努力来推出它吗? 顺序测试,但只是轻微的。

一般来说,你不知道效果大小(如果你知道了,那么实验就没有意义了)。 因此,您不知道您将处于 3 个案例中的哪一个。您想尝试估计您将在 3 个案例中的每个案例中的机会是多少。

基本规则:这里我们将研究一个规则来总结上表。 如果您有固定水平测试的经验,那么您对最小可检测效应的概念感到满意。 我们将此概念扩展为定义最大可检测效果,这是您理论上认为实验可能发生的最大效果大小。 要选择最大可检测效果,您可以使用以前实验的效果大小的最大值,或者如果您有领域知识,您可以使用它来选择一个合理的值。 例如,如果您正在更改按钮颜色,您知道点击率不会增加超过 20%。 本质上,最小可检测效果为您提供最坏情况,最大可检测效果为您提供最佳情况。 然后,使用固定水平样本量计算器并插入最小可检测效果和最大可检测效果。 取两种情况所需样本数量的差异。 您可以在这两个值之间等待额外的时间吗? 也许您只需要再等 3 天,那么使用固定范围测试可能会更好,因为使用顺序测试最多只能节省 3 天。 也许您有机会节省 10 天,那么您可能想要使用顺序测试。

总而言之,顺序测试的优点是:

  • 不必使用样本量计算器也不必了解偷窥,进入门槛较低。
  • 允许偷看。
  • 在某些情况下,实验完成得更快。

固定水平 T 检验的优势

现在,我们将换个角度,研究一些 T 检验有优势的情况。 使用 t-test 你需要问一个问题:如果顺序测试告诉我提前停止,我真的会提前停止吗?

大公司

一般来说,如果你是一家大公司,你已经做了很多实验,并且可能知道什么是好的或合理的最小可检测效果。 此外,您可能会进行 1% 或 2% 的改进,因此实际效果大小不太可能与最小可检测效果相差甚远。 换言之,最大可检测效果和最小可检测效果之间的差异很小。 因此,您更愿意使用固定水平测试。

已经有一个数据科学组织

固定水平 T 检验是标准教科书 Stats 101 方法。 大多数数据科学家应该熟悉这种方法,因此使用这种方法的摩擦会更小。

小样本量

如果您的样本量非常小,那么并不总是很清楚哪种方法更好。 如果您正在测试重大更改(如果您的公司/客户群很小,您应该这样做),那么顺序将是有利的,因为最大可检测效果和最小可检测效果之间的差异很大。 另一方面,由于样本量小,您想要非常精确并想要更小的置信区间,因此在这种情况下,固定水平测试会很好。 如果您的数据非常少,那么您想质疑您是否会在合理的时间内达到统计显着性。 如果答案是否定的,那么 A/B 测试在这种情况下可能不是正确的方法。 更好地利用您的时间来进行用户研究或进行客户要求的更改并假设他们会有积极的提升。

季节性

季节性是指定期变化。 季节性不必像一个月那样持续很长的时间间隔。 它甚至可以在星期几级别。 根据产品的不同,周末使用产品的用户可能与平日使用产品的用户不同。 一个例子是地图引擎,在工作日,人们可能会更多地搜索地址,而在周末,人们可能会更多地搜索餐馆。 可能在工作日接受治疗的用户有正提升,而在周末接受治疗的用户有负提升,反之亦然。

这里你需要问的问题是,如果 T 检验说运行 1 周,而顺序检验在 4 天后达到统计显着性,你真的会在 4 天停止吗? 如果您认为存在星期几的影响,最好在此处运行 T 检验。 如果您在 4 天后停止,则假设您在这 4 天中获得的日期代表了您在进行一周或两周的实验时所看到的数据。

通常,您希望针对整数个业务周期运行实验。 如果你不这样做,那么你可能在某些日子超重。 例如,如果您在星期一开始一个实验并运行 10 天,那么您给星期一的数据赋予 2/10 的权重,而赋予星期日数据的权重 1/10。 随着实验运行时间的延长,星期几的效果会降低。 这就是您可能会在您的公司看到运行 2 周实验的一般经验法则的原因之一。

显示数据中季节性模式的图表的屏幕截图
这是一个带有季节性的图表示例。

研究长期指标

有时您可能对 30 天留存率或 60 天收入等长期指标感兴趣。 当您研究每月订阅并提供免费试用或折扣时,有时会出现这些指标。 需要考虑的一件事是提前停止可以获得多少收益? 例如,如果您正在研究 30 天的保留,那么您需要等待 30 天才能获得 1 天的数据。 正因为如此,这类实验通常会持续几个月。 如果你能提前几天结束实验,那并不是什么大胜利。 此外,当您选择长期指标时,您可能对 30 天留存率和 60 天留存率都感兴趣,因为如果您增加 30 天留存率但减少 60 天留存率,那么这可能并不成功。 您可以选择 30 天保留而不是 60 天,以便您可以更快地迭代您的实验。 您可以使用的一种方法是测试 30 天保留的统计显着性,然后检查 60 天保留的方向性。

对于长期指标,您不能提前停止,因为您需要等待观察指标。 当您在治疗用户后立即得到响应时,顺序测试通常会更好。

有两种方法可以使用长期指标运行实验:

  1. 达到您需要的样本量,然后关闭实验。 等到所有用户都参与了实验 30 天。
  2. 让实验运行,直到您获得已参与实验 30 天的用户所需的样本量。

通常,如果您正在运行顺序测试,您不想执行选项 #1,因为顺序测试的全部意义在于您不知道您需要什么样本量。 如果您想保守一点,并且如果您认为治疗可能不是积极的,则不要让太多用户参与您的实验,您可以考虑执行选项 #1。

另一件要考虑的事情是您对待用户的次数。 如果您只对用户进行几次治疗,您需要考虑是否真的会从治疗和控制之间的几个差异中看到非常大的提升。 这导致更小的效果大小。

新奇效果

新奇效应是当您为用户提供新功能并且他们与它进行了很多交互但随后可能停止与之交互时。 例如,您有一个大按钮,人们第一次看到它时会点击很多,但后来就不再点击了。 指标并不总是必须先增加然后减少——它也可以朝另一个方向发展。 例如,用户厌恶变化并且最初不与该功能交互,但一段时间后会开始与它交互并看到它的有用性。 新奇效应的解决方案是运行更长时间的实验,并可能从用户接触实验的前几天删除数据。 这类似于使用长期指标。

实验结果

今年我们发布了 Experiment Results,这是 Experiment 中的一项新功能,可让您将 A/B 数据直接上传到 Amplitude 并开始分析您的实验。 您可以在实验运行时上传数据,并通过顺序测试分析数据。 或者另一个用例是等待实验完成,然后将数据上传到 Amplitude 进行分析。 如果这样做,使用顺序测试没有意义,因为实验已经结束并且您无法提前停止,因此您应该使用 T 检验。

不是每个实验都会有这些非标准问题。 要考虑的问题是,如果您已经承诺进行一项长期运行的实验,您是否真的会通过提前结束实验来节省那么多时间,哪些类型的分析由于您提前停止而不能进行,如果您确实停止了早期,您正在做出什么样的假设,您是否可以做出这些假设。 并非每个实验都是相同的,您公司内的业务专家可以帮助确定哪种测试是合适的以及如何最好地解释结果。


不知道从哪里开始? 请求演示,我们将引导您完成最适合您业务的选项!

开始使用产品分析