在前面的几个章节中,我们已经详细讨论了许多实验方法的适用场景以及实验设计与评估流程,然而在实际操作中,实验者仍会面临一些常见的困难和疑问。例如由于业务约束,实验者常常无法在单个城市选取足够流量进行实验,即单次实验的样本量难以达到检测出预期提升的功效,从而无法得到显著的实验结论。为此,实验者可能会在多城进行实验或者在同一个城市多次进行实验,以期积累样本量使得能够检测出显著的实验效果。此时,实验者需寻求新手段,科学地整合多次实验的结果,以最终确定策略的有效性。

此外,在一些在线实验中,实验者可能需要考察十几甚至几十个指标的变化情况,或者分多个实验组以同时考察多个策略的效果,甚至实验者有时还会倾向于在完整实验周期结束之前监控实验结果,提前查看显著性。这些操作本质上都涉及到多重的假设检验,当实验指标、组别数量增多和查看结果的频率提高时,假设检验的次数也随之增加。虽然单次假设检验能将第一类错误率控制在5%,但在多次假设检验中犯第一类错误(无效策略错误判为有效)的概率却不再是5%,而是可能远大于这个概率。

即如果继续采用原始逻辑进行显著性判断,往往会发现更容易出现一些误判策略显著的结果。因此,如何在多重比较的情况下防止假阳性带来的错误判断,也是实验者需关注的问题。针对单次实验功效不足、假阳性、策略调优等实验中面临的问题,我们也针对性的探索并建设了一些高阶实验工具予以解决。

7.1 统合分析

7.1.1 统合分析概述

在实际业务中,可能在不同城市等(可不同时)开展同一个实验,或者在同一城市进行正交随机化后的重复实验,亦或是两者皆有。这些实验相互之间可以认为是独立的。统合分析旨在综合考虑多个考察同一策略的独立实验,对这些实验的实验结果进行统合分析,从而给出对于这些实验整体效果的评估结果。一种业务上常用的整体评估方式是打包分析,即将多次实验的实验单位数据放在一起进行计算。

但这会遇到两个问题:(1)其一是辛普森悖论,当不同实验各组的分组比例不同时,可能出现整体结果与单次实验结果截然相反的情况。这通常与业务的常规认知相悖。(2)其二是对于同一城市进行不同周期多次正交打散的实验时,可能会存在实验单位在多次实验中的实验组和对照组中都出现。如果实验可以认为是独立的(即不存在前序实验对后序实验的结果造成影响),这种情况下的同一单位在两次实验中应当被当作两个独立的单位进行处理,这在数据分析时需要注意。

统合分析相比直接打包分析有几个主要优势:

  1. 统合分析提高实验功效。例如在多个城市分别开展多次实验时,如图7-2所示,城市间的差异可能导致打包分析的方差较大,而统合分析实际上考虑了按子实验的分层,降低子实验之间差异带来的方差,提高检验灵敏度。而从估计量业务口径上来说,统合分析在很多时候也能与打包分析的估计结果对齐。
  2. 统合分析快捷方便。当在不同时间进行多次实验得到各自单个实验的结果后,打包分析需要拿到所有实验的明细数据进行整体的显著性计算,而统合分析只用在各个实验的结果基础上进行二次处理即可。
  3. 当使用逆方差等加权方式来进行统合分析时,能够有效避免辛普森悖论对分析结果的影响,得到业务上较好解释的整体结果。

在统合分析的具体应用时,我们同样可根据具体场景与用户诉求来确定具体使用的统合分析加权方式,产出的结果包括实验估计量的加权结果,以及MDE估计量的加权结果,最终给出统合分析的P值以及显著性结论。

7.1.2 统合分析原理

1.逆方差加权(固定效应模型)

逆方差加权(固定效应模型)提高实验功效的效果是最佳的,因为它在所有加权方式中选取了使得统合后方差最小的加权方式。从统计学直观上来说,对于方差较大的实验,我们可以认为其估计结果相对不太精确,会给予较低的权重。反之对于方差较小的实验,我们可以认为其估计结果相对精确,会给予较高的权重。但同样逆方差加权的使用所依赖的假设条件也是最强的,需要假设每个实验的实验效果都能认为是相同的。此外需要注意的是,使用固定效应模型的逆方差加权在解释意义上与传统的打包实验意义会有不同,导致口径存在区别(在每个实验样本独立同分布时往往比较类似)。

2.逆方差加权(随机效应模型)

逆方差加权(随机效应模型)与逆方差加权(固定效应模型)的核心思想类似,但在假设上相对较为宽松,认为多个实验的策略效果估计量实际上是在一个平均效果附近波动的随机变量,通过正态分布来刻画多个实验结果。同样在解释意义上,会与打包分析的口径存在一定区别。具体的对于随机效应模型,权重可以取为:

3.分母求和加权(比率型指标)

4.样本量加权(连续型指标)

7.1.3 统合分析的实际选取逻辑

面对多种统合分析权重,以履约实验为例,在兼顾业务解释意义以及功效角度下,建议实际选取逻辑为:

Step1:先判断是同城多实验统合,还是多城实验统合。如果是同城多实验统合,则直接使用逆方差加权(固定效应模型),否则进入下一步。

Step2:判断是比率型指标还是连续型指标。

(1) 如果是比率型指标,先计算分母求和加权的前提条件,即实验组的分母权重比例,对照组的分母权重比例是否超出总体的分母权重比例的正负20%区间范围。如果有超出,则进入下一步;如果均未超出,如果有填预期提升则判断是否分母求和加权的MDE小于预期提升量或者$p$值显著,如果未填则判断是否$p$值显著,若是则采用分母求和加权,否则进入下一步。

(2) 如果是连续型指标,先计算样本量加权的前提比例条件,即实验组的样本量比例,对照组的样本量比例是否超出总体的样本量比例的正负20%区间范围。如果有超出,则进入下一步;如果均未超出,如果有填预期提升则判断是否样本量加权的MDE小于预期提升量或者$p$值显著,如果未填则判断是否$p$值显著。若是,则采用样本量加权,否则进入下一步。

Step3:先使用逆方差加权(随机效应模型),如果有填预期提升则判断是否MDE小于预期提升量或者$p$值显著,如果未填则判断是否$p$值显著,则采用随机效应模型下的逆方差加权,否则进入下一步。

Step4:使用逆方差加权(固定效应模型)。

7.2 多重比较

7.2.1 多重比较概述

多重比较问题(Multiple Comparison Problem)是统计分析中常见的一个挑战,特别是在同时进行多个假设检验时。随着检验数量的增加,出现假阳性结果(即错误地拒绝原假设)的概率也显著增加。这会导致结果的不可靠性和科学发现的误导性。

例如,我们进行20个指标的独立检验,每次的显著性水平为0.05,那么至少出现一次假阳性的概率为$1-(1-0.05)^{20}\approx 0.64$。因此在同时进行多个假设检验时,我们会调整检验的思路,从将至少出现一次假阳性的概率控制在5%以下变更为:控制在多重假设检验中被错误拒绝的原假设的比例在5%以下。具体来说,FDR(False Discovery Rate,假发现率)控制的是在所有被拒绝的原假设中,实际为真(即错误拒绝)的比例,以便在进行多个统计检验时减少假阳性结果的比例,而不是控制每个单独检验的错误率。

7.2.2 二阶段Benjamini-Hochberg方法规避假阳性

在业界与学界当中,对于多重比较情况有很多方法可以来纠正P值,例如Bonferroni、Holm、Conditional Calibration BH等技术,受限于篇幅这里一一列举。我们主要依赖的理论是Benjamini-Hochberg方法。

在实际应用中,我们对于同时检验的多个指标,会采用二阶段Benjamini-Hochberg方法来进行$p$值的修正。二阶段BH方法在每个阶段动态调整FDR阈值,以适应数据中的实际显著性模式。这种自适应调整允许在控制FDR的同时,尽量减少漏掉真正显著假设的可能性。通过结合宽松的初步筛选和严格的确认检验,二阶段BH方法在提高统计功效的同时,有效控制FDR。二阶段Benjamini-Hochberg方法除了能够处理多个独立的假设检验,对于多个假设检验正相关或弱负相关的情况也能较好的应对,能够有效防止业务对于在多重比较情况下出现的显著结果而做出错误决策。

Benjamini-Hochberg方法

具体步骤如下:

二阶段Benjamini-Hochberg方法

7.3 拓展与展望

在互联网的线上实验当中,实验者往往期望在实验运行期间就不断监控实验结果,来观测实验的走势是否符合策略预期以及样本量是否能满足需求。这里常常会有一个误区,例如在传统的随机对照实验中,实验者在实验中期观察到有策略显著的情况时,会认为策略有效从而提前结束实验,以缩减实验周期并加快策略迭代频率。然而,学界有不少研究指出,在实验期间不断偷窥实验结果会带来假阳性问题,因为直观来说,实验者每看一次结果都相当于进行了一次假设检验,多次查看即会有多重比较问题。理论上如果实验周期足够长,并且在实验期间不断进行数据收集和分析,那么几乎一定观察到一次显著的情况,这显然是不符合实验的初衷的。在这种情况下,为了兼顾实验者缩减实验周期提前观测结果的诉求与多重比较情况下的显著性结果科学性,我们探索了混合序贯概率比检验、成组序贯分检验等序贯分析的方式,能够在控制第一类错误的情况下进行中期分析,一旦统计学上足够显著即可立即停止实验,节省实验成本。一般来说,这些序贯分析的方式通常要求在不同时间进入实验的实验单元相互是独立的,因此通常较为适用于订单随机分流等实验单元只会随着时间唯一出现的情形。

此外,一般实验者在策略中会涉及到很多参数的选择,如何对合适的策略对象选择效果最优的参数也是实验者十分关心的问题。异质性因果效应估计即HTE方法会关注不同子群体对同一策略的不同反应。传统的随机对照实验通常假设所有实验单元对策略的响应是均匀的,但在实际情况中,不同的用户群体可能对同一策略有不同的反应。在实验中,HTE方法允许实验者在实验过程中进行更细粒度的分析,识别不同子群体的反应差异。在参数寻优方面,MAB(多臂老虎机)是一种动态分配策略,旨在在实验过程中不断调整资源分配,以最大化策略的整体收益。它模拟了赌博机的操作,试图在不同策略(臂)之间找到最优选择。MAB适用于需要在实验过程中快速迭代和调整策略的场景。通过动态分配资源,MAB能够在保证探索和利用之间取得平衡。MAB方法在实验中期允许实验者根据实时反馈调整策略分配,减少资源浪费并提高实验效率。这在资源有限或时间紧迫的情况下尤其有用。

在搜索、广告和推荐等排序场景中,为解决溢出效应以及提高实验灵敏度,Interleaving(交错式)实验设计不失为一种可行的解决方案。与传统的A/B实验不同,Interleaving实验考虑将A、B两种策略的推荐结果依次随机交织到同一个推荐列表后再展示给用户,而不是将用户分成不同组分别展示不同算法的结果。通过观察用户在这些混合结果中的行为(如点击行为),可以更快速和精确地评估哪种算法更优。该方法的优势在于使用较少的样本量就能区分出两种策略的优劣,然而其无法直接给出具体的差异值,并且工程实现成本较高。在使用时也可考虑先通过该方法快速筛选出较优的策略,如有需要再使用其他实验方法得到具体的提升幅度。

除此之外,学术界还存在贝叶斯实验评估等高阶实验技术,受限于白皮书篇幅,目前暂不做大规模详细介绍。对于这些方法,我们进行了线下小范围探索与应用,未来也计划成体系的进行建设,然后进行实践与应用。