可信实验白皮书系列06：观察性研究

观察性研究常用于解决无法进行控制实验的问题。在美团的到家履约业务场景中，由于法律约束以及实际操作成本等多种限制，我们通常无法直接进行控制实验。因此，观察性研究成为一种重要的替代方法，它允许我们在不进行控制实验，且不影响用户体验的情况下，评估不同策略和措施的业务效果。

著名统计学家Cochran（1965）总结了观察性研究的两个常见特征：一是目标是阐明因果关系，二是使用控制实验不可行。第一个特征与随机对照实验或准实验相同，但第二个特征与其有根本性的不同：随机对照试验和准实验的干预是外生的，不受实验个体自身控制，不存在自选择问题，而在观察性研究中，干预是不可控的，即我们无法通过实验的方式控制一部分实验个体分配到实验组和对照组，这可能存在选择性偏差问题（由于样本的选择方式不当，使得样本不能代表总体，导致评估结果具有偏差）。选择合适的观察性研究方法，能够帮助我们在无法进行控制实验分组的情况下，尽可能消除选择性偏差，得到较为科学的评估结果。

接下来，我们将介绍一些具体的观察性研究方法，包括合成控制法、匹配方法以及Causal Impact等。各方法的基本思想和适用场景简单总结如下表，每个方法的具体细节可参考对应章节，一些其他观察性研究方法的简单介绍可见拓展部分。

6.1 合成控制法

6.1.1 概述

2024年，北京发布了《餐饮外卖流通绿色包装评价要求》，这项规定对美团北京地区外卖履约业务会有多大影响？为了评估这类事件或政策的影响，根据潜在因果框架理论，我们需要为受政策影响的地区构建“反事实”结果，即如果该地区未受干预会如何。通常，这需要选择一个在各方面与受干预地区相似的对照组，然而，干预政策通常只发生在特定地区，由于美团外卖履约业务的特殊性，我们很难找到一个业务特征^[1]相似的对照组。

为此，我们可以考虑为干预地区构建一个未受干预且特征相似的对照组，具体而言，通过对若干与干预地区相似的未干预对照组进行线性加权，构造出一个虚拟对照组，用以近似干预地区在未受干预情况下的情形，这便是Abadie和Gardeazabal（2003）^[2]提出的“合成控制法”。

基本思想

合成控制法（Synthetic Control Method, SCM）的基本思想是通过从其他相似地区的数据中学习权重，构建一个加权平均的“合成对照组”来估计政策或干预对一个处理单元（如一个城市、国家或公司）的因果效应，该方法特别适用于个案研究，尤其是在随机对照试验不可行的情况下，其主要流程可以见下图6-1：

适用场景与优缺点

在实际应用中，合成控制法具有其独特的优势，尤其是在以下业务场景中尤为适用：

无法进行随机对照实验或准实验：由于法律约束以及实际操作成本等多种限制，无法实施随机对照实验或准实验时，合成控制法提供了一种有效的替代方法，通过构建合成对照组来模拟对照实验的效果。
干预单元数量有限：适用于评估单个或少量干预单元的影响。这种情况下，合成控制法通过利用多个对照单元的数据来创建一个合成对照组。
丰富的对照组单元：需要有足够数量和多样性的对照组单元，以便从中选择并加权组合，创建一个合成对照组，使其在未受干预时表现与干预单元相似。
多期面板数据：合成控制法依赖于多期面板数据，以观察干预前后干预单元和对照单元的表现。这种数据结构允许更准确地捕捉时间趋势，并验证合成对照组在干预前的适用性。

随着合成控制法被广泛应用，优缺点也逐渐明显，其优点如下：

适用于个案研究：特别适合评估只有单个城市、地区或特定市场的政策或策略影响。
数据驱动的对照组构建：通过加权组合多个对照组，创建一个合成对照组，模拟处理组在未受干预时的表现，可以减少单个对照城市的偏差。
减少模型依赖：减少对复杂模型假设的依赖，更加依赖于观测数据的实际表现。
直观的可视化：结果通常可以通过图形表示，便于干预政策影响的直观理解和解释。

然而，合成控制法也存在一些局限性，这些限制在特定情况下可能影响其应用效果：

数据要求高：需要足够的对照单元和多期面板数据来构建合成对照组，对数据质量要求较高，存在较多缺失数据或者对照单元较少时可能难以评估。
复杂性：合成控制的权重计算和假设检验的p值计算可能较为复杂，特别是存在多个处理单元时，需要计算多个权重。
外推性限制：结果的外推性可能有限，由于处理组的特殊性可能并不能代表总体情况，无法轻易推广到其他场景或城市。
处理组和对照组的相似性要求：要求合成的对照组能很好地模拟处理组在未受干预时的表现，但异质性较大时，合成对照组和实验组在未受干预时差别可能会较大。

6.1.2 原理

本节我们将详细介绍合成控制法的数学原理。

基本假定

权重计算

显著性评估

在得到了具体的因果效应估计后，我们自然希望知道其效果是否显著，此时我们可以考虑Fisher精确检验方法计算$p$值：将对照组个体依次作为处理组，计算其效应值，然后确定这些效应值中有多少比例高于处理组个体的效应值，具体计算步骤：

考虑到我们得到的因果效应可能并非完全由干预引起，可能存在一些随机因素，我们需要通过稳健性检验来排除随机因素的影响，此时可以考虑改变干预时间节点进行稳健性检验：即通过提前或延后干预时间，创造一个虚拟干预时间节点，观察在这种情况下得到的平均因果效应，与真实干预时间点的平均因果效应是否存在显著差异。

合成控制法的拓展

近年来，针对前述局限性，众多研究者在Abadie和Gardeazabal（2003）提出的合成控制法基础上进行了改进。我们对这些改进方法进行了简要总结，如下表所示，具体细节可参考原文：

评估模型选择

我们介绍了很多合成控制法的拓展，在面对复杂场景时，我们应该如何选择合适的模型呢？一方面，可以结合具体业务和经验进行判断，例如，当存在多个实验单元时，可以考虑使用广义合成控制法；当存在较多干预前缺失数据时，可以考虑使用稳健合成控制法。另一方面，也可以采用数据驱动（Data-Driven）的方式，利用实验前数据进行模型评估：通过不同模型预测实验前几周的AA数据，如果预测值与真实值接近（以MAPE衡量，即Mean Absolute Percentage Error，平均绝对百分比误差），则说明模型的预测较为准确，实验期间预测值的参考价值较高。此外，还可以计算实验前AA结果的p值，p值越大，说明该模型的AA结果越不显著，因果效应估计值更接近0，这也意味着在实验期间预测值的参考价值更高。

6.1.3 实验案例

案例背景：美团履约运营团队设计了一种新的运营策略，希望验证该策略能否实现数量和效率的可控性，使得运力和用户需求更匹配，从而提高骑手和用户的体验。

评估难点：受限于多方面的业务约束情况，不适合采用分组实验的方式进行验证。新模式需要通过长期运营来观察和评估用户的接受度，无法实现每日切换，因此也不适合采用时间轮转的实验设计。此外，也难以找到业务特征高度相似的单一城市，作为实施新策略城市的对照组。

解决方法：考虑“全城灰度”策略，即在整个城市范围内实施新策略一段时间（如一个月），然后利用合成控制法，从一些还没有实施该新策略的城市中拟合一个虚拟的对照组进行评估。

评估指标：**

评估周期：**

评估结果：

6.2 匹配方法

6.2.1 概述

上文提到，在美团履约和外卖的实验中，部分场景由于法律约束以及实际操作成本等诸多限制，无法开展控制实验。例如，在“评估购买优惠券对订单量增量效果”的研究中，我们无法控制用户是否实际购买优惠券。因此，若要评估整体人群中购买优惠券对订单量的提升效果，随机对照实验并不适用。

通常，评估购买优惠券对订单量的影响最直接的方法，是比较“购买优惠券”与“不购买优惠券”用户的订单量差异。然而，现实中多种因素都会影响购买优惠券的行为和订单量，购买优惠券的用户与不购买优惠券的用户在某些协变量特征上也往往存在天然差异，直接比较这两类人群的订单量差异会存在选择性偏差问题。

为此，我们可以采用匹配方法，通过匹配购买优惠券与不购买优惠券用户的协变量特征来控制这些干扰因素，减少因选择偏差导致的估计误差，从而更准确地估计实验效果。

基本思想

匹配是因果推断中常用的一种方法，其核心思想是通过平衡处理组和对照组之间的协变量分布，从而消除混杂因素的影响。具体而言，在多维协变量空间中，匹配方法尽量模拟随机分配的情境，为每个处理组个体找到一个或多个相似的对照组个体，作为其反事实结果，从而减少样本间协变量（非处理因素）差异对效果评估的干扰，其基本流程如下图6-2所示：

适用场景与优缺点

匹配方法在观察性研究中被广泛应用，尤其适用于以下场景：

无法进行控制试验：出于法律约束以及实际操作成本等原因，无法实施控制试验时，匹配方法成为因果推断的重要工具。
处理组与对照组存在相似个体：匹配方法适用于处理组和对照组中存在相似个体的情况，通过确保这两组在协变量上的分布尽量一致，从而减少因组间差异带来的偏差。
观测的协变量特征较为全面：当评估中涉及多个协变量且需要在这些协变量上达到平衡时，匹配方法能够有效控制混杂因素，提高因果效应估计的准确性。

在应用匹配方法进行因果效应分析时，我们需要详细了解其优势和局限性，从而确保评估的准确性。首先，匹配方法具有以下优点：

减少选择偏差：匹配方法通过平衡处理组和对照组的协变量分布，显著减少了由于非随机分配导致的选择偏差，从而提高因果效应估计的准确性。
易于理解与实施：相较于其他复杂的因果推断方法，匹配方法直观且易于理解，解释性强。我们可以通过匹配后直接比较处理组和对照组的结果，步骤清晰。
灵活性高：匹配方法可以与多种统计模型和技术结合使用，如不同的倾向得分模型、距离度量方法等，适应不同研究需求和数据特点。

不过，匹配方法也存在以下局限性：

数据需求较高：为了有效匹配个体，处理组和对照组需要有足够的重叠区域（Overlap or Common Support），即处理组和对照组中需要存在相似个体，但在某些场景中，可能并不满足该条件，这会限制匹配的有效性。
无法控制未观测到的混杂因素：匹配方法仅能控制已观测到的协变量，对于未被包含在匹配过程中的潜在混杂变量，匹配方法可能无法完全消除选择偏差，这可能导致因果效应估计的偏差。

6.2.2 原理

由上述匹配的基本流程可知，匹配主要包括：选择协变量特征、定义距离度量、选择匹配方法等步骤。在本节，我们将详细介绍这些步骤和一些注意点。

基本假定

匹配方法灵活且易于实施，但其评估结果的有效性会依赖于以下两个假定条件：

条件独立假设（Conditional Independence Assumption）：在给定观测协变量的条件下，处理的分配与潜在结果独立，其数学表达如下：

协变量特征选择

在确定匹配过程中应选择哪些协变量时，关键概念是条件独立假设（Conditional Independence Assumption）。匹配方法以及大多数观察性研究方法都依赖于该假设，该假设认为在已观测协变量的条件下，处理组与对照组之间不存在未观测的差异。为了满足可忽略性假设，重要的是在匹配过程中包含所有已知与处理分配和结果相关的变量。

通常，使用相对较少的便利预测变量（Predictors of Convenience）的匹配方法表现较差。在使用倾向得分匹配（Propensity Score Matching, PSM，下文将详细介绍）时，包含与处理分配无关的变量几乎没有成本，因为它们对倾向得分模型的影响极小。虽然包含与结果无关的变量可能会略微增加方差，然而，排除潜在的重要混杂变量往往会导致较大的偏差。因此，我们在选择协变量特征时，应采取宽松的态度，尽可能包含可能与处理分配和结果相关的变量，以提高因果效应估计的准确性。

此外，匹配过程中不应包含那些可能受到处理影响的变量，当协变量、处理变量和结果变量同时收集时，这一点尤为重要。如果确实需要控制受处理影响的变量，应该在匹配之后，通过回归调整或其他适当的统计方法在分析模型中进行控制。

距离度量

在匹配时，我们需要定义个体之间的距离，用来衡量两个个体的相似性。定义个体$i$和个体$j$之间的距离$D_{ij}$，有以下几种方法，我们总结如下表所示：

在上述距离定义中，除了倾向得分距离之外，其他距离类型都较为常见且易于理解。接下来，我们将对倾向得分距离进行详细介绍。首先我们先简单介绍倾向性得分的定义：倾向性得分（Propensity Score）是指在给定协变量的条件下，个体接受处理的概率。

匹配方法

在匹配方法中，最常见且最容易实施和理解的方法之一是最近邻匹配（Nearest Neighbor Matching）。最近邻匹配几乎总是能估计出处理组的平均处理效应（ATT），因为它将对照组个体匹配到处理组，并丢弃未被选为匹配的对照组个体。在其最简单的形式中，1:1最近邻匹配为每个处理组个体选择距离最近的一个对照组个体，这也是我们最常用的形式。在使用匹配方法时，经常会存在一些细微问题，我们简单总结如下，具体细节可参考Stuart（2010）^[4]的综述论文：

一对一匹配与一对多匹配：最常见的形式是使用一对一匹配，但该方式丢弃的对照组个体可能会比较多，检验功效会降低，此时可以考虑一对多匹配，但对应地，其计算复杂度会增加，且匹配效果会依赖于超参数的调整。
有放回匹配与无放回匹配：我们一般使用有放回匹配，但一些研究者更倾向于无放回匹配。当对照组的样本量较大时，这两种方法在最终结果上通常不会有太大差异。有放回匹配在计算上更为简便，而无放回匹配则涉及计算密集的离散优化过程。有放回匹配通常能够获得更高质量的匹配，但由于需重复使用相同的样本，可能会引入依赖性。相比之下，无放回匹配的优势在于确保匹配样本的独立性，并简化后续的数据分析过程。
匹配限制：在匹配方法中，一个常见的担忧是缺乏限制可能导致不良匹配。例如，某处理组个体的倾向得分（Propensity Score）与对照组中任何个体的相似度不足，无法找到合适的匹配对。为避免此类问题，可以实施卡尺（Caliper），即仅选择匹配距离在预设范围内的对照组个体。虽然这可能导致部分处理组个体无法找到匹配对，增加因果效应解释的难度，但有助于确保匹配质量，减少估计偏差。
匹配方法的选择：目前有各种各样的匹配方法可供选择，但相关的指导却相对较少。迄今为止，学术界主要的建议是选择能够实现最佳平衡的方法，例如Ho等人（2007）^[5]的研究。然而，定义“最佳平衡”是复杂的，因为这涉及在多个协变量之间进行权衡。选择匹配方法的可能方式包括：(1)在最多协变量上实现最小标准化均差的方法；(2)最小化少数特别具有预测性协变量的标准化均差的方法；(3)产生最少“大”标准化均差（大于0.25）的方法等。这些方法各有侧重，我们可能需要根据具体的研究需求和数据特点选择最合适的匹配方法。

评估与检验

在匹配完成后，需要评估匹配的质量，确保处理组和控制组在协变量上的平衡。常用的方法包括：标准化均差（SMD）和分布图。

标准化均差（SMD）：评估匹配后协变量的平衡性，确保处理组和对照组在基线特征上相似。标准化均差（Standardized Mean Difference, SMD）是用于衡量两组之间均值差异的标准化效应量。SMD 的公式如下：

分布图：绘制协变量的分布图或倾向得分的分布图，检查匹配前后的变化。

在匹配完成并验证平衡性后，可以估计处理效应。常见的处理效应估计方法包括：

平均处理效应（ATE）：估计总体的处理效应。
处理组平均处理效应（ATT）：估计处理组的平均处理效应。
控制组平均处理效应（ATC）：估计控制组的平均处理效应。

处理效应的估计通常通过比较匹配后的处理组和控制组的结果变量均值来进行。

匹配的拓展

在上文中，我们主要介绍了最常用且最经典的匹配方法。然而，在处理一些复杂情形时，这些方法可能无法充分满足评估需求，因此需要对其进行扩展。我们对此进行了简要总结，具体细节可参考相关文献。

方差估计：Badie和Imbens（2008）^[6]首次表明，仅通过对原始数据进行重抽样的简单自助法（Bootstrap）无法有效估计匹配估计量的方差，但他们提出的方差估计方法实施起来并不容易。Otsu和 Rai（2017）建议对估计量在线性展开中进行Bootstrap，Otsu和Rai（2017）^[7]的Bootstrap本质上产生了方差估计量。得到方差估计后，便可以计算$p$值。

距离组合：在某些场景下，我们希望匹配的个体在某些关键协变量特征上（如身份、归属城市）保持完全一致，然后再在这些子组内进行匹配，此时我们可以考虑将上文介绍的距离度量进行组合。例如，我们可以考虑类似粗糙精确匹配（Coarsened Exact Matching，CEM）的距离：

存在多个处理组：上文我们讨论的都是一个处理组和一个对照组的情形，但是，在很多实际场景下，往往会面临多个处理组的情况，此时往往会更复杂。在面对多个处理组时，我们可以考虑广义倾向性得分（Generalized Propensity Score），利用多项逻辑回归模型（Multinomial Logistic Regression Model）预测每个个体的广义倾向性得分，再利用向量匹配方法（Vector Matching，VM）进行匹配，具体细节可参考Scotina和Gutman(2019)^[9]的工作。

共同支撑问题：匹配方法中普遍存在共同支持（Common Support）的问题。迄今为止，我们假设两组的倾向得分分布具有明显重叠，但在某些情况下，分布可能不完全重叠。例如，许多对照组个体与处理组成员差异较大，不适合作为估计平均处理效应（ATT）的比较对象。使用卡尺（caliper）的最近邻匹配方法仅匹配位于或接近共同支持区域的个体，而子分类（subclassification）和加权（weighting）方法则通常使用所有个体，无论分布是否重叠，具体细节可参考的Dehejia 和 Wahba(1999)^[10]的工作。

协变量缺失问题：大多数关于匹配和倾向性得分的文献都假设协变量是完全观测的，但实际上大多数研究至少存在一些缺失数据。一种可能性是使用广义提升模型（Generalized Boosted Models）来估计倾向得分，因为它们不需要完全观测的协变量。另一种推荐的方法是进行简单的单一插补（Single Imputation）来填补缺失的协变量，并在倾向得分模型中包含缺失数据指示变量，具体细节可参考Greenland和Finkle(1995)^[11]的工作。

6.2.3 实际案例

案例背景：美团神会员是美团推出的综合权益卡，用户可通过免费领取或者支付一个很低的价格成为“美团神会员”。用户成为神会员用户，可以享受到平台的各种优惠权益。神会员项目中售卖的无门槛券包称为省钱包，目前用户可以通过在美团神会员Tab页直接购买。业务方需要对用户在不同行业中购买省钱包后的下单行为变化进行定量分析，以评估用户购买省钱包对业务的影响。

评估难点：实验观察的行为（是否购买券包）不满足随机对照条件，无法进行随机AB实验评估效果。由于业务特性，影响用户下单行为的协变量较多，需要考虑如何进行匹配，能够减少选择偏差。

解决方法：采用倾向分匹配（PSM）进行观察性研究，以计算策略效果，具体流程如下：

圈选购买省钱包的用户作为实验组；
圈选未购买省钱包的用户作为候选的对照组；
计算用户特征作为倾向分计算的协变量，包含用户历史交易相关数据、访问相关特征、用户分层等，训练倾向分模型；
使用可放回的抽样，根据倾向分得分，从候选的对照组中为实验组的用户进行匹配，得到对照组；
计算实验组和对照组的目标指标，评估实验的效果。

评估指标：**

评估周期：**

评估结果：

6.3 Causal Impact

6.3.1 概述

在美团履约和外卖业务中，部分策略由于无法进行随机实验，同时为了避免影响用户体验，需要在城市粒度上进行实施和评估。这些策略包括线下广告投放、冬夏季城市战和时段场景营销等。然而，常用的评估方法在处理这些局部全量策略效果时存在一定的局限性：首先，单重差分法假设功能或策略是唯一的影响因素，但现实中市场环境复杂，影响因素多样，使得这一假设难以成立。其次，倾向分匹配法（PSM）虽然在特征选择和匹配质量上有其优势，但难以消除未观测的混杂因素。此外，合成控制方法（SCM）要求协变量及目标变量均相似的对照组，这在实际应用中难以获得。最后，双重差分法（DID）假设干预组和对照组在没有干预的情况下会有相同的趋势，这一假设在实践中较难成立。

为了解决这些问题，Causal Impact方法^[12]应运而生。该方法基于贝叶斯结构时间序列（BSTS）模型，通过构建“虚拟对照组”来更准确地评估干预效果。Causal Impact 能够有效捕捉时间序列中的长期趋势和周期性变化，从而提供稳健的因果效应估计，为企业提供可靠的决策支持。

基本思想

Causal Impact方法的基本思想是通过贝叶斯结构时间序列（Bayesian Structural Time Series, BSTS）模型来评估干预措施的因果效应。其核心在于构建一个“虚拟对照组”，用于预测在没有干预措施情况下目标变量的可能表现。然后，将该预测值与实验组的真实值进行对比，从而评估策略效果。

以城市粒度实验为例，具体步骤如下图6-3：

适用场景与优缺点

Causal Impact方法的有效性依赖于若干重要的前提条件和假设，这些条件共同构成了确保因果效应估计准确性和可靠性的基础。首先，需要有可用且平稳的时序数据，即足够的历史数据，涵盖完整的周期性模式，且时间序列中的趋势和季节性成分是平稳的。其次，须有相似、独立、稳定的对照组，与目标市场行为模式相似且未受干预影响，并在实验期间保持稳定。此外，时间序列数据需符合状态空间模型的基本假设，包括线性关系、正态分布误差和马尔可夫性质。模型中应包含所有重要的控制变量，确保没有遗漏关键的影响因素。最后，数据中应没有显著的异常值或极端情况，或已妥善处理这些问题。

在应用Causal Impact方法进行因果效应分析时，了解其优势和局限性对于确保分析的准确性和可靠性至关重要。Causal Impact方法结合了贝叶斯结构时间序列模型和反事实预测技术，能够在复杂的时间序列数据中提供稳健的因果效应估计，具体而言，其优势在于：

灵活的时间序列建模：适用于复杂时间依赖结构的数据集，能够捕捉数据中的趋势、季节性和异常值。
无需随机对照试验：能够在没有随机实验的情况下估计因果效应，通过构建“虚拟对照组”来进行因果推断。
不确定性量化：提供完整的后验分布，能够量化不确定性，从而提供更为全面的因果效应评估。
动态适应性：支持动态回归系数，能够根据时间变化动态调整模型，增强模型的灵活性和适应性。

尽管Causal Impact方法具有显著的优势，但在实际应用中也需注意其局限性，以确保分析结果的可靠性。这些局限性包括：

依赖高质量对照组：方法的准确性高度依赖于对照组的选择。如果对照组选择不当，可能导致估计偏差。
假设严格：方法假设目标市场和对照组的行为模式相似，且对照组不受干预影响。这一假设在实际应用中可能不完全成立。
难以处理复杂因果关系：对于复杂的多因素交互作用或长期滞后效应，方法可能不够准确。
需要足够长的历史数据：需要足够长的历史数据来训练模型，以捕捉数据中的长期趋势和季节性变化。

通过明确这些优势和局限性，可以更好地应用Causal Impact方法进行因果效应分析，从而确保分析的准确性和可靠性。

6.3.2 原理

在本节，我们将详细介绍Causal impact的基本原理。

模型设定

Causal Impact通过采用贝叶斯结构时间序列（Bayesian Structural Time Series, BSTS）模型，结合状态空间模型（State-Space Models）与贝叶斯推断（Bayesian Inference）方法来构建反事实预测模型，从而估计在没有干预措施的情况下结果变量的预期表现。考虑一个常规的BSTS模型：

贝叶斯推断

在Causal Impact中，对于上述介绍的BSTS模型，我们通常会使用贝叶斯后验推断来估计反事实预测值，即：

后验推断：一般情况下，因为模型的复杂性，我们无法直接得到反事实预测值后验分布的显示表达式。因此，我们可以考虑利用MCMC（Markov Chain Monte Carlo）方法，通过构建一个马尔可夫链（Markov Chain），使得该链的极限分布（平稳分布）为目标后验分布，从而实现从后验分布中的有效采样进行后验推断。以上面的Local Level模型为例，一个完整的Causal Impact过程可见图6-4 ：

因果效应评估

通过贝叶斯后验推断，我们可以得到反事实预测（Counterfactual Prediction）结果，即：

6.3.3 实际案例

为了更直观地展示Causal Impact方法的运行机制，这里举一个外卖一体化营销的例子。

背景介绍：以往在城市维度进行营销时，业务主要依赖站内补贴资源来推动城市交易额的增长，而站内外、线上线下资源的协同效应相对较弱。前几年，美团外卖推出了一种全新的一体化营销模式，通过组织统筹和综合效应，促进站外广告营销、一线运营的协同作用。当前，美团外卖在一体化营销城市战中投入了大量人力和物力，这样的投入是否值得？为此，我们需要构建一个评估方法来衡量一体化营销策略对业务的影响。

评估难点：由于涉及站外和站内、线上和线下的多策略组合，评估面临一些挑战，无法通过A/B测试和倾向评分匹配（PSM）进行有效评估。同时，不同城市的天气等外部因素差异显著，难以找到满足平行趋势的对照组城市，这也使得双重差分法不适用。此外，为避免影响用户体验，策略不能频繁变更，因此时间片轮转也不可行。

解决方法：考虑在全城范围内实施站内站外、线上线下的组合策略，可以利用Causal Impact方法进行评估。具体做法是，从暂未实施该策略的城市中选择一些作为候选城市，并结合天气等外生变量，拟合出一个虚拟的“对照城市”进行评估。

评估指标：**

评估周期：**

评估结果：

6.4 展望与拓展

在上文中，我们主要介绍了合成控制法、匹配方法以及Causal Impact等方法。此外，还有许多广泛应用于观察性研究的方法值得进一步探讨，尤其是在上述方法不满足评估需求时，可以考虑使用以下方法：

逆概率加权（Inverse Probability Weighting, IPW）：通过为每个样本分配权重来调整样本分布，以有效控制混杂变量的影响，从而更准确地估计处理效果。
双重稳健估计（Doubly Robust Estimation）：结合倾向得分模型和结果模型的优点，即使其中一个模型不完全正确，依然能够提供一致的因果效应估计。
工具变量法（Instrumental Variable, IV）：通过引入一个工具变量（IV），该变量与处理变量相关但与结果变量无关（仅通过处理变量影响结果），从而解决内生性问题，准确估计因果效应。工具变量法特别适用于处理变量与误差项相关的情况，例如遗漏变量偏差或测量误差。
双重机器学习（Double Machine Learning, DML）：结合了机器学习与因果推断方法，旨在高维数据环境下准确估计因果效应。该方法通过使用机器学习模型分别估计处理变量和结果变量与协变量之间的关系，并通过残差化（residualization）与交叉验证（cross-fitting）技术，有效控制潜在的混杂因素，减少模型误差带来的偏差。

这些方法各具特色，为我们提供了多样化的评估工具。如果能够合理选择并使用这些方法，我们可以在复杂的业务环境中更好地进行效果评估，得到科学的评估结果，进而为决策提供科学依据。

参考资料

[1] 业务特征：各运力线的承托比、骑手规模、总完单量、拼好饭单占比、跑腿单占比、推订单完成率等等。
[2] Abadie和Gardeazabal（2003）：Abadie, A., & Gardeazabal, J. (2003). The economic costs of conflict: A case study of the Basque Country. American economic review, 93(1), 113-132.
[3] Rubin证得：Rosenbaum, P. R. and Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70:41–55.
[4] Stuart（2010）：Stuart, E. A. (2010). Matching methods for causal inference: A review and a look forward. Statistical science: a review journal of the Institute of Mathematical Statistics, 25(1), 1.
[5] Ho 等人（2007）：Ho DE, Imai K, King G, Stuart EA. Matching as nonparametric preprocessing for reducing model dependence in parametric causal inference. Political Analysis 2007;15(3):199–236.
[6] badie 和 Imbens（2008）：Abadie, A. and Imbens, G. W. (2008). On the failure of the bootstrap for matching estimators. Econometrica, 76:1537–1557.
[7] Otsu 和 Rai（2017）：Otsu, T. and Rai, Y. (2017). Bootstrap inference of matching estimators for average treatment effects. Journal of the American Statistical Association,112:1720–1732.
[8] Rubin和Thomas（2000）：Rubin, Donald B., and Neal Thomas. Combining propensity score matching with additional adjustments for prognostic covariates.“Journal of the American Statistical Association 95.450 (2000): 573-585.
[9] Anthony和Gutman(2019)：Scotina, Anthony D., and Roee Gutman. Matching algorithms for causal inference with multiple treatments. Statistics in medicine 38.17 (2019): 3139-3167.
[10] Dehejia 和 Wahba(1999)：Dehejia, Rajeev H., and Sadek Wahba. Causal effects in nonexperimental studies: Reevaluating the evaluation of training programs. Journal of the American statistical Association 94.448 (1999): 1053-1062.
[1] Greenland和Finkle(1995)：Greenland S, Finkle WD. A critical look at methods for handling missing covariates in epidemiologic regression analyses. American Journal of Epidemiology 1995;142:1255–1264.
[12] Causal Impact 方法：Brodersen, K. H., Gallusser, F., Koehler, J., Remy, N., & Scott, S. L. (2015). Inferring causal impact using Bayesian structural time-series models.
[13] Spike-and-Slab先验：结合了“尖峰”（Spike）和“平板”（Slab）两个部分，尖峰（Spike）部分是一个集中在零附近的分布，表示某个参数可能为零或接近零，反映了变量不被选择或对模型贡献很小的情况；平板（Slab）部分是一个较为宽松的分布，允许参数有较大的值，表示该变量可能对模型有显著贡献。