使用正则化工具变量学习多个随机实验中的因果效应

198 浏览量更新于2023-10-16 收藏 13.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

good decisions than via observation alone [20, 25, 28]. However,a single experiment is often insucient to learn about the causalmechanisms linking multiple variables. Learning such multivariatecausal structures is important for both theory building and makingdecisions [16, 21].Consider the situation of a internet service for watching videos.The rm is interested in how watching dierent types of videos(e.g., funny vs. serious, short vs. long) aects user behaviors (e.g.by increasing time spent on the site, inducing subscriptions, etc.).Such knowledge will inform decisions about content recommen-dation or content acquisition. Even though the rm can measureall relevant variables, training a model on observational data willlikely be misleading. Existing content recommendation systems andheterogeneous user dispositions will produce strong correlationsbetween exposure and time spent or subscription, but the mag-nitude of this correlation will, in general, not match what wouldoccur if the decision-maker intervened and changed the promotionor availability of various video types. Thus, we are interested notjust in prediction but prediction under intervention [9, 10, 30].The standard solution is to run a randomized experiment expos-ing some users to more of some type of video. However, a singletest will likely change many things in the complex system. It is hardto change the number of views of funny videos without aectingthe number of views of serious videos or short videos. This is some-times called the problem of ‘fat hand’ because such interventionstouch multiple causal variables at once and so the eect on a singlevariable is not identied. To solve this issue the company wouldneed to experiment with several factors simultaneously, perhapsconducting new experiments specically to measure eects viaeach mechanism [21].However, because routine product experimentation is commonin internet companies [5, 24, 38], this rm has likely already runmany A/B tests, including on the video recommendation algorithm.The method proposed in this paper can either be applied to a newset of experiments run explicitly to learn a causal eect vector [asin, e.g., 13], or can be applied to repurpose already run tests bytreating them as random perturbations injected into the systemand using that randomness in a smart way.Our contributions arise from adapting the econometric method ofinstrumental variables [IV; 1, 32, 40] to this setting. It is well knownthat a standard IV estimator — two-stage least squares (TSLS) — isbiased in nite samples [3, 35]. For our case, it also has asymptoticbias. We show that this bias depends on the distribution of thetreatment eects in the set of experiments under consideration.Our main technical contribution is to introduce a multivariate l0regularization into the rst stage of the TSLS procedure and showthat it can reduce the bias of estimated causal eects. Because in6990使用正则化工具变量从多个随机实验中学习因果效应0Alexander PeysakhovichFacebook人工智能研究纽约，纽约州alexpeys@fb.com0Dean Eckles 麻省理工学院剑桥，马萨诸塞州 deckles@mit.edu0摘要0科学和商业实践越来越多地导致大量的随机实验。多个实验一起分析可以告诉我们单个实验无法告诉我们的东西。我们研究如何从现代数据科学家面临的这种类型的集合中学习变量之间的因果关系：实验的数量很大，许多实验具有非常小的效应，并且分析师缺乏元数据（例如，干预的描述）。我们使用实验组作为工具变量（IV），并且显示出即使实验的数量是无限的，标准方法（两阶段最小二乘法）也是有偏的。我们展示了如何通过稀疏感应l0正则化来减小干预预测的偏差（从而减小误差）。我们感兴趣的是估计因果效应，而不仅仅是预测结果，因此我们还提出了一种修改的交叉验证过程（IVCV）来可行地选择正则化参数。我们使用蒙特卡罗抽样的技巧表明，IVCV可以使用摘要统计而不是原始数据来完成。这使得我们的完整过程在许多实际应用中易于使用。0CCS概念0• 一般和参考 → 实验； • 计算的数学 → 概率和统计； •计算方法 → 机器学习；0关键词0因果关系，实验，工具变量，机器学习0ACM参考格式：Alexander Peysakhovich和DeanEckles。2018.使用正则化工具变量从多个随机实验中学习因果效应。在《2018年网络会议（WWW2018）论文集》中。ACM，纽约，纽约，美国，9页。https://doi.org/10.1145/3178876.318615101 引言0本文发表在知识共享署名4.0国际许可证（CC BY4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04.. https://doi.org/10.1145/3178876.31861510Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, France7000在有限样本中，这种正则化过程会减小偏差但增加方差，我们引入一种方法来权衡这些并选择正则化参数。我们将此过程称为工具变量交叉验证（IVCV）。通过结合模拟和数百个真实随机实验的数据进行实证评估，我们展示了IVCV的l0正则化优于TSLS和贝叶斯随机效应模型。最后，我们展示了如何以计算和实际高效的方式进行这种估计。我们的正则化和交叉验证过程只需要实验组的摘要统计数据。这在使用原始数据计算或实际上是繁重的情况下是有优势的，例如在互联网公司的情况下。这意味着该方法的计算和数据存储复杂性实际上是相当低的。此外，标准的A/B测试平台[5,41]应该已经计算和存储了所有所需的统计数据，因此这里的方法可以被视为对现有统计数据的“升级”。02 混淆和基本工具变量模型0假设我们有一些（可能是向量值的）随机变量X和一个标量值的结果变量Y。我们想要问：如果我们改变X的某个分量一单位，保持其余部分不变，Y会发生什么变化？形式上，我们研究一个线性结构（即数据生成）方程对0X = Uψ + ϵX0Y = Xβ + Uγ + ϵY0其中U，ϵX和ϵY是均值为0的独立随机变量，不失一般性。请注意，在A/B测试中，我们通常对系统的相对较小变化感兴趣，因此我们可以只考虑对真实函数的局部线性近似。我们还可以考虑基函数的扩展。我们将X称为因果变量（在我们的激励示例中，这将是每种视频类型的观看时间的向量），Y称为结果变量（这里是整体用户满意度），U称为未观察到的混淆因素，ϵ称为噪声，β称为因果效应。一般来说，我们对估计因果效应β感兴趣，因为我们对干预感兴趣，例如，会改变我们的数据生成模型为0X = Uψ + ϵX + a.0在存在未观察到的混淆因素的情况下，使用预测模型试图学习因果关系可能会使我们误入歧途[9, 10, 30,33]。假设我们有形式为（X，Y）的观测数据，其中U完全未观察到。如果我们使用这些数据来估计因果效应β，由于未观察到的混淆因素的影响，我们可能得到一个（即使在无限样本中）比真实因果效应β更大、更小甚至相反符号的估计值。为了看到这一点，考虑上述线性结构方程模型，并假设我们只观察到（X，Y），其中两者都是标量。由于基本模型是线性的，我们可以尝试使用线性回归来估计它。然而，不在回归中包括混淆因素U会得到估计值：0ˆβobs =(X0X)−1(X0Y)0当所有变量都是标量时，代数运算得到0E[ˆβobs] = β + γU)0Var（X）。0因此，给定X的最佳线性预测器Y（ˆβobs）可能不会导致对我们进行干预（β）时Y会发生什么的良好估计。0图1：表示结构方程的有向无环图（DAG），其中X和Y之间的关系被U所混淆，并包括工具变量Z。十字表示被工具变量假设排除的因果关系。0我们现在讨论工具变量（IV）估计器作为学习因果效应的方法。假设我们有一些具有两个属性的变量Z（请参见表示这些假设的有向无环图的图1）：0(1)Z不是由(X，U，Y)系统中的任何因素引起的；也就是说，Z与随机分配一样好。（2）Z只通过X影响Y。这通常被称为排除限制或完全中介假设[3]。0就结构方程而言，这会修改X的方程为X = Zµ + Uψ +ϵX，其中µ和ψ是适当的独立性假设。β的标准IV估计量是两阶段最小二乘法（TSLS），它的工作原理是将X的方差分解为两个部分。第一个部分与真实因果效应混淆（即来自U）。另一方面，第二个部分与U无关。因此，如果我们只能将Y回归到随机分量上，我们就可以恢复因果效应β。知道Z使我们能够做到这一点（即仅使用Z引起的X的变化，而不是U）。TSLS可以这样理解：在第一阶段，我们将X回归到Z上。然后，我们用回归的预测值替换X。在第二阶段，我们将Y回归到这些拟合值上。可以很容易地证明，当n趋于无穷时，该估计量收敛到真实的因果效应β[39，定理5.1]。所有的IV方法都做了一个满秩假设。为了估计每个变量Xj在其他X保持不变的情况下对Y的影响，必须满足Z引起X的各个维度的独立变化。这意味着至少必须有与β的维度相同数量的工具才能使TSLS起作用。未来工作的一个有趣且富有成果的方向是当X的某个子空间被我们的工具很好地跨越，但某个子空间没有被跨越时应该怎么办。0Track: User Modeling, Interaction and Experience on the Web WWW 2018, April 23-27, 2018, Lyon, France¯X = ¯Z + ¯U� + � ¯X ,E[�T SLS] = � + � Cov( ¯X, ¯U )Var( ¯X ).plimK!1ˆ�TSLS = � +�� 2Unper� 2 � 2Unper +� 2�Xnper + �2¯.¯Z = E[X |Z] ⇠8><>:Track: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France70103个IV与没有元数据的测试组0在我们感兴趣的设置中，来自大量实验的随机分配的组是工具变量。形式上，这里的IV是一个分类变量，指示一个单位（例如，用户）在许多实验中被分配到的K个测试组中的哪一个。为了简化符号，我们假设每个处理组д2{1，...，K}都有nд=n per个单位随机分配给它。03.1 计算性质0表示TSLS的第一阶段回归的方法是使用每个单位分配到的组的one-hot表示（或虚拟变量编码），使得Zi是一个K维向量，其中有一个1表示随机分配的组。在这种设置下，TSLS估计量具有非常方便的形式。X关于Z的第一阶段回归简单地给出了X在每个组中的组水平均值的估计。这意味着如果每个组有相同数量的单位（例如，用户）和相同的误差方差，第二阶段也具有方便的形式：我们可以通过将X的组水平平均值回归到Y上来恢复β[3，第4.1.3节]。因此，为了从大型元分析中估计因果效应，实践者不需要保留或计算原始数据（在中等或大型互联网公司的A/B测试环境中可能涵盖数百万或数十亿行数据），而是可以保留和计算每个A/B测试组中X和Y的样本均值（现在只有数千行数据）。这些是已经在最自动化的A/B测试系统中记录的量[5，41]。使用摘要统计量简化了计算，并允许我们重复使用现有数据。03.2 分组IV估计量的渐近偏差0现在有多种方法来思考这个“组作为工具变量”估计量的渐近性质。要么我们增加每个实验的大小（n趋于无穷），要么我们增加更多的实验（K趋于无穷）。前者是标准的渐近序列，但对于一个不断增长的实验集合的元分析来说，后者是更自然的渐近序列，所以我们固定n，但增加K。我们将X、Y、Z、U为标量的情况与之前的情况进行比较。我们用横线表示变量的组水平均值（例如，¯X表示X的组水平均值的随机变量）。回忆一下，我们的TSLS在组的情况下是将¯Y回归到¯X上的。将因果变量的组水平平均值分解为0其中 ¯ Z � Zµ = E [ X | Z ]0是IV模型的真实第一阶段（即我们在TSLS的第一阶段中试图学习的内容）。在实验作为工具的情况下，这个术语有一个很好的解释：当分配给实验组时，它是因果变量的真实平均值。如果我们假设（不失一般性）X的均值0如果 n per为0，那么这个第一阶段也可以被解释为实验的真实处理效应。虽然我们不考虑 n per 趋向无穷大的渐近级数，但是 n per通常也足够大，以至于我们可以使用中心极限定理保证的样本均值的正态性。因此，¯ U 和 ¯ ϵ X 的均值为0，方差与 n per -1成比例。对于有限的 n per ，我们可以证明，即使 K趋向于1，TSLS也会有偏差[参考 2 , 7 ]。假设为了直观，¯ Z的均值为0，有限方差 σ 2 ¯ Z，这个偏差的闭式形式可以通过以下推导得到。首先，将 ¯ A定义为变量 A 的组级均值。根据结构方程，我们知道：¯ X = ¯ Z + ¯ Uψ + ϵ ¯ X ¯ Y = ¯ Xβ + ¯ Uγ + ϵ ¯ Y由于在这种情况下TSLS估计量是¯ X 对 ¯ Y的回归，我们可以使用上面推导的标量情况的方程来重写0要理解这个偏差来自哪里，考虑¯ Z始终为0的情况。仪器没有起作用，但是组级平均值仍然包括组级混淆噪声；也就是说，对于有限的 n per ，¯ U有正方差。因此，我们只是恢复了已经讨论过的包括遗漏变量偏差的原始观测估计。当 Z 不是退化的时候，¯ X 和 ¯ Y 包括来自 ¯ U 和 ¯Z 的变化。随着 n per 的增加，¯ U 的影响减小，因此 ˆ β TSLS 对 β是一致的。虽然在许多情况下，由工具变量引起的变异很大，这种偏差可以安全地忽略，但在在线A/B测试的情况下，情况可能并非如此。由于在线实验往往涉及爬坡和小幅改进（增加了几个百分点或更少），TSLS估计量在实践中可能会有相当大的偏差（下面会详细讨论）。04 降低偏差的正则化0我们现在介绍一种可以降低TSLS估计量偏差的正则化过程。我们证明，在这种情况下，l0正则化的第一阶段是可行的，并且在潜在处理效应的分布满足一些条件时，可以帮助减少这种偏差。04.1 通过混合模型的直觉0进行的A/B测试有很多种类——有些是在边际上进行微调，有些是对行动空间进行更大的探索。考虑一个简化的情况，有两种类型的测试，将方差较小的类型称为“弱”测试，而方差较大的类型称为“强”测试。在这种情况下，我们可以将第一阶段 ¯ Z建模为从两个组分混合分布中抽取的结果：0N ( 0 , σ 2 weak ) 的概率为 p N ( 0 , σ2 stronд ) 的概率为 ( 1 − p )plimK!1ˆ�TSLS,j = � + �� 2¯Y = ¯X + ¯U�¯X = ¯Z + ¯U .¯Z = E[X | Z] ⇠ t(d f = 3,scale = .4).Track: User Modeling, Interaction and Experience on the WebWWW 2018, April 23-27, 2018, Lyon, France7020如果我们知道哪个组从哪个组分中抽取，并且只使用 ¯ Z从同一组分中抽取的组运行两个单独的TSLS过程，我们将渐近地得到两个估计量：0每个n0ψ2σ0每个n + σ2ϵX每个n+ σ2j0这里j∈{weak,strong}表示特定群体的¯Z是从哪个组分中抽取的。因为σ2strong >0得出ˆβTSLS,strong是一个渐近偏差较小（因此渐近更好）的估计量，优于ˆβTSLS,weak。因此，如果可以选择，我们将选择仅使用强检验来估计因果效应。实际上，我们可能不知道每个群体是从哪个组分中抽取的，如果简单地对整个数据集运行TSLS，该估计量将是两个估计量的加权组合。在这个离散混合模型中，我们受限于我们能够减少偏差的程度（因为plimK→∞ˆβTSLS,strong,β）。然而，如果处理效应服从一个无限混合的正态分布，该分布在所有方差的正态分布上具有全支持（例如t分布），那么我们可以通过仅使用来自方差任意大的组分的观测值，渐近地将偏差降低到任意小的程度。现在，我们引入一种正则化过程，试图执行这种选择。因为使用这种正则化会有效地减小我们的数据集大小，减小偏差会增加方差。因此，之后我们将转向一种设置正则化参数以获得良好有限样本偏差-方差权衡的过程。04.2 第一阶段正则化的形式化0考虑一个数据集（¯X,δ, ¯Y,δ）的群体平均向量。令0p(x) = Pr(|¯U+¯εx,δ| > |x|)0为群体观测值x的p值，在‘无干预’零假设下Z =0。鉴于在无干预条件下¯X服从正态分布，计算p很简单，只需要X的观测（组内条件）协方差矩阵。对于给定的阈值q∈(0, 1]，令0¯Xq,δ�><>：0¯X,δ if p(¯X,δ)

下载后可阅读完整内容，剩余1页未读，立即下载