因果关系对机器学习的影响及可解释人工智能的发展

126 浏览量更新于2024-01-04 收藏 762KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2我我我我工程6（2020）253研究人工智能综述因果关系y邝坤a，李连b，耿志c，徐磊d，张坤e，廖北水f，黄华新f，丁鹏，王淼，姜志超a浙江大学计算机科学与技术学院，浙江杭州310058b合肥工业大学计算机科学与技术系，合肥230009c北京大学数学科学学院，北京100871d上海交通大学计算机科学与工程系，上海200240卡内基梅隆大学哲学系，匹兹堡，PA 15213，美国f浙江大学人文学院，浙江杭州310058g加州大学伯克利分校，伯克利，CA 94720，美国北京大学光华管理学院，北京100871i哈佛大学政府统计系，Cambridge，MA 02138，USA阿提奇莱因福奥文章历史记录：收到2019年2019年7月31日修订2019年8月26日接受2020年1月8日在线提供保留字：因果推理指导变量阴性对照因果推理和解释因果发现反事实推理治疗效果估计A B S T R A C T因果推理是一种强大的解释性分析建模工具，它可以使当前的机器学习变得可解释。如何将因果推理与机器学习相结合，开发可解释的人工智能（XAI）算法是迈向人工智能2.0的关键步骤之一。为了给机器学习和人工智能的学者带来因果推理的知识，我们邀请了从事因果推理的研究人员从因果推理的不同方面撰写了这份调查。本调查包括以下几个部分：李连，徐雷教授的“因果潜势理论”，张昆教授的“从观测数据中发现因果信息”，张教授的“因果推理和解释中的形式论证”。Beishui Liao和Huaxin Huang，©2020 THE COUNTORS.Elsevier LTD代表中国工程院出版，高等教育出版社有限公司。这是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 估计平均治疗效果：简要回顾及展望机器学习方法在许多领域都取得了巨大的成功，但大多数都缺乏可解释性。因果推理是解释性分析的有力建模工具，它可以使当前的机器学习做出可解释的预测。在这篇文章中，我们回顾了两个经典的估计因果效应，并讨论在实践中仍然存在的挑战。此外，我们提出了一种可能的方式来开发可解释的人工智能（XAI）算法，通过结合因果推理与机器学习。y作者对这项工作作出了同样的贡献。每一节的符号定义和符号都是相对独立的。*通讯作者。电子邮件地址：kunkuang@zju.edu.cn（K.1.1. 设置我们感兴趣的是基于潜在结果框架估计二元变量的因果效应[1]。对于由i = 1，2，.. . ，n（n表示样本大小），我们观察治疗Ti、结果和观测变量XRp×1，其中p为观测变量的维数。每个单元的一对潜在结果是是fYi<$1<$;Yi<$0<$g对应于其治疗分配T1/4 1（治疗）或T1/4 0（对照）。观察到的结果Yobs为Yobs<$YiTi<$Ti·Yi11-Ti·Yi 01然后，平均治疗效果定义如下：s¼E½Y1-Y0]2https://doi.org/10.1016/j.eng.2019.08.0162095-8099/©2020 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程杂志主页：www.elsevier.com/locate/eng254K. 匡等其他/工程6 （2020年）253ð·ÞðÞ¼ ð¼js¼Eii-ii拉吉 ¼Þ我我W我我J我J哪里功能E表示的预期函数，并且治疗的平均治疗效果定义为[t<$E1/2Yi1-Yi0jT1/2]。为了识别s和st，我们假设不混淆，Ti？假设协变量分布重叠，0pTi< $1jXi <$1。<<1.2. 两种估计本文简要介绍了两种最有前途的治疗效果估计量，并讨论了多观测变量情况下的估计量1.2.1. 逆倾向加权在完全随机实验中，治疗随机分配到单位，这意味着T i？Xi.然而，在观察性研究中，治疗Ti是根据Xi分配的。为了从Xi中去除混杂效应，倾向评分，表示为eXi我不是1Xi，建议对每个单元i重新加权。然后，s可以通过以下公式估计：1.3.2. 治疗的相互作用在实践中，治疗可以包括多个变量及其相互作用。在社会营销中，不同广告策略的综合因果效应可能会引起人们的兴趣。需要对联合治疗的因果关系进行1.3.3. 未观察到的混杂因素未观察到的混杂因素的存在等同于违反了无混杂性假设，并且不可检验。控制高维变量可能使不混淆更合理，但对倾向评分估计和混淆因素平衡提出了新的挑战。1.3.4. 重叠有限虽然重叠假设是可检验的，但它在实践中提出了几个问题，包括如何检测协变量分布中缺乏重叠，以及如何处理这种缺乏，特别是在高维环境中。此外，估计治疗效果仅可能用于重叠区域。最近，有人建议进行相关工程，以解决“YobsTYobs1-T编号上述挑战，包括连续治疗[6]，相互作用，ð3Þ治疗[7]、未观察到的混杂因素[8]和限度eXi1-eXi[99]第109话通过结合倾向加权和回归，也可以用双重稳健方法估计治疗效果[2]。在高维环境中，并非所有观察到的变量都是混杂因素。为了解决这个问题，Kuang et al.[3]建议将所有观察到的变量分为两部分：用于倾向评分估计的混杂因素，以及用于减少估计因果效应方差的调整变量1.2.2. 混杂因素平衡消除混杂效应的另一种有希望的方法是通过使用样本权重W对样本进行重新加权来平衡治疗组和对照组之间的混杂因素分布，并估计st如下：st<$EhYobsjTi<$1i-EhWjYobsjTj<$0i41.4. 走向因果和稳定预测大多数预测算法缺乏可解释性，这使得它们在许多实际应用中不那么有吸引力，特别是那些需要决策的应用。此外，大多数当前的机器学习算法是基于相关性的，导致它们在测试数据上的性能不稳定，测试数据的分布可能与训练数据的分布不同。因此，它可以是有用的，以开发预测算法，是可解释的用户和稳定的分布从未知的测试数据的转变通过假设因果知识在数据集之间是不变受因果关系Kuang等人[11]提出了因果其中，样本权重W可以通过混淆平衡[4]学习，如下所示：W<$argminkEhYobsjT<$1i-EhWYobsjT<$0ik251稳定的预测。他们提出了一个全局变量平衡正则化器来隔离每个变量的影响，从而恢复每个变量和响应变量之间的因果关系，以便在未知数据集上进行稳定的预测。总的来说，如何将因果推理与机器深度结合，在高维环境中，不同的混杂因素可能导致不同的混杂偏倚。因此，Kuang et al.[5]建议联合学习混淆因素权重以区分混淆因素，学习样本权重以平衡混淆因素，并同时使用差异混淆因素平衡（DCB）算法估计治疗效果1.3. 其余挑战现在有更有前途的方法可用于估计观察性研究中的治疗效果，但使这些方法在实践中发挥作用仍存在许多挑战。以下是一些剩余的挑战：1.3.1. 从二进制到连续主要的估计量是为估计二元变量的治疗效果而设计的，在实际应用中取得了良好的效果。然而，在许多实际应用中，我们不仅关心治疗的因果关系，而且还关心剂量响应函数，其中治疗剂量可能具有连续的值。学习开发XAI算法是实现人工智能（AI）2.0[12，13]，仍然存在许多特殊的问题，挑战和机遇。2. 反事实推理在本节中，输入变量X和结果变量Y都是二进制的反事实推理是因果推理的重要组成部分。简单地说，反事实推理是确定如果事件x没有发生（x= 0），事件y也不会发生（y = 0）的概率，假设事件x确实发生（x= 1），事件y确实发生（y= 1），可以表示为以下等式：P=0.000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000其中yx<$4 0是一个反事实的概念，它表示设置为x= 0且其他变量的固定效应不变时y的值，因此它不同于条件概率P y x0 . 这个公式反映了如果事件x不发生，事件y也不发生的概率;也就是说，它反映了K. Kuang et al. / Engineering 6 （2020年）253255¼简体中文¼¼ 联系我们Þ产品尺寸：零点零二分零点零一¼x和y的因果关系。在社会科学或逻辑科学中，这被称为归因问题。在法理学上，它也被称为“但是-为了”的批评。归因问题的研究由来已久，但以往的研究方法多为个案研究、统计分析、实验设计等，如澳大利亚哲学家Mackie在1989年提出的具有影响力的INUS理论。1960年代[14]。这些方法基本上都是定性的，统计该术语反映了x= 1和x= 0条件下的不同风险比。第二个术语是混杂因素，应特别注意。这一术语反映了被其他变量混淆的效应。在自然环境中，y的变化可能由x以两种不同的方式引起：第一，它可能直接由x的变化引起;或者，第二，它可能由x的变化引起。其他变量。这种现象称为混淆。的差值Py<$1jx<$0-Pyx0<$1表示连续度，经验和直觉。然而，随着大数据的出现¼铸造.在某些情况下，x确实引起了对属性问题进行了数据驱动的定量研究，使推理过程更加科学合理。归因有一个孪生问题，即在事件x没有发生（x= 0）和事件y没有发生（y= 0）的情况下，确定如果事件x发生（x= 1），事件y会发生（y当量（7）表示这个概率。Pyx 1<$1jx<$0;y<$07这个等式反映了事件x导致事件x的概率。也就是说，它反映了x和y因果关系的充分性。反事实推理对应于人类的内省，这是人类智能的一个关键特征推理使人们能够预测执行某个行为的结果，而内省使人们能够重新思考他们如何能够在已知的行为效果的情况下改善结果。虽然反省不能改变现有的事实情况，但它可以用来纠正未来的行为。内省是一种数学模型，它利用过去的知识来指导未来的行动。只有具备了内省的能力，智能才能被称为真正的智能。自省在日常生活中也很重要。例如，假设琼斯女士和史密斯夫人都做了癌症手术。琼斯女士也有辐射。最终，两人都康复了。然后，琼斯女士重新思考如果她没有接受放射治疗，她是否会康复。显然，我们不能根据史密斯夫人没有接受放射治疗就康复的事实，推断琼斯女士如果不接受放射治疗就能康复。y的变化，但x可能不是y变化的原因（例如，太阳在鸡叫之后升起）。通过科学实验来确定y变化的真正因果关系，可以排除混杂因素。然而，在许多社会科学问题，甚至在一些自然科学问题中，科学实验却很难进行。在这种情况下，只能获得观测数据。因此，如何从观测数据中识别混淆以确定真正的因果关系是人工智能中的一个基本问题为了解释归因风险分数和混杂因素之间的关系，以及它们在归因问题中的作用（即，因果关系的必要性）更具体地说，我们应用了参考文献[15]中的例子。在这个例子中，A先生说，买了一种药来减轻他的痛苦，吃了药就死了。原告提起诉讼，要求制造商承担责任。制造商和原告提供药物测试结果（即，实验数据）和调查结果（即，非实验数据）。数据如表1所示，其中x= 1表示吸毒，而y= 1表示死亡。制造商的数据来自严格的药物安全性实验，而原告的数据来自对自愿服用药物的患者的调查。制造商声称，该药物是根据药物分销法规获得批准的。虽然它导致死亡率略有增加（从0.014至0.016），与镇痛效果相比，这种增加是可接受的。根据传统的可归因风险分数（超额风险比率）计算，制造商承担的责任为在医疗纠纷、法庭审判等方面，这类问题大量存在。我们所关心的是，一旦一个事实发生，P-1000- P-10000-P-100产品尺寸<$1jx<$1mm2019-06-22 00：00：000点 016分个案。在这些情况下，一般的统计数据，如辐射恢复率，不能提供的解释。通过内省和归因推理计算因果关系的必要性在这些领域中起着关键作用[14]。到目前为止，还没有通用的计算方法存在的方程。（6）.在涉及解决实际问题的情况下，研究人员引入了一个在大多数情况下都可以满足的单调假设，即：yx<$1≥yx <$0单调性的直觉是，原告辩称，药物测试是根据实验方案进行的，受试者是随机选择的，受试者并非自愿服用药物。因此，实验存在偏差，实验设置与实际情况有差异。观测数据和实验数据之间存在巨大差异。鉴于A先生死亡的事实，制造商责任的计算结果是Py<$1jx-1-Py< $1jx<$0Py<$1jx<$0-Pyx0<$1采取行动（x= 1）不会比不采取行动（x= 0）更糟糕。例如，在流行病学中，单调性的直觉对于在被感染后被反向感染的人（y= 0），P-1000x-1000沪ICP备15004888号-1产品尺寸<$1jx<$1mmð10Þ被隔离者（x= 1）和在被隔离之前未被感染者（y= 1）（x= 0）。由于单调性，Eq. （6）可以改写如下：因此，制造商应对先生的死亡承担全部责任。A.P值x00x1y1Py<$1-Pyx<$0<$1P =0.000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000表1实验和非实验数据的例子药物诉讼。P-1000-P-10000- P-1000-P-P-1000x-1000P轴直径<$1jx<$0mm-P轴直径x0<$1mmð8Þ实验数据（患者数量）非实验数据（患者数量）当量（8）有两个条件。第一个术语被命名为可归因风险分数，或超额¼¼x= 1x= 0时x= 1x= 0时死亡（y= 1）1614228存活率（y= 0）984986998972256K. 匡等其他/工程6 （2020年）253风险比率，并且在风险管理中众所周知。K. Kuang et al. / Engineering 6 （2020年）253257ð ¼J ¼联系我们Þ¼--快速浏览一下，根据调查数据，服用和不服用药物的死亡率分别为0.2%和2.8%，这对制造商有利。不过仔细分析，的混杂因子是P y1 x0P y x¼0100： 04：04也就是说，一半的人死于非服药原因这一部分应当不能归因于药物，因此制造商的责任增加。当然，制造商是否应该承担全部责任，以及计算的合理性和科学性也存在疑问[16]。尽管如此，这个例子表明，有一些混杂的因素会干扰真正因果关系的发现。如何确定混杂因素是因果推理中的一个实际问题，也是反事实推理中的一个重要问题。在数据科学中，有模拟数据和客观数据，后者包括实验数据和观测数据。虽然观测数据客观、容易获得且成本低，但它们之间的混淆问题成为因果推断的障碍[17]。特别地，可能存在未知变量（即，在客观世界中的隐藏变量。这些变量未被观察到，但可能对已知变量有影响，也就是说，已知变量应该对未知变量引起的未测量混杂在这方面，目前对混杂的研究还处于起步阶段。读者可以参考参考文献[18]了解更多细节。3. 尤尔-辛普森悖论和代理人悖论通过省略第三个变量Z，两个变量之间的关联测量可能会从正到负急剧变化;这被称为第三个变量Z被称为混杂因素。数值示例如表2所示。风险差（RD）为吸烟组与不吸烟组肺癌比例之差，RD =（80/200）（100/200）= 0.10，为负值。然而，如果将表2所列的400人分为男性和女性，则可以看到巨大的变化（表3）。男性和女性的RD均为阳性，为0.10。这意味着，虽然吸烟对男性和女性都不好，但吸烟对所有这些人都有好处因果推断与其他形式的统计推断的主要区别在于，被认为是混淆者。对于实验研究，可以确定哪些变量影响治疗或暴露;这对于随机实验尤其如此，其中治疗或暴露被随机分配至个体，因为不存在影响治疗的混杂因素。因此，随机实验是因果推断的黄金标准。对于观察性研究，关键是要观察到一组足够的混杂因素或一个独立于所有混杂因素的工具变量。然而，无论是一个足够的混杂集，也不是一个工具变量可以验证的观测数据没有操作。在科学研究中，替代变量（例如，生物标志物）通常被测量而不是终点，因为其测量不可行;然后，治疗对表2吸烟与肺癌表3吸烟和肺癌与按性别分层的人群条件雄性女性癌没有癌症癌症无癌症吸烟351545 105禁止吸烟906010 40通过对替代物的影响预测未测量的终点。替代悖论是指治疗对替代者有积极的影响，而替代者对终点有积极的影响，但治疗可能对终点[21]。数值例子在参考文献中给出。[21、22]。这一悖论也质疑科学知识是否对政策分析有用[23]。举一个真实的例子，医生们知道不规则的心跳是猝死的一个危险因素。有几种治疗方法可以纠正不规则的心跳，但它们会增加死亡率[24]。Yule–Simpson为了避免其次，如果禁止随机化，则预期使用实验方法获得数据，因为这种方法试图平衡待比较的两组之间所有可能的未观察到的混杂因素。第三，一种基于风险的实验方法，其中利益被随机分配给一部分参与者，这样的分配可以改变他们的暴露概率，可以用来设计一个工具变量。最后，对于纯观察方法，有必要使用领域知识验证因果推理所需的这两个悖论还指出，三段论和传递性推理可能不适用于统计结果。从统计学上讲，吸烟对男性和女性都有好处，研究的人口包括这些男性和女性;然而，统计数据表明，吸烟对整个人口都是有害的统计数字可能显示，新药物可以纠正不规则的心跳，而有规律的心跳，无论在统计数字上或对个人来说，都可以提高生存时间，但在统计数字上，新药物仍然可能缩短这些人的生存时间。4. 因果势理论人们已经做了大量的努力来检测因果方向，评估因果强度，并从观察中发现因果结构实例不仅包括Pearl、Spirtes等基于条件独立性和有向无环图（DAG）的研究，还包括Rubin因果模型（RCM）、结构方程模型（SEM）、函数因果模型（FCM）、加性噪声模型（ANM）、线性非高斯无环模型（LiNGAM）、后非线性（PNL）模型和因果生成神经网络（CGNNs）的研究，以及发现星形结构[25]和识别所谓q图[26]的研究。在某种程度上，这些努力有着相似的思维方向。首先，假设一个因果结构（例如，在最简单的情况下仅仅是一个方向，或者在复杂的情况下是DAG），或者以参数形式建模其次，使用观测数据来学习参数模型或估计统计量，然后检查模型是否符合观测值，以及约束是否在此基础上，我们可以验证假设的因果关系是否成立条件人数癌没有癌症总吸烟80120200禁止吸烟100100200258K. 匡等其他/工程6 （2020年）253g;g.X yΣΣð Þ ð jÞ中文（简体）联系我们ΣΣHNt1/2不U不结构从外部描述了油井的观测结果。通常，假设一组因果结构作为候选，从中选择最好的。因果电位理论（CPT）是最近提出的一种非常不同的思维方式[27]。与物理学类似，因果关系在这里被认为是由因果势能引起的内在动力学性质。在不失一般性的情况下，通过考虑环境U中的一对变量x，y，y之间的因果关系来引入CPT。而不是假设一个因果结构（即，一个特定的方向），一个估计的非参数分布p U x;y ，p x;yU 从山姆-x，y的乘积，并获得相应的因果势能EU x;ylnpU x;y，在基于吉布斯分布的类比中。从因果动力学的角度来看，在x，y发生的事件与E U x;y相关联产生一个力g;g到通过动力学导致后续事件，将信息流或因果过程驱动到具有最低能量的区域，或者等效地，驱动到事件有高发生机会的区域，使用符号gU，rUEU和u_t，du=dt. 也就是说，CPT将因果关系视为动力学的内在性质，并通过分析发现因果关系表4显示了分析CPT因果关系的两种方法。道路A是通过对gy，y之间的相互独立性和gx，x之间的相互独立性测试“是”或“否”的答案来进行的前两种类型表示两种类型的因果关系。第三种类型，Y-Y，表示x，y之间的独立性-也就是说，表示它们之间没有关系最后一个类型，N-N，表示也就是说，尽管在x，y之间没有检测到全局的因果关系，但是需要进一步的研究来确定在x，y的某些区域中因果关系是否仍然局部地发生，或者甚至是局部地发生。A路需要独立测试。相比之下，道路B将问题转化为监督学习，将x，y作为神经网络的输入以拟合两个梯度分量gx;gy，每个梯度分量由不同的神经网络拟合，分别将x，y一个合适的选择，不仅根据适合，而且简单。表4列出了基于这种方法的四种结果[27]。寻求某一估计量直接求出gx，gy是可能的根据样本x t，y t，其中t = 1，.. . ，N和N是指样本量。也可以通过估计px; y间接地获得gx，gy首先，即通过执行核估计，px;y1PN G.x;y。x;y;h2I，其中存在高斯分布，将表4中的方法引入到著名另一种是将gy与x不相关（或无关）和gx与y不相关（或无关）的条件转化为多元多项式方程，并将其加入到文献[26]中的q图方程中，例如，当量(29)和等式(33)，得到一个增广的多项式方程组。然后，可以采用著名的Wen-Tsun Wu方法来检查方程是否具有唯一或有限数目的解。5. 从观测数据中发现因果信息因果关系是科学中的一个基本概念，在解释、预测、决策和控制中起着重要作用[28，29]。现代因果关系研究中有两个基本问题需要解决。一个基本的问题是因果效应的识别，也就是说，在部分或完全已知的因果结构和一些观测数据的情况下，识别干预的效应;这通常被称为在这个研究方向的进展，读者被称为参考。[29]和其中的参考文献在因果推理中，假设因果结构是预先给定的，但是如果因果结构没有给定，我们怎么能发现因果关系的传统方法是采取干预措施或随机实验，这在许多情况下过于昂贵或耗时，甚至从实践的角度来看是不可能的。因此，另一个重要的因果关系问题，即如何通过分析纯观测数据来揭示因果信息，引起了人们的极大关注[28]。在过去的三十年里，人们对因果发现的原则性方法的兴趣迅速蔓延，这在一定程度上是由技术发展推动这些技术发展包括收集和存储大量变量和样本大小的大数据的能力，以及计算机速度的提高在包含诸如天气卫星图像、用于脑成像的功能性磁共振成像（fMRI）、基因表达数据或单核苷酸多态性（SNP）数据的测量的领域因果发现技术没有的那么自动搜索的帮助似乎是无望的。在同一时间，更快的计算机与更大的内存平均值m和方差r2。或者，可以获得pU通过一个假定的因果结构，并进行CPT分析在这个PU。实验上的因果关系对（CEP）的基准已经证明，一个初步的和简单的实施CPT已取得的性能与国家的最先进的方法所取得的。进一步的发展是探索多变量分布和多变量之间的因果结构的估计，可能沿着两个方向。一个是简单地整合表4分析CPT因果关系的两条道路。你好吗 xx？y和盘空间允许实际实现处理大规模问题的计算密集型自动算法。在统计学中众所周知，“因果关系意味着相关性，但相关性并不意味着因果关系。”也许说相关性并不直接意味着因果关系更公平;事实上，很明显，在适当的假设下，一组随机变量的因果结构（通常用有向图表示）至少在某种程度上可以从变量的观测数据中恢复出来。自20世纪90年代以来，x？yA路B路A路B路A路B路A路B路A路B路gxDependent ofyn（x，y）+eynxeynxeDependent ofynx;yegy xg（y）+eDependent ofxgx;yexg（y）+eDependent ofxgx;ye在本节中，我们重复使用x，y来表示一对变量，它们之间的关系可能是因果关系。XyK. Kuang et al. / Engineering 6 （2020年）253259¼ðÞ数据中的独立关系已经被用于估计潜在的因果结构的目的典型的（条件独立）基于约束的方法包括PC算法和快速因果推理（FCI）[28]。在没有混淆因素的情况下（即，两个被测变量的不可观测的直接公因），PC的结果是渐近正确的。FCI给出了渐近正确的结果，即使有混淆。这些方法具有广泛的适用性，因为它们可以处理各种类型的因果关系和数据分布，给出可靠的条件独立性检验方法。然而，它们可能不能提供所有想要的因果信息，因为它们输出（独立）等价类，即一组具有相同条件独立关系的因果结构。PC和FCI算法输出图形表示的等价类。在没有混杂因素的情况下，也存在基于分数的算法，其通过优化一些适当定义的分数函数来估计因果其中，贪婪等价搜索（GES）是一种广泛使用的两阶段过程，它直接在等价类空间上进行搜索。在过去的13年中，它已进一步表明，基于适当约束的FCM算法能够区分不同的因果结构在同一等价类，由于因果机制的额外假设。FCM将结果或效应变量Y表示为其直接原因X和噪声项E的函数，即Yf X;E，其中E与X无关。已经表明，在函数f没有约束的情况下，对于任何两个变量，其中一个变量总是可以表示为另一个变量和独立噪声的函数[30]。然而，如果函数类被适当地约束，则可以识别X和Y之间的因果方向，因为对于错误的方向，估计的噪声和假设的原因不能是独立的（尽管它们对于正确的方向是独立的）。这种FCM包括LiNGAM[31]，其中因果关系是线性的，并且假设噪声项是非高斯的;后非线性（PNL）因果模型[32]，其考虑原因的非线性效应和数据中可能的非线性传感器/测量失真;以及非线性ANM[33，34]，其中原因具有非线性效应，并且噪声是附加的。对于这些模型和相应的因果发现方法的回顾，读者可以参考参考文献103[30]。因果发现利用观测数据。数据是亲-这不仅是由潜在的因果过程引起的，也是由抽样过程引起的。在实践中，为了可靠地发现因果关系，有必要根据应用领域的不同，考虑因果关系和采样过程中提出的具体挑战。例如，对于多变量时间序列数据，例如基因组学中的mRNA表达序列和神经心理学中的血氧水平依赖（BOLD）时间序列，由于许多原因，找到产生这种数据的因果动力学是具有挑战性的，包括非线性因果相互作用、与潜在变化率相比低得多的数据采集率、因果模型中的反馈回路、测量误差的存在、过程的非平稳性以及可能的未测量的混杂原因。在临床研究中，经常会有大量的数据缺失。在互联网或医院收集的数据往往存在选择偏差。一些数据集同时涉及混合分类变量和连续变量，这可能会给条件独立性检验和FCM的适当形式的规范带来困难。其中许多问题最近得到了考虑，并提出了相应的方法来解决这些问题。因果发现从机器学习的进步中受益匪浅，机器学习提供了从数据中提取信息的重要工具另一方面，因果信息描述了过程的属性，这些属性对数据分布提供了一组约束，并且能够促进理解和解决许多学习问题涉及分布转移或涉及联合识别的不同因素之间的关系特别是，对于数据异构下的学习，学习和建模数据异构的属性自然是有帮助的，然后从因果建模中这样的学习问题包括领域适应（或迁移学习）[35]，半监督学习，以及使用积极和未标记的示例进行学习。近年来，利用因果模型进行推荐系统和强化学习成为一个活跃的6. 因果推理和解释中的形式论证在这一节中，我们将概述形式论证为什么以及如何在因果推理和解释中发挥重要作用。论证中的推理是通过构建、比较和评估论证来实现的[36]。一个论点通常由一个可能被前提支持的主张组成，前提可以是观察、假设或其他一些论点的中间结论。主张、前提和它们之间的推理关系可以是反驳或反论证的主题[37]。一个论点只有在经受住所有的攻击时才能被接受。在人工智能中，形式论证是一种通用的形式主义建模可废止推理。它为证明和解释因果关系提供了一种自然的方式，并且是机器学习方法的补充，用于学习，推理和解释因果关系。6.1. 非单调性和可退性因果推理是识别因果关系的过程，也就是原因和结果之间的关系，通常是可废止的和非单调的。一方面，因果规则通常是可废止的。因果规则可以用“c causes e“的形式表示因果连接词不是一个实质蕴涵，而是一个具有强度或不确定性的可废止条件句。例如，“转动点火钥匙会导致发动机启动，但这并不意味着它，因为有一些其他的因素，如有一个电池，电池没有死，有气体，等等另一方面，因果推理是非单调的，在这个意义上，因果联系可以暂时得出，并根据进一步的信息收回。通常情况下，c导致e，但c和d共同导致e。例如，一个代理人认为转动点火钥匙会导致电机启动，但当它知道电池没电了，它就不相信转动了点火钥匙将使发动机启动。在AI中，这是著名的资格问题。由于潜在的相关因素通常是不确定的，因此明确地推理是不划算的。因此，在进行因果推理时，人们通常会“跳”到结论，并在需要时收回一些结论。同样，从证据到原因的推理也是非单调的。如果一个代理人观察到一些效果e，它被允许假设一个可能的原因C.从证据到原因的推理是溯因推理，因为对于有些证据表明，如果没有更好的解释，然而，当产生新的解释时，旧的解释可能被丢弃。6.2. 效率和可解释性从计算的角度看，单调性是经典逻辑的一个重要性质，它意味着利用一个知识子集进行局部计算所得到的每个结论都等于利用所有知识进行全局计算所得到的结论这个属性在非单调推理中不成立，260K. 匡等其他/工程6 （2020年）253P¼i1/1. - 是的Σ1/1第1PJ1/1BbBð× Þ第1fg1/1我实际接收治疗水平J. 让J1/1j01/1I¼I¼.B.Σ1- 1个¼P f我...埃克塞特P因此计算可能是非常低效的。由于因果推理的非单调性，以提高效率，级别j和j0为s。j;j0n-1Pn指示器if单元. Yij-Yi. j0：让Tij是科学性，正式论证已被证明是一个很好的可以-通过与其它一些非单调形式主义的比较，YJ第1页T ijY ij 是单元i的观察结果。与例如默认逻辑和界限。原因在于-观测数据fTi1;：;TiJ;Yign，Splawa-Ney man[47]pro-使用B. j;j0n-1PnTijYi-n-1PnTi.作为一个esti-分而治之的策略和最大限度地利用现有的计算结果之间的可达性的阶段mator为 sj;j0.他表明的 sj;j0是无偏的，方差为Sj我... ð其中，S2j，S2j0和S2j-j0是[39]第39话：你的故事另一重要性质2S2j0njnj0S2j-j0n. - 是的Σ是可解释性。传统的非单-主调形式主义对于解释来说并不理想，因为所有的证明都不是以人类可理解的方式表示的。由于解释的目的是让听众理解，比较和对比论点的齿轮过程是重要的[37]。论证提供了这样一种方式，即通过论证和论证对话来交换论证[40]。Yij、Yi j0的样本方差和Yij-Yij0。注意随机性来自治疗指标，所有潜在结果都是固定的。 Splawa-Neymanhas[47]进一步讨论了方差估计和大样本置信区间。我们可以从Ref扩展框架[47]定义为s<$n-1Pn的一般因果效应 SI 其中si¼PJcj Yij是indi-6.3. 与机器学习方法的虚拟效应和C 是具有J的对比矩阵第1页c j¼0。与在可解释AI中，有两个组件：可解释模型和解释接口。后者包括直接来自模型的自反性解释和来自对用户信念的推理的理性解释。为了实现这一愿景，将论证和机器学习结合起来是很自然的，因为知识是通过机器学习方法获得的，而推理和解释是通过论证实现的。由于论证提供了一种在不同意的情况下进行各种推理的通用方法，并且可以与一些不确定性度量（如概率和模糊度）相结合，因此可以非常灵活地对从数据中学习到的知识进行建模。一个例子是当机器学习特征并产生解释时，例如“这张脸很生气，因为它与这些例子相似，而与这些例子不同。这是一个论点，可能会受到其他论点的攻击。并且，为了测量由下式描述的不确定性，有些词，如适当选择对比矩阵，特殊情况包括方差分析[48]和析因实验[49，50]。此外，使用适当选择的单位子集，特殊情况包括亚组分析、后分层[51]和同伴效应[52]。参考文献[53]给出了在这种情况下中心极限定理的一般形式，以便进行渐近推理。[54]讨论了裂区设计，并参考。[55]这是一种设计。7.2. 协变量在实验分析中的作用Splawa-Neyman随机化模型[47]还允许使用协变量来提高效率，而无需强建模假设。在二元处理的情况下，对于单元i，令{Y（1），Y（0）}为潜在结局，Ti为二元治疗指标，xi为治疗前协变量。平均因果效应Sn-1nY i1Yi0具有一个无偏估计bs¼n-1Pn1TiY i-n0Pn11-TiYi. Fisher[56]建议使用概率论[41]。不同的解释可能相互矛盾。例如，可能会有一些案例引用支持选择的具体例子或故事，以及拒绝基于分析，案例和数据的替代选择，反对不太受欢迎的答案通过使用论证图，这些类型的支持和攻击关系可以方便地建模，并可以用于计算不同选择的冲突参数的状态7. 复杂实验因果推理因果推理的潜在结果框架始于一个假设的实验，在这个实验中，实验者可以将每个单元分配到几个处理水平。每个单元都有对应于这些治疗水平的潜在结局。因果效应是同一组单位之间潜在结果的比较。这有时被称为实验主义者读者可以参考参考文献。[437.1. 随机析因实验Splawa-Neyman[47]首先正式讨论了以下随机化模型。在一个有n个单元的实验中，实验者随机分配（n1，. . ， nJ）单位到处理水平（1，. . ，J），其中nJnj。单元i具有潜在的结果Y i1;：;Y i J，其中Y i J作为假设的结果，如果单位i接受治疗水平j。有了潜在的结果，我们可以定义因果效应;例如，治疗之间的比较协方差分析，以提高效率;即，运行Yi在Ti和xi上的最小二乘拟合，并使用Ti的系数来估计s。参考文献[57]使用参考文献[47]中的模型来说明Fisher参考文献[58]提出了一种简单的校正方法：首先，中心协变量的平均值为0;其次，对Ti;xi;Ti×xi进行Yi的最小二乘拟合，并使用Ti的系数估计s，第三，使用对于大样本，参考文献[58]中的估计量至少与s一样有效，并且研究人员参考文献[62]扩展到具有高维协变量的设置，并通过最小绝对收缩和选择算子（LASSO）[63]替换最小二乘拟合。参考文献[64]检查了参考文献[58]中估计量的理论边界，允许协变量的数量不同参考文献[65]使用Y i的最小二乘拟合研究治疗效应异质性对Ti;xi;Ti xi.参考文献[66]讨论了析因实验中的协变量调整，参考文献[66]讨论了析因实验中的协变量调整。[67]讨论了一般设计中的协变量7.3. 协变量在实验分析者可以使用协变量来提高估计效率。作为对偶，设计者可以使用协变量来改善协变量平衡，从而提高估计效率。参考文献[68]暗示了重新随机化的想法-也就是说，只接受确保协变量平衡的随机分配。特别地，我们接受随机分配（T1，. . ，Tn）当且仅当错误的论证，计算方法可以采取先进的，K. Kuang et al. / Engineering 6 （2020年）253261XBB？日本语？--？你好吗？日本语？J？bsxXn1n0bsx≤a，哪里bsx¼n1i¼1Tixi-n0i11-Tixi，¼ ð -ÞP- Þð- -0 nn S2 O-1n-1个Pn-1个Pn通过简单地以它们为条件而被并入下文中我们用字母来表示随机变量的实现值S2n1-1页Xi^x Xi且a>0是预定的常数，1/1stant.参考文献[69]正式讨论了其在具有相等组大小和高斯协变量的恒定治疗效应模型下的统计特性。参考文献[70]发展了它的渐近理论，没有这些假设。特别是Ref。[70]表明s具有非高斯极限分布，并且在重新随机化下比在

下载后可阅读完整内容，剩余1页未读，立即下载