CausalML：因果推理的Python包-机器学习算法和提升建模工具-开源软件X2023101294

98 浏览量更新于2024-01-27 收藏 751KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件X 21（2023）101294原始软件出版物Causal ML：用于因果推理机器学习的Python包杨钊a，刘庆b，c，中国安徽省淮南市东山西路淮南师范学院机电工程学院b中国安徽省淮南市东山西路淮南师范学院经济管理学院c大韩民国釜山南区普庆国立大学技术管理研究生院，邮编48547ar t i cl e i nf o文章历史记录：收到2022年2022年12月4日收到修订版，2022年关键词：因果ML因果推理机器学习a b st ra ct“因果关系”是一个复杂的概念，它基于几乎所有学科领域的根源，旨在回答为什么。因果推理是因果分析的重要分支之一，它假设变量之间存在关系，并试图在现有数据中检查和量化实际关系。机器学习（ML）和因果推理是两种分别出现和发展的技术。然而，现在这两个领域之间有了交集。Causal ML是一个Python包，它提供了一套基于最近研究的机器学习算法的提升建模和因果推理方法。它为用户提供了一个标准界面，让他们根据实验观察数据估计条件平均治疗效果（CATE）或个体治疗效果（ITE）©2022作者（S）。由爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）中找到。代码元数据当前代码版本1.0用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-22-00286可复制胶囊的永久链接Apache许可证，版本2.0使用Git的代码版本控制系统软件代码语言、工具和服务使用Python编译要求、操作环境和依赖关系Python 3.6、3.7、3.8和3.9如果可用，请链接到开发人员文档/手册https://CausalML.readthedocs.io/en/latest/index.html支持电子邮件以了解问题1. 动机和意义目前，因果关系的研究涉及经济学、法学、医学、环境科学、计算机科学、哲学等多个学科[1在几乎所有的研究领域中，都有许多“为什么”的问题，这是通往科学未来的道路，因果分析旨在解释为什么。在因果分析领域，两个主要任务可以区分：因果发现和因果推理。因果发现负责分析和创建模型，以说明数据中固有的关系。而*通讯作者：淮南师范学院经济与管理学院，安徽省淮南市东山西路。电子邮箱：2841080064@qq.com（赵阳），liuq2012@pukyong.ac.kr（刘庆）。https://doi.org/10.1016/j.softx.2022.101294因果推理的目的是检查干预特定系统的可能影响[4]。潜在结果模型[5]和结构因果模型（SCM）[6]是因果推理领域的两个流行模型这两个框架在本质上是相同的[7]，因为它们在观察数据中推断因果关系，但使用不同的意识形态原则。潜在结果模型将因果效应定义为同一受试者潜在结果之间的差异[5]，并将干预措施与研究对象联系起来干预是原因，干预的结果是结果[8]。与潜在结果模型相比，SCM在确定混杂因素方面更准确[9]，并且越来越受欢迎。SCM使用图论（一种数学工具）来正式表达数据背后的因果假设。与潜在结果模型相比，结构因果模型方法需要了解2352-7110/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表SoftwareX期刊主页：www.elsevier.com/locate/softx杨钊与刘卿软件X 21（2023）1012942Fig. 1. 因果充分性分析。现有的因果模型，但不作出强有力的假设模型的形式。尽管相关性可以被视为不为人知的因果机制的结果[10]，但是，正如因果分析中的一句名言所表达的那样，相关性并不意味着因果关系[11]。在进行因果推断之前，通常需要对潜在因果结构进行额外的假设，以指导基于观察数据的推断。在[12]中，建立因果关系的过程分为3个阶段：分析研究问题中涉及的变量;分析因果图和因果机制;以及因果不平等假设。在[13]中，参考研究进一步阐述了基于因果图的因果分析方法其他[14[13]认为，在因果分析中，首先要确定研究问题，包括观察对象、主要参与者、主要现象和考查的大小。然后指定一个因果模型，并将研究问题转化为一个因果问题。最后，必须调查、识别和假设变量之间的因果关系。如图1，[13]的分析过程与[12]一致。在因果推理之前缺乏充分的因果分析将导致结果中的谬误，[18]将其描述为“因果模型错误指定”。[13]，另一方面，认为这种错误是由于不正确的因果模型，因此这种错误应该被称为“原因模型忽略”：即，在进行估计之前，未能使用因果知识仔细指定目标统计参数。大多数时候，因果推理的工作是从[19]这是一个假设，即因果变量是已知的。因果推理的任务建立在因果充分性的概念上，因果充分性用于评估特定变量（治疗）对感兴趣结果的因果影响，从而因果地解释完整的因果模型[11，13]。有许多方法可以估计因果效应，例如，匹配、G计算、逆加权或增广逆加权。因果分析和机器学习这两个领域是分别产生和发展起来的。然而，近年来，这两个领域已经相互竞争。已经发现，基于统计的人工智能不是智能的，因为统计模型不能泛化，而因果模型允许通过干预的概念对分布变化进行建模[7，20]。同样，因果分析也可以从机器学习中受益。虽然传统的因果分析是基于统计模型，但当前的机器学习也是基于统计模型。监督式学习为我们提供了一种强大、合乎逻辑和完全计划的探索方式。这可以弥补传统因果推理的问题[13]。Causal ML是一个Python包，它提供了一套可扩展的基于最新技术的逻辑建模和因果推理工具研究[21]。因果ML主要基于结构因果模型，从数据中观察因果效应。然而，它也使用一些潜在结果模型方法，如匹配[22]。它提供了一个通用界面，用户可以通过该界面使用实验或观察数据估计条件平均治疗效应（CATE）或2. 软件描述2.1. 软件构架2.1.1. 算法有很多关于使用ML进行因果推理的探索性研究[23，24]，并且在这些研究中有一些重要的实际应用。Causal ML旨在为因果推理构建一站式机器学习这是一种可以在商业、科学和其他领域发挥重要作用的方法。它可以使目前仅存在于学术论文或不同统计软件包中的上升建模方法民主化。当前版本的Causal ML实现了15种最先进的提升建模算法（见图1）。2）的情况。因果ML具有良好的通用性和易用性，是因果推理的绝佳选择。由于手稿的长度和结构的原因，我们在图中只介绍了一些算法。二、元学习者算法建立在基础算法上以估计ATE [23，25]。从理论上讲，元算法可以使用任何基本学习器，例如随机森林（RF），贝叶斯加法回归树（BART）或神经网络。因果ML支持五种主要的Meta算法：S-学习器、T-学习器、X-学习器、R-学习器和双重鲁棒（DR）学习器。每个元算法都有不同的方法来估计平均输出和定义CATE。S-learner和T-learner用来表示它们之间的差异S学习器使用单个机器学习模型来估计治疗效果，如下所示：第1步：使用机器学习模型，使用协变量X和治疗效果指标变量W估计平均结果µ（x）µ（x）= E [Y |X = x，W = w]。（一个）步骤2CATE的估计值定义为：τ（x）=µ（x，W=1）−µ（x，W=0）。（二）T-learner简单易懂，它训练两个基本学习器（名称杨钊与刘卿软件X 21（2023）1012943∑（）（）：=∑k图二. 因果ML算法图。对照组和治疗组。估计过程包括两个步骤。欧几里得距离（ED）由以下等式给出：步骤1估计模型的平均输出μ0（x）和µ1（x）：D（P：Q）=k=左，右（pk−qk）2，（8）µ0（x）=E [Y（0）]|T= 0]，⑶µ1（x）=E[Y（1）]|T=1]。（四）步骤2平均治疗效果（ATE）的估计值定义为：τ（x）=µ1（x）−µ0（x）。（五）由[26]提出的随机森林算法是一种广泛使用的统计学习算法。统计学家通常将随机森林作为非参数条件均值估计的实用方法进行研究[27]。Causal ML支持CATE的增强的基于树的估计提升树方法是一组使用基于树的算法并基于提升的差异进行拆分的方法。[28]提出了三种不同的方法来量化由于分裂而产生的发散增益[29]。D 增益 = 分离后 DPT 、 PC−D 分割前PT ， PC ，（6）其中PT和PC分别代表治疗组和对照组中预期结果的概率分布，D表示分歧。因果ML实现了几种不同的方法来量化分歧，如Kullback-Leibler（KL）散度由以下等式给出：L（P Q）plogpk，（7）k=左，右qk其中p是处理组的样本平均值，q是对照组的样本平均值，表示计算p和q的叶片（LiuShum，2003）。其中符号与上述等式中的符号相同匹配方法的一般思想是找到在相关特性方面尽可能相似的处理单元和非处理单元因此，匹配方法可以被视为试图模仿随机对照试验的因果推理方法家族的一部分。许多学者已经探索了基于匹配方法的因果推理途径。[30]通过将匹配问题重新定义为子集选择问题来解决匹配方法的问题。[31]提出了一种在观察性研究中进行匹配这种新的匹配方法的基本思想是平衡治疗组相对于目标人群，并制定匹配问题作为一个线性大小的混合整数。虽然有几种技术可以匹配治疗和未治疗的单位，但倾向评分是最广泛使用的方法：ei （ Xi ） =P （ Wi=1| 第十章（i ）、（ 9）之后，使用距离标准（例如k：1最近邻）在e（X）方面匹配经处理和未经处理的由于治疗组和对照组是10人匹配的，因此该方法估计了对治疗组的平均治疗效果（ATT）。E[Y（1）]|W=1]−E[Y（0）|W=1]（ 10）在[32]中讨论了不同匹配方法的优缺点。因果ML的发展推动了因果推理理论和机器学习因果推理的不断成熟。虽然因果ML包含许多成熟的因果ML，杨钊与刘卿软件X 21（2023）1012944=[]个→→和最低价格pL，POCH pL={个推理算法，如基于树的算法和基于Meta学习的算法，它并不完美，许多最新的算法还没有实现。然而，它并不完美，许多最新的算法尚未实现。原因既与Causal ML本身有关，如贡献者的热情和知识范围因果ML通常不会先使用算法相反，它会等待，直到其他平台表明该算法已经准备好并且可靠。2.1.2. 包表1显示了Causal ML 的主要包结构，其详细信息可在Causal ML 的官方网站上获得。在因果ML 中，初始版本（V0.2.0，2019-08-12）主要支持基于提升树和Meta学习算法的因果推理这些算法被放置在causumml.inference.tree和Meta包下，它们的父包是 causumml.inference.meta 。在版本 V0.7.0（2020-02-28）和V0.8.0（2020-07-17）中，Causal ML更新了causal ML.inference的nn子包和iv子包，以分别支持基于神经网络和基于2SLS的推理算法。不难看出，causuml.inference在设计之初主要是为了组织和归档属于结构因果模型（SCM）的算法[6]，而基于潜在结果模型的算法[5]并没有放在causuml.inference包下，例如匹配算法就放在causuml.match包下。CausalML 发布之初还提供了 causal ml.features 、 causalml.dataset和causal ml.metrics包，这些包为执行因果推理所需的数据和特征处理和评估提供支持工作。feature_selection是另一个在版本7.0（2020-02-28）中更新的支持工具包，用于解释因果推理的结果。由于因果推理机器学习仍然是一个快速发展的技术分支，因果ML是一个年轻的科学工具，它的结构组织存在一些不合理之处。例如，基于匹配、倾向分数和2SLS是一些传统的因果推理工具，并且只有2SLS方法被置于因果推理包下。如果这样做是为了区分结构因果模型和潜在结果模型，那么不属于结构因果模型的算法就不会放在同一个包中。另一示例是NearestNeighborMatch，它是CausalML.match 包下的一种倾向分数匹配类型的方法。 Elas-ticNetPropensityModel 是一种倾向得分估计方法，它位于CausalML.propensity包下。这似乎是一个合理的，但不是很好地证明了摆出事实的方式。解释这些组织结构的难度肯定与主题领域的快速增长和多个开发人员的协作有关。但这也表明，软件的设置方式还没有经过充分的考虑。但这不可能在一夜之间得到解决，我们认为随着因果推理机器学习知识的增长和版本的更新，这些问题将得到很好的解决。2.2. 软件功能本质上，因果ML估计了干预T对因果关系X的影响不做强有力的检查-关于模型的形式。因果ML实现了多个治疗效果评估，如平均治疗效果估计（ATE）、条件平均治疗效果（CATE）估计和个体治疗效果（ITE）。ATE和CATE基于总治疗效应（TTE）估计值和条件总治疗效果估计（CTTE）。TTE可以定义为二元治疗T与Y干预的比较TTE= E [Y |T = 1] − E [Y |T = 0]。（十一）CTTE可以定义为二元治疗T对Y的干预的比较，其中X=x满足：CTTE=E [Y|T=1，X=x] −E [Y|T=0，X= x]。（十二）在监督学习过程中，预测模型可以根据特征变量对预测性能的一致性来评估特征变量的重要性。基于这一点，因果ML提供了可以解释的因果关系分析因果ML可以评估x0，x1，. . . .，xm在通过考虑一组特征组合X x0，x1，..，x m来量化X对Y（X Y）的影响的过程中。. . .，Xm，由多个特征变量组成。因果ML还提供了解释训练的治疗效果模型的方法，例如元学习者特征重要性可视化，UptumTree可视化和UptumTree特征重要性可视化。由于除实验数据外，真实值未知，因此无法以与普通ML预测相同的方式对治疗影响的估计进行验证。在此，我们专注于内部验证方法，该方法基于潜在结局的不混淆性前提，以及基于我们所掌握的特征集的治疗状态。Causal ML目前支持多种估计的验证、合成数据集的验证、隆起曲线（AUUC）的验证以及敏感性分析验证方法的3. 说明性实例我们使用一个评估假期对投资者情绪影响的例子来展示如何使用因果ML评估因果效应。传统的基于遗传学的因果估计和基于机器学习的因果估计都是基于确定的因果充分性（Mooney et al.2021）。相比之下，现实世界的问题分析和因果充分性假设几乎完全依赖于人类的知识和专业知识。忽视因果充分性分析会导致因果模型错误，从而使因果解释失去意义。就我们而言，我们使用COVID-19爆发初期武汉市封城的一般背景作为干预措施。参考文献[33]，我们分析了武汉封城本文借鉴Antweiler Frank（2004）的方法，基于社会媒体上的投资者信息构建了投资者信心指数（ICI）作为投资者情绪的代理指标而且，正如[34]所建议的那样，协议指数没有被创建。在研究之初，我们必须对现实世界的问题进行必要的阐述和因果假设。3.1. 相关变量我们考虑了两个变量Pd，ICId和一个处理T来评估封市对股票价格和投资者情绪之间因果关系的影响。(1) Pd是在日期d的股票价格基本面。Pd由开盘价，收盘价，最高价Oddpd，pd，pd，Cd.H(2) 日期d的投资者信心指数ICId是通过计算投资者在日期d在社交媒体上发布的消息中的正面消息的数量NPositive和负面消息的数量NNegative获得的(3) 治疗T：我们认为关闭城市是一种干预。杨钊与刘卿软件X 21（2023）1012945→→↔→↔→↔↔表1Causal ML的主要软件包包父包包装描述方法示例因果ML推理树因果ML推理树算法包。UpliftTreeClassifierUpliftRandomForestClassifierCausal ML.inference.Meta因果ML推理元学习算法包。LRS Regressor XGBT Regressor、MLPT Regressor因果ML.推论.iv因果ML推理基于2SLS方法的封装IV回归因果ML.推论.nn因果ML推理神经网络算法包。CEVAE因果ML.优化因果ML使用反事实单元选择和反事实值估计器的优化方法包。CounterfactualValueEstimationPolicy学习者get_actual_value因果ML匹配因果ML基于匹配方法最近邻匹配匹配优化器因果ML倾向因果ML基于包的倾向评分模型。ElasticNetPropensityModelCausalML.feature_selection因果ML用于特征重要性方法的类。过滤器选择因果ML.数据集因果ML提供模拟数据的包。造隆分类综合资料因果ML.度量因果ML用于因果推理效果验证或辅助因果推理效果验证的软件包。灵敏度灵敏度子集数据因果ML.特征因果ML处理标签向量的包标签编码器OneHotEncoder3.2. 因果图图三. 假设因果图。我们认为城市关闭的环境背景封城对股票价格的影响（P）我们假设一个因果图如图所示。3、股票市场基本面P与投资者情绪ICI之间存在因果关系。(1) 时间t0（Pt0）的股票价格基本面影响时间t1（ICIt1）的投资者情绪，Pt0ICIt1。(2) 投资者情绪ICIt1在t1影响股票市场的平均价格Pt2 在t2 时，ICIt1Pt2。t0，t1和t2可以非常接近。股票价格P和投资者情绪ICI之间的相互作用是高频的[35(3) 外部环境的变化干扰了PICI的因果机制。在这种情况下，我们评估了封闭市的外部干预对股票价格和投资者情绪的因果机制的影响。3.3. 因果充分性在这个例子中，我们假设股票市场的基本面（P）和投资者对市场的感觉（ICI）是因果关系。我们的假设是以其他人的研究为基础的[38]认为投资者情绪是投资者当前股市的表现影响投资者投资者情绪同样影响股市基本面[38我们假设没有未观察到的混杂因素，即，该ICIP是充分的。虽然这是这是一个强有力的假设，对于因果效应的推理是必要的[12]。和投资者情绪（ICI）的估计通过评估的因果效应的股票价格（P）和投资者情绪（ICI）之前，期间，和之后的城市关闭。我们使用T-learner，一种元学习算法，进行因果效应估计。我们估计的影响，城市关闭的股票价格基本面和投资情绪（P ICI）之间的因果关系的影响，分别使用 LGBM 回归， XGB 回归，和RandomForestRegressor作为底层学习器。如表2所示，封城对PICI为0.7516，这意味着股票价格和投资情绪。在封城期间，投资者对股票价格的变化更为敏感4. 影响Causal ML将因果推理机器学习领域的最新进展从学术论文应用到现实世界。它促进了机器学习的实际应用在因果推理领域，通过建立机器学习因果推理的一站式商店。 Causal ML于2019年8月发布了第一个公开版本，并已更新16次。因果ML一经发表就受到了学术界的广泛关注。[4]将CausalML列为目前可用的四种因果推理工具Yao等人推荐的另一种因果推理工具DoWhy支持与EconML和Causal ML包的集成[41]。的因果杨钊与刘卿软件X 21（2023）1012946表2武汉封锁的因果影响LGBM回归器XGB回归器随机森林回归是说E0.57840.86580.81060.7516注：统计样本的投资者情绪范围为[-2.145，2.124]。ML在[42]的研究中用于构建隆起树。[43]的概述总结了最新的因果方法，其中包括对因果ML的介绍。[44]使用因果ML来研究动态检疫政策对COVID- 19的因果影响综上所述，Causal ML是一个成熟的Python因果推理包，已被众多研究采用，具有很高的学术价值。5. 结论在本文中，我们介绍了Causal ML，这是一个开源的Python包，可用于因果推理。它广泛吸收了因果推理机器学习的最新研究成果，并将这些存在于学术文献中的方法应用于实践。它为因果推理机器学习提供了统一的接口和一站式集成解决方案，这对学术研究非常重要。我们提供了一个简单的案例，说明了使用因果ML进行因果推理的过程。重要的是要强调，在因果推理之前未能进行充分的因果分析可能会导致Causal ML的最新版本是0.13.0（于2022年9月更新），仍然是一个处于起步阶段的因果推理工具因此，它仍然有许多不完善之处。Causal ML并没有孤立地发展，它的发展与其他开源机器学习产品密切相关，如scikit-learn（https：//scikit-learn.org/stable/）上提供。由于Causal ML倾向于使用一些已经被其他软件验证过的成熟算法，因此一些高级算法，如GANITE（一种基于生成对抗网络的因果推理方法，用于学习反事实分布的不确定性[45]）仍然没有实现。作为一个快速发展的科学工具，因果ML当然存在一些问题，但其中许多问题不是一朝一夕就能解决的，需要大量学者的贡献以及学术界和工业界的共同进步。然而，随着越来越多的积极学术成果被Causal ML吸收，我们相信因果ML将成为机器学习用于因果推理的最佳用途之一。竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作数据可用性数据将根据要求提供。引用[1] 柯林斯SL，格伦SM，吉布森DJ。中间干扰和初始植物区系组成的实验分析：解耦的原因和影响。生态学 1995;76 （ 2 ）： 486-92.http://dx.doi.org/10.2307/1941207网站。[2] 李文忠，李文忠，李文忠.化学处理系统因果分析的图解法。化学与工程科学1980;35（12）：2379-88. http：//dx.doi.org/10.1016/0009-2509（80）85051-2.[3]White AA，Pichert JW，Bledsoe SH，Irwin C，Entman SS.妇产科已结索赔的因果分析。妇产科 2005;105 （ 5 第 1 部分）： 1031-8 。http://dx.doi.org/10.1097/01.AOG.0000158864的网站。09443.77。[4]姚丽，朱智，李胜，李勇，高军，张A. 因果推理研究综述。 ACM跨知识发现数据2021;15（5）：1-46。http://dx.doi.org/10.1145/3444944.[5] Rubin DB. 因果效应的贝叶斯推断：随机化的作用 Ann Statist1978;34https://www.jstor.org/stable/2958688[6] Pearl J. 因果图实证研究。 Biometrika 1995;82 （ 4 ）： 669-88.http://dx.doi.org/10.1093/biomet/82.4.669网站。[7]Neuberg ，《因果关系：模型、推理和推论》（ Causality ： Models ，Reasoning，and Inference），Judea Pearl著。2003年：经济计量理论。Vol.19，（4）：Cambridge University Press; 2000，p. 675比85[8]Imbens GW，Rubin DB.统计学、社会学和生物医学中的因果推理。剑桥大学出版社;2015.[9] Greenland S，Pearl J，Robins JM.流行病学研究的因果图。Epidemiology1999;37https://www.jstor.org/stable/3702180[10]ZehH-D.时间的方向Springer; 1989.[11] Nogueira AR，Pugnana A，Ruggieri S，Pedreschi D，Gama J.因果发现和因果推理的方法和工具。 Wiley Interdisciplinary Reviews ： DataMining and Knowledge Discovery（Wiley跨学科评论：数据挖掘与知识发现）第12卷，（2）：2022，E1449。http://dx.doi.org/10.1002/widm.1449网站。[12]作者：Kügelgen J，Gresele L，Scholkopf B.新冠肺炎病死率中的辛普森悖论：年龄相关因果效应的中介分析。IEEE Trans Artif Intell 2021;2（1）：18-27. http://dx.doi.org/10.1109/TAI.2021.3073088网站。[13]Balzer LB，Petersen ML.邀请评论：因果推理中的机器学习-我如何爱你？让我数一数。美国流行病学杂志 2021;190 （ 8 ）： 1483-7 。http://dx.doi.org/10.1093/aje/kwab048网站。[14]L. 放大图片作者：Balzer，Petersen M，van der Laan MJ.用于因果推理。2016年。[15] 彼得森ML。因果路线图在时间依赖性混杂环境中的应用流行病学（马萨诸塞州剑桥） 2014;25（6）：898.得双曲正切值.doi.org/10.1097/EDE.0000000000000178网站。[16]Petersen ML，van der Laan MJ. 因果模型和学习从数据：整合因果建模和统计估计。流行病学（马萨诸塞州剑桥） 2014;25 （ 3 ）： 418.http://dx.doi.org/10.1097/EDE的网站。00000000000078.[17]斯皮尔特山口因果推理导论J Mach Learn Res 2010;11（5）.[18] Mooney SJ，Keil AP，Westreich DJ.关于在因果研究中使用机器学习的13个问题10 ！）。美国流行病学杂志 2021;190 （ 8 ）： 1476-82 。http://dx.doi.org/10.1093/aje/kwab047.[19]B. Schölkopf，Locatello F，Bauer S，Ke NR，Kalchbrenner N，Goyal A，et因果表征学习（Causal Representation Learning）Proc IEEE 2021;109（5）：612-34. http://dx.doi.org/10.1109/JPROC.2021.3058954网站。[20]Pearl J.模型、推理和推论。第19卷，（2）。英国：剑桥大学出版社，2000年.[21]H.陈，Harinen T，Lee J-Y，Yung M，Zhao Z. Causal ML：用于因果机器学习的 Python 包。 2020 年， http://dx.doi.org/10.48550/arXiv.2002 。 11631 ，arXiv 3月2日。[22]A. Abadie，Imbens GW.与估计的倾向得分相匹配。Econometrica 2016;84（2）：781-807. http://dx.doi.org/10.3982/ECTA11293网站。[23] Künzel SR，Sekhon JS，Bickel PJ，Yu B.使用机器学习估计异质性治疗效果的金属载体。 Proc Natl Acad Sci 2019;116 （ 10 ）： 4156-65.http://dx.doi.org/10.1073/pnas.1804597116网站。[24] Nie X ， Wager S. 异质处理效应的拟预言估计。 Biometrika 2021;108（2）：299-319. http://dx.doi.org/10.1093/biomet/asaa076.[25]Mishra N，Rohaninejad M，Chen X，Abbeel P. A simple neural attentivemeta learner. 2017年，arXiv预印本arXiv：1707.03141。[26]布雷曼湖随机森林MachLearn2001;45（1）：5-32.http://dx.doi.org/10.1023/A：1010933404324。[27] Athey S，Tibshirani J，Wager S.广义随机森林Ann Statist 2019;47（2）：1148-78. http://dx.doi.org/10.1214/18-AOS1709网站。[28]Rzepakowski P，Jaroszewicz S.单处理和多处理隆升建模的决策树。KnowlInf Syst2012;32（2）：303-27.[29]Gutierrez P，Gérardy J-Y.成因推断与隆升模型研究进展文学作品。在：预测应用程序和API国际会议。PMLR; 2017，p.1-13号。[30]Tam Cho WK，Sauppe JJ，Nikolaev AG，Jacobson SH，Sewell EC.因果推理的一种StatNeerl2013;67（2）：211-26.http://dx.doi.org/10.1111/stan.12004网站。杨钊与刘卿软件X 21（2023）1012947[31] Bennett M，Vielma JP，Zubizarreta JR.在大型观察性研究中使用多值处理构建代表性匹配样本。J Comput Graph Statist 2020;29（4）：744-57.http://dx.doi.org/10.1080/10618600.2020.1753532.[32] 斯图尔特EA。因果推理的匹配方法：回顾与展望。统计科学：统计学研究所评论杂志。在：匹配因果推理的方法：回顾和展望。2010;25（1）：1.http://dx.doi.org/10.1214/09-STS313网站。[33]刘强，李文生，黄明，吴强.社交媒体中股票价格和投资者情绪之间的协同作用。在：Borsa伊斯坦布尔审查. 2022，http：//dx.doi.org/10.1016/j.bir.2022.09.006网站。[34]刘强，周 X ，赵亮 . 看多指数和一致指数。 13. 第一次的约会http://dx.doi.org/10.3389/fpsyg.2022.957323网站。[35] 放大图片作者：J. J. 高频情绪交易时代的金融新闻和市场恐慌-ingalgorithms.Journalism2013;14（2）：271-91.http://dx.doi.org/10.1177/1464884912468375.[36]Sun L，Najand M，Shen J.股票收益可预测性和投资者情绪：高频视角。JBankFinanc2016;73：147-64.http://dx.doi的网站。org/10.1016/j.jbankfin.2016.09.010。[37] F. Xing，Hoang DH，Vo D-V。高频新闻情绪及其在外汇市场预测中的应用。SSRN学术论文3711227，罗切斯特，纽约：社会科学研究网络; 2020年，可在SSRN：https://ssrn.com/abstract=3711227。[38] 作者： J. 投资者在股票市场的情绪 J Econ Perspect 2007;21 （ 2 ）：129http://dx.doi.org/10.1257/jep.21.2.129网站。[39]McGurk Z，Nowak A，Hall JC.股票回报和投资者情绪：文本分析和社交媒体。J Econ Finance2020;44（3）：458-85.[40] Sayim M，Rahman H.个人投资者情绪、股票收益和波动性之间的关系：来自土耳其市场的证据。 IntJEmergMarkets2015.http://dx.doi.org/10.1108/IJoEM-07-2012-0060网站。[41] Sharma A，Kiciman E.DoWhy：一个用于因果推理的端到端库2020，http://dx.doi.org/10.48550/arXiv.2011.04216 ， arXiv 预印本 arXiv ：2011.04216。[42]Bozorgi ZD，Teinemaa I，Dumas M，La Rosa M，Polyvyanyy A.流程挖掘满足因果机器学习：从事件日志中发现因果规则。2020年第二届流程采矿国际会议。ICPM，IEEE;2020，第129-36页。http://dx.doi.org/10.1109/ICPM49681.2020.00028网站。[43]徐刚，杨道明，李勤，刘世，王晓.因果学习：可解释机器学习的新视角。2020年，arXiv预印本arXiv：2006.16789。[44]Kristjanpoller W ， Michell K ， Minutolo MC. 确定动态检疫政策对缓解COVID-19 的有效性的因果框架。应用软件计算 2021;104 ： 107241 。http://dx.doi.org/10.1016/j.asoc.2021的网站。107241。[45]放大图片作者：J. Yoon，Jordan J，Van Der Schaar M. GANITE：使用生成对抗网络估计个体化治疗效果。在：国际会议上学习表示，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载