没有合适的资源?快使用搜索试试~ 我知道了~
10643ACRE:一种超越协变的广义因果推理张宝雄贾马克埃德蒙兹宋春朱益新朱加州大学洛杉矶分校视觉、认知、学习和自主{chi.zhang,baoxiongjia,markedmonds}@ ucla.edu,sczhu@stat.ucla.edu,yixin. ucla.edu摘要因果归纳法,即,识别导致变量之间的可观察关系的不可观察机制在现代科学发现中发挥了关键作用,特别是在只有稀疏和有限数据的情况人类,即使是幼儿,也能诱导出因果关系直接测试直接试验筛选费后向阻塞A B尽管它的难度是众所周知的,但在各种环境下都出奇地好。然而,与人类认知的普遍特征相反,缺乏一个诊断基准来衡量现代人工智能(AI)系统的因果归纳。因此,在这项工作中,我们介绍了抽象因果推理(ACRE)数据集的系统评估目前的视觉系统的因果归纳。 受Blicket实验中因果发现研究的启发,我们在独立场景或干预场景中使用以下四种类型的问题查询视觉推理系统:直接,间接,屏蔽和向后阻塞,意图超越通过协变诱导因果关系的简单策略。通过分析该测试平台上的视觉推理架构,我们注意到纯神经模型在其机会水平性能下倾向于联想策略,而神经符号组合在向后阻塞推理中挣扎这些缺陷要求未来研究具有更全面因果归纳能力的模型。1. 介绍“科学有一些令人着迷的东西。人们从这样一个微不足道的事实投资中得到了这样一个大规模的猜测回报- 马克·吐温[64]科学发现的历史充满了有趣的奇闻轶事。先生马克·吐温准确地总结了如何从稀疏而有限的投资中提炼出有影响力的科学理论。仅仅通过三次观测,埃德蒙·哈雷就精确地预测了哈雷彗星的轨道和它的下一次造访,但他没能活着看到。从几个阴极图1.抽象因果推理任务管理人类参与者[22,61]。在这四种情况下,Blicket机器具有各种激活模式。人们需要发现隐藏的因果关系来回答两类问题:对象A/B是否是Blicket,以及如何使机器停止/前进。约瑟夫·汤姆逊证明并导出了电子的存在。仅仅通过豌豆的杂交,孟德尔就建立了孟德尔遗传定律,其范围远远超出豌豆。在许多其他可能的假设中,先驱科学家们选择了最合理的假设。上述因果归纳的例子只是科学史和我们日常生活中无所不在的因果推理场景中的几个广受赞誉的案例。事实上,尽管因果发现的复杂性是众所周知的,但人类,甚至是幼儿,都可以从少量的可观察事件样本中恰当地识别并干预不可观察的机制[19,58]。人类认知的这一迷人的普遍特征及其与人类学习机制的最重要联系促使我们对现代人工智能(AI)系统提出一个对应的问题:当前的视觉推理系统在什么水平上诱导因果关系?为了回答这个问题,我们提出了抽象因果推理(ACRE)数据集。ACRE的灵感来自于最初对幼儿进行的Blicket检测的既定研究[7,19,20,21,22,23,35,42、44、58、60、61、66、67]。由Gopnik和Sobel设计的原始实验[21]引入了一种新的设置来调查儿童它的基本机制是直观的:一个Blicket探测器会激活,点亮,10644实验者向参与者演示了一系列试验,将各种物体(组合)放在Blicket探测器上,并显示探测器是否被激活。最后,参与者被问到哪个物体是Blicket,以及如何使激活的Blicket机器停止(继续)。这一系列工作作为因果发现的基础测试 通过协变,Sobelet al. [61]表明孩子们可以使用直接证据正确地将因果联系起来。他们还表明,只有间接证据断言物体B的Blicketness,儿童仍然做出准确的预测[22]。然而,我们必须超越简单的协变策略来发现屏蔽情况和后向阻塞情况下隐藏的因果关系。具体而言,在筛选关闭设置(图。1顶部),物体B(非Blicket)被A(Blicket)屏蔽,使其不可能激活机器[22]。向后阻塞设置(图1底部)更有趣,因为对象B没有独立测试,具有不确定的Blicketness,尽管它的每次出现都与激活的机器相关[61]。详细信息见第3节,象征性总结见补充资料。建议的ACRE数据集是建立在一个类似的查询方式在Blicket的实验,研究如何以及现有的视觉推理系统可以学习,从稀缺的观察推导出充足的因果信息。特别是,受到最近在受控环境中进行视觉推理的努力的启发[17,32,70],我们在ACRE的设计中采用了CLEVR宇宙[32]在实验性时空推理基准测试[31,55,72]中进行的尝试之后,我们提供了具有面板图像集作为上下文的视觉推理系统,并使用基于图像的查询来简化语言理解,从而响应设置和学习发展文学理论[19,20,21,22,23]。具体来说,ACRE中的每个问题由10个面板组成:6个用于上下文,4个用于查询。6个上下文面板分为两组,第一组用作对Blicket机制的介绍,即某些对象激活机器,而其他对象则不激活。这组简单的面板类似于在人体实验中对儿童进行的介绍性试验[22,61]。在查询中,我们只要求视觉推理系统预测查询中给定对象的Blicket机器的状态,而不是引入Blicket 1的概念一半的问题是关于...[1]虽然“Blicket”的概念未决场景,其中呈现单个对象,并且系统被要求推理该对象是否是可以激活Blicket机器的原因之一其余一半的查询用于介入性场景,其中我们介入现有的上下文面板并询问在介入下Blicket机器的状态将是什么。每个查询都是独立的,这样统计偏差[22,61]和抽象推理的潜在作弊[31,72]就被最小化了。总之,ACRE包括30,000个抽象因果推理问题,支持所有4种类型的推理查询(直接、间接、屏蔽和向后阻塞),并使用对象属性、边界框和掩码进行充分注释我们进一步设计了两个O.O.D.在ACRE中进行泛化在实验中,我们使用ACRE数据集来分析当前视觉推理系统尽管在其他视觉推理任务中取得了显着的结果,但我们注意到纯神经网络[8,28,55,68,77]采用了基于协变的推理策略,因此只能实现略高于机会水平的性能作为探索赋予视觉推理系统因果归纳能力的第一次尝试,我们求助于神经符号模型[26,39,43,50,51,70,71,74,76],该模型结合了神经视觉处理[27]和符号因果推理[18,49,53,62,78,79],结果证明在抽象因果推理中的向后阻塞情况下很难。综上所述,本文的主要贡献有三点• 我们提出了抽象因果推理(ACRE)数据集,以探讨目前的视觉推理系统的能力,在因果归纳。该数据集的灵感来自于Blicket实验包含了30,000个问题。ACRE涵盖了所有4种类型的因果推理查询(直接 、间 接、 屏 蔽和 向后 阻 塞) ,并 具有 额 外的O.O.D.。一般化分裂。• 我们在ACRE中对最先进的视觉推理模型进行基准测试和分析实验结果表明,神经元模型倾向于捕捉观察中的统计相关性,但无法归纳试验中证明的潜在因果关系。• 我们提出了改进纯神经网络的神经符号组合。然而,我们的分析表明,即使在因果关系的归纳偏差,他们仍然无法区分真正的原因从表面的协变在向后阻塞的情况下。总之,这些缺陷要求未来研究具有更全面因果归纳能力的模型。2. 相关工作抽象视觉推理迄今为止,计算机视觉和AI社区10645背景试验独立审计师:给定对象,机器的状态是什么第四次审判的干预性辩论如果进行干预,机器的状态会是什么直接A:激活筛选A:灭活图2.ACRE中的一个示例问题在6个背景试验中,我们将第一组3个面板用于介绍Blicket机器,并在第二组面板中允许更复杂的配置这些试验要么是独立的对象,要么是现有试验的干预性在这个例子中,第一个查询测试直接证据的因果推理,因为灰色立方体是独立测试的,并且总是与激活的机器相关联第二个查询需要比较第四次和第五次试验,以实现基于间接证据的因此,我们推断第六次试验中的红色和绿色圆柱体可能不会激活机器,因为紫色立方体已经可以这样做了;尽管它们仅与激活的机器相关联,但它们的Blicketness在介入试验中被向后阻断。青色立方体被灰色立方体的Blicketness屏蔽值得注意的是,筛选和向后阻塞的情况不能通过协变来解决商(IQ)测试,研究视觉推理系统如何从有限的上下文中诱导出隐藏的时空转换,并应用它来导出缺失的面板。Santoro等人[55]扩展了关系模块[56]以采用基于面板的表示,并引入了野生关系网络(WReN)。Zhang等人[72]建议以神经模块化的方式合并结构注释。在数据级[29]或模块级[73]考虑对比度的方法后来被证明可以显着提高Zheng等[77]将问题表述为师生学习,Wanget al. [68]使用多重图模型来捕捉隐藏的关系,Spratley等人。[63]重新审视了与非监督学习相结合的ResNet模型。最近,Zhanget al. [74]从整体模型中分解感知和推理,其中视觉感知前端预测对象建议的ACRE数据集补充了抽象视觉推理任务的范围,通过从有限数量的试验中使用因果归纳来挑战视觉推理系统,并将缺失的因果理解维度添加到先前的时空任务集中。使视觉推理系统具有因果推理能力是计算机视觉研究中的一个新兴课题[12,41,46]。最近的因果推理数据集[1,70]建立了视频-基于基准2,用于反事实场景中的轨迹预测或具有解释性、预测性和反事实问题的视觉问题回答。在以前的计算机视觉研究中,因果归纳法在很大程度上依赖于协变.例如,心理学研究[2,3,15,16,34]指出,解决这两个问题的关键是直观的物理学,将碰撞与物体动力学联系起来的基于协变的因果推理。此外,Edmondset al. [9,10,11]进一步证明,当视觉特征相似但潜在的因果机制显著不同时,协变将导致灾难性故障。这些结果需要超越协变的因果归纳:在各种因果结构下学习的不对称性[65]反驳了简约联想学习[59]。特别强调因果归纳,超越了简单的因果推理策略的协变[36],我们设计了具有多样化因果查询的ACRE,需要一个视觉推理系统从有限的观察中归纳出隐藏的因果机制从认知的角度来看,贝叶斯网络[48,49]和理论-理论[11,19,20,23,25,60]在绝对因果推理中起着至关重要的作用。然而,幼儿如何在如此短的暴露时间内引入准确的贝叶斯表示并形成正确的理论仍不清楚[14]。[2]值得注意的是,这些先前的作品并不呼应Michotte10646(一)灭活35.94%未确定26.78%激活37.28%(b)第(1)款直接39.49%间接12.02%屏蔽关闭后挡21.71%26.78%图3.ACRE中(a)标签和(b)查询类型的分布3. 建筑ACREACRE数据集被设计为视觉识别轻,因果归纳重。具体而言,我们采用CLEVR宇宙[32],将每个面板置于完全受控的合成环境中,其中所有物体(包括Blicket机器)都放置在带有三点照明的桌面上。所有可能的Blicket对象都具有相同的大小,并具有3种可能的形状(立方体,球体或圆柱体),2种可能的材料(金属或橡胶)和8种可能的颜色(灰色,红色,蓝色,绿色,棕色,青色,紫色或黄色)。对于上下文面板,我们将所有对象设置在场景中心的粉红色Blicket机器上,并通过点亮它来指示其激活状态。对于查询面板,我们直接将所有对象放在桌面上。 在这两种情况下,对象随机分布在场景中。为了避免在引用过程中产生混淆,每个对象都可以通过其形状、材料和颜色进行唯一识别除了约束之外,每个对象的属性都是从上述空间中随机采样的。总的来说,每个ACRE问题包含5到8个唯一的对象。我们保持其他场景配置与CLEVR [32]中的原始设置相同,并通过Blender[6]生成图像每个图像也完全注释对象属性,边界框,和面具;见图。2获取ACRE中的示例问题,更多示例请参阅补充资料。ACRE上下文每个ACRE问题包含10个面板,其中6个作为上下文面板。遵循原始设计[22,61],我们进一步将6个面板分为2组,并使用第一个简单的组作为熟悉组。具体来说,对于第一组3个面板,我们随机抽取2个对象,并将一个指定为Blicket,另一个指定为非Blicket。这两个对象都是独立测试的这3个简单的试验揭示了Blicket探测器的本质:当Blicket被放置在其上时,机器将被激活。对于第二组面板,我们允许更多的随机采样;特别是,我们对另一组与第一组不相交的对象进行采样,并将其划分为3个潜在重叠的子组,对应于其余面板的每个配置。其中一个或两个与激活的Blicket机器相关联。ACRE查询背景面板中的Blicket机器1和2.基于对Blicket机制的解释[20,22,23,61],我们在下面详细说明查询分类直观地说,如果对象独立地并且总是与激活的机器相关联,则该对象是Blicket,一个物体也被认为是一个块,如果机器激活时,我们把它与其他物体在一起,但不是单独的,其他物体未能激活机器。在这些情况下,斑点是由间接证据重新解决的;没有直接的观察是可用的。当一个物体与其他潜在的碎片放在一起会激活机器时,它被认为是非碎片,但它本身不能这样做;这种推导被称为屏蔽推理。除了是Blicket或非Blicket之外,对象的Blicketness也可以是未确定的,这发生在对象没有被直接测试,但是可以与其他潜在的Blicket一起激活机器时请注意,单个对象的Blicketness可能是不确定的,但与其他不确定的对象一起,它们可以形成一个激活机器的集合;由于这种查询发生在间接设置中,我们也将其称为间接推理。上下文面板中蕴含的丰富的因果关系为我们提供了探究推理系统因果归纳能力的机会特别是,我们在每个ACRE问题中设计了4个查询,2个用于独立场景,另外2个用于干预场景,类似于人类实验中管理的问题[22,61]。在独立场景中,我们从试验中随机抽取一个对象在介入场景中,我们选择了一个未激活机器的试验,并添加了一组从上下文面板中随机选择的对象然后,推理系统被要求在将对象放置在Blicket机器上之后告诉它的状态,无论是未激活的,未确定的还是激活的。为了避免统计偏差[22,61]或潜在的作弊[31,72],问题中的所有查询都是独立的。泛化分裂ACRE附带额外值日官分割以测量因果关系中的模型泛化归纳;我们专注于系统概括中的组合性和系统性[13,24,38,69]。在成分分割中,我们为训练集和测试集分配不同的形状-材料-颜色组合,并确保训练集包含每种形状、材料和颜色,类似于CLEVR中的成分概括测试(CoGenT)[32]。在系统性分割中,我们改变了激活的Blicket检测器在上下文面板中的分布,机器在训练集中点亮3次,在训练集中点亮4次10647JJ测试期间的时间。请注意,无论分布如何变化,因果归纳的策略都保持不变。总的来说,ACRE包含30,000个问题,均匀地划分为一个独立的和相同分布的(I.I.D.)分裂、组合性分裂和系统性分裂。数据集覆盖了所有4种类型的查询,并且标签分布被调整为大致均匀;参见图。3表示数据集中的标签分布和查询类型分布。有关每个分割的标签和查询类型的详细分布,请参阅补充资料。4. ACRE上的推理系统本节详细介绍了用于对所提出的ACRE数据集进行基准测试的深度神经模型,以及明确设计为将归纳偏差纳入因果归纳的神经符号组合。4.1. 深度神经模型由于ACRE与RPM具有相同的感应特性,因此我们测试了几个为其设计的已建立模型[55,68,77]。我们还测试了通常用于语言或视觉建模的方法[8,28]。每个上下文查询对被独立地馈送到网络中,并被视为一个分类问题。CNN-MLP我们在通道维度中将上下文面板与查询面板连接起来,并使用4层标准CNN架构来提取特征。CNN架构在卷积层之间交错使用批处理归一化和ReLU最终的卷积特征被传递到2层多层感知器(MLP),其中丢弃层的速率为0。五是两层之间ResNet-MLP在这个模型中,我们用ResNet-18替换了CNN-MLP中的CNN主干[28]。CNN-LSTM我们使用标准的LSTM模型[30]来进一步处理视觉特征。具体来说,我们使用CNN独立地提取每个面板的图像特征,将one-hot位置标签附加到每个特征图,并将它们顺序传递到LSTM模块中。最终的隐藏状态由线性层进一步处理以产生logits。CNN-BERT还测试了一个视觉BERT [8]模型我们使用CNN计算图像特征,并遵循BERT中的实践 :对 于图 像特 征序 列 ,我 们前 置 , 使用分离上下文面板和查询面板,并添加位置和分段嵌入。的输出然后用于分类。WReN我们采用San- toro等人提出的WReN模型。[55],其将关系模块[56]应用于基于面板的图像表示。MXGNet在LEN中使用类似的策略使MXGNet [68]与ACRE兼容两组上下文试验在模型中被视为行。4.2. 神经元符号模型在初步实验中,我们注意到纯神经模型倾向于捕捉统计相关性,而不是在上下文测试之外对隐藏的因果关系进行建模。为了克服这个问题,我们提出了神经符号的组合,并明确纳入各种形式的因果归纳偏见的抽象因果推理任务。具体来说,我们从神经符号文献的最新进展中汲取灵感[26,39,43,50,51,70,71,74,76],并将我们的模型分解为神经感知前端和因果推理后端。通过设计,前端负责解析每个上下文试验以形成基于对象的表示,而后端从前端获取符号输出并执行因果归纳;参见图中的方法概述。四、神经感知前端作为解决ACRE问题的第一次尝试,我们解开了神经感知前端,并独立地预训练模型以进行解析每个场景。具体来说,我们使用Mask-RCNN [27]和ResNet-50 FPN [28,40]主干。感知模型的任务是预测场景中每个对象的Blicket机器每个分割的训练集中的上下文和查询面板都用于训练前端。因果推理后端由于其效率和准确性,我们使用基于分数的连续优化方法,表示为NS-Opt,同时学习一般化的结构方程模型(SEM)并导出隐藏的因果关系[78,79]。特别地,将面板i中对象j的存在表示为Xi,j∈{0,1},我们可以将来自神经感知前端的符号解析结果排列成数据矩阵X∈ {0,1}6×n,其中n等于所有上下文面板还有Blicket机器广义SEM假设对象j的状态经由函数与其父对象的状态相关,并且可以表示为Xj=fj(Xpa(j))=gj(X),(1)其中X=[X1|X2|. . . |XJ|. . . ],并且pa(j)表示对象j的父对象。在gj (·)中进一步推广了父搜索过程,并将其置于优化约束中。[79]我们把因果发现作为一种操作,最小化问题LENLEN [77]源于WReN,但考虑了RPM中的行和列组成minimize1(X,g(X))g:gj,<$j∈[n]nj(二)更深层次的功能和多选择设置。我们调整了通过删除列式组合的分支并使每个查询的预测独立,将原始LEN设计扩展到所提出的ACRE。假设h(W(g))=0,其中W(g)k,j=k,j∈[n],且h(W)=Tr(eWW−I).我们用[n]表示一个整数集,10648“machine”:“activated”,“对象”:{{“形状”:“立方体”,“材质”:“橡胶”,“颜色”:“青色”,“机器”:“size”:0.6,“inactivated”,“objects”:{“bbox”:[........................................... ]{“shape”:“mask”:[。]“立方体”,00.. ....11 1},“材料”:“橡胶”,......尽量减少“color”:“cyan”,}1n`(X,g(X))JJ“size”:0.6,“bbox”:[.................... ],“mask”:[. .. ]},......}6四、......7J.......5g:gj,<$j∈[n]10.. ....X0 00h(W(g))= 0时查询“对象”:{{“形状”:“球体”,“材质”:“橡胶”,“颜色”:“蓝色”,“size”:0.6,“bbox”:[.................... ],“mask”:[. .. ]},......}00.. ....1一号?尽量减少Xn1nj`(Xj,gj([X1:n−1|Xn]))|{z}X1:n−1受0≤Xn≤1Xn情境神经感知因果推理图4. ACRE的拟议神经符号组合(NS-Opt)的说明。神经前端负责场景解析。特别是,我们使用Mask RCNN来检测对象并对其属性以及Blicket机器的状态进行分类解析的在推理过程中,从上下文试验中学习广义SEM,其进一步用于推断每个查询的Blicket机器的状态。1到n,n·n是L2函数范数,n是Hadamart乘积。对于每个对象j,使用二进制交叉熵损失作为k(·,·),优化问题正则化了一般的利用结构方程模型对观测数据进行重构,同时约束变量之间的因果关系无环图(DAG):W(g)可以看作是变量间的邻接矩阵,h( ·)是一个无环图的度量. 我们对每个gj(·)使用MLP,并通过增广拉格朗日优化问题;有关详细信息,请参见[78,79通过学习广义SEM表示上下文试验中隐藏的具体来说,我们从神经感知前端解析的符号表示中为每个面板构建部分数据向量。表示-将Blicket机器作为对象n,查询向量可以表示为X1 :n−1。将Xn视为Blicket机器被激活的概率,查询优化公式为:最小化1个整数(X,g([X|X])5. 实验5.1. 实验装置ACRE被等分成3个部分,即,身份证分裂、组合性(comp)分裂和系统性(sys)分裂。每一次拆分包含10,000个问题。我们进一步将每个拆分分为10倍,其中6倍用于训练,2倍用于验证,2倍用于测试。所有的模型都是在训练集上训练的,超参数是在验证集上调整的报告测试集上最佳模型的结果特别是,我们报告两个指标:查询准确性和问题的准确性。前者衡量模型如何处理每个查询,后者衡量模型是否正确回答了问题实例中的所有4个查询请注意,基于图3所示的标签分布,始终预测激活的简单策略将产生约37。3%的查询准确率和1. 87%的问题准确率,而完全随机的猜测将产生33。3%的查询准确率和1. 19%的问题AC-XNNJj j 1:n−1n(三)副牧师所有的神经模型,包括神经感知受0≤X n≤ 1。我们使用L-BFGS-B [4]解决它,并在Xn上设置阈值来预测Blicket机器我们还测试了基于约束的方法[18,62]和着名的基于约束的方法(表示为NS-PC)首先使用最先进的PC算法[62]来测试条件独立性并在对象和Blicket机之间搜索潜在的因果DAG。然后,它为Blicket机器找到父节点,并估计其条件概率表,该表可以直接为每个查询配置读出。对于RW模型(表示为NS-RW),我们简单地 将 对 象 与 激 活 的 Blicket 机 器 的 同 现 视 为 其Blicketness。查询配置的状态是根据其中所有对象的最大Blicketness来预测的神经符号模型中的前端,在PyTorch中实现[47]并使用Adam进行优化[33]。所有实验都在Nvidia Titan XPGPU上运行。5.2. 身份证上的表现设置表1的第一部分报告了各种模型在I.I.D.设置ACRE。令人惊讶的是,现有的抽象时空推理任务的最先进的方法[68,77]没有太多的赌注,ter(在某些情况下甚至更糟)比一个简单的CNN-MLP模型。特别是,MXGNet的性能比随机猜测略差,仅正确回答了1%的问题。有了一个关系模块,WReN与CNN-MLP模型不相上下。CNN-LSTM和ResNet-MLP实现了类似的性能,基于LSTM的推理模型在问题准确性方面表现更好所有的纯神经模型-Mask RCNN10649方法MXGNet透镜CNN-MLPWrenCNN-LSTMResNet-MLPCNN-BERTNS-RWNS-PCNS-OptI.I.D.Qry。三十三01%38岁百分之零八四十百分之八十六四十百分之三十九41岁百分之九十一42岁百分之一百43号。百分之五十六四十六百分之六十一59. 百分之二十六66岁百分之二十九Pro.1 .一、百分之一百二、05%3 .第三章。百分之二十五二、百分之三十3 .第三章。百分之六十3 .第三章。百分之三十五3 .第三章。百分之五十六、百分之四十五21岁百分之十五27岁。百分之一百Comp.Qry。三十五百分之五十六38岁百分之四十五41岁百分之九十七41岁百分之九十42岁百分之八十42岁百分之八十43号。百分之七十九50块百分之六十九61岁。百分之八十三69岁04%Pro.1 .一、百分之五十五二、百分之十二、百分之九十二、百分之六十五二、百分之八十二、百分之六十二、百分之四十8 .第八条。百分之十22岁百分之一百31岁百分之二十Sys.Qry。三十三百分之四十三三十六。百分之十一37岁百分之四十五39岁。百分之六十37岁百分之十九37岁百分之七十一39岁。百分之九十三42岁百分之十八62岁百分之六十三67岁。百分之四十四Pro.0的情况。百分之六十1 .一、百分之九十二、百分之五十五1 .一、百分之九十1 .一、百分之八十五1 .一、百分之七十五1 .一、百分之九十四、百分之一百第二十九章。百分之二十第二十九章。百分之五十五表1.I.I.D.上模型的性能分裂,组合性分裂(Comp.),和系统分裂(Sys.)在ACRE。我们报告2评估指标:查询准确率(Qry.)和问题的准确性(Pro.)。详情请参阅实验装置因此,BERT模型在查询准确性方面达到了最佳水平,在问题准确性方面略微超过了CNN-LSTM。在测试的3个神经符号模型中,NS-RW严格遵循协变策略解决因果发现问题。我们注意到,这样一个简单的因果推理方法只能处理不到一半的ACRE查询和不到10%的ACRE问题,验证和需要我们的努力,以创建一个基准的因果归纳超越协变。NS-PC采用独立性检验和搜索方法,为因果关系发现提供了一个预言机模型然而,我们的实验表明,NS-PC是劣于基于优化的NS-Opt方法。我们认为,这样的结果是由于稀疏和有限的观察ACRE问题,使其难以进行可靠的独立性测试。这一挑战进一步困扰了人类,甚至是蹒跚学步的孩子,如何从稀缺的观察中快速准确地得出隐藏的关系的潜在机制。建议的NS-Opt方法成功地处理了三分之二的查询,但仍有很大的空间来提高问题的准确性。5.3. 在O.O.D.上的表现设置表1的第二和第三部分描述了模型设置,即,组成性和系统性。将组合性拆分中的查询准确性和问题准确性与I.I.D.中的设置,我们注意到模型考虑到组合性分裂中的训练集和测试集包含完全不同的对象属性组合的事实,很可能神经模型确实已经出现了一定程度的因果推理,尽管并不完美,以解决问题,而不是完全依赖于来自训练集的统计视觉特征。然而,它们对因果知识的潜在表达仍然是难以捉摸的;未来的工作需要发现它们的精确机制。即使神经模型出现了因果推理策略,这种策略也不是系统的,正如系统性分裂和I.I.D.之间的比较所证明分裂注意,只有激活机器的分布在系统性分裂的训练集和测试集中不同,而解可以以相同的方式导出。我们注意到,除了NS-PC模型和NS-Opt模型之外,所有其他模型的体验都是-有些人甚至比总是预测“激活”更糟糕。这一观察结果与最近的实验结果相呼应,纯神经模型仍然难以系统地推广[13,37,54]。在这3个划分中,我们还注意到查询准确性和问题准确性之间存在明显的差距。我们假设这个结果表明桶效应的存在,我们将在下一节中进行验证。5.4. 近距离观察查询准确性和问题准确性之间的巨大差异促使我们对模型在每种类型的查询上的表现进行更仔细的检查;请参见表2以获得我们的实验结果总结。一般来说,我们注意到神经模型倾向于通过协变来捕捉因果关系。他们中的大多数都很优秀在可通过该策略直接求解的查询类型中,在不同的分割中,在直接查询或间接查询或两者中实现最佳性能。这种效果 在 基 于 CNN 的 推 理 模 型 ( CNN-MLP 和 ResNet-MLP)中尤为显著,通过仅从目标标签学习,间接查询的准确率甚至达到87%。然而,与基于协变的推理令人满意的性能相比,它们无法处理筛选查询和向后阻塞查询,这超出了同现。具体来说,性能最好的神经模型(CNN-BERT)在系统性分裂中无法筛选查询,而基于CNN的推理模型也在这些设置中挣扎。在基于关系模块的模型(MXGNet,LEN和WReN)中,LEN和WReN在不同类型的查询中是相对稳定的。然而,在多重图中,MXGNet显示了不同的动力学,在向后阻塞查询中学习得最好,但在直接和间接查询中表现不佳。还值得注意的是,支持MXGNet向后阻塞的因果推理并不总是支持屏蔽推理。在CNN-LSTM中发现了一个相反的问题:该模型在筛选推理中表现出色,但在其中2个分裂中的向后阻塞中表现不佳。综合这些结果,我们假设纯神经视觉推理系统还没有将因果归纳处理到人类在发展研究中显示的可比水平[22,61]。神经元之间的查询性能差异10650方法MXGNet透镜CNN-MLPWrenCNN-LSTMResNet-MLPCNN-BERTNS-RWNS-PCNS-OptD.R.27岁。百分之七十三第四十九章。百分之零七55个。百分之五十六51. 04%四十八。百分之二十54号百分之八十七52. 百分之二十四88. 百分之八十八84. 百分之四十六91. 百分之六十四I.I.D.I.D.S.O.第二十九章。百分之六十三十四岁百分之八十八四十五百分之十一三十三百分之六十八五十六百分之三十一44个。百分之八十八41岁04%第二十九章。百分之七十五三十六。百分之七十六五十三百分之二十三四十八。百分之三十七42岁百分之二十九44个。百分之五十42岁百分之五十九九十九百分之二十九7 .第一次会议。百分之二十一第二十九章。百分之三十三78岁百分之三十一69岁百分之二十五85. 百分之三十七B.B.59. 09%23岁百分之九十一9 .第九条。百分之七十一三十五百分之六十一24岁百分之九十一21岁百分之十二32岁百分之十五1 .一、百分之六十六20. 百分之五十十一岁百分之九十八D.R.三十六。百分之九十三四十七百分之五十八第五十七章。百分之五十九55个。百分之二十九五十六百分之五十八62岁百分之七十九54号百分之零七91. 百分之七十四89岁百分之五十92. 百分之五十Comp.I.D.S.O.55个。百分之九十九0的情况。百分之一百52. 百分之五十一十八岁01%64岁百分之三十八31岁百分之六十六66岁百分之九十四8 .第八条。百分之四十四65岁百分之十十九岁百分之六十九七十。01%30. 百分之五十二四十六百分之八十八四十百分之五十七九十九百分之八十四、百分之零七28岁百分之六十六85. 百分之二十八76岁。05%88. 百分之三十三B.B.52. 百分之三十五三十三百分之六十三十五岁百分之二十六三十五百分之九十九第二十九章。百分之二十七8 .第八条。百分之五十四28岁百分之七十九0的情况。百分之六十七十五岁百分之二十一13岁百分之四十八D.R.十五岁百分之二十四四十六百分之二十二七十。百分之七十九五十三百分之五十六42岁百分之五十七65岁百分之十九55个。百分之九十七92. 百分之四十四89岁百分之七十六94. 百分之七十三Sys.I.D.S.O.五、百分之四十二42岁百分之五十八四十七百分之九十30. 百分之九十一87岁百分之六十一十一岁百分之五十七71岁。百分之三十五十六岁百分之八十37岁百分之六十一63岁百分之二十八85. 百分之零七9 .第九条。百分之五十七68岁。百分之二十五0的情况。百分之一百九十九百分之八十九0的情况。百分之二十第五十七章。百分之零八七十三。百分之九十三88. 百分之三十八82. 百分之七十六B.B.五十六百分之三十八24岁百分之八十九3 .第三章。百分之六十31岁百分之六十二8 .第八条。百分之七十13岁百分之三十八四十五百分之五十九0的情况。百分之四十六24岁百分之八十八十六岁06%表2.仔细看看模型如何在ACRE的不同分割上对每种类型的查询执行:直接(D.R.),间接(I.D.),筛选-关闭(S.O.),和后向阻塞(B.B.)。符号模型潜在地指出了解决抽象因果推理问题的阿喀琉斯之踵。NS-RWNS-RW的结果还可作为ACRE中查询的合理性检查,几乎所有直接和间接查询都可以通过协变解决(除了最小数量的干预病例),几乎没有筛选和向后阻塞查询可以解决(除了最小数量的巧合)。比较NS-PC和NS-Opt,我们注意到这两个模型在直接查询和筛选查询上都取得了相当的性能。然而,后者在间接查询中的表现要好得多。我们认为,PC中使用的严格的独立性测试和搜索方法使模型对噪声的鲁棒性较差,特别是在稀疏和有限的数据情况下。在两个模型中明显的是,并且在NS-0 pt中更重要的是,它们不能区分与激活的机器的表面相关性和其中的未确定的Blicketness。这种仔细的检查也表明,充分解决这个问题可以进一步提高一般的因果推理性能。通过比较NS-Opt和纯神经网络在后向阻塞中的低准确性,我们假设因果推理的潜在解决方案是将学习和符号推理中的两个世界的最佳结合起来,同时保持神经方法的可学习性和符号方法的可解释性。6. 结论在这项工作中,我们提出了一个新的数据集抽象因果推理(ACRE),旨在衡量和改善视觉推理系统中的因果归纳。除了归纳推理的性质外,ACRE数据集的定义特征是要求执行超越协变的因果推理。受Blicket实验的既定研究流的启发,ACRE数据集基于使用合成CLEVR宇宙的类似设置[32]。为了测量超越协方差的因果归纳-10651因此,我们在独立场景或介入场景中挑战具有4种类型的查询的视觉推理系统:直接、间接、屏蔽和向后阻塞。前两种类型的查询可以通过计算共现来回答,而后两种类型需要深入的因果表示。为了更好地衡量因果发现中的概括性,我们进一步提出了组合性和系统性OD。分裂我们设计了一个基于优化的神经符号方法来装备一个具有因果发现能力的视觉推理系统。特别是,我们将模型分解为神经感知前端和因果推理后端。神经感知前端使用Mask RCNN [27]解析给定的试验,而因果推理后端则对因果发现进行连续优化[78,79]。利用上下文试验来学习广义SEM,并且通过找到适合SEM的最佳值来解决查询试验的答案。作为第一次尝试,我们分别训练这两个组件,将视觉感知和因果发现之间的闭环问题留给未来的工作[39,74,75]。现有的视觉推理系统的因果归纳能力已经在ACRE上进行了基准测试。具体来说,我们注意到纯神经模型倾向于通过捕获统计相关性来执行因果推理,在直接和间接查询上实现对于神经符号模型,我们注意到它们都在向后阻塞上挣扎,并且稀疏和有限的观察进一步增加了问题的复杂性。比较这两种模型在不同查询上的表现,我们假设进一步将学习和符号推理结合起来将是因果归纳和更广泛的因果推理问题的一个有前途的方向。最后,我们希望在这个因果推理任务的挑战,将呼吁与人类水平的空间,时间和因果推理能力的视觉系统的关注。鸣谢:本文报告的工作是Sup.由ONR MURI N 00014 -16-1-2007,DARPA XAI移植N66001-17-2-4029和ONR N 00014 -19-1-2153。10652引用[1] Fabien Baradel,Natalia Neverova,Julien Mille,GregMori和Christian Wolf。Copy:Counterfactual learning ofphys- ical dynamics.2020年国际学术会议(ICLR)。3[2] 彼得·W·巴塔利亚,杰西卡·B·哈姆里克,约书亚·B·特南鲍姆.仿真是理解物理场景的引擎. Proceedings of theNational Academy of Sciences(PNAS),110(45):18327-18332,2013. 3[3] Neil R Bramley , Tobias Gerstenberg , Joshua BTenenbaum,and Todd M Gurekis.物理世界中的直觉实验认知心理学,105:9-38,2018。3[4] Richard H Byrd , Peihuang Lu , Jorg
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功