图像中揭示的因果信号

157 浏览量更新于2023-10-16 收藏 775KB PDF 举报

因果关系

图像分类

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16979发现图像中的因果信号David Lopez-PazFacebook AIResearchdlp@fb.com罗伯特·西原加州大学伯克利分校rkn@eecs.berkeley.eduFacebook AIResearchsoumith@fb.comBernhardSchoülkopfMPI for IntelligentSystemsbs@tue.mpg.deLe' onBottouFacebookAI Researchleon@bottou.org摘要本文建立了存在的可观察的足迹，揭示了“因果处置”的对象类别出现在收集的图像。我们分两步实现这一目标首先，我们采用一种学习方法来观察因果发现，并构建一个分类器，该分类器在寻找随机变量对之间的因果方向时具有最先进的性能，给定来自其联合分布的样本。其次，我们使用我们的因果方向分类器，以有效地区分对象的功能和他们的背景下的静态图像的集合的功能。我们的实验证明了因果关系的方向和对象及其上下文之间的差异之间存在关系，并且同样，存在可观察到的信号，这些信号揭示了对象的因果倾向。1. 介绍想象一幅图像，它代表一座河上的桥。桥上，一辆汽车正从右车道上飞驰而过。现代计算机视觉算法擅长回答关于场景的可观察属性的问题，例如“这张图像中有汽车吗？“.这是通过在大型图像数据集上利用像素和图像特征之间的相关性来然而，对图像的更细致的理解可以说需要能够推理图像中描绘的场景如何响应干预而改变。由于可能的干预措施的清单是长而复杂的，我们可以，作为第一步，对移除对象的干预进行推理。为此，考虑两个反事实问题：“如果我们把车移走，场景会是什么样子？““如果我们把桥移走，场景会是什么样子？“一方面，第一次干预似乎相当温和。把车移走后，我们可以说图1：我们的目标是揭示世界上组成场景的真实实体对之间的因果关系（例如，"汽车的存在导致车轮的存在"，蓝色实线箭头）。为此，我们将一种新的观测因果发现技术NCC应用于通过将CNN应用于图像像素来计算的一对相关代理变量的联合分布。由于这些变量被期望与相应的真实实体的存在高度相关，所以代理变量之间的因果关系的出现（虚线蓝色箭头）表明在真实世界实体之间存在因果联系（例如，score（car）和score（wheel）之间因果关系的出现表明，在现实世界中，汽车的存在导致了车轮的存在。图像中描绘的场景的其余部分（河流、桥梁）将保持不变。另一方面，第二种干预似乎更为严重。如果桥已经从场景中移走了，一般来说，观察汽车在河上失重漂浮是没有意义的因此，我们理解桥的存在对汽车的存在有影响对这些和类似的反事实的推理允许开始问“为什么在这个图像中有一辆车？” 这个问题当然是拙劣的对象识别器得分（汽车）真实世界（RealWorld）汽车（物体）车轮图像（像素）刻痕（轮）特征提取器16980定义，但答案与桥梁和汽车之间的因果关系有关。在我们的例子中，桥的存在导致了汽车的存在，从某种意义上说，如果桥不在那里，那么汽车也不会在那里（不用说，这不是汽车的唯一这种因果关系的介入语义与文献中的当前方法一致[25，22]。1.1. 因果关系到目前为止，我们已经讨论了单个图像中表示特定场景的两个对象之间的因果关系。为了部署统计技术，我们必须处理大量代表各种场景的图像相似的物体在不同的场景中可能有不同的因果关系例如，图像可以示出汽车从桥下通过，而不是从桥上通过。因果关系的倾向语义[20]提供了一个解决这个难题的方法。在这个框架中，因果关系是在对象行使其某些因果倾向时建立的，这些倾向有时被非正式地称为对象的力量。例如，桥有能力为汽车提供支撑，汽车有能力过桥。尽管场景中的客体不一定会发挥其所有的力量，但因果关系的倾向性理论的基础是，所有的因果关系都是客体力量的表现。1由于潜在的因果倾向和可能的干预一样长，一样复杂，我们再次将注意力限制在影响场景中某些对象特别是我们可以计算范畴A和B的对象的因果性处置在其中被运用的意象的数量C（A，B）其方式是，如果移走A类物体，B类物体就会消失。然后我们说A范畴的对象导致对象当C（A，B）（充分）大于逆C（B，A）时，属于类别B。这一定义导致了对象类别平均而言，它代表了当人们要使某些对象消失时，真实世界的场景将如何被修改本文提出的基本问题是确定这种不对称的因果关系可以从图像数据集中观察到的统计数据推断出来。假设1. 图像数据集带有一个可观察的统计信号，揭示了对象类别之间的不对称关系，这是由它们的因果关系造成的据我们所知，没有先前的工作已经建立，甚至考虑到这样的信号的存在。如果发现了这样的信号，这将意味着原则上可能[1]因果倾向是比Pearl方法的因果图更原始的概念因此，在我们的例子中，因果倾向决定了因果图的形状。统计计算机视觉算法来推理世界的因果结构。这是一个不小的成就，因为直到今天，统计学上还在争论是否可以从纯粹的统计信息中推断因果关系，而不进行干预。这一贡献的重点是建立这种因果信号的存在，使用一种新提出的方法。相比之下，我们没有做出任何工程贡献，使用这些信号推进标准计算机视觉任务的最新技术水平-这超出了本文的范围。1.2. 对象特征和上下文特征由于图像数据集不提供描述对象因果倾向的标签，因此我们无法求助于监督学习技术来找到假设1提出的因果信号。相反，我们采取了下面描述的间接方法。卷积神经网络（CNN）[14，21，8]的最终层计算的特征通常表明在研究图像所[2]已经开发了各种技术来研究这些类似物体的特征出现在场景中的位置以及它们在图像中的样子[32，31]。因此，我们可以检查大量的图像集合，这些图像代表不同的感兴趣对象，如猫、狗、火车、公共汽车、汽车和人。这些对象在图像中的位置以边界框的形式提供给我们对于每个感兴趣的对象，我们可以区分对象特征和上下文特征。根据定义，对象特征是主要在感兴趣对象的边界框内激活的那些特征，并且上下文特征是主要在感兴趣对象的边界框外激活的那些特征独立地和平行地，我们也区分因果特征和反因果特征[27]。因果特征是导致场景中存在对象的那些特征，而反因果特征是由场景中存在对象所导致的那些特征。在区分了客体特征和语境特征之后，我们的间接方法依赖于第二个假设：假设2。在目标特征和反因果特征之间存在着可观察到的统计相关性。上下文特征和因果特征之间的统计依赖性是不存在的或弱得多。我们期望假设2为真，因为感兴趣对象的存在所引起的许多特征实际上是对象本身的一部分，因此很可能包含在其边界框内。例如，汽车的存在往往导致车轮的存在。相比之下，感兴趣对象的上下文可能导致或被[2]本文中的特征一词描述了场景的一种属性，其存在由CNN计算的特征激活来3在第1.1节定义的意义上。16981j=1j=1是由物体的存在引起的。例如，沥青状特征导致汽车的存在，但汽车的阴影是由汽车的存在引起的重要的是，支持假设2的经验支持转化为支持假设1。1.3. 我们的贡献我们的计划是使用大量的图像来提供支持假设2的经验证据。为了做到这一点，我们必须有效地确定，对于每个对象类别，哪些特征是因果的或反因果的。这样，我们将支持假设2，从而支持假设1。我们的展览会组织如下。在讨论了相关文献之后，第二节介绍了从观测数据进行因果推断的基础。第3节提出了一种新的算法，神经因果关系系数（NCC），能够从标记数据的语料库中学习因果关系。NCC被证明在因果推理方面优于先前的最先进的方法。第四节利用NCC来区分图像集合中的因果特征和反因果特征。作为假设，我们表现出一致的anticausal功能和对象功能之间的关系。最后，第5节通过提供一些结论和未来研究的方向来结束我们的论述。1.4. 相关工作本文中描述的实验关键取决于CNN卷积层计算的特征的属性[14]。Zeiler等人[31]表明最终的卷积层通常可以被解释为类似对象的特征。弱监管[21，32]的工作表明，这些功能可以准确定位。我们还建立在越来越多的文献上，讨论从观测数据中发现因果关系[10，19，17，1]。特别是，神经因果关系系数（第3节）与[17]相关，但提供了更好的性能，并且是从数据中端到端学习的。因果和反因果特征的概念受到[27]的启发我们相信我们的工作是第一个观察因果发现技术fPf对于j = 1，. . . ，m doxj<$Pc（X）ej<$Pe（E）yj←f（xj）+ej端returnS={（xj，yj）}m图2：加性噪声模型，其中X→Y。我们从纯粹的观察角度来定位场景中的因果关系这一关键差异导致了截然不同的概念和技术挑战。2. 观察因果发现随机实验是因果推理的黄金标准[22]。就像一个孩子可能会掉下一个玩具来探索重力的本质一样，这些实验依赖于与世界的互动当这样的实验是昂贵的，不道德的，或不可能进行，我们必须辨别因果关系只使用观测数据，而没有干预的能力[30]。这是观察因果发现的领域。在没有任何假设的情况下，确定随机变量之间的因果关系从联合分布的给定样本是根本不可能的[22，23]。然而，在实践中仍然有可能确定一个合理的因果结构。对于现实世界中发生的联合分布，不同的因果解释可能不一样。也就是说，感兴趣的典型变量之间的因果我们将利用这种洞察力来构建一个分类器，用于从两个随机变量的联合分布样本中确定它们之间在最简单的形式中，观察因果发现[23，19，18]考虑观察样本目标是对象的因果倾向。计算机视觉中的因果关系一直是S={（xj，yj）}mn（X，Y），（1）最近的四部作品Pickup等[24]使用观察因果发现技术来确定视频播放中的时间方向。Lebeda等人[13]使用转移熵来研究视频数据中对象和摄像机运动Fire和Zhu [5，6]使用注释有对象状态和动作的视频数据来推断视觉因果关系。Chalupkaet al.[2]更接近我们的然而，他们的工作部署了干预性实验，以针对标签过程中的因果关系，也就是说，哪些像素操作可以导致不同的标签，而并且旨在推断是X→Y还是Y→X。特别地，假设S是从两个模型中的一个得出的：从X → Y的因果模型，或从X←Y的反因果模型。图2展示了一系列这样的模型，即加性噪声模型（ANM）[10]，其中，变量Y是原因变量X的非线性函数f，加上一些独立的随机噪声E。如果我们对图2中的分布Pf、Pc和Pe不做任何假设，那么观测因果发现的问题是不可识别的[23]。为了解决这个问题，我们假设每当X→Y，原因，16982i=1Mj=110−1−1 01X10−1−1 0 1YP（X）3210−1−2-3000。5.1.0XP（Y）效果[10]。这里，相关的足迹是X和E之间的独立性。其次，考虑一个新的观测样本，其中X→Y，Y=f（X），并且f是单调函数。因果关系X→Y是确定性的，因此呈现了前面段落中基于噪声的足迹(a) ANMX→Y。(b) ANMY→X(c) 单调X →Y。没用假设P（X）是均匀分布。然后，在-当导数f′减小时，如下式所示图3：因果足迹的示例。噪声和机制分布是这应该被解释为包括两种类型的独立性的非正式声明一个是原因和机制之间的独立性（ICM）[15，27]，它不是形式化为输入变量x和机制f之间的独立性，而是形式化为独立性。在数据源（即，分布P（X））和机制P（Y）之间|（X）映射因果关系。这可以用概率论[3]或用概率论来形式化租mic复杂性[12]. ICM是均变论的一个化身：自然界中的过程f是固定的，并且不知道其因果输入的分布Pc第二个独立性是原因和噪音之间的独立性。这是结构方程模型中的一个标准假设，它可以与因果充分性相关。从本质上讲，如果违反了这个假设，我们的因果模型就太小了，我们应该包括额外的变量[22]。通俗地说，相信这些假设等于不相信虚假的相关性。对于（Pc，Pe，Pf）的大多数选择，ICM将在反因果方向X←Y上振动。这种违规行为往往会留下一个可观察到的统计足迹，使-将因果关系与观察数据区分开来[23]。但是，这些因果足迹究竟是什么，我们如何开发统计测试来找到它们？图3c.不严格地说，效应分布P（Y）的形状因此与机制f无关。在这个例子中，ICM在正确的因果方向X→Y下是满足的，但在错误的因果方向X → Y下是违反的反应Y →X[3]。同样，这种不对称性使得因与果的区别[3]。在这里，相关的足迹是一种独立的密度之间的形式，X和f′。可以继续以这种方式，考虑更多类别的模型并添加新的足迹以检测每种情况下的因果关系。然而，设计和维护因果足迹的目录是一项繁琐的任务，并且任何这样的目录都很可能是不完整的。因此，下一节提出使用神经网络直接从数据中学习因果足迹。3. 神经因果系数为了从数据中学习因果足迹，我们遵循[18]并将因果推理作为二元分类任务。我们的输入模式Si实际上是类似于图3a和3b中所示的散点图。即，每个数据点是从一个分布P（Xi，Yi）中抽取的样本集（xij，yij）∈R2.类标签li指示Xi和Yi之间的因果方向。D={（Si，Ii）}n，Si={（xij，yij）}mi Pmi（Xi，Yi），.l=0若Xi→ Yi.（二）2.1.可观察到的因果足迹我1如果X为← Y i让我们举例说明两种类型的可观察的因果足迹。首先，考虑线性加性噪声模型Y←f（X）+E，其中原因X和噪声E是两个独立的，dent均匀随机变量有界范围，和机制f是一个线性函数（图3a）。关键是，不可能构造线性加性噪声模型X ←f（Y）+E其中，新w导致Y，新w噪声E是两个独立的随机变量（除了在退化使用这种形式的数据，我们将训练一个神经网络，以将来自概率分布的样本分类为因果或反因果。由于输入模式Si不是固定维向量，而是点袋，因此我们从核均值嵌入分类器的文献中汲取灵感[28]，并构建了以下形式的前馈神经网络：1美元iNCC（{（xij，yij）}mi ）=φ（xij，yij）。例）。这在图3b中示出，其中，新噪声可变E的方差是可变的（如在Re d条中所描绘的j=1Mij=1在新的原因变量Y的不同位置。因此，对于正确的因果关系在前面的例子中，φ是一个特征图，φ（xij，y<$ij）是经验分布u的平均嵌入方向X→Y，但由于错误的因果方向而违反第1项我Mii=1 δ（xij，yij）的情况。函数functional是一个二元分类器Y -X。这种不对称性使得cause与采用固定长度的均值嵌入作为输入的cause不同[18]。YXY16983j=1j=1P（Xi →Yi）嵌入层图4：神经因果关系系数（NCC）架构的示意图。在核方法中，φ是先验固定的，并相对于非线性核定义[28]。相比之下，我们的特征映射φ：R2→Rh和我们的分类器φ：Rh→ {0，1}都是多层感知器，它们是从数据中联合学习的。图4展示了所提出的架构，我们称之为神经因果关系系数（NCC）。简而言之，为了将样本Si分类为因果或反因果，NCC将样本Si中的每个点（xij，yij）映射到表示φ（x<$ij，yij）∈Rh，计算嵌入向量φSi ：=人工生成数据的NCC。事实证明，这是一种优势，因为它使我们可以轻松访问无限的数据。在下文中，我们描述了生成合成因果数据的过程以及NCC的训练过程，并展示了NCC在真实世界因果数据上的性能。3.1. 训练数据因果信号与相关性显著不同1百万imij=1φ（xij，yij）在所有点（xij，yij）∈Si上，以及现代计算机视觉算法所利用的结构。对嵌入向量φSi进行分类∈Rh作为因果或-特别是，由于第一和第二时刻总是利用神经网络分类器进行分类。重要的是，所提出的神经结构不限于因果推理，并且可以用于表示和学习一般分布。NCC具有一些吸引人的特性。首先，预测对称的因果信号只能在高阶中找到时刻更具体地说，我们将构造n个合成观测样本Si（见图2），其中第i个观测样本包含mi个点。组成OB的点-在测试时，一组新样本的因果关系可以服务样本Si={（xij，yij）}mi是从一个一个简单的方法，就可以通过一个简单的方法，通过一个简单的方法gregate网络该操作的复杂度与样本数成线性关系相比之下，计算的复杂性的国家的最先进的（基于内核的加性噪声模型）是立方的样本数量。第二，可以使用不同因果和反因果生成模型的混合来训练NCC，例如将原因与其结果联系起来的线性、非线性、噪声和确定性机制这种丰富的训练使NCC能够同时学习多种因果足迹。第三，对于可微激活函数，NCC是可微函数。这让我们异方差加性噪声模型yij←fi（xij）+vij eij，对于所有j=1，. . .，m i.以这种方式，我们推广了在以前的升普遍存在的同方差噪声假设-自然[19]。原因项xij是从ki高斯分布的混合中得出的。我们通过从Gaussian（0，ri）采样其均值，从Gaussian（0，si）采样其标准差，然后是绝对值，以及从Gaussian（0，1）采样其未归一化混合权重，然后是绝对值。我们采样kiRandom[1，5]，r i，s iUniform [0，5]. 我们将混合权重归一化为将NCC嵌入到更大的神经架构中，或者将其用作总和为1。我们将{x ij}mi归一化至零平均值和单位一个正则化项，以鼓励学习因果关系或反因果模式方差机构fi是一个有支撑的三次Hermite样条NCC的灵活性是有代价的。实际上，拉-Σ min（{x}mi）−std（{x}mi ）的情况下，公式（2）中的因果关系数据很少，ijj=1ijj=1Σ（3）收集起来很麻烦正因为如此，我们遵循[18]和训练max（{xij}mi）+std（{xij}mi）{（x），y）}M我IJIJj=1（x ，y）I1I1Mi1美元i（·）j=1（ximi，yimi）平均每个点分别进行分类器层16984j=1j =116985j=1j=1j=12j=1j=1和di结绘制从高斯（0，1），其中diRandomized（4，5）.无噪声效应项这一验证突出了一个关键事实：即使在抽象数据上训练，NCC也能发现正确的原因-{f（xij）}mi方差归一化为零均值和单位影响各种真实世界数据集的关系。但是：这些抽象的、独立于领域的、因果关系的脚--噪声项 eij 从高斯（ 0 ， vi ）采样，其中 vi=Uniform[0，5]。为了推广ICM，我们允许异方差噪声：我们将每个eij乘以vij，其中vij是具有如等式（3）中所定义的支持的平滑样条的值，并且di是从Uniform[0，5]绘制的随机结。噪声效应项{yij}mi 被归一化为具有零均值和单位方差。该采样过程产生一个由2n个标记的观测样本组成的.ΣnD=（{（x，y）}mi 、0）指纹隐藏在复杂的图像数据中4. 静态图像我们现在拥有所有必要的工具来验证我们的假设。在下文中，我们选择使用Pascal VOC 2012数据集的20个对象类别[4]。我们首先解释我们如何使用NCC来选择最合理的因果或anticausal功能为每个对象类别。然后，我们表明，所选的anticausal特征更有可能是对象特征，即，ij ij.j=1i=Σ1（四）在对象边界框内，∪3.2. 培训NCC（{（yij，xij）}mi、1）ni=1。功能. 这证明了假设2为真，因此也证明了假设1为真。我们用两个嵌入层和两个分类层训练NCC，然后是一个softmax 输出层。每个隐藏层都是批量归一化[11]，100个隐藏神经元，一个整流线性单元和25%的dropout [29] 的组合。我们使用具有默认参数的RMSProp [9]训练10000次迭代，其中每个minibatch具有等式（4）中给出的形式，大小为2n=32。最后，我们的毛皮-另外，通过训练复合分类器，增强对称性 P（X→Y）=1-P（Y→X4.1.数据集我们的实验使用在ImageNet [26]数据集上训练的特征提取网络和在Pascal VOC 2012数据集上训练的分类器网络[4]。然后，我们使用这些网络来识别99，309个MSCOCO图像[ 16 ]的子集上的因果关系，这些图像表示属于20个Pascal类别的对象：飞机，自行车，鸟，船，瓶子，公共汽车，汽车，猫，椅子，牛，餐桌，狗，马，摩托车，人，盆栽植物，羊，沙发，火车，和1 .一、1−NCC（{（x，yij）}mi）j=1μm（五）电视这些数据集的特征在于可能包含来自不同类别的多个对象的异构图像+NCC（{（y ij，x ij）}mi ）的情况下，其中NCC（{（xij ，yij）}mi 如果分类器相信Xi→Yi，则（）趋于零，并且如果分类器相信Xi ← Yi，则（）趋于一。我们选择我们的参数，通过监测NCC的验证误差的10000个综合观测样本。使用此保留集，我们交叉验证了{ 0}上的辍学率。1，0。25，0。3}上的隐藏层的数量，以及{50，100，500}上的每个层中的隐藏单元的数量。3.3.测试NCC我们在Tubingen数据集1.0版上测试NCC的性能[19]。这是100个异质、手动收集的真实因果观察样本的集合，这些样本在因果推理文献中被广泛用作基准[18]。NCC模型具有最高的综合保持验证精度，正确地分类了79%的Tubingen数据集观测样本的直接原因效应这一结果优于观察因果发现的最新技术水平这些对象可能以不同的比例和角度出现，并且部分可见或被遮挡。除了这些挑战之外，我们无法控制污染这些图像数据集的混淆和选择偏差效应所有图像都是重新缩放以确保它们的短边为224像素长，然后裁剪为中心224×224正方形。4.2. 选择因果和反因果特征我们的第一个任务是确定由特征提取神经网络计算的哪些特征分数代表导致感兴趣对象存在的真实世界实体（因果特征），或者由感兴趣对象的存在引起的（反因果特征）。为此，我们考虑使用经过验证的实现[7]在ImageNet数据集上训练的18层ResNet [ 8 ]在这些特征的基础上，我们使用Pascal VOC 2012数据集来训练一个独立的网络，该网络具有两个512单元的隐藏层，以识别20个Pascal VOC 2012类别，对于包含至少一个20个Pascal VOC 2012对象类别的实例，在这个数据集上达到了75%的准确率[18]。4xj∈R3×224×224，设fj=f（xj）∈R512表示向量IJ169864[18]中报告的准确度是针对数据集的0.8版本，因此我们在数据集的1.0版本上重新运行了[18的特征得分（在ReLU非线性之前）获得我们-使用特征提取网络，令cj=c（xj）∈R2076987JJJJLj=1j=1....L(a) XJ(b) Xo(c) XC这是相对容易的，因为我们可以访问对象边界框，并且我们只需要确定每个特征得分j中有多少可归因于类别k的对象的边界框。为此，我们通过使位于类别k对象的边界框外部的像素变黑（用零）来准备每个MSCOCO图像xj的两个替代版本，从而产生仅对象图像xo，或者通过使类别k对象的边界框外部的像素变黑（用零）来准备每个MSCOCO图像xj的两个替代版本。图5：遮蔽图像像素以区分对象特征和上下文特征。我们显示原始图像xj，以及相应的仅对象图像xo，位于类别k对象的边界框内的像素，从而产生仅上下文图像xc。该过程在图5c中示出。然后我们计算相应的cj特征分数fo=f（xo）和fc=f（xc）的向量。用于类别“狗”的仅上下文图像xj。在对图像进行归一化之后，像素被涂黑，以获得真正的零像素。j j j j对于每个类别k和每个特征f，我们抽象地定义对象-特征比率so和上下文-特征比率sc如下：表示对数赔率的向量（即，输出单元acti.Σm. f c−f。Σm. fo-f。sigmoid非线性之前的vations），j=1。JLso=mJL.j=1。JL，sc=μmJL..分类器网络我们在非线性之前使用特征Lj=1 |L|lj=1 |fjl|并且记录几率而不是类概率，因为NCC是在连续数据上训练的，并且完全支持R。如图1所示，对于每个类别k ∈ {1. . . 20}且每个特征l ∈ {1. . . 512}，我们将NCC应用于表示特征j的分数和类别k的分数的联合分布的散点图 { （ f jl ， cjk）}m。以来这些分数是通过在图像像素上运行我们的神经网络来计算的，它们没有直接的因果关系。然而，我们知道这些分数与真实场景中的对象和特征的存在高度相关。因此，这些分数之间的因果关系的出现表明它们所表示的现实世界实体之间存在因果关系。因为我们一次分析一个特征，所以所有其他特征所取的值都显示为额外的噪声源为了避免检测独立随机变量之间的因果关系，我们使用了一种用增强训练集训练的NCC变体：除了如（4）中那样在两个因果方向上呈现每个散点图之外，我们选取随机排列σ来生成-给出一个额外的不相关的例子{xi，σ（j），yij}mi标签1我们使用这种最好的模型，直观，具有高对象特征比的特征（分别为高上下文-特征比率）是当对象（分别为上下文）被擦除。注意，涂黑像素不构成对由图像表示的场景的干涉。这仅仅是将对象边界框的贡献归因于每个特征分数的过程。4.4. 结果图6显示了在20个对象类别中的每一个类别的前1%反因果特征（蓝色条）和前1%因果特征（绿色条）上估计的对象-背景比率（顶部图）和背景-特征比率（底部图）的平均值和标准差正如假设2所预测的那样，对象特征与反因果特征相关：前1%的反因果特征表现出比前1%的因果特征更高的对象特征比率由于可以在所有20个感兴趣的类别上观察到这种效果，因此偶然获得这种结果的概率将是2-2010-6。当我们选择前20%的因果和反因果特征时，这种效果在20个感兴趣的类别中的16个类别这个结果表明反因果特征可能是有用的验证目的，在Tubingen中达到79%的准确度对基准。对于每个类别k ∈ 1。. . 20，然后我们记录前1%因果特征和前1%反因果特征的指数。4.3.假设2为了验证假设2，这足以表明，顶部anticausal功能更可能是对象功能比顶部的因果功能。对于每个类别k用于以鲁棒的方式检测对象位置，而不管它们的上下文。如假设2所述，我们无法找到上下文特征和因果特征之间的一致关系值得注意的是，我们提醒读者，NCC分类器不依赖于对象类别，并且使用与图像无关的合成数据进行训练。作为合理性检查，当用相关系数或相关系数的绝对值替换NCC分数时，我们没有获得任何此类结果5和每个特征j，因此我们必须确定特征j可能是对象特征或上下文特征。5我们还进行了初步实验，以找到因果关系，869881.81.61.41.21.00.80.6图6：对于所有20个研究类别，与前1%因果/反因果特征得分相关的对象/上下文特征得分的平均值和标准差与前1%反因果特征分数相关联的平均对象特征分数总是高于与前1%因果特征相关联的平均对象特征分数。这种分离对于上下文特征分数不这些结果是支持假说1和假说2的强有力的经验证据：偶然获得这些结果的概率是2−20<$10−6。因此，我们相信这个结果以高的确定性证明了海假说2是正确的.如1.3节所述，以这种方式验证假设2也意味着证实假设1。5. 结论使用一个精心设计的实验，我们已经建立，lished图像数据集的高阶统计特性包含有关对象的因果处置，更一般地说，关于因果结构的现实世界的信息。我们的实验依赖于三个主要组成部分。首先，我们使用合成散点图来训练一个二元分类器，该分类器可以识别合理的因果关系（ X→Y ）和反因果关系（X←Y）。其次，我们假设自然场景通过计算不同感兴趣对象的对数几率之间的NCC分数，在感兴趣对象之间进行比较。我们发现的最强因果关系是与引起对象的存在的特征和由对象的存在引起的特征之间的区别有关。最后，我们构建了一个实验，利用静态图像数据集来确定后一个假设是正确的。因此，我们得出结论，我们必须因此能够有效地区分哪些特征是因果的或反因果的。因为我们现在知道这样的信号存在，我们可以设想在合理的未来，计算机视觉算法将能够感知现实世界的因果结构并对场景进行推理。毫无疑问，要实现这一目标，必须在算法上取得重大进展。特别是，我们强调以下几点的重要性：（1）构建大型的真实世界数据集，以帮助因果推理的研究;（2）将NCC等数据驱动技术扩展到两个以上变量的因果推理;（3）探索具有明确因果信号的数据，例如视频中的时间箭头（例如，[24]）顶前尾顶部因果上下文特征比地物比86989引用[1] K. Chalupka，F. Eberhardt，和P.佩洛娜两个离散变量的因果方向和混杂估计。arXiv，2016. 3[2] K.查卢普卡山口Perona和F.艾伯哈特视觉因果特征学习。InUAI，2015. 3[3] P. Daniusalphis，D.Janzing，J.Mooij，J.兹沙施勒湾施托伊德尔K. Zhang和B. Sch oülk opf. 推断确定性因果关系。载于UAI，2010年。4[4] M. 埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I. 威廉斯，J.Winn和A. 齐瑟曼。 PASCAL Visual Object Classes Challenge2012（VOC2012）6[5] A. Fire和S.竹在人类中使用因果归纳来学习和推断视频中的因果关系。2013年，认知科学学会年会。3[6] A. Fire和S.竹从视频中学习感知因果关系InTIST，2016. 3[7] S.恶心2016年在Torch的ResNet培训。6[8] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。二、六[9] G. 辛顿，N. Srivastava和K. 斯沃斯基讲座6a：小批量梯度下降概述，2014年。6[10] P. O. 霍耶 D. Janzing J. M. 穆伊 J. Peters，以及B. Sch oülk opf. 具有附加噪声模型的非线性因果圆盘NIPS，2009年。三、四[11] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015. 6[12] D. Janzing和B. Sch oülk opf. 使用马尔可夫条件进行因果推理IEEE Transactions on Information Theory，2010. 4[13] K. Lebeda，S. Hadfield和R.鲍登探索视觉对象跟踪中的因果关系。在ICCV，2015年。3[14] Y. 莱昆湾Boser，J.S. Denker、D.亨德森河霍华德W. Hubbard和L.杰克应用于手写邮政编码识别的反向传播神经计算，1989年。二、三[15] J. Lemeire和E.德克因果模型作为多变量系统的最小描述，2006年。4[16] T.林，M。迈尔，S。J. Belongie，J. Hays，P. Perona，D. Ra- manan ， P. Dolla'r 和 C.L. 齐特尼克 MicrosoftCOCO：上下文中的常见对象。第13届欧洲计算机视觉会议（ECCV 2014），第五，第740-755页，2014年6[17] D. Lopez-Paz，K. Muandet，和B. Recht.随机因果系数。JMLR，2015. 3[18] D. Lopez-Paz，K. 穆昂代湾 Schoél k opf和I. O. 托尔斯季欣因果推理的学习理论。在第32届机器学习国际会议（ICML 2015）的Proceedings中，第1452-1461页，2015年。三、四、五、六[19] J. 穆伊 J. 彼得斯 D. Janzing J. Zscheischler，以及B. Sch oülk opf.使用观察数据区分原因和效果：方法和基准。JMLR，2016. 三五六[20] S.芒福德和R. L.安琼从权力中寻找原因。牛津大学出版社，2011年。286990[21] M. 奥夸布湖博图岛Laptev和J.西维克对象本地化是免费的吗- 使用卷积神经网络的弱监督学习CVPR，2015。二、三[22] J·珀尔因果关系：模型，推理和推理。剑桥大学出版社，2000年。二、三、四[23] J. 彼得斯，J。Mooij，D. Janzing和B. Sch oülk opf.连续加性噪声模型的因果发现。JMLR，2014年。三、四[24] L. C. 接电话ZPan，D.Wei，Y.施角Zhang，中国古柏A.齐瑟曼B. Schoülk opf和W.T. 弗里曼。看到时间的洪流CVPR，2014。三、八[25] D. B.鲁宾如果有因果关系的答案。霍兰德的《统计与因果推断》美国统计协会杂志，1986年。2[26] O. 鲁萨科夫斯基Deng，H.Su，J.Krause，S.萨特伊什妈，Z. Huang，黄背天蛾A.卡帕西A.科斯拉，M。伯恩斯坦，A.C. Berg和L.飞飞ImageNet大规模视觉识别挑战。IJCV，2015年4月。6[27] B. Schoül k opf，D. Janzing，J. 彼得斯，E. Sgour itsa，K. Zhang和J. M.穆伊因果学习与反因果学习。第29届国际机器学习会议（ICML 2012）论文集。二、三、四[28] A. Smola，A. 格雷顿湖Song和B. Sch oülk opf. 一个希尔伯特空间嵌入分布。在诉讼ALT，2007年。四、五[29] N. Srivastava、G.Hinton，A.克里热夫斯基岛Sutskever和R.萨拉赫季诺夫Dropout：一种防止神经网络过度拟合的简单方法。JMLR，2014年。6[30] M. Steyvers，J. B. Tenenbaum，E. J. Wagenmakers，以及B.布鲁姆从观察和干预推断因果网络。认知科学，2003年。3[31] M. Zeiler 和 R. 费格斯。可视化和理解卷积网络。arXiv，2013. 二、三[32] B. Zhou，中国古柏A.科斯拉A.拉佩德里萨A.Oliva和A.托拉尔巴对象检测器出现在深度场景CNN中。ICLR，2015年。二、三

下载后可阅读完整内容，剩余1页未读，立即下载