没有合适的资源?快使用搜索试试~ 我知道了~
255When Pigs Fly:ContextualReasoning in Synthetic and Natural Scenes(当猪飞时:合成与自然场景中的语境推理)Philipp Bomatter1,*,Mengmi Zhang2,3,*,Dimitar Karev4,SpandanMadan3,5,Claire Tseng4,和Gabriel Kreiman2,31ETH苏黎世2哈佛医学院儿童3大脑、思想和机器4哈佛大学5哈佛大学*同等贡献通信地址:gabriel. tch.harvard.edu图1:在VirtualHome环境中生成正常上下文和上下文外条件下的图像[27]使用Unity 3D模拟引擎[19]。相同的目标对象(马克杯,红色边界框)在不同的上下文条件下显示:正常上下文(a,b)和上下文外条件,包括重力((c),目标对象漂浮在空中)、对象同现统计的变化(d)、重力和对象同现统计的组合(e)、放大的对象尺寸(f)以及没有以均匀灰色像素作为背景的上下文(g)。摘要背景对于人类和机器视觉都具有根本的重要性;例如,在一个实施例中, 中的对象空气更像是飞机而不是猪 上下文的丰富概念包括几个方面,包括物理规则,统计同现,相对对象大小等。 虽然以前的工作集中在在来自网络的众包背景外照片上研究场景背景,控制背景违反的性质和程度一直是一项艰巨的任务。在这里,我们介绍了一个多样化的,合成的Out-of-C上下文数据集(OCD)与细粒度的控制场景上下文。通过利用3D模拟引擎,我们系统地控制虚拟家庭环境中36个对象类别的重力,对象同现和相对大小。我们进行了一系列的实验,以深入了解上下文线索对人类和机器视觉使用强迫症的影响。 我们进行了心理物理学实验,以建立一个人类的上下文识别基准,然后将其与最先进的计算机视觉模型进行比较,以量化两者之间的差距。 我们提出了一个上下文感知的识别Transformer模型,融合对象和上下文信息,通过多头注意。我们的模型捕获了有用的信息,用于上下文推理,与OCD和其他上下文外数据集的基线模型相比,在上下文外条件下实现了人类水平的性能和更好的鲁棒性所有源代码和数据都可以在https://github.com/kreimanlab/上公开获得2561. 介绍一个咖啡杯通常是一个小物体(图。1a),whichdoesn't fly on its own(Fig. 1、经常可以找到在桌子上(图)1a)但不是在椅子上(图1d)的情况。这样的上下文线索对人类[39]和计算机视觉模型[34,7,25,22]的对象识别能力有明显的影响。神经网络学习对象的外观与其标签之间的共现统计,以及对象的上下文与其标签之间的共现统计因此,识别模型无法识别不熟悉环境中的对象并不奇怪[29]。尽管背景在视觉识别中起着重要作用,但仍不清楚什么样的背景线索应该与对象信息相结合以及如何结合。两个挑战阻碍了研究的进展语境线索的作用:(1)上下文通常被视为一个整体概念,(2)像ImageNet [ 9 ]或COCO [ 21 ]这样的大规模互联网数据集是高度不受控制的。为了解决这些挑战,我们提出了一种方法,通过利用基于Unity的3D模拟引擎进行图像生成[ 19 ],并在虚拟家庭环境中操纵3D对象[ 27 ],系统地研究对象上下文对识别的影响严格控制场景各个方面的能力使我们能够系统地违反上下文规则,并评估它们对识别的影响。我们关注上下文的三个基本方面:(1)重力-没有物理支撑的对象,(2)对象共现-不太可能的对象组合,以及(3)相对大小-目标对象相对于背景的大小的变化。作为一个关键的基准,我们进行了心理物理学实验来衡量人类的表现,并将其与最先进的计算机视觉模型进行比较。我们提出了一个新的上下文感知架构,它可以将对象和上下文信息,以实现更高的对象识别准确性给予适当的上下文和鲁棒性的情况下。我们的C上下文感知RecognitionT transformer网络(CRTNet)使用两个单独的流来处理对象和它的上下文独立之前,通过在变压器解码器模块的多头注意力将它们集成。在多个数据集上,CRTNet模型在正常情况下超越了其他最先进的计算模型,并且尽管上下文变化很大,但仍能对对象进行稳健的分类,就像人类一样。我们在本文中的贡献是三方面的。首先,我们引入了一个具有挑战性的新的数据集,在上下文和上下文对象识别,允许细粒度控制上下文违规,包括重力,对象同现和相对对象大小(上下文数据集,OCD)。其次,我们进行心理物理学实验,以建立一个人类的基准-和脱离上下文的识别,并将其与最先进的 计算机 愿景模型最后,我们提出了一种新的上下文感知体系结构的对象识别,它结合了对象和场景信息的原因有关的背景和推广以及上下文外的图像。我们在https://github.com/kreimanlab/WhenPigsFlyContext 上 发布了整个数据集,包括用于生成其他图像的工具和CRTNet的源代码。2. 相关作品上下文外的数据集:在上下文外数据集上值得注意的工作包括UnRel数据集[26]和[ 39 ]中呈现的剪切和粘贴数据集。虽然UnRel是一个出色的脱离上下文的自然图像集合,但它的大小和多样性有限。 一个缺点 剪切和粘贴[14]的一个缺点是引入了伪像,如不自然的照明,对象边界,大小和位置。这两个数据集都不允许对上下文的个体属性进行系统分析。3D模拟引擎可以轻松合成许多图像,并系统地调查上下文线索的违规情况。用真实世界的照片来实现这些目标是具有挑战性的此外,这些模拟引擎能够精确控制上下文参数,以系统和可量化的方式一次改变一个线索。上下文外对象识别:在以前的工作中,上下文大多被研究为一个整体的属性的形式的目标对象的背景。以前的工作包括测试推广到新的背景[2]和不一致的背景[39],探索前景-背景关系对数据增强的影响[13],并用另一个子图像替换图像子区域,即对象移植[29]。在本文中,我们评估了上下文线索的不同属性(例如重力)。3D仿真引擎和计算机视觉:最近的研究已经证明了使用3D虚拟环境进行任务的成功,例如具有简单和均匀背景的对象识别[3],常规程序合成[27],3D动物姿势估计[24]以及研究CNN的泛化能力[23,16]。然而,据我们所知,这些研究都没有解决如何整合语境线索的挑战性问题。用于上下文感知对象识别的模型:为了解决上下文感知的目标识别问题,研究者们提出了经典的方法,例如条件随机场(CRF)[15,38,20,6],和基于图形的方法[32,37,33,7]。 最近的研究已经将这一工作扩展到深度图神经网络[17,8,10,1]。摆脱这些以前的257联系我们C联系我们×个×个ΣC工作的地方,图优化进行全局上下文推理的对象识别,我们的模型有一个双流架构,分别处理视觉信息的目标对象和上下文,然后将它们与多头注意力堆栈Transformer解码器层。与对象识别[12]和检测[5]中的其他视觉Transformer模型相比,CRTNet在给定目标对象位置的情况下执行上下文识别任务3. 上下文感知识别Transformer3.1. 概述我 们 提 出 了 上 下 文 感 知 识 别 Transformer 网 络(CRTNet,图2)。CRTNet呈现的图像具有多个对象和一个边界框,以指示目标对象的位置。该模型有三个主要要素:首先,CRTNet使用一堆Transformer解码器模块,具有多头注意力,以分层方式推理上下文,并将上下文线索与对象信息相结合。第二,信任加权机制提高了模型由θEc和θEt参数化。 我们使用DenseNet架构[18],其权重在ImageNet [ 9 ]上预先训练并对其进行微调。假设Ic和I t中的不同特征对识别有用,我们不强制共享参数θEc和 θEt 。 我们将证明消融研究中非共享参数的优势5.5)。为了让CRTNet专注于图像的特定部分并在这些位置选择特征,我们保留了特征的空间组织,并将c和t定义为DenseNet最后一个卷积层的输出特征图。a c和a t的大小都是D W H=1,6647其中D、W和H分别表示特征图的通道数量、宽度和高度。3.3. 标记化和位置编码我们将上下文特征图ac通过分割根据位置将其划分为补丁[12]。每个上下文令牌对应于位置i处的维度D的特征向量ai,其中i1,..,L=HW.为了计算目标令牌Tt,CRTNet通过平均池化聚合目标特征图at选择识别所依赖的信息的灵活性。第三,我们策划了培训方法论1Tt= LIti=1,…L(一)梯度分离,以优先考虑重要的模型组件,并确保整个体系结构的有效训练。受人类视觉的偏心率依赖性的启发,CRTNet具有仅处理目标对象(I t,224 224)的一个流,以及专用于外围的第二流(I c,224 224)。通过将输入图像裁剪到边界框来获得It,而Ic覆盖图像的整个上下文区域 I c和I t被调整大小为相同的尺寸。因此,目标对象的分辨率在I t中较高。这两个流通过单独的2D-CNN进行编码。 在编码阶段之后,CRTNet标记化I t和I c的特征图,通过Transformer解码器层的堆栈经由分层推理来集成对象和上下文信息,并且预测C类内的类标签概率y t,c。总是依赖于上下文的模型可能会在不寻常的上下文条件下出错。为了提高鲁棒性,CRTNet仅基于目标对象信息进行第二预测yt,估计该预测的置信度p,并计算yt和yt,c的置信度加权平均值以得到最终预测yp。如果模型仅基于目标对象做出有把握的预测,则该决定否决上下文推理阶段。3.2.卷积特征提取CRTNet将Ic和It作为输入,并使用两个2D-CNN,Ec(·)和Et(·),来提取context并分别得到特征图ac和at,其中Ec(·)和Et(·)为了对目标令牌和上下文令牌之间以及不同上下文令牌之间的空间关系进行编码,我们针对每个位置i学习大小为D的位置嵌入,并将其添加到对应的上下文令牌ai。对于目标令牌Tt,我们使用与包含边界框中点的位置相对应的位置嵌入。位置编码的上下文和目标令牌分别由z_c和z_t表示。3.4. Transformer解码器我们遵循原始的Transformer解码器[36],取z_c来计算键和值,并取z_t来生成变换器编码器-解码器多头注意力层中的查询。由于我们只有一个目标令牌,因此我们省略了自我注意层。在实验中,我们还测试了启用自我注意的CRTNet,我们没有观察到性能提高。我们的解码器层由交替层的编码器-解码器的注意力(EDA)和多层感知器(MLP)块。在每个剩余连接之后应用层范数(LN)。在每个剩余连接和MLP块内应 用 丢 弃 ( DROP ) MLP 包 含 具 有 ReLU 非 线 性 和DROP的两个层zt,c= LN(DROP(EDA(zt,zc))+zt)(2)zt′,c=LN(DROP(MLP(zt,c))+zt,c)(3)一258----·········z图2:上下文感知识别Transformer网络(CRTNet)的架构概述。CRTNet由3个主要模块组成:特征提取,背景和目标信息的集成,以及置信度调制分类。CRTNet将裁剪的目标对象It和整个上下文图像Ic作为输入,并提取它们各自的特征。这些特征图然后被标记化,并且两个流的信息在多个Transformer解码器层上被集成CRTNet还单独基于对象特征来估计用于识别目标对象的置信度分数,其用于调节yt和yt,c对最终预测yp的贡献。反向方向上的虚线表示反向传播期间的梯度流两个黑色十字表示渐变更新停止的位置参见第3详情我们的Transformer解码器有一个X=6层的堆栈,索引为x。我们通过递归地指派z/t,c,来针对每个变换解码器层重复等式2和3置信度得分为[0,1]。1P=(四)返回到zt作为到下一Transformer解码器层的输入1 +e−U(at)每个EDA层集成了有用的信息,从上下文和目标对象与8头选择性注意。基于来自所有先前的xl层的累积信息,每个EDA层使得CRTNet能够通过在所有L个位置上更新z。上的注意力图来渐进地推理上下文。我们提供了 可 视 化 的 例 子 , 注 意 力 地 图 沿 层 次 结 构 的Transformer解码器模块在Supp。图S1.3.5. 置信度调制识别具有参数θ的连续分类器G(·)我们使用p来计算最终预测类分布yp的yt,c和yt的置信加权 平 均 值 : yp=yt+ ( 1p ) yt , c 。 置 信 度 p 越 高 ,CRTNet越依赖于目标对象本身,而不是集成的上下文信息,用于分类。我们证明了在消融研究中使用yp而不是yt、c或yt作为最终预测的优势(第2节)。5.5)。3.6. 培训CRTNet使用三个损失函数进行端到端训练:(i)为了训练置信度估计量U(·),我们使用由 全 连 接 层 和 softmax 层 组 成它 从 最 后 一 个Transformer解码器层获取特征嵌入zt′,c,并输出预测的类分布向量:yt,c=Gz(zt′,c)。类似地,目标分类器G t()将特征图a t作为输入并输出预测的类别分布向量:y t= G t(a t)。由于神经网络经常被不一致的上下文愚弄[39],我们提出了一种置信度调制的识别机制,平衡了Gt()和Gz()的预测。具有参数θU的置信度估计器U()将目标特征图αt作为输入,并输出一个值p,该值指示CRTNet对预测γt的置信度。U()是一个前馈多层感知器网络,用sigmoid函数进行归一化预测yp.这允许U()学习在仅基于目标对象信息的预测yt正确时增大置信度值p。(ii)为了训练Gt(),我们使用关于yt的交叉熵损失。(iii)对于CRTNet的其他组件,包括Transformer解码器模块和分类器Gz(),我们使用关于yt,c的交叉熵损失。不是基于yp训练所有内容,而是三个损失函数一起为架构中的所有部分保持强学习信号,而不管置信度值p如何。为了便于学习CRTNet中的特定组件,我们还在反向传播过程中引入了梯度分离(图1)。2)的情况。通过U(·)和Gt(·)的梯度与Et(·)分离以提供它们Gz交叉熵损失259·≈从驱动目标编码器学习更多的区别性特征,这可能影响Transformer模块和Gz()的功效。我们在消融研究中证明了这些设计决策的益处(第5.5)。4. 实验细节4.1. 基线CATNet [39]是一个上下文感知的双流对象识别模型。它处理视觉特征的裁剪的目标对象和上下文的并行,动态地合并对象和上下文信息,通过不断更新其对图像位置的注意力,并通过递归神经网络顺序的原因有关的目标对象的类标签。Faster R-CNN [28]是一种对象检测算法。我们通过用指示目标对象位置的地面真值边界框替换区域建议网络,DenseNet[18]是具有密集连接的2D-CNN,其将裁剪的目标对象块I t作为输入。4.2. 数据集4.2.1上下文外数据集(OCD)我们的上下文外数据集(OCD)包含36个对象类,其中包含6种上下文条件下复杂和丰富场景的15,773张测试图像(如下所述)。我们利用Unity模拟引擎中开发的VirtualHome环境[27]在7个公寓和每个公寓5个房间的室内家庭环境这些房间包括带家具的卧室、厨房、书房、起居室和浴室[27](见图1)。我们扩展了VirtualHome,增加了额外的功能来操作对象属性,例如材质和比例,并将对象放置在上下文之外的位置。目标对象始终位于摄影机视图的中心;启用碰撞检查和正常上下文和无上下文:有2,309张图像具有正常上下文(图11)。 1b),和2,309图像的无上下文条件(图。Ig)。对于正常上下文条件,每个目标对象被放置在其我们生成一个相应的无上下文图像的每一个正常的上下文图像,通过替换所有的像素周围的目标对象与均匀的灰色像素或椒盐噪声。重力:我们生成了2,934张图像,其中我们沿着垂直方向移动目标对象,使其不再受到支持(图11)。1c)。为了避免对象提升得太高而使其周围环境完全改变的情况,我们将提升偏移设置为0.25米。对象同现:为了研究对象共现的统计的重要性,四个人类受试者被要求指示最有可能的房间和位置的目标对象。我们使用这些响应的输出来生成1,453个图像,其中我们将目标对象放置在具有较低共现概率的表面上,例如浴室里有一个微波炉。1天。对象同现+重力:我们生成了910张图像,其中物体被举起并放置在不太可能的位置。 我们选择了墙壁,窗户和房间的门口,其中目标对象通常是缺席的(图。1 e)。我们将目标物体放置在公寓高度的一半。大小:我们创建了5,858张图像,其中我们将目标对象的大小更改为原始大小的2倍,3倍或4倍,同时保持场景中其余对象的完整性(图2)。f)。4.2.2真实世界的上下文外数据集剪切和粘贴数据集[39]包含2,259个跨55个对象类的上下文外图像。这些图像被分组为通过4个对象大小和4个上下文条件(正常、最小、全等和不全等)的组合获得的16个条件(图1)。第3b段)。UnRel [26]数据集包含1,000多张图像,这些图像在跨越100个对象类的对象之间具有不寻常的关系。该数据集是基于三元组查询从网络收集的,例如“狗骑自行车”(图1)。第3c段)。4.3. 绩效评价计算模型的评价:我们使用与相应测试集中的对象类重叠的对象类的注释(VirtualHome和COCO-Stuff之间的16个重叠类,剪切和粘贴与COCO-Stuff之间的55个重叠类以及UnRel和COCO-Stuff之间的33个重叠类)在COCO-Stuff [ 4 ]的自然图像上训练模型。然后在OCD,剪切和粘贴数据集,UnRel和COCO-Stuff测试分割上测试模型行为实验:我们评估了OCD和剪切和粘贴数据集上的 人 类 识 别 , 如 图 2 所 示 。 亚 马 逊 土 耳 其 机 器 人(MTurk)[35]。我们每个实验招募了400名受试者,产生了67,000个试验。为了避免偏见和潜在的记忆效应,我们采取了几项预防措施:(a)每类只选定一个目标物体;(b)每个受试者只看一次每个房间;(c)试验顺序是随机的。计算机视觉和大多数心理物理学实验都强制执行N向分类(例如:[31])。 在这里,我们使用了一个更公正的探测机制,使受试者可以使用任何单词来描述目标对象。我们独立地收集了每个人260(a)强迫症(b)剪切和粘贴(c)UnRel(d)人类心理物理学实验图3:数据集和心理物理学实验方案。(a-c)每个数据集的示例图像。红色方框表示目标位置。在(a)中,示出了两个上下文修饰(重力和大小)在(b)中,将相同的目标对象剪切并粘贴到不一致或一致的条件中。(c)由自然图像组成。(d)向受试者呈现注视十字(500ms),随后是指示目标对象位置的边界框(1000ms)。图像显示200ms。图像偏移后,受试者键入一个单词来识别目标对象。对象在一个单独的MTurk实验无限的观看时间和正常的上下文条件。这些Mturk受试者没有参与主要实验。然后,如果主实验中的答案与任何地面真实响应相匹配,则认为它们是正确的[39]。一个完全公平的人机比较几乎是不可能的,因为人类对世界有几十年的视觉+经验。尽管有这个警告,我们发现在相同的图像上显示人类和模型的结果是有指导意义的。我们试图减轻训练中的差异我们还展示了人类模型的相关性,以描述它们在所有条件下的相对趋势。5. 结果5.1. OCD数据集中图4(左)报告了人类在6种情境条件下的识别准确度(第二节)。4.2.1,图1)和2个目标物体尺寸(共12个条件)。比较无上下文条件(白色)与正常上下文(黑色),很明显,上下文线索导致识别的改善,特别是对于较小的物体,与以前的工作一致[39]。重力违规导致精度降低。对于小物体,重力条件甚至比无背景条件稍差;不寻常的上下文可能会误导人类。对象同现和相对对象大小的变化的影响是相似的。在相对大小条件下,对象被放大2、3或4倍由于目标对象变得更大,并且由于随着对象大小的识别的改进然而,增加尺寸同时保持所有其它对象完整,违反了预期相对尺寸的基本统计(例如,我们期望椅子比苹果大)。因此,在尺寸条件下的性能下降是特别显着的,并表明违反上下文线索可以覆盖基本的对象识别。结合重力变化和物体共现的统计数据,导致准确性明显下降。特别是对于小的目标对象,违反重力和统计同现导致性能远低于在没有上下文的条件。这些结果表明,上下文可以发挥促进作用(比较正常与无上下文),但上下文也可以损害性能(比较重力+同现与无上下文)。换句话说,非正统的上下文信息会损害识别。图4(右)报告了CRTNet的准确性。添加正常的上下文信息(正常上下文与无上下文)导致小目标对象和大目标对象的性能提高了4%。 值得注意的是,CRTNet模型捕获了与在人类中观察到的情境违规定性相似的效果。尽管模型性能在绝对值上低于人类(特别是对于小物体),但在CRTNet结果中也可以理解与人类中上下文线索的作用相关重力,对象同现,相对对象大小的变化导致性能下降。在行为测量中,这些影响对于小物体更为明显。对于CRTNet,对于小对象,所有条件都导致比无上下文条件更差的5.2. 剪切粘贴数据集合成图像提供了系统地控制场景的每个方面的可能性,但是这种人工合成图像可能是不可能的。261图4:CRTNet模型在我们的OCD数据集中的上下文变化中表现出类似人类的识别模式。不同的颜色表示上下文条件(第4.2.1,图1)。我们根据目标物体的大小(以视角(dva)为单位)将试验分为两组。误差条表示平均值的标准误差(SEM)。表1:在12种情境条件下人类和模型表现之间的线性相关性图像并不遵循自然世界的所有统计数据。因此,我们进一步评估了CRTNet和人类在剪切和粘贴数据集的自然环境中的表现[39](见表2)。CRTNet模型产生的结果与人类表现一致,并且在许多情况下优于人类表现。如在人类数据中观察到的,性能随着对象大小而增加。此外,对于较小的对象,上下文的影响更明显(比较正常上下文(NC)与最小上下文(MC)条件)。根据以前的工作[39],与最小上下文条件相比,一致的上下文信息(CG)通常增强识别,而不一致的上下文(IG)削弱性能。虽然全等上下文通常在对象和场景属性之间共享类似的相关性,但是在全等上下文中粘贴对象导致比正常上下文更弱的增强。这种较低的上下文促进可能是由于对象之间的错误的相对大小、通过粘贴创建的不自然的边界或特定于每个图像的上下文线索。CRTNet对这些影响相对不敏感,在一致条件下的表现更接近于正常环境条件下的表现,而这些差异对人类来说更显着。与此形成鲜明对比的是,不一致的上下文始终降低识别性能低于CRTNet和人类的最小上下文条件。5.3. UnRel数据集中由于剪切和粘贴过程,剪切和粘贴数据集引入了伪影(例如不自然的边界和错误的相对大小)。因此,我们还在UnRel数据集上评估了CRTNet[26]。我们使用COCO-Stuff [4]测试分割的性能作为自然图像中CRTNet在脱离上下文的情况下显示出略(五)。5.4. 与基线模型的性能评估:尽管Faster R-CNN和CATNet利用了全局上下文信息,但CRTNet优于这两种模型,特别是在小对象上(OCD:图4和Supp.图S7-S8;剪切和粘贴:表2;UnRel:Fig.(五)。此外,表1显示,CRTNet图5:CRTNet在正常(COCO-Stuff [4])和上下文外(UnRel [26])条件下均超过所有基线。体系结构差异:虽然所有基线模型都可以依赖于空间关系的内在概念,但CRTNet通过位置嵌入来学习目标和上下文令牌之间的空间关系。学习的位置嵌入的可视化(Supp.图S1)示出了CRTNet通过在位置嵌入的相似性中对图像在CATNet中,注意力映射在递归神经网络中的每个时间步长迭代地调制从上下文图像中提取的特征映射,而CRTNet使用前馈Transformer解码器层OCD整体CRTNet(我们的)0.89基线CATNet [39]0.36更快的R-CNN [28]0.73DenseNet [18]0.66消融消融-共享编码器0.84消融-仅靶点0.89消融-未称重0.83消融-无解脱0.88262大小[0.5,1] dva大小[1.75,2.25] dva大小[3.5,4.5] dva大小[7,9] dvaNCCGIGMCNCCGIGMCNCCGIGMCNCCGIGMC人类56.018.85.910.166.848.622.338.978.966.038.862.088.770.759.077.4[39]第三十九届(2.8)(2.3)(1.3)(1.7)(2.7)(2.8)(2.4)(2.8)(2.4)(2.7)(2.6)(2.8)(1.7)(2.6)(2.8)(2.3)CRTNet50.243.910.617.478.481.441.256.791.587.351.176.692.987.766.483.0(我们的)(2.8)(2.8)(1.7)(2.1)(3.0)(2.8)(3.5)(3.6)(1.1)(1.3)(1.9)(1.6)(0.9)(1.2)(1.7)(1.4)CATNet37.529.23.66.153.046.510.922.172.871.224.538.981.878.947.674.8[39]第三十九届(4.0)(2.4)(1.0)(2.0)(4.1)(2.5)(1.6)(3.6)(3.6)(2.4)(2.2)(3.9)(3.0)(2.1)(2.6)(3.5)Faster R-CNN24.910.95.97.244.327.320.116.565.153.239.042.971.564.355.064.6[28日](2.4)(1.7)(1.3)(1.4)(3.6)(3.2)(2.9)(2.7)(1.8)(1.9)(1.9)(1.9)(1.6)(1.7)(1.8)(1.7)DenseNet13.110.011.212.545.442.339.746.467.162.355.467.174.967.263.574.9[18个国家](1.9)(1.7)(1.8)(1.8)(3.6)(3.5)(3.5)(3.6)(1.8)(1.9)(1.9)(1.8)(1.6)(1.7)(1.7)(1.6)表2:人类、CRTNet模型和剪切粘贴数据集上的三个不同基线的识别准确性[39]。每个尺寸有4个条件:正常上下文(NC)、一致上下文(GC)、不一致上下文(IG)和最小上下文(MC)(Sec. 4.2.2)。粗体突出显示最佳性能。括号中的数字表示平均值的标准具有多头编码器-解码器注意力。这些解码器层通过注意力图分层整合信息,用上下文调制目标令牌特征。DenseNet将裁剪的目标作为输入,只有几个周围的上下文像素对于较小的对象,其性能例如,在剪切和粘贴数据集中,对于正常上下文和小对象,CRTNet的性能比DenseNet 高出30%(表2 ),而在OCD 中,DenseNet的相关性为0.66对比CRTNet的0.89(表1)。5.5. 消融显示关键模型组件我们通过在OCD数据集上训练和测试CRTNet的消融版本来评估设计选择的重要性共享编码器:在CRTNet模型中,我们训练了两个独立的编码器,分别从目标对象和上下文中提取特征。在这里,我们在这两个编码器(消融-共享编码器)之间强制执行权重共享,以评估两个流的相同特征是否足以推理上下文。结果(表1,Supp.图S3)示出了消融版本实现了较低的识别准确度和与消融版本的较低相关性心理物理学结果仅基于目标或上下文的识别在原始CRTNet模型中,我们使用置信加权预测yp。在这里,我们测试了两种替代方案:仅依赖于目标对象的CRTNet(y t,消融-TargetOnly)和仅依赖于上下文推理的CRTNet(y t,c,消融-未加权)。与仅目标版本相比,原始模型受益于适当的上下文信息,但如预期的那样,它稍微更容易受到一些上下文扰动的影响。它始终优于仅上下文版本,证明了信任调制机制的有用性。目标编码器联合训练:节中3.6中,我们使用梯度分离来使目标编码器Et(·)的训练独立于Gt(·),使得它不能强制目标编码器学习更多的区别特征。在此,我们移除该约束(消融-无脱离,补充)。 图S6)。 结果不如我们原来的CRTNet,支持使用梯度分离方法。6. 结论我们介绍了OCD数据集,并使用它来系统和定量地研究上下文在对象识别中的作用。强迫症使我们能够严格审查多方面的背景线索如何影响视觉识别。我们用计算模型进行了实验,并用心理物理学研究来补充它们,以衡量人类的表现。因为强迫症中的合成图像仍然可以 很容易区分从真实的照片,我们解决了潜在的问题,由于域的差距与实验上的两个额外的数据集组成的真实世界的图像。我们在人类和计算机上显示了一致的结果。 模型 超过 三个数据集。结果表明,上下文线索可以提高视觉识别,但也是“错误的我们提出了CRTNet模型作为一个强大的和强大的方法,利用上下文信息在计算机视觉。与竞争基准相比,CRTNet在广泛的背景条件和数据集上表现良好。 除了它的性能 在识别准确性方面,CRTNet比任何基准模型都要高。致谢这项工作得到了NIH R 01 EY 026025和大脑、思维和机器中心的支持,由NSF STC奖CCF-1231216资助。MZ由科学,技术 和研究机构的博士 后奖学金支持。 我们感谢Leonard Tang、Jeremy Schwartz、Seth Alter、Xavier Puig、Hanspeter Pfister、Jen Jen Chung和Cesar Cadena的有益讨论和支持。263引用[1] 彼得 巴塔利亚Razvan 帕斯卡努 马修 Lai,DaniloJimenez Rezende,等. 交互网络,用于学习物体,关系和物理。神经信息处理系统的进展,第4502-4510页,2016年。二个[2] 莎拉·比瑞格兰特·范·霍恩和皮特罗·佩罗纳在未知领域的认知。在欧洲计算机视觉会议(ECCV)的会议记录中,第456-473页,2018年。二个[3] Ali Borji、Saeed Izadi和Laurent Itti。ilab-20 m:用于研究深度学习的大规模受控对象数据集。在诉讼的的IEEE计算机视觉和模式识别会议,第2221-2230页,2016年。二个[4] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari Coco-stuff:上下文中的事物和东西类。在IEEE计算机视觉和模式识别会议论文集,第1209-1218页,2018年。五、七[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在欧洲计算机视觉会议上,第213-229页。Springer,2020年。三个[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille. Deeplab:使用深度卷积网、无环卷积和全连接的crfs进行语义图像 分 割 。 IEEE Transactions on Pattern Analysis andMachine Intelligence,40(4):834-848,2018。二个[7] Myung Jin Choi,Antonio Torralba,and Alan S Willsky.上 下 文 模 型 和 上 下 文 外 对 象 。 Pattern RecognitionLetters,33(7):853-862,2012. 二个[8] 崔元君和西尔维奥·萨瓦雷塞多目标跟踪和集体活动识别的统一框架欧洲计算机视觉会议,第215Springer,2012. 二个[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。二、三[10] Zhiwei Deng , Arash Vahdat , Hexiang Hu , and GregMori.结构推理机:用于分析群体活动识别关系的递归神经网络。在IEEE计算机视觉和模式识别会议论文集,第4772-4781页,2016年。二个[11] Santosh K Divvala 、 Derek Hoiem 、 James H Hays 、Alexei A Efros和Martial Hebert。 物体检测中语境的实证研究。在计算机视觉和模式识别,2009年。CVPR2009。IEEE会议,第1271-1278页。IEEE,2009年。二个[12] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变压器arXiv预印本arXiv:2010.11929,2020。三个[13] 尼基塔·德沃尔尼克朱利安·麦拉尔和科迪莉亚·施密德建模视觉上下文是增强对象检测数据集的关键。在欧洲计算机视觉会议(ECCV)的会议记录中,第364-380页,2018年。二个[14] [10]杨文,杨文,杨文.阔克?库布克Le和Barret Zoph.简单的复制粘贴是一种强大的数据增强方法,用于2020年的实例分割。二个[15] Josep M Gonfaus、Xavier Boix、Joost Van de Weijer、Andrew D Bagdanov、Joan Serrat和Jordi Gonzalez。联合分类 和分 割的 和谐 潜力 在计算 机视 觉和 模式 识别( CVPR ) , 2010 IEEE 会 议 , 第 3280-3287 页 中 。IEEE,2010。二个[16] ShirsenduSukantaHalder , Jean-FrancoisLalonde ,andRaoul de Charette.基于物理的渲染,用于提高对雨的鲁棒性。在IEEE/CVF计算机视觉国际会议论文集,第10203-10212页,2019年。二个[17] Hexiang Hu,Guang-Tong Zhou,Zhiwei Deng,ZichengLiao,and Greg Mori.使用标签关系学习结构化推理神经网络。在IEEE计算机视觉和模式识别会议论文集,第2960-2968页,2016年。二个[18] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集,第4700-4708页,2017年。三五七八[19] Arthur Juliani , Vincent-Pierre Berges , Ervin Teng ,Andrew Cohen , Jonathan Harper , Chris Elion , ChrisGoy,Yuan Gao,Hunter Henry,Marwan Mattar,et al.Unity:智能代理的通用平台。arXiv预印本arXiv:1809.02627,2018。一、二[20] Lubor Ladicky、Chris Russell、Pushmeet Kohli和PhilipHS Torr。基于同现统计的图割推理。欧洲计算机视觉会议,第239-253页。施普林格,2010年。二个[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功