视觉对象识别在上下文中的作用

124 浏览量更新于2023-10-25 收藏 1.78MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1将视觉对象识别置于上下文Mengmi Zhang1，2，Claire Tseng3，Gabriel Kreiman1，2{mengmi.zhang@ children，ctseng@college，gabriel.kreiman@tch}.harvard.edu1哈佛医学院儿童2大脑、思想和机器3哈佛大学摘要上下文在视觉识别中起着重要的作用。最近的研究表明，视觉识别网络可以通过将对象放置在不一致的上下文中（例如，在海洋中的牛）。为了模拟上下文信息在视觉识别中的作用，我们系统地研究了上下文在何处、何时以及如何调制识别的十个关键属性，包括上下文的量、上下文和对象分辨率、上下文的几何结构、上下文一致性和上下文调制的时间动态。任务包括识别一个图1. 在不熟悉的环境中对物体的错误分类。最先进的深度视觉识别网络，如自然图像中被上下文包围目标对象作为一个重要的基准，我们进行了一系列心理物理学实验，每次改变上下文的一个方面，并量化识别准确性。我们提出了一个生物启发的上下文感知的对象识别模型组成的两个流架构。该模型并行处理中央凹和外围的视觉信息，动态地结合对象和上下文信息，并顺序地推理目标对象的类标签。在广泛行为任务，该模型近似人类水平的性能，而无需重新训练的每个任务，捕获依赖的上下文增强图像属性，并提供了初步步骤，整合场景和对象信息的视觉识别。所有源代码和数据都是公开的1。1. 介绍桌子上的小东西可能是一个勺子，而不是一只大象。对象不会孤立出现。相反，对象与其他对象和场景属性共同变化，它们的大小和颜色通常相对于附近的元素保持一致，并且对象往往以刻板的方式出现1https://github.com/kreimanlab/Put-In-ContextInceptionV3 [43]、ResNet50 [54]和VGG16 [41]在上下文不一致时会出错。每个模型的前5个标签和置信水平显示在底部。地点自然图像中目标识别和检测任务的成功依赖于上下文信息的隐式结合。深度卷积神经网络联合学习对象，图像属性和标签之间的统计关联[12，42，18，6]。这样的算法可能会被欺骗，通过将其放置在不熟悉的上下文中来错误标记或丢失对象（图2）。1）。在这里，我们系统地和定量地研究了上下文信息整合到视觉识别的机制。本文着重讨论了语境的三个基本方面：（1）物体大小与语境信息量之间的相互作用[B]上下文信息的几何形状、分辨率和内容;[C]上下文调制的时间动态，以及上下文调制期间自下而上和循环计算之间的相互作用。通过在10个人类心理物理学实验中系统地测量环境的影响（图1）。2，图S1，S7，S9和S11），我们获得了一个定量的理解，在哪里，何时，以及如何上下文调节识别。此外，人类数据提供了一个定量基准来测试（但不是训练）计算模型。12985GroundTruth：椅子启动V3：ResNet50：VGG16：土豆泥：55%土豆泥：68%土豆泥：60%肉馅糕：23%肉馅糕：30%冰淇淋：6.5%烤肉店：0.6%巧克力酱：5.3%花椰菜：0.4%墨西哥卷饼：3.5%岩蟹：0.2%InceptionV3：ResNet50：VGG16：断头台：74.4%旋转栅门：53.6%叉车：9.7%肉糕：9.8%木材厂：6.9%汽油泵：16%路标：9.5%花椰菜：7.7%杆：1.6%路标：5.8%交通灯：9.1%板块：4.3%起重机：1.6%付费电话：3.1%旋转栅门：5.4%菜刀：3.9%钩爪：1.5%叉车：2.0%太阳能碟：4.5%GroundTruth：201112986受人类视觉神经科学的启发，我们提出了上下文感知双流注意力网络（CATNet）。该模型通过中央凹（对象）和外围（上下文）视觉的动态整合，将注意力引导到具有信息上下文线索和对象部分的区域，从而对目标对象进行推断。该模型自动学习上下文推理策略。在现实世界的应用中，模型需要外推到各种不同的上下文，就像人类一样。因此，我们在相同的心理物理学任务上测试了CATNet和最先进的上下文对象识别模型，而没有为每个实验重新训练模型。在这些实验中，CATNet超越了其他计算模型，尽管需要大量的外推，但它接近人类的识别能力。2. 相关作品2.1. 语境在人类视觉识别中许多行为研究[4、21]有集中对比一致与不一致的情境条件：出现在熟悉背景中的物体比出现在不寻常场景中的物体能更准确、更快地被探测到。1）。一些定性的演示表明，上下文可以帮助视觉处理[2，7，26，1]，在识别任务[2，14]，检测任务[7，26]，工作记忆[19，1]和视觉搜索[24]。在这里，我们系统地测试了上下文的三个基本属性，以定量地模拟上下文信息在何处、何时以及如何调节识别。2.2. 上下文在计算机视觉中的作用关于对象和关系的上下文推理对机器视觉至关重要。用于对象识别的深度网络，在自然图像数据集上训练，例如ImageNet [29]隐含但强烈依赖上下文[20，8]。事实上，当对象被放置在不一致的上下文中时，这些算法通常会失败（[6，18，12]，图。1）。计算机视觉方法的许多令人兴奋的成功可以部分归因于利用了以下因素之间的统计相关性：上下文信息和对象标签。在这里，我们简要地和非详尽地介绍在各种应用中的上下文感知计算模型。基于对象关系的统计总结的定性分析为感知推理任务提供了有效的信息来源，例如对象检测（[47，35，25，48，33]），场景分类（[22，49，53]），语义分割（[53]）和视觉问答（[45]）。经典的方法，例如条件随机场（CRF），图像标记，场景分类中的多个计算机视觉任务联合推理[22，53，30，10]，目标检测和语义分割[34]。结合上下文信息的几种基于图形的方法，结合神经网络架构，已成功应用于对象启动[47]，位置和对象识别[51，49]，对象检测[11，33]和视觉问题回答[45]。最近有趣的方法使用深度图神经网络进行上下文推理[27，13，16，5]。这些作品通常假设完整的上下文信息总是可用的。然而，在我们的实验中，我们包括部分上下文信息可用的实验条件，例如最小上下文，模糊上下文和仅低级别上下文纹理（图1）。2）。脱离这些以前的工作，其中图优化是全局执行的，这里提出的模型选择相关的视觉特征使用的注意力机制，并集成部分信息，从目标对象和上下文在多个步骤。重要的是，该模型概括了上下文的变化（第二节。（五）。此外，我们提供了一个直接比较人类基准性能。3. 人类心理物理学实验我们研究了识别中上下文调制的三个基本特性（图1）。2、S1、S7、S9、S11）：[A]语境量，[B]语境内容，[C]语境动态。我们进行了10个心理物理学实验，示意性地示于图1。2小时，在Amazon Mechanical Turk上[50]。我们每个实验招募了80名受试者，总共产生了64000个试验（第二节）。（五）。实验设置：刺激由来自MSCOCO数据集测试集的55个对象类别的2，259个图像组成[31]。我们将目标对象的大小限制为四个bin：尺寸1 [16-32像素]，尺寸2 [56-72]，[2019 - 04 - 14] 04：04：04 [2019 - 04] 这些bin指的是对象中的像素数量，而不管它们在物理世界中的大小。假设图像大小为1024×1280像素，观看距离为100米。5米，这些值对应于大约1、2、4和8度视角（但在MTurk中可能会有所不同，观看条件）。为了避免任何偏见和潜在的记忆效应，我们采取了以下预防措施。(a)每个图像仅选择一个目标对象。(b)目标对象均匀分布在4个大小和55个类别。(c)受试者每类最多看到2个目标物体。(d)试验顺序随机化。业绩评价和统计：大多数识别实验都执行N路分类（例如，[44]）。在这里，我们引入了一种更无偏见的探测机制，对用于描述目标对象的单词没有任何限制（图1）。2小时，秒。S6.1）。为了评估人类的表现，我们分别收集了每个目标对象的真实答案分布12987^ ^您的位置：ti我tiH一不1L我tiH一我ti经验（ec）我不Ctia全面背景b最小背景c背景区域d背景模糊eTexture onlyfJigsaw contextgIncongreent图2. 上下文和任务示意图的基本属性。示例图像与完整的上下文（a）和图像修改中使用的实验（更多的例子在图。S1）的情况下。目标位置（红框）在不同条件下始终相同正确答案（(h)向受试者呈现注视十字（500ms），随后是指示目标对象位置的边界框（1000ms）。在大多数实验中（实验C1-3除外，图11），S7、S9和S11），图像显示时间为T= 200 ms。图像偏移后，受试者键入一个单词来识别目标对象。具有无限的观看时间和完整的上下文（Mturk受试者不参与主要实验）。如果主实验中的答案与任何一个真实答案相匹配，那么它们就是正确的。虽然计算模型（Sec. 4）使用N向分类进行评估，我们发现将模型结果与人类行为一起绘制以进行比较是有益的。我们还展示了人类模型的相关性，以描述它们在不同条件下的相对趋势。我们使用Wilcoxon秩和检验[23]和单因素/双因素方差分析检验[28]（第28节）。S6.2）进行统计比较。4. 上下文感知双流注意力网络我们提出了一个上下文感知双流注意力网络（CATNet），扩展了图像字幕的工作[52]。 CATNet以自然图像呈现，其中目标对象由白色边界框指示特征图分别为AC和AO我们使用VGG16网络[41]，在ImageNet [15]上进行预训练，并在训练阶段对其进行微调为了关注图像的特定部分并在这些位置选择特征，我们保留了特征的空间组织;因此，CATNet在VGG16的最后一个卷积层使用输出特征图。两个前馈特征提取器网络在Ic和Io上的参数是共享的。由于I。是I。中的目标对象区域的放大版本，因此这导致更高的敏锐度并且增强对目标对象的细节的灵敏度我们接下来描述c，但同样的想法也适用于o。维度为D的特征向量ac表示图像Ic在位置i处的部分，其中i = 1，.， L和L = W ×H，W和H分别是特征图的宽度和高度：ac={ac，.，ac}， ac∈RD（1）受人类视觉的偏心依赖性启发CATNet有一个流，它只处理目标对象（Io，最小上下文，图1）。2b），以及第二流4.2.注意调制我们使用C o致力于外围中的上下文信息（Ic，完整的背景下，图。2 a）。这两个流通过权重共享卷积神经网络并行处理。Io被放大到与Ic相同的大小，使得每个卷积核在更细粒度的细节处看到IoCATNet通过连接显式地集成了中央凹和外围，并首次尝试从预定义的C=55个对象类集合中预测类标签y0水平和自上而下的连接被认为是重要的认识[44]。我们在CATNet中添加了一个递归的“the context gist”(Fig. S13）。分别在Ic和Io我们描述了注意力的上下文流，但同样的原则适用于对象注意力图。对于c中的每个位置i，注意力机制生成一个正标量αc，表示特征向量ati在捕获上下文要点方面的相对重要性。αc取决于特征向量ac，结合递归网络前一步ht-1的隐藏状态，如下所述：LSTM模块改变了其内部的场景通过注意力，并预测多个ec=Acht−1+Acac，αc经验（ec）=Σti（二）时间步长t，其中t ∈ {1，. Tm}。我们用上标c或o来区分Ic或Io上的进程，下标t时间相关变量4.1. 卷积特征提取CATNet将Ic和Io作为输入，并使用前馈卷积神经网络来提取其中Ac∈R1×n和Ac∈R1×D是随机初始化并在训练过程中学习的因为不是所有被关注的区域可能对上下文推理有用，软注意模块还预测门控向量c与前一个隐藏状态ht−1的距离，使得βc确定当前观测值的贡献βLi=112988βΣCC不^^不t=1O^注意力预测于上下文时间10使用VGG16进行特征提取ℎ0ℎ1^0LSTM1（，）��预测类标签“披萨”1^LSTM200（，）��11预测类标签“蛋糕”ℎ0ℎ101注意力预测对象的图3. 上下文感知双流注意力网络（CATNet）的架构概述。该图描述了在上下文感知对象识别任务中，CATNet在多个时间步长上执行的迭代模块化步骤。CATNet由三个主要模块组成：特征提取注意力和循环记忆这三个模块化步骤重复预定数量的时间步长Tm。为了便于说明，此处仅显示第一和第二时间步长（参见第4定义变量和图。S13-S14用于实现attention和LSTM模块）。CATNet只使用完整的自然图像进行训练，然后在每个实验指定的不同条件下进行测试（第二节）。3和5）。到每个位置的上下文向量：βc=σ（Wcht−1），4.4. 培训和实施详情tβ其中Wc∈RL×n是一个权矩阵，每个元素我们通过最小化βc中的βc是位置i处的选通标量。 βc有助于在预测的标签yt之间放置更多的交叉熵损失，滴滴滴强调图像中的突出对象[52]。一旦计算注意力图αc和选通尺度βc，时间步长t和地面真值标签x：损失=Tm（−log（P（yt|（x）。在每个时间步预测标签模型应用通过对图像中的所有L个区域求和L允许我们评估Exp中图像曝光时间的影响C（Fig. 2h、S7、S9、S11和Sec.5.3）。此外，利用地面^zt=0βcαcac（三）每个时间步的真值标签经验性地帮助了CATNet在训练中收敛得更快。i=1C oti蒂伊我们使用所有MSCOCO训练集图像进行训练C O和验证。在每幅图像上，每个对象都被选为我们将zt=（zt，zt）定义为zt和zt的级联，它用作LSTM模块的输入。注意力模块是平滑和可微的，CATNet通过反向传播端到端学习所有权重。4.3.使用LSTM的长短期记忆（LSTM）网络基于先前的隐藏状态ht-1和I和Ic的要点向量zt预测类标签yt[55]（图S14）。变量it、ft、ct、ot、ht表示LSTM的输入、遗忘、记忆、输出和隐藏状态（第S3节）。为了比较 CATNet 和人类在不同暴露时间 T （ Exp.C），我们设置一个LSTM时间步长为是25ms，并且考虑在相应的时间步长数Tm=T/25处的CATNet预测标签。为了预测目标对象的类标签yt，LSTM计算一个分类向量，其中每个条目表示给定隐藏状态ht的类概率：yt=arg maxp（yc），p（yc）Lhht（4）C其中Lh∈RC×n是随机初始化的学习参数矩阵。我们在第S3节中讨论了替代的卷积LSTM连接。目标，总是在完整的上下文中显示。只是在测试阶段，我们根据不同的实验条件改变了上下文重要的是，没有一个人类行为实验被用来训练模型。Ic和Io是400×400像素。我们设置训练CATNet的时间步长总数Tm=8。在第S3和S4节中提供了进一步的实施细节。4.5.竞争基线和消融模型我们将CATNet的结果与几个竞争基线进行了比较，例如语义分割中的DeepLab-CRF [9]和对象检测中的YOLO 3 [37，38]。这些模型适用于上下文感知的对象识别任务（第二节）。S5）。为了研究注意力的作用，双流架构和经常性连接，我们引入了CATNet的消融版本（第二节）。S5）。开始从ImageNet [15]上预训练的原始VGG16对象识别网络[41]中，我们一次添加一个组件并评估其增量性能变化。这些模型包括VGG16 +二进制掩码，双流VGG16，VGG16 +注意力和VGG16 +注意力+LSTM。12989图4. 上下文可以提高识别能力，特别是对于小物体（实验A1）。Top-1精度随对象大小而增加（图图2a-b）。背景信息有助于识别，特别是对人类（a）和CATNet（b）的小目标物体在这里和随后的图中，误差条表示SEM。在b中，机会水平为1/55（详见文本）。5. 结果5.1. Exp A：上下文5.1.1物体大小很重要（实验A1）我们证实，上下文信息的影响将取决于目标对象的大小。我们考虑了4个对象大小（秒。（3）第三章。对于每一个尺寸，我们引入了最小的上下文（矩形边界框包围的对象，图。2 b），或完整的上下文（整个图像，图。2a）。对于最小上下文条件（图。2 b），人的表现作为对象大小的函数从0. 140±0。031比0。670±0。035（实验A1，图 4 ，单因素方差分析： F （ 3 ， 5097 ） =215 ，p10−15）。CATNet模型很容易捕捉到这种效应（单因素方差分析：F（3，4368）=304，p10−15）。添加完整的上下文信息（图。2a）导致a对人类和CATNet的性能都有很大的改进。由于上下文调制而增强的性能强烈依赖于对象大小：对于对象大小为1的情况，全上下文条件和最小上下文条件之间的性能比分别为4.7和2.5（人类和CATNet），而对于对象大小的情况，该比分别为1.1和1.05（人类和CATNet8.当目标对象较小且难以识别时，上下文信息极大地促进了性能。5.1.2上下文的数量很重要（Exp A2）对于每个物体的大小，我们系统地滴定了上下文信息的数量（图1）。2c）。上下文对象比（CO）是不包括目标对象的总图像面积除以对象大小。我们包括CO=0（对象周围没有像素），2，4，8，16和128。大物体尺寸和大CO值的某些组合是不可能的。我们通过从0到128滴定上下文对象比率（CO）来量化上下文信息的量如何影响识别（实验A2，图S2）。背景的数量对人类都很重要（单因素方差分析：图5. 即使在少量的模糊之后，语境易化仍然存在（实验B1）。大量的上下文模糊（图。2d）需要破坏人类（a）和CATNet（b）的上下文促进这里只显示了σ = 2和σ = 8（见图2）。中间σ值为S3）。F（7，5097）=31，p10−15），以及CATNet（单向方差分析：F（7，4368）=23，p10−15）。跨所有在CO比率方面，人类的表现优于CATNet，对象大小，CATNet在最大对象大小方面优于人类。值得注意的是，CATNet从未接受过人类心理物理学测量的训练或微调。这些实验表明，上下文量可以强烈地增强识别;我们称之为上下文调制，在整个文本的其余部分简称。5.2. 实验B：上下文内容我们研究了如何上下文分辨率，几何形状和一致性调制识别5个实验，专注于对象大小1/2/4，最小/完整的上下文。5.2.1上下文模糊就足够了（实验B1）由于人类视觉的强烈偏心依赖性，外围具有比中央凹更低的分辨率（分辨率急剧下降，以至于人类在远外围中是合法失明的）。我们强调，低分辨率背景可能足以促进识别。为了量化上下文分辨率的影响，我们模糊了上下文（Fig.2d）使用具有标准偏差σ=2，4，8，16，32像素的零均值高斯（图像大小=1024×1280像素）（实验B1，图12）。2d）。每个受试者看到的都是模糊的情况，有不同的图像。准确度从σ≤8像素时与全分辨率条件无法区分的水平下降到σ=32像素时的最小上下文条件水平（图11）。5 ，单因素方差分析： F （ 4 ， 2933 ） = 28 ， p<10−15，图S3）的情况下。有趣的是，有一个广泛的模糊，导致到健壮的上下文调制，与人类不需要完全分辨率上下文的概念一致。模糊的影响也被CATNet捕获，其中上下文调制仅在使用大σ值时才消失（单因素方差分析：F（4，2354）= 2，p <0. 05）的情况。与实验A1-A2类似，人类在小物体上的表现优于CATNet。12990图 6. 大的几何背景重新排列破坏了背景促进（实验B4）。加扰上下文片段（图。 2 f）只有当许多小的上下文片段发生变化时，促进作用才会降低，无论是人类（a）还是CATNet（b）。这里只显示了4x4条件（见图1）。S6为其他条件）。我们通过应用相同的高斯模糊（Exp. B1）仅对对象本身（Exp. B2，图S4）。虽然模糊目标对象所影响的像素数量远小于模糊上下文（对于固定的σ），但修改对象会导致更大的精度下降，对于对象大小2和4，无论是人类还是CATNet。5.2.2背景效果依赖于空间配置图像中对象和特征的相对位置也影响识别;例如，天常在上。为了评估情境配置的影响，我们将图像随机打乱为2×2、4×4或8×8的我们没有考虑当物体占据更多空间时的情况。比一片人类和CATNet都依赖于所有对象大小的上下文的空间配置（图1）。6，人类：单因素方差分析：F（3，2182）=58，p10−15; CATNet：<单因素方差分析：F（3，1787） =29，p<10-15，图S6）。4×4和8×8结构中语境信息有趣的是，2×2配置与未加扰的完整上下文条件没有什么不同，可能是因为每个大片段已经包含足够的上下文信息，并且上下文推理随着与目标的距离而减少[56]。CATNet对扭曲的空间配置：只有在8 × 8配置下，识别准确率与全上下文条件不同（对于2 × 2和4 × 4，双尾秩和检验，p ≥ 0.第12段）。5.2.3低水平的上下文属性不会导致易化（实验B3）鉴于适度模糊的上下文仍然有利于识别（图。5），我们问低级纹理特征是否也可以提高性能。我们构造了受图像统计约束的纹理[36]，并粘贴在它们的原始位置上的完整物体（实验B3，图2e）。纹理保留了低层特征，但扭曲了高层特征和语义信息。低级纹理特征并不能促进人类或CATNet的对象识别（图1）。S5）。事实上，与最小上下文条件相比，当对象嵌入这些纹理中时，人类的表现实际上略有受损（双尾秩和检验，所有对象大小，p<0. 04）。对于CATNet，低级纹理特征仅针对对象大小1改善了最小上下文的识别，但效果比使用完整上下文信息时小得多。5.2.4不一致的上下文损害识别鉴于低级纹理没有帮助（甚至可能损害识别），并受到Fig.1和相关的实验，我们接下来研究了识别时，对象被从其原始图像中删除，并放置在同一位置，但在不同的图像中，无论是一致的上下文（对象和上下文属于同一类标签）或不一致的上下文（上下文取自不同的图像类标签，图1）。2g）。与人类和CATNet的最小上下文条件相比，一致的上下文增强了对小对象大小的识别（图1）。（七）.虽然全等上下文通常在对象和场景属性之间共享类似的相关性，但是在全等上下文中粘贴对象导致较弱的增强。这种较低的上下文促进可能是由于对象之间的错误相对大小、通过粘贴创建的不自然边界或特定于每个图像的上下文线索。CATNet相对忽略这些影响，在一致条件下的性能更接近于原始的全上下文条件。与此形成鲜明对比的是，不一致的上下文一致降低识别性能低于最小上下文条件。在所有物体大小中，受试者在一致与不一致的上下文中对物体表现出更高的准确性（单因素方差分析：F（1，2530）= 92，p<10−15）。不一致上下文的准确性低于最小上下文（双尾秩和检验， p=0. 05 ）。 0005 ）。同样，CATNet识别准确率也与一致性上下文呈正相关（单因素方差分析：F（1，2977）= 515，p <10−15），并被不一致的上下文降级（对于所有对象大小，双尾秩和检验，p <0 . 05）。001）的情况下。5.3. 实验C：语境调节的动力学前几节描述了语境调变的空间方面。识别的时间动态对解释自下而上和自上而下的视觉过程的流程有很强的约束[46，44，39]。接下来，我们进行了3个实验，以探讨动态的语境效应对再认。12991图7. 不一致的上下文会损害识别。粘贴不同但一致的上下文中的目标对象便于识别。在不一致的上下文中粘贴目标对象（图。2 g）损害人类和CATNet的识别。5.3.1语境调节是快速的（实验C1）在实验A和B中，图像持续时间T为200 ms（图1）。2小时）。在这里，我们系统地将T改变为50，100或200ms（图1）。S7，失效C1）。人类的表现在很大程度上不受图像持续时间的影响（图1）。S8）中定义。为了评估暴露时间在CATNet中的作用，将每个计算时间步长映射为25 ms（第4.3节）。与人类行为结果一致，暴露时间对CATNet的识别没有影响5.3.2后向掩蔽减弱语境调制（实验C2）实验C1中的快速计算被认为主要涉及自下而上的处理[40，17]。尽管曝光时间短，但在刺激抵消后可能会进行额外的计算。下一个实验试图使用反向掩蔽来中断这些计算（实验C2，图S9）。向后掩蔽通常用于神经科学中中断视觉处理[44]。在刺激偏移之后示出的掩模旨在阻止自顶向下和循环计算。我们使用Portilla面罩[36]，如实验B3（图S9）所示，刺激暴露时间遵循实验C1。向后掩蔽并没有改变最小上下文条件下的准确性（图1）。S10）。当在50-100 ms暴露后引入掩码时，全背景条件下的识别增强受损，但在200 ms时则没有，与先前的研究一致[44]。总之，上下文调制是快速的，并且可能涉及可以被掩蔽中断的反复计算。5.3.3短暂接触背景足以促进（实验C3）在上述实验中，客体信息和语境信息同步呈现。在自然视觉期间，受试者将他们的眼睛从给定位置P1移动到另一位置P2。在注视P1时收集的信息充当注视P2的先前时间背景。为了研究这种先验时间背景在识别中的作用，同时在概念上简化问题，我们将图像分为仅上下文部分和仅对象部分。首先，仅上下文部分呈现T1 = 25、50、100或200 ms的持续时间。接下来，上下文被移除，并且仅对象部分被呈现持续时间T2 = 50、100或200 ms（Exp. C3，图S11）。为了比较的目的，还包括相应的同步条件。令人惊讶的是，即使是25毫秒的接触上下文也足以触发上下文调制（图1）。S12）。对于小的对象，上下文促进较大的增加上下文曝光，达到100毫秒的上下文曝光的同步条件的水平。总而言之，通常持续200ms的先前扫视提供了可以保存在存储器中的足够的上下文信息，并且增强了对最小上下文对象的识别。即使是较短的接触环境也能提高识别能力。5.4. 与其他型号的比较我们重点讨论了图1中介绍的CATNet模型。3.第三章。其他几个计算模型结合了某种形式的上下文信息（第二节）。2）。我们比较了CATNet与两个最先进的模型，这些模型包含用于语义分割的上下文信息：（1）Deeplab [10]）和（2）对象检测（YOLO3，[38]）。显示了实验A和B的所有变化中所有条件下的平均准确度表1中有关这些模型的性能的详细信息如图所示。 S16-S22 （ Deeplab ），和 Fig. S23-S29（YOLO3）。尽管Deeplab和YOLO3利用了全局上下文信息，但CATNet的性能优于这两个模型，特别是在小对象上。例如，Deeplab在大型物体上的表现几乎与CATNet一样好，但它未能证明在每个实验中反复观察到的强烈的上下文促进作用（图2）。4、5、6、7）。同样，尽管YOLO3在区域建议后有一个专用的识别模块，但它在识别小物体时未能结合上下文信息我们还再次强调，所有计算模型，包括CATNet，在每个实验中在小物体上的表现都比人类差，这表明有必要提出更好的方法来推理计算机视觉任务中的上下文。至少在一定程度上，基线模型由于缺乏尺度公差而难以处理小对象。除了绝对准确度之外，我们还在表1中报告了每个实验条件下每个模型与人类表现之间的相关性。算法和人类之间的相关性反映了每个模型如何受到不同条件的影响。基线不仅显示出较低的准确性，而且与人类表现的相关性也低于CATNet。12992表1. 实验A和B的人类和模型之间的性能和相关性。参见第3评价指标的定义。最好是大胆的。其他比较见表S15.5. 消融显示关键模型组件为了提取CATNet的不同组件如何有助于整合上下文信息，我们考虑了具有消融组件的修改版本（Tab.S1）的情况下。我们首先评估了预训练的VGG16[41]。The accuracy of VGG16 was essentially at chance,particularly for small objects (Fig. S30-S36), confirmingthat in-context object recognition is not a trivial visualfeature mapping task and requires focusing on the targetobject location.接下来，我们将自然刺激与指示目标对象位置的二进制掩码（VGG16+binarymask）连接起来。尽管二进制掩码相对于VGG16提高了性能，但准确性仍远低于CATNet（图1A和1B）。S37-S43），这表明，注意机制，以权衡不同的功能发挥了重要作用。因此，我们实现了一个注意力模块（Sec.4，VGG16+注意力），这导致了大的性能提升（图S44-S50），与先前的工作一致，显示了视觉任务中注意力的效率[32]。在图S15中，我们分别提供了上下文和目标对象上的预测注意力图的可视化示例。CATNet学习专注于信息上下文区域进行识别。与以前的工作[32]一致，对目标对象的注意力是稀疏的，并且集中在对象边缘或目标周围的最小上下文区域，通过结合双流模块实现了性能的额外改进（图1和图2）。S51-S57）和LSTM模块（图S58-S64）。6. 讨论我们定量地研究了人类观察者和计算模型在自然环境中识别目标对象的任务中的视觉识别中上下文的作用。我们研究了语境的三个关键属性语境促进效应对小物体的影响尤其明显，并随着周边信息的增加而增加。在这里和大多数计算机视觉数据库中使用的完整上下文的概念是由拍摄照片的人任意定义的（与可以由整个人类视野定义的真正的完整图像相反）。因此，实验A提供了一个直接的滴定如何不同数量的上下文影响识别（图。4，Fig. S2）的情况下。与人类视觉的偏心率相关性一致，促进作用不受少量模糊的影响（图11）。5，图S3），或在目标附近留下完整信息的几何重排对象 (Fig.（六）。一致的上下文信息通常会增强识别，而不一致的上下文则会削弱识别能力（图1）。（七）.背景效应不能用低层次的图像属性来解释（图10）。S5）。这种背景调制发生得很快（图。S7-S8），甚至可以以异步方式引出，其中上下文显示在目标对象之前（图11）。 S11-S12）。通过后向掩蔽的快速中断损害了上下文调制（图1）。S9-S10）。为了与人类水平的上下文识别的基准进行比较，我们评估了计算机视觉中的竞争方法，并引入了一个递归神经网络模型（CATNet，图1）。（3）第三章。CATNet结合了一个前馈视觉流模块，动态提取图像特征与注意力模块，以优先考虑不同的图像位置。CATNet随着时间的推移整合信息，为目标对象生成标签。令人惊讶的是，尽管该模型缺乏与上下文中的对象进行交互的人类专业知识，但CATNet充分展示了类似人类的行为特征，并在广泛的上下文识别任务中达到了几乎人类水平的性能然而，模型和人类之间仍然存在很大的差距，特别是在识别上下文中的小对象以及上下文之外的大对象时。尽管上下文通常只是隐含地包含在当前的算法中，但上下文信息对视觉应用至关重要（例如，对象和动作识别）。分离对象和上下文的贡献有助于我们更好地解释计算机视觉模型。此外，上下文可以用来欺骗当前的算法（例如，，Fig.1）。因此，这里提出的实验有助于我们理解模型的失败情况。显式地结合上下文线索可以进一步帮助保护计算机视觉模型免受基于上下文的对抗性攻击。这些结果引入了基准来集成对象识别和场景理解，并为理解人类视觉识别和改进智能计算机视觉系统提供了初步步骤确认这项工作得到了NIH R 01 EY 026025和由NSF STC奖CCF-1231216资助的心智、大脑和机器中心的支持。MZ由科学，技术和研究机构的博士后奖学金我们感谢Martin Schrimpf的初步讨论激发了这项工作，并感谢Pranav Misra和Kasper Vinken对论文的评论。精度A1A2B1B2B3B4B5人类0.580.580.470.490.390.480.43CATNet0.480.480.420.390.340.410.44DeepLab [10]0.520.450.370.420.310.380.39[第38话]0.260.250.130.140.130.130.19相关性A1A2B1B2B3B4B5CATNet0.890.890.950.870.890.920.93DeepLab [10]0.900.830.860.880.900.810.91[第38话]0.750.780.740.780.750.660.8712993引用[1] Elissa Aminoff，Nurit Gronau和Moshe Bar。海马旁皮质介导空间和非空间关联。大脑皮层，17（7）：1493-1503，2006。2[2] Mark E Auckland，Kyle R Cave和Nick Donnelly。非目标物体会影响物体识别过程中的感知过程。Psychonomic bulletin review ， 14 （ 2 ）： 332-337 ，2007。2[3] Jimmy Ba、Volodymyr Mnih和Koray Kavukcuoglu。具有视觉注意力的多目标识别。arXiv预印本arXiv：1412.7755，2014。3[4] Moshe Bar 和 Elissa Aminoff 视觉语境的皮层分析。Neuron，38（2）：347-358，2003. 2[5] 彼得巴塔利亚Razvan 帕斯卡努马修 Lai，DaniloJimenez Rezende，等. 交互网络，用于学习物体，关系和物理。神经信息处理系统的进展，第4502-4510页，2016年。2[6] 莎拉·比瑞格兰特·范·霍恩和皮特罗·佩罗纳在未知领域的认知。在欧洲计算机视觉会议（ECCV）的会议记录中，第456-473页，2018年。一、二[7] Irving Biederman ， Robert J Mezzanotte ， and Jan CRabinowitz.场景感知：检测和判断发生关系冲突的对象。认知心理学，14（2）：143-177，1982。2[8] 维兰德·布伦德尔和马蒂亚斯·贝奇。在imagenet上，用局部特征袋模型来近似cnns的效果出奇的好arXiv预印本arXiv：1904.00760，2019。2[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille. Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。 IEEE Transactions on Pattern Analysis andMachine Intelligence，40（4）：834-848，2017。4[10] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille. Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。 IEEE Transactions on Pattern Analysis andMachine Intelligence，40（4）：834-848，2018。二七八[11] Xinlei Chen，Li-Jia Li，Li Fei-Fei，and Abhinav Gupta.超越卷积的迭代视觉推理。在IEEE计算机视觉和模式识别会议论文集，第7239-7248页，2018年。2[12] Myung Jin Choi，Antonio Torralba，and Alan S Willsky.上下文模型和上下文外对象。 Pattern RecognitionLetters，33（7）：853-862，2012. 一、二[13] 崔元君和西尔维奥·萨瓦雷塞多目标跟踪和集体活动识别的统一框架欧洲计算机视觉会议，第215Springer，2012

下载后可阅读完整内容，剩余1页未读，立即下载