基于上下文注意的场景标注迭代反馈记忆网络

133 浏览量更新于2023-10-16 收藏 1007KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5561情节CAMN：基于上下文注意的场景标注迭代反馈记忆网络阿布拉尔·HAbdulnabi1，2 Bing Shuai1 Stefan Winkler2 Gang Wang31新加坡南洋理工大学商学院2伊利诺伊大学香槟分校先进数字科学中心（ADSC），新加坡3阿里巴巴集团摘要场景标注可以看作是一个序列-序列预测任务（像素-标签），利用相关上下文来提高像素分类的性能是非常重要的。在本文中，我们引入了一个基于情景注意的记忆网络来实现这一目标。我们提出了一个统一的框架，主要由一个卷积神经网络（CNN），具体地说，全卷积网络（FCN）和一个基于注意力的记忆模块与反馈连接，以执行上下文选择和细化。完整模型通过聚合激活的上下文及其由卷积层产生的原始局部表示来为每个目标块产生上下文感知表示。我们评估我们的模型在PASCAL上下文，SIFT流和PASCAL VOC2011数据集，并取得竞争力的结果，其他国家的最先进的方法在场景标记。1. 介绍本文讨论了场景标记（或语义分割）的问题，它通常旨在将一个唯一的语义类标签与图像中的每个像素相关联。这是计算机视觉中的一项具有挑战性的任务，因为不同的场景可能充满复杂和遮挡的对象，并且可以在各种光照条件和视点下捕获图像。此外，图像中的对象可以以任何位置和比例出现。为了对典型场景标记流水线中的每个像素进行分类，首先从包含该像素的适当大小的块中提取特征向量补丁包含周围的上下文，以在标记过程中局部区分像素。但是这些局部特征表示可能是模糊的，例如，在视觉上无法将沙发贴片与床贴片区分开。作为一种自然的解决方案，许多论文利用上下文来区分局部模糊的补丁[27，50，53]。在他们的作品中，没有有效地利用长期背景此外，周围的上下文信息被合并而不选择。我们认为，不同的背景信息并不总是同样重要或有用的一个局部区域。例如，当识别属于计算机监视器的本地区域时，利用来自桌面的上下文信息而不是来自诸如窗口的其他区域的上下文信息更有帮助。因此，应特别注意以目标区域为条件的某些上下文。在本文中，我们提出了一个统一的框架，包括FCN和基于情景注意的记忆网络层来解决这个问题。具体地说，它由三个主要部分组成：（1）基本FCN，用于生成局部卷积块级特征表示;（2）基于上下文注意力的网络（CAN），用于为每个参考块自适应地选择相关的上下文块;（3）“情节性”循环记忆模块，其累积并记录在多个情节上的所选择的上下文，其中其循环反馈连接允许CAN模块在多次迭代上细化激活/选择的上下文。CAN与递归记忆网络（CAMN）一起似乎是一种有效的上下文建模方法，可以容易地激活有用的长距离上下文。然而，CAMN可能会错误地激活不相关的上下文，并错误地抑制相关的上下文在一个镜头;因此，我们建议在具有循环反馈机制的迭代框架中改进所选上下文。我们将情景记忆实例化为递归神经网络的隐藏表示[19]，它能够在短时间内（几次迭代）有效地记忆局部信息。然后，我们将情景记忆的反馈连接添加到CAN中，以便CAN模块可以在下一次迭代中改进上下文选择情节记忆只在早期的几次迭代中收敛。我们将我们的方法描述为“情节式”，因为它通过一系列的连续迭代来优化和细化所选的上下文。可以利用这些情节的所有生成的上下文或仅最后一个情节。5562图1. 我们的统一框架的说明性概述。该模型由FCN卷积层，我们的基于情景上下文注意力的记忆网络，以及FC（分类）层旁边的上采样组成给定一个输入图像，我们的模型会生成一个逐像素的标签映射。图1显示了该框架的概述。整个网络是端到端可训练的。即使没有后处理，我们也在几个具有挑战性的场景标记基准上实现了最先进的标记结果。本文的主要贡献概括如下：• 我们提出了基于上下文注意的记忆网络模型，该模型能够自适应地为每个目标块选择相关的上下文。重要的是，它是一个一种新颖的上下文建模方法，可以有效地参与远程上下文。• 我们引入了一个情景记忆模块，以描述语境选择，并帮助CAMN通过循环反馈来完善先前的语境选择在多个迭代（• 我们在三个公共场景标记基准上取得了非常有竞争力的结果。2. 相关工作2.1. 上下文建模和场景标注来自其他块的上下文线索通常对于局部块推理和预测是重要的。目前许多成功的语义切分系统都是基于CNN（具体地说，FCNs）开发的.通常，卷积层中神经元的接收场对应于输入图像的局部区域。它们通过层叠多个层来隐式地参与上下文信息。然而，扩大神经元的感受场以显式地和直接地对长程上下文进行建模是无效的，因为它可能会降低局部区分特征[66]。FCN试图通过应用来自早期层的跳过连接并最终聚合中间特征以进行分类来克服这种限制[40]。其他早期的作品尝试学习分层和多尺度CNN特征，以捕获多尺度图像金字塔的上下文[21，22，47]。另一项工作是修改卷积运算，并应用“atros”和扩张卷积来执行上下文建模[11，12，68]。最近，RNN类层，例如长短期记忆（LSTM）和门控递归单元（GRU）[14]）通常被插入卷积层之后，以显式地捕获并将长程上下文编码到本地表示中[5，51，59，66]。 Sharma等人[49，50]利用递归神经网络架构来传播上下文。然而，类RNN模型在建模非常长的序列时受到限制。相比之下，我们的基于注意力的模型可以有效地编码补丁之间的长距离上下文信息。条件随机场（CRF）和马尔可夫随机场（MRF）也用于对标签级上下文进行建模[11，12，32，38，69]。它们表征标签之间的共现关系。或者，我们的目标是将上下文信息编码到本地特征表示中。2.2. 注意力模型基于注意力的模型已成功应用于广泛的自然语言处理（NLP）相关任务，包括机器翻译[18][43]，语音识别[13]，图像标题生成[65]，阅读理解[28]，句子摘要[48]，词性（POS）标记[34]，问答[30，64]等。一些作品受益于图像分类任务[7，44，62]和对象识别[3]的注意力模型。注意力机制首先被引入神经机器翻译[18]，使用编码器-解码器RNN模型自动将原始句子中的单词与目标句子中的单词对齐。对齐（基于注意力）模型嵌入序列到序列学习框架中[55]。同时，在图像字幕生成任务中，Xu等人。[65]使用基于注意力的模型来粗略地定位感兴趣的图像区域，这些区域被认为与产生下一个单词相关。另一个有趣的工作[10]使用注意力从不同的多尺度特征中进行选择。Hermann等人[28]Rushet al.[48]采用基于注意力的模型来发现对理解段落或句子有信息的关键字 / 句子Chorowski等人[13]还利用基于注意力的模型来过滤基于短窗口的音频中的噪声帧，以解释期望的音素。神经记忆网络[24，54，57，60]在注意力机制的帮助下变得流行，其中涉及独立的神经结构来稳定地存储信息。据我们所知，我们的工作是第一次接近场景标签利用可微软at-tension机制与循环记忆网络。我们的模型可以动态和交互式地选择和细化相关的和信息的上下文补丁为每个引用补丁，因此它的本地表示是contextualized。55632.3. 循环反馈在场景标记和人体姿态估计的任务中已经探索了循环反馈。自动上下文[70]是利用分类器的输出作为下一个分类模型的反馈的开创性工作同时，Pinheiroet al. [47]在卷积神经网络（CNN）的输出和输入之间添加反馈连接。也就是说，前一次迭代中CNN的输出被反馈到下一次迭代中相同CNN的输入。这种循环CNN已成功应用于场景标记。此外，Carreiraet al. [8]还在CNN中添加反馈连接，使网络能够从过去的错误中学习，以便在下一次迭代中更准确地预测人体关节的位置。我们的情景记忆反馈的想法与这些作品相似。参与经常性反馈连接可以被视为级联多个注意层，这些注意层可以形成深度注意模型。然而，我们不是简单地添加来自连续迭代输出的反馈，而是引入情景记忆来记录和积累利用RNN层的所有过去信息，然后将其反馈添加到基于注意力的模块，以便在多个迭代中细化所选上下文。3. 框架给定场景图像S，任务是从像素空间映射我们将每个图像划分为补丁，并训练我们的情节CAMN模型来提取上下文感知的卷积特征，以更好地表示每个局部补丁。假设场景图像S中的块用卷积特征表示为x =[x1，x2，. . . .. 具体地，给定来自S的引用的原始本地补丁，我们的模型中的数据流如下（参见图1）。图1）：输入特征图：FCN中的卷积层将输入补丁转换为局部特征表示。输出特征图：情节CAMN执行上下文建模并计算输出，该输出是输入参考补丁的上下文感知特征。它自适应地和渐进地为所引用的补丁选择相关的上下文补丁两个主要的网络内采用：（1）CAN模型包含一个前馈网络计算的兼容性/相似性得分，以执行软注意之间的输入xi和图像x中的剩余补丁;（2）反馈机制是由一个递归层，记录和aggregates/累积先前生成的上下文（激活的上下文），并将其链接回饲料。转发层，以便CAN可以在多次迭代中进一步细化先前的选择。这也使得模型能够生成-图2.我们的情景CAMN包括其基于上下文注意的网络，情景递归记忆和反馈的说明该模型由两个主要部分组成：(1)CAN自适应地选择相关上下文以上下文化参考补丁表示（xi）;（2）情节分类总结过去激活的上下文。来自情景记忆的反馈使得CAN能够在多次迭代中迭代地细化所选择的上下文。吃深上下文表示。与CAN模块的周期性反馈连接允许它在多次迭代中调整情景CAMN模块在每个训练时期运行多次迭代，直到所选择的上下文收敛。响应：为了计算输入补丁的响应（标签），与上采样层和Softmax一起的最后分类层（FC）被用来解码最终的上下文感知密集表示。3.1. 局部面片表示的FCN全卷积网络（FCN）最初将VGG网[52]等分类网络适配为全卷积网络，并将其学习的表示转移到分割任务中。FCN架构combines/融合语义信息从一个深，粗层与外观信息从一个浅，细层，以产生准确和详细的分割。在他们的工作中，他们设计了基本的32s模型，没有来自早期层的中间跳过连接，16s版本具有来自池4层的跳过连接，最后是8s版本，具有来自池4和池3层的跳过连接所有FCN模型都具有上采样层，该上采样层将下采样标签预测映射（由于池化层的应用）上采样到原始图像分辨率。所提出的情节CAMN模型可以插入到最后一个池化层和最后一个FC层之间的任何位置。在我们的工作中，我们将其放置在FC6和FC7之间。情节CAMN的输入补丁表示由早期卷积层生成，情节CAMN的输出是上下文丰富的表示。5564B我我我i i1i 2iN3.2. 基于上下文注意的记忆模型上下文在局部预测中具有重要意义。本文从特征表示的角度对上下文进行我们的注意力为基础的模块介绍了学习激活每个本地补丁的某些上下文功能。具体地说，它将周围斑块的特征与参考斑块聚合，生成其上下文化表示，从而编码有用的上下文信息用于局部分类。然而，对于参照面片，并非所有周围面片都同样有用。例如，在对卧室图像中的枕头补丁的上下文支持方面，床补丁比墙补丁更有用因此，注意力机制的发展，以自适应地选择相关的补丁，并为它们分配适当的权重。情景CAMN模型具有反馈连接，以在多个迭代上操作，从而细化所选择的上下文。我们的模型可以自然地参与远程上下文依赖关系，这使得它非常适合场景标记。3.2.1基于上下文的注意网络为了关注产生有用的上下文信息的补丁到xi，我们的CAN使用前馈网络（注意力模型）来评估参考补丁表示xi和其他周围补丁xj之间的高级相关性。在数学上，它表示为：zij=wTtanh（Waxi+Vaxj+b），（1）其中，Wa，Va是嵌入矩阵，wb是捕获特征相似性的向量;它们是联合学习的。zij反映了片表示xi和xi之间的相关性或兼容性（激活/抑制）的程度。还有其他方法可以生成相关性分数，例如连接：W a[xi; xj]，或余弦相似性：[xiTxj]或绝对距离：|xi−xj|.然而，我们观察到所有这些功能几乎都是一样的，而前馈层表现最好。CAMN利用基于软连接的方法，在ci = 0的基础上，参与并生成最后一个矢量ci，jαijxj ，其中αij=softmax（z ij），s.t. jα ij=1。 αij是一个非负的标量，它调节来自补丁的信息表示Xj暴露于Ci。它是通过应用典型的softmax函数来生成相关性而获得的前馈层产生的概率。我们观察到，在某些情况下，ReLU的性能与Softmax一样好。然而，Softmax在补丁上产生更通过将原始特征xi与其特定上下文向量ci聚合，生成引用图像块的最终hi=ReLU（Uhxxi+Uhcci+zh），（2）其中Uhx和Uhc是分别将输入和上下文向量映射到新的隐藏表示空间的变换矩阵，zh是偏置向量，并且hi是转发到分类层的隐藏表示等式1和等式2中的所有参数都是联合学习的。在这种情况下，CAN被训练为通过将有用的上下文插入到本地表示中来最大化训练图像上的标记性能。为了生成每个引用补丁的响应/类似然，我们应用ri=softmax（Vrhi+zr），其中Vr是分类矩阵，zr是偏置向量，ri是xi的类似然。3.2.2情景再现记忆与反馈CAN产生上下文感知向量，该向量对基于注意力模型选择的相关上下文信息进行求和。然而，如果我们只向前转移一次注意力模型来计算注意力权重，一些不相关的补丁可能会被误激活，而一些相关的补丁可能会被错误地抑制。为了解决这个问题，我们建议迭代地细化注意力权重，使得CAN模型可以关注未发现的相关上下文并删除不相关的上下文。具体来说，我们引入了一个情景记忆模块，能够记住过去的上下文选择我们使用情景记忆的反馈来提炼CAN选择的上下文。在生物学上，它受到神经科学发现的启发，即神经元适应实际上通过树突和轴突之间的反馈连接在多个时间尺度上发生[39，42];离子电流的反馈从树突流回轴突，以改善其对刺激的采用[39]。假设我们生成对应的相关性得分向量z t=[z t，zt，. . .，z t]的参考片表示。sentationxt，以及第t个迭代期间的上下文向量ct分布在各地。然后，加权求和-ii激活的片表示的分解产生上下文向量ci，其通过由αij加权的x的凸求和来计算。有趣的是，由于上下文向量能够包括来自远距离图像块的特征，因此它可以容易地捕获长距离上下文信息我们还尝试使用ReLU函数，而不是第情景记忆的目的是积累，记录CAN在多次迭代中选择的相关上下文。在本文中，我们将情景记忆实例化为递归神经网络 [19]（RNN），考虑到RNN以其对短序列的记忆能力而闻名。情景分类模块中的活动可以表述为：Softmax ReLU直接对非正常进行操作ht=ReLU（Uhxxi+Uhc ct+Uhh ht−1+z）、（3）H5565我我H我IJ我我我我i j i其中Ct是在第t次迭代中生成的上下文向量，Ht表示在第t次迭代中的存储器状态。当t=0时，U hh、U hx和U hc分别是隐藏-隐藏、输入-隐藏和上下文-隐藏变换矩阵。在每次迭代中，情景记忆模块将从CAN模块ct产生的上下文向量累积到存储器隐藏表示中。随着情节记忆的可用性，我们添加了所述记忆模块和所述注意力模块之间的反馈连接。在这种情况下，情景记忆反馈允许CAN在随后的迭代中细化所选择的上下文。具体地，计算相关性分数的等式适于以下形式：共享，并且它们在时间上展开情景记忆网络（迭代）之后经由通过时间的反向传播（迭代）来更新。4. 实验在本节中，我们描述了我们的实验评估，并提供了我们提出的架构的消融研究。我们将我们的框架应用于场景标签的任务，我们表现出竞争力的性能，其他国家的最先进的作品 PASCAL 上下文， SIFT 流和PASCAL VOC 2011。我们还对我们的卷积情节CAMN和其他超参数/设计选择进行诊断评估。zt=wT tanh（Wx +Vx+Uht−1+b），（4）IJB我我我4.1.数据集其中z t 是斑块代表之间的相关性得分，在第t次迭代中x，x和ht−1 内存状态（ht−1）对先前迭代的上下文选择进行编码。因此，当它们被反馈时，期望通过允许xi和xj与所有先前的上下文摘要ht-1交互来细化上下文选择。反馈包含先前上下文选择的总和的记忆向量允许上下文-上下文交互，因此可以激活新的间接然而，我们观察到，随着选择快速饱和，几次迭代足以发现新的相关上下文我们称之为向前传球。具体地，在T次由CAN前向传递之后，由最终事件或所有事件状态生成的上下文感知表示被转发到分类层。我们称我们的模型为Episodic CAMN（见图2）。3.3. 模型优化给定图像S，我们推导出S中每个组成块的类似然。接下来，我们计算交叉熵损失来训练完整模型（包括情景CAMN中的图像的误差信号在所有有效（即，语义标记的）组成块S ={x1，. . . ，xN}：PASCAL-Context[46]包括4998个训练图像和5105个测试图像。最初，图像从PASCAL VOC 2010数据集中采样，并在像素级重新标记用于分割任务，其中总共有540个类。每幅图像的分辨率约为375×500像素。在我们的实验中，我们只考虑标记59个最频繁的类进行评估的任务SIFT Flow[35]由2688张图像组成。在我们的实验中，我们遵循 [35] 提供的训练 / 测试分割协议（2488/200）。这些图像是从8个典型的户外场景，分辨率为256×256像素。该数据集中的分割任务是将每个像素分配给33个语义类中的据统计，该数据集不平衡的阶级分布。我们发现应用类平衡有助于类似[51，67]。PASCAL VOC 2011[20]涉及21个类别，包括20个前景对象类和一个背景类。有736个图像作为非交叉验证设置和1111测试图像由他们的服务器提供在我们的实验中，我们只从训练集中训练最终模型，不包括验证集中的任何图像。根据最近的文献，我们报告了三个性能评估分数：像素精度（PA）（所有正确分类的像素的百分比），每类精度（CA）和交集（IU）。4.2. 实现细节1ΣNL=− NΣBδ（yi=b）log ri（b），（5）我们采用随机梯度下降（SGD）的动量。学习率从10−5开始，i=1b=1其中δ（·）是指示函数，B是语义类的数量，yi是补丁表示xi的地面真值标签。ri是补丁表示xi的类似然，其是B维向量。我们忽略了未标记（无效）补丁在损失计算整个模型是可微的，因此可以通过使用反向传播算法进行端到端的训练。递归层（情景记忆）的权重为在10个时期后以10%的速率呈指数增长。动量固定为0。9 .第九条。RNN网络的内部维度（情景记忆ht）被设置为与输入特征向量的内部维度相同（维度=4096）。所报告的结果是基于训练了50个epoch的模型前馈、FC层和RNN模型参数随机初始化或初始化为零。为了公平比较，我们选择最强的FCN型号（在8s、16s和32s版本中表现最佳）作为我们所有产品5566算法PASCAL-Context SIFT Flow PASCAL VOC 2011PA（%）CA（%）IU（%）PA（%）CA（%）IU（%）PA（%）CA（%）IU（%）基线-FCN65.9046.5335.1185.1954.6841.4590.3075.9062.70FCN+CRF69.1947.3638.3785.7052.4443.1290.9876.3064.01公司简介71.2752.9139.6485.9057.1043.8891.4176.9966.91FCN+Episodic-CAMN72.1154.2841.1886.2058.6945.2292.2678.5968.18表1. PASCAL-Context [46]、SIFT Flow [35]和PASCAL VOC 2011（验证集）[20]的结果。所有模型都与FCN模型（性能最好的模型）联合训练。数据集。我们遵循[40]来训练全卷积网络层。我们使用ImageNet预训练模型初始化所有卷积模型[17]。我们没有使用任何额外的训练数据（例如MicrosoftCommonOb-100inContext'COCO'数据集[33]）。我们使用了公开可用的MatConvNet MATLAB实现[58]。我们联合训练FCN和CAMN作为一个统一的模型。我们引入以下基线来证明我们的建议的有效性。Baseline-FCN执行FCN模型的完整训练[40]第40话场景在这个基线中，我们检查并报告了每个数据集的8s，16s和32s模型中的最佳模型。FCN+CRF使用全连接条件随机场（CRF）实现对最强训练的FCN模型进行后处理[29]。我们选择使用全连接CRF，因为它是场景标记中最强大的上下文建模方法之一。FCN+CAMN对我们的模型进行联合训练;有一集CAMN的FCN在这里，仅使用CAMN的一个迭代。FCN+Episodic-CAMN是我们最终提出的情景记忆（T=3）总体框架。4.3. 评价结果与 FCN 比较： PASCAL-Context 、 SIFT Flow 和PASCAL VOC 2011数据集的定量标记结果总结见表1。我们的FCN+CAMN在三个数据集上的表现分别优于FCN 4.53%，2.43%和4.21%（IU）。结果表明，所发现的上下文信息确实有助于理解所指斑块的语义类别，并增强局部表征的区分能力。对于 Baseline-FCN，我们在SIFT Flow数据集上进行评估时[40]中的原始结果低于我们在该数据集上的结果。经常性反馈：引入情景记忆模块的反馈是为了引导CAMN迭代地提炼所选择的上下文记忆，并产生更强大的深层上下文向量。我们的整体模型FCN+Episodic-CAMN的性能优于FCN+CAMN。在表1中，IU准确度在一次发作图3. 定性标记结果的示例（最佳颜色）。每一行显示原始测试图像，其地面真实标签图，以及我们的基于情景注意力的卷积上下文记忆网络的三个标签预测图，具有不同的迭代。测试图像来自PASCAL上下文[46]。标签预测图的质量随着CAN的参与（迭代1）而显著提高，并且在自适应迭代之后逐渐细化。CAMN在所有的数据集分别。最显著的此外，由于我们引入情景记忆反馈来迭代地细化上下文选择，因此可以进一步提高某些类别的识别性能。如图6所示，上下文向量通常在大约2-3次迭代后饱和;在多次迭代（T >5）后，性能开始略有下降这可能是由于局部特征过度上下文化的影响，因为在几次上下文聚合之后，一些局部区分特征可能被全局上下文特征压倒。图3显示了定性标记结果及其5567图4. 与CRF-RNN方法的比较[69]。样本来自PASCAL VOC2011数据集[20]。在迭代中逐步改进。由于CAMN首次参与，标签预测的质量比FCN显著提高，并且随着上下文细化的发展而进一步提高。我们还在图5中可视化了分别属于第1集和第3集的建筑物，天空和计算机的几个补丁的加权选择（热图）。在第一行中，热量在某些区域增加（例如，建筑物、道路）和其他区域（例如天空）中的减少。第二行可视化属于与第一行中相同场景的天空补丁的热图。这表明注意力模型确实是位置/补丁敏感的。第三行呈现了计算机显示器补丁的热图，示出了表中的一些补丁如何被激活为相关上下文。我们的方法模型之间的关联特征在补丁级别，即。不必将整个对象激活为相关上下文。换句话说，可以针对不同的目标对象/素材部分激活对象/素材的不同部分。我们还报告了PASCAL VOC 2011验证集的（训练/测试）运行时间（平均20在NVIDIA Tesla上进行384 ×384K40 m与配套CPU Intel Xeon E5-2643 v3，40 GHz）;FCN+Episodic-CAMN：（±775ms/±270ms）和基线-FCN：（1546ms/157ms）。与最新技术水平的比较：我们比较了我们的完整模型的性能与其他国家的最先进的上下文建模方法。定量结果PASCAL-Context、SIFT Flow和PASCAL VOC 2011数据集的比较分别列于表2、3和4还有其他方法使用不同的设置，如采用残差网络[26]（例如[12，61]）或使用额外的训练数据来训练他们的模型。在我们的例子中，我们只与具有类似设置的基于VGG的网络进行比较。表4显示了PASCAL VOC 2011在测试集上的评估结果我们的模型在FCN-8上取得了显著的改进。与全连接CRF和其他基于CRF的模型的比较：我们运行完全连接的CRF模型[29]，该模型用于其他最先进的作品[11，12]，作为基于FCN预测图的后处理步骤。如表1所示，我们的方法优于表2.PASCAL-Context上的性能比较[46]。它一贯。这种性能差距表明，所提出的方法是更有效的，比CRF上的相关上下文进行本地分类。此外，与基于图形的模型相比，我们的模型在优化方面非常简单它完全由主前馈层和递归层构成，因此快速且易于优化。如表2和表3所示，我们的方法在不同的评估指标中优于其他使用CRF模型的最新技术，如[32]和[69]。但在表4中，CRF-RNN [69]在PASCAL VOC 2011上的表现优于我们的2。0%，而我们的方法在PAS-CAL上下文上的性能优于CRF-RNN，如表2所示。9%。基于CRF的方法对于产生更精细的对象边界是有效的，这有助于提高IU分数，特别是对于以对象为中心的PASCAL VOC（仅注释同时，我们的方法可以解释不同类别的图像块之间的上下文依赖关系，因此它可以更好地捕捉图像密集注释时的上下文交互（PASCALContext和SIFT Flow）。我们的方法和CRF可以用于不同的应用。在图4中，我们展示了PASCAL VOC 2011数据集的一些定性示例，其中CRF-RNN模型表现更好（第三列）。在速度方面，我们的情节- CAMN单独（作为一个单一的块）的推理时间分别是100。077s在前面提到的CPU（没有GPU参与）。而单独使用密集型CRF的推理时间分别为0.3秒。010s在同一个CPU上。除了单纯的-事实上，我们的模型更快，更有效（1039 ×加速）与基于CRF的方法相比，但它每-形式具有竞争力（尽管具有高特征尺寸4096），这使得我们的方法适合于需要高速处理的应用。与RNN类模型的比较如Ta所示算法PA（%）CA（%）IU（%）[40]第四十话65.946.535.1[41]第四十一话67.552.339.1DeepLab[12]--37.6[12]第十二话--39.6HO-CRF[2]--41.3[32]第三十二话71.553.943.3CRF-RNN[69]--39.3ParseNet[37]67.552.339.1ConvPP-8[63]--41.0PixelNet[4]-51.541.4O2P[9]--18.1[16]第十六话--34.4[15]第十五话--40.55568图5.来自SIFT Flow[35]和PASCAL VOC 2011[20]的一些样本图像以及特定局部补丁的加权选择的可视化。从左至右：RGB图像，标签图，第1集热图和最后的第3集热图。图6. IU性能在迭代方面发生变化。表3，我们的模型优于许多在卷积特征之上使用RNN的最先进的方法，例如。[51]和[5]。此外，虽然很难将RNN的隐藏状态可视化，以清楚地看到网络是否可以捕获输入序列之间的潜在关联和依赖关系，但基于注意力的记忆网络可以很容易地揭示这个秘密。它可以简单而明确地测量补丁之间的相关性，这简化了可视化，从而帮助我们理解场景图像中隐藏的关系和交互，如图5所示。5. 结论本文研究了场景标注问题。为了有效地利用相关的上下文补丁，以提高局部分类精度，我们提出了一个基于情节注意的上下文分类网络。该模型提出了一个统一的框架，主要由FCN卷积层，基于注意力的模型和RNN执行上下文选择和细化。完整模型通过聚合激活的上下文及其原始本地表示来为每个目标补丁生成上下文感知表示。实验表明，该方法显著提高了原FCN表3.SIFT流的性能比较[35]。算法IU（%）BerkeleyRC[1]39.1SDS[25]52.6R-CNN[23]47.9[40]第四十话62.7[41]第四十一话67.5[45]第四十五话64.4CRF-RNN[69]72.4FCN+Episodic-CAMN70.4表4. PASCAL VOC 2011测试集的平均性能比较[20]。通过结合所选择的上下文。更重要的是，我们的方法在公共PASCAL上下文，SIFT流和PASCAL VOC 2011场景标记基准上与其他最先进的工作相比，我们相信，我们的模型的性能可以进一步提高，通过增强一些功能，如相关性学习。通过更复杂的操作，它可以潜在地捕获引用的本地补丁及其上下文之间的微妙关系和交互。致谢我们非常感谢NVIDIA AI技术中心的支持，他们捐赠了Tesla K40和K80卡，用于我们在南大玫瑰实验室的研究。这项工作部分得到了新加坡科学、技术和研究机构（A*STAR）为ADSC以人为中心的网络物理系统计划提供的研究资助算法PA（%）CA（%）IU（%）Liu等[35]第三十五届74.8--Liu等[36个]76.7--Tighe等人[56个]75.641.1-Farabet等人[22日]72.350.8-Farabet等人[22日]78.529.6-[40]第四十话85.251.739.5[41]第四十一话85.953.941.2CNN-LSTM[5]70.122.6-[32]第三十二话88.153.444.9DAG-RNN[51]81.245.5-Pinheiro等人[47个]77.729.8-RCNN[31]83.535.8-RCNN[31]79.357.1-[67]第六十七话79.848.7-Sharma等人[50个]79.633.6-Sharma等人[50个]75.548.0-ParseNet[37]86.852.040.4[6]第六话-55.6-[第56话]78.639.2-5569引用[1] P. Arbelaez，M.迈尔角Fowlkes和J.马利克轮廓检测和分层图像分割。TPAMI，2011年。[2] A. Arnab，S. Jayasumana，S. Zheng，和P.乇深度神经网络中的高阶条件随机场。在ECCV，2016年。[3] J. Ba、V. Mnih和K. Kavukcuoglu多目标识别与视觉注意。2015年，国际会议[4] A. Bansal，X.陈湾，澳-地罗素，A. Gupta和D. RamananPixelNet：迈向通用像素级架构。arXiv，2016.[5] W. Byeon ， T. M. Breuel ， F. Raue 和 M. 利维基使用LSTM递归神经网络进行场景标记。CVPR，2015。[6] H. Caesar，J. Uijlings，and V.法拉利语义分割的联合校准。在BMVC，2015年。[7] C. Cao，X.Liu，Y.Yang，Y.Yu，J.Wang，Z.Wang，Y.黄先生，L. Wang，C.黄，W. Xu，L. Ramanan和T.煌仔细看，三思而后行：用反馈卷积神经网络捕获自上而下的视觉注意力。在ICCV，2015年。[8] J. Carreira，P. Agrawal，K. Fragkiadaki和J.马利克基于迭代误差反馈的人体姿态估计在CVPR，2016年。[9] 卡雷拉河Caseiro，J. Batista，and C.斯明奇塞斯库具有二阶池化的语义分割。ECCV，2012年。[10] L. Chen，Y. Yang，J. Wang，W. Xu和A. L.尤尔。注意秤：尺度感知语义图像分割。在CVPR，2016年。[11] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. 尤尔。基于深度卷积网络和全连接CRF的语义图像分割2015年，国际会议[12] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. 尤尔。Deeplab：使用深度卷积网络，atrous卷积和完全连接的CRF进行语义图像分割arXiv，2016.[13] J. Chorowski，D.Bahdanau，D.Serdyuk，K.Cho和Y.本吉欧。基于注意力的语音识别模型2015年，在NIPS[14] 钟杰角，澳-地古尔塞尔角Cho和Y.本吉奥。门控递归神经网络在序列建模中的实证评估。NIPS 研讨会，2014。[15] J. Dai，K. He和J. Sun. BoxSup：利用边界框来监督卷积网络进行语义分割。在ICCV，2015年。[16] J. Dai，K.He和J.太阳用于联合对象和填充物分割的卷积特征掩蔽CVPR，2015。[17] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 ImageNet ：一个大规模的分层图像数据库。CVPR，2009。[18] B. 德米特里角Kyunhyun，和B.约书亚通过联合学习对齐和翻译的神经机器翻译2015年，国际会议。[19] J. 埃尔曼及时发现结构认知科学，1990年。[20] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地威廉斯，J.Winn和A.齐瑟曼。PASCAL可视化对象类挑战 2011 （ VOC 2011 ）结果。 http://www.pascal-network.org/challenges/VOC/voc2011/workshop/index.html啊[21] C.法拉贝特角库普里湖Najman和Y.乐存。多尺度特征学习、纯度树和最佳覆盖的场景解析InICML，2012.[22] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标注的分层特征。TPAMI，2013年。[23] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。[24] A. Graves，G.韦恩和我丹妮赫卡神经图灵机。arXiv，2014.[25] B.哈里哈兰山口阿贝拉埃斯河Girshick和J.马利克同时检测和分割。2014年，在ECCV[26] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[27] G. Heitz和D. 科勒学习空间背景：用东西找东西。ECCV，2008年。[28] K. M. Hermann，T. Kocisky，E.格雷芬斯特湖埃斯佩霍尔特W. Kay，M. Suleyman和P. Blunsom教机器阅读和理解。在EMNLP，2015年。[29] P. Krahenbuhl和V.科尔顿。具有高斯边缘势的全连通CRF的高效推理。NIPS，2011年。[30] A. 库马尔河，澳-地Irsoy，J.Su，J.布拉德伯里河英吉利湾皮尔斯翁德鲁斯卡岛Gulrajani，和R.索彻问我任何事情：用于自然语言处理的动态记忆网络。InICML，2016.[31] M. Liang，X. Hu和B.张某卷积神经网络使用层内循环连接进行场景标记。2015年，在NIPS[32] G.林角，澳-地申岛Reid和A.亨格尔用于语义分割的深度结构化模型的高效分段训练。在CVPR，2016年。[33] T. 林，M。迈尔，S。贝隆吉湖布尔代夫河女孩J. Hays ， P. Perona ， D. Ramanan 和 L. Z. P 美元。Microsoft COCO：上下文中的公用对象。arXiv，2014.[34] W.灵湖，澳-地Chu-Cheng，Y. Tsvetkov，S.阿米尔河F.阿斯图迪略角Dyer，A. W.黑，我。特兰科索并非所有的上下文都是平等的：更好的词汇表征和可变注意力。在EMNLP，2015年。[35] C. 刘，J.Yuen，和A.托拉尔巴非参数场景解析：通过密集场景对齐进行标签传输。CVPR，2009

下载后可阅读完整内容，剩余1页未读，立即下载