视觉注意力在无监督视频对象分割中的作用及其解决方案

36 浏览量更新于2023-10-19 收藏 2.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3064通过视觉注意力王文冠1，2，宋红梅1，赵树阳1，沈建兵1，2，赵三元1，StevenC. H.海3、4、海滨岭51北京理工大学计算机学院智能信息技术北京实验室2阿联酋Inception Institute of Artificial Intelligence3新加坡管理大学4新加坡Salesforce Research Asia5美国天普大学www.example.comwenguanwang.ai @ gmail.com，shenjianbingcg@gmail.comhttps://github.com/wenguanwang/AGS摘要本文对视觉注意在无监督视频对象分割（UVOS）任务中的作用进行了系统的研究。通过在UVOS环境下对DAVIS16、Youtube-Objects和SegTrackV2三个流行的视频分割数据集进行细致的注释，我们首次定量验证了人类观察者视觉注意行为的高度一致性这种新颖的观察提供了对UVOS背后的基本原理的深入了解。受这些发现的启发，我们将UVOS分解为两个子任务：时空域上的UVOS-driven Dynamic Visual Attention Prediction（ DVAP ）和空间域上的 Attention-Guided ObjectSegmentation（AGOS）。我们的UVOS解决方案有三个主要优点：1）模块化训练，而不使用昂贵的视频分割注释，而是使用更经济的动态注视数据来训练初始视频注意模块，并使用现有的注视-分割配对的静态/图像数据来训练后续分割模块; 2）通过多源学习的全面前景理解;以及3）来自生物启发的和可评估的注意力的附加可解释性。流行的基准实验表明，即使不使用昂贵的视频对象掩码注释，我们的模型实现了引人注目的性能与国家的最先进的。*同等缴款。†通讯作者：沈建兵。这项工作得到了北京自然科学基金4182056号基金的部分支持，霍英东教育基金会141067号基金、北京市教委共建专项基金。图1.我们的UVOS解决方案有两个关键步骤：动态视觉注意力预测（ DVAP ， §5.2 ）级联注意力引导对象分割（AGOS，§5.3）。来自DVAP的UVOS感知注意力充当中间视频对象表示，使我们的方法摆脱对昂贵的视频对象注释的依赖，并带来更好的可解释性。1. 介绍无监督视频对象分割（UVOS），即，从视频中的背景中自动分割主要对象区域是计算机视觉中长期存在的研究挑战[29，30，12，23]，并且已经显示出对于许多应用的潜在益处，例如，动作识别[62]和对象跟踪[50]。由于UVOS缺乏用户交互，在现实场景中从复杂背景中自动确定主要前景对象是非常具有挑战性的。深度学习最近被积极探索用于解决UVOS。尽管已经取得了有希望的结果，但当前基于深度学习的UVOS模型[64，45，33，67]通常依赖于昂贵的逐像素视频分割和符号数据[86]来直接将输入视频帧映射到相应的分割掩码中，这是有限的，并且通常缺乏对图像分割的明确解释3065在他们选择前景物体的背后在密切相关的研究领域，视频显着对象检测（VSOD）[79]中也遇到了类似的问题选择显著目标区域的生物学解释是必不可少的。来自视频显著对象检测的结果被用作UVOS的重要提示或预处理步骤[64，77]。在本文中，我们强调了人类视觉注意在UVOS（及其相关任务，视频显著对象检测）中的价值。根据认知心理学的研究[39，68，82，37]，在视觉感知过程中，人类能够迅速将注意力定位到视觉刺激的最重要部分，使他们能够有效地实现目标。因此，我们认为，人类的视觉注意力应该是驱动UVOS的潜在机制。UVOS中的前景应该是最吸引人类注意力的对象，因为对象的选择应该与人类注意力判断一致。为了验证这个新的假设，我们扩展了三个流行的视频分割数据集，DAVIS16 [58]，Youtube- Objects [60]和SegTrackV2 [44]，在UVOS设置中具有真实的人类注视注释视线数据是在总共190个视频序列上收集的，其中25，049帧来自20名人类观察员使用专业眼动追踪仪器（§3）。据我们所知，这是第一次尝试收集UVOS感知的人类注意力数据。等综合数据集便于我们进行两个基本实验，即，量化主体间一致性以及人类动态注意力与外显客体判断之间的相关性（§4），其中从我们的定量分析中发现了两个关键• 在UVOS任务中，人类观察者之间存在高度一致的注意行为，尽管“主要对象”的概念非常多样化的动态场景。• 人的注视与人对主要客体的外显判断之间存在着很强的相关性这些发现从人类注意力的角度对UVOS背后的比率效应提供了一个深刻的见解。受此启发，我们将UVOS分解为两个子任务：动态视觉注意预测（DVAP）和注意引导的对象分割（AGOS）。因此，我们设计了一个新的UVOS模型，其中包含DVAP和AGOS的两个紧密耦合的组件（见图2）。①的人。这种任务分解的一个额外优点在于模块化训练和数据采集。代替使用昂贵的视频分割注释，相对容易获取的动态注视数据可以用于训练DVAP，并且例如大规模注视-分割配对注释（例如，[87，47]）可用于训练AGOS模块。1本1以DAVIS数据集为例，每-这是因为AGOS学会将单个输入帧和固定数据映射到分割掩码，因此仅需要静态图像数据。粗略地说，视觉注意充当中间层表示，其连接动态前地特征建模和静态注意感知对象分割。这种设计自然地反映了真实世界人类行为，即，首先在动态观看期间将粗略的注意力定向到重要区域，然后集中于细粒度的、逐像素的对象分割。在我们的UVOS模型中，DVAP模块构建在CNN-convLSTM架构上，其中convLSTM将静态CNN特征序列作为输入并学习捕获动态视觉注意，AGOS模块基于FCN架构。直观地，DVAP通知AGOS对象在每个帧中的位置，然后AGOS执行细粒度的对象分割。此外，我们的模型还具有以下几个重要特征：• 完全可区分和监督的注意机制。对于AGOS，来自DVAP的注意被用作神经注意机制，因此整个模型是完全-可区分和端到端可训练。在高层次上，DVAP可以被看作是一个注意网络，它为AGOS提供了一个显式的时空注意机制，并以监督的方式进行训练。• 通过学习多源数据和共享权重，全面了解前景我们的动态注视跟踪数据实验证实了眼睛运动和主要视频对象感知之间的相关性。使用固定和分割数据进行训练允许更全面的前景理解。此外，通过在DVAP和AGOS之间共享几个初始卷积层，可以有效地交换信息。• 从大规模负担得起的数据中学习。深度学习模型通常渴望大规模数据，但大的视频分段注释数据是非常昂贵的。我们的模型利用更实惠的动态凝视数据和现有的大规模注意力分割配对图像数据来实现相同的目标。我们的实验表明，我们的模型产生了有前途的分割结果，而无需对地面实况视频分割数据进行训练。• 生物启发和可评估的可解释性。从DVAP学习的注意力不仅使我们的模型能够关注重要对象，而且还提供了一个额外的维度来解释我们的模型关注的地方。这种可解释性是有意义的（生物启发的）和可评估的（w.r.t.人类凝视记录）。总之，我们提出了一个强大的，完全可区分的，和生物启发的UVOS模型，充分利用从一帧到注释需要5名专家，而使用眼动仪设备，注释每帧只需要1- 2秒。3066数据集Pub.年#视频浏览人数任务CRCNS [31]尖端20045015现场Under。好莱坞-2 [52] TPAMI 2012 一千七百零七19行动记录[52]第五十二话 TPAMI 201215019行动记录[21]第二十一话尖端20121215自由视点DHF1K [75] CVPR 2018一千17自由视点戴维斯16（我们的）20185020UVOSYoutube-Objects（我们的）-201812620UVOSSegTrackV2（我们的）20181420UVOS表1. 动态眼动追踪数据集的统计。先前的数据集要么是在自由查看期间收集的自下而上的注意力，要么与其他任务相关。相比之下，我们扩展了现有的DAVIS16[58]，Youtube-Objects [60]和SegTrackV2[44]数据集，其中包含额外的UVOS感知凝视数据。视觉注意力的价值。该模型产生通过对人的注视与外显物体判断之间的一致性的论证，我们对UVOS和VSOD进行了深入的研究，它们有一个统一的基础，即，自上而下的任务驱动视觉注意机制。视觉注意力预测。人类的注意机制在视觉信息的感知和加工过程中起着至关重要的作用。在过去的十年中，计算机视觉社区在计算建模这种选择性注意过程方面做出了积极的研究努力[32]。根据潜在的机制，注意力模型可以分为自下而上（刺激激发）或自上而下（任务驱动）。早期注意力模型[42，90，19，6，22，25，36，15，20，26，61，22]是基于生物启发的特征（颜色，边缘，光流等）。和认知能力在流行的基准测试中获得最先进的结果。我们预计这项工作，加上我们新收集的数据，提供了一个更深入的了解背后的机制UVOS和视频显着对象检测，并激发更多的研究沿着这一方向。2. 相关工作无监督视频对象分割。早期的UVOS方法通常基于手工制作的特征和几何学，例如长期点轨迹[54，5，17，53，9]，运动边界[56]，客体[43，51，89，18，59，83，40，45]和显着性[13，77，76，34，27]。后来，随着神经网络的复兴，提出了许多基于深度学习的模型，这些模型通常使用基于多层感知器的移动对象检测器，采用双流架构[67，33]或CNN编码器-解码器结构[66，11，45，46，64]。由于深度神经网络的强大学习能力，这些深度UVOS模型通常具有良好的性能虽然少数UVOS模型[13，77，56，81，27，64]使用显着性（或前景图，类似的概念），但它们要么是缺乏端到端可训练性的启发式方法，要么是基于对象级别的显着性线索，而不是明确的，生物启发的视觉注意力表示。他们都没有量化视觉注意和明确的主要视频对象确定之间的一致性。此外，以前的深UVOS模型仅限于大规模注释良好的视频数据的可用性。与此相反，通过利用动态视觉注意作为中间视频对象表示，我们的方法提供了一种可行的方法来缓解这个问题。视频显著目标检测。VSOD是与UVOS非常接近的主题。VSOD [16，49，79，77，80]旨在为视频序列中的每个像素提供灰度显着值。连续显著图对于诸如裁剪、对象跟踪和视频对象分割等广泛的应用是有价值的然而，以前的VSOD只是使用UVOS数据集进行基准测试，缺乏生物学证据。在这项工作中，通过恶魔-关于视觉注意力的理论（注意力转移[39]，特征整合理论[68]，引导搜索[82]等）。最近，提出了基于深度学习的注意力模型[71，28，55，73，75]，并且通常会产生更好的性能。然而，大多数以前的方法使用静态的，自下而上的模型，没有一个是专门设计用于在动态场景中建模UVOS驱动的，自上而下的注意力。先前的动态眼动跟踪数据集[31，52，21，75]是在自由观看或其他任务驱动设置下构建的（见表1）。在这项工作中，在UVOS设置中仔细收集了流行视频分割数据集[58，60，44]上的大量眼睛凝视数据因此，第一次，一个动态的，自上而下的注意力模型学习指导UVOS。通过以上工作，我们期望建立UVOS和视觉注意预测之间更紧密的联系。神经网络中的可训练注意力。近年来，将神经网络与完全可微注意机制相结合的研究不断发展神经注意刺激人类的选择性注意机制，并允许网络专注于输入的最相关的任务部分。它在自然语言处理和计算机视觉任务中表现出了广泛的成功，例如机器翻译[2]，图像字幕[85]，视觉问答[88]，人类对象交互[14]和图像分类[72]，仅举几例。这些神经注意力是以一种内隐的、目标驱动的和端到端的方式学习的。我们的DVAP模块也可以被视为一种神经注意机制，因为它是端到端可训练的，并用于对AGOS模型的特征进行软加权。它与其他方法的不同之处在于它的UVOS感知性质、显式训练能力（具有地面实况数据的可用性）和时空应用领域。3. 我们工作的一个目标是为三个公共视频分割数据集贡献额外的眼睛注视注释[58，60，44]。图2显示了一些带有我们的UVOS感知眼动跟踪注释的示例帧，以及3067R}t=1方面度量戴维斯16[58][60]第六十话[44]第四十四话ISCAUC-J（chance=0.5）0.899± 0. 0290.876± 0. 0560.883± 0. 036国贸中心AUC-J（chance=0.5）0.704± 0. 0780.733± 0. 1050.747± 0. 071图2. 来自三个数据集的示例帧（[58，60，44]）与我们的眼动跟踪注释（§3）。最后一列显示了这些数据集的平均注意力地图。我们定量地验证了（§4）人类注意行为（第2列）和主要对象确定（第3列）之间的高度一致性。每个数据集上的视觉注意力分布。刺激：动态刺激来自DAVIS16 [58]，Youtube-Objects[60]和SegTrackV2 [44]。DAVIS16是一个流行的UVOS基准测试程序，包含50个视频序列，共3455帧。Youtube-Objects是一个大型数据集，包含126个视频，涵盖10个常见对象类别，总共20，647帧。SegTrackV2由14个短视频组成，共947帧。装置：使用250 Hz SMI RED 250眼动仪（SensoMotoricIn.struments）。动态刺激以原始速度显示在19”计算机显示器上根据产品手册的建议，使用头枕来保持约68参会人员：20名参与者（12名男性和8名女性，年龄在21岁至30岁之间）通过了眼动仪校准，固定液滴率小于10%的振动，符合我们的实验要求。所有人都有正常/矫正到正常的视力，以前从未见过刺激。记录方案：实验者首先运行标准SMI校准程序，并使用推荐的设置以获得最佳结果。在观看过程中，刺激视频以随机顺序显示，参与者指示识别每个刺激中出现的主要对象。由于我们的目标是探索人类在UVOS设置下的注意力这种数据捕获设计受到[21]中的协议的启发为了避免眼睛疲劳，在每一个之间插入5秒的黑屏此外，刺激分为5个阶段。在观看完一段视频后，参与者可以休息一下。最后，总共有12，318，862人表 2. 受试者间一致性（ ISC ）和任务间相关性（ITC），由AUC-Juddy测量domly选择作为测试子集，剩下的作为新的地面实况子集。之后，AUC-Juddy [7]，一个经典的视觉注意力评价指标，被用于测试子集来测量ISC。实验结果如表2所示。有趣的是，在三个数据集上，人类被试的注意行为存在高度一致性。相关性得分（DAVIS16上为0.899 ， Youtube-Object 上为 0.876 ， SegTrackV2 上为0.883）明显高于偶然性（0.5）。机会水平是随机地图的准确性，其中每个像素的值在0和1之间均匀随机绘制。这种新颖的观察进一步表明，即使视觉注意与视频对象判断的相关性：研究人类视觉注意与视频主要对象判断是否一致是必要的这是以前从未被探索过的在这里，我们应用[4]建议的实验方案来计算任务间相关性（ITC）。更具体地说，我们使用分割掩模来解释固定图。在AUC-Juddy度量的计算过程中，将人的注视点作为正集合，从其他非注视点位置采样的点作为负集合。然后将分割掩模用作二进制分类器，以将正样本与负样本分开。结果报告在表2中，表明视觉注意力不会落在显著高于其相应机会水平的背景以Youtube-Objects为例，使用t检验，相关性得分0.733（标准差= 0.105）显著高于偶然性（p <<0.05）。05）的情况。这一观察揭示了人类动态视觉注意和视频对象确定之间的强相关性。5. 建议的UVOS方法5.1. 问题公式化将具有T帧的输入视频表示为{It∈在190个视频上记录了20名受试者的注视。宽×高 ×3Tt=1”““UOS的目标是产生核心。4.深入的数据分析受试者间一致性：我们首先进行实验来分析受试者内的眼动一致性。为了量化这种受试者间一致性（ISC），二值视频对象分割的响应序列 - 掩码 {St∈{0 ，1}W×H}T.最近提出的许多UVOS方法[64，46，33 ， 67] 将 DNN 学习为映射函数 FUV OS ：RW×H×3×T→{0，1}W×H×T，其将输入直接映射到分割掩码中在[47]中，来自一半受试者的数据被运行-不{St}t=1 =FUVOS不（{It}t=1）的情况。（一）3068t=1t=1′′t=1图3. 建议的UVOS模型的说明。（a）简化了我们的模型的示意图，以两步的方式解决UVOS，而不需要使用昂贵的精确视频对象掩码进行训练。(b)详细的网络架构，其中DVAP（§5.2）和AGOS（§5.3）模块共享两个底部conv块的权重。UVOS-awareattention作为一个中间对象表示，将两个模块紧密连接起来。最好用彩色观看。放大查看详细信息。为了学习这种直接输入-输出映射FUVOS，需要大量逐像素的视频分割注释，然而获得这些注释非常昂贵。在这项工作中，我们提出了一个输入-注意-输出映射策略来解决UVOS。具体地，DVAP模块FDVAP首先被设计成预测动态UVOS-aware visual attentions{A∈[0，1]W×H×1}T：动态视觉注意力。ConvLSTM [63]是作为传统全连接LSTM的卷积对应物提出的，它将卷积操作引入到输入到状态和状态到状态的转换中。ConvLSTM在这里受到青睐，它同时保留了空间细节以及建模时间我们的DVAP模块FDVAP可以公式如下：不{At}=1 =FDVAP不不（{It}t=1t=1）的情况。（二）Xt=CNN（It），Yt= convLSTM（Xt，Yt−1），At=R（Yt），（4）然后使用AGOS模块FAGOS来生成最终分割结果St，AGOS模块F AGOS将单帧图像It和对应的注意力图At作为输入：St=FAGOS（It，At），t∈ {1，2，. . . ，T}。（三）如图3（a），{At}T对静态对象信息和时间动态进行编码，使得AGOS能够专注于空间域中的细粒度分割，即，ap-分别为每帧提供AGOS。从本质上讲，视觉注意，作为一个生物启发的视觉线索和中间对象表示，连接DVAP和AGOS一起，并提供了一个明确的解释，告诉我们的模型正在看。5.2. DVAP模块DVAP模块构建在CNN-convLSTM架构上（见图1）。3（b）），其中CNN层是从ResNet101的前五个卷积块借用的[24]。为了保留更多的空间细节，我们减少了最后一个街区到1。给定输入视频序列{It}T在典型的473×473空间分辨率下，其中Yt表示时间步长t处convLSTM的3D张量隐藏状态（具有32个通道）。R是一个读出函数，它从隐藏状态中产生注意力图，实现为带有sigmoid激活函数的1×1卷积层在下一节中，我们使用DVAP作为注意力机制来引导AGOS更多地关注视觉上重要的区域。这种设计的额外优点在于解开前景对象的空间和时间特性，因为DVAP通过从动态凝视数据学习来捕获时间信息，并且因此允许AGOS仅在空间域中专注于逐像素分割（受益于具有成对固定和对象分割注释的现有大规模图像5.3. AGOS模块从DVAP获得的注意力表明了主要对象的位置，为AGOS提供了信息线索，用于像素分割，如通过神经注意力架构实现的。在深入研究我们的模型之前，我们首先给出了神经注意机制的一般公式。一般神经注意力机制：神经注意力真序列{Xt∈R30×30×2048}T从顶层这种机制使网络能够专注于3069CNN网络的输出被输入到convLSTM中，用于学习输入特征的子集。它计算一个软掩模来增强3070通过乘法运算实现特征。设i∈Rd为输入向量，z∈Rk为特征向量，a∈[0，1]k为注意力向量，g∈Rk为注意力增强特征，fA为注意力网络。神经注意力被实现为：a=fA （ i ），z=fZ （ i ），g=az ，（5）其中是逐元素乘法，fZ表示特征提取网络。一些神经注意力模型为注意力函数fA配备soft-max以将注意力的值约束在0和1之间。由于上述注意力框架是完全可区分的，因此是端到端的可训练的然而，由于缺乏注意力的明确的，时空的，和UVOS-aware注意机制：我们集成DVAP AGOS作为一个注意机制。令Zt、Gt分别表示具有相同维度的分割特征和注意一瞥我们的UVOS感知注意力被表述为：从不同的角度提供信息我们开发了一种技术来鼓励两个网络之间的知识共享，而不是分别学习它们。特别是，我们允许两个模块共享前三个卷积块（conv1，conv2和conv3）的权重，然后分别学习其他更高级别的层。这是因为底层通常捕获低级信息（边缘、角落等），而顶层则倾向于学习高级的、特定于任务的知识。此外，这种权重分配策略提高了计算效率，减少了参数存储量。5.4. 实现细节训练损失：对于DAVP，给定输入帧I∈R473×473×3，它预测注意力映射A∈[0，1]30×30。用P∈[0，1]30×30和F∈{0，1}30×30分别定义连续注意图和二值注视图，分别为。F是离散图，记录像素是否T T时空注意力：{At}t=1=FDVAP（{It}t=1），Zt=FZ（It），空间要素增强：c c（六）接收人眼注视位置，P通过用小高斯滤波器模糊F而获得。[28 ]第28话，用于DAVP的损失函数LDVAP设计为：Gt= At<$ Zt，其中FZ从输入帧It提取分割特征（稍后将详细描述）。Gc和Zc表示LDVAP（A，P，F）=L CE（A，P）+α1L NSS（A，F）+α2LSIM（A，F）+α3L CC（A，P），（九）第d通道中的G和Z的特征切片。如图所示，我们的UVOS感知注意编码空间前景信息以及时间特征，使AGOS模块能够单独地在每个帧上执行对象分割。对于注意力值接近0的位置，相应的特征响应将被极大地抑制。这可能会丢失一些有意义的信息。受[24，72]的启发，等式中的特征增强步骤6是增强与残留形式（见图。第3（b）段：C cGt=（1 + At）<$Zt。（七）该策略保留了原始信息（即使注意力值很小），同时有效地增强了对象相关特征。此外，由于地面真实凝视数据的可用性，我们的UVOS感知注意力机制-nism以明确的方式进行训练（详见第5.4节）。AGOS模块也是基于卷积ResNet101 [24]的块，并使用DeepLabV3 [10]中提出的 ASPP 模块进行修改。对于输入帧图像It∈R473×473×3，分割特征Zt∈R60×60×1536可以从ASPP模块FASPP中提取。其中，LCE表示经典的交叉熵损失，LCC、LNSS、LSIM分别由三种广泛使用的视觉注意力评价指标Normalized扫描路径显著性（NSS）、相似性度量（SIM）和线性相关系数（CC）.由于综合考虑了[28]中的不同量化因素，这种组合导致性能改善。我们使用LCE作为主要损失，并设置α1= α2= α3= 0。1.一、对于AGOS，给定I，它产生最终分割预测2S∈[0，1]60×60。设M∈{0，1}60×60表示真实二值分割掩码，AGOS模块的损失函数LAGOS被公式化为：L AGOS（S，M）= L CE（S，M）。（十）培训方案：我们利用视频凝视数据和注意力分割配对图像数据来训练我们的整个UVOS模型。对视频训练批次和图像训练批次迭代地执行训练过程特别地，在视频训练批次中，我们仅使用动态注视数据来训练DVAP模块鉴于培训视频序列{I}T，设{A，P，F}T表示相应的-tt=1t ttt=1注意力图At也通过双线性输入进行×2内插最后，我们的AGOS模块在方程。6是简单的-记为：响应注意力预测，地面实况连续注意力地图和离散固定地图，我们通过最小化以下损失来训练我们的模型（见图2）。3（a））：不时空注意力：{At}t=1=FDVAP不（{It}t=1），dTD d d（十一）Zt=FASPP（It），（八）L=t=1 LDVAP（At，Pt，Ft），空间特征增强：c其中上标G t=（1 + A t）<$Z t。DVAP和AGOS之间的知识共享：DVAP和AGOS模块共享类似的底层网络架构（ResNet 101的conv 1-conv5），同时捕获请注意，我们不考虑LAGOS损失，以节省昂贵的逐像素分割地面实况。2我们稍微重用S来表示分割预测。3071图像训练批次包含若干注意力分割配对图像掩模，其用于同时训练DVAP和AGOS模块。让{I，S，F，M}表示图像训练批次中的训练样本地面实况（即，连续注意力图、二进制注视图和分割掩模）。整体损失函数结合了LDVAP和LAGOS：s s s s s sL=LDVAP（A，P，F）+ LAGOS（S，M），（12）其中上标通过使用静态数据，DVAP中的convL-STM的总时间跨度被设置为1。每个视频训练批次使用2个视频，每个视频具有3个连续帧。视频和开始帧都是随机选择的。每个图像训练批次包含6个随机采样的图像。6. 实验培训数据：在训练过程中，我们使用来自DAVIS 16[58]和整个SegTrack V2[44]数据集的训练分割的视频序列和相应的固定数据，总共产生54个视频序列，6，526帧。此外，两个图像显著对象分割数据集DUT-O [87]和PASCAL-S [47]提供静态凝视数据和分割注释，因此也用于我们的训练阶段，总共产生6，018个静态训练示例。因此，我们的模型是在没有劳动密集型像素视频分割掩模的情况下训练的在§6.2，我们定量地证明，即使没有对视频分割注释进行训练，建议的模型仍然能够达到最先进的性能。测试阶段：给定一个测试视频，所有帧都被统一调整为473×473，并输入我们的模型，以获得相应的主要对象预测。福尔-在视频分割中遵循通用协议[66，8，84，57]，采用全连接CRF [41]来获得最终的二进制分割结果。对于每一帧，我们的网络的前向传播大约需要0.1秒，而基于CRF的后处理大约需要0.5秒。6.1. DVAP模块测试数据集：我们在DAVIS16 [58]和完整的Youtube-Objects [60]的测试集上评估了我们的DVAP模块，使用凝视跟踪地面实况，并且在表3. DAVIS 16测试集上视觉注意力模型的定量比较[58]（§6.1）。三个最佳分数分别用红色、蓝色和绿色表示（其他表格相同）。数据集方法AUC-J↑SIM↑ s-AUC↑ CC↑NSS↑ACL [75]0.9120.4050.7110.5312.627OMCNN [35]0.8890.3260.6980.461 2.307DVA [73]0.9050.3720.7410.5262.294DeepNet [55]0.8940.2680.7370.448 2.182[55]第五十五话0.8900.2520.7040.436 2.069Youtube-SALICON [28]0.8400.2650.6920.380 1.956对象[第15话]0.8690.2640.6660.388 1.876PQFT [20]0.7300.1700.6460.210 1.061Hou等人[26日]0.7860.2210.6390.243 1.223Seo等人[第六十一届]0.7630.2100.6050.224 1.118GBVS [22]0.8810.2440.7060.395 1.919[32]第三十二话0.8370.2140.7090.339 1.638我们0.9140.4190.7470.5432.700表4. Youtube-Objects上不同视觉注意力模型的定量比较[60]（§6.1）。在DAVIS16 [58]和Youtube-Objects [60]的测试集上，分别总结在表3和表4正如我们所看到的，我们的DVAP通常优于其他竞争对手，因为它们都不是专门为UVOS感知注意力预测而设计的。我们的DVAP可以指导我们的UVOS模型准确地关注视频中视觉上有吸引力的区域。6.2. 完整UVOS模型测试数据集：DAVIS 16的测试集[58]和完整的Youtube-Objects [60]用于评估我们完整UVOS模型的性能。评估指标：对于UVOS任务，我们使用[58]建议的三个标准指标，即，区域相似性J、边界精度F和时间稳定性T。定量和定性结果：报告了两个数据集的定量比较结果训练和测试数据。评价指标：五个标准指标：AUC-Judd（AUC-J）、shuffled AUC（s-AUC）、NSS、SIM和CC用于综合研究（详见[3]）。定量和定性结果：我们将我们的DVAP模块与12种最先进的视觉注意力模型进行了比较，包括5种深度模型[75，35，73，55，28]和7种 tra-attention模型。模型[15，20，26，61，22，32]。定量结果分别在表5和表6中。我们可以观察到，所提出的模型在所有数据集的大多数指标上都优于其他竞争对手。这是重要的，并将我们的模型与以前的深UVOS模型[40，46，67，33，66，11]区分开来，因为我们的模型是在没有精确分割掩模地面实况的情况下训练的一些定性结果如图所示4、验证我们的模型可以产生高质量的结果，并具有可解释的动态注意力。数据集方法AUC-J↑ SIM↑s-AUC↑CC↑NSS↑ACL [75]0.9010.4530.6170.5592.252OMCNN [35]0.8890.4080.6210.5182.101DVA [73]0.8850.3820.6470.4941.906DeepNet [55]0.8800.3180.6440.4701.866[55]第五十五话0.8740.2930.6220.4711.871戴维斯16SALICON [28][第15话]0.8180.8920.2760.3630.6280.6360.3520.5081.4322.019PQFT [20]0.6850.2020.5840.1910.821Seo等人[第六十一届]0.7240.2340.5820.2220.923Hou等人[26日]0.7820.2630.5810.2731.119GBVS [22]0.8820.2940.6170.4421.683[32]第三十二话0.8200.2490.6210.3541.3323072数据集度量我们 PDB [64] ARP [40] LVO [67] FSEG [33] LMP [66] SFL [11] FST [56] CUT [38] NLC [13] MSG [53] KEY [43] CVOS [65] TRC[17]平均值↑79.777.276.275.970.770.067.455.855.255.153.349.848.247.3J回忆↑91.190.191.189.183.585.081.464.957.555.861.659.154.049.3衰变↓0.00.97.00.01.51.36.20.02.212.62.414.110.58.3戴维斯16平均值↑77.474.570.672.165.365.966.751.155.252.350.842.744.744.1F回忆↑85.884.483.583.473.879.277.151.661.051.960.037.552.643.6衰变↓0.0-0.27.91.31.82.55.12.93.411.45.110.611.712.9不平均值↓44.529.139.326.532.857.228.236.627.742.530.226.925.039.1表5.DAVIS16测试序列的定量UVOS结果[58]。从公共排行榜中选出的结果（https：//davischallenge.org/davis2016/soa_compare.html）。详情见第6.2数据集类别我们 PDB [64]ARP [40] LVO [67] SFL [11]FSEG [33]FST [56][69]第LTV [54]飞机87.778.073.686.265.681.770.969.313.7鸟76.780.056.181.065.463.870.676.012.2船72.258.957.868.559.972.342.553.510.8车78.676.533.969.364.074.965.270.423.7猫69.263.030.558.858.968.452.166.818.6YouTube牛64.664.141.868.551.268.044.549.016.3- 对象狗73.370.136.861.754.169.465.347.518.2马64.467.644.353.964.860.453.555.711.5摩托车62.158.448.960.852.662.744.239.510.6火车48.235.339.266.334.062.229.653.419.6J平均值↑69.765.546.267.557.168.453.858.115.5表6.Youtube-Objects上的定量UVOS结果[60]。报告每个类别的表现和平均得分图4. 两个示例视频的视觉效果。DVAP模块的动态注意力结果显示在第二行，这是生物启发，并用于指导我们的AGOS模块细粒度UVOS（见最后一行）。数据集度量我们 PDB [64] FGRNE [45] FCNS [80] SGSP [48] GAFL [79] SAGE [77][第16话]SP [49]戴维斯16Fmax↑0.8700.8490.7860.7290.6770.5780.4790.6920.601MAE↓0.0260.0300.0430.0530.1280.0910.1050.0980.130表7.DAVIS16[58]测试序列上的定量VSOD结果，以及MAE和最大F测量值（参见第6.3节）。6.3. VSOD任务的执行情况测试数据集：DAVIS 16[58]的测试集用于在VSOD设置中测试我们的模型。评价指标：标准F-测量和MAE方法用于定量评价[74]。定量结果：如表7所示，我们的模型（无CRF二进制化）优于具有人类可读注意力图的先前VSOD模型[64，45，80，48，79，77，16，49]。这从自上而下的注意机制角度验证了VSOD和UVOS之间7. 结论本文系统地研究了视觉注意在UVOS及其相关任务VSOD中的作用。我们扩展了三个流行的视频对象分割数据集与真正的人类眼跟踪记录。通过深入分析，对于首次定量验证了视觉注意机制在UVOS和VSOD任务中的重要作用。有了这个新颖的见解，我们提出一种新的视觉注意力驱动的UVOS模型，其中DVAP模块，模仿人类的注意力行为的动态UVOS设置，被用作监督神经atten- tion，以指导后续的AGOS模块细粒度的视频对象分割。通过将视觉注意力作为中间表示，我们的模型能够产生有希望的结果，而无需对昂贵的像素级视频分割地面实况进行训练，并且它获得了更好的事后，生物一致的可解释性。实验结果表明，该模型优于其他国家的最先进的UVOS方法。建议的模型也获得最佳性能的VSOD设置。因此，我们将自上而下的、分割感知的视觉注意机制、UVOS和VSOD任务紧密联系起来，并对它们背后的原理进行了新的探讨。3073引用[1] S Avinash Ramakanth和R Venkatesh Babu。SeamSeg：使用补丁接缝的视频对象分割。CVPR，2014。4[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年，国际会议。3[3] Ali Borji和Laurent Itti视觉注意力建模的最新技术。IEEE TPAMI，35（1）：185-207，2013. 7[4] Ali Borji、Dicky

下载后可阅读完整内容，剩余1页未读，立即下载