AGSS-VOS：注意力引导的视频对象分割

129 浏览量更新于2023-10-12 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3949AGSS-VOS：注意力引导的单镜头视频对象分割Huijia Lin1Xiaojuan Qi2Jiaya Jia1，31香港中文大学2牛津大学3腾讯优图实验室linhj@cse.cuhk.edu.hk，xiaojuan. eng.ox.ac.uk，leojia@cse.cuhk.edu.hk摘要大多数视频对象分割方法分别处理对象。当存在多个对象时，这会导致高计算成本。在本文中，我们提出了AGSS-VOS分段多个对象在一个前馈路径通过实例不可知和实例特定的模块。来自两个模块的信息通过注意力引导解码器融合，以同时分割一条路径中的所有对象实例。整个框架是端到端可训练的，具有实例IoU损失。在Youtube- VOS和DAVIS-2017数据集上的实验结果表明，AGSS-VOS在准确性和效率方面都取得了有竞争力的结果。807060504030201001 2 3 4对象编号RGMP AGSS-VOS1.61.41.210.80.60.40.201. 介绍视频对象分割（VOS）的目的是分割视频中的所有帧中的它在视频编辑、自动驾驶、机器人、人机交互等方面有各种应用。在本文中，我们研究了这个问题的半监督设置，其中注释的一个或多个对象是在视频中的第一帧。然后，任务是分割视频其余部分中的所有对应对象。在半监督设置中视频对象分割的成功方法[26，29，2，7，15]可以粗略地分为三类。一个主流[26，29，25]是单独分割对象，并且不考虑单通道多对象处理。效率如图所示。1（红色曲线）。另一条研究路线[15，11]利用区域建议来生成掩码建议。它们采用重识别网络来发现和关联对象。尽管提高了性能，这些系统仍然很耗时，即，每帧花费37秒[15]，并且需要后处理来处理假阳性对象提议。最近，在嵌入空间中测量像素距离的基于嵌入的解决方案[2，7，17]表现出极大的效率和准确性权衡。这些方法都有不可缺少的逐像素距离计算过程，在O（N）个像素上的时间复杂度为O（N2）他们仍然很难-图1.关于RGMP的不同对象数目的准确度（在直方图中）和计算速度（通过曲线）的比较[26]我们的方法。DAVIS- 2017测试开发套件中使用的输入帧尺寸为832×448在大的对象数，我们的方法效率受影响较小。ficult处理内存限制的高分辨率视频。为了解决上述挑战，我们提出了一个端到端的注意力引导的单镜头视频对象分割（AGSS-VOS）框架，同时分割所有对象在一个前馈通过，而不利用复杂的对象的建议或耗时的像素距离计算。其核心思想是采用一个实例无关的模块来获取所有实例共享的知识，并采用一个实例特定的模块来生成实例特定的特征。两个模块的输出通过注意机制融合，以分割对象实例。具体而言，在不区分不同对象实例的情况下，实例不可知模块采用所有对象并将其编码为具有全卷积神经网络的一个共同特征。实例特定模块然后将不同的对象编码成单独的注意力特征。生成的两种类型的特征通过乘法组合，并进一步用于生成实例的掩码最后，它们被归一化以产生目标帧的对象分割预测整个框架是端到端可训练的，具有实例IoU损失。评分速度3950我们的框架通过在实例不可知模块中仅一次处理涉及所有对象的参考帧和目标帧来节省计算，同时通过我们的轻量实例特定组件和注意力引导解码方案来保持高如图1（蓝色曲线），随着对象数量的增加，AGSS-VOS分割多个对象的运行时间比单个对象传播基线RGMP [26]增加得慢得多。与此同时，我们达到了相当的精度。我们在Youtube-VOS和DAVIS-2017数据集上进行了实验。结果表明，我们的方法是有效的。现将其贡献概述如下。• 我们提出了一个端到端的注意力引导的单镜头视频对象分割框架，同时分割多个对象在一个前馈路径。• 我们模型的实例特定的信息作为注意力特征，区分不同的对象之间的实例不可知的功能。• 我们的方法具有高效率，同时保持合理的准确性。2. 相关工作现有的半监督VOS方法可以大致分为三个方向：1）基于单个对象的VOS，其中每个对象实例被单独处理; 2）基于区域建议的VOS; 3）基于嵌入的VOS。单对象VOS在推理阶段，许多单对象视频对象分割方法依赖于在线学习技术，这需要在第一个注释帧上进行耗时的微调。OSVSO [1]在训练集中训练了一个卷积网络，并在目标视频中采用在线学习。OnAVOS[24，23]和OSVOS-S [16]通过在线自适应机制和实例分段网络扩展了OSVOS。Mask- Track [18]利用先前的帧掩码来指导当前分割。LucidTracker [10]通过广泛的数据增强策略扩展了MaskTrack。LSE [4]提出了位置敏感的嵌入策略来改进前景预测。有离线训练的方法，没有计算昂贵的在线微调。Yang等[29]用调制器操纵分割网络的中间层，以适应每个目标对象的视觉和空间信息的变化。FAVOS [3]利用基于跟踪的方法来跟踪对象部分的边界框和具有ROI分割网络的分割框。MaskRNN [6]采用了基于Mask R-CNN [5]的框架来预测每个框和相应的掩码object. Tokmakov 等人 [21] 和 Xuet al. [27] 提出了convGRU和convLSTM来构建用于递归长期预测的记忆模块AGAM [9]学习了目标和背景特征分布的概率生成模型，以实现有效分割。与我们最相关的工作是RGMP [26]，它提出了一种具有双流输入的Siamese编码器-解码器网络参考流将具有注释对象的参考帧作为输入，目标流将具有先前掩码的目标帧作为输入。两个流信息被编码到相同的深度特征空间，并与全局卷积块融合。融合后的特征通过跳过连接从目标流中进一步解码，以产生目标帧的分割。RGMP是专为单对象分割，而我们的方法采用RGMP作为一个实例不可知的模块，以获取知识共享的所有实例在一个前馈路径。沿着这条线的基于区域提议的VOS方法采用区域提议网络（RPN [20]）来生成由一个前馈路径中的所有目标对象共享的多个对象提议。DyeNet [11]有一个用于对象传播的Re-MP模块和RPN上的Re-ID模块，用于关联对象和检索丢失的对象。PRe-MVOS [15，13，14]结合了四个流网络，包括Mask R-CNN [5]来生成掩码建议，以通过在线学习实现令人印象深刻的结果。虽然这些方法能够达到很高的精度，但对区域建议网络的依赖使得训练复杂。基于区域提议的方法通常需要后处理以移除假阳性提议。基于VOS的嵌入基于VOS的嵌入方法[2，7]学习在相同的嵌入空间中映射参考帧和目标帧中的像素。通过比较特征空间距离将不同的实例分组在一起。FEELVOS[17]将[2]的方法扩展到多个对象分割，这与我们的目标相同整个系统可以在一个前馈路径中预测多个对象，并且可以以端到端的方式进行训练尽管提高了准确性和效率，但由于像素-像素嵌入，该3. 我们的方法我们的AGSS-VOS架构如图2所示。它包括一个实例不可知模块（图2（a）），用于提取所有实例共享的高级特征，以及一个实例特定模块（图2（b）），用于生成实例感知特征图。这两个模块通过3951串联乘法实例不可知论特征提取的实例-,不可知特征Instance-Specific,视觉特征具体实例,注意事项��⨁��−1，��0⨁��0······经纱��⨁��−1,��,1正常化可视特征提取器⊙细化模块��，21/42561/8，2256��⨁��−1,��,22012年2月损失��−1,��,21/41/4 12562 11/41(b)实例特定模块(c)注意力引导解码器特征提取器1/322048细化优化模块模块特征提取器1/8256��0⨁��01/322048(a)实例无关模块2012年2月中国，1Conv3x3Stride 2(d)注意力发生器Conv 3x3ReLUConv 1x1ReLU关注发生器不��−1��−1��−1,��图2.AGSS-VOS的概述，包括（a）实例不可知模块，（b）实例特定模块和（c）注意力引导解码器。 It、St和Pt表示帧t中的图像、地面实况分割掩模和预测结果。 Ot−1，t表示光学帧t-1和t之间的流，而Pt-1，t表示从帧t-1到t的扭曲掩码。 SAg 和Pag表示实例不可知论0t−1，t在等式（1）和（2）中定义的掩模给出了特征图的相对空间大小和通道维数关键特征图通过对所有通道进行求和来可视化（最佳彩色视图）。注意力引导解码器（图2（c）），以产生目标帧的分割结果。3.1. 网络结构实例不可知模块我们在RGMP [26]中提出的架构之上构建实例不可知模块。为了产生用于分割目标帧It的实例不可知特征F ia，该模块将参考帧I0及其对应的不可知地面实况掩模Sag 2 { 0，1 } H × W、目标帧It及其对应的不可知地面实况掩模Sag 2 { 0，1 } H× W以及目标帧It。预赛我们首先介绍我们的0高×宽整个网络结构如图2所示。在半监督视频对象分割设置中，第一帧，也称为参考帧I0由人类注释，指示需要在参考帧中分割的对象对应的不可知扭曲掩码Pt-1，t2[0，1].为了将前一帧注释与目标帧对齐，我们使用流场Ot-1 ， t 扭曲 P t-1 。扭曲的掩模表示为 Pt−1 ， t2[0 ，1]N×H×W。不可知论者面具农业股份公司其余帧。我们利用I02RH×W×3和S02{0，1}N×H×W表示参考帧和相应的注释对象分割，其中H和WS0 以及Pt-1，t，位置（h，w）2H<$W的像素值是Sag（h，w）=max S0（n，h，w），（1）分别是图像高度和宽度，并且N是在参考帧中注释的对象实例的总数。在S0中具有值0和1的像素表示背景0agt−1，t1≤n≤N（h，w）= max Pt−1，t（n，h，w）。（二）1≤n≤N和前景像素。目标帧t是需要被分割的帧。如图2（a）中所示，具有不可知扭曲掩模Pag的目标帧I1和具有不可知扭曲掩模Pag的参考帧I0可以是相同的。高×宽N×H×Wt−1，tag类似地，我们利用It2R，St2{0，1}对应的不可知掩码S0首先被处理，和Pt2[0，1]N×H×W来表示目标帧t，cor。响应地面实况对象分割掩模和ob-一个双流连体编码器，它将它们映射成两个语义特征映射。两个特征图对象预测结果。此外，SP2{0，1}N×H×Wde-然后连接并解码以生成实例-不不可知特征图 2RH×W×256，其中H和注意帧t中的预测分割结果。装备t88具有时间推理能力的系统，我们提取前一帧It-1和目标帧It之间的光流O t-1，t。Conv 3x3上采样4xSoftmaxP3952W是原始图像的高度和宽度。与原始的RGMP框架（每个框架处理和分割一个对象）相比，我们将RGMP作为一个3953不不不不不t，kt，kttt，kt，kt，k用于对通道方式输入进行积分和细化（即，Fvs和下采样P（t-1，t））。其余两个卷积层采用3 × 3的核大小来聚合空间和信道信息。具有核大小3×3和步幅2的最后一个卷积层将对特征图进行下采样以生成实例注意力特征Fatn，其具有与Fia相同的空间大小。从经验上讲，我们发现在最后一个卷积层之后重新移动激活函数会产生比使用ReLU或sigmoid激活函数更好的结果图3呈现了每个对象的实例特定视觉特征Fvs和注意力特征Fatn的示例t，k t，k图3.实例特定视觉特征和注意力特征的可视化。对于每个特征图，通过对通道维度求和并取绝对值来获得结果对于每个对象实例，视觉特征捕获视觉纹理信息。关注功能突出显示最相关的区域。instance. 每个物体的视觉纹理信息-通过视觉和注意力特征来捕获站姿，突出最相关的区域以过滤掉潜在的噪声区域。这两个特性相互补充，从实例不可知特性中解码出指定的对象实例.注意力引导解码器配备了特定于实例的特征，即，Fvs和Fatn，以及instance-agnostict t通用特征提取器-实例特定模块为了区分不同的对象实例，我们提出了实例特定模块，这是一个轻量级神经网络，用于将不同的对象实例编码为实例视觉特征Fvs2特征Fia，我们进一步提出了注意力引导的解码器（图2（c）），以分别预测目标帧t处的每个对象实例k的概率掩模Pt，k。首先，为了引入用于从实例不可知特征Fia（例如，k）挖掘区分信息的实例特定先验，我们将Fia和实例注意力特征Fatn组合以生成提取的实例不可知特征HWtF ia，例如k为RN×4×4×256和实例注意特征Fatn2t，kRN×H×W×256。Fvs和Fatn中的层k，表示为Fvs8 8t tt，kFia=FatnFia，（3）和Fatn分别表示相应的特征t，kt，k t对于第k个对象。为了生成实例视觉特征，根据预测的光流Ot-1，t，首先将前一帧Pt-l的预测结果扭曲以与帧t对准。的第i 地图在的扭曲对象分割P （ t−1 ， t ）， i2[0，1]H×W表示第i个对象实例扭曲掩模。然后，视觉特征提取器将其中，f表示逐元素乘法，并且Fatn表示第k个对象的注意力特征。学习注意力生成器使我们能够获得用于定义相应实例的最然后，经由细化将所提取的实例不可知特征Fia与实例视觉特征Fvs组合P的通道级连t−1，t而目标IM-模块，该模块从实例不可知和实例特定的特征映射。的作为输入，并生成实例视觉特征F与2RN×H×W×256，如图2（b）所示。的通过最终预测进一步处理细化特征4 4测试模块，它有一个33卷积，输出为实例视觉特征图进一步与下采样的对象实例掩蔽Pt-1，t，其以比率4进行子采样以与Fvs的空间维度对准。通道尺寸为2，并且具有4/4双线性上采样操作，以匹配原始图像分辨率。Softmax非线性最后应用于输出，以产生前高×宽不连接的功能由atten使用图2（d））生成实例注意力特征F atn2 RN×H×W×256。注意一般-地面预测概率掩模Pt，k2[0，1]实例k.为8 8不tor旨在生成COM中的实例注意力功能，这是一种计算和存储高效的方式，它只包括三个卷积层，如图2（d）所示第一个卷积层的内核大小为1×1，是uti。概率归一化到目前为止，不同的对象单独预测实例。然而，他们是cor-一个像素只能分配给一个对象实例。为了更好地捕捉这一点视觉特征注意事项图像扭曲蒙版3954S不ˆ不直觉上，我们建议利用softmax聚合函数[26]来归一化每个像素的预测，考虑其在所有N个对象实例中的对象概率。概率被归一化为Pt，k（h，w）/（1-Pt，k（h，w））P（h，w）=.（四）4.1.实现细节结构细节实例不可知模块构建完成在RGMP [26]之上，除了我们将第二个细化模块的输出作为实例不可知特征。最后一个细化模块被移动到注意力引导的去-t，kPNi=0时 Pt，i（h，w）/（1-Pt，i（h，w））编码器实例特定模块中的特征提取器由两个残差块组成。在该等式中，（h，w）2{1，2，.， H}{1，2，… W}指示所有像素位置。Pt，0是帧t的背景概率图，其在注意力引导模块中未被预测我们通过考虑所有前景预测结果来推导它，Pt，0（h，w）= 1-max Pt，i（h，w）。（五）1≤i≤N上述概率归一化策略还使我们能够直接导出对象分割结果P 2{0，1}N×H×W作为方程（6），没有ny后-训练细节在训练阶段，我们在所有视频中随机抽取固定长度的子序列。采样序列中的第一帧被用作参考帧。我们添加两种类型的数据增强：1）水平翻转每个帧; 2）反转采样序列。与[26]类似，我们使用循环训练方案来模拟前一帧的误差累积和软掩模。此外，我们还设置了一个容忍阈值：如果前一个掩码的IoU低于阈值，则该掩码被替换为地面实况掩码，因为低质量掩码加工：SP（k，h，w）=1[k=argmaxP_t，k（h，w）]。（六）可能会误导目标帧分割我们初始化在[26]中使用预先训练的权重来加速收敛。k∈{0，1，...，N}1[·]=1当且仅当·为真。后处理在几乎所有最先进的方法中被采用[15，7]，这需要参数调整。相比之下，我们同时处理所有对象实例预测在我们的一个通行证分割框架。它使我们能够制定我们的实例感知IoU损失函数，如第2节所述3.2.3.2. 训练损失为了训练我们提出的AGSS-VOS框架，我们采用等式（7）中公式化的IoU损失[12]。Pt，k和St，kde-分别注意帧t中的归一化预测掩码和真实掩码（例如k）光流使用FlowNet-2 [8]计算，其权重在训练过程中更新。将采样帧的大小重新调整为640×320，采样序列为8（帧）。我们使用Adam优化器和poly学习策略，初始学习率为 1e-5 ，进行 10 次训练。Youtube-Vos培训使用一块NVIDIA TITAN Xp GPU卡，大约需要一天的时间4.2. 评估指标预测的视频对象分割在以下度量方面与地面实况进行比较。• 掩模精度J：平均交并比L（P， S）= 1−1XNPh，wP最小值（P<0.01，k（h，w），St，k（h，w））（mIoU）之间的预测分割和真实面具不不Nk=1h，wmax（Pt，k（h，w），St，k（h，w）（七）• 轮廓精度F：轮廓的F测量值IoU损失用于处理不同对象实例之间的大尺寸变化，因为它对小对象和大此外，它被设计为激励网络为不同的实例产生有区别的概率分布，因为它联合考虑属于所有实例的概率。4. 实验我们评估我们挑战Youtube-VOS的方法[28]2017年10月19日[编辑]我们还在第4.4节中进行了综合消融实验，以验证每个组件的有效性，即，实例不可知模块、实例特定模块和注意力引导的解码器。3955基于预测分割的轮廓点和地面真实掩模之间的精确度和召回率。• 总分G：J和F的平均分。4.3. 与最新技术水平的我们在Youtube-VOS [28]训练集上训练我们的框架，该训练集包含3，471个视频，其中大约一半包含多个对象。我们在包含474个视频的验证集上评估我们的模型。结果在开放评估服务器上进行评估[28]。我们在验证集上进行评估，因为Youtube-VOS测试集服务器未打开。Youtube-VOS还分别对可见和不可见的对象进行J、F对象，其类别同时存在于3956不方法OLJ 观察（%）J 看不见的（%）F 观察（%）F 看不见的（%）G 总体（%）时间（s）OSMN [29]60.040.660.144.051.20.24RGMP [26]59.545.2--53.8-S2S [27]66.748.265.550.357.60.27AGAM [9]MaskTrack [18]X66.959.961.245.0-59.5-47.966.053.1-20.6OnAVOS[24]X60.146.662.751.455.222.3OSVOS [1]X59.854.260.560.758.817.2[27]第二十七X71.055.570.061.264.415.4AGSS-VOS71.365.575.273.171.30.08表1. Youtube-VOS验证集上视频对象分割的定量结果。“OL”表示使用在线学习。‘time (s)’ denotes the running time per方法OLJ FJ F时间（s）RGMP [26]64.8六十八点六66.70.28视频比赛[7]视频比赛[7]X56.5-61.4---0.352.62OnAVOS[22]X61.066.163.626PReMVOS [15]X73.9 八十一点七77.837.4AGSS-VOS63.4六十九点八66.60.10AGSS-VOS（pre.YTV）64.9六十九点九67.40.10表2.DAVIS- 2017验证集上不同方法的定量比较“OL”表示在线培训。”“是的。YTV方法OLJFJ F时间（s）RGMP [26]OnAVOS[22]X51.353.454.459.652.856.50.4239PReMVOS [15]X67.575.771.641.3AGSS-VOS51.557.154.30.11AGSS-VOS（pre.YTV）54.859.757.20.11表3.DAVIS- 2017测试开发集上不同方法的定量比较“OL”表示在线培训。”“是的。YTV训练集和验证集被表示为可见对象，而具有仅存在于验证集中的类别的对象被表示为不可见对象。在表1中，我们显示了与Youtube-VOS [28]数据集上先前最先进方法的比较。我们的方法实现了一个新的国家的最先进的71。3%，在整体得分方面仅使用0。每帧08秒。表1中的“OL”表示推理阶段的在线学习。这种策略可以帮助提高性能。但这是不切实际的。与没有在线学习的方法相比[29，27，9，26]，我们的AGSS-VOS方法始终表现得更好。此外，我们的方法（0.08s/帧）要快得多DAVIS-2017DAVIS-2017 [19]包含60个用于培训的视频序列、30个用于验证的序列和30个用于测试的序列。大多数视频序列包含多个对象。AGSS-VOS模型在DAVIS-2017训练集上进行训练，并在验证/测试开发集上进行评估。此外，我们注意到在Youtube-VOS训练集上进行预训练和在DAVIS训练集上进行微调可以提高性能。与其他现有技术方法的比较在表2和3中示出。我们的方法比以前最快的方法快三倍[26]，精度相当。我们注意到，PRe- MVOS [13]的准确性更高，因为它使用在线学习。4.4. 消融研究不同部件的分析我们进行了广泛的消融实验，以分析不同部件的有效性，例如：实例不可知模块（IAM）、实例特定模块（ISM）、概率归一化策略（NM）和光流（OF）。定量结果如表4所示。表4（第1行）显示了在AGSS-VOS中删除特定于实例的模块在此设置中，实例不可知特征Fia直接乘以扭曲的视频对象分割预测Pt-1，t（图2）。与AGSS-VOS模型相比，总体评分下降超过4%（表4（第5行））。如图4所示，在删除实例特定模块之后，框架无法增强两匹马之间的差异。它证明了所提出的实例特定的模块在视频中的多对象分割的有用性表4（第2行）显示了我们的系统在没有实例不可知模块（IAM）的情况下的定量结果在该设置中，实例特定的特征（图1中的F vs和F atn）被设置为与实例特定的特征（图2中的Fvs和Fatn）相同t t比之前的有效方法[29]具有0.24s/帧。与在线学习方法[1，18，24，27]相比，我们的方法比COM方法的效率高200倍在质量方面，我们的成绩也不错。图2）直接用于产生对象段a-结果。实验结果表明，与AGSS-VOS模型相比，总体得分下降超过12%如图4所示，如果不使用实例，分割质量会变得更差3957的IAMISMNM观察到J（%）J 看不见的（%）F 观察（%）F 看不见的（%）G 总体（%）1XXX69.559.373.266.167.02XXX60.251.763.059.758.63XXX69.361.373.770.068.64XXX69.959.973.967.267.85XXXX71.365.575.273.171.3表4.Youtube-VOS [28]数据集上组件效应的消融研究 'IAM'表示与实例无关的模块。'ISM'表示特定于实例的模块。“NM”表示概率归一化。第0帧第30帧第40帧图4.实例不可知模块（IAM）和实例特定模块（ISM）的效果。’-ISM’ and ’-IAM’ denote re- moving the instance-specificmodule and instance-agnostic mod- ule帧0帧5帧95图 6. 光流效应（ Optical Flow ， OF ） ’-OF’ denotes theabandon- ment 在没有光流场的情况下，镜子中的盒子被错误地分割。0.0350.030.0250.020.0150.010.0050的FWIAM模块ISMAGD帧0帧5帧75图5.概率归一化（NM）的影响。'-NM' de-注意到放弃了概率标准化。在没有归一化的情况下，不能保持背包带的分段。不可知模块它证明了实例不可知模块实际上学习了视频对象分割的关键信息。表4（第3行）显示了去除概率归一化过程并直接利用输出进行训练的结果与表4（第5行）相比，性能下降了2%。图5展示了概率归一化的效果。通过归一化每个预测的概率，AGSS-VOS模型能够保持小对象的分割，例如。背包背带，在一个长的框架范围。此外，我们评估了利用光流来对准图7. AGSS-VOS中每个模块在一个对象和一个前馈的情况下的运行时间的图示。OF和FW表示光流的计算以及使用光流来扭曲先前的掩模。IAM和ISM分别表示与实例无关的模块和特定于实例的模块。AGD表示注意力引导解码器。将先前的分割预测Pt-1转换为当前帧Pt-1，t。没有光流对准的实验结果下降了3%，如表4（第4行）所示。图6显示了光流的影响。在没有对准前一帧的掩模的情况下，AGSS-VOS模型错误地分割镜子中的框。这表明，利用光流来对准输入有助于系统更好地分割运动场景中的对象。分析了AGSS-VOS在一个对象一个对象的情况下，各模块的运行时间。-NM我们我们-IAM-ISM我们-OF运行时间39580% 25% 50% 75% 100%图8.我们的方法在DAVIS-2017和YouTube-VOS数据集上的结果说明帧被均匀地采样最后一行显示了我们方法的失效模式。图7 中的前馈。光流计算（ OF）和实例无关模块（IAM）占据了总计算时间的92%以上。这部分计算时间不会随着对象实例的数量而增加，因为无论对象实例的数量如何，对于一个帧仅需要计算一次操作。虽然光流扭曲（FW），实例特定模块（ISM）和注意力引导解码器（AGD）需要为每个实例分别计算，但它们只占用不到8%的计算时间。受益于实例不可知模块的丰富表示，我们设计了轻量级的实例特定模块，捕获表示为atten- tion地图的实例的粗略位置信息。整个系统在不牺牲精度的前提下，在一条路径上处理多个对象，获得了很高的效率。4.5. 定性结果DAVIS-2017 [19]和Youtube- VOS [28]数据集的定性结果如图8所示。这些序列都包含具有不同运动、形状和大小的多个对象我们的AGSS-VOS在这些具有挑战性的场景中产生高质量的结果例如，我们的系统可以成功地分割图8（第一行）中的小移动瓶子-注意到它的一部分在一些帧中移出屏幕。在最后一行中，AGSS-VOS在闭塞后无法分割人。具有挑战性的场景可以通过结合多个指导框架或重新识别技术来解决[15，11]，这将是我们的未来方向5. 结论在本文中，我们提出了AGSS-VOS单镜头视频对象分割。我们的框架包括一个实例不可知的模块，一个实例特定的模块和注意力引导的解码器。实例不可知模块提取所有对象的实例不可知特征，而实例特定模块生成每个对象的实例特定视觉和注意力特征，表示为注意力图。在注意力引导的解码器中，实例不可知特征乘以实例注意力特征，实例注意力特征利用实例视觉特征进一步细化以产生每个对象的预测。此外，我们还设计了概率归一化策略，以实现所有实例的端到端优化得分。我们的系统是相当准确和相当有效的与以前的国家的最先进的方法相比，特别是当多个对象存在于视频。引用[1] Sergi Caelles ， Kevis-Kokitsi Maninis ， Jordi Pont-Tuset，LauraLeal-Taixe'，DanielCremers和LucVanGool。单镜头视频对象分割。在CVPR，2017年。[2] Yuhua Chen ， Jordi Pont-Tuset ， Alberto Montes ， andLuc Van Gool.快速视频对象分割与像素级度量学习。在CVPR，2018年。DAVIS-2017YouTube视频3959[3] Jingchun Cheng ， Yi-Hsuan Tsai ， Wei-Chih Hung ，Shengjin Wang，Ming-Hsuan Yang.通过跟踪部件快速准确的在线在CVPR，2018年。[4] 海慈、淳于王、益州王。通过学习位置敏感嵌入的视频对象分割。在ECCV，2018。[5] 何开明、吉欧吉亚·吉欧萨里、彼得·多尔和罗斯·吉尔希克.面具R-CNN。InICCV，2017.[6] 胡元婷，黄家斌，亚历山大·施温。Maskrnn：实例级视频对象分割。NeurIPS，2017。[7] Yuan-Ting Hu ， Jia-Bin Huang ， and Alexander GSchwing. Videomatch：基于匹配的视频对象分割。在ECCV，2018。[8] Eddy Ilg ， Nikolaus Mayer ， Tonmoy Saikia ， MargretKeuper，Alexey Dosovitskiy，and Thomas Brox.Flownet2.0：深度网络光流估计的演变在CVPR，2017年。[9] Emil Fahad Shahbaz Khan Joakim Johnander 、 MartinDanelljan和Michael Felsberg。端到端视频对象分割的生成式外观模型。arXiv：1811.11611，2018。[10] Anna Khoreva、Rodrigo Benenson、Eddy Ilg、ThomasBrox和Bernt Schiele。清晰的数据梦想对象跟踪。在2017年的DAVIS视频对象分割挑战[11] 李晓晓和陈昌来。视频对象分割与联合重新识别和注意力感知掩模传播。arXiv：1803.04242，2018。[12] Zhuwen Li，Qifeng Chen，and Vladlen Koltun.基于潜在差异的交互式图像分割。在CVPR，2018年。[13] Jonathon Luiten、Paul Voigtlaender和Bastian Leibe。Pre-MVOS：2018年戴维斯视频对象分割挑战赛的提案生成、细化和合并。2018年DAVIS视频对象分割挑战赛-CVPR研讨会，2018年。[14] Jonathon Luiten、Paul Voigtlaender和Bastian Leibe。Pre-mvos：针对2018年视频对象分割的youtube-vos挑战的提案生成，改进和合并。在2018年第一届大规模视频对象分割挑战赛-ECCV研讨会上[15] Jonathon Luiten、Paul Voigtlaender和Bastian Leibe。Pre-mvos：用于视频对象分割的建议生成、细化和合并。arXiv：1807.09190，2018。[16] K.- K. Maninis、S. Caelles，Y. Chen，J. Pont-Tuset，L.Leal-Taix e′，D. Cremers和L. 范古尔。没有时间信息的视频对象分段TPAMI，2018年。[17] Voigtlaender Paul ， Chai Yunning ， Schroff Florian ，Adam Hartwig ， Leibe Bastian ，and Chen Liang-Chieh.Feelvos：用于视频对象分割的快速端到端嵌入学习。2019年。[18] Federico Perazzi，Anna Khoreva，Rodrigo Benenson，Bernt Schiele，and Alexander Sorkine-Hornung.从静态图像中学习视频对象分割。在CVPR，2017年。[19] Jordi Pont-Tuset ， Federico Perazzi ， Sergi Caelles ，PabloAr-bela'ez ， AlexanderSorkine-Hornung ，andLucVanGool. 2017年戴维斯视频对象分割挑战赛。arXiv：1704.00675，2017。[20] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn ：利用区域建议网络进行实时目标检测。InNeurIPS，2015.[21] 帕维尔·托克马科夫、卡提克·阿拉哈里和科迪莉亚·施密德。利用视觉记忆学习视频对象分割。InICCV，2017.[22] Paul Voigtlaender 、 Michael Krause 、 Aljosa Osep 、Jonathon Luiten 、 Berin Balachandar Gnana Sekar 、Andreas Geiger和Bastian Leibe。Mots：多对象跟踪和分割。arXiv：1902.03604，2019。[23] Paul Voigtlaender和Bastian Leibe卷积神经网络在线适应2017年戴维斯视频对象分割挑战赛。2017年DAVIS视频对象分割挑战赛-CVPR研讨会，2017年。[24] Paul Voigtlaender和Bastian Leibe用于视频对象分割的卷积神经网络的在线自适应。arXiv：1706.09364，2017年。[25] Qiang Wang ， Li Zhang ， Luca Bertinetto ， WeimingHu，and Philip HS Tor. 快速在线对象跟踪和分割：统一的方法。arXiv：1812.05050，2018年。[26] Seoung Wug Oh、Joon-Young Lee、Kalyan Sunkavalli和Seon Joo Kim。参考引导掩模传播的快速视频对象分割。在CVPR，2018年。[27] Ning Xu、Linjie Yang、Yan Yan Yan、Jianchao Yang、Dingcheng Yue、Yen Liang、Brian Price、Scott Cohen和Thomas Huang。Youtube-vos：序列到序列视频对象分割。在ECCV，2018。[28] Ning Xu，Linjie Yang，Yuchen Fan，Dingcheng Yue，Yuchen Liang ， Jianchao Yang ， and Thomas Huang.Youtube- vos：大规模视频对象分割基准测试。arXiv：1809.03327，2018。[29] Linjie Yang，Yandan Wang，Xuehan Xiong，JianchaoYang，and Aggelos K Katsaggelos.经由网络调制的高效视频对象分割。在CVPR，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载