没有合适的资源?快使用搜索试试~ 我知道了~
基于联合重识别和注意掩模传播的视频对象分割
基于联合重识别和注意掩模传播的李晓晓1[0000−0002−0376−5135]和陈昌来2[0000−0001−5345−1591]1香港中文大学资讯工程学系lx015@ie.cuhk.edu.hk2南洋理工大学ccloy@ieee.org抽象。当多个实例共存时,视频对象分割的问题可能变得非常具有挑战性。虽然每个实例可能表现出大规模和姿态变化,但当实例彼此遮挡导致跟踪失败时,问题变得复杂。在这项研究中,我们制定了一个深回流网络,能够分割和跟踪对象在视频中,同时通过他们的时间连续性,但能够重新识别他们时,他们重新出现后,长时间的闭塞。我们将时间传播和重新识别功能结合到一个可以端到端训练的框架中。特别是,我们提出了一个重新识别模块与模板扩展检索丢失的对象,尽管他们的大的外观变化。此外,我们还提出了一种基于注意力的经常性掩模传播方法,该方法对不属于目标段的干扰项具有鲁棒性。我们的方法在具有挑战性的DAVIS 2017基准测试(测试开发集)上实现了68.2的最新G均值,优于获胜解决方案。 项目页面:http://mmlab.ie.cuhk.edu.hk/projects/DyeNet/。1介绍视频对象分割的目的是从视频序列中的背景区域分割前景实例对象。通常,假定在第一帧中给出地面实况掩模。我们的目标是从这些面具开始,并在剩余的序列中跟踪它们。这种范例有时被称为半监督视频对象分割[24,3,27]。这项任务的一个值得注意和具有挑战性的基准是2017年戴维斯挑战赛[28]。序列的示例在图1B中示出1.一、DAVIS数据集提出了需要从两个关键方面解决的现实挑战首先,视频中存在多个实例它们很可能会彼此遮挡第二,实例通常经历跨帧的比例和姿态两者的显著变化。为了解决遮挡问题,诸如[3,39]的显着研究使通用语义分割深度模型适应特定对象分割的任务。这些方法遵循一个概念,让人想起在视觉跟踪任务中广泛使用的基于模板匹配的方法[2,33]。通常,诸如第一帧中的目标对象的掩模之类的固定模板集合被用于匹配目标。这种模式在DAVIS中的一些具有挑战性的情况下失败了(见图1)。1(a)),如使用一组固定的模板2X. Li和C. C. Loy(a) 模板匹配法(b) 时间传播法(c) DyeNetFig. 1. 在这个例子中,我们重点讨论自行车。(a)显示了模板匹配方法的结果,其受到大尺度和姿态变化的影响如(b)所示,时间传播不能处理遮挡。提出的DyeNet将它们连接到一个统一的框架中,首先检索高置信度的起点,然后双向传播它们的掩码以解决这些问题。DyeNet的结果在(c)中可视化。最好用彩色观看。不能充分覆盖大尺度和姿态变化。为了减轻跨帧的比例和姿态的变化,现有研究[32,35,15,26,34,16]利用时间信息来保持跨帧的各个分割区域的连续性在具有严重遮挡的不受约束的视频上,例如图1所示。如图1(b)所示,基于时间连续性的方法易于出错,因为当目标在几个视频帧中丢失之后重新出现时,没有重新识别目标的机制。此外,这些方法可能无法在时间传播期间在存在干扰物(诸如杂乱的背景或来自其他对象的片段)的情况下跟踪实例。解决多实例视频对象分割问题需要模板匹配来处理遮挡和时间传播,以确保时间连续性。在这项研究中,我们把这两种方法到一个统一的网络。我们的网络取决于两个主要模块,即重新识别(Re-ID)模块和重现掩码传播(Re-MP)模块。Re-ID模块有助于在非连续帧中建立基于由Re-ID模块提供的片段,Re-MP模块通过递归神经网络将它们的掩码双向传播到整个视频。进行Re-ID然后进行Re-MP的过程可以被想象为将染料染色。基于DyeNet的3具有多个色点的织物(即,通过重新识别选择起始点),并且颜色从这些点分散(即,传播)。从这个类比中,我们将我们的网络命名为DyeNet。有几种方法[17,21]通过时间传播和重新识别来改进视频对象分割。我们的方法不同,提供了一个统一的网络,允许这两个任务进行优化,在一个端到端网络。此外,与现有研究不同,Re-ID和Re-MP步骤以迭代方式进行。这使我们能够在每次迭代中确定可靠的预测掩模并扩展模板集。通过模板集的动态扩展,我们的Re-ID模块可以更好地检索以不同姿态和尺度重新出现的丢失对象。此外,Re-MP模块特别设计有注意力机制,以在掩模传播期间忽略诸如背景对象或来自其他对象的片段的干扰物。如图1(c),DyeNet能够通过Re-ID和Re-MP高精度地分割视频中的多个实例。我们在相关的工作部分提供了针对[17,21]的更详细的讨论。我们的贡献总结如下。(1)我们提出了一种新的方法,将模板匹配和时间传播结合到统一的深度神经网络中,用于解决具有多个实例的视频对象分割。网络可以是端到端训练它不需要在线培训(即使用第一帧的掩模进行微调)做得很好,但通过在线训练可以获得更好的结果。(2)我们提出了一种有效的模板扩展方法,以更好地检索丢失的目标,重新出现不同的姿势和规模。(3)提出了一种新的基于注意力的递归掩码传播模型,该模型对干扰项具有更强的弹性。我们使用具有挑战性的DAVIS 2017数据集[28]作为我们的关键基准。该挑战的获胜者[21]在测试开发分区上实现了66.1的全局平均值(区域Jaccard和边界F我们的方法在这个分区上获得了68.2的全局平均值。没有在线培训,DyeNet仍然可以实现具有竞争力的G均值62. 5而速度则快一个数量级我们的方法也实现了状态-DAVIS 2016 [27],SegTrackv2 [19]和YouTubeObjects [29]数据集上的最新结果2相关工作图像分割。半监督视频对象分割的目标与执行逐像素类别标记的语义图像分割[4,41,23,20,40]和实例分割[8,9,22,10在视频对象分割中,类类型总是被假定为未定义的。因此,挑战在于执行准确的对象不可知掩模传播。我们的网络利用语义图像分割任务来学习包含语义级别信息的通用表示。学习的表示是强大的,允许我们的模型以数据集不可知的方式应用,即,它不是用目标数据集中的每个视频的任何第一帧注释作为训练/调整集合来训练的,但是它也可以可选地被微调并适应到目标视频域中,如在[16]中实践的那样,以获得更好的结果。我们将在实验部分研究这两种可能性。视觉追踪虽然半监督视频对象分割可以被视为像素级跟踪任务,但视频对象分割在其更具挑战性的NA方面有所不同。4X. Li和C. C. Loy在跨视频帧的对象尺度变化和对象间尺度差异方面是真实的。此外,在跟踪数据集中,对象的姿态相对稳定,并且存在很少的长时间遮挡。重要的是,该问题的不同之处在于,传统的跟踪任务仅需要边界框级别的跟踪结果,并且关注因果关系(即,跟踪器不使用任何未来帧进行估计)。相比之下,半监督视频对象分割期望精确的像素级跟踪结果,并且通常不假设因果关系。视频对象分割。在深度学习流行之前,大多数语义视频分割方法都是基于图的[7,18,37,25]。现代方法大多基于深度学习。一个有用的技术,让人想起模板匹配是常用的。特别地,模板通常由第一帧中的地面实况掩模形成。例如,Caelles等人 [3]将通用语义图像分割网络分别适配到每个测试视频的模板Yoon等人 [39]基于候选对象和模板之间的像素级相似性来区分前景对象,这是通过匹配的深度网络来测量的。另一种有用的技术是利用时间连续性来建立时空相关性。Tsai等人 [32]使用迭代方案协同估计对象分割和光流。Jampani等人 [15]通过双边网络通过视频序列传播结构化信息,该双边网络跨视频帧执行可学习的双边过滤操作Perazzi等人 [26]和Jang等人 [34]通过使用前一帧的掩码作为指导来估计当前帧的与现有的结合模板匹配和时间连续性的方法的差异。有一些研究结合了上述两种技术的优点。Khoreva等人 [16]表明,更接近目标域的训练集更有效。他们通过从测试视频的第一帧合成更多的训练数据来改进[3],并在推理过程中使用掩码传播。实例重新识别流(IRIF)[17]将前景对象划分为人类和非人类对象实例,然后应用人重新识别网络[36]以在掩模传播期间重新找到丢失的人。对于非人类对象实例,IRIF退化为传统的掩模传播方法。我们的方法与这些研究的不同之处在于,我们不从第一帧合成训练数据,并且不明确地将前景对象划分为人类和非人类对象实例。Li等人 [21]将人员重新识别方法[36]适应于通用对象重新识别模型,并采用双流掩码传播模型[26]。他们的方法(VS-ReID)在2017年DAVIS挑战赛中取得了最高的性能[21],然而,其缺点也很明显:(1)VS-ReID仅使用第一帧中的目标对象的掩模作为模板。因此,它更容易受到姿态变化的影响。(2)由于其冗余的特征提取步骤和效率较低的推理方法,他们的方法比我们的方法慢得多。具体地,VS-ReID的推断需要DAVIS数据集上每帧3秒速度比DyeNet慢7倍(3)VS-ReID在其掩码传播中没有任何注意机制其ro-因此,对干扰物和背景杂波的鲁棒性劣于DyeNet。(4)VS-ReID无法进行端到端训练。相比之下,DyeNet执行重新识别和时间传播的联合学习基于DyeNet的5IIFI图二. DyeNet的管道。该网络取决于两个主要模块,即重新识别(Re-ID)模块和递归掩码传播(Re-MP)模块。最好用彩色观看。3方法我们提供了一个概述所提出的方法。图2描绘了DyeNet的架构它由两个模块组成,即重新识别(Re-ID)模块和循环掩码传播(Re-MP)模块。网络首先执行特征提取,这将在下面详细介绍。特征提取。 给定具有N个帧{1,..., 对于每个帧Ii,我们首先通过卷积特征网络Nfeat提取特征fi,即,fi=Nfeat(Ii)。 Re-ID和Re-MP模块都采用相同的特征集,以节省特征提取中的计算。 考虑到模型容量和速度,我们使用ResNet-101 [11]作为Nfeat的主干。 更具体地说,ResNet-101由五个块组成,分别命名为'conv1','conv2x'到'conv5x'。我们使用作为我们的特色网络。为了提高特征的分辨率,我们减少了“conv4 x”块中的卷积步长,并将“conv4 x”中的卷积替换为类似于[4]的扩张卷积。因此,特征图的分辨率是输入帧的1/8具有模板扩展的迭代推理。在特征提取之后,DyeNet以迭代的方式运行Re-ID和Re-MP,以获得整个视频序列中所有实例的分割掩码我们假设第一帧中给出的掩码的可用性,并将其用作模板。这是第12节中考虑的基准测试的标准协议。4.第一章在第一次迭代中,Re-ID模块从对象提议生成一组掩模,并将它们与模板进行比较。选择与模板具有高相似性的掩模作为Re-MP的起始点。随后,Re-MP将每个选择的掩码(即,起始点),并生成分段掩码序列在重新MP之后,我们可以另外考虑后-…………模板…Nfeat…Re-ID模块起点Re-MP模块轨迹片段6X. Li和C. C. Loy起点X导流海歼-1翘曲+R一个jNXJROIAlignyj-1导流整经FJJHJNO二进制掩码掩模特征…(b)双向掩模传播yJ我(a) Re-ID模块(c)Re-MP模块图三. (a)重新识别(Re-ID)模块的网络架构。(b)双向掩模传播的图示。(c)递归掩码传播(Re-MP)模块的网络架构。最好用彩色观看。处理步骤以链接轨迹片段。在随后的迭代中,DyeNet选择可信的预测掩码来扩展模板集并重新应用Re-ID和Re-MP。模板扩展避免了对由第一帧提供的掩模的严重依赖,这可能无法捕获目标的足够的姿态变化。请注意,我们并不期望在给定的序列中检索目标对象的所有掩码。在第一次迭代中,获得用于掩模传播步骤的若干高质量起始点就足够了。在每次DyeNet迭代之后,我们选择具有高置信度的预测来增强模板集。在实践中,第一次迭代可以在DAVIS 2017数据集上检索近25%的掩码作为起点经过三迭代,该比率将增加到33%。在这项工作中,DyeNet停止了迭代亲-当Re-ID模块无法找到更多的高置信度掩码时停止接下来我们呈现Re-ID和Re-MP模块。3.1重新识别我们引入了Re-ID模块来搜索视频序列中的目标该模块有几个独特的功能,使它能够检索丢失的对象,重新出现在不同的规模和姿态。首先,如前所述,我们在应用Re-ID和Re-MP的每次迭代中扩展模板模板扩展丰富了模板集,以实现更稳健的匹配。其次,我们采用的对象建议的方法来估计目标对象的位置。由于这些建议是基于覆盖各种尺度的对象的各种大小的锚点生成的,因此Re-ID模块可以处理大尺度变化。图3(a)示出了Re-ID模块。对于第i帧,除了特征fi,Re-ID模块还需要对象建议{b1,...,b我}作为输入,其中1M指示此帧上建议边界框的数量我们雇用一个地区建议网络(RPN)[30]在每帧上建议候选对象边界框。 为了方便起见,我们的RPN是与DyeNet分开训练的,但它们的骨干网是可共享的。 F或每个候选边界框bi,我们首先从fi中提取其特征,并将特征调整为固定大小m × m(例如[28][28][29][29][29][29]掩码网络重新识别网络b我ROIAlignJF基于DyeNet的7J其是RoIPool的改进形式,其去除了粗糙的量化。提取的特征被馈送到两个浅子网络。 第一子网络是掩码网络,其预测表示候选边界框bi中的主实例的分割掩码的m × m二进制掩码。第二个子网是一个重新识别网络,其将所提取的特征投影到L2归一化的256维子空间中以获得掩模特征。模板也被投影到相同的子空间进行特征提取。通过计算掩模和模板特征之间的余弦相似度,我们可以测量候选包围盒和模板之间的相似度。如果一个可扩展的边界框与任何模板足够相似,即余弦相似度大于一个阈值ρreid,我们将保留它的掩码作为掩码传播的起点。在实践中,我们将ρreid设置为一个高值,以便为下一步建立高质量的起点。我们采用ResNet-101的'conv 5 x'块作为子网络的骨干。然而,需要进行一些修改以使其适应各自的任务。特别是,我们减少了掩码网络中的卷积步长,以捕获更多的预测细节。对于重新识别网络,我们保留了原始的步幅,并附加了一个全局平均池层和一个全连接层,以将特征投影到目标子空间。3.2循环掩码传播如图在图3(b)中,我们双向扩展检索到的掩模(即,起始点)以通过使用Re-MP模块形成轨迹片段。通过结合短期记忆,该模块能够处理大的姿态变化,这补充了重新识别模块。我们将Re-MP模块制定为递归神经网络(RNN)。图3(c)示出了相邻帧之间的掩码传播过程为了简洁起见,我们仅描述前向传播。可以用相同的方法进行反向假设y(i)是第i帧中的检索的分割掩码(例如k),并且我们已经将y(i)从第i帧传播到第(j-1)帧,{yi+1,yi+2,…yj−1}是我们得到的二进制掩码序列我们现在的目标是预测yj,i。e. 的面具第j帧中的实例k在RNN框架中,yj的预测可以被求解为hj=NR(h(j−1)→j,xj),(1)yj=N0(hj),(2)其中NR和NO分别是递归函数和输出函数首先,我们来解释一下Eq。(一). 我们先从估计位置开始,即,边界框中的实例k从yj-1开始的第j个帧中通过fl〇w引导warping。 更具体地说,我们使用FlowNet 2.0 [13]来提取第(j-1)帧和第j帧之间的光流F(j-1)→j。其他流量估计方法[12,31]也是适用的二进制掩码yj−1根据F(j−1)→j通过双线性收缩函数收缩为y(j − 1)→ j。 之后,我们获得y(j−1)→j的边界框作为实例k在第j帧中的位置。与Re-ID模块类似,我们根据通过RoIAlign操作从fj到该边界框此边界框的功能8X. Li和C. C. Loy(a) 香草Re-MP(b) 具有注意机制的Re-MP见图4。掩模传播中的区域注意。表示为xj。 从第i帧到第(j-1)帧的实例k的历史信息由隐藏状态或存储器hj-1∈ Rm×m×d表示,其中m × m表示特征大小,d表示通道数。 我们通过光流将hj−1弯曲为h(j−1)→j,以获得空间一致性cy。 对于xj和h(j−1)→j,我们可以通过等式2估计hj。(一). 类似于第2节中描述的掩模网络3.1中,我们使用第j帧中的实例k的掩码yj然后可以通过使用等式(1)中的输出函数来获得。(二)、输出函数N0由三个卷积层建模。区域注意。模型在获取目标实例的形状方面的准确性决定了模型的传播质量在许多情况下,边界框可能包含可能危及传播的掩码质量的干扰项。如图4(a)所示,如果我们直接从hj生成yj,则模型可能会被边界框中出现的干扰因子所混淆为了克服这个问题,我们利用注意力机制来过滤掉潜在的噪声区域。值得指出的是,注意力机制已用于各种计算机视觉任务[1,38],但不是掩模传播。我们的工作提出了第一次尝试,将注意力机制的面具传播。具体来说,g iv包装的隐藏状态h(j−1)→j,我们首先将其馈送到单个卷积层,然后是softmax函数,以生成边界框上的注意力分布aj∈Rm×m×1。 图4(b)显示了我们学到的注意力分散。 然后,我们将当前隐藏状态hj乘以所有通道上的aj,以专注于我们感兴趣的区域。并且掩模yj通过使用等式(1)从增强的hj生成(二)、如图4、由于注意机制,Re-MP模块专注于跟踪对象的掩码传播在其尺寸太小,表明闭塞的可能性很高最后,y,y∈扩展到轨迹片段{y,k,… yi+1,yi,yi+1,…yk2}后的前向和反向传播。此过程应用于所有起始点以生成轨迹片段集然而,在这方面,在一些情况下,不同的起始点可以产生相同的轨迹片段,这导致到冗余计算。为了加快算法的速度,我们对所有的起始点按照它们与模板的余弦相似度进行降序排序.我们根据排序顺序扩展起点。如果起点基于DyeNet的9现有的tracklet,我们跳过这个起点。此步骤不影响结果;相反,它大大加快了推理速度。链接tracklet。先前的掩模传播步骤生成潜在的分段轨迹。我们引入了一个贪婪的方法来链接到一致的掩模管的轨迹。它通过各自的起始点和模板之间的余弦相似性对所有轨迹进行降序排序。给定排序顺序,具有最高相似性被分配给各个模板。该方法然后依次检查剩余的轨迹片段。如果轨迹片段与高阶轨迹片段之间没有矛盾,则将它们合并。在实践中,这种简单的机制工作得很好。我们将研究其他合理的链接方法(例如条件随机场)。3.3推理与训练迭代推理。在推断期间,我们被给予视频序列{I1,… .IN},以及第一帧中的目标对象的掩模。如上所述,我们使用这些掩码作为初始模板。DyeNet迭代地应用于整个视频序列,直到没有可以发现更多的高置信度实例。在每次迭代之后,将通过具有高置信度的预测来增强模板的集合。培 训 详 情 。 DyeNet 的 总 损 失 函 数 被 公 式 化 为 : L=L_reid+λ(L_mask+L_remp),其中L_reid是在Sec. 3.1,它遵循[36]中的在线实例匹配(OIM)损失L_mask和L_remp指示Sec.3.1节中的循环掩码传播模块3.2. 整体损失是线性组合其中λ是平衡这些损失项的规模的权重。在[21,16]之后,通过语义分割任务对特征网络进行预训练 然后使用24k次迭代在DAVIS训练集上联合训练DyeNet。 我们修复了32个图像的小批量大小(来自8个视频,每个视频4帧),动量0。9,重量衰减为5−4。初始学习率为10- 3,每8 k次迭代后下降10倍4实验数据集。为了证明DyeNet的有效性和泛化能力,我们在DAVIS 2016 [27],DAVIS2017 [28],SegTrackv2 [19]和You- TubeObjects [29]数据集上评估了我们的方法。DAVIS 2016(DAVIS16)数据集包含50个高质量视频序列(3455帧),所有帧都使用像素对象遮罩进行注释。由于DAVIS16专注于单对象视频分割,因此每个视频只有一个前景对象。有30个培训和20个验证视频。DAVIS 2017(DAVIS17)分别为DAVIS16的训练集和验证集添加了30个和10个高质量视频序列。它还引入了另外30个开发测试视频和30个挑战测试视频,这使得DAVIS17比其前代大三倍。除此之外,DAVIS17使用多个对象重新注释所有视频序列。所有这些差异使其比DAVIS16更具挑战性。SegTrackv2数据集包含14个低分辨率视频序列(947帧)和24个通用前景10X. Li和C. C. Loy表1. 使用DAVIS17val.对Re-MP进行消融研究变体J均值F-均值 G均值[第26话] ResNet-10163.367.265.3再MP没有注意充分65.367.369.771.067.569.1对象对于YouTubeObjects [29]数据集,我们考虑了126个视频的子集,大约有20000帧,像素级注释由[14]提供。评价指标 对于DAVIS17数据集,我们遵循[28],其采用区域(J)、边界(F)及其平均(G)度量进行评估。为了与现有研究保持一致[34,16,26,3],我们使用所有实例的平均交集(mIoU )来评估DAVIS16,SegTrackv2和YouTubeObjects的性能培训方式。在现有的研究中[26,16],培训方式可以分为离线培训和在线培训。在离线训练中,模型仅在训练集上训练,而没有来自测试集的任何注释。自第一帧注释-在测试阶段提供了一些选项,我们可以使用它们来调整模型,即在线训练。在线训练可以进一步分为按数据集和按视频训练。在每个数据集的在线训练中,我们根据测试集的所有第一帧注释对模型进行微调,以获得特定于数据集的模型。每视频在线训练使模型权重适应每个测试视频,即,在测试阶段将有与测试视频一样多的视频特定模型。4.1消融研究在本节中,我们将研究DyeNet中每个组件的有效性。除非另有说明,否则我们使用DAVIS17列车组进行训练。所有性能均在DAVIS17的值集上报告。使用离线训练模式Re-MP模块的有效性。为了证明Re-MP模块的有效性,我们在本实验中不涉及Re-ID模块。Re-MP模块直接接入-以延伸第一帧中的注释以形成遮罩管。这种变体将我们的方法退化到传统的掩码传播管道,但具有注意力感知的经常性结构。我们将Re-MP模块与最先进的掩模传播方法MSK [26]进行比较。为了确保公平的比较,我们重新实现了MSK,使其具有与DyeNet相同的主干ResNet-101。我们不使用在线培训和MSK中的任何后处理重新实现的MSK达到78。7J-DAVIS 16val集上的平均值,远高于原始结果69。[26]9篇如表1所示,MSK达到65. 3G-DAVIS17值集的平均值。与仅传播预测掩码的MSK不同,所提出的Re-MP传播所有历史掩码。信息的递归架构,和RoIAlign操作允许我们的网络专注于前景区域,并产生高分辨率的掩模,这使得Re-MP优于MSK。 具有注意力机制的Re-MP更集中于前景区域,这进一步将G均值提高了1。六、图5示出了不同方法的传播结果在这段视频中,一只狗经过在一个女人和另一条狗面前MSK染料的女人和回狗与基于DyeNet的11图五、 掩码传播的示例。最好用彩色观看。表2. 使用DAVIS17 val.对Re-ID进行消融研究行间G均值的改进是由于模板扩展。ρreid0.90.80.70.6精确 召回 G均值 精确 召回 G均值 精确 召回 G均值 精确 召回 G均值Iter 197.0 16.072.387.1 22.273.278.9 26.273.276.5 29.273.4Iter 290.3 29.373.375.6 32.573.768.9 33.574.165.5 34.174.0Iter 3个以上90.7 30.173.674.6 32.673.768.8 33.574.165.3 34.273.9front dog的实例ID普通的Re-MP不染色其他实例,但在交叉过程中仍然会由于注意力机制,我们的完整Re-MP不会被其他实例分散注意力。由于遮挡,其他实例的掩模丢失,并且它们将由完整DyeNet中的Re-ID模块检索具有模板扩展的Re-ID模块的有效性。在DyeNet中,我们使用Re-ID模块来搜索视频序列中的目标对象。通过选择适当的相似性阈值ρreid,我们可以为Re-MP模块建立高质量的起点。阈值ρreid控制所检索对象的精确度和召回率之间的权衡。表2列出了每次迭代中检索到的起始点的查准率和查全率随ρreid变化的情况,以及相应的整体性能。在本实验中,通过贪婪算法连接轨迹。总体而言,由于模板扩展,G均值在每次迭代之后增加当ρreid减小时,在第一次迭代中检索到更多的实例,这导致了高的召回率和G-均值。它也会产生一些不精确的起始点,并进一步影响后续迭代中模板的质量,因此性能的增加每次迭代之间的间隔是有限的。相比之下,具有高ρreid的Re-ID模更为严格。随着模板集的扩大,它仍然可以逐渐达到令人满意的召回率在实践中,迭代过程在大约三轮中停止。由于我们的贪婪算法,整体性能对ρreid不太敏感。 当ρreid=0. 7、DyeNet实现了最佳G均值。该值用于所有以下实验中再MP(no注意)再MPMSK地面实况12X. Li和C. C. Loy表3. 使用DAVIS17test-dev对DyeNet中的每个模块进行消融研究。变体J均值F-均值 G均值∆G-平均值[第26话] ResNet-10150.952.651.7-再MP没有注意充分55.459.160.562.858.061.0+6.2+9.2+ Re-ID65.870.568.2+7.2线下仅脱机60.264.862.5-5.6大小0.90尺度变化0.90闭塞0.90姿态变化0.900.700.700.700.700.500.500.500.500.30小介质 大0.30小号和大号0.30没有一部分 重0.30小号和大号MSK Re-MP Re-ID图六、 根据特定属性逐步提高性能。最好用彩色观看。DyeNet中每个组件的有效性。表3总结了如何通过在DAVIS17的测试开发集上逐步将每个组件添加到我们的DyeNet中来提高性能。我们重新实现的MSK被选为基线。本实验中的所有模型首先在train和val集上进行离线训练,然后在test-dev集上对每个数据集进行在线训练。与MSK相比,我们的Re-MP模块与注意力机制显着提高了9。二、包含Re-ID和Re-MP模块的完整DyeNet达到68。2采用贪婪算法连接轨迹。更值得注意的是,在没有在线训练的情况下,我们的DyeNet实现了62的具有竞争力的G均值。五、为了进一步研究DyeNet中每个模块的贡献,我们通过特定属性对test-dev集中的实例进行分类,包括:– 大小:实例根据它们在第一帧注释中的大小分为– 比例变化:包围目标对象的任何一对边界框之间的面积比小于0。五、边界框是从我们的最佳预测中获得的。– 遮挡:对象未被遮挡、部分被遮挡或被严重遮挡。– 姿势变化:由于对象运动或相对相机-对象旋转而引起的明显姿态变化。我们在表3中选择最佳版本的DyeNet,并根据图3中的特定属性六、我们发现物体的大小和遮挡是影响性能的最重要因素,并且尺度变化比姿态变化对性能的通过仔细观察,我们观察到我们的Re-MP模块可以很好地跟踪那些小物体,这是传统掩模传播方法的缺点它还避免了在部分遮挡情况下从其他物体分心。作为Re-MP的补充,Re-ID模块检索缺失基于DyeNet的13图7.第一次会议。DyeNet预测的可视化。第一列示出了具有地面真实掩模的每个视频序列的第一帧以相等的间隔选择帧。最好用彩色观看。表4. DAVIS17测试开发结果在线培训J均值F-均值G均值数据集 视频[34]第三十四话[16]第十六话√√√√√√53.460.159.668.356.564.2[21]第二十一话[16]第十六话√×64.463.467.869.966.166.6DyeNet(离线)DyeNet√×××60.265.864.870.562.568.2由于严重遮挡,在严重遮挡情况下的性能大大提高即使姿态变化较大,模板扩展也可确保Re-ID工作良好。4.2基准在本节中,我们将我们的DyeNet与其他现有方法进行了比较,并表明它可以在标准基准测试中实现最先进的性能,包括DAVIS 16,DAVIS 17,SegTrack v2和YouTubeObjects数据集。 在本节中,在没有任何后处理的情况下,在单个规模上测试DyeNet。表4列出了J、F和G的平均值。DAVIS17测试 开发 集合进 近用 †标记 。在DAVIS 17的训 练集 和 值集上 训 练DyeNet,并实现62的竞争性G均值。五、 它进一步将G均值提高到68. 2通过在线微调,这是DAVIS17基准测试中性能最好的为了展示DyeNet的泛化能力和可移植性,我们接下来在其他三个基准测试中评估DyeNet,DAVIS16,SegTrackv2和YouTubeObjects,其中包含不同的视频 。 对 于 DAVIS16 , 在 其 训 练 集 上 训 练 DyeNet 。 由 于 SegTrackv2 和YouTubeObjects中没有用于离线训练的视频,因此我们直接采用DAVIS17的模型作为其离线模型。如表5中所总结的,ofline DyeNet获得了有希望的性能,并且在在线微调之后,我们的模型戴维斯YoutbObjs SegTrackV214X. Li和C. C. Loy表5. 三个数据集的结果(mIoU)。在线培训戴维斯16 SegTrackv2 YoutbObjs数据集 视频VPN[15][26]第26话我的世界[16]第十六话OnAVOS[34]√×√√√√√×√√√√75.076.179.880.384.885.7--65.470.377.6--- 七十二点五72.676.277.4DyeNet(离线)DyeNet√×××84.786.278.378.774.979.6在 所 有 三 个 数 据 集 上 实 现 最 先 进 的 性 能 请 注 意 , 尽 管 SegTrackv2 和YouTubeObjects中的视频与DAVIS17中的视频有很大的不同,但在DAVIS17上训练的DyeNet在这些数据集上仍然获得了出色的性能,无需任何微调,这表明其强 大 的 泛 化 能 力 和 对 不 同 视 频 的 可 移 植 性 。 我 们 还 发 现 , 我 们 对YouTubeObjects的离线预测甚至比大多数地面实况注释更好,性能损失主要是由符号偏差引起的。在图7中,我们展示了DyeNet预测的一些示例速度分析大多数现有的方法需要在线训练与后处理,以实现有竞争力的性能。由于这些耗时的过程,它们的推理速度很慢。例如,完整的OnAVOS [34]每帧大约需要13秒才能达到85。DAVIS16val set上的7mIoU。LucidTracker [16]实现了84. 8mIoU需要每个数据集40k次迭代,每个视频2k次在线训练和后期处理处理[6]。我们的离线DyeNet能够获得类似的性能(84。7mIoU),在单个TitanXp GPU上以2.4 FPS的速度运行。经过2k个数据集的在线训练,我们的DyeNet达到了86。2mIoU,对应的运行时间为0.43 FPS。5结论我们已经提出了DyeNet,其将重新识别和基于注意力的递归时间传播结合到统一框架中,以解决具有多个实例的具有挑战性的视频对象分割这是针对此问题的第一个端到端框架,其中首先,为了应对目标的姿态变化,我们放松了依赖的模板集在第一帧中执行模板扩展在我们的迭代算法。其次,为了实现鲁棒的视频分割,对干扰和背景杂波,我们提出了注意机制,经常性的时间传播。DyeNet不需要在线训练,就能以比许多现有方法更快的速度获得有竞争力的准确性。通过在线培训,DyeNet在广泛的标准基准测试(包括DAVIS、SegTrackv2和YouTubeObjects)上实现了最先进的性能鸣谢:本工作由商汤科技集团有限公司和Gen-由香港特别行政区(CUHK 14241716,14224316。14209217)。基于DyeNet的15引用1. Ba,J.,Mnih,V.,Kavukcuoglu,K.:具有视觉注意力的多目标识别。载于:ICLR(2015)2. Bolme,D.S.,贝弗里奇,J.R.,德雷珀,文学士,吕耀明:使用自适应相关滤波器的视觉目标跟踪在:CVPR(2010)3. Cael les,S.,Maninis,K.K., Pont-T uset,J.,Leal-Taix e',L.,Cremers,D.VanGool,L.:单镜头视频对象分割。在:CVPR(2017)4. Chen,L.C.,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.L.:使用深度卷积网络和全连接crf的语义图像分割。载于:ICLR(2015)5. 郑杰,蔡永宏,王,S.,Yang,M.H.:Segflow:视频对象分割和光流的联合学习。In:ICCV(2017)6. Felzenszwalb,P.F.,Huttenlocher,D.P.:早期视觉的有效信念传播IJCV70(1)、417. Grundmann,M.,Kwatra,V.,Han,M.,埃萨岛:高效的基于分层图的视频分割。在:CVPR(2010)8. Hariharan,B., Arbe la'ez,P.,格尔希克河Malik,J.:同时检测和分段。In:ECCV(2014)9. Hariharan,B., Arbe la'ez,P.,格尔希克河Malik,J.:用于对象分割和细粒度定位的超列参见:CVPR(2015)10. 他,K.,Gki oxari,G.,Dolla'r,P.,Girshick,R.:面罩R-CNN。In:ICCV(2017)11. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习见:CVPR(2016)12. 许德华唐,X.,Loy,C.C.:LiteFlowNet:一种用于光流估计的轻量级卷积神经网络。来源:CVPR(2018)13. Ilg,E.,Mayer,N.Saikia,T.,Keuper,M.,Dosovitskiy,A.,Brox,T.:FlowNet2.0:深度网络光流估计的演变。在:CVPR(2017)14. Jain,S. D.,Grauman,K.:视频中超体素一致的前景传播In:ECCV(2014)15. Jampani,V.,加德河Gehler,P.V.:视频传播网络。在:CVPR(2017)16. Khoreva,A. Benenson河Ilg,E.,Brox,T.,Schiele,B.:清晰的数据梦想对象跟踪。在:CVPRW(2017)17. Le ,T.N. ,Nguyen ,K.T. , Nguyen-Phan , M.H. , 东 尼, 电 视Nguyen , T.A. ,Trinh,X.S.,Dinh,Q.H.,阮氏V.T. Duong,A.D.,Sugimoto,A.,Nguyen,T.V.,Tran,M.T.:视频对象分割的实例重识别流程。在:CVPRW(2017)18. Lee Y.J.金,J.,Grauman,K.:视频对象分割的关键段。In:ICCV(2011)19. Li,F.,金,T.,Humayun,A.,Tsai,D.,J. M. Bogg:通过跟踪多个图形-背景段进行视频分割。In:ICCV(2013)20. Li,X.,刘志,Luo,P.,Loy,C.C.,唐X:并非所有像素都是相等的:通过深层级联实现难度感知在:CVPR(2017)21. Li,X.,齐,Y.,王志,Chen,K.,刘志,施,J.,Luo,P.,唐,X.,Loy,C.C.:具有重新识别的视频在:CVPRW(2017)22. 李,Y.,Qi,H.,Dai,J.,吉,X.,魏云:完全卷积的实例感知语义分割。在:CVPR(2017)23. 刘志,Li,X.,Luo,P.,Loy,C.C.,唐X:用于语义
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功