SPFTN：一种用于弱标记视频对象分割的自适应微调网络

33 浏览量更新于2023-10-15 收藏 2.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43214429SPFTN：一种用于弱标记视频对象分割的自适应微调网络张定文1，杨乐1，孟德宇2，徐东3，韩俊伟11西北理工大学2西安sydney.edu.aujunweihan2010@gmail.comdymeng@mail.xjtu.edu.cnnwpuyangle@gmail.comzdw2006yyy@mail.nwpu.edu.cn摘要弱标记视频中的对象分割是一项有趣而又具有挑战性的任务，其目的是学习仅使用视频级标记来执行特定类别的视频对象分割在这一研究领域的现有工作可能仍然有一些局限性，例如，缺乏有效的基于DNN的学习框架，对上下文信息的探索不足，以及需要利用不稳定的负面视频收集，这阻碍了它们获得更有希望的性能。为此，我们提出了一种新的基于自定进度微调网络（SPFTN）的框架，该框架可以学习探索视频帧内的上下文信息，并在不使用负视频的情况下捕获足够的对象为了执行基于深度神经网络的弱监督学习，我们最早努力将自定进度学习机制和深度神经网络集成到统一且兼容的框架中，从而产生自定进度微调网络。在大规模YouTube-Objects和DAVIS数据集上的综合实验表明，该方法与其他最先进的方法以及基线网络和模型相比具有优异的性能1. 介绍随着视频共享社交媒体（例如，YouTube），大量的视频可以很容易地在线访问。这为视觉社区提供了一个令人兴奋的机会，可以从现实世界的在线视频中学习视觉概念和对象模型[27]。然而，由于大多数在线视频的标签都很弱，因此很难直接以透明的方式利用这些在线视频[30，10]。这些视频仅与语义标签相关联，以指示其中的主要对象或概念，而详细的时空分割*通讯作者。由于手动注释的沉重负担，不提供掩码。因此，在本文中，我们专注于弱标记视频中的对象分割任务。这项任务具有重大意义，原因有二。一方面，它可以帮助自动为在线视频提供时空分割注释，以便这些在线资源可以用于帮助其他任务，如训练分类器进行图像分类[24，26]。另一方面，它可以作为视频内容理解的重要一步，从而提高视频摘要[33]和事件检测[3]等其他任务的性能。为了分割弱标记视频中的对象，Hartmann等人的最具开创性的尝试。[8]将其公式化为针对一组独立的空间-时间段的学习弱监督分类器，并利用图切割来细化所获得的对象种子以生成最终的对象掩模。之后，Tang et al.[27]提出了一种根据负样本的概念排名（CRANE）算法，该算法对标签噪声具有鲁棒性并且高度并行化，因此可以有效地处理大量视频数据和时空片段。Liu等人。[18]提出了一种用于弱监督视频分割的基于最近邻的标签传输方案，主要关注具有挑战性的多类视频分割问题。最近，Zhang etal.[39]提出了一个检测分割框架，其中使用在静态图像上预训练的对象和区域检测器来生成检测和分割建议。然后，通过推断形状似然性来改进目标跟踪器，以抑制背景噪声，同时保持空间-前景对象的时间一致性。可以看出，现有的作品通常首先将正视频和负视频分解成多个时空片段。然后，在弱监督下训练分段级分类器或推理模型，以识别视频中与给定对象类别相关的分段最后，应用后处理方法来细化对象分割掩模。尽管沿着这条管道的方法已经取得了良好的效果，43214430图1.所提出的用于弱标记视频中的对象分割的基于网络的自定进度微调框架配备了新提出的自定进度正则化器，网络不仅可以生成伪标签映射来提供像素级的伪标签，还可以生成权重映射来指示学习过程中的可靠像素，这可以在弱监督下有效地工作在各种情况下的性能，可能仍然存在一些限制，可以解决这些限制以进一步改进。首先，目前还不清楚如何通过基于DNN的框架来解决所研究的问题，这些框架在许多其他计算机视觉问题中表现出出色的性能。其次，大多数现有的方法认为每个时空段作为一个单独的实例在他们的学习过程中。因此，每个帧中的场景上下文可以为对象识别提供有用的上下文先验[29]，但在该领域仍未得到充分利用。第三，大多数现有方法不仅需要正视频，而且需要负视频。然而，尽管负视频可以很容易地收集，但确定它们的数量和质量的原则方法没有得到很好的研究，导致最终结果的性能不稳定。为了解决上述局限性，我们提出了一种新的自定步微调网络（SPFTN）在本文中。如图1中，给定被弱标记为包含来自一个语义类别的共同对象的一组视频，所提出的方法首先通过将这些视频分解成帧并生成针对这些帧的分割建议来准备训练数据。然后，提出了一个统一的学习过程来分割视频中的语义对象。在所提出的网络中，我们在最终预测之前使用全连接层，这保证了每个输出节点的感受野是整个输入视频帧。因此，每个像素的标签可以用每个输入帧场景的全局结构的感知来推断，其编码丰富的上下文信息。此外，通过以这种方式学习对象分割掩模，我们可以仅使用正视频的集合来获得令人满意的性能。因此，所提出的方法需要较少的人工努力来收集负面视频，这也解决了由负面视频引起的不稳定性问题。从本质上讲，该框架中最关键的问题之一正如我们所知，DNN在各种问题上取得了巨大的成功，如对象检测[6]和显着性预测[7]。然而，在大多数情况下，DNN需要在完全监督下进行训练，而在弱监督下训练DNN仍然具有挑战性和解决不足，特别是对于视频对象分割任务。为了解决这个问题，我们建议将自定进度的学习机制纳入DNN微调过程中，以应对数据模糊性问题，并在复杂场景中指导有效的学习方式。因此，它导致了新的SPFTN。具体来说，受人类/动物学习过程的启发，近年来提出了自定进度（或课程）学习理论[1，15]。其主要思想是从简单到复杂地43214431×××k=1×ΣΣ--·以自定进度的方式进行采样。这种学习机制的有效性，特别是其在高度模糊数据中的有效性，已经在各种计算机视觉任务中得到验证[36，13，40]。在现有的工作中，所有已建立的自定进度学习机制都是基于传统的浅层学习模型（如支持向量机（SVM））设计的，而很少有成功的尝试将这种有效的学习机制与更强大的深层模型相结合。因此，它促使我们尽最大努力设计适当的机制，将自主学习和DNN整合到一个统一的和兼容的框架中。一方面，我们的工作可以进一步提高自主学习的能力。另一方面，我们的工作也执行DNN参数的弱监督训练。此外，为了提高自定进度学习机制的有效性，我们提出在优化目标中引入一个新的组课程项，它可以利用有用的先验知识指导学习者选择自信的训练样本，同时灵活地考虑组级别的学习优先级。与实例级的学习优先级相比，组级的学习优先级往往更便宜，但更有效地指导学习过程。综上所述，本文的主要贡献有三1) 本文提出了一种用于弱监督视频对象分割的新SPFTN方法，该方法经过精心设计，将自定进度学习机制和DNN学习功能集成到一个统一且兼容的框架中。它可以提高自定进度机制的学习能力，并对DNN模型进行弱监督训练。2) 为了更好地利用有用的先验知识，我们提出了一种新的自定进度的正则化通过引入组课程项到优化问题。小组课程术语规定了选择自信训练样本的两个原则，这可以使学习者紫色层）、1个伪标签层和1个权重层。我们使用原始视频帧大小为224 - 224像素作为网络输入。该网络首先采用前13个卷积层和4个最大池化层，如VGG 16网络[25]中所述，以提取每帧的深度特征。然后使用具有3136个节点的全连接层来预测大小为56 - 56的分割图。我们还引入了一个伪标签层和一个权重层与3136节点（通过矢量化56 56demential伪标签地图和权重地图，分别获得），以提供伪监督，以指导整个网络的微调卷积层可以逐渐将上下文信息的相对较大的接受域纳入学习，而全连接层有助于将全局上下文编码到最终预测中。因此，它能够利用丰富的上下文信息来推断对象分割。2.2.目标函数给定从来自一个语义类别的弱标记视频集合中提取的K个视频帧IkK的集合，所设计的网络架构的输入维度被设置为244 244。对应于每个输入帧，伪标签被表示为Y=[y1，y2，. . . ，yK] ∈ {−1，1}d×K，其中yk ∈ {−1，1}d表示I k的结构伪标号（背景像素标记为0，反之亦然），d=3136是网络的输出维数。因为伪标签可以是通过重新整形，它们很容易转换为伪地面实况掩码，可以对所设计的网络提供监督。为了使网络能够在弱监督下有效地工作，我们将自定进度的学习机制引入参数微调。随着视频帧和初始Y和V的输入，学习对象逐渐发现自信的训练样本，并使用它们来微调DNN，主要通过最小化加权预测损失项和自定步调的正则化器：灵活考虑样本优先级和多样性。3) 提出的学习框架可以在学习过程中有效地编码丰富的上下文信息minW、Y、 VE（W，Y，V）=ΣK并仅从位置捕获足够的对象语义，视频，这有助于提高分割精度r（W）+k=1L（yk，vk，Φ（Ik|W））+f（V;p，λ，γ，τ），并分别增加学习稳定性2. 自调步微调网络2.1. 网络架构该网络基于VGG 16网络建立S.T. V∈[0，1]d×K，p∈[0，1]Kk ||VK||1∈（0，d× K ）， k ||yk||1∈（0，d × K）.（一）利用修改的目标函数和附加的伪标签层以及权重层工作[25]，用于在弱监督下实现自定步调的微调。如图1，它由20层组成，包括13个卷积层（橙色层），4个最大池化层（蓝色层），1个全连接预测层（这里，r（）指示平方2范数，W指示可训练的参数，网络， V =[v1，v2，. . .，vK]表示反映视频帧的所有像素的自定步长权重的权重矩阵，vk∈[0，1]d×1，λ、γ和τ是用于控制学习步长的参数，p =[p1，p2，. . .，pK]是课程表43214432|K|KKKK对每个视频帧的学习优先级进行可变编码，以及|W）指示网络的预测函数，其经由网络参数W将Ik向前传播到预测层。L（yk，vk，Φ（IkW））表示加权铰链损失：帧）具有更高的优先级Pk，因此它对应于第一原理。对于第二项，我们可以将其视为V的反组稀疏表示，它对组稀疏性有反作用[32]。与文献[13]中所用的范数不同，本文给出了一个新的范数-. 这里所用的5，1-范数是凸的，可以导出实值解。尽量减少这种ΣdL（y，v k，Φ（Ik|W））=vimax（1−yi·Φ（Ik|W）1，0）2，项倾向于分散vi的非零元素多年来k k ki=1（二）因此，它符合第二个原则。通过使用这样的团体课程术语，我们只能提供其中vi，yi和Φ（Ik|W）i分别指示权重向量vk、伪标签向量yk和预测向量Φ（IkW）的第i维。与[4]一样，为了便于优化，我们采用了平方形式的铰链损失。为约束，第一个定义变量的范围;第二种方法表示在学习过程中只选择部分样本;第三个指示输入视频包含前景和背景区域。在（1）中，自定进度学习能力由基于有帮助的先验知识预定义的学习课程这种能力之后是一种新颖的自定步调的正则化器的参与，该正则化器由样本容易项和组课程项组成：f（V; p，λ，γ，τ）=.克尔克·克尔克·德组（架）级课程，引导学习亲，cess，这往往比提供实例（像素）级课程要容易得多。此外，它还能够在实例之前提供信息，因为简单图像场景中的像素通常倾向于具有更大的置信度。通过使用所提出的正则化子f（V，p;λ，γ，τ），学习者可以基于自身捕获的知识和学习课程提供的先验知识来推断可靠的学习速度。与以往的研究不同的是，本文提出的学习模式中的学习者考虑到了学习课程，但并不是教条地由学习课程决定的。这一点很重要，因为一方面，学习课程的定义没有考虑学习者的知识。所以它可能不适合学习者。另一方面，学习课程是基于一般知识定义的，这可能不完全适合特定情况，例如，特定对象− λ||VK||1−γ（τ+pk）五岛（三）`k=1k=1“我的天i=1K类别和框架场景，在学习过程中。样品容易性X团体课程此外，Eq.（1）不强制执行至少一项在每个正帧中会出现正实例，具体地，样本容易度项，即，负向负1-范数项继承自传统的SPL，它有利于选择简单而不是复杂的例子。如果我们忽略了团体课程术语（即，设γ=0），则正则化器退化为[15]中提出的传统硬SPL函数，通过判断其损失值是否小于步长参数λ，对权重vi输出1或0。也就是说，具有较小损失的样本被视为团体课程术语，即，负加权稀疏项有利于按照预定义的学习过程来选择训练样本，其主要包括两个原则：1）位于高学习优先级的训练帧中的样本在早期就有可能被选择; 2）集中在有限数目的组（训练帧）中的样本不是优选的。这些原则可以很容易地理解，把这个术语改写为：这与一些弱监督学习公式不同[36]。这将有助于处理当标记的对象未出现在某些视频帧中时的噪声情况。正如我们所知，即使是在积极的视频，仍然有大量的背景区域，可以提供信息丰富的负样本的学习。这种否定样本可能提供相当有鉴别力的知识，用于帮助区分语义类别与其周围的上下文。因此，所提出的学习机制只能使用来自正面视频的帧，这可以减轻收集负面视频的劳动并应对潜在的不稳定性问题。2.3. 优化方程的解。（1）可以通过优化路径的替代搜索策略.ΣKγpkk=1.Σdvi+τi=1KΣKk=1.埃克塞特五岛i=1KW、Y和V三个参数交替。更具体地说，我们首先初始化Y和V。然后，每次迭代中的优化策略由以下步骤组成：（四）在（4）中，使第一项最小化倾向于将非零的vi值分配给驻留在组中的样本（训练用固定的Y和V优化W：该步骤旨在在伪标签层和权重层的监督下更新DNN参数在这种情况下，Eq。（1）退化X−43214433···KKKKKKKKvKKKKKKK√≤ ≤··· ≤K--|√∈形式：ΣK最小r（W）+L（y，v，Φ（I|W））。（五）算法一：算法优化V。输入：K个视频帧I1，···，IK，Wk=1kk k这本质上是DNN的常规目标函数，具有用于训练样本的不同重要权重因此，DNN参数W可以通过广泛使用的反向传播算法容易地优化。使用固定的W和V优化Y：这一步的目标是学习训练中像素的伪标签对应的学习优先级p1，pK，DNN模型W，参数λ、γ和τ;输出：方程中的溶液V（8）;1对于k=1到K做2将IK中的像素实例按升序排序，也就是说， l1l2ld;设m= 0;对于i=1到d，当前DNN模型的帧当量（1）本案中4可改为：5如果li<λ+γ（τ+pk）/（2i）i= 1;k√K6如果li≥λ+γ（τ+pk）/（2i）minL（yk，vk，Φ（Ik|W））、（6）7k=1然后计数m，其中lj=liY8这导致了下面的解决方案，如[19，12]所示：9yi=arg minmax（1 − yi·Φ（I |W）i，0）2。（七）十K K对于j=i，i+1，···，d，设vi=···=vi+m−1=（（γ（τ+pk）/2（li−λ））2−（i−1））/m，k kkyi∈{+1，−1}11和V i+mkK=···=vd=0;用固定的Y和W优化V：在更新pseu- do标签之后，我们的目标是更新所有像素的权重，以区分它们对学习者的重要性。在这种情况下，Eq.. （1）改为：ΣK12断裂;13端部14的端15 返回V.minV= mink=1ΣKL（yk，vk，Φ（Ik|W））+f（V; p，λ，γ，τ）Σdvim ax（1−yi·Φ（Ik|W）i，0）2（八）一个。随着λ的增长，具有较大损失的更复杂的样本将逐渐参与学习过程，以获得更成熟的模型。参数γ控制学习课程的权重。小γ表示VK Kk=1i=1‚KdK.D学习者更依赖于自己的学习速度，而较大的γ表明学习者也重视有帮助ΣΣ-λk=1i=1vi−γ Σk=1.Σ（τ+pk），i=1vi，学习课程带来的先验知识。参数τ控制等式中两项之间的权重。（四）、小τ表示学习器选择样本这变成了凸优化问题。基于KKT（KarushKuhnTucker）条件、Eq.可以经由算法m1有效地计算公式（ 8 ），其中损失项 max （ 1yiΦ（IkW）i，0）2被简化为1i。可以看出，Eq。（8）导致权重层的实值解，即，取损耗小于阈值λ+γ（τ+pk）/（2i）的样本主要根据学习优先级，而较大的τ指示学习器倾向于从更多样化的视频帧中选择样本。利用这些性质，所提出的自定步调正则化器可以提供一种理论上合理的方法，在弱监督下有效地从pseu-do标签中学习有用信息。2.4. 详细学习方法作为最有信心的样本，并将被分配i=1来指导DNN的后续微调，而损失等于阈值的样本也将被选择作为训练样本来微调DNN，但置信度较低，即，vi（0，1）.损失大于阈值的其他样本将被视为不置信的训练样本，并且不会被选择（vi=0）用于随后的微调过程。在所提出的自定步调正则化器中，参数λ控制学习步调，其在物理上对应于模型的年龄。当λ较小时，只有损失较小的样本才被认为是可信的在本节中，我们将介绍训练SPFTN并为弱标记视频中的类别特定对象生成最终分割掩码。如图1（a），我们首先从一组包含某种类型的语义对象的弱标记视频中收集视频然后，我们从每个视频帧中提取光流来捕获运动信息，并使用它通过[16]1生成分割建议，这是一种无监督的方法，只能生成1提取细分建议的详细过程见补充材料。43264434算法二：将我们的SPFT- N应用于弱标记视频中的对象分割的整体方法。输入：弱标记为包含某种类型对象的视频;输出：每个视频帧的语义对象分割掩码;1收集视频帧和相应的分割建议与数据增强;2 对网络进行预训练;3 通过计算pk得到学习课程;4 初始化伪标签Y、自定进度权重V，并指定参数值λ、γ和τ;5 而不收敛6通过等式6微调DNN参数W。（5）;7通过等式2更新伪标签Y。（6）;8.通过等式更新自定步权重V（8）;9重新增加训练数据并更新λ;10端部11 使用上一次迭代以生成最终的分割掩模;12返回给定视频中的微调DNN模型和粗略估计如图所示第1段（b）分段。然后，我们通过水平翻转和随机裁剪来增加训练数据，以应对潜在的过度拟合问题。Y通过使用分段建议来初始化，即，建议区域内的像素为1，否则为-1。V中的值同样初始化为1。在学习收集的训练数据上的网络参数之前，我们在辅助数据上对网络进行预训练与[39]利用在PASCAL数据集上训练的基于部分的检测器来辅助学习过程不同，我们在MSRA 10K数据集[5]（包含随机对象，如“花”和“交通标志”）上预训练我们的模型，以完成显着性检测任务[7，17]，这可以指导网络从nat中编码一般显着性先验。视觉刺激而不是在给定视频集合中出现的特定语义对象。就像在[30，37]中一样，在弱监督任务中引入或转移有用的知识是一种自然趋势。在预训练之后，对于每个视频帧，我们将pk计算为所获得的分割建议与二值化显著性掩模之间的交并重叠（intersection-over-union，IOU），其形成学习课程以指导子帧的自定步调的微调过程。这里，较大的pk指示分割亲和显著性掩模之间的更大一致性。因此，相应视频帧的内容对于随后的学习过程往往更有把握。相反，具有较小pk的视频帧倾向于不太自信。最后，如图所示。在图1（c）中，我们微调DNN模型以生成给定视频集合中出现的特定语义对象的分割掩码。如在第二节介绍。2.3，整个微调过程以自定进度的方式进行。在第一次迭代中，给定初始伪标签图和权重图，我们将它们重塑为3136维向量，用于微调DNN中的参数W然后可以随后优化Y和V以获得更新的标签图和权重图，用于指导下一次迭代中的学习。基于两个相邻迭代之间的预测分割掩码2的IOU来设置收敛条件如果IOU趋向于小于阈值T，则迭代将被终止。请注意，在每次迭代之后，我们重新增加训练数据，以进一步减轻学习过程中的过度拟合。一旦达到收敛条件，我们将每个视频帧放入微调的DNN中，并将获得的预测图上采样为输入帧的原始大小。为了补偿上采样期间的分辨率退化，我们遵循[39]采用图形切割方法。整体方法如算法2所示。3. 实验结果3.1. 数据集和实施详细信息我们在两个具有挑战性的数据集上进行了实验-S.第一个是YouTube-Object数据集[27，9]，最初收集于[24]。它由属于10个语义类别的对象- s组成，总共包含- s 5507个视频（镜头）和571，089帧。为了提供像素级的地面实况注释，[9]在每个视频的每第10帧中收集前景对象的细粒度像素级掩模，总共产生了超过20，000帧可用于定量评估。第二个是DAVIS数据集[22]，它总共包含50个序列，3455个注释帧，全部以24fps和HD 480p空间分辨率捕获，跨越常见视频对象分割挑战的多次出现，例如遮挡、运动模糊和外观变化。每个视频都伴随着每像素、每帧的地面实况分割。采用标准IOU重叠（通过比较预测分割掩模和相应的地面真实掩模来计算）来评估这些数据集上的实验结果。我们使用Caffe库实现了所提出的微调过程[11]。在每次迭代中，根据训练样本的数量调整W的调整步骤和批处理的批量大小，确保每个样本将被学习五次。第一次迭代中的学习速率设置为5×10−7，然后2这里的分割掩码仅表示没有增强数据的原始视频帧的分割掩码。43274435表1.YouTube-Object数据集上的IOU结果（值越高表示结果越好Aero鸟船车猫牛狗马姆比凯火车Ave.Tang等人[27日]0.1780.1980.2250.3830.2360.2680.2370.1400.1250.4040.239Zhang等人[35]第三十五届0.5970.4270.2760.4650.4600.4140.4700.3800.0610.3660.391Papazoglou等人[20个]0.6740.6250.3780.6700.4350.3270.4890.3130.3310.4340.468Wang等人[三十一]0.7710.6140.3650.6290.3820.4370.4530.4400.2430.4340.477Zhang等人[39]第三十九届0.7580.6080.4370.7110.4650.5460.5550.5490.4240.3580.541Tsai等人[30个]0.6930.7610.5720.7040.6770.5970.6420.5710.4410.5790.623我们0.8110.6880.6340.7380.5970.6450.6340.5820.5240.4550.631表2.DAVIS数据集的IOU结果（数值越高，结果越好[20个][28日][三十一][二]《中国日报》我们[20个][28日][三十一][二]《中国日报》我们[20个][28日][三十一][二]《中国日报》我们熊.898.864.657.851.748drtC.667.314.244.758.559莫托伊.602.245.491.618.608布斯万.732.422.223.526.876drtS.683.344.268.575.623姆比凯.559.387.335.738.476凸块.241.368.188.353.297drtT.533.615.349.638.678Parag.725.890.568.933.726树木.180.121.194.188.350埃莱夫.824.494.510.689.756Paral.506.591.539.512.628船.361.056.271.144.359弗拉姆格.817.783.570.794.381公园.458.146.392.295.677卜丹.467.183.422.236.371山羊.554.074.257.735.728犀牛.776.520.685.902.552bdanF.616.317.476.157.700远足.889.878.683.603.893rolb.318.406.141.801.125总线.825.664.739.885.815曲棍球.467.817.566.713.602斯克拉.522.759.348.579.588骆驼.562.850.320.756.762hjH.578.830.568.734.351斯格拉.325.327.421.345.670卡尔.808.872.500.630.768hjL.526.743.388.682.411索博克斯.410.832.332.672.578汽车.698.759.538.880.781克苏夫.272.357.193.419.583socB.843.242.378.370.490推车.851.820.611.621.754克沃克.649.447.724.597.733漫步.580.619.466.678.654奶牛.791.562.623.799.770利比.507.169.470.050.508冲浪.475.273.312.770.870跳.598.341.291.065.342Lucia.644.840.706.417.833摆动.431.533.569.622.755twirl.453.452.372.366.461机故障.601.380.227.033.708网球.388.494.480.590.625狗.708.753.566.331.856马尔夫.087.245.085.045.658火车.831.903.620.887.736Agid.280.193.055.110.071莫托布.617.603.351.466.750Ave..575.514.426.543.612每次迭代后减少到五分之一。在整个学习迭代过程中，动量和权重衰减分别固定为0.9和0.0005收敛阈值T被设置为0.85。请注意，弱监督学习方法中的参数通常无法调整，因为没有GT数据。在本工作中，我们设置λ=0。8，然后在每次迭代后增加0.04，这使得学习器能够选择大部分数据进行训练。将γ等于λ，并且将τ设置为1，以反映组优先级项和多样性项的同等3.2. 与最新技术在本节中，我们在两个基准数据集上将所提出的方法具体来说，在Youtube-Object数据集上，我们将我们的方法与[39，27，31，20，35，30]进行了比较，在DAVIS数据集上，我们将我们的方法与[20，28，31，2]进行了比较。这些比较的方法是最先进的弱监督或无监督的视频对象分割方法，可用于相应的数据集。我们没有与基于半监督学习的方法进行比较，因为它们需要更强的监督。对于定量评估，我们在表1和表2中报告了YouTube-Object数据集和DAVIS数据集的评估结果，具体而言，不仅显示了43274436整个数据集的平均性能，以及每个语义类别的详细性能。在YouTube-Object数据集上的实验结果表明，该方法在大多数对象类别和平均性能上都优于以往的方法.在DAVIS数据集上在某些类别中，如“狗”和“公园”，可以观察到明显的性能提升。实验结果表明了该方法的有效性. 我们还将一些实验结果形象地显示在图中。二、失败的情况可能是由于前景对象及其周围背景区域之间的高度混淆的外观以及有限的训练数据造成的。3.3. 模型分析在本节中，我们首先通过将SPFTN与表中所示的几种基线策略进行比较来验证SPFTN的有效性。3. 从实验结果中，我们可以观察到：由于更强的监督，通过使用[39]中的对象检测器获得的分割建议可以获得更好的性能2）直接使用PTnet不能获得令人满意的分割结果，因为网络只编码一般对象知识，不能识别43274437图2.我们的实验结果的一些可视化的例子前两列中的示例来自YouTube-Object数据集。其他例子来自DAVIS数据集。最后一列是失败案例的例子。表3.与YouTube-Object上的其他基线进行比较基线IOU所采用的分割建议0.510由目标检测器0.561PTnet：关于MSRA的0.507Cnet：微调PTnet w/o SPL0.563Cnet+updation：另外更新GT0.575Cnet-Imagenet：Cnet w/o使用MSRA0.555OURS-Imagenet：OURS（不使用MSRA）0.602OURS-GC：OURS w/o团体课程0.623我们0.631特定的语义在给定的视频。3)Cnet和Cnet+更新只能在有限的程度上提高PTnet的性能，甚至削弱性能，如在“汽车”类别，由于缺乏有效的学习机制，以克服数据歧义下4)拟议的SPFTN持续优于其他基线，因为其学习程序由SPL机制指导5）与传统的自定步正则化器相比，所提出的基于群步长的正则化器能有效地提高性能6)在显著性对象数据集上进行预训练可以编码有用的显著性先验，这有利于在弱监督下的学习。然而，在不使用这种先验知识的情况下，我们的方法（OUTS-Imagenet）仍然可以超越大多数最先进的方法。然后，为了进一步证明所提出的自步调正则化器的有效性，我们为所提出的学习框架配备了不同的自步调正则化器，并比较了DAVIS数据集上的实验结果。表4中报告的结果表明，在所提出的组curriculum正则化器中使用的每个正则化项都可以有益于学习过程，而同时使用它们两者可以获得更显著的性能增益。此外，所提出的正则化器也可以优于自步调正则化器在状态-表4.在DAVIS上评估自步速调节器不同的正则化器IOUOURS-GC：OURS w/o团体课程0.569OURS-GC 2：OURS w/o GC中的0.584OURS-GC 1：OURS w/o GC中的0.589样本多样性项为[13]的OURS0.583我们0.612最先进的自主学习方法[13]。另一个有趣的实验是看看所提出的方法是否可以利用可能容易收集的阴性样本。为此，我们简单地使用了负面挖掘方法[38]来帮助选择初始方案。我们在航空课上训练了十次网络。负面数据是从其他类别中随机抽取所获得的性能范围为0.76至0.83，这可以改善我们的结果（0.81），但不稳定，正如我们在前面的部分中分析的那样。4. 结论本文提出了一种新的SPFTN为基础的框架工作分割对象的弱标记的视频。通过将自主学习机制和DNN的学习功能集成到统一兼容的框架中，所提出的方法可以在弱监督下有效地微调DNN。在大规模YouTube-Object和DAVIS数据集上的综合实验证明了完整的SPFTN框架和新提出的组曲率正则化器的有效性在未来，我们计划进一步改进学习机制，并将其应用于其他弱监督学习任务，如弱监督图像分割[23，21，14]和共显性检测[34]。鸣谢：这项工作得到了中国国家科学基金的部分资助，资助号为61473231、61522207、61373114和61661166011。43274438引用[1] Y. Bengio，J. Collobert和J.韦斯顿当前学习。InICML，2009.[2] T.布洛克斯和J·马利克通过点轨迹的长期分析的对象分割。ECCV，2010年。[3] X. 昌，Y.Yang，G.隆角，澳-地Zhang和A.G. 豪普特曼-n. 零示例事件检测的动态概念合成。在AAAI，2016。[4] T. 陈湖，澳-地林湖，澳-地Liu，X.Luo和X.李Disc：通过渐进式表示学习进行深度TNNLS，27（6）：1135[5] M. Cheng，N. J. Mitra，X. Huang，P. H. Torr和S.胡基于全局对比度的显著区域检测。TPAMI，37（3）：569[6] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。[7] J. Han，D. Zhang，X.胡湖，加-地Guo，J. Ren，and F.吴基于背景先验的深度重构残差显著目标检测。TCSVT，25（8）：1309[8] G. Hartmann，M.Grundmann，J.霍夫曼D.Tsai，V.夸特拉岛，O.Madani，S.维贾亚纳拉辛汉岛Essa，J.格，以及R.苏克坦卡从网络视频中分割对象的弱监督学习。ECCV，2012年。[9] S. D. Jain和K.格劳曼视频中的超体素一致前地传播。2014年，在ECCV[10] K. R. Jerripothula，J.Cai和J.元猫：用于视频协同定位的协同显著性激活的轨迹片段选择在ECCV，2016年。[11] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在ACM-MM，2014年。[12] L. Jiang，中国粘蝇D.孟氏T.Mitamura和A.G. 豪普特曼首先简单的样品：零示例多媒体搜索的自定进度重排序。在ACM-MM，2014年。[13] L. Jiang，中国粘蝇D.孟，S.- I. Yu，Z.兰，S. Shan，和A.豪普特-曼。自主学习与多样性。在NIPS，2014。[14] A. Kolesnikov和C. H.蓝伯特播种、扩展和约束：弱监督图像分割的三个原则。在ECCV，2016年。[15] M. P. Kumar，B. Packer和D.科勒潜变量模型的自定进度学习。在NIPS，2010年。[16] Y. J. Lee、J. Kim和K.格劳曼视频对象分割的关键段。见ICCV，2011年。[17] N. Liu，J. Han，D. Zhang，S. Wen和T.刘某使用卷积神经网络预测眼睛注视CVPR，2015。[18] X. Liu，L.陶，M.宋，Y。阮角，澳-地Chen和J.布弱监督多类视频分割。CVPR，2014。[19] D.孟角，澳-地Zhao和L.蒋自定进度学习的目标究竟是什么？arXiv预印本arX-iv：1511.06049，2015年。[20] A. Papazoglou和V.法拉利无约束视频中的快速对象分割。InICCV，2013.[21] D. Pathak，P. Krahenbuhl，and T.达雷尔。用于弱监督分割的约束卷积神经网络在ICCV，2015年。[22] F. Perazzi，J. P.- T. B.麦克威廉斯湖Van Gool，M.恶心，A。索金-霍恩视频对象分割的基准数据集和评估方法。在CVPR，2016年。[23] P. O. Pinheiro和R.科洛伯特使用卷积网络从图像级到像素级标记。CVPR，2015。[24] A.普雷斯特角Leistner，J.奇韦拉角Schmid和V. Ferrar-i.从弱注释视频中学习对象类检测器。CVPR，2012。[25] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。[26] K. Tang，V.拉马纳坦湖Fei-Fei和D.科勒移动重量：将物体探测器从图像适配到视频。NIPS，2012年。[27] K. 唐河，巴西-地Sukthankar，J.Yagnik和L.飞飞弱标记视频中的区分性片段注释CVPR，2013。[28] B. Taylor，V. Karasev，and S. Soattoc。基于持续性遮挡的视频对象因果分割。CVPR，2015。[29] A.托拉尔巴用于对象检测的上下文启动。IJCV，53（2）：169[30] Y.-- H. Tsai，G. Zhong和M.- H.杨视频中的语义共分割。在ECCV，2016年。[31] W. Wang，J. Shen，and F.波里克利显著性感知测地线视频对象分割。CVPR，2015。[32] M. Yuan和Y.是林书分组变量回归模型的选择与估计皇家统计学会杂志：Series B（Statistical Methodology），68（1）：49- 67，2006.[33] D. Zhang，J. Han，L. Jiang，S. Ye和X.昌揭示无约束视频采集中的事件显著性。TIP，26（4）：1746[34] D. 张，J.汉角，澳-地Li，J.Wang和X.李通过观察深度和广度来检测共同显著的物体IJCV，120（2）：215[35] D. Zhang，O.Javed和M.Shah. 通过空间精确和时间密集提取主要对象区域的视频对象CVPR，2013。[36] D. Zhang，L.孟角，澳-地利湖，澳-地江角，澳-地

下载后可阅读完整内容，剩余1页未读，立即下载