弱监督视频演员动作分割模型的学习方法总结

47 浏览量更新于2023-10-25 收藏 1.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9901基于智能选择的弱监督视频演员-动作分割模型的学习Jie Chen Zhiheng Li Jiebo Luo Chenliang Xu罗彻斯特大学计算机科学{jiechen，zhiheng.li，jiebo.luo，chenliang.xu}@ rochester.edu摘要我们解决了弱监督视频演员动作分割（VAAS），它扩展了一般的视频对象分割（VOS），以额外考虑演员的动作标签。VOS上最成功的方法是合成一个伪注释池（PA），然后迭代地对其进行优化。然而，他们面临的挑战是如何从大量的PA中选择高质量的，如何设置一个适当的弱监督训练的停止条件，以及如何初始化与VAAS相关的PA。为了克服这些挑战，我们提出了一个一般的弱监督框架与明智的选择训练2图1.两阶段WS2用于弱监督VAAS。阶段-样本和模型评价准则（WS）. 相反21（左）：仅给出视频级演员-动作标签，2D-Conv和盲目信任质量不一致的PA，WS采用一个基于学习的选择，以选择有效的PA和一个新的区域完整性标准作为弱监督训练的停止条件。此外，一个三维Conv GCAM的设计，以适应VAAS任务。大量的实验表明WS2在弱监督的VOS和VAAS任务上都达到了最先进的性能，用最好的全监督的方法来进行1. 介绍视频演员动作分割（VAAS）最近受到了社会的极大关注[46，45，47，14，28，13，6]。从一般的视频对象分割（VOS），其目的是分割出前景对象的扩展，VAAS更进一步，通过分配一个动作标签的目标演员。单个帧内的空间信息可能足以推断出演员，但仅凭它很难区分动作，例如，跑步vs. S走路。 VAAS需要视频的时空建模。一些现有的工作已经解决了这个问题，使用基于超体素的CRF [45]，双流分支[14，13] ，与 2D-/3D-FCN 集成的 Conv-LSTM [28] ，涉及Mask-RCNN [13]的3D卷积，或者在句子的指导下而不是预定义的演员-动作对[6]。Al-3D-Conv GCAM输出角色和动作掩码（从参与者和行动引导的注意力地图）。通过SLIC [1]对掩码的并集进行细化，从而为整个训练集提供了目标演员执行特定动作的粗略位置。这构建了PA的初始版本（PA.v0）。第二阶段（右）：PA通过选择-训练-预测迭代循环进行演变。首先，我们从最新版本的PA中选择一个高质量的子集来训练分割网络。训练好的模型用于预测PA的下一个版本。当验证集上的模型区域完整性准则收敛时尽管这些完全监督的模型在演员-动作数据集（A2 D）[46]上显示出了令人鼓舞的结果，但广泛的像素级注释的缺乏阻止了它们应用于现实世界的应用。我们在弱监督设置中接近VAAS，在这种设置中，我们只能访问视频级别的演员和动作标签，这样，通过受益于丰富的视频数据而无需细粒度的注释，可以提高模型的泛化能力我们所知道的A2D上唯一现有的弱监督方法是Yan等人。[47 ]第47段。他们的方法用排序SVM取代了[45]中的分类器，但仍然使用CRF进行实际分割，这导致推理缓慢。我们考虑弱监督VOS，一个更广泛研究的问题。为了填补全面监督和弱监督之间的空白，一条线的作品首先合成一个池9902伪注释（PA），然后迭代地完善它们[5，49，21]。这个合成-细化方案与我们的工作关系最密切，但面临以下挑战：挑战1：如何从大量的PA中选择高质量的PA？一般来说，PA是由无监督的对象建议[17，39，22]，超像素/超体素分割[1，18]，或从低级特征推断的显著性[42因此，当存在背景杂乱、多个类别的对象或运动模糊时，它们很难处理具有挑战性的情况。VOS性能在很大程度上受到缺乏PA选择机制[53，37]的模型的PA质量的限制，或者仅仅依赖于手工制作的过滤规则[12，19]，这些规则几乎不能推广到更广泛的情况。为了应对这一挑战，我们在大量PA中进行基于学习的明智选择，而不是盲目信任整个PA集。我们将证明，只有大约25%-35%的完整PA，图2. 由演员和动作引导的注意力地图。最终转换为带有操作标签的PA简而言之，我们提出了一个一般的Weakly-S模型框架，具有训练样本和模型评估标准的WiseS因此我们将其命名为WS2，图1描述了该框架。在第一阶段，注意力地图为每个帧生成并且随后被细化以产生用于初始化分段网络的边缘尖锐的PA。在第二阶段，我们设计了一个简单但有效的选择-训练-预测循环来促进PA进化。在一种新的区域完整性准则下，对视频分割的性能进行了实验研究PA设法为细分网络提供更高效和更有效的监督，单调增强。定制上述通用WS2到在测试集上，全 PA 对应物的平均交叉与联合（mIoU）比为4.46%，相对提高22%（参见表1）。请注意，[20，49，50]中有另一个选择标准，重点是简单/困难的样本，而我们的是好/坏。它们是完全不同的。挑战2：如何为弱监督训练选择合适的停止条件？在监督训练中，在验证mIoU收敛时停止训练是安全的。然而，当计算时，当获得的验证mIoU不再可靠时，它变得复杂具体的VAAS任务是通过增加一个行动指导注意力地图所获得的建议3D-Conv GCAM，它发挥了补充作用，其2D计数器的一部分，在捕捉运动判别部分的帧。例如，在图2的前两对中，其中鸟和成年人正在行走，在动作分类上训练的3D-Conv GCAM发现腿周围的区域在识别行走时最具区别性，而不管成年人的腿和鸟的腿之间的外观差异由于完全缺乏真正的地面事实，对PA进行了抨击。固定训练迭代概括而言，我们的贡献如下：• 我们提出了一个有效的两阶段框架WS2为这是一个简单而粗暴的解决方案[32，37]。相反，我们提出了一种新的无参考度量区域完整性准则（RIC）-不盲目信任PA，并在模型评估中注入一定的边界约束。RIC的收敛作为训练的停止条件。此外，事实证明，具有最高RIC的模型总是比具有使用PA计算的最高mIoU的模型产生更好的下一版本的PA（参见表2）。挑战3：如何初始化PA时，行动被认为是与演员？这是一个关于VAAS的问题。最近在弱监督图像分割[44，32，19]和VOS [9]方面的工作表明，梯度加权类激活映射（GCAM）[31]能够从注意力图生成初始PA。然而，GCAM是用由二维卷积组成的网络实现的，并在对象标签上进行训练;我们将这种类型的GCAM表示为2D-Conv GCAM。因此，它只能像对图像那样逐帧地对视频数据进行操作。时空动力学不能被2D-Conv GCAM捕获。受3D卷积在动作识别中的成功[3]的启发，我们将2D-Conv GCAM扩展到3D-ConvGCAM，以生成动作引导的注意力地图，一种新的选择训练预测循环和一个新的区域完整性标准，以确保分割能力的单调增加。• 我们使用3D-Conv GCAM模型定制WS2，以可靠地定位视频中的运动识别部分，为VAAS任务生成带有操作标签的PA• 我们的模型在YouTube-Object数据集上实现了最先进的弱监督VOS [33，11]，以及A2 D上的弱监督VAAS，与最好的全监督模型[13]相当。2. 相关工作除了上述用于VOS或对象检测的合成细化方案的弱监督模型[36，51]之外，我们还总结了关于弱监督视频对象分割以及动作定位的其他VOS 动作提示是一个很好的知识来源。使用光流，Pathaket al.[26]将一起移动的前景像素分组为单个对象，并将其设置为片段。一个面具来训练模型。类似地，[49]中的PA使用光流从分割建议初始化9903MaxMaxMaxMaxMax并输入到一个自定节奏的微调网络中。Tokmakov等人[37]建议从运动分割获得前景外观，并从仅用视频标签训练的完全卷积神经网络获得然后，通过基于图的推理将外观组合以生成最终标签。然而，我们试图避免光流在我们的设计，由于它无法处理大的运动和亮度恒定的约束。非参数分割方法的使用也很常见。例如，提取中级超像素/体素用于弱监督语义分割[16]和人类分割[21]。Tang等人[34]在弱监督学习中实施归一化切割（NC）损失。由于伴随着相对较强的监管--乱写乱画，该模式已经实现了弱监督VOS的算法1WS2要求：弱标记视频帧{fi}，训练分类器Φ1：#第1阶段：初始PA生成2：对于f∈{fi}do3：生成注意力图S=GCAM（Φ，f）4：生成初始掩码Minit =大津（南）5：生成细化掩码M细化 =SLIC优化（M初始化）6：PA.v0={M细化}7：#阶段2：迭代PA演进8：设置当前版本i= 09：做10：从PA选择高质量PA的子集11：RICi= 0，在vi处达到的最大RIC12：做13：使用PAselect训练model.v i图14：使用RIC对当前时期的模型.v i求值85%的全监督精度，即使没有NC损失。模拟15：如果RIC >RICi然后类似地，在[35]中，浅正则化器，即，舒张16：RICi=RICMRF/CRF潜力被纳入损失。因此，该模型可以取消PA的显式推理17：验证集上的RIC不收敛18：使用RICi通过model.v i生成新版本PA.v i ++动作定位。Mettes等人[23]介绍五种19：当RICi在验证集上不收敛提示，即，行动建议，目标建议，人员检测-运动和中心偏置，用于动作感知PA生成，以及用于自动选择和组合它们的相关性度量。相比之下，我们提出的3D-Conv GCAM通过将所有内容包装在统一模型中而简单得多。3. 用于弱监督VOS的WS2第20章：我是你的女人算法2掩码细化要求：初始掩模Minit，SLIC超像素{pi}，α，β1：Pselect=02：对于p∈{pi}，3：如果IoU（p，Minit）> α，则4：如果R面积=面积（pi）<β则pi面积（帧）在本节中，我们将说明如何设计两阶段5：P选择添加pS26：M细化=P选择弱监督视频对象分割的WS框架心理状态第一阶段提供了对整个训练集进行像素级监控。第二阶段通过选择-训练-预测循环的迭代来不断改进PA在每个周期中，选择一部分更可靠的PA来训练分段网络，该分段网络依次通过推理来预测PA的新版本，然后重新开始新的周期整个itera-当每个周期中的最高RIC收敛时，停止算法1中显示了整个WS2方法。3.1. 初始伪注释生成我们首先将2D-Conv GCAM [31]应用于视频帧，以使用在对象标签上训练的分类网络训练帧在视频上均匀采样。随后使用Otsu阈值[24]将获得的注意力图转换为二进制掩码Minit，这产生了最佳阈值，使得类内方差最小化。请注意，从最后一个卷积层计算的注意力图具有低分辨率（通常大小比使用ResNet-50的输入大小小16倍），所得的Minit主要是一个斑点，其几乎不能用作合格的PA来为分割网络提供监督，7：returnMrefine精确地定位物体的边界。这个问题自然地建议使用简单线性迭代聚类（SLIC）[1]，这是一种快速的低级超像素算法，以其能够很好地坚持对象边界而闻名我们将Minit施加到SLIC分割图上，从而将Minit作为超像素{pi}的选择器。超像素选择过程在算法2中描述。基本思想是选择与M_init具有足够重叠的超像素P1（行3），同时P1不太可能是背景超像素（行4）。一些过大的前方对象可能会被第4行拒绝，但在高召回率和高精度之间存在权衡。对于PA.v0，我们的目标是为网络构建一个更精确的PA。图8（I-R）中的结果显示，我们的模型设法逐渐描绘出大型物体的整个身体。最后，所选择的超像素的并集构造经细化的掩模Mrefine。图3示出了超像素选择过程如何细化初始斑点状掩模：假阳性部分（红色）被移除，而假阴性部分（绿色）被完全恢复。这样的改进有效地9904FGBG图3. 遮罩细化算法的可视化结果。对于每组（左→右）：输入帧，SLIC分割图，初始掩码为红色-黄色，细化掩码为绿色-黄色的掩码细化结果。图4. 通过放松的标准从PA.v0中选择训练样本。相邻相似帧之间的PA提供了物体的柔性信息，以恢复其完整的身体。PA上的边界约束，这对密集（逐像素精确）分割任务非常关键。3.2. 迭代PA演进PA.v0的质量在整个训练集上是不一致的，因为一些具有挑战性的情况很难在初始PA中处理。为了提高PA的整体质量，我们设计了一个选择训练预测机制。首先，选择PA的子集来训练分段网络。一旦网络经过良好的训练，它将对完整的训练集进行预测，作为PA的新版本。相同的选择-训练-预测过程迭代地重复，直到RIC收敛。选择标准。如果PA用清晰的边界覆盖整个对象（严格标准）或覆盖对象的最有区别的部分（宽松标准），则PA被识别为高质量。满足放松的标准意味着如果只有伪注释的前景部分可见，则分类器容易预测其类型。如图4所示，这种优势似乎有可能使PA劣于训练样本。然而，这些样本仍然是有价值的，因为它们提供了丰富的训练样本和精确的定位。而且，它的不准确性可以通过视频数据中的时间一致性来弥补，因为通过聚集相邻相似帧中的信息，分割网络仍然可以学习拼凑对象的整个身体，尽管注释中存在噪声。以图4中的视频剪辑为例，可以从相邻帧t4中检索帧t5中丢失的手臂。为了使用上述标准选择训练样本，我们使用了两个网络-剪切粘贴补丁识别器和对象分类器，如图5所示。受[29]的启发，符合严格标准的样本将覆盖具有清晰边界的整个对象。有了这样的图5. 选择高质量PA的子集进行培训。对于PA的最新版本，我们可以生成一个前景补丁（橙色虚线），它包含对象和相应的随机裁剪的背景补丁（蓝色虚线）。然后我们使用PA蒙版剪切如果该块通过了二进制分类器或对象分类器的测试，则将选择其PA来训练分割网络。掩模，我们可以裁剪出前景对象并将其粘贴到从同一视频中提取的另一个背景区域，并且剪切和粘贴补丁对于二进制识别器来说仍然看起来是真实的然而，匹配放松的cri-weighting的样本只要掩模揭示了对象的某个可区分部分，它就会向对象分类器发送一个强信号，并引导它识别其对象类别。为了准备这两个网络的输入，我们首先对每个视频的前景补丁{p i}和背景补丁{p i}进行采样。前景面片是包围伪注释对象的正方形，背面面片是包围伪注释对象的正方形。地面斑块是那些不包含任何伪注释对象的斑块（背景斑块大多数靠近帧边界或来自风景镜头的帧）。每个前景块与相同大小的背景块耦合请注意，它们不一定需要来自同一帧，但需要来自同一视频。它在近景拍摄中特别有用，在这种情况下，前景几乎占据了帧的整个部分，或者当有多个对象时。在这些情况下，在同一帧中几乎没有足够的空间用于其配对的背景补丁。与Remez et al的关系[29]第10段。注意我们的框架与基于图像的剪切和粘贴模型[29]有两个不同之处。首先，他们的弱监督模型是在边界框级别的监督下，而我们的任务对于视频级别的标签具有更高的复杂性。其次，它们采用了GAN框架，其中生成器试图在GAN损失的指导下将输入边界框细化为紧密的掩码，而我们的模型是一个迭代的演化框架，在该框架中，搜索器扮演选择器的角色，以挑选高质量的PA进行训练。在我们的框架中没有生成器或对抗性损失，这简化了训练过程。9905行动DMM3.3. 区域完整性准则（RIC）如果没有真实的地面实况的监督，就很难正确地评估训练模型。在每个选择-训练-预测周期结束时，如果仅考虑使用PA计算的平均交集（mIoU）来评估验证集上的模型：mIoUPA=mIoU（M精炼，PA），（1）其中，Mrefined是细化的网络预测，它可能会误导网络学习PA中的噪声。在缺乏地面实况注释的情况下，我们因此引入了一个新的无参考度量，称为区域完整性指数（RII）。该度量在某种程度上估计预测从低级视角恢复了前景对象的整个主体的程度。如图3所示，初始掩模可以通过SLIC超像素进行细化如果在细化之前和之后的掩码的差异较小，则其指示Minit已经相当精确。因此，我们以测量Minit与其细化版本Mrefine的接近程度的方式定义RII：RII= mIoU（M初始化，M细化）。（二）因此，使用将mIoUPA1与RII相结合的区域完整性标准（RIC）来评估经训练的模型：RIC=mIoUPA+αRII，（3）其中α=0。5在我们的设置这种设计在模型评估中加入了边界约束，这对于避免自动PA中的盲目信任是必要的实验表明，在每次进化的转折点，图6. 3D-Conv GCAM。以狗跑为例，3D-Conv Network将一个视频片段（由t帧组成）和视频级动作标签，即，运行，作为输入。在反向传播过程中，所有类的梯度都被设置为零，除了运行到1。总的来说，生成与从输入剪辑均匀采样的t’帧相对应的t’动作引导的注意力图，以估计奔跑的狗的稀疏轨迹。为了针对给定的动作标签实现3D-Conv GCAM，我们首先获得一个经过良好训练的动作分类网络，在图6中表示为3D-Conv 模型。然后，我们进行3D-ConvGCAM，用训练好的模型生成动作引导的注意力图。演员动作注意力地图生成。GCAM [31]在弱监督学习中非常受欢迎[44，9，32，19]，因为它可以定位最具外观区分力的区域纯粹使用用图像级标签训练的分类网络。我们将GCAM从2D扩展到3D，以产生VAAS的动作引导注意力图。如图6所示，动作注意力图被计算为最后一个卷积层中特征图的加权平均值。具体地，对于目标动作类c，独热向量yc被反向传播到fea。最后一个卷积层的真实映射{Am}，权重c是相对于第m个特征图Am的梯度：由最高RIC模型生成的版本PA始终c1无菌包装yc优于最高mIoUPA模型。另外我们当用于最高的RICωm=Z我ijkJK、（四）每个版本都是一致的。其中Z是归一化因子。一旦重量4. 用于弱监督VAAS的WS2在典型的VOS中，每个像素被分配一个对象la。获得的，动作引导的注意力图Sc计算人：′Σ可以称为-而在VAAS中，它是一个演员动作标签。适应2C行动 =ReLU（ω cA m）。（五）在VAAS的基础上，增加了一个m=1阶段1中的其他分支，用于附加操作标签，如图1所示。因此，除了演员引导的注意力地图，以同样的方式产生的弱，与2D-Conv CGAM相比，每个Am 都是一个大小为（t′，h′，w′）的三维特征图，并增加了一个时间维，因此所得到的Sc也是由2D-Conv GCAM、3D-Conv GCAM监督VOS′ ′ ′行动size（t，h，w），其可以被分成t个注意力图提出了生成动作引导的注意力地图。Af-称为二进制阈值，我们取演员的并集，WMSA9906{Sct′action}。一个重要的问题是如何找到′S动作掩码，M=M M作为初始掩码。临界t（t中）刺激响应init演员行动在行动引导的注意力地图中。我们的实证研究结果接下来，按照3.1节中的相同步骤，我们改进斑点状掩模M用SLIC [1]初始化以产生 PA. v0。1为了区分，mIoUGT是基于真实地面实况计算的。这表明统一的抽样效果最好。区分多个实例。使用3D-ConvGCAM作为弱监督的初始化的一个好处是9907图7.注意力地图有助于区分单个演员+多个动作的情况。VAAS是它区分多个实例的能力与[53，10]中的实例定义不同，这里的实例可以是执行不同操作的相同类型的参与者，反之亦然。对于一些包含多个不同演员的简单场景，我们可以将1设置为one-hot向量yc中感兴趣的演员类型，并仅使用演员引导的注意力地图对其进行定位然而，行动者引导的注意力地图不能区分相同行动者类型但执行不同动作的行动者。如图7所示，显示了海滩上的一群鸟，一些鸟在行走，而另一些鸟在飞行。在这种情况下，步行引导和飞行引导的动作注意力地图将突出显示不同的区域，这使我们能够将动作标签分配给相应的演员。鉴于这些观察结果，我们在第5.4节中进一步将3D-Conv GCAM应用于AVA数据集的弱监督时空局部化。事实证明，3D-Conv GCAM显示出巨大的潜力，可以专注于人与之交互的对象。5. 实验在本节中，我们首先介绍了拟议的WS2在弱监督VAAS的A2D和弱监督VOS的YouTube对象上的定量和定性性能。然后将3D-Conv GCAM应用于帧级弱监督动作定位，对AVA数据集的一个子集进行测试，以证明其在人-物交互检测中的应用潜力。5.1. 数据集A2D[46]是包含3782个视频的演员动作视频分割数据集与经典的视频对象分割数据集[27，2，30，11]不同，A2D将演员动作分配给掩码，例如，吃猫总共涉及7个行为体和9项行动。该数据集在无约束视频质量、动作模糊性和多演员/动作等方面具有相当大的挑战性。我们将3036个训练视频分为两部分，2748个用于训练，其余用于验证。YouTube-Object[33，11]由5507个视频镜头组成，分为10个对象类。其中，126个视频镜头在每第10帧中具有像素地面实况注释[11]用于测试，其余的用于按照[43，52，38，49]中相同的常见设置进行训练。AVA[7]用边界框密集地注释了定位具有动作的表演者。选择10类具有明显交互作用和均衡训练数据量的视频进行弱监督动作定位，我们将其称为AVA-10。25.2. 实现细节一般来说，弱监督VOS和VAAS共享两阶段框架，除了后者在阶段1的初始PA生成中具有额外的动作识别网络以考虑动作标签。初始 PA 生成。对于 A2 D ， 2D 和 3D-GCAM 使用ResNet-50 [8]在ImageNet [30]上预训练用于演员分类，并在Kinetics-400 [15]上预训练膨胀的3D Con- vNet（I3D）[3]用于动作识别。为了在A2 D上微调这两个模型，在训练验证集中使用了2794个带有单一演员标签的视频来训练ResNet-50，并选择了2639个带有单一动作标签的视频来训练I3 D。一旦它们经过良好的训练-ResNet-50在单动作测试集上达到87.74%的准确率，I3D在单动作测试集上达到76.60%的准确率-我们将这两个分类网络应用于其各自的GCAM设置，用于演员-/动作引导的注意力地图生成。接下来，通过SLIC对二值化的注意力掩模进行细化，其中阈值设置为α=0。5，β=0。4.第一章对于YouTube-Object，我们遵循类似的过程，只是只有ResNet-50用于对象分类和注意力地图生成。迭代PA演进。为了选择高质量的PA子集，构造了具有五层Conv-LeakyRelu的小网络来区分原始的前地面补丁和剪切-粘贴补丁。请注意，在第1阶段训练的ResNet-50在测试模式中直接用于预测裁剪补丁的演员类型。至于分割网络，我们选择DeepLab- v2 [4]。在训练过程中，网络的输入是从帧中随机裁剪的大小为224×224像素的补丁。我们使用[ 4 ]建议的功率为0.9我们将小批量大小固定为12帧，智力0.9。在测试中，我们为每帧输出全尺寸分割图。一个简单的动作对齐后处理用于统一同一演员的动作标签，因为基于帧的分割网络很难捕捉整个动作的时间信息。2所选的类别是打架/打（一个人），给（一个物体），骑，接电话，吸烟，吃饭，阅读，演奏乐器，喝酒，写作。9908模型设置mIoUGT（执行者-动作）列车组模型评估valtest版本模型评估#帧mIoU GT（a.- a./演员/动作）表1. 第2阶段中具有不同设置的模型变体的比较这些设置指定模型是在来自完整训练集的PA上训练还是仅在选定子集上训练。而在每一次PA版本升级中，无论是有效期最高的型号选择mIoU PA或RIC来预测PA的下一版本。视频，这可能导致出现在多个帧中的同一演员的动作不一致。为了解决这个问题，我们对相邻帧进行轮询，并将具有最大投票的动作标签分配给感兴趣的演员。该过程类似于有效时间段网络[41]，其属于视频级动作识别，而我们的是实例级。评估指标。我们使用所有类的平均交集（mIoU）来评估模型的性能。为了与A2D上的弱监督模型[47]相比，我们还采用了平均每用于评估的类像素精度（CLS ACC）和全局像素精度（GLO ACC5.3. 弱监督VAAS VOS我们首先研究了A2D上迭代PA进化中然后我们来-2mIoUPA-完整5612031.72 / 41.54 /39.06PA.v2RIC-完整5612032.36 / 42.34 /39.94RIC-选择1245533.35 / 42.27 /41.16mIoUPA-完整5612033.05 / 42.84 /41.07PA.v3RIC-完整5612033.64 / 43.99 /42.22RIC-选择1833034.76 / 43.60 /42.31表2. 在由具有最高mIoU PA或最高RIC的模型产生的完整/选定训练样本上的PA的定量比较。在这里，一。- a.表示演员动作。覆盖整个对象。相比之下，整个集合中存在更多的噪声和不一致性，这可能会混淆模型并阻碍其收敛。更重要的是，在子集上训练模型的效率要比在全集上训练模型的效率高得多，训练帧要少65%-75%。使用RIC而不是普通的mIoUPA也有助于我们在每次PA版本升级中选择更好的模型。由噪声PA计算的mIoUPA不能保证评估模型的真实性能，如在全监督设置中有可能高验证性的模型mIoUPA还可以产生噪声预测，将我们的WS模型与其他最先进的模型完全兼容，A2D和YouTube对象上的弱监督方法。2[49]第49话：我的心为了解决这个问题，我们提出考虑mIoUPA和RII两者的RIC（等式2）。（3）第三章。结果表明，WS优于所有视频级弱-监督模型具有甚至与完全监督模型高度竞争的性能5.3.1消融研究迭代PA演进在选择-训练-预测循环中运行，其中训练不比在完全监督设置中训练分段网络更特殊影响PA可以通过迭代改进多少的两个关键因素主要在于1）与原始全集相比所选择的训练样本的总体质量，以及2）与普通mIoUPA所选择的模型相比，RIC所选择的用于预测PA的下一版本的模型的性能。为了定量评价它们各自对最终模型的贡献，我们使用表1中的三种模型变体进行了消融研究。结果表明，在子集上训练的Model-S优于在完整PA上训练的Baseline，因为所选择的训练样本具有更高的质量。它也在表2中验证，训练样本由真实的地面实况评估。所选子集的mIoUGT总是高于全集，这意味着所选训练样本往往具有更清晰的边界和完整性RII测量掩模前后的形状变化率。称为SLIC细化。由于细化将分割边界拖得更靠近真实对象高RII），则很可能原始预测已经产生了近似地面实况分割图的边缘保留掩模表2清楚地表明，最高RIC模型比最高mIoUPA模型产生更好的下一版本的PA5.3.2与最新方法的比较A2D 我们将我们的弱监督模型与VAAS任务中最先进的全监督和弱监督模型进行了比较。表3表明，我们的模型通过迭代进行迭代，最终达到最佳全监督模型的72%[13]，这实际上是一种利用光流进行动作识别的双流方法为了与我们已知的A2D上唯一现有的弱监督模型进行公平比较，我们在表4中报告了[47]中使用的评估指标。图8显示了模型PA.v0init-full5612023.31 / 31.97 /29.26初始选择824325.67 / 33.62 /31.14基线充分子集mIoUPAmIoUPARic24.6220.38Model S27.6524.84WS229.3226.74mIoUPA-完整5612028.58 / 38.21 /35.67PA.v1RIC-完整5612029.27 / 38.92 /36.86RIC-选择1466932.99 / 41.47 /39.339909模型[33][48][25][42][40][49]WS2Miou23.9 39.1 46.8 47.7 54.1 60.4 62.3 63.164.7表3. 在A2D测试集上与最先进的全监督模型进行比较。下标表示最佳全监督模型的性能百分比[13]。模型CLS访问全球访问Yan等人[47个]41.7/--81.7 83.1 /83.8我们的（model.v3）43.06 / 49.16 /35.1287.10 / 91.30 /87.44表4. 在A2D测试集上与最先进的弱监督模型进行比较CLS_ACC和GLO_ACC以演员-动作/演员/动作的顺序示出。图8.模型预测在某些困难试验上的进展表5. 与YouTube-Object数据集上最先进的视频级弱监督模型进行比较。该模型在其早期版本中有时不能输出合理的东西。它的能力随着PA的发展而逐渐增长，最后它得到了正确的预测。至于不太复杂的情况，模型能够在其早期版本中捕捉演员的近似位置，但预测的掩码可能会遭受欠分割/过分割，或错误的动作标签，这些都是由后来的版本自我纠正的YouTube-Object。WS2 实现有前途的细分市场，站结果优于以前的视频级弱监督方法，如表5所示。补充视频中给出了定性结果。5.4. 弱监督动作定位为了进一步验证所提出的3D-Conv GCAM在定位视频中的运动判别部分中的能力，我们将其应用于AVA-10上的弱监督时空动作我们在AVA-10上训练了一个I3D [3]动作分类网络，只有帧级监督（没有边界框）。在测试模式下，I3 D预测一个动作标签，3D-ConvGCAM使用该标签处理最相关的区域。补充材料中的注意力图的可视化表明，3D-Conv GCAM可以准确地定位与个人交互的对象，例如吸烟者的雪茄，或给予/提供某物的人的手。6. 结论仅给定视频级分类标签，我们解决了弱监督VOS和VAAS问题。两级2提出了一个名为WS的框架，以克服常见的样品每行显示两个样本（左→右）：输入帧，从v0到v3的模型预测，地面实况（GT）。虽然在GT中完全没有像素级注释的情况下，我们的模型仍然可以处理挑战性的情况，如遮挡（g-L，i-L，j-L），视野外（a-L，j-R），低照度（c-L，b-R，e-R），小对象（d-R，h-R），模糊（k-L），多类型演员（f-L，k-R），快速运动（j-R），背景杂波（a-R，g-R）等。通过不同的版本进化。特别是对于具有挑战性的情况，例如在a-L中只观察到成人的上半身时一个男孩用毛巾盖住头的情况（g-L）在一开始确实给我们的模型带来了困难，它最终在model.v3中解决了这个问题在其他困难情况下，例如背景杂乱、运动模糊、低照明、遮挡、视野外和小尺度，面临的挑战，许多合成细化方案为基础的方法，是最成功的弱监督VOS。我们提出的选择-训练-预测循环利用与[29]不同的剪切和过去模型来有效地选择高质量的PA，并进行定制以处理视频。提出了新的区域完整性准则（RIC），以更好地指导训练的收敛，在缺乏地面真值分割在A2 D和YouTube-Object上的大量实验表明，WS2在弱监督方法中表现最好。我们提出的框架和技术是通用的，可以用于其他弱监督视频分割问题。致谢。这项工作得到了 NSF 1741472 、 1813709 和1909912的部分支持。本文仅反映作者的观点和结论，而不是资助机构。模型mIoUGT（演员-动作/演员/动作）GPM+TSP [45]19.9 53. 50. 第六十九章. 百分之一TSMT [14]+GBH24.9 67. 第六十四章. 第七十六章. 占7%TSMT [14]+SM29.7 80. 第七十四章. 百分之四十二点二百分之一DST-FCN [28]第90章. 71 .第七十一章百分之四十五点九百分之一Gavrilyuk等人[6]美国34.8 94. 百分之五十三点七106.第二次世界大战占7%Ji等人[13个国家]36.9100%/66.4100%/46.3100%WS2（model.v0）19.4 52. 58.第五十八章第六十七章. 0%的百分比9910引用[1] Radhakrishna Achanta ， Appu Shaji ， Kevin Smith ，Aurelien Lucchi，PascalFua，SabineSüsstrunk，etal. 切片超像素与最先进的超像素方法的比较。IEEE Transactions onPattern Analysis and Machine Intelligence，34（11）：2274-2282，2012. 一、二、三、五[2] Sergi Caelles，Alberto Montes，Kevis-Kokitsi Maninis，Yuhua Chen ， Luc Van Gool ， Federico Perazzi ， andJordi Pont-Tuset. 2018年戴维斯挑战视频对象分割。arXiv：1803.00557，2018年。6[3] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在Computer Vision and PatternRecognition（CVPR），2017 IEEE Conference on，第4724-4733页中。IEEE，2017年。二、六、八[4] L. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。IEEE Transactions on PatternAnalysis and Machine Intelligence，40（4）：834-848，2018年4月。6[5] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在Proceedings of the IEEEInternational Conference on Computer Vision，第16352[6] Kirill Gavrilyuk ， Amir Ghodrati ， Zhenyang Li ， andCees GM Snoek.从句子中分割出演员和动作视频在IEEE计算机视觉和模式识别会议论文集，第5958-5966页1、8[7] 顾春晖，孙晨， David A.Ross ， Carl Von- drick ，Caroline Pantofaru ， Yeqing Li ， Sudheendra Vijaya-narasimhan ， George Toderici ， Susanna Ricco ， RahulSuk- thankar ， Cordelia Schmid ， and Jitendra Malik.Ava：时空局部原子视觉动作的视频数据集。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。6[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。6[9] Seunhoon Hong，Donghun Yeo，Suha Kwak，HonglakLee，and Bohyung Han.使用网络抓取视频的弱监督语义分割。在CVPR，2017年。二、五[10] RonghangHu，PiotrDolla'r，KaimingHe，TrevorDarrell，andRoss Girshick.学会把每一件事都分割开来在IEEE计算机视觉和模式识别会议论文集，第4233-4241页，2018年6[11] Suyog Dutt Jain和Kristen Grauman。Supervoxel-视频中一致的前景传播。欧洲计算机视觉会议，第656-671页。Springer，2014. 二、六[12] Suyog Dutt Jain，Bo Xiong，and Kristen Grauman.融合-分段：学习结合运动和外观，实现视频中通用对象的全自动分割。在CVPR，第1卷，2017年。2[13] Jingwei Ji ， Shyamal Buch ， Alvaro Soto ， and JuanCarlos Niebles.端到端联合的角色语义切分和行动的视频。在欧洲计算机视觉会

下载后可阅读完整内容，剩余1页未读，立即下载