半监督学习算法生成高质量的时间动作建议

186 浏览量更新于2023-10-12 收藏 1.36MB PDF 举报

文件标签

半监督学习算法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用更少的标签Jingwei Ji，Kaidi Cao，Juan CarlosNiebles斯坦福大学{jingweij，kaidicao，jniebles}@ cs.stanford.edu摘要时间动作建议是当今动作检测流水线中的常见模块大多数当前用于训练动作建议模块的方法依赖于完全监督的方法，其需要长视频序列中的大量注释的这需要大量的成本和注释工作，促使我们研究在较少监督的情况下训练建议模块的问题在这项工作中，我们提出了一个半监督学习算法，专门用于训练时间行动建议网络。当只有少量标签可用时，我们的半监督方法生成的建议比完全监督的对照和其他强半监督基线要好得多。我们validate我们的方法在两个具有挑战性的动作检测视频数据集， ActivityNet v1.3 和 THUMOS14。我们表明，我们的半监督方法始终匹配或表现出完全监督的最先进的方法。1. 介绍世界上有数百万台摄像机，每天都有大量的视频生成和传输。这些视频中一个非常重要的主题是人类执行活动和动作。这促使计算机视觉社区研究用于从视频集合中理解动作的算法动作理解的一个重要任务是动作检测或时间动作局部化，其中目标是在时间上局部化长视频序列内的所有感兴趣的动作。解决这个问题的常见方法是首先生成时间动作建议以定位感兴趣的时间间隔，然后将其馈送到分类器中以获得对应的动作标签。在本文中，我们专注于时间的行动建议模块。为了实现高预测精度，大多数现有的最先进的时间动作建议算法都使用监督式深度学习方法[3，14，15，23]。这种方法需要大量的标记视频。与其他视觉任务（如图像识别）中的标记不同半监督提案图1.只有一部分训练视频标记有地面实况建议，我们的半监督框架可以生成比最先进的全监督方法质量更好的时间动作建议。因此，标记未修剪视频中的动作的时间边界要耗时得多。另一方面是无监督学习方法[34]，其中不需要标签进行训练。虽然它们没有标记的负担，但在许多任务中的整体性能通常不可避免地比监督方法差。当有大量数据可用但只有一小部分被标记时，半监督学习是一个很好的解决方案。与无监督学习不同，半监督学习仍然利用标记数据作为强监督来提高预测精度.与监督学习相比，半监督学习不太可能在小的标记数据集上过拟合，因为它可以利用未标记的数据。半监督学习在图像分类中是有效的[21，25，29，36]，但从未被探索过以帮助生成时间动作建议。在我们的问题设置中（见图1），我们假设在训练过程中，只有一部分视频带有用于监督学习的动作的时间边界标签。与此同时，其他没有标签或注释的视频可用于训练过程。通过将从标记集合中提取的知识扩展到未标记集合，由于未标记数据可以发挥正则化作用，我们可以获得更鲁棒的模型半监督学习方法背后的一个核心理念是训练模型，7073培训标记未标记7074分类边界对随机扰动是鲁棒的。为了找到一个光滑的数据流形，Tarvainen等人。[36]提出了Mean Teacher，它将不同训练迭代的“学生”模型平均我们将这种架构融入到我们的模型设计中。为了提高模型的鲁棒性，在学习模型的输入端引入随机扰动是非常关键的。特别是对于视频中的时间动作建议的任务，扰动应该被设计为有利于序列学习。然而，先前的工作没有提出适当的扰动序列数据，如视频。我们提出了两种类型的序列扰动：时间弯曲和时间掩蔽。Time Warping是一个恢复层，它沿着时间维度扭曲视频序列，为时间敏感的任务（如时间动作建议）时间掩蔽随机掩蔽输入视频的某些帧在训练过程中，掩蔽的学生模型只能看到视频的一部分，而鼓励他们预测与无障碍教师模型预测相同的边界。这些连续的扰动使我们的优化模型更加鲁棒，并更好地推广到看不见的数据。我们的主要贡献如下：（1）据我们所知，我们是第一个将半监督学习纳入时间动作提案以实现标签效率的公司。（2）我们为这个半监督框架设计了两种基本类型的序列扰动，并在时间行动建议的关键实验中对强半监督基线进行了验证。2. 相关工作时间动作检测和建议。给定一个长的，未修剪的视频，时间动作检测的目的是定位每个动作实例的开始和结束时间以及动作类[4，12，14，16，22，33，40]。传统上，许多方法通过以滑动胜利方式穷尽地应用动作分类器来解决该问题[13，19，26，27，37，39]。这些方法在计算成本方面通常是低效的，因为它们需要在整个未修剪视频中的每个位置处覆盖不同长度的时间窗口受最近图像对象检测的建议加分类方法的成功启发，另一组两阶段方法首先提出视频中的动作不可知的时间段，然后对修剪的片段的动作进行Buch等人[3]提出了一种单流时间动作建议生成网络，避免了滑动窗口带来的计算代价。Shou等人[32]使用3D ConvNets生成时间提案。还有端到端框架，可以联合优化提案生成和行动分类。Buch等人[2]为课程培训在端到端的时间动作定位中。Chao等人[8]采用FasterR-CNN [30]进行动作定位任务。上述方法产生的建议往往依赖于预先定义的锚点，缺乏灵活性和时间界限的精确性。相反，Zhao等人[41]将建议生成问题简化为对每个短视频片段的动作性进行分类，由分水岭算法进行后处理。Gao等人[15]和边界敏感网络（BSN）[23]进一步推断视频片段是动作的开始还是结束，以获得更精确的边界，其中BSN已成为ActivityNet Challenge [5]上时间动作建议任务的最新技术。以前的研究致力于开发更好的行动建议模型，并使用标记的视频进行训练。同时，我们探索如何利用未标记的视频来进一步提高建议和检测性能。在这项工作中，我们专注于评估我们的半监督框架与BSN由于其优越的性能，虽然我们的框架的灵活性，使其能够与其他时间行动建议架构以及相半监督深度学习半监督学习有着几十年的丰富历史[9，42]。而不是全面的审查，我们的重点仅限于半监督深度学习。一种常见的方法是通过联合优化标记数据上的监督分类损失以及标记和未标记数据上的额外无监督损失来训练神经网络[21，25，29，36]。一致性正则化被广泛应用于无监督损失，它鼓励模型在原始输入或中间特征图受到扰动时产生一致的输出。在这里，我们总结了一些使用一致性正则化的半监督深度学习阶梯网络[29]包含一个重建分支作为未监督的任务;它们在每个训练步骤中强制编码和解码的激活图之间的一致性损失。模型[21]简化了梯形网络，仅在数据上具有不同扰动的输出之间施加一致性损失。接下来，Temporal Ensembling [21]将一致性损失应用于模型输出和更稳定的目标：每个时期模型输出的指数移动平均值。而不是平均输出，更强大的MeanTeacher [36]在每个训练步骤（a.k.a.）平均模型的权重。“学生”模型）转换为独立的“教师”模型，其输出用作一致性损失中的目标。与上述方法正交，虚拟对抗训练（VAT）[25]提出使用虚拟对抗噪声而不是随机噪声作为数据扰动。在我们的工作中，我们还对学生和教师模型的输出进行了一致性正则化，并提出了时间扭曲和时间掩蔽作为专门针对视频数据的数据扰动。7075编码MTND采样器G序贯扰动标签y时间规整WG（y）监督损失Φ时间翘曲WG（Φ）时间掩蔽WG（Φ）学生提案模型f平均θ老师θ′一致性损失教师提案模型fFfF（Φ）时间规整WG（f<$F（Φ））图2.我们的方法概述。给定一个未修剪的视频作为输入，我们首先将其编码为特征序列Φ。接下来，对Φ应用包括时间扭曲和时间掩蔽在内的序列扰动，学生提案模型将此扰动序列作为输入。相反，教师模型直接预测无障碍Φ。最后，学生模型被联合优化，对标记的视频应用监督损失，对所有视频应用一致性损失。半监督学习也被应用于序列学习。Dai等人[11]提出了一种用于文本分类序列自动编码器。 Pr e'mont-Sch warzetal. [28]将梯形网络与递归神经网络相结合，并在Oc- cluded Moving MNIST数据集上评估其图像分类模型Clark等人[10]提出多语言任务的交叉视图训练。Miyato等人[24]对文本分类应用增值税[25]虽然不是为视频分析设计的，但上述方法[10，28]也包含了对图像中的补丁或句子中的单词进行掩蔽的想法还有关于时间动作检测的弱监督学习的工作[1，7，17，31]，这与我们的半监督设置不同。在弱监督的时间动作检测中，部分训练数据被完全标记有时间边界和动作类，而其余数据被注释有相反，我们不假设在我们的半监督训练中使用的未标记视频的任何类型的标签的可用性，这需要更困难但更有效的标签任务。3. 技术途径我们的主要目标是用相对少量的标签生成高质量的时间动作建议这要求我们最好地利用具有强大监督建议模型的标记数据，同时，使用为视频理解设计的无监督辅助任务来标记未标记数据。虽然我们的方法对特定的建议方法是不可知的，但为了验证半监督框架，我们在最先进的全监督建议生成网络（边界敏感网络）上构建了我们的模型[23]。我们扩展了MeanTeacher框架[36]，使用两种类型的顺序扰动来训练提案模型：时间规整时间面具请参见图2作为我们方法的概述。3.1. 视频编码视频编码的目的是获得压缩的视频表示，其捕获视频的外观和运动模式。给定一个N帧的未修剪视频作为输入，我们首先将其分为非重叠的短片段，每个片段包含δ帧，形成片段序列S={X1，X2，.，其中T=N/δ。如先前的工作[6，38]所示，外观和运动特征都有助于动作为了理解，所以我们对每个视频的RGB帧和光流进行编码，然后将编码后的矢量连接起来。特别地，我们使用[38]作为视频编码器φ，如在完全监督的基线[23]中。编码器生成特征向量序列Φ={φ（X1），φ（X2），.，φ（XT）}∈RT× D. 然后我们喂她-序列的特征向量到以下模块中，小批量。标记的和未标记的视频共享相同的视频编码器φ，并且它们共存于相同的小批量中。3.2. 时间行动建议模型我们的半监督模型是足够灵活的，它可以建立在各种全监督的时间行动建议网络，只要他们采取顺序数据作为输入。具体来说，我们选择了边界敏感网络（BSN）[23]，这是ActivityNet挑战2018中时间行动建议任务的最佳表现与[23]中相同的视频编码被执行为第一步，然后直接将Φ输入BSN建议模型。BSN由一系列两个可训练模块组成：时间评估模块（TEM）和建议评估模块（PEM）。在视频编码之后，TEM将片段特征序列Φ作为输入。序列Φ通过时间卷积传递7076(a)不带时间扭曲带时间扭曲不图3.时间扭曲(a)使用时间规整，我们可以在编码空间中采样更多的片段特征。在这里，我们展示了一个简单的例子，对每个片段特征进行二进制分类（维数减少到1）。在标记的片段特征（实心圆）中重新添加新特征点（空心圆），鼓励学生模型生成更平滑的流形进行预测。(b)为了执行时间弯曲，我们首先对混合截断正态分布进行采样，以生成1-D网格G。然后，我们对特征序列Φ应用网格采样来增加训练数据。三个概率信号的生成：作用性pa∈ RT，起始ps∈ RT，终止pe∈ RT.然后根据这三个信号序列生成建议。最后，PEM预测置信度得分对于每一个建议，指示如何重叠具有最接近的基本事实间隔的建议，以决定该建议是被接受还是被拒绝。有关BSN的更多详细信息，请参阅[23]或我们的补充材料3.3. Mean Teacher Framework现在我们介绍如何构建时间动作建议的半监督学习框架。当只有少量标记的训练样本可用时，像BSN这样的深度模型往往会过度拟合，并且无法从训练集中提取足够的知识来生成看不见的视频。这可以通过半监督学习来缓解，其中未标记的视频也可以用于训练。在没有地面实况标签的情况下，监督分类损失在未标记的视频上是不确定的相反，我们需要引入一个无监督的辅助任务来利用来自未标记视频的信息。作为基线，我们可以直接将Mean Teacher方法应用于时间动作建议模型，以形成半监督学习框架。在这个框架中，有两种模式：学生提案模型fθ和教师提案模型fθ′。学生像在全监督学习中一样学习，其权重θ通过应用于标记视频的监督分类损失进行优化教师建议模型具有与学生相同的神经网络架构，而其权重θ′是通过对来自不同训练迭代的θ进行平均而生成的输出比学生更一致的预测。然后，无监督任务是在学生和教师模型的输出之间施加一致性正则化，并将标记和未标记的视频作为输入。3.4. 序贯扰动在Mean Teacher框架之外，许多半监督学习工作已经发现随机扰动对于学习鲁棒模型至关重要[21，25，29，36]。扰动的典型方式是向特征图添加噪声MeanTeacher [36]将高斯噪声添加到学生和教师模型的中间特征图中，而VAT[25]将对抗性噪声添加到输入中。在视频分析中，我们进一步探索了顺序学习所必需的其他特定扰动我们提出了两个连续扰动：时间扭曲和时间掩蔽。时间扭曲时间规整实质上是一个重采样层，它在随机生成的一维流场网格的引导下，沿时间维对一系列特征向量Φ∈RT×D进行重采样时间扭曲对于半监督的时间动作建议：首先，通过将标签推广到特征空间中未标记的位置，重新采样导致更平滑的预测（图3（a））;其次，时间弯曲作为数据增强的一种方式，为训练提供更多的标记数据，这在我们只有很少标签的情况下特别有用;第三，拉伸和压缩输入信号可以产生更多的变量，以便在某些任务中学习，如时间动作建议，这需要准确的开始/结束位置预测。为了对输入特征序列Φ执行扭曲，通过应用线性变换来计算每个输出特征向量。′ ′i根据密集的一维网格G={gt}在Φ上采样，θi=αθi−1+（1−α）θ（一）其中Gt是对输出FEA进行采样的时间位置。其中α是平滑系数参数，i表示训练迭代。作为集成模型，教师将输入片段特征嵌入到平滑流形中，真向量在执行时间扭曲的关键，网格应该包括长期的失真，减慢视频的某些部分，而加快其他部分;它（MTND pdf生成网格电网G不Φ样品的分布不WG（Φ）经纱MTND采样器70770中国+2时间掩蔽中国+2经常辍学图4.时间掩蔽。与dropout不同，dropout随机将输入中的一些神经元归零，时间掩蔽从随机选择的时间步长中删除整个特征向量。也应该包含短期随机噪声。考虑到这些因素，我们提出了一种混合截断正态分布（MTND）采样器（图3（b））来生成网格。MTND由混合n个截断的正态分布形成n T（μi，σi），i ∈ {1，2，.，n}不同的权重。由于我们只想插值输入序列，分布在开始（0）和结束（T）位置处被截断。均值μi给定一个MTND，我们从其中采样T个位置作为网格G，然后进行变形，得到WG（Φ）∈RT×D.时间掩蔽。除了时间扭曲，我们提出了一个时间掩蔽操作作为另一个源的顺序pertur-训练中的失误。在我们的流水线中，时间掩蔽跟随时间扭曲，并将WG（Φ）作为输入。时间掩蔽的概念很简单：输入序列中的一些片段被学生模型屏蔽，而教师模型可以看到整个通畅的视频序列。我们将时间掩蔽的输出表示为WG（Φ）。在训练过程中，鼓励每次迭代中的掩蔽学生模型生成与教师相同的输出，即使他们无法访问输入视频的全部信息。时间掩蔽可以被看作是一个特殊的Dropout层（图4）。在常规的Dropout层中，一个片段中的神经元不太可能被完全丢弃，这使得模型有机会从感受野中的每个片段中窥视一些信息。相反，在时间掩蔽中，所丢弃片段的任何信息都不会传递到下一层。学生模型将被迫从时间上下文中聚合信息，以对丢弃的片段进行预测。这种时间上下文聚集的能力将从标记视频上的监督损失以及与所有训练数据上的教师模型的一致性两者中学习3.5. 培训训练我们的半监督框架包括两个部分：最小化标记数据的监督损失和所有训练数据的一致性损失。虽然我们有学生和教师模型，但只有学生模型中的权重通过反向传播进行优化，而教师模型中的权重是学生的平均权重。监督损失。与全监督提案模型相一致，我们的半监督框架使用与BSN相同的监督损失进行训练。具体损失情况见[23]或我方补充资料.在我们的半监督框架中，学生提案模型的输出对应于被时间扭曲扭曲的顺序输入。因此，标签y也需要根据MTND采样器生成的相同网格进行重新采样。有着扭曲的标签WG（y），我们将监督损失施加在学生输出fθ（WG（Φ））上.注意，监督损失只能应用于训练集中的标记视频。一致性正规化。一致性损失将教师模型的输出视为标签，并鼓励学生学习像教师一样的光滑流形。与监督损失不同，一致性损失可以是应用于训练集中的标记和未标记视频。类似于我们如何处理监督损失中的标签，我们也将教师的输出扭曲为WG（fθ′（Φ））。然后，一致性损失衡量学生输出与扭曲的教师之间的距离产出：Lcons=D（fθ（WG（Φ）），WG（fθ′（Φ）（2）对于距离函数D，我们在所有实验中使用均方误差。与监督优化相同，只训练学生模型中的权重。一致性损失和监督损失之和为总损失。4. 实验数据集。我们使用ActivityNet v1.3和THUMOS 14进行所有实验。ActivityNet v1.3[5]是一个用于临时动作建议和检测的大型数据库。它包含200个活动课程的19，994个视频，并已用于2016年至2019年的ActivityNet挑战赛。ActivityNet v1.3以2：1：1的比例划分为训练集、验证集和测试集，并在所有视频中标注了动作实例的时间边界。THUMOS 14[18]包含200和213个时间注释的未修剪视频，分别在验证和测试集中包含20个动作类。THUMOS 14的训练集是UCF-101 [35]，其中包含用于动作分类任务的修剪视频。我们不是在这些修剪的视频上训练，而是在验证集中的未修剪视频上训练我们的模型，并在测试集上报告性能。7078AR@50AR@100AR@200评估指标。我们在两个任务上评估我们的方法：时间动作建议和时间动作本地化。对于提案，我们报告了每个视频（AN）的各种平均提案数（AR）。AR被定义为所有召回值的平均值，tIoU阈值从0.5到1，步长为0.05。在ActivityNetv1.3上，AR与AN曲线（AUC）也用作测量，其中AN在0至100之间变化。对于动作定位，我们计算具有不同 tIoU阈值的平均平均精度（mAP）。实施详情。我们遵循与BSN相同的预处理和后处理[23]，包括Soft-NMS中使用的参数。对于ActivityNetv1.3的特征提取，我们使用在Kinetics [20]上预训练的双流网络[38] 与BSN的设置不同，我们的特征没有在ActivityNet分类任务上进行预训练，以避免使用额外的标签，这将污染半监督设置。对于所有THUMOS 14实验，我们使用与BSN相同的视频功能对于半监督训练，我们使用EMA衰减α = 0。999 时间掩蔽中的掩蔽概率固定为0.3。4.1. 临时行动建议以一个长的，未修剪的视频作为输入，我们的方法的目的是产生时间边界确定每个动作实例的开始和结束时间。在本节中，我们将我们的模型在ActivityNetv1.3和THUMOS 14上生成的时间动作建议与全监督BSN和其他最先进的方法进行比较，以验证我们的半监督框架的有效性。与完全监督方法的比较。我们先来-在ActivityNet-1.3上验证行动建议结果-在两个训练设置下设置：（1）我们的半监督框架，其中x %的训练视频标记有时间边界，而100-x %的训练视频没有标记;（2）最先进的全监督学习，其中相同数量的标记视频用于训练，而不使用其他数据通过这种比较，我们可以看到我们的半监督框架在不同的标记/未标记比率下与完全监督框架的表现。为了验证我们的方法的标签效率，我们改变了训练标签的数量，然后测量了我们的方法和原始BSN生成的建议的AUC和AR@100（图5）。在只标记了一部分训练集的情况下，我们的值得注意的是，在只有60%的视频被标记的情况下，我们的半监督模型在AUC和AR@100这两个指标上都优于使用所有标签训练的最先进的全监督 BSN （表 1 ）。同样，我们检查了THUMOS 14的标记效率（图6），并观察到一致的优异性能。AUCAR@100图5.标签效率实验ActivityNet v1.3.通过改变用于训练的标签的百分比，我们比较了由我们的半监督方法和完全监督的BSN对应方法生成的建议的AUC和AR@100。方法SSN[41]CTAP[15]BSN[23]我们的@60%AR@10063.5273.1774.1675.07AUC53.0265.7266.1766.35表1.我们的方法与ActivityNet v1.3上其他最先进的提案生成方法在AR@100和AUC方面的比较。我们优于所有其他方法，同时只使用60%的标签。图6. THUMOS 14上的标记效率实验。我们报告了在训练集中使用不同百分比的标签进行训练时，由我们的方法和香草BSN生成的建议的AR@50、@100和@200。然后，我们比较了THU-MOS 14上的提案生成与强基线模型。表2显示了在每个视频的不同平均提议数下通过平均召回率测量的比较。同样，当我们只使用60%的标签进行训练时，我们的表现优于BSN。此外，当100%的标签可用时，我们的框架可以进一步提高平均召回率。与半监督基线的比较。接下来，我们研究了我们的框架对THUMOS 14提案7079图7.烧蚀实验。我们在不同的超参数选择下评估时间扭曲和时间掩蔽的效果，以找到更好的性能的甜蜜点。表2.在THUMOS 14上，我们的方法与其他最先进的建议生成方法在AR@50，AR@100和AR@200方面的比较。一个@50@100@200@500@1000香草BSN30.2840.7949.0357.5862.35增值税[25]32.4843.1349.1857.6162.49[第36话]35.6144.2051.5158.6662.55MT + VAT35.6344.2151.4958.6462.56MT +辍学35.7344.2551.5658.6762.58我们的-TW36.3144.7952.3058.9762.82我们的-TM37.2445.3752.6559.7463.10我们37.7346.8753.3760.8164.59表3.使用60%的标签训练的全监督和半监督基线之间的比较。我们在THUMOS 14上的各种AN上报告AR。缩略语：VAT用于虚拟对抗训练，MT用于平均教师，TW用于时间扭曲，TM用于时间掩蔽。我们的完整模型优于强大的半监督基线。60%的标签用于培训（表3）。我们首先结合BSN实施和评估VAT [25]VAT的核心思想与VAT应用于文本分类类似[24]，我们将对抗性噪声应用于每个视频片段嵌入，而不是直接应用于原始输入。VAT并没有显著提高平均召回率，部分原因是视频片段嵌入的最坏情况扰动与随机噪声没有显著不同。我们还研究了Mean Teacher的不同变体[36]。香草平均教师只有随机噪声和没有辍学层优于增值税。此外，增加增值税的平均教师没有帮助更好的建议。平均教师与定期辍学进一步提高了建议的质量，但不如我们的方法与时间掩蔽强大。在相同的dropout/masking概率下，尽管常规dropout在每个训练步骤中将与时间掩蔽相同数量的神经元归零，但它为学生模型制定了更容易学习的任务，因为学生可以依赖更多的片段来进行推理。表4.THUMOS 14的测试集上的动作检测结果，我们与建议+分类方法进行比较，其中分类结果由UntrimmedNet [33]生成。最后，我们通过分别去除它们来检验两个提议的序列扰动的贡献。这两个方面都对这些建议做出了贡献，而时间扭曲似乎发挥了重要作用。定性结果。我们可视化我们的半监督方法产生的一些时间的行动建议。图8显示，我们的方法能够生成比完全监督基线在THUMOS 14上，当两者都用60%的标签训练时。4.2. 消融实验为了评估这两种序列扰动的功能，我们在THUMOS14上运行了实验，其中60%的标签具有在时间扭曲和时间掩蔽中使用的不同超参数。时间扭曲中的扭曲程度。时间弯曲的效果取决于从MTND采样器采样的网格。改变截断正态分布以及它们的尺度，MTND可以从几乎均匀的分布变成非常不均匀的分布，这将极大地扭曲输入序列。我们研究的影响，不同程度的扭曲在时间弯曲产生的建议。失真的程度是由KL发散度来DKL（P<$Q）是作为P的采样MTND和作为Q的均匀分布之间的函数。图7（a）显示了一个最佳点其中DKL的数量级为0。01.当DKL接近0时，时间规整的效果减弱;当失真程度太大时，视频的许多部分几乎无法采样，相当于减少了用于训练的标签的数量。时间掩蔽中的掩蔽概率。我们实验了不同概率的零特征向量，特征方法@50@100@200C3dDAPs [14]13.5623.8333.96C3dSCNN-道具[32]17.2226.1737.01C3dSST [3]19.9028.3637.90C3d[第16话]19.6327.9638.34C3dBSN [23]29.5837.3845.552-Stream标签[41]18.5529.0039.61流[第16话]21.8631.8943.022-StreamCTAP [15]31.0340.2350.132-StreamBSN@60%[23]30.2840.7949.032-StreamBSN@100%[23]37.4646.0653.212-Stream我们的@60%37.7346.8753.372-Stream我们的@100%38.4647.5354.10方法0.70.60.50.40.3SST [3] + UNet4.710.920.031.541.2[16]第十六话6.314.124.535.346.3BSN [23] + UNet20.028.436.945.053.3Ours@60% + UNet20.529.537.245.253.4Ours@100% + UNet20.729.937.946.355.17080199.2 199.6206.6211.8212.2212.3800.0801.0806.6807.5808.532.437.237.691.395.299.6161.3161.4162.6167.0229.9231.5243.723.624.427.4 31.631.8 80.781.283.888.288.689.2GroundTruth半全职图8.我们将半监督方法生成的THUMOS 14提案与使用60%标签训练的全监督BSN进行我们还显示了地面真值区间以供参考。将序列馈送到时间掩蔽。如图7（b）所示，p=0。3似乎是一个最佳操作点，给学生带来适当的难度。因此，我们在所有的实验中都修正了这个掩蔽概率。4.3. 时间动作定位生成时间动作提案的最终目标是时间动作本地化，因此我们进一步评估了我们在THUMOS 14上的本地化任务的提案。我们遵循[3，16，23]中的建议加分类两阶段方法。正如BSN所做的那样，我们在不同方法生成的建议之上使用UntrimmedNet [33]预测的前2个视频级别类我们在THUMOS 14上报告了不同时间IoU阈值下的平均平均精度，每个视频有200个建议（表4）。直接比较是与使用所有标签训练的全监督BSN进行比较，其中我们在从0.3到0.7的不同时间IoU阈值上实现了更好的当使用所有标签进行训练时，我们的模型进一步提高了动作定位的性能。5. 结论我们表明，通过采用我们的半监督方法来学习它们的参数，可以以更高的标签效率来训练时态提案模型。我们的半监督框架扩展了平均教师模型，提出了两个顺序扰动视频理解。我们的经验表明，当仅使用60%的标签进行训练时，我们的模型实现了与全监督方法相似的性能，也优于其他半监督基线。此外，我们表明，我们的半监督的建议可以有效地适用于时间动作本地化的问题。致谢。这项工作得到了松下和JD.com美国技术公司（本文仅反映其作者的意见和结论，而不是松下、京东或与松下或京东相关的任何实体的意见和结论。7081引用[1] PiotrBojano wski ， Re' miLajugie ， Franci sBach ， IvanLaptev，Jean Ponce，Cordelia Schmid和Josef Sivic。排序约束下视频中的弱监督动作标注欧洲计算机视觉会议，第628Springer，2014. 3[2] 夏马尔·布赫，维克多·埃斯科西亚，伯纳德·加尼姆，李飞飞，胡安·卡洛斯·尼布尔斯.端到端、单流、未修剪视频中的时间动作检测。在BMVC，第2卷，第7页，2017年。2[3] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。单流临时行动建议。2017年IEEE计算机视觉和模式识别会议（CVPR），第6373- 6382页。IEEE，2017年。一、二、七、八[4] Fabian Caba Heilbron ， Juan Carlos Niebles 和 BernardGhanem。快速时间活动的建议，有效地检测人类的行动，在未经修剪的视频。在IEEE计算机视觉和模式识别会议论文集，第1914-1923页，2016年。2[5] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中，第961-970页，2015年。二、五[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在Computer Vision and PatternRecognition（CVPR），2017 IEEE Conference on，第4724-4733页中。IEEE，2017年。3[7] Chien-Yi Chang ， De-An Huang ， Yanan Sui ， Li Fei-Fei，and Juan Carlos Niebles.D3tw：用于弱监督动作对齐和分割的判别可微动态在IEEE计算机视觉和模式识别会议论文集，第3546- 3555页，2019年。3[8] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在IEEE计算机视觉和模式识别会议论文集，第1130-1139页，2018年。2[9] Olivier Chapelle、Bernhard Scholkopf和Alexander Zien。半监督学习（chapelle，o例如，eds.; 2006）[书评]。IEEE Transactions on Neural Net-works，20（3）：542-542，2009. 2[10] 放大图片作者： Kevin Clark ， Minh-Thang Luong ，Christopher D. Manning和Quoc V.乐具有交叉视图训练的半监督序列建模。在EMNLP，2018年。3[11] Andrew M Dai和Quoc V Le。半监督序列学习。神经信息处理系统的进展，第3079-3087页，2015年。3[12] Xuhuan Duan ， Le Wang ， Changbo Zhai ， NanningZheng，Qilin Zhang，Zhenxing Niu，and Gang Hua.基于逐帧分割的未裁剪视频中的联合时空动作定位。2018年第25届IEEE图像处理国际会议（ICIP），第918-922页。IEEE，2018年。2[13] Olivier Duchenne ， Ivan Laptev ， Josef Sivic ， FrancisBach，and Jean Ponce.视频中人类动作的自动注释。计算机视觉，2009年IEEE第12届国际会议，第1491-1498页。IEEE，2009年。2[14] Victor Escorcia ， Fabian Caba Heilbron ， Juan CarlosNiebles和Bernard Ghanem。Daps：用于行动理解的深度行动建议。欧洲计算机视觉会议，第768-784页。施普林格，2016年。一、二、七[15] Jiyang Gao*，Kan Chen*，and Ram Nevatia. Ctap：补充时间行动建议生成。在ECCV，2018。一、二、六、七[16] Jiyang Gao，Zhenheng Yang，Chen Sun，Kan Chen，and Ram Nevatia.Turn tap ： Temporal Unit RegressionNetwork for Temporal Action Proposals，2017.二七八[17] 黄德安，李飞飞，胡安·卡洛斯·尼布尔斯。弱监督动作标记的连接主义时间建模。欧洲计算机视觉会议，第137-153页。施普林格，2016年。3[18] Yu-Gang Jiang，Jingen Liu，A Roshan Zamir，GeorgeToderici ， Ivan Laptev ， Mubarak Shah ， and RahulSukthankar.Thumos挑战：动作识别与大量的类，2014年。5[19] 什韦博尔卡拉曼洛伦佐赛德纳里和阿尔贝托·德尔·宾博基于Fisher编码的密集轨迹的快速显著性池化。在ECCV THUMOS研讨会，第1卷，第7页，2014年。2[20] Will Kay ， Joao Carreira ， Karen Simonyan ， BrianZhang，Chloe Hillier，Sudheendra Vijayanarasimhan，Fabio Viola，Tim Green，Trevor Back，Paul Natsev，etal. 人体运动视频数据集。 arXiv 预印本 arXiv ：1705.06950，2017。6[21] Samuli Laine和Timo Aila用于半监督学习的时间集成arXiv预印本arXiv：1610.02242，2016。一、二、四[22] 林天威，赵旭，郑寿。单次瞬时动作检测。2017年ACM多媒体会议论文集，第988-996页。ACM，2017。2[23] 林天威，赵旭，苏海生，王崇景，杨明。BSN：用于临时行动建议生成的边界敏感网络。2018年欧洲计算机视觉会议。一二三四五六七八[24] Takeru Miyato，Andrew M Dai，and Ian Goodfellow.用于半监督文本分类的广告训练方法。在ICLR，2017。三、七[25] Takeru Miyato，Shin-ichi Maeda，Shin Ishii和MasanoriKoyama。虚拟对抗训练：用于监督和半监督学习的正则化方法。IEEE关于模式分析和机器智能的交易，2018。一二三四七[26] 倪冰冰，杨小康，高胜华。渐进式地分析Interrupt对象，以实现细粒度的操作检测。在IEEE计算机视觉和模式识别会议论文集，第1020-1028页2[27] Dan Oneata，Jakob Verbeek，and Cordelia Schmid. Thelear submission at thumos 2014. 2014. 2[28] Isabea uPre' mont-Schw arz ， Ale xanderIlin ， TeHao ，AnttiRasmus，Rinu Boney，and Harri Valpola.循环梯7082网络. 神经信息处理系统的进展，第6009-6

下载后可阅读完整内容，剩余1页未读，立即下载