基于对比度评价网络的弱监督时间动作定位方法

83 浏览量更新于2023-10-12 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13899基于对比度评价网络的刘子怡1王乐1 * 张麒麟2高占宁3牛振兴4郑南宁1华刚51西安交通大学人工智能与机器人研究所2HERE Technologies3阿里巴巴集团达摩4机器智能以色列实验室，阿里巴巴集团5Wormpex AI研究摘要弱监督时间动作定位（WS-TAL）是一个有前途但具有挑战性的任务，在训练期间只有视频级动作分类标签可用。在训练数据中不需要时间动作边界注释的情况下，WS-TAL可以利用自动检索的视频标签作为视频级标签。然而，这种粗略的视频级监督不可避免地引起混乱，特别是在包含多个动作实例的未修剪视频中。为了应对这一挑战，我们提出了基于对比度的定位评估网络（Clean-Net），该网络具有新的行动建议评估器，该评估器通过利用片段级行动分类预测中的时间对比度来提供伪监督。从本质上讲，新的行动建议评估器强制执行一个额外的时间对比度约束，使高评价分数的行动建议更有可能符合真正的行动实例。此外，新的动作本地化模块是CleanNet的一个组成部分，可以实现端到端的培训。这与许多现有的WS-TAL方法形成对比在THUMOS 14和ActivityNet数据集上的实验验证了CleanNet对现有最先进的WS-TAL算法的有效性。1. 介绍时间动作本地化（TAL）涉及特定类别动作的时间开始和结束的由于其在动作检索、监视和摘要等方面的潜在应用[1，6，18，29]，近年来，TAL引起了研究界越来越多的关注。然而，手动标记大规模未修剪视频中的所有动作实例的时间范围仍然可能是耗时且昂贵的。*通讯作者。数据集。一个更具成本效益的替代设置可能是弱监督时间动作定位（WS-TAL），它只依赖于视频级别的分类标签进行训练。WS-TAL的优势在于它的训练数据收集，视频级别的标签比时间动作边界更容易收集甚至可以从视频共享网站自动检索对应的主题标签作为标签。然而，为了更集中和更少的野心，我们将调查范围限制在手动注释的视频级标签上。目前，许多现有的WS-TAL方法[21，23，32，37]通过直接对每个片段的分类分数进行阈值化来定位动作。因此，这些片段被独立地处理，而它们的时间关系被忽略。然而，真正的动作边界通常严重依赖于这些片段之间的时间对比，例如时间不连续性和突然变化。我们提出了一个基于对比度的本地化评估网络（CleanNet）的WS-TAL，它利用时间对比度线索之间的动作分类预测片段的行动建议评估。如图1所示，CleanNet由特征嵌入、动作分类和动作本地化模块组成。给定未修剪的视频输入，首先通过特征嵌入提取片段级特征。随后，动作分类产生片段级分类预测（SCP）和片段级注意力预测（SAP），它们被融合以通过加权求和乘法得到视频级利用获得的视频级预测和视频级分类标签，计算分类损失，并通过最小化它来训练动作同时，在获取SCP和SAP之后，动作本地化继续计算由动作建议生成器提供的每个动作建议的然后，仅保留具有较高对比度分数的动作提议，并且通过最大化这些存活提议的平均对比度分数来训练动作定位。在测试过程中，在对所有行动建议进行评分后，13900输入视频和特征嵌入动作分类动作本地化图1：建议的CleanNet由三部分组成，即特征嵌入、动作分类和动作定位模块，分别由棕色、蓝色和红色矩形表示。培训投入：带有视频级分类标签的未修剪视频。预测输出：动作实例类别标签和时间开始和结束。通过执行非最大压缩（NMS）来移除提议。最后，得到一组预测动作实例，具有类别标签和时间边界。具体地，行动建议评估器为每个行动建议计算一个行动得分和两个边得分（开始和结束s-核心），分别表示行动建议包含特定行动的可能性，以及行动建议以特定行动边开始/结束的一致性。通过结合行动、开始和结束分数，新的行动建议评估器提供了一个综合的此外，在CleanNet中，动作分类和动作本地化之间存在互惠关系。行动分类为行动建议评价者提供SCP作为行动建议对比得分的依据;而动作定位提供了不相关帧的基于定位的过滤器，如图1中的虚线箭头所示，其中在分类损失计算中丢弃不相关的片段。总之，本文的主要贡献包括(1)一个新的行动建议评估器，量化SCP之间的时间对比，以促进WS-TAL：（2）一个改进的行动建议生成器与匹配的接受字段与锚大小;（3）WS-TAL的端到端可训练Clean-Net，其中动作分类和本地化是互惠互利的;（4）最先进的 WS-TAL在两个基准测试中的性能，甚至可以与一些完全监督的TAL方法相媲美。2. 相关工作本文从行动识别、全程监督的目标识别和弱监督的目标识别三个方面对相关工作进行了2.1. 动作识别在深度神经网络流行之前，动作识别主要是手工制作的基于特征的方法[7，19，26，36]。最近，卷积神经网络（CNN）已经成为最先进的视觉特征提取器，并提出了许多基于CNN的动作识别方法。双流网络[10，30]除了双流架构中的图像外还包含光流，并且通过融合两个流来获得识别结果。3D ConvNets[16，34，35]将视频剪辑作为输入，以获取视频帧之间的空间和时间相关性。TSN [38]用稀疏采样捕获长距离时间结构。I3D [3]将双流网络与3D卷积相结合，以进一步提高识别精度。2.2. 全面监督的TAL与仅需要视频级别分类预测的任务动作识别不同，TAL需要具有两个分类标签的细粒度预测，片段级注意力预测片段级分类预测P：[xs，xe]行动倡议书第i类保存片段：行动建议评估员时间对比度颞缘第i类标志面具 动作分值起始分数最后得分计算对比度评分时间对比度建模片段片段片段行动建议生成器回归输出T×2 ×1T× d× Kd× T2D×T功能时态转换层TSN采样conv1d（2，K）分类层关注层片段2D×T功能回归损失分类损失特征嵌入时间33901每个动作实例及其相应的时间边界。完全监督的TAL方法在训练期间需要两种类型的注释。由于基于深度学习的对象检测方法的进步，例如R-CNN [14]及其变体[13，25]，许多方法遵循类似的“生成和分类动作建议”结构一些作品[2，8，29]使用滑动窗口或预先定义的持续时间生成行动建议。Zhao等人[41]采用基于片段级“无动作”概率的分水岭算法其他一些作品[4，5，12，39]利用更快的R-CNN架构[25]用于TAL。Xu等[39]在多个设计设置中密切遵循Faster R-CNN。其中一些工作[4，5，12]进一步调整了Faster R-CNN架构，以解决接收域问题并更好地利用上下文信息。据报道，这些架构调整是TAL任务中性能改善的原因2.3. 监管不力的TAL仅使用视频级分类注释执行TAL的想法首先在[33]中引入。Hide-and- Seek [32]随机隐藏区域，以鼓励模型关注目标的最具区别性的部分和其他UntrimmedNet[37]使用软选择模块来定位目标时间动作片段，这类似于时间注意力权重，最终定位是通过在评分后对这些片段进行阈值处理来实现的。STPN [21]提出了一种稀疏损失函数，以便于选择段。W-TALC [23]提出了一种协同活动损失，并将其与多实例学习损失相结合，以训练弱监督网络。这些方法的定位部分都是基于对最终SCP的阈值处理。最近的AutoLoc [28]直接预测了时间Net，即下面详细描述特征嵌入、动作分类和动作定位3.1. 片段级特征嵌入特征嵌入的输入（图1中的棕色矩形）是未修剪的视频，输出- s是相应的特征。特征嵌入主要遵循UntrimmedNet [37]。在将每个视频划分为相同长度（15帧）的非重叠片段之后，一个片段接一个片段地提取时间特征，其被称为片段级特征F。特征嵌入的骨干是具有Inception网络架构和BatchNormalization [15]的TSN [ 38 ]。预先训练的空间流（RGB输入）和时间流（光学流输入）被单独训练在来自两个流的全局池层之后获得的D维（D=1024）输出被连接为一个片段级特征。具体来说，对于具有T个片段（15T视频帧）的输入视频，输出F具有T个片段的2D的特征第t个片段记为F（t）∈R2D×1.3.2. 动作分类对于F∈R2D×T，动作分类（图1中的蓝色直角）计算片段级分类预测（SCP）和片段级注意力预测。分别具有两组全连接层的双连通域（SAP）SCP和SAP表示为Ψ∈RN×T和∈R1×T，其中N和T分别是动作类别和片段的数量。从我们的行动课开始-sification与Untrimmed-Net [37]中的结构相同，获得Ψ和的直接实践是对UntrimmedNet的两个流的输出进行平均。为了使这个融合步骤可训练，我们设计了我们的动作分类模块如下。（t）=（每一个行动实例的边界，从它受益，的“外-内-对比损失”。建议的CleanNet在以下三个方面与[28 第一Σr（t）Ψf（t）Σ=Wc·F（t）+bc，（2）最重要的是，我们的动作建议评估器利用时间对比，并分别处理开始/结束边界，以实现对噪声的更好的鲁棒性其次，CleanNet中的动作分类和动作本地化是相互依赖和互利的，而[28]中的对应物是独立的。此外，我们的行动建议生成器是专门设计来解决在时间维度的接受领域的问题所有这三个差异都有助于（t）= wa·F（t）+ba，（3）其中t=1，…T是片段索引。分别是来自空间流和时间流的第t个片段的分类预测。Wc∈R2N×2D和bc∈R2N×1是分类层的参数。wa∈R1×2D，ba是注意层的参数它们被初始化为CleanNet的优越性，如第4.2节所述。3. CleanNet建议ΣWc =WCR00WcfΣΣ，bc=bcrbcfΣ、（四）在本节中，我们将介绍所提出的CleanNet。作为a1 ΣaaΣabar+baf如图1所示，清洁中的所有三个主要组件w = wrwf2，b=、（五）2439022D×T功能d× Tx s=x c−x w/2和x e=x c+x w/2。为了符号简单，我们选择[x s，x e]来参数化P。然而，空间边界框的这种直接适配回归算法由于潜在的接收域问题而不充分。更具体地说，空间回归[25]中的结果是在VGG16 [31]中的池5输出时从1×1卷积层获得的，实现了212的接收场，这对于224×224的输入图像分辨率来说足够大。如果这种策略是直接的-在一维时间回归中，由于片断级特征（F∈R2D×T）是一个片断接一个片断地提取的，所以它们在时间维上的接收域仅为1因此，期望合理的回归是不现实的图2：行动建议生成器的结构在TSN采样层之前，输入片段级特征被馈送到三个堆叠的时间卷积层中，TSN采样层将其接收场与锚大小相匹配。其中Wcr ∈RN×D，Wcf ∈RN×D，war ∈R1×D且waf∈R1×D表示分类层和注意层的权重，分别具有RGB输入和光流输入。bcr ∈RN×1，bcf ∈RN×1，bar和baf是相应的偏置参数。它们被初始化通过加载预训练的UntrimmedNet模型1.通过这种初始化，我们的动作分类实现了对来自预训练的UntrimmedNet的两个流进行平均的等效融合输出，并且仍然可训练以进行进一步的finetun。ing. 最后，对于每个包含T个片段的视频，我们得到了它的SCP（R∈RN×T）和SAP（R∈R1×T）.3.3. 动作本地化本文的主要贡献体现在动作本地化的特殊设计中（图1中的红色矩形），它由动作建议生成器和动作建议评估器组成。3.3.1行动建议生成器动作建议生成器的目标是生成能够精确覆盖动作实例的时间范围的动作建议，该时间范围通过时间边界回归获得受现有基于锚点的2D边界框回归技术[24，25]的启发，我们在该1D时间回归中利用类似的设置。具体而言，对于持续时间（大小）为aw且时间位置为τ的锚点，其边界回归值是一个双元素向量，其中rc与回归中心相关，rw与回归中心相关回归的持续时间。设P为回归的随机变量，P的质心xc为xc=aw·rc+τ，P的持续时间xw为xw=aw·exp（rw），可以计算P的起始边界和结束当接收场远小于锚的大小。一个直接的补救措施可能是在片段级特征F上堆叠多个时间卷积层，但接收场的增益仍然有限。为了将接收场与相应的锚点大小相匹配，我们采用了受TSN启发的稀疏时间采样策略[38]。详细地说，我们将每个锚点分成K个片段，并对每个片段的时间位置进行随机采样，然后获得固定大小（K）的表示，而不管锚点大小如何。我们将此策略称为TSN采样，如图2所示。随后，采样的特征被馈送到另一个卷积层以获得回归值。3.3.2行动建议评估员为了监督行动建议生成器，行动建议评估器是必要的。在完全监督的TAL设置中，手动标记的时间边界可用，可以通过与地面实况进行比较来容易地评估行动建议，并使用诸如Intersection-over-Union（IoU）的度量然而，在WS-TAL设置明确的时间边界注释是未知的，设计的行动建议评估器是不平凡的。在CleanNet中，我们提出了一个新的行动建议评估器，以提供基于整个视频的SCP值的伪监督。利用所有SCP值的直觉是奖励具有正确内容和具有较少碎片的完整动作实例的通过将SCP值扩展到行动建议的开始和结束之外，新的行动建议评估器惩罚零散的简短行动建议，并促进完整性和连续性。行动建议评估者的工作流程如图3所示。为了定位第i个类别（i=1，…，N）中，对评估器的输入都是对应于第i个动作类别的时间SCP值，即，i∈R1×T（1https://github.com/wanglimin/UntrimmedNet绿色直方图，由操作分类提供模块）和行动建议P（以粗体显示）时态转换层行动建议P：[xs，xe]回归输出T×2 ×1conv1d（2，K）T× d× KTSN采样d× Tconv1d（d，3）+BN+ReLud× Tconv1d（d，3）+BN+ReLud× TTSN采样T× d× K在每个位置d× K随机抽样1K个片段一W锚钉尺寸不回归层43903fmax时间对比度：c时间边缘：emin第i行的SCP：Sundiidx −idxMaxmin标志面具：mMaxmine ees e sesa（P）=1000万元（ss（P）=1000万元（（2）A（））-avg（））-avg（）图3：CleanNet中行动建议评估器的工作流程为了在视频中定位第i个类别的动作实例，评估器的输入是i∈R1×T（如绿色直方图所示）和动作建议P（表示为施加在绿色直方图上的黑色边界框）。输出是P的对比度分数s（P），根据等式（1）：（十二）、由动作建议生成器提供的加在底部角落上的直方图上的黑色边界框为了简化后续ψ变体的下标，我们在本节3.3.2中暂时用ψ代替ψi。为了说明时间对比度信息，我们提出时间对比度向量c ∈R1×T为分别xc和xw的定义见第3.3.1节。利用e、P、Pinf和Pdef，计算三个分数，即，动作得分sa（P）表示P包含特定动作实例的可能性，起始得分ss（P）反映P的起始阶段重合的可能性一个动作实例的开始和结束m =（ψMax-ψmin ）[abs（idx（6）得分SE（P）表示P的结束阶段与动作实例的结束一致的可能性他们是其中⊙表示逐元素乘法，abs（·）和[·]−1表示元素级绝对值和倒数s（P）=avg（n（xdef：xdef）），（9）功能，分别。ψ阿塞∈R1×T是用滑动法Max2IDX1×Tss（P）=avg（e（xinf：xdef））-avg（n（xinf：xs）），（10）最大池化窗口在R上，且Rmax∈R是s s s局部最大值的相应索引向量。同样地，最小池化值为Rmin∈R1×T和Ridx∈R1×Tse（P）= −avg（e（xdef：xinf））−avg（ψ（xe：xinf）），（11）min和索引。直觉，时间对比度c表示每个片段作为边界的可能性一个动作实例。为了区分动作实例的开始和结束（即，ψ）的上升沿和下降沿，符号掩码m∈R1×T定义为⎧1如果<其中Vg（·）表示算术平均。最终对比度得分s（P）是加权求和，1s（P）=sa（P）+2（s s（P）+se（P））.（十二）通过总结行动分数和边缘分数，对比分数惩罚了碎片化的短行动建议和支持。拉斯敏Max注意行动建议的完整性和连续性Ab-m（t）=−1ifψidx（t）> t≥ψidx（t），（七）白藜芦醇Max第4.2节中的实验结果验证了该结论。0，否则，t= l，…T.随后，时间边缘e∈R1×T通过e=m c计算，如图3右上方的直方图所示。正值和负值表示开始-分别为动作实例的ing和ending边界对于一个行动建议P：[xs，xe]，我们计算它的时间-边缘和边缘化区域Pinf：[xinf，xinf]，Pdef：[xdef，xdef]为xinf=xs−xw/4，xinf=xe+xw/4，在Eq中的每个项的贡献。（十二）、3.4. 培训CleanNet在介绍了CleanNet的体系结构之后，本节将讨论如何训练模型。如图1所示，有两种损失，回归损失和分类损失，这是造成清洁网络的两个输出的原因，即，分类和分类，分别。对于动作定位的训练，我们首先选择（8）xdef=xs+xw/4，xdef=xe−xw/4，根据分配的对比度分数提出行动建议S e行动建议评估员具体而言，当位于-其被图示为蓝色和红色边界框施加在图3中底部角落的直方图上，439042最大池化内核大小为7。为了确保输出的最大值与输入的最大值大小相同，步幅和填充分别为1和3。对于第i个类别的动作，如果第t个片段的第i个类别预测fbi（t）或其注意力预测fbi（t）低于相应的预定义阈值，则将丢弃以该片段为中心的所有锚然后43905剩余锚点回归为行动建议。如果一个提议P的对比度得分s（P）高于0，则该提议P将被选择为“正”。五、所有选择的“积极”建议的集合表示为P。对于P，回归损失Lreg定义为2，383个视频3，分别用于我们的培训和评估。评估指标：我们使用不同IoU阈值水平下的平均精度（mAP）值评估TAL性能。THUMOS 14和ActivityNet1Lreg=PleasantΣP∈Pmax（m−s（P），0），（13）v1.2基准测试提供了标准的评估实现，在我们的实验中直接利用这些实现进行公平的比较。实施细节：我们实施我们的CleanNet我们-其中m是保证L_reg大于0和·表示基数（元素的数量）。动作分类的唯一训练是相同的如UntrimmedNet [37]，通过最小化video-lev elΣcate gory labely之间的交叉条目丢失在一个NVIDIA GeForce GTX TITAN X- p GPU上运行PyTorch [ 22 ]。我们采用随机梯度下降（SGD）求解器进行优化，初始学习率为0。0001和每200批后除以10（一批含有一个完整的未修剪视频）。 [28]第28话，锚以及视频级类别预测x=不t=1 （t）THUMOS 14的大小设置为1、2、4、8、16、32个片段直观地说，x是所有片段级视频中的预测，不管一个片段是回-地面或不。在具有多个标签的视频的情况在训练之前，y将用L1-norm归一化但这种培训计划的缺点是显而易见的。所有片段无论是否为背景都要进行训练，这将给动作分类的训练过程带来噪声。在这里，我们提出了一种简单而有效的方法来进一步调整动作分类和动作定位（表1中的C5）。首先，我们在P中找到行动建议所涵盖的所有片段，并将此片段集定义为S。直观地说，S包含任何积极建议所涵盖的所有积极片段。然后，所有不包含在S中的片段在动作分类的训练过程中被消除。因为我们假设片段- s没有被任何积极的提议所覆盖，因此它们在训练期间应该被忽略。通过这种方式，在训练期间将引入更少的噪声。4.2节将讨论这一联合培训的绩效贡献分析。4. 实验在本节中，我们评估了拟议CleanNet的TAL性能，并进行了详细的消融研究，以探索CleanNet中每个组件的性能贡献同时，我们比较了我们的方法与ex-americWS-TAL方法和最近的全监督TAL方法在两个标准的基准。4.1. 实验环境评价数据集：THUMOS 14 [17]数据集包含时间动作定位任务中20个动作的413个未修剪视频，其中200个未修剪视频来自验证集，213个未修剪视频来自测试集。每个视频至少包含一个动作。验证集和测试集分别用于训练和评估我们的CleanNet。ActivityNet v1.2 [9]涵盖了100个活动类。训练集包括4，819个视频，验证集包括ActivityNet v1.2分别有16、32、64、128、256、512个片段。在测试期间，具有IoU阈值0的NMS。4用于删除重复的行动建议。对于具有多个标签的视频，我们对分类分数高于0的所有动作执行动作本地化。1.一、4.2. 消融研究我们提出了多个消融研究，以探索CleanNet中每个组件的性能贡献。我们首先将CleanNet分为五个组件，如表1所示。然后，在THUMOS 14上评价具有这五种组件的不同组合的消融变体，并使用基线方法UntrimmedNet [37]，如表2所示。使用没有训练生成器的建议评估器：请注意，我们的行动建议评估器可以为任意行动建议分配对比度分数，无论它们是否从回归量生成因此，如果不训练行动建议生成器，我们的CleanNet仍然可以很好地工作。这样，所有锚点）直接通过抽样产生，并由提议评估者评分。其余步骤保持不变。该消融变体在表2中表示为通过此类设置，动作定位退化为后处理程序，并实现与UntrimmedNet [37]中的阈值处理组件的公平比较。我们的方法比Untrimmed- Net [ 37 ]提供了实质性的改进，因为mAP从15提升。4%至21。6%，IoU阈值为0。五、该消融研究验证了行动建议评价者提供的对比度评分的有效性，该评价负责我们TAL性能的重大改进在启用动作提议生成器的训练的情况下（3在我们的实验中，在训练集和验证集中分别有4，471和2，211个43906表1：针对详细消融研究划分的CleanNet的五个主要组件符号解释C1培训行动建议生成器。C2使用sa评估提案。C3使用ss和se来评估提案。C4采用TSN抽样策略。C5行动分类的联合微调。表2：在THUMOS 14测试集上，在IoU阈值0.5下，我们的方法变体与不同组分组合的TAL性能比较方法C1C2C3C4C5最大平均接入点（%）[37]第三十七话基线15.4Plain-ModelCC21.6仅限企业CCC1.2仅边缘CCC11.4CleanNet-SimpleCCC22.9CleanNet-TCCCC23.4CleanNet-JCCCC23.6CleanNetCCCCC23.9允许它们有更好的机会与地面实况动作实例重叠，这导致相对于普通模型的进一步mAP提案分数的变体：作为等式中定义的对比分数s（P）的替代方案。（12）中，研究了两种消融版本，在表2中称为“仅活动性”和“仅边缘性”。仅用Eq.（12）仅具有动作得分（C2），即，s（P）=s a（P）;而Edgeness-Only代替Eq. （12）只有开始和结束分数（C3），即，s（P）=s s（P）+s e（P）。如表2所示，如果没有ss（P）和se（P），则仅限业务的性能这是一个比“无”更大的问题，也是一个比“无”更大的问题。此外， Edgeness-Only的性能略好于 Edgeness-Only，但性能下降仍然很明显。这是因为在不考虑内容（动作得分）的情况下，仅边缘可能对SCP的波动更敏感（例如，由于噪音）。比较这两个变种与其他（C2和C3都启用），我们提供性能优势归因于每一项在方程。（12），确认s a（P）、s s（P）和se（P）都是对比度分数s（P）的不可或缺的组成部分。TSN采样和联合训练：仅使用组件C1、C2和C3，表2中的消融版本此外，启用TSN采样（“CleanNet-T”）或联合确定动作分类（ “CleanNet-J” ）可导致相对于CleanNet-Simple的进一步改进。通过与CleanNet-T、CleanNet-J和CleanNet的比较，表明C4和C5的组成是兼容的。最后，通过所有五个组件，CleanNet在所有变体中实现了最佳的动作表3：THUMOS 14测试集上的TAL性能比较全监督方法在训练期间可以访问视频级别的类别标签和时间注释;而弱监督方法仅具有视频级别的类别标签。共享同一网络主干的方法用符号“”表示。方法mAP（%）@IoU0.3 0.4 0.5 0.6 0.7全监督Yuan等[第四十届]36.527.817.8--S-CNN [29]36.328.719.010.35.3SST [2]37.8-23.0--美国疾病控制与预防中心[27]40.129.423.313.17.9Dai等人[五]《中国日报》-33.325.615.99.0R-C3D44.735.628.9--Gao等人[第十一届]50.141.331.019.19.9[41]第四十一话51.941.029.819.610.7Chao等人[4]美国53.248.542.833.820.8BSN [20]53.545.036.928.420.0弱监督《捉迷藏》[32]19.512.76.8--[37]第三十七话29.822.815.48.34.2[21]第二十一话31.123.516.29.85.1[23]第二十三话32.026.018.810.96.2[28]第二十八话35.829.021.213.45.8CleanNet-Simple*36.330.722.913.85.3CleanNet*37.030.923.913.97.14.3. 性能比较如表3所示，我们的CleanNet（显示在最后一行）在THUMOS 14测试集上优于所有比较的WS-TAL方法。如果与基于阈值的方法（例如，Hide-and-Seek [32]，Untrimmed- Net [37]，STPN [21]和W-TALC [23]，这意味着动作建议生成和评估方案优于阈值。此外，CleanNet-Simple 可以被视为与 AutoLoc 的直接比较[28]，因为它与AutoLoc的区别仅在于行动建议评估。由于CleanNet的所有独特设计（详细信息请参见第2.3节），它在所有IoU阈值设置下都优于AutoLoc令人惊讶的是，CleanNet甚至达到了与一些完全监督的方法（例如，S-CNN [29]，SST [2]和CDC [27]）。图4中给出了一些定性示例。如表4中ActivityNet v1.2的比较结果所示，CleanNet在IoU阈值为0.5：0.05：0.95的平均mAP上优于所有其他弱监督方法。请注意，ActivityNet v1.2验证集的平均值仅为1。5个动作实例和34个。6%的背景，视频，而THUMOS14的平均值为15。4行动-71.第71章4%的视频背景在如此低的噪声比下，当IoU时，阈值方法W-TALC [23]可以实现良好的性能门槛更低。随着IoU门槛的提升，4UntrimmedNet [37]的mAP使用作者发布的训练模型和源代码获得W-TALC [23]的mAP从作者处获得。43907视频帧动作的Groundtruth视频帧动作的Groundtruth视频帧动作的Groundtruth(a) PoleVault示例(b) ThrowDiscus的例子(c) HighJump的例子图4：申报CleanNet在THUMOS14测试集上的定性TAL示例。地面实况动作实例和预测动作实例分别用蓝色和绿色条表示。包括相应的时间边缘（e）和特定动作的片段级分类预测（fcti）。具体来说，为了说明e，使用了双色调配色方案，蓝色和橙色分别表示正值和负值表4：ActivityNet v1.2验证集上不同IoU阈值下的TAL mAP（%）所有方法都是在弱监督下训练的共享同一网络主干的方法用符号“”表示。监督IoU阈值0.50.550.60.650.70.750.80.850.90.95Avg[37]第三十七话7.46.15.24.53.93.22.51.81.20.73.6微弱地-W-TALC[23]37.033.530.425.714.612.710.07.04.21.518.0监督[28]第二十八话27.324.922.519.917.515.113.010.06.83.316.0CleanNet*37.133.429.926.723.420.317.213.99.25.021.6与Au- toLoc [28]和CleanNet相比，W-TALC [23]显著恶化当IoU阈值大于0时。65，CleanNet明显优于所有其他方法。这验证了CleanNet可以生成具有大量重叠的地面真实时间动作实例的动作建议。总之，我们的 CleanNet 在 THUMOS 14 和 Activi-tyNet v1.2数据集上都达到了最先进的WS-TAL性能。此外，消融研究中的广泛实验为CleanNet中每个组件的性能贡献提供了一些见解。5. 结论我们提出了用于WS-TAL的 CleanNet，它利用了片段级动作分类预测以定位时间动作边界。新的行动建议评估器提供对比度分数作为伪监督，以取代手动标记的时间边界。在THUMOS 14和Activi- tyNet v1.2数据集上，建议的CleanNet优于现有的WS-TAL方法。它甚至可以优于最近的一些完全监督TAL方法。6. 确认本工作得到了国家重点研发计划资助2017 YFA0700800，国家自然科学基金资助6162930，61773312和 61976171 ，中国博士后科学基金资助 2019M653642，以及中国科协青年精英科学家资助计划2018 QN-RC 001的部分支持。43908引用[1] M. Asadiaghbolaghi，A. Clapes，M. Bellantonio，H. J.埃斯卡兰特，五。 Poncelopez ， X. 巴罗岛 Guyon ，S.Kasaei，以及S. 埃斯卡雷拉基于深度学习的图像序列中动作和手势识别方法的调查在FG中，第476-483页，2017年。1[2] S. 布赫河谷埃斯科西亚角申湾Ghanem和J.C. 尼布尔斯单流时间动作建议。在CVPR中，第6373-6382页，2017年。三、七[3] J. Carreira和A.齐瑟曼。你好，动作识别？新模型和动力学数据集。在CVPR中，第47242[4] Y.-- W. Chao，S.维贾亚纳拉辛汉湾Seybold，D. A. 罗斯J.Deng和R.苏克坦卡重新思考时间动作定位的快速r-cnn架构。在CVPR中，第1130-1139页，2018年。三、七[5] X.戴湾辛格湾，澳-地张丽S. Davis和Y. Q.尘用于视频中活动定位的时间上下文网络在ICCV，第5727-5736页，2017年。三、七[6] O. Dan，J.Verbeek和C.施密特动作和事件识别，在紧凑的特征集上使用fisher向量。在ICCV，第1817-1824页1[7] P. 多拉尔，维。拉博湾 Cottrell和S. 贝隆吉基于稀疏时空特征的行为识别在VS-PETS，第65-72页2[8] V. Escorcia，F. C. Heilbron，J. C. Niebles和B.加尼姆Daps：行动理解的深度行动建议。在ECCV，第768-784页，2016中。3[9] B. G. Fabian Caba Heilbron、Victor Escorcia和J. C.尼布尔斯Activitynet：人类活动理解的大规模视频基准。在CVPR中，第9616[10] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在CVPR，第1933-1941页，2016年。2[11] J. Gao，Z.Yang和R.奈瓦提亚用于时间动作检测的级联边界在BMVC，2017年。7[12] J.高，Z.杨角，澳-地孙，K. Chen和R.奈瓦提亚 TurnTap：用于时间行动建议的时间单位回归网络。在ICCV，第3628-3636页，2017年。3[13] R.娘娘腔。快速R-CNN。在ICCV，第1440-1448页，2015中。3[14] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在CVPR中，第580-587页，2014年。3[15] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。在ICML，第448-456页，2015中。3[16] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。IEEE Transactions on Pattern Analysisand Machine Intelligence，35（1）：221- 231，2013. 2[17] Y. Jiang，J.Liu，中国粘蝇A.R. 扎米尔湾托代里奇岛Laptev，M.Shah和R.苏克坦卡Thumos挑战：大量类的动作识别。http://crcv.ucf的网站。edu/THUMOS14/，2014. 6[18] S. M. Kang和R. P·王尔德动作识别与检测方法综述。arXiv预印本arXiv：1610.06906，2016。1[19] I.拉普捷夫关于时空兴趣点。国际计算机视觉杂志，64（2-3）：107-123，2005. 2[20] T. Lin，X.Zhao，H.苏C.Wang和M.杨BSN：用于临时行动建议生成的边界敏感网络.在ECCV，2018。7[21] P. 阮氏T.Liu，G.Prasad和B.韩基于稀疏时间池网络的弱在CVPR中，第6752-6761页，2018年。一、三、七[22] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito，Z. Lin，L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。在NIPS-W，2017年。6[23] S. 保罗，S。Roy和A.K. 罗伊·乔杜里W-滑石：弱监督的时间活动定位和分类。在ECCV中，第588-607页，2018年。一、三、七、八[24] J. Redmon，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。在CVPR，第779-788页，2016年。4[25] S. Ren，K.赫利河Girshick和J.太阳更快的r-cnn：用区域建议网络实现实时目标检测。IEEE Transactions onPattern Analysis and Machine Intelligence，39（6 ）：1137-1149，2017。三、四[26] S. Sadanand和J. J·科索行动银行：视频中活动的高级表示。在CVPR，第12342[27] Z. Shou ， J.Chan ， A.Zareian ， K.Miyazawa 和 S.-F. 昌Cdc：卷积-去卷积网络，用于未修剪视频中的精确时间动作定位。在CVPR，第1417-1426页，2017年。7[28] Z. Shou，H.高湖，加-地Zhang，K. Miyazawa和S.- F.昌Autoloc：未修剪视频中的弱监督时间动作定位。在ECCV，第154-171页，2018年。三六七八[29] Z. Shou，山核桃D. Wang和S.昌通过多级cnn在未修剪视频中的时间动作局部化。在CVPR，第1049-1058页，2016年。一、三、七[30] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。在NIPS，第568-576页，2014中。2[31] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议。4[32] K. K. Singh和Y.J. 李你Hide-and-seek：迫使网络对弱监督对象和动作本地化进行细致的处理在ICCV，第3

下载后可阅读完整内容，剩余1页未读，立即下载