METAL：未修剪视频中的最小努力时间活动定位

131 浏览量更新于2023-10-20 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1METAL：未修剪视频中的最小努力时间活动定位Da Zhang<$，Xiyang DaiXiao，and Yuan-Fang Wang<$加州大学圣塔芭芭拉分校{dazhang，yfwang}@ cs.ucsb.edu，xiyang. microsoft.com摘要现有的时间活动定位（TAL）方法主要采用强监督来进行模型训练，这需要（1）每个活动类别的大量未修剪视频和（2）每个实例的准确段级边界注释（开始时间和结束时间）。这对实际场景中的当前方法造成了关键限制，在实际场景中，不仅段级注释获得昂贵，而且许多活动类别在训练期间也是罕见的和未观察到的。因此，我们是否可以在弱监督下学习TAL模型，以定位不可见的活动类？为了解决这个问题，我们定义了一个新的基于示例的TAL问题，称为最小努力时间活动定位（METAL）：仅给出几个示例，目标是在未修剪的视频序列中找到语义相关片段的出现，而模型训练仅由视频级注释监督。为此，我们提出了一种新的相似性金字塔网络（SPN），该网络采用关系网络的少样本学习技术，通过优化两个互补的损失函数，以端到端的方式对层次多尺度相关性进行直接编码我们在 THU-MOS '14 和 ActivityNet 数据集上评估SPN，其中我们重新排列视频以适应METAL设置。结果表明，我们的SPN实现性能优于或具有竞争力的国家的最先进的方法，更强的监督。1. 介绍TAL是计算机视觉中的一个基本问题，由于其在安全监控，机器人等方面的巨大潜在应用，在过去几年中引起了越来越多的关注。虽然取得了令人印象深刻的进展[34，12，42，6，43，28，47，7，3，20，8，31，55，53，33，48，52，54]，识别和定位视频中的时间段，这些深度学习模型的成功在很大程度上依赖于大量标记训练数据的可用性，仅带视频级标签的未修剪视频培训修剪视频标签：High Jump铅球足球处罚SPN跳高Labels：生活篇未修剪的视频从看不见的活动类修剪视频几个例子看不见的类SPN洗车冰钓本地化输出测试帆板冰钓[22.7s图1：最小努力时间活动定位（METAL）：在训练期间，我们简单地拥有仅具有视频级别标签的未修剪视频和相同标签的修剪视频;在测试过程中，在只给出来自看不见的类的几个修剪示例的情况下，将学习的模型应用于未修剪视频中的TAL。建模训练需要对所有可能的类中的这严重限制了他们的(1) 在实际场景中，作为注释长的未修剪视频的时间边界的可伸缩性是非常昂贵和耗时的[46]，以及（2）对在原始训练数据集中未观察到的新出现或罕见事件的适用性。相比之下，人类能够通过观察来自每个类的一些示例来识别和定位未经修剪的视频中的新活动类。这促使我们开发TAL方法，这些方法需要显著更少的注释进行训练，并很好地推广到罕见和新颖的活动类别。在本文中，我们介绍了一个新的具有挑战性的基于示例的 TAL 问题，称为最小努力时间活动定位（METAL）。如图1所示，我们关注以下场景：在培训期间，我们有（1）未经修剪的视频，38823883仅视频级标签（例如，视频标签）和（2）相同标签的修剪示例，与片段级边界注释相比，其更容易收集。在测试过程中，只给出了一些未看到的活动类的修剪示例，我们的目标是在未修剪的测试视频中定位所有语义相关片段。我们将此场景称为本文所研究的METAL设置METAL设置将大大减少开发高效和可扩展TAL方法的人力成本，并更好地模拟现实世界的场景。为了解决这个问题，我们采用了关系网络[40]的少量学习技术，并提出了一种新的基于元学习的框架，称为相似性金字塔网络（SPN）。 SPN的主要思想是一个分层的多尺度特征表示（相似性金字塔），直接测量未修剪的视频和修剪的例子在不同的时间分辨率之间的部分相似性。为了训练仅具有视频级标签的SPN，我们设计了两个互补损失函数：（1）用于分类的成对内容相似性损失（PCSL）1，其中我们为每对计算视频级距离度量，并对正对实施更高的相似性;以及（2）用于定位的配对结构相似性损失（CSSL），其基于两个正对应该具有相似性分数的相似分布的直觉，即两个相似性金字塔之间的更高相关性。此后，我们联合最小化这两个损失函数，以端到端的方式训练网络。学习的模型直接应用于测试视频，其中相似性金字塔被融合以产生局部化结果。我们的贡献总结如下：• 我们介绍了金属问题，解决了在未经修剪的视频中定位看不见的活动实例的新任务，给出了一些修剪的例子而训练仅由视频级标签监督• 我们提出了一种基于元学习的方法SPN来解决METAL问题，该方法能够测量分层多尺度相似性度量，在视频对之间切换并同时执行分类和定位信息。• 我们对两个具有挑战性的基准进行了广泛的实验：THUMOS '14和ActivityNet，我们重新安排了视频，以适应金属设置。实验结果表明，我们的SPN实现性能优于或有竞争力的国家的最先进的方法与更强的监督。1在本文中，正对被定义为共享相同标签的未修剪视频和修剪视频，而负对被定义为具有不同标签。2. 相关工作时间活动定位。TAL的任务是预测时间边界和标签的活动实例在未修剪的视频。早期的活动定位工作主要使用时间滑动窗口作为候选项，并在手工制作的特征上训练活动分类器[25，26，14，16，23，41]。随着深度学习方法的最新进展，Conv3D网络[42]，双流卷积网络[34，12]和其他深度神经网络[6，43，28，47]已被广泛应用于时间运动分析并显着提高了识别性能。为了定位时间边界，大量工作将深度网络纳入本地化框架，并获得了改进的性能[7，20，8，31，55，33，48，52，4，15，11，21，50，51]：他们中的一些人专注于设计更好的时态搜索方案[4，15，11，21]，而其他人则致力于改进时态搜索[50，51]或提出更好的分类器[31]。在这些工作中，R-C3 D[48]提出了一种基于Faster- RCNN [29]的端到端可训练活动检测器，而S3 D [52]执行单次活动定位以摆脱时间建议。然而，所有这些方法都是针对全监督集合提出的，其中在训练期间需要分段级边界注释。监督不力。弱监督学习已经被广泛研究用于对象检测[2，10，37]。对于活动定位，视频级标签是一种弱监督，近年来得到了研究。Sun等人[39]是第一个考虑到这个问题，并利用额外的监督网络图像。Hide-and-Seek [35]解决了弱监督检测模型通常忽略目标实例的一些相关部分的挑战。UntrimmedNet [45]提出了一个框架，该框架由执行动作分类的分类模块和检测重要时间段的选择模块组成最近，AutoLoc [32]和W-TALC[27]引入了新的损失函数，以进一步提高性能。虽然这些作品是在弱监督下训练的，但学习的模型只能定位训练数据集中观察到的活动类别。少拍学习。少拍学习是指学习-每个类只有几个训练示例一个在-越来越流行的用于少量学习的解决方案是Meta学习，其中可以从辅助任务中学习可转移的知识成功的MAML方法[13]旨在元学习一个初始条件，有利于对少数问题进行微调。为了避免微调，一些作品利用具有记忆的神经网络[24，30]。另一类方法是度量学习，其目的是学习一组投影函数，使得当在该嵌入中表示时，输入容易通过相似性3884简体中文未修剪视频（查询集）多尺度关系模块关系模Θ时态特征金字塔相似性得分Conv3D池泳池泳池0.870.12英文名：HighJumpYU相似性金字塔剪辑视频（样本集）时间合并GCNConv1D层GCN��测试阶段本地化1不Conv3D电子邮件布吕格11G跳高1,2结构的简体中文CSSLAvg0.91相关性分析1视频1Max0.87PCSL2不2Conv3D多尺度关系模块GCN2GΘ��2跳高2002CSSL结构的Avg2视频Max0.95PCSL0.08相关性分析简体中文CQC不Conv3DGCNCQCθCC多尺度关系模块G足球处罚视频嵌入模块CQC视频Max0.16PCSL图2：单次设置下METAL的相似性金字塔网络（SPN）架构（最佳彩色视图）。未修剪和修剪的视频都被送入一个共享的Conv3D网络进行特征提取，并应用一个时间特征金字塔来总结未修剪的视频。然后将特征通过多尺度关系模块以获得相似性金字塔和相似性分数。使用这些输出，我们计算两个损失函数，即CSSL和PCSL，它们被联合优化以训练网络。匹配[19，36，40，44]。虽然[19，36]应用固定的最近邻或线性分类器，[40]建议使用可学习的非线性函数，并证明了提高的准确性。Yang等[49]是第一个提出少镜头TAL任务的工作。它采用滑动窗口方法和匹配网络来检索每个位置的活动实例然而，他们仍然需要昂贵的边界注释来监督模型训练。我们的工作是第一个研究METAL问题的，它也可以被框架为弱监督TAL和少镜头TAL的联合问题，而以前的工作只考虑一个方面，因此不能应用或容易地扩展到解决更具挑战性的METAL设置。3. 方法我们考虑金属问题：仅给出来自看不见的活动类的几个示例，目标是在未修剪的视频序列中找到语义相关片段的出现，而模型训练仅由视频级注释监督。该设置值得探讨，因为它与实际情况非常吻合：可以期望在容易地收集视频级别的标签，并部署模型，以本地化新的活动与一些修剪的例子。遵循少数学习术语[40，49]，我们正式定义了问题设置。我们有三个数据集：训练集、支持集和测试集其中训练集包含具有视频级标签的未修剪和修剪视频，支持集包含标记的修剪视频，测试集包含未修剪视频。支持集和测试集共享相同的标签空间，但训练集有自己的标签空间，与支持集和测试集不相交。如果支持集对于C个唯一类中的每一个类都包含K个修剪样本，则目标问题称为C路K射问题。我们遵循元学习框架，在训练阶段使用训练集，在测试阶段使用支持集和测试集更具体地说，我们遵循[44，40]，通过基于事件的训练来利用训练集来模拟在每次训练迭代中，通过从训练修剪视频中随机选择C个类来形成一个片段，每个C个类中有K个样本作为样本集，以及一个训练未修剪视频作为查询3885UUU i=1UU集此样本/查询集分割旨在模拟将在测试时遇到的支持/测试集。在我们的实验（第4节）中，我们考虑了五路单次（C=5，K=1）和五路五次（C=5，K=5）设置。3.1. 模型概述视频.对于K >1的C-路K-镜头，我们遵循[40]对来自每个类的所有样本的Res 3D输出进行元素求和，以形成该类因此，在单次或少次设置中，样本/支持集的特征数量始终为C在视频嵌入模块之后，我们提取未修剪和修剪视频的特征，我们表示为作为fU和{fi}C，其中fi ∈RdT 代表每个类在本节中，我们介绍了我们的相似性金字塔网-T i=1T功能. 注意{fi}C来自C不同的类金属工作（SPN）我们建议的SPN概述如图2所示。首先，我们介绍了视频嵌入模块（第3.2节），它使用共享的Conv3D网络对未修剪和修剪的视频进行编码，然后是时间特征金字塔（第3.3节），以自然地总结不同时间位置和尺度的未修剪视频。然后，我们提出了多尺度关系模块（第3.4节），它直接测量未修剪视频和修剪示例之间的片段级相似性此后，我们引入了两个损失函数PCSL和CSSL（第3.5节），我们联合优化以学习网络的权重。可以注意到，我们仅使用视频级标签来计算两个损失函数。最后，我们证明了训练后的模型可以直接应用于TAL，只要支持集中有几个标记的例子（第3.6节）。3.2. 视频嵌入模块在我们的问题设置中，我们的SPN采用两种类型的输入视频，即未修剪视频U和修剪视频T. 我们将视频表示为一系列RGB帧{Ii}F，T i=1在测试期间，但不一定在样品组中（在培训），以丰富培训力度。3.3. 时态特征金字塔虽然fU作为未修剪视频的良好特征表示，但它仅以单个时间分辨率概括视频人们可能会考虑应用时间滑动窗口方法[49]，但这种方法计算密集，无法对复杂的时间关系建模。受单次拍摄对象检测器[22]及其在时间活动定位[52，20]中的成功应用的不像以前的活动定位方法在强监督下训练，少数问题设置要求我们最小化网络大小以防止过度拟合。因此，我们使用一个简单的多尺度池化架构，而不是多层时间卷积。具体来说，我们以池化步幅为2堆叠NU1D最大池化层以生成特征图序列在那里我∈RH×W ×3i=1其时间维度逐渐减小，i是第i个输入帧，F是单个视频的帧总数。视频处理的一种常见做法是使用高质量视频编码网络从原始帧输入中提取紧凑的特征表示。在这项工作中，我们采用我们记为{fi}NU，fi ∈RTi× dU，其中T k是每层的时间维度。因此，每个时间特征响应于特定的时间位置和尺度。对于简单的y，我们表示针对未修剪视频作为f′∈RN× dU，其中N =NU Ti是Res3D [43]模型，以获得两者未修剪和修剪的视频。网络权重在两个不同的输入之间共享。如图2所示，输入RGB帧序列可以表示为维度为RF× H × W×3的张量，其中H和W是每个帧的高度和宽度。对于修剪的视频，我们遵循Res3D的传统使用来均匀地采样L T帧并获得固定的DTUi=1U用于多个时间位置的时间位置的总数缩放要素金字塔。3.4. 多尺度关系模块为了学习未修剪和修剪视频之间的关系，我们遵循关系网络[40]，用运算符Φ（f′，fT）组合两个不同输入之间的特征映射，其中fT是类一维特征向量f T ∈R作为视觉U表示，其中dT是输出通道的数量。对于未修剪的视频，由于Res3D网络可以将任意数量的帧作为输入，因此由于完全卷积的性质，我们还统一采样更长的LU帧序列并提取特征图fU∈RTU×dU作为视觉表示，其中TU由原始的等效时间步长确定Res3D网络，dU是输出通道数。在C方式单镜头设置中，我们将每个修剪的视频馈送到Res3D网络，从而生成用于修剪的C为简单起见，省略了上标不同于关系网络中只考虑图像与图像之间的关系，我们将该公式扩展到视频域，并处理未修剪和修剪视频之间的关系。在这项工作中，我们假设Φ（·，·）是所有时间位置之间的深度特征图的级联，定义为：fΦ=Φ（f′，fT）∈RN×dΦ（1）其中dΦ=dU+dT是级联后的信道数然后我们生成一个相似嵌入fsus-3886视频视频视频视频不不不不{f}。使用一个单一的1D卷积（Conv1D）层：给定未修剪和修剪视频的标签，fs=ReLU（Conv1D（fΦ））∈RN×ds（2）一批，我们正式定义一个正集SP包含所有的正对和一个负集Sn，其中|S p|+的|S n|为其中ds是输出通道的数量。虽然fs可以直接输入到关系模块中来计算相似性得分，但它只考虑内容C. 我们将PCSL定义为S形交叉的每对的熵损失：ΣC每个特定时间位置的相似性然而，tem-已经证明，poral上下文信息对于TAL是至关重要的[7，54，53]。编码这种上下文关系LPCSL=−i=1左乙状结肠（Sii视频）（4）在我们网络中，我们在fs之上采用了一个简单的GCN。Dif-其中Si是预测的视频级得分，GTi是不同于标准卷积，地面实况得分GTi=1，（fU，fi）∈Sp，且局部规则网格，图形卷积允许我们com-i视频 =0，（fU，fi）∈ Sn.根据定义的邻居计算节点的响应通过图形连接。在这项工作中，时间段表示的节点，它们的关系被定义为边缘。我们使用fs作为输入节点特征，一层图卷积定义为：fg=ReLU（Gfs W）（3）其中G∈RN×N是邻接矩阵，fs是所有节点的输入特征，W∈Rds×dg是可学习的权重矩阵，fg∈RN×dg是输出节点表示。在这项工作中，我们定义的邻接矩阵的基础上，在多尺度特征层次结构中原始编码的时间段的排序。在一个GCN层之后，fg中的每个节点表示被邻域关系丰富。我们将fg称为相似性金字塔，因为它自然地编码多尺度特征金字塔中的关系。配对结构相似性损失。虽然PCSL强制未修剪和修剪的视频，它是位置不可知的，因为它只测量视频级别的相似性。为了提供学习更好的本地化权重的限制，我们提出了一个其他的合作伙伴结构相似性损失（CSSL）。我们的直觉是，给定两个正对，例如打篮球的未修剪视频和射击的两个不同修剪视频，两者都应该匹配到未修剪序列中的相同时间区域，尽管边界注释是未知的。为了在训练期间强制执行此类信息，我们利用相似性金字塔fg的设计，并强制两个金字塔对于两个正对具有相似的结构（分数分布）。从形式上讲，给定两积极对（fU，fa）和（fU，fb），我们首先在GCN之后生成相似性金字塔分别为fA和fB。基于上述直觉最后，我们应用一个关系模Θ（fg）来产生g g相似性得分S∈RN，其中每个数字是0到1范围内的标量，表示每个时间位置处的相似性。在本工作中，我们假设Θ（·）是多Conv1D层，尽管其他选择是可能的。我们计算两个相似度金字塔具体来说，我们将结构相似度定义为所有时间位置之间的平均余弦相似度：1ΣNSa，b=δ（fa（i），fb（i））3.5. 培训结构的Ng gi=1（五）在本节中，我们提出了两个建议的损失函数它只使用视频级标签作为直接监督，（fa㈠）Tfb㈠δ（fa（i），fb（i））=g gGg||f a（i）||·||f b（i）||分别用于分类和定位。下注-g g为了说明我们的想法，我们考虑一个训练批处理，其中fa（i）和fb（i）表示索引保留一个未修剪特征fU和C修剪特征g gI CT i=1i和δ（·，·）表示两个fea之间的余弦相似性真的。注意，嵌入fa和fb是多尺度的成对内容相似性损失。在这里，我们提出g g- 成对内容相似性损失（PCSL），以添加分类约束。考虑一个正对，尽管我们类似地，考虑到负对，所有相似性分数都将很小（接近0）。基于这种动机，我们聚合相似性分数S以形成不同时间位置之间的相似性嵌入，因此，当它们共享相同的分布时，分数S_struc达到因此，给定一个正对，当与另一个正对比较时，S结构将被最大化，否则被最小化。给定一个训练批次，我们将CSSL定义为每两个对，GTGT3887（包括至少一个正对）的结构相似性视频级评分S视频通过一个简单的最大池。给予pair（fU，fi），如果Si为正，则Si回归为1Σ|Sp||Sn|i、jΣ|Sp|Σ|Sp|i、j测试视频否则为0。LCSSL=i=1j =1Sstruc−i=1j=i+1汽车旅馆（6）3888结构的其中Si，j是预测的结构相似性，|S p|是从训练类的子集中选择五个类，然后阳性对的数量，|S n|是负数的个数对.最后，通过联合优化两个损失函数，SPN是端到端可训练的。联合训练允许训练所有网络权重，使得嵌入模块以及关系模块针对分类和定位两者进行优化总损失定义为：L=LPCSL+αLCSSL（7）其中α用于平衡两个损失。3.6. 预测通过SPN的TAL是直接的，具有网络的一个前向传递。考虑一个C路K镜头定位问题，其中一个未修剪的测试视频和来自支持集的C个不同类中的每一个中的K个不同修剪的视频。我们首先提取未修剪视频和修剪视频的视觉特征，得到C修剪特征和1未修剪特征。然后，我们计算，作为多尺度关系模块的输出，相似度得分S为每个C特征。对于每个特定的时间位置，C个不同类别之间的最大相似性得分和对应的类别标签被指定用于时间片段。然后，相似性得分小于0的片段。5将被过滤掉，并且通过时间非最大值抑制来细化剩余片段以获得最终定位结果。4. 实验在本节中，我们描述了我们的方法的实验结果。首先，我们介绍METAL设置的评估设置和我们模型的实现细节。然后，我们比较我们的SPN与其他国家的最先进的方法。最后，我们进行消融研究，以调查我们的方法的不同组成部分的影响，并提供定性的可视化。4.1. 数据集和评估设置我们在两个大规模数据集上评估了我们的SPN，即THUMOS虽然原始数据集是在强监管下为TAL收集的，但我们通过以下方式重新排列视频以适应METAL设置：（1）删除未修剪视频的边界注释;(2) 将活动类分成互斥的集合;（3）将每个未修剪的视频与来自不同来源的修剪示例我们在下面详细介绍评估设置评估设置。我们遵循前面描述的问题定义。在我们的实验中，我们考虑了五路定位问题下的一次拍摄（K = 1）和五次拍摄（K = 5）设置。在训练过程中，在每次迭代中，我们通过随机抽样来构造样本集对于每个类，我们随机抽样K修剪视频。为查询集，我们随机抽取一个未修剪的视频。在测试阶段，设置与训练阶段相同，只是现在我们使用支持集和测试集。请注意，支持集应该与测试集中的视频级别标签至少有一个类重叠。我们遵循惯例来报告平均平均精度- mAP@ a，其中a表示时间联合区间（tIoU）阈值，并且10个tIoU阈值中的平均mAP [0. 五比零05：0。95]。可以很容易地看出，存在大量的修剪和未修剪视频的不同组合（随机类和随机样本），并且性能取决于这些选择。我们遵循少数抽样传统[49，40]以获得可靠的测试结果，即我们随机抽取1000个测试批次，并通过对所有这些批次进行平均来报告最终结果。ActivityNet v1.2 [5]ActivityNet是最近发布的时间活动本地化基准。该数据集有两个版本，为了便于与以前的作品进行比较，我们使用版本1。2，其在原始训练和验证子集中分别包含4819和2383个有100个不同的活动类，我们随机将其分为80个类（ActivityNet-train-80）用于训练，20个类（ActivityNet-test-20）用于测试。我们使用ActivityNet中的视频片段作为修剪样本，并确保修剪视频在配对时不会来自同一个未修剪视频。THUMOS有2765个来自UCF 101数据集的修剪视频[38]和413个来自20个不同活动类别的未修剪视频。虽然这是一个较小的数据集，但它有几个视频，其中发生了多个活动，因此使其更具挑战性。这20个类是UCF101中101个类的子集。在[49]之后，我们将20个类分成6个类用于训练，14个类用于测试。这两个分裂被表示为Thumos-train-6和Thumos-test-14。裁剪后的视频来自UCF-101中的相互类，我们分别将其表示为UCF-101-6和UCF-101-14，用于训练和测试4.2. 实现细节对于视频嵌入模块，我们在Kinetics数据集[6]上训练Res3D模型[43]。请注意，少数问题设置要求在训练期间不得存在用于测试的类如3.2节所述，我们设置LT=24，LU=256和dT=dU=2048。在THUMOS3889方法监督少样本mAP@0.5平均mAP1发5发1发5发CDC [31]充分是的8.28.62.42.5Yang等人[49个]充分是的22.323.19.810.0SPN（我们的）弱是的41.945.026.528.8汽车定位[32]弱没有45.230.8表1：ActivityNet v1.2的TAL结果（百分比）。 tIoU阈值为0时的mAP。5和平均mAP。方法分为三类：监管不力，培训时提供视频级标签;全监督在训练期间提供时间边界注释;少数镜头是指只有少数标记的示例可用。方法mAP@0.51发5发CDC [31]Yang等人[49个]6.4 6.513.6 14.0SPN（我们的）14.3 16.2汽车定位[32]24.5表2：THUMOS'14的TAL结果（百分比）。tIoU阈值为0时的mAP。5据报道。这些方法被归类为与表1中使用的相同的组。未修剪视频的长度要长得多，我们遵循常见的做法[48]将其切成不重叠的32秒片段并使用分段输入。关于时间特征金字塔，我们使用NU=5为ActivityNet生成时间维度为{16，8，4，2，1 }的特征图序列，使用NU=3为THUMOS'14生成时间维度为{ 16，8，4，2，1}的以时间维度{16，8，4}来产生特征图。对于多尺度关系模块，我们设置ds=dg=512，并且关系模块Θ（·）是Con v1D的两层，以将特征输入映射到具有S形AC的相似性得分激励整个SPN网络使用等式7中定义的端到端损耗函数进行优化。作为速度精度的权衡，只有Res3D模型的最后一层在预训练后进行联合优化。我们在TensorFlow上实现SPN [1]。整个网络由Adam [18]优化器训练，学习率为10-5。4.3. 与最新技术由于在METAL设置下没有TAL的现有方法。我们与经过更强的监督训练的最先进的本地化模型进行比较。具体来说，我们比较了使用视频级标签训练但不在少数镜头设置下训练的方法[32]2，以及针对少数镜头活动定位提出但使用时间边界注释训练的方法[31，49]3。应该再次强调的是，我们的方法的结果是在最具挑战性的METAL环境下报告的。2使用少数拍摄评估设置报告结果。3对于CDC，我们使用[49]表3：ActivityNet上不同SPN组件的消融研究。上图：嵌入模块的权重初始化。下图：时间特征金字塔、GCN和CSSL的有效性。结果报告下五路一次定位。ActivityNet v1.2表1显示了ActivityNet v1.2数据集的本地化结果。根据监控层次的不同，将各种方法分为三类我们的SPN在一次设置下，在所有评估指标中显着优于以前的完全监督方法，证明了我们的模型即使在没有访问边界注释的情况下也能有效地学习不同视频对之间的良好相似性度量的优越能力。与用更多数据训练的弱监督方法相比，尽管我们的方法缺乏单次定位的性能，但当有更多标记数据可用时（即五次定位），我们实现了竞争精度应该注意的是，与[32]中使用的注释相比，我们仍然使用较少的注释。THUMOS结果示于表2中，其中方法也是cat-1。分成与表1中所用相同的组。我们的SPN一贯实现优越的或有竞争力的性能相比，以前的方法训练更强的监督。请注意，对于METAL问题，THUMOS'14是一个比ActivityNet更具挑战性的数据集，因为前者有更长的未修剪视频，每个视频有更多的活动实例，这使得在弱监督下更难有效地建模相似性：平均而言，THUMOS 的 14 个训练集每个视频有 15个实例，而ActivityNet训练集只有1个。每个视频5个实例方法mAP@0.5平均地图Yang等人[49个]22.39.8SPN-ImageNet35.220.6SPN-动力学41.926.5基地13.27.2+功能金字塔30.318.2+GCN34.722.7+CSSL41.926.53890因此，需要强大的自适应性才能在两个数据集上始终如一地表现4.4. 消融研究重量：通过实验研究了不同权重初始化对嵌入模块的影响.我们考虑两种不同的初始化：（1）Res 3D从ImageNet [9]权重初始化（简单地将2D内核扩展到3D），而无需在任何视频数据集上进行预训练，我们将其表示为SPN-ImageNet。(2)从Kinetics（第4.2节）预训练的Res 3D，我们表示为SPN- Kinetics。结果总结在表3的上半部分。值得注意的是，我们的SPN-ImageNet已经明显优于最先进的方法，突出了SPN网络组件。在ActivityNet v1.2数据集上，我们进行了消融研究，以研究我们在本文中提出的每个网络组件的影响：时间特征金字塔和GCN。所有的实验都是针对五路单次定位进行的。首先，我们实现一个基线模型：我们使用相同的Res3D网络来提取未修剪视频和修剪视频的特征，而不是使用多尺度体系结构来编码未修剪视频，我们直接应用关系模块来计算32个关系分数，然后将其最大化并使用视频级标签（仅PCSL）进行训练。由于每个分数仅代表整个视频的一小段持续时间，因此我们应用多尺度滑动窗口，并为每个窗口片段使用最大分数结果报告在表3下半部分的第一行中。在此基础模型之上，我们首先添加了时间特征金字塔，并保持其他部分不变，以研究单独使用该组件的效果。结果显示在表3下半部分的第二行中。我们观察到显著的性能跳跃，改善了mAP@0。十三减五2到30。3、这清楚地表明了使用多尺度特征金字塔，以直接概括不同时间位置和尺度的视频内容。我们进一步验证了我们的设计，使用GCN的多尺度关系模块中的上下文关系建模。具体来说，在前面模型的基础上，我们在上面添加了一个GCN。如表3的下半部分中的第三行中所报告的，我们实现了更高的mAP，这表明通过上下文关系来丰富相似性的重要性。CSSL。SPN的一个主要贡献是在培训过程中添加CSSL，以便即使在没有边界注释的情况下也能执行本地化监督。如表3所示，添加CSSL改进了mAP@0。34减5 7到419和平均mAP从22。7到26。五、这一显著的改进表明了用CSSL训练SPN的重要性，并支持了我们在两个视频对之间加强结构相似性的动机定性可视化。如图3所示，我们支持集（5修剪视频）洗澡狗，使用鞍马，梳理马，洗脸，铅球测试集（1个未修剪视频）L：1L：2L：4预测相似性评分0.670.710.700.650.63地面实况时间0.00.250.50.751.0洗澡狗洗澡狗图3：ActivityNet v1.2数据集中相似性分数的定性可视化（最佳颜色显示）。具有前5个分数的段被可视化，支持集中的每个类以不同的颜色显示。预测的片段用不同的时间分辨率组织，并且相似性得分在每个片段下方示出。浅色表示对应的段被时间NMS抑制。为了更好的可视化，视频的时间长度被归一化为1。0的情况。提供相似性分数的进一步定性可视化。虽然未修剪的视频和修剪的示例在运动和外观方面有很大差异，但我们的SPN可以为更多相关的片段输出更高的分数，并且通过时间NMS仅保留最佳匹配的片段，证明了所提出的框架的有效性和鲁棒性。5. 结论在本文中，我们介绍了一个新的具有挑战性的设置TAL在未修剪的视频称为最小努力时间活动定位（METAL），也可以作为一个联合问题的弱监督和少数拍摄TAL。我们已经提出了SPN，这是一个相似性金字塔网络，它采用元学习框架来解决单次端到端架构中的仅给定视频级别的标签，我们的SPN通过优化两个免费的损失函数是端到端可训练的，并且很好地概括以定位看不见的活动类。有了这个框架，尽管在METAL设置下进行了培训，但我们的SPN在测试THUMOS3891引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：A大规模机器学习系统。在第12届{USENIX}操作系统设计和实现研讨会（{OSDI}16）中，第265-283页，2016年。7[2] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集，第2846- 2854页，2016年。2[3] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。单流临时行动建议。在IEEE计算机视觉和模式识别会议论文集，第2911-2920页1[4] Fabian Caba Heilbron ， Juan Carlos Niebles 和 BernardGhanem。快速时间活动的建议，有效地检测人类的行动，在未经修剪的视频。在IEEE计算机视觉和模式识别会议论文集，第1914-1923页，2016年。2[5] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中，第961-970页，2015年。6[6] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。一、二、六[7] Yu-Wei Chao ， Sudheendra Vijayanarasimhan ， BryanSey-bold ， David A Ross ， Jia Deng ， and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在IEEE计算机视觉和模式识别会议论文集，第1130-1139页，2018年。一、二、五[8] Xiyang Dai ， Bharat Singh ， Guyue Zhang ， Larry SDavis，and Yan Qiu Chen.用于视频中的活动局部化2017年IEEE国际计算机视觉会议（ICCV），第5727-5736页IEEE，2017年。一、二[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。8[10] Ali Diba 、 Vivek Sharma 、 Ali Pazandeh 、 HamedPirsiavash和Luc Van Gool。弱监督级联卷积网络。在IEEE计算机视觉和模式识别集，第9142[11] Victor Escorcia ， Fabian Caba Heilbron ， Juan CarlosNiebles和Bernard Ghanem。Daps：用于行动理解的深度行动建议。欧洲计算机视觉会议，第768-784页。施普林格，2016年。2[12] 克里斯托夫·费希滕霍夫，阿克塞尔·平茨，安德鲁·齐瑟曼.卷积双流网络融合视频动作识别。InProceedings ofthe IEEE Conference计算机视觉和模式识别，第1933- 1941页，2016年。一、二[13] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届国际机器学习会议论文集-第70卷，第1126-1135页。JMLR。org，2017. 2[14] Adrien Gaidon、Zaid Harchaoui和Cordelia Schmid。动作的时空定位。IEEE transactions on pattern analysis andmachine intelligence，35（11）：2782- 2795，2013。2[15] Jiyang Gao，Zhenheng Yang，Kan Chen，Chen Sun，and Ram Nevatia.Turn tap：用于临时行动建议的临时单位回归网络在IEEE国际计算机视觉会议集，第36282[16] MihirJain，JanVanGemert，Herve 'Je'gou，PatrickBouthemy和Cees GM Snoek。动作定位与tubelets从议案。IEEE计算机视觉和模式识别会议论文集，第740-747页，2014年2[17] YG Jiang ， J Liu ， A Roshan Zamir ， G Toderici ， ILaptev，M Shah，and R Sukthankar. Thumos挑战：2014年，大量班级的行动识别。6[18] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[19] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。ICML深度学习研讨会，第2卷，2015年。3[20] 林天威，赵旭，郑寿。单次瞬时动作检测。2017年ACM多媒体会议，第988ACM，2017。一、二、四[21] 林天威，赵旭，苏海生，王崇景，杨明。

下载后可阅读完整内容，剩余1页未读，立即下载