弱监督下的时间活动定位和分类

159 浏览量更新于2023-10-15 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

W-TALC：弱监督的时间活动定位和分类Sujoy Paul、Sourya Roy和Amit K Roy-Chowdhury美国加州大学河滨分校92521{supaul，sroy，amitrc}@ ece.ucr.edu抽象。文献中的大多数活动定位方法都受到逐帧注释要求的负担。从弱标签学习可能是减少这种手动标记工作的潜在解决方案近年来，互联网上大量涌入的标记视频可以作为弱监督训练数据的丰富来源。具体地，可以利用具有相似标签的视频之间的相关性来在时间上定位活动。为了实现这一目标，我们提出了W-TALC，一个弱监督的时间活动定位和分类框架，只使用视频级标签。该网络可以分为两个子网络，即基于双流的特征提取器网络和弱监督模块，我们通过优化两个互补的损失函数来学习。在两个具有挑战性的数据集-Thumos 14和ActivityNet1.2上的定性和定量结果表明，所提出的方法能够以细粒度检测活动，并实现比当前最先进的方法更好的性能。关键词：弱监督，活动定位，协同活动相似性损失1介绍连续视频中的时间活动定位和分类是计算机视觉中具有挑战性和有趣的问题[1]。它最近的成功[62，68]是围绕一个完全监督的设置发展起来的，该设置考虑了逐帧活动标签的可用性然而，获取这种精确的逐帧信息需要大量的手工劳动。这可能无法随着摄像机和活动类别的增长而有效地扩展另一方面，人们更容易提供一些标签来封装视频的内容此外，互联网上可用的视频通常伴随有提供语义区分的标签这样的视频级标签通常被称为弱标签，其可以用于学习具有对连续视频中的活动进行分类和定位的能力的模型在本文中，我们提出了一个新的框架，时间活动定位和分类（TALC）从这样的弱标签。图1呈现了训练测试方案W-TALC。在计算机视觉中，研究人员利用弱标签来学习几个任务的模型，包括语义分割[18，28，63]，视觉跟踪[69]，重建[52，25]，视频摘要[37]，学习机器人操作[46]，视频字幕[41]，对象边界[29]，位置识别[2]等。弱TALC问题类似于图像中的弱对象检测，其中提供对象类别标签2S.保罗，S。Roy和A. K. Roy-Chowdhury图1：该图呈现了W-TALC的训练测试方案训练集由视频和对应的视频级活动标签组成。然而，在测试时，网络不仅估计视频中的活动的标签，而且临时地定位它们的出现，其表示由模型定位的第j个活动的开始（s，j）和结束时间（e，j）、类别（c，j）和识别的置信度（p，j）。在图像级别。在这一领域已经有几项工作主要利用多实例学习（MIL）[70]的技术，因为它们在可用于训练的信息结构方面有密切的关系MIL所需的阳性和阴性袋通过最先进的区域建议技术生成[33，24]。另一方面，具有分类损失函数的端到端学习在[15，16，13，47]中提出，最近，作者在[71]中以端到端的方式合并了提案生成网络。与弱对象检测相比，使用弱标签的时间定位是一项更具挑战性的任务关键原因是内容的附加变化以及视频中沿时间轴的长度。来自弱标记数据的活性定位仍然相对未探索。一些作品[48，63，50]专注于短视频中演员区域的弱监督空间分割。另一组作品[6，31，40，20]考虑了活动的视频级标签及其在训练期间的时间顺序。然而，关于活动顺序的这样的信息可能对于大多数网络视频不可用。最近的工作[60]利用最先进的对象检测器进行空间注释，但考虑了全时间监督。在[57]中，软选择模块被引入用于未修剪视频分类以及活动定位，并且稀疏性约束被包括在[35]中。在W-TALC中，由于我们只有整个视频的标签，因此我们需要一次处理它们以精细时间粒度处理长视频可能具有相当大的存储器和计算要求。另一方面，粗略的时间处理可能导致降低的检测粒度。因此，在性能和计算之间存在折衷。在过去的几年里，在ImageNet [12]和最近在Kinetics [27]上训练的网络已经在几个应用中得到了广泛的应用基于文献中的这些进展和上述权衡，我们可能想问这样一个问题：是否有可能利用这些网络作为特征提取器，并开发一个弱监督活动定位框架，该框架只学习特定于任务的参数，从而扩展到长视频并以精细的时间粒度处理它们？为了解决这个问题，在本文中，我们提出了一个框架（W-TALC）的弱监督的时间活动定位和视频分类，它利用成对的视频相似性约束，通过一个基于注意力的机制，以及多个实例学习学习，只学习任务特定的参数。框架概述。W-TALC的图示如图1B所示。2. 所提出的方法利用现成的双流网络（[57，9]）作为特征培训提取器特征 t弱辅助核算层板球保龄球板球射击测试、、、时间板球保龄球板球射击拳击打孔袋，拳击，拳击Speedbag吹的蜡烛信心W-TALC：弱监督的时间活动定位和分类3光流流不测试阶段：定位阈值化测试阶段：视频级分类弱标签多实例学习损失不2F类式k-最大均值Softmax交叉-熵损失1个帧F充分连接-ReLU-辍学标签投影全损不不不班级方面班级方面注意事项不2F时间Softmax共活性损失2帧RGB流F视频电平弱标签特征池化特征池化图2：该图呈现了用于弱监督活动定位和分类的所提出的框架。帧的数量n_1和n_2取决于所使用的特征提取器。在将来自RGB流和光流流的特征向量串接之后，应用FullyConnected-ReLU-Dropout操作以获得每个时刻的维度2048然后，这些被传递通过标签投影模块以获得类别上的激活。使用这些激活，我们计算两个损失函数，即多实例学习损失和协同活动相似性损失，它们被联合优化以学习网络权重。萃取器帧输入的数量取决于所使用的网络，将在第3.1节中讨论。在通过网络的帧，我们得到一个矩阵的特征向量的一维表示时间轴。此后，我们应用FullyConnected-ReLU-Dropout层，然后是标签空间投影层，这两个层都是针对弱监督任务学习的。然后使用标签空间上的激活来使用视频级标签计算两个互补损失函数第一个是多实例学习损失，其中类明智的k-最大均值策略被用来池类明智的激活，并获得在类别上的概率质量函数。它与地面实况标签的交叉熵是多实例学习损失（MILL）。第二个是共活动相似性损失（CASL），其基于具有至少一个共同的活动类别（比如骑自行车）的一对视频在对应于该活动的时间区域中应该具有相似特征的动机此外，来自对应于骑自行车的一个视频的特征应当不同于不对应于骑自行车的（该对中的）然而，由于时间标签在弱监督数据中是未知的，因此我们使用从标签空间激活获得的注意力作为弱时间标签来计算CASL。此后，我们联合最小化两个损失函数来学习网络参数。主要贡献。所提出的方法的主要贡献如下。1. 我们提出了一种新的弱监督时间活动定位方法和视频分类，无需微调特征提取器，而仅学习特定于任务的参数。我们的方法在训练过程中不考虑视频中标签的任何排序，并且可以在相同的时间段内检测多个活动。2. 我们引入了协同活动相似性损失，并将其与多实例学习损失联合我们的经验表明，这两个损失函数是互补的性质。4S.保罗，S。Roy和A. K. Roy-Chowdhury3. 我们在两个具有挑战性的数据集上进行了广泛的实验，并表明所提出的方法比当前最先进的方法表现得更好。2相关作品。从弱监督数据中学习的问题已经在几个计算机视觉任务中得到解决，包括对象检测[4，16，33，42，11，47]，分割[54，55]，以及其他一些计算机视觉任务。38，3，28，59]、视频字幕[41]和摘要[37]。在这里，我们将详细讨论与我们的工作更密切相关的其他工作。弱监督空间动作定位。一些研究人员已经研究了使用弱监督的大多数短且修剪的视频中的演员的空间定位问题在[10]中，开发了用于播放器本地化的框架在体育视频中，使用来自最先进的全监督球员检测器的检测作为其网络的输入。人检测器也用于[48，61]中以生成人管，其用于学习不同的基于多实例学习的分类器。条件随机场（CRF）在[63]中用于从视频级标签但在短视频上执行演员动作分割。脚本作为弱监督。文献中的一些作品使用通常与视频一起可用的脚本或字幕作为活动定位的弱标签。在[32，14]中，从字幕中提取与人类动作相关的单词，以提供用于训练的动作的在[5]中，从电影中提取的演员-动作对脚本作为弱标签的空间演员的动作定位，通过使用判别聚类。另一方面，我们的算法仅考虑视频的标签作为整体是可用的，对于从其获取标签的源是不可知的，即，电影剧本、字幕、人类或其他神谕。排序的时间定位。除了训练期间的视频级标签之外，文献中很少有作品考虑活动的时间顺序的可用性。训练视频中的活动排序被用作判别聚类中的约束，以学习[6]中的活动检测模型类似的方法”（《七绝》）。在[20]中，作者提出了一种基于动态规划的方法来评估和搜索视频帧与相应标签之间的可能对齐[40]中的作者使用递归神经网络（RNN）来迭代地训练和重新排列活动区域，直到收敛。在[31]中，相同的作者提出了类似的迭代过程与这些文献中的作品不同，我们的工作不考虑任何有关活动顺序的信息[57，35]中的工作与本文提出的问题设置密切相关。然而，由于[57]中的框架基于时间片段网络[58]，因此在训练期间考虑固定数量的片段，而不管视频的长度如何，此外，它们只使用MILL，这可能不足以以精细的时间粒度定位活动。在[35]中优化了基于稀疏性的损失函数，以及与[57]中使用软选择方法获得的损失函数类似的损失函数在本文中，我们引入了一种新的损失函数，名为共活性相似性损失（CASL），它施加成对的约束，以获得更好的定位性能。我们还提出了一种机制，用于处理长视频，但在高时间检测活动W-TALC：弱监督的时间活动定位和分类5i=1i=1i=1粒度尽管没有对特征提取器进行微调，但我们仍然可以在弱TALC上实现比现有技术方法更好的性能。此外，实验结果表明，CASL是互补的性质与MILL。3方法在本节中，我们将介绍我们的弱监督活动定位和分类框架（W-TALC）。首先，我们介绍了我们用来从两个标准网络中提取特征的机制，然后是我们学习的网络层之后，我们提出了两个损失函数MILL和CASL，我们共同优化以学习网络的权重。可以注意到，我们仅使用训练视频的视频级标签来在进入我们框架的细节之前，让我们正式定义符号和问题陈述。问题陈述。考虑我们有n个视频的训练集X ={x i}n具有由L={li}n表示的可变持续时间（特征提取后）和活动标签集A={ai}n，其中ai={aj}mi 是第i个的m i（≥1）个标签i=1i j=1Snn视频. 我们还将活动类别的集合定义为S=i=1 ai={αi}c. 期间测试时间，给定视频x，我们需要预测一个集合x={（s，e，c，p）}n（x），其中detJjjj j=1n（x）是x的检测次数。 Sj、Ej是第j次检测的开始时间和结束时间，Cj表示其具有置信度Pj 的预测活动类别。与这些符号，我们提出的框架下。3.1特征提取在本文中，我们特别关注两种架构-UntrimmedNets [57]和I3 D[9]对于特征提取，主要是由于它们的两个流性质，其在其中一个流中并入了活动识别所必需的丰富的时间信息请注意，我们框架的其余部分对所使用的功能是不可知的。UntrimmedNet功能。在这种情况下，我们通过RGB流传递一帧，通过光流流传递5帧，如[57]所示。我们以2.5 fps的速度从分类层之前我们使用在ImageNet[12]上预训练的网络，并使用弱标签和MILL对特定于任务的数据集进行微调，如[57]所示。因此，该特征提取器没有关于使用强标签的活动的知识I3D功能。与[35]一样，我们还实验了从Kinetics预训练的I3D网络中提取的特征[9]。两个流的输入是不重叠的16帧块。输出通过核大小为2×7×7的3D平均池化层，以从两个流中获得每个维度为1024在特征提取过程结束时，每个视频xi由两个表示。矩阵Xr和Xo，分别表示RGB和光流特征，两者都是我我其尺寸为1024×li。注意，l_i不仅取决于视频索引i，而且还介绍了特征提取所使用的程序这些矩阵成为弱监督学习模块内存限制。如前所述，自然视频的长度可能有很大的变化，从几秒到超过一个小时。在监管不力的6S.保罗，S。Roy和A. K. Roy-ChowdhuryX设置，我们有关于整个视频的标签的信息，因此要求它一次处理整个视频。由于GPU存储器约束，这对于非常长的视频可能是有问题的。这个问题的一个可能的解决方案可能是沿着时间轴将视频划分为块[58]，并应用时间池化技术将每个块的长度减少到单个表示向量。区块的数量取决于可用的GPU内存。然而，这将在表示向量中引入为了解决这个问题，我们引入了一个简单的视频采样技术。长视频采样。由于本地化的粒度对于活动本地化很重要，因此我们采用了上述方法的替代方法如果整个视频的长度小于满足GPU带宽所需的预定义长度T，则我们处理整个视频但是，如果视频的长度大于T，我们随机抽取从其提取具有连续帧的长度为T的剪辑，并将整个视频的所有标签分配给所提取的视频剪辑。可以注意到，尽管这可能在标签中引入一些误差，但是这种采样方式确实具有优点，如将在第4节中更详细地讨论的。计算预算和微调。由视频采样策略引入的误差将随着预定义长度T的减小而增加，这满足GPU带宽约束。如果我们想要联合微调特征提取器以及训练我们的弱监督模块，则T可以非常小，以便维持随机梯度下降（SGD）的合理批量[8]。虽然T的值可以通过同时使用多个GPU来增加，但是它可能不是可扩展的方法。此外，训练两个模块的时间可能很长。考虑到这些问题，我们不微调特征提取器，而只是从头开始学习任务特定的参数，下面将描述这样做的优点是双重的-弱监督模块在参数数量方面是轻量级的，因此需要更少的训练时间，并且它大大增加了T，从而在对长视频进行采样时减少了标记接下来，我们介绍我们的弱监督模块。3.2弱监督层在本节中，我们提出了弱监督学习方案，该方案仅使用弱标签来学习同时进行活动定位和分类的模型全连接层。我们引入了一个全连接层，然后是ReLU[34][49]第49话：一个人的幸福该操作可以形式化为具有索引i的视频如下。.Xi=D Max.0，WfcΣrΣIo我伊博足球俱乐部ΣΣ，kp（一）其中D表示Dropout，其中kp表示其保持概率，是与广播算子的加法，Wfc∈R2048×2048和b ∈ R2048×1是要从训练数据中学习的参数，Xi ∈ R2048×li是整个视频的输出特征矩阵。标签空间投影我们使用特征表示Xi来对视频中的活动进行分类和局部化我们将表示Xi投影到标签空间XW-TALC：弱监督的时间活动定位和分类7L（∈Rnc，nc是类别的数量），使用全连接层，沿着时间轴共享权重。在此投影之后，我们获得的类激活可以表示如下。Ai=Wa Xiba（2）其中Wa∈Rnc×2048，ba∈Rnc是要学习的，Ai∈Rnc×li.这些类式激活表示在每个时间瞬间的活动的可能性这些激活用于计算损失函数，如下所示3.3k-max多示例学习如第1节所讨论的，本文中解决的弱监督活动定位和在MIL中，将单个样品分组在两个袋中，即阳性袋和阴性阳性袋包含至少一个阳性实例，阴性袋不包含阳性实例。使用这些袋子作为训练数据，我们需要学习一个模型，除了对袋子进行分类之外，该模型还能够区分每个实例是正面还是负面。在我们的例子中，我们将整个视频视为一个实例包，其中每个实例由特定时刻的特征向量表示。为了计算每个行李的损失，即，视频在我们的例子中，我们需要使用每个类别的单个置信度得分来表示每个视频。对于给定的视频，我们将对应于特定类别的激活分数计算为该类别在时间维度上的k-max激活的平均值。在我们的例子中，袋子中元素的数量变化很大，我们设置k与袋子中元素的数量成正比。具体地说，.ki= max 1，，，Σ我S（三）其中s是设计参数。因此，第i个视频的第j个类别的类置信度得分sj=1max Σki Ml（4）ikiMAi[j，：]|M|=kil=1其中Ml指示集合M中的第l个元素。此后，softmax非线性应用于获得所有类别的概率质量函数如下，jexp（sj）p=nij。我们需要将这个pmf与Icj=1 exp（si）标签，以便计算MILL。由于每个视频可以具有多个如果视频中发生活动，则我们表示视频的标签向量，如果该活动发生在视频中，则在位置处为1，否则为0。然后，我们将该地面真值向量归一化，以便将其转换为合法的pmf。MILL则是预测的pmfpi和地面实况之间的交叉熵，其然后可以表示如下：LMILL= 1Σn Σnc −yjlog（pj）（5）ni ii=1j =18S.保罗，S。Roy和A. K. Roy-Chowdhury我我其中yi =[yi，. . .是归一化的地面真值向量。这个损失函数是我我与[57]中使用的语义相似接下来，我们提出新的共活性相似性Loss，它强制执行约束以学习更好的活动定位权重3.4共活性相似性如前所述，W-TALC问题促使我们识别相似类别的视频之间的在更详细地讨论之前，让我们定义第j个类别的类别特定集合为，|阿查克∈a i，s.t.一个k=αj}，也就是说，集合Sj包含训练集的所有视频，其具有活动αj为它的一个标签。理想情况下，我们可能希望在等式1中的学习特征表示Xi中具有以下性质。1.一、– 属于集合Sj（对于任何j ∈ {1，. . . ，n，c}）在视频中发生活动α j的部分中应当具有类似的特征表示。– 对于相同的视频对，在一个视频中出现αj的部分的特征表示应当不同于在另一个视频中不出现αj的部分的特征这些属性在MILL中不直接强制执行。因此，我们引入共活动相似性损失来嵌入所需的属性在学习的特征表示。由于我们没有逐帧标签，因此我们使用在等式n中获得的逐类激活2确定所需的活动部分。损失函数的设计有助于同时学习特征表示和标签空间投影。我们首先使用softmax非线性将沿时间轴的每视频类激活分数归一化如下：A[j，t]=Σ exp（Ai[j，t]）（六）ilit′=1 exp（Ai[j，t′]）其中t指示时刻，并且j ∈ {1，. . . ，n c}。我们将这些称为注意力，因为它们关注视频中某个类别的活动发生的部分对于特定类别的高关注值指示该类别的高出现概率为了公式化损失函数，让我们首先定义具有高和低关注度的区域的类特征向量，如下所示：Hfj=XiA[j，：]T我我Lj1。T Σfi=我 -1Xi1−Ai[j，：]（七）其中Hfj，Lfj∈R2048表示高关注区域和低关注区域聚合特征我我分别表示类别j的视频i。可以注意到，在Eqn.7 the如果视频包含特定活动并且特征向量的数量，即，Ii=1。这在概念上也是有效的，在这种情况下，我们不能计算CASL。我们使用余弦相似性以便获得两个特征向量之间的相似程度的度量，并且其可以表示如下：d[f，f∠fi，fj∠]=1−（八）ij11∠fi，fi ∠2 ∠fj，fj ∠2LW-TALC：弱监督的时间活动定位和分类9JF为了加强上述两个属性，我们使用排序铰链损失。给定一对视频Xm，Xn∈Sj，损失函数可以表示如下：MN1，.HJHJΣHJLJLj=2 max0，d[ fm，fn]−d[ fm，fn] +δ+ Max 0，dΣHfj，HfjΣ−dΣLfj，HfjΣ+δ（九）m n m n其中δ是裕度参数，我们将其设置为0。5在我们的实验中损失函数中的两个项在意义上是等同的，并且它们表示两个视频中的高关注度区域特征应该比一个视频中的高关注度区域特征和另一个视频中的低关注度区域特征更相似整个训练集的总损失可以表示如下：LCASL= 1名儿童cncj=11. |Σ|Σ2ΣMNJxm，xn∈Sj（十）优化. 为了学习弱监督层的权重，我们需要优化的总损失函数可以表示为：L=λLMILL+（1−λ）LCASL+α||W ||2（十一）其中在我们的网络中要学习的权重被集中到W。我们使用λ = 0。5和在我们的实验中，α=5×10−4我们使用Adam优化上述损失函数[30]批量大小为10。我们以一种方式创建每个批次，使其具有最小值使得每一对具有至少一个共同的类别我们在所有的实验中使用10- 4分类和定位。在学习了网络的权重之后，我们使用它们对未修剪的视频进行分类，并在测试期间定位其中的活动时间给定视频，我们获得如式（1）中的类置信度分数4，然后是softmax，以获得可能类别上的pmf。然后，我们可以对pmf进行阈值化以将视频分类为包含一个或多个活动类别。然而，如数据集[21]和文献[57]中所定义的，我们使用mAP进行比较，这不需要阈值操作，而是直接使用pmf。对于本地化，我们采用了两阶段的阈值方案。首先，我们丢弃具有置信度得分的类别（等式1）。4)低于特定阈值（在我们的实验中使用的0.0）。此后，对于剩余类别中的每一个，我们对A（等式11）中的对应激活应用2)以获得定位。可以注意到，由于Ii通常小于视频的帧速率，因此我们对激活进行上采样以满足帧速率。4个实验在本节中，我们通过实验评估了所提出的框架，用于弱标记视频的活动定位和分类我们首先讨论我们使用的数据集，其次是实施细节，定量和一些定性的结果。L.Σ10S.保罗，S。Roy和A. K. Roy-Chowdhury数据集。我们对两个数据集进行了实验分析，即ActivityNet v1.2 [19]和Thumos14 [21]。这两个数据集包含未修剪的视频，其具有视频中发生的活动的逐帧标签。然而，由于我们的算法是弱监督的，我们只使用与视频相关的活动标签。ActivityNet1.2. 该数据集有4819个用于训练的视频，2383个用于验证的视频和2480个用于测试的视频，其标签被保留。涉及班级100个，平均1. 每个视频5个时间活动片段与文献[57，35]一样，我们使用训练视频来训练我们的网络，并使用验证集进行测试。Thumos14. Thumos14数据集有1010个验证视频和1574个测试视频，分为101个类别。在这些视频中，200个验证视频和213个测试视频具有属于20个类别的时间注释虽然这是一个比ActivityNet1.2更小的数据集，但时间标签非常精确，每个视频平均有15.5个活动时间段。这个数据集有几个视频，其中发生了多个活动，因此使其更具挑战性。视频的长度也从几秒到一个较少的视频数量使得有效学习弱监督网络具有挑战性根据文献[57，35]，我们使用验证视频进行训练，使用测试视频进行测试。实施详情。我们使用相应的存储库来提取UntrimmedNets 1和I3D 2的特征。我们不微调特征提取器。通过Xavier方法[17]初始化弱监督层的权重我们使用TVL1光流3。我们使用Tensorflow在单个Tesla K80 GPU上训练网络我们在等式中设置s = 8。三是两个数据集。活动本地化。我们首先进行定量分析，我们的框架活动本地化的任务我们使用不同的交集和并集的mAP(IoU)作为性能指标的阈值，如[21]中所示。我们将我们的结果与表1和表2中分别针对Thumos14和ActivityNet1.2的强监管和弱监管的几种最先进的方法进行了比较。值得注意的是，据我们所知，我们是第一个在ActivityNet1.2上提出弱监督时间活动定位的定量结果。我们展示了不同的功能组合和使用的损失函数可以注意到，我们的框架比具有类似特征使用的其他弱监督方法表现得更重要的是要注意，尽管Kinetics预训练的I3D特征（I3DF）具有一些关于活动的知识，但仅使用MILL [57]以及I3DF的性能要比将其与本文介绍的CASL相结合差得多此外，即使使用UNTF，我们的框架也比其他最先进的方法表现得更好，UNTF没有使用任何强标签的活动进行训练。两个损失函数MILL和CASL的详细分析将随后呈现。活动分类。现在，我们提出了我们的活动分类框架的性能。我们使用均值平均精度（mAP）来从式（1）中的预测的视频级分数计算分类性能4在应用softmax之后。我们比较了完全监督和弱监督方法，结果分别见表3和表4拟议1www.github.com/wanglimin/UntrimmedNet2www.github.com/deepmind/kinetics-i3d3 www.github.com/yjxiong/temporal-segment-networksW-TALC：弱监督的时间活动定位和分类11表 1 ：在 Thumos14 数据集上的检测性能比较 UNTF 和 I3DF 分别是UntrimmedNet features和I3D features的缩写符号↓表示在[35]之后，这些模型仅使用具有时间注释的20个类进行训练，但不使用其时间注释。监督IoU→0.10.20.30.40.50.7[26]第二十六话04.603.402.101.400.900.1FV-DTF [36]36.633.627.020.814.4-[39]第三十九话39.735.730.023.215.2-S-CNN [44]47.743.536.328.719.005.3强浏览[64]PSDF [65]48.951.444.042.627.033.620.826.114.418.8--手机短信[66]51.045.236.527.817.8-CDC [43]--40.129.423.307.9R-C3D [62]54.551.544.835.628.9-SSN [68]60.356.250.640.829.1-HAS [47]36.427.819.512.706.8-弱[57]第五十七话STPN（UNTF）[35]↓44.445.337.738.828.231.121.123.513.716.2-05.1STPN（I3DF）[35]↓52.044.735.525.816.904.3工厂+CASL+UNTF↓49.042.832.026.018.806.2弱MILL+I3DF46.539.931.224.016.904.4（我们的）MILL+CASL+I3DF53.748.539.229.922.007.3MILL+CASL+I3DF↓55.249.640.131.122.807.6表2：ActivityNet1.2数据集的检测性能比较。最后一列（平均值）指示IoU阈值0.5：0.05：0.95的平均mAP。监督IoU→0.10.20.30.40.50.7Avg.强SSN-SW [68]SSN-TAG [68]------------24.825.9弱W-TALC（我们的）53.949.845.541.637.014.618.0方法的性能明显优于其他现有技术的方法。请注意，与表中提到的我们的方法相比，用↑表示的方法使用了更大的训练集损失函数的相对权重。在我们的框架中，我们联合优化两个损失函数-MILL和CASL定义在Eqn。11来学习弱监督模块的权重研究损失函数对检测性能的相对贡献是有趣的。为了做到这一点，我们使用I3D特征进行了实验，具有不同的λ值（较高的值表示MILL上的较大权重3a.如可以从图中观察到的，所提出的方法在λ = 0时表现最佳。5，即，当两个损失函数具有相等的权重时。此外，仅使用MILL，即，λ= 1。0时，与在损失函数中给予CASL和MILL相等权重时相比，mAP降低了7−8%这表明，与使用I3D特征以及[57]中的损失函数相比，本工作中引入的CASL对我们的框架的更好性能具有重大影响MILL.12S.保罗，S。Roy和A. K. Roy-Chowdhury表3：在Thumos14数据集上的分类性能比较。 ↑ 表明该算法使用来自Thumos14的视频和来自UCF101的修剪视频进行训练。没有↑表示算法仅使用Thumos14的视频进行训练。表4：ActivityNet1.2数据集的分类性能比较。↑表示算法使用ActivityNet1.2的训练和验证集进行训练并在服务器上进行测试。没有↑表示算法在训练集上训练，并在验证集上测试。算法地图监督C3D [51]74.1强↑iDT+FV [55]66.5强↑[23]第二十三话78.1强↑温度隔离区Net. (TSN)[58个]88.8强↑两条溪流[45]71.9强↑温度隔离区Net. (TSN)[58个]86.3强[57]第五十七话87.7弱[57]第五十七话91.3弱↑W-TALC（我们的w.I3D）93.2弱对最大序列长度的灵敏度。自然视频通常可能非常长。如前所述，在弱监督设置中，我们只有视频级标签，因此我们需要一次处理整个视频以计算损失函数。在第3.1节中，我们讨论了一个简单的采样策略，我们使用该策略来保持一批视频的长度小于预定义的长度T，以满足GPU内存限制。该方法具有以下优点和缺点。- 优点：首先，我们可以使用这个方案从长视频中学习。其次，如果视频的长度多T，则该策略将充当数据增强技术，因为我们沿着时间轴随机裁剪以使其成为固定长度序列。T的较低值也减少了计算时间。- 缺点：在这种抽样方案中，训练批次的标签中会引入错误，这可能会随着长度> T的训练视频的数量而增加。上述因素引起性能和计算时间之间的权衡。这可以在图3b中看到，其中曲线图的初始部分随着T的增加，检测性能提高，但是计算时间增加。然而，检测性能最终达到平台，表明T=320s是该数据集的合理选择。定性结果。我们提出了一些有趣的例子本地化与地面真理图。4.第一章图中有四个来自Thumos14和ActivityNet1.2数据集的示例为了测试所提出的框架在本文使用的数据集之外的视频上的表现，我们在从YouTube随机收集的视频上测试了学习的网络我们在图1中呈现了两个这样的示例检测。4，使用在Thumos14上训练的模型。图中的第一个例子。4是相当具有挑战性的，因为定位应该精确地是视频的部分，其中高尔夫挥杆发生，其具有非常相似的特征方法地图监督EMV + RGB [67]61.5强↑iDT+FV [55]63.1强↑iDT+CNN [56]62.0强↑[23]第二十三话71.6强↑壮举.啊[22日]71.0强↑极端LM [53]63.2强↑温度隔离区Net. (TSN)[58个]78.5强↑两条溪流[45]66.1强↑温度隔离区Net. (TSN)[58个]67.7强[57]第五十七话74.2弱[57]第五十七话82.2弱↑W-TALC：弱监督的时间活动定位和分类13450454035302520150.2 0.40.6（一）0 200 400 600 800 1000最大序列长度（秒）（b）第（1）款图3：（a）呈现了通过改变MILL和CASL上的权重在Thumos14上的检测性能的变化。较高的λ表示MILL上的更多重量，反之亦然。(b)表示检测性能的变化（@ IoU ≥0. 3）和Thumos14数据集上的训练时间，如本文中所讨论的，通过改变训练期间视频序列的最大可能长度（T在RGB域中，将视频中玩家准备挥棒的部分尽管如此，我们的模型是能够本地化的高尔夫挥杆的相关部分，可能基于流功能。在Thumos14的第二个示例中，Cricket Shot和Cricket Bowl的检测似乎在时间上相关。这是因为Cricket Shot和Bowl是通常在视频中共同发生的两个活动。为了具有针对这样的活动的细粒度本地化，需要仅具有这些活动中的一个的视频。然而，在Thumos14数据集中，很少有训练示例只包含这两个活动中的一个。在第三个示例中，来自ActivityNet1.2，尽管然而，我们的模型也能够定位这些活动片段。相同的讨论也适用于第四个示例，其中“Bagpiping”以稀疏的方式出现在帧中，并且我们的模型的响应与其出现对齐，但是地面实况注释几乎是针对整个视频的这两个例子是弱监督本地化背后的动机，因为从多个标签机获得精确一致的地面事实是困难的，昂贵的，有时甚至是不可行的。第五个例子是从YouTube上随机选择的视频。它有一个人，谁是杂耍球在户外环境。但是，Thumos14中同一类别的大多数示例都在室内，其中人在空间上占据了帧的很大一尽管数据存在这种差异，但我们的模型能够定位活动的然而，该模型还预测视频的某些部分是此外，有趣的是注意到，前两帧显示了球与脚的一些动作，并且它也被检测为42102.52401.5381360.5mAP @ IoU>0.3时间训练340IOU0.1IOU0.2IOU0.3IOU0.4IOU0.5更多CASL更多MILL平均精密度（mAP）平均精密度（mAP）训练时间（秒）14S.保罗，S。Roy和A. K. Roy-ChowdhuryThumos14高尔夫挥杆法Det.GTThumos14法CricketShotDet.GT法板球碗侦探GTActivityNet法饰演PoloDet.GTActivityNet吹风笛法Det.GTYouTube杂耍球法。Det.足球杂耍法Det.YouTube自行车法Det.图4：该图呈现了用于定性分析的一些检测结果。行动表示从我们的网络的最后一层“Det”获得的时间激活。表示在对激活进行阈值化之后获得的检测，并且5结论和未来工作在本文中，我们提出了一种方法来学习时间活动定位和视频分类模型，只使用弱监督视频级标签。我们提出了新的协同活动相似性损失，这是经验证明是互补的多实例学习损失。我们还展示了一个简单的机制来处理长视频，但在高粒度处理它们。在两个具有挑战性的数据集上的实验表明，该方法在弱TALC问题上取得了最好的结果。未来的工作将集中在扩展的想法，共活动相似性损失的其他问题，在计算机视觉。致谢。通过Mayachitra Inc和NSF赠款33378的分包合同，ONR合同N 00014 -15-C-5113部分支持了这项工作。我们感谢UCR CS的Victor Hill建立了计算基础设施。W-TALC：弱监督的时间活动定位和分类15引用1. Aggarwal，J.K. Ryoo，M.S.：人类活动分析：审查. ACM计算调查（CSUR）43（3），16（2011）2. 阿兰杰洛维奇河Gronat，P.，Torii，A.，Pajdla，T.，Sivic，J.：Netvlad：Cnn架构弱监督位置识别在：CVPR中。pp. 52973. Bearman，A.，Russakovsky，O.，法拉利，V。，李菲菲：重点是什么：具有点监督的语义In：ECCV. pp. 549-565. Springer（2016）4. Bilen ， H. ， Vedaldi ， A. ：弱监督深度检测网络在： CVPR 中。 pp. 2846-2854（2016）5. Bojanowski，P.，巴赫，F.，拉普捷夫岛Ponce，J.，施密德角Sivic，J.：寻找电影中的演员和In：ICCV. pp. 2280-2287. IEEE（2013）6. Bojanowski，P.，拉朱吉河巴赫，F.，拉普捷夫岛Ponce，J.，施密德角Sivic，J.：排序约束下视频中的弱监督动作标注。In：ECCV. pp. 628-643. Spuringer（2014）7. Bojanowski，P.，拉朱吉河Grave，E.巴赫，F.，拉普捷夫岛Ponce，J.，Schmid，C.：视频与文本的弱监督对齐。In：ICCV. pp. 4462-4470. IEEE（2015）8. Bottou，L.：随机梯度下降的大规模机器学习。In：COMPSTAT，pp.177-186. 03 TheSunday（2010）9. 卡雷拉，J.，齐瑟曼，A.：你好，动作识别？新模型和动力学数据集。在：CVPR中。pp. 4724-4733. IEEE（2017）10. Chen，L.，中国地质大学，Zhai，M.，Mori，G.：关注独特的时刻：用于视频中动作定位的弱监督在：CVPR中。pp. 32811. Cinbis，R.G.，Verbeek，J.，Schmid，C.：基于多重多实例学习的弱监督目标定位PAMI39（1），18912. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库在：CVPR中。pp. 2

下载后可阅读完整内容，剩余1页未读，立即下载