没有合适的资源?快使用搜索试试~ 我知道了~
无监督视频动作定位方法中的时间协同注意模型
9819学习时间协同注意模型的无监督视频动作定位龚国强,王兴汉,穆亚东王轩北京大学计算机技术研究所{gonggq,xinghan wang,myd}@ pku.edu.cn齐天诺亚huawei.com摘要未裁剪视频中的时间动作定位问题近年来受到了据我们所知,这是文献中首次尝试以在无监督的设置下 探 索 该 任 务 , 在 下 文 中 称 为 动 作 协 同 定 位(ACL),其中仅知道出现在视频集中的唯一动作的总计数。为了解决ACL,我们提出了一个两步的“聚类+定位”迭代过程。聚类步骤为定位步骤提供噪声伪标签,并且定位步骤提供时间共同注意力模型,其进而改善聚类性能。使用这样的两步过程,弱监督TAL可以被视为我们的ACL模型的直接扩展。从技术上讲,我们的贡献是双重的:1)时间共同注意力模型,类特定的或类不可知的,以迭代增强的方式从视频级标签或伪标签学习; 2)专门为ACL设计的新损耗,包括动作-背景分离损耗和基于簇的三重态损耗。对20动作THUMOS 14 和100 动 作 ActivityNet-1.2 进 行 了 综 合 评价。在这两个基准测试中,所提出的ACL模型表现出很强的性能,甚至令人惊讶地与最先进的弱监督方法相当。例如,以前最好的弱监督模型达到26。8%低于THUMOS 14上的mAP@0.5,我们的新记录是30。1%(弱监管)和25。0%(无监督)。1. 介绍时间动作定位(或动作检测)[54,39,57,48,23,30,56]是视频理解中的一个基本挑战。时间动作定位的目标是从一个长的,未修剪的视频中精确地找到每个动作实例它在现实世界的场景中有各种潜在的应用,包括*通讯作者。图1.两个共同注意力模型的说明。类无关的注意力有助于找到视频的重要帧。类特定注意力模型描述了动作的时间分布,可以用于动作定位.请注意,ACL中的操作是匿名的(通过共同关注引导的聚类获得)。视频摘要、视频亮点检测、手术技能评估等。为了学习有效的动作局部化模型,收集足够数量的带注释的视频至关重要。与主要为图像识别设计的基准(例如,ImageNet[35])或视频分类(例如,Kinetics[3])是 动 作 本 地 化 的 最 大 视 频 基 准 , 称 为 ActivityNetv1.3[10],只有大约20,000个注释视频。这部分归因于标记动作实例更繁琐并且容易出错的事实,因为准确地解除限制动作实例的时间边界对于不同的注释者来说既实例级注释的缺乏激发了最近弱监督时间动作定位方法的研究。具体来说,对于每个训练视频,只有一个粗略的视频级动作类别,但没有逐帧标签。这项工作的主要范围是一个未探索的问题,无监督的时间动作定位设置。在9820在无监督的情况下,我们所知道的关于训练视频的全部是一个整数C,它是视频集合中出现的唯一动作的总和。为了便于说明,我们将这个新问题称为动作共定位(ACL)。据我们所知,我们的工作是第一个解决无监督的时间动作本地化。为了解决ACL,我们提出了一个两步的在无监督的情况下,缺少真正的语义注释,因此我们使用聚类算法将视频分组为C聚类,每个聚类定义一个伪动作。每个未标记的未修剪的视频是基于聚类结果的伪动作类标签签名。然后,基于这些噪声视频级伪标签学习动作定位模型,该模型能够检测动作实例并预测其伪标签。我们提出的ACL解决方案的核心是图1所示的两种时间共同关注,分别使用动作背景分离损失和基于集群的三重损失进行优化:1) 受经典图像共分割技术[34,15]的启发,我们认为相同动作的视频(这里通过动作伪标签近似)共享共同的类特定共同注意力模型。我们通过类特定的共同注意分数得到类特定的动作特征表示。特别地,对于属于同一聚类的视频,我们希望满足以下两个标准:高视频间类特定动作特征表示相似性和高视频内动作背景特征区分度。基于这些准则,我们设计了动作-背景分离损失来训练特定类别的共同注意模型。一旦被准确地学习,这种共同注意力模型就可以用于生成和排名动作特定的pro-bandwidth。2) 由于未修剪的视频通常包含大量不相关的背景,我们设计了一个类无关的共同注意模型来学习每帧的重要性得分。我们得到的类无关的视频特征表示的类无关的共同注意力模型。为了将同一类的特征表示拉得更近,并将属于不同类的视频特征在特征空间中推得更远,我们设计了基于类的三元组丢失来训练类无关的共同注意力模型。聚类步骤和定位步骤相互加强。聚类步骤为定位步骤提供噪声伪标签。然后在定位步骤中更新所有时间共同关注。类不可知的共同注意力模型又被用于调制第一视频聚类步骤,确保具有高注意力分数的视频帧在聚类期间发挥更重要的作用。重要的是,弱监督的TAL,其中视频级别的动作类标签是可用的,可以被视为ACL的一个特殊情况下,并通过我们的时间共同注意力模型解决。特别地,具有弱注释的视频可以根据视频级标签被分组为C个聚类,因此跳过第一聚类。这项工作的技术贡献可以总结如下:1)据我们所知,这是第一个在文献中探索无监督时间动作共定位(ACL)的工作; 2)提出了一种新的两步“聚类+定位”的无监督ACL解决方案。特别是,我们设计了类不可知和类特定的时间共同关注,这是迭代加强,逐步提高准确性。我们提出了动作-背景分离损失和基于聚类的三重损失结合交叉熵损失来训练这两个共同注意模型; 3)我们在20个动作的THUMOS 14和100个动作的ActivityNet-1.2上进行的实验建立了ACL的第一个基线和评估协议。令人惊讶的是,所提出的ACL模型在两个基准上都表现出与最先进的弱监督方法竞争的性能。例如,我们在THUMOS 14上的记录是25。在mAP@0.5下,在无监督环境中为0%。此外,我们在THUMOS 14上的新记录在弱监督设置下mAP@0.5是30。1%,而之前最好的是26。百分之八2. 相关工作完全监督的动作本地化:这是指所有真实动作实例都详细标记的问题设置,包括时间边界和动作类别。监督动作定位的关键挑战之一是从不同尺度和位置绘制的大量候选时间窗口。受图像对象检测器的R-CNN家族的启发[9],动作定位模型的早期开发[39,48,37,49,4,24,44,22]采用两阶段“生成动作建议+排名建议”范式。第一阶段从视频中提取可能的时间窗口的大池(例如,[5,39,2,8],时间交流,特征分组[57,7]或边界点检测[18,16]),并快速过滤掉其中最不可能包含任何动作的大部分。其余的建议进一步通过更细粒度的检查,例如临时阶段感知SSN [57]。最有信心的建议被输出为预测的动作实例。除了两阶段方法之外,还存在其他方法,这些方法采用强化学习[50,11]或单次检测[1,17]的框架,这些方法受到图像对象检测中对应方法的启发(例如,[21][22][弱监督动作定位:视频级标记比片段级标记更直接,这被称为弱监督动作定位[43]。大多数相关方法都受到多实例学习(MIL)[25]或视觉注意力模型[51]的强烈启发。代表性方法包括9821i=1视频1视频2视频3视频n-1视频n片段提取器I3D I3D I3DI3D I3DI3DI3D I3D………I3D I3D I3D公司简介i3D特征阶级不可知论者注意力分数注意力加权特征聚类群集#1群集#2群集#C视频级伪标签阶级不可知注意Conv-1DFC片段i3D片段i3D刘片段i3D本地-全球块L李片段I3D���Ƹ片段i3DConv-1DFCRGB/Flow你好班级专属注意图2.我们提出的模型的整体架构上半部分是聚类模块,下半部分是定位模块。更多详情请参见第3节。UntrimmedNet [46] , Hide-and-Seek [41] , W-TALC[29],SparseTemporal Pooling Network [27],AutoLoc[38]和CleanNet[14]等。其中,UntrimmedNet [46]由分类/选择模型和稀疏鼓励正则化组成。[58]中的工作确定了一个关键挑战,即沿时间尺度的过度稀疏支持帧。因此,作者建议迭代地删除前任分类器,并强制执行一个新的分类器来学习一些互补的片段。最近,在[19]中,提出了一个具有MIL损失和多样性损失的多分支网络来建模动作完整性。[26]第二十六话强调这些工作与ACL的任务有根本区别:这些方法主要以修整视频为目标,并且“定位”基本上是空间的。3. 所提出的方法在本节中,我们将介绍我们提出的ACL方法它对弱监督情况的扩展可以通过跳过第一聚类步骤来简单地获得,因为我们知道在弱监督情况下每个视频的动作类别假设我们有一个训练集,姿势使用多标记中心丢失和动作计数丢失未修剪视频V={vi}N,其中N是为了减少类内变化并增强相邻的动作实例。在[28]中,作者提出了一种背景感知损失来显式地对背景内容进行建模。TSM [53]将每个动作视为一个多阶段过程,并找到一个最佳的阶段转换路径来定位动作。无监督动作聚类/定位:与我们最相关的工作是[13,42]。他们依次做了两项工作:无监督动作聚类,其将类似人类动作的视频分组为单独的动作类(例如,通过谱聚类和主导集合选择[42]),并局部化包含演员的视频小管。我们视频. 在无监督的情况下,我们知道动作类别C在整个训练集中,但我们3.1. 视频特征提取给定一个未修剪的视频,我们首先将其划分为一组片段,每个片段由几个连续的帧组成。遵循以往作品中的常见做法,我们为每个片段提取RGB和流视频特征。让XR,XF∈RT×D分别表示片段式RGB和流特征序列,其中T表示和D表示特征的维度。9822+ConcatConv1DConv1D非本地Conv1D= 3Conv1D= 2Conv1Di=1i=12v,iv,iv,13.2. 体系结构概述总体架构如图2所示。给定输入视频v的RGB或流特征X∈RT×D,我们首先使用我们提出的局部-全局特征聚合块来获得嵌入特征Xe∈RT×D1。然后网络分成两个分支,每个分支由一个卷积层和一个全连接层。这两个分支的输出是类无关的注意力权重S∈RT×1和类特定的注意力权重A∈RT×C。 我们将特征向量在这两个分支的全连通层之前为Xca,Xcs∈RT×D2.然后,我们结合类不可知的和类特定的注意力权重,以获得类的概率分布的视频。在ACL中,由于地面实况视频标签不可用,因此我们对训练数据执行聚类以向每个视频分配伪标签并使用它来计算交叉熵损失Lcls。 与此同时,我们用阶级不可知论者-- 张力权重S,以获得基于集群的三元组丢失L行程,以及使用类特定注意力权重A来获得动作-输出输入图3.局部-全局特征聚合块。d是时间1D卷积的扩张率。在迭代i处的视频v的真实特征fR和流特征fF是生成的。背景分离损失Labs.结合上述损失,我们得到总损失函数v认证人:fRv.RRF.F FL= LCLS+αL 旅行+βL ABS、(1)v =L2范数(XvSv,i),fv=L2范数(XvSv,i),其中L2Norm(·)表示L2归一化。在战争之后,其中α和β是系数。详情将在fR和fF被连接以生成双流V V以下章节。3.3. 协同注意引导的视频聚类本节介绍使用所获取的类不可知注意力进行视频聚类。在ACL中,我们只知道视频的特征表示给定所有训练视频{vi}N及其特征{fi}N,我们构建全连通亲和图G={V,E},其中V表示顶点的集合,即,训练集视频,和E表示边的集合。 的.边重hijf−f训练集的动作类别C的数量得到vi和vj计算为wij= expi j22σ2得双曲余切值.视频级伪标签为每个视频,我们利用规范,σ=1<$N<$Nf−f表示欧几里得训练集上的tral聚类算法[36,45,52],N2i=1j=1ij22获得C个聚类,使得每个视频可以根据其所属的聚类被分配有伪标签为每个视频v与Tv片段,令XR,XF∈RTv×Dde-距离那么,W=[wij]是graph. 基于所构造的亲和图,我们使用spec-tral聚类算法[36]对未修剪的视频进行v v到C簇中,每个簇定义一个伪动作。分别注意其RGB和流动流 让SR,SF∈RTv×1分别表示v在迭代i由于我们在第一次迭代时,我们设置每个未标记的未修剪的视频被分配有基于聚类结果的伪动作类标签。然后,这些视频级的伪标签被用来训练动作定位模型。对于弱监督扩展,视频级标签可用于每个视频,因此聚类是Rv,1[j,1]=SF1[j,1]=Tv (1≤j≤ Tv)。(二)跳过了。3.4. 局部全局特征聚合块由于未修剪的视频通常包含大比例的背景帧,通过沿时间维度的平均池化生成的视频表示是没有区别的 。 为 了 提 取 动 作 相 关 的 视 频 表 示 , 在 迭 代 i(i >1),我们使用类-由于每个片段的特征仅包含当前片段的信息,因此缺少时间上下文信息。为了提高片段特征的可区分性,提出了局部-全局特征聚合块(FAB)来同时提取片段的局部和全局特征不可知的时间注意SR,SF生成的上下文信息。 该架构如图所示-v,i v,i迭代i-1时的动作定位模型。然后RGB fea-ure 3.FAB由三部分组成:一个1D的时间连续,−S9823k=1卷积分支、扩张的时间金字塔分支和全局上下文分支。扩张时间金字塔分支由2个具有不同扩张率的并行扩张卷积组成,以聚合局部时间上下文。全局上下文分支使用非局部块[47]来捕获所有帧之间的时间相关性。在全局卷积之前添加内核大小为1的1D时间卷积。为了满足高视频内动作背景清晰度,我们使用以下等式:d(Jm,Bm)−d(Jm,Jn)≥τ2,(6)d(Jn,Bn)−d(Jm,Jn)≥ τ2。(七)对于属于相同聚类z的视频,我们计算聚类z的动作-背景分离损失如下:上下文分支,以减少计算成本。的输出的所有分支通过1D时序ΣKL中间,z=ΣKmax{d(Jm,Jn)−τ1,0},(8)卷积 在1D速度之后插入跳过连接-卷积m=1n=1,n m3.5. 类特定时间注意力模块ΣKL内部,z=ΣKmax {d(Jm,Jn)−d(Jm,Bm)+τ2,0}。在未修剪的视频中,动作通常发生在m=1n=1,n/=m(九)视频的一部分。我们设计了类特定的时间注意力模块来得到不同动作类别在不同时间出现这些类特定的概率进一步用于动作定位。 在这个模块中,我们将类特定的特征Xcs作为输入,并输出一个类特定的时间属性序列。得分A∈RT×C。然后,A沿着时间维度通过软最大值,产生归一化的类特定时间注意力分数A=sofmaxx(A)。在无监督或弱监督的时间动作定位任务中,由于没有时间标注,动作定位结果的时间边界通常是不准确的。为了得到更精确的动作时间边界对于一批训练视频,我们从Z个聚类中随机抽取视频,每个聚类中随机抽取K个设Vz={vk}K表示属于对于一批视频,我们将一批中所有簇的损失相加如下:ZL_abs=(L_inter,z+θ·L_intra,z),(10)z=1其中θ是权重系数。3.6. 类不可知的时间注意模块未经剪辑的视频通常包含不相关的背景。例如,THUMOS 14验证集中的每个视频平均具有71%的背景。为了减轻过多的背景信息所造成的混乱,我们希望从未修剪的视频中选择发生动作的前景部分。所以我们设计了类无关的时间注意力模块来学习每个片段的注意力分数。该模块将类不可知的特征Xca作为输入,在一个批次中具有相同的簇z(1≤z≤C)。动作-背景分离损失的设计基于两个标准,即高视频间动作相似性和高视频内动作背景清晰度。对于每个视频vk,我们提取动作特征Jk=Xcs,k<$Ak[:,z],(3)和背景特征类不可知的时间注意力得分S∈RT×1。把同一个俱乐部的视频特征我们利用三重丢失,将不同聚类的视频特征表示更接近并进一步推到特征空间中。与第3.5节相同,我们从Z个聚类中随机抽取视频,每个聚类中随机抽取K个视频。然后,我们提取类不可知的视频特征表示H由H=X计算。设d表示余弦距离,m表示位置,Bk=1Tk−1Xcs,k.Σ1−Ak[:,z] 、(四)有效边际。在聚类z中,对于每个锚视频va,假设vn是不在聚类z中并且具有到va的最小距离的视频,vp是聚类z中并且具有到va的最大距离的视频。设Ha,Hn,Hp是它们的其中,A_k是v_k的归一化时间注意力分数,Xcs,k是vk的类特定特征,Tk是vk的片段数。假设我们有一对属于Vz的视频vm和vn。设d为余弦距离函数,τ_1和τ_2分别为两个正边距到类别无关的视频特征,则应满足以下条件:d(Ha,Hn)−d(Ha,Hp)≥m(11)那么我们计算基于簇的三重态损失如下:为了保证视频间动作的高度相似性,我们采用了以下方法:下面的等式来执行此要求:ZL跳闸=ΣKmax {d(Ha,Hp)− d(Ha,Hn)+m,0}.9824d(Jm,Jn)≤ τ1.(五)z=1a=1(十二)9825为了预测每个视频的动作类别,我们首先通过在时间维度上进行softmax运算来获得归一化的与类别无关的时间注意力得分SS. 然后我们计算加权平均p=AS<$∈RC×1。 我们得到了动作类通过沿着猫的历史维度执行softmax,p. 计算了一批视频的交叉熵损失签署人:Lcls= − ZHKn=1i =1yn,ilogpn,i,(13)其中yn表示视频vn的标签,并且pn表示视频vn的预测标签。3.7. 迭代优化在本文中,我们提出了一种新的迭代优化方法来解决无监督动作局部化的问题。该方法包括两个迭代步骤:视频聚类和时间动作定位。由于没有真正的语义注释,我们首先在训练集上执行谱聚类算法[36],然后根据其所属的聚类然后使用伪视频标签如第3.3节中所讨论的,类别不可知的共同注意力模型指导视频聚类步骤,确保具有高注意力分数的视频帧在聚类期间发挥重要作用。一方面,更好的共同注意力模型S有助于找到视频的重要帧并产生视频的更好的特征表示fv。 另一方面,更精确的特征表示导致从聚类过程中获得更精确的伪标签,从而为定位提供更好的监督。我们的实验表明,这种迭代优化过程确实逐渐提高了这两个步骤的性能。3.8. 基于类特定共同注意的动作定位给定一个测试视频,我们首先使用训练好的定位网络来获得特定类别的注意力A和视频-水平视频分类的核心p。 然后, 我们对p进行阈值,并找到所有满足p∈c>τ的猫图c。 令[α0,...,αr]是一组阈值。每个αj用于对A[:,c]进行阈值化,得到一组定位建议,每个建议的形式为(bi,ei,ci),其中bi,ei表示第i个检测到的动作的开始和结束时间,ci表示预测类别。在[19]之后,我们结合[38]中的外部-内部对比损失和视频级别的类得分pc来对每个行动建议进行评分:scorei=avg(A[inner,c])−avg(A[outer,c])+γp<$c,(十四)表1.比较THUMOS 14测试集的动作检测。我们将全监督、弱监督和非监督分别表示为FS、WS和US。其中,inner表示预测动作边界(bi,ei),而ouuter表示膨胀区域(bi−(ei−bi)/4,bi) <$(ei,ei+(ei−bi)/4)。 γ是一个权衡系数。注意,不同αi的建议可能会重叠,因此我们可以-对所有这些命题形成非最大抑制(NMS),并得到最终的定位输出。4. 评价4.1. 数据描述和评价方案我们在两个大规模基准数据集上评估了我们的方法:THUMOS 14和ActivityNet-1.2。两个数据集中包含的视频都是未修剪的,这意味着视频包含一些不来自任何目标动作的帧THUMOS 14 [12]. THUMOS 14数据集的一个子集包含来自20个动作类的带有时间注释的视频。遵循之前的约定[4,19],我们使用验证集中的并在212个视频的测试集上评估我们的方法。ActivityNet-1.2 [10]. 为 了 便 于 比 较 , 我 们 在ActivityNet-1.2上进行了实验,其中包含来自100个活动类的4,819个训练视频,2,383个验证视频和2,480个测试视频。由于该数据集的测试集注释被保留,因此我们在训练集上训练我们的模型,并像以前的工作一样对验证集进行评估[29,26]。方法mAP@IoU (%)0.30.40.50.60.7[33]第三十三话30.023.215.2--[第50话]36.026.417.1--PSDF [54]33.626.118.8--[39]第三十九话36.328.719.010.35.3FSSSAD [17]43.035.024.6--美国疾病控制与预防中心[37]40.129.423.313.17.9R-C3D [48]44.835.628.9--SSN [57]51.941.029.8--TAL-Net [4]53.248.542.833.820.8《捉迷藏》[41]19.512.76.8--[46]第四十六话28.221.113.7--WSSTPN [27]35.525.816.99.94.3[38]第三十八话35.829.021.213.45.8W-TALC [29]40.131.122.8-7.6MAAN [55]41.130.620.312.06.9[20]第二十话41.232.123.115.07.0[26]第二十六话44.234.126.6-8.1[28]第二十八话46.637.526.817.69.0[53]第五十三话39.5-24.5-7.1[第14话]37.030.923.913.97.1我们46.938.930.119.810.4美国我们39.632.925.016.78.998262群集评估协议。为了衡量聚类性能,我们使用三个标准,即,纯度、标准化互信息得分(NMI)和调整随机指数(ARI),它们广泛用于聚类任务[31]。这些标准的值越大,表明聚类性能越好行动定位评估协议。对于时间动作定位任务,我们报 告 了 在 不 同 时 间 交 集 上 的 传 统 平 均 平 均 精 度(mAP)[6]IoU阈值分别为0.3、0.4、0.5、0.6,0.7在THUMOS 14上。ActivityNet-1.2上的IoU阈值为0.5、0.75、具有IoU阈值[0.5:0.95:0.05]的平均mAP用于比较ActivityNet-1.2上的不同方法。4.2. 实现细节我们利用双流架构[40]来提取视频帧的特征。 在我们的实验中,两个单独的I3D [3]模型分别从Kinetics [3]上的连续帧和流中训练。I3D采用16个堆叠的RGB或光流帧的非重叠片段作为输入,并为每个流提取1024维特征。我们采用RGB和光学流的后期融合来生成最终的动作定位结果。我们的动作本地化模型是在Py-Torch中实现的. 它使用Adam优化器以24的小批量进行训练对于一批训练数据,我们从12个聚类中随机抽取视频,每个聚类2个视频。ActivityNet-1.2和THUMOS 14的学习率分别设置为0.001和0.0001。我们将公式1中的α和β都设为0.5。对于作用-背景分离损失,我们将τ1,τ2设为0.0001,分别为0.25。等式10中的θ被设置为1。对于三重态损失,我们在等式12中将裕度参数m设置为0.5当生成动作定位结果时,我们只保留视频级概率高于0.1的类对于p∈c>0的c类。1,我们使用一组阈值,范围从[0。一比一0比0。1]×mean(A[:,c]),其中mean获取平均值A[:,c]的值。公式14中的γ根据经验设定为0.1。将不同阈值产生的预测值进行组合,NMS用于删除重复的本地化结果。对于ACL,我们只知道每个代理所属的簇索引。为了与其他全监督或弱监督TAL方法进行比较,我们需要 进 一 步 将 聚 类 索 引 映 射 到 THU-MOS 14 或ActivityNet-1.2的动作类,以获得测试步骤中具体来说,我们将每个clus- ter映射到该集群中最频繁出现的操作类。此外,由于某些视频可能包含不同类别的多个动作(例如,THU-MOS 14中的一些视频包含潜水和悬崖潜水),有时我们应该将一个集群映射到多个动作。在我们的前-方法mAP@IoU(%)0.5 0.750.95平均[58]第五十八话27.314.72.915.6WS[38]第三十八话W-TALC [29]27.337.015.1-3.3-16.018.0[20]第二十话36.822.05.622.4[26]第二十六话37.2--21.7[53]第五十三话28.317.03.5-[第14话]37.120.35.021.6我们40.025.04.624.6美国我们35.221.43.121.1表2.在ActivityNet1.2数据集上进行动作检测的比较。我们将弱监督和无监督分别表示为WS和US迭代纯度↑ARI↑NMI↑10.6450.4450.72620.7400.5690.78830.7800.6120.811表3.在THUMOS 14验证集上比较不同迭代的视频聚类结果实验中,假设在聚类z中,CA是出现次数最多的动作类,出现次数为NA,则对于在聚类z中出现次数大于NA的动作类CB,我们也将聚类z映射到动作CB。4.3. 与最新技术水平的比较表1总结了当IoU阈值从0.3变化到0.7时THUMOS 14测试集的结果。具体而言,对于mAP@0.5,我们的方法在无监督情况下获得的结果与最先进的弱监督方法[26,28]获得的结果相当,并且优于所有其他最近的弱监督方法。在弱监督的情况下,我们将mAP@0.5从之前的最先进的26.8%提高到30.1%。表2列出了基准ActivityNet-1.2的结果。我们比较我们的方法与其他最近的国家的最先进的弱监督动作定位方法。即使没有视频类注释,我们的方法在无监督的情况下实现平均mAP为21.1%,显示竞争力的性能相比,最近的几个弱监督的方法。在弱监督的情况下,我们的方法在平均mAP方面比最先进的弱监督方法高出2.2%。4.4. 迭代优化为了证明我们的迭代优化方法的有效性,我们在每次迭代时评估聚类和动作本地化性能。集群性能w.r.t.迭代:表3比较了THUMOS 14验证集上不同迭代的聚类性能。作为迭代的次数-9827迭代0.3mAP@IoU0.4 0.5(%)0.60.7121.417.113.08.14.0233.627.820.813.17.1339.632.925.016.78.9表4.比较不同迭代的动作定位结果THUMOS 14测试集。图4.可视化用于THUMOS 14验证集上迭代1(左)和迭代3(右)的光谱聚类[36]的亲和矩阵。为了澄清,视频是根据他们的班级安排的。折痕,聚类的性能越来越好。图4显示了3.3节中用于谱聚类的亲和矩阵的可视化。可以看出,在类无偏时间注意力池方法的帮助下,视频表示更多地集中在与视频动作相关的帧上,并且更具区分性。因此,我们可以得到更好的聚类结果和减少噪声的伪标签。mAP w.r.t.迭代:THUMOS 14测试集上不同迭代的动作定位结果如表4所示。由于聚类的性能随着迭代次数的增加而增加,因此伪标签去在此期间的皱纹。随着伪标签质量的提高,我们的ACL模型可以学习更精确的注意力权重,因此时间动作定位的性能如表4所示,我们实现了13的mAP。当迭代1时IoU阈值为0.5时为0%。随着迭代次数的增加,mAP得到改进。最后,我们得到了25的mAP。0%,在无人监管的情况下。图5显示了不同迭代的定性动作定位结果。我们可以观察到,随着迭代次数的增加,图5中的动作定位结果更加精确。4.5. 消融研究为了分析每个模型组件的贡献,我们在无监督情况下对THUMOS 14测试集进行消融研究。在从0.3到0.7的IoU阈值下的平均mAP表5中的结果显示了所有设置的比较。我们使用的模型中,局部-全局特征聚合块被替换为标准的一维时间卷积,图5.我们的方法在THUMOS 14数据集上的定位结果的定性示例。GT表示地面实况片段。迭代1、2和3分别表示不同迭代的定位结果。方法平均值(0.3:0.7)Conv1D+Lcls21.39LG+L系列22.16LG+Lcls+Labs23.48LG+Lcls+Ltrip23.05LG+Lcls+Labs+Ltrip24.68表5.THUMOS 14测试集的消融研究结果我们只将分类损失作为我们的基线。我们在基线模型中加入局部-全局特征聚合块基于局部-全局特征聚集块的模型,我们通过添加建议的损失来探索每个损失函数的贡献。从表5中可以看出,动作背景损失使性能提高了1.32%,三重态损失使性能提高了0.89%。最后,我们使用所有损失来训练动作定位模型,并实现24.68%的mAP,这表明每个损失都有助于整体性能。5. 结论我们首次解决了无监督动作局部化问题。一个两步的主要贡献包括新颖的时间共注意模型和专门为这一新任务设计的损失函数。此外,我们的公式可以很容易地扩展到弱监督的情况下。我们的实验重新校准了弱监督环境下的最先进的性能,并在无监督环境下取得了令人惊讶的备注:本课题得到北京市科学技术委员会(Z181100008918005)、北京市自然科学基金(Z190001)和 腾 讯 人 工 智 能 实 验 室 犀 牛 - 鸟 类 重 点 研 究 项 目 ( JR202021)的资助。9828引用[1] 夏马尔·布赫,维克多·埃斯科西亚,伯纳德·加尼姆,李飞飞,胡安·卡洛斯·尼布尔斯.端到端,单流时间- poral动作检测未修剪的视频。在BMVC,2017年。[2] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。SST:单流临时行动建议。在CVPR,2017年。[3] J oaoCarreira和Andr e wZisserman。Quovadis,动作识别?新模型和动力学数据集。在CVPR,2017年。[4] 放 大 图 片 作 者 : 赵 玉 伟 , SudheendraVijayanarasimhan,Bryan Sey- bold,David A. Ross,JiaDeng,and Rahul Sukthankar.重新思考用于时间动作定位的更快的R-CNN架构。在CVPR,2018年。[5] Victor Escorcia , Fabian Caba Heilbron , Juan CarlosNiebles和Bernard Ghanem。Daps:用于行动理解的深度行动建议。在ECCV,2016年。[6] 放 大图 片 作 者: Mark Everingham , Luc Van Gool,Christopher K. I.约翰·威廉姆斯温恩和安德鲁·齐瑟曼。Pascal Visual Object Classes ( VOC ) InternationalJournal of Computer Vision,88(2):303[7] Jiyang Gao,Kan Chen,and Ram Nevatia. CTAP:补充时间行动建议生成。在ECCV,2018。[8] Jiyang Gao,Zhenheng Yang,Chen Sun,Kan Chen,and Ram Nevatia.TURN TAP:用于时间行动建议的时间单位回归网络。InICCV,2017.[9] 罗斯湾娘娘腔。快速R-CNN。在ICCV,2015年。[10] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。CVPR,2015。[11] Jingjia Huang,Nannan Li,Tao Zhang,Ge Li,TiejunHuang,and Wen Gao.SAP:基于强化学习的时间行为检测自适应建议模型。在AAAI,2018。[12] Haroon Idrees、Amir Roshan Zamir、Yu-Gang Jiang、Alex Gorban、Ivan Laptev、Rahul Sukthankar和MubarakShah。THUMOS挑战“野外”视频动作识别。计算机视觉和图像理解,155:1[13] Tian Lan,Yang Wang,and Greg Mori.用于联合动作定位和识别的有区别的以见ICCV,2011年。[14] Ziyi Liu Le Wang , Qilin Zhang , Zhanning Gao ,Zhenxing Niu,Nanning Zheng,and Gang Hua.通过基于对比度的评估网络的弱监督时间动作定位。2019年。[15] Weihao Li,Omid Hosseini Jafari,and Carsten Rother. 深度对象共分割。在ACCV,2018年。[16] 林天威,小刘,李欣,丁二瑞,文石磊。BMN:用于时间动作提议生成的边界匹配网络。在ICCV,2019年。[17] 林天威,赵旭,郑寿。单次拍摄的节奏动作检测。ACM Multimedia,2017年。[18] 林天威,赵旭,苏海生,王崇景,杨明。BSN:用于临时行动建议生成的边界敏感网络。在ECCV,2018。[19] 刘道长,蒋婷婷,王益州弱监督时间动作定位的完备性建模和上下文分离。在CVPR,2019年。[20] 刘道长,蒋婷婷,王益州弱监督时间动作定位的完备性建模和上下文分离。在CVPR,2019年。[21] 刘伟,Dragomir Anguelov,Dumitru Erhan,ChristianSzegedy , Scott E. Reed , Cheng-Yang Fu , andAlexander C.伯格。SSD:单次触发多盒探测器。在ECCV,2016年。[22] Yuan Liu,Lin Ma,Yifeng Zhang,Wei Liu,and Shih-Fu Chang. 用 于 时 间 动 作 提 议 的 多 粒 度 生 成 器 。 在CVPR,2019年。[23] Fuchen Long,Ting Yao,Zhaofan Qiu,Xinmei Tian,Jiebo Luo,and Tao Mei.用于动作定位的高斯时间感知网络。在CVPR,2019年。[24] Fucheng Long,Ting Yao,Zhaofan Qiu,Xinmei Tian,Jiebo Luo,and Tao Mei.用于动作定位的高斯时间感知网络。在CVPR,2019年。[25] 奥德·马龙和托马的洛扎诺·佩雷斯。一个多实例学习的框架NIPS,1997年。[26] Sanath Narayan、Hisham Cholakkal、Fahad Shabaz Khan和Ling Shao。3c-net:弱监督动作定位的类别计数和中心损失。2019年。[27] Phuc Nguyen 、 Ting Liu 、 Gautam Prasad 和 BohyungHan。基于稀疏时间池网络的弱监督动作定位。在CVPR,2018年。[28] Phuc Xuan Nguyen 、 Deva Ramanan 和 Charless CFowlkes。具有背景建模的弱监督动作定位。ICCV,2019。[29] Sujoy Paul , Sourya Roy 和 Amit K. 罗 伊 · 乔 杜 里 W-TALC:弱监督的时间活动定位和分类。在ECCV,2018。[30] A. J. Piergiovanni和Michael S.亮视频的时间高斯混合层。在ICML,2019。[31] 威廉·兰德评价聚类方法的客观标准。Journal of theAmerican Statistical association,66(336):846[32] 放 大 图 片 作 者 : Joseph Redmon , Santosh KumarDivvala,Ross B. Girshick和Ali Farhadi你只看一次:统一的实时目标检测。在CVPR,2016年。[33] 亚历山大·理查德和尤尔根·加尔。使用统计语言模型的时间动作在CVPR,2016年。[34] 作者:Thomas P.明卡,安德鲁·布莱克,弗拉基米尔·柯尔莫哥洛夫。通过直方图匹配实现图像对的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功