没有合适的资源?快使用搜索试试~ 我知道了~
86793C-Net:弱监督行为定位Sanath Narayan,Hisham Cholakkal,Fahad Shahbaz Khan,LingShao Inception人工智能研究所,阿联酋firstname. inceptioniai.org摘要时间动作定位是一个具有挑战性的计算机视觉问题,具有许多现实世界的应用。大多数现有方法需要费力的帧级监督来训练动作定位模型。在这项工作中,我们提出了一个框架,称为3C-Net,它只需要视频级的监督(弱监督)的动作类别标签和相应的计数的形式。我们引入了一种新的配方来学习具有增强定位能力的判别动作功能。我们的共同提法有三个术语:用于确保学习的动作特征的可分离性的分类项、用于增强动作特征可辨别性的自适应多标记中心损失项、以及用于描绘辅助动作序列的计数损失项,从而导致改进的定位。在THUMOS 14和ActivityNet 1.2两个测试基准我们的方法为这两个数据集上的弱监督时间动作定位在THU-MOS 14数据集上,与最新技术相比,所提出的方法在平均精度(mAP)方面实现了4.6%的绝对增益[16]。源代码可在https://github.com/naraysa/3c-net获得。1. 介绍由于类内变化、杂乱背景、视频持续时间的变化和视点的变化,未修剪视频中的时间动作定位是一个具有挑战性的问题。在时间动作定位中,任务是找到视频中动作的开始和结束时间(时间边界或范围)。大多数现有的动作定位方法都是基于强监督[15,5,21,33,23,31],需要在训练期间手动注释动作的地面实况节奏边界。然而,与视频级动作标签注释相比,帧级动作边界注释是昂贵的。此外,与图像中的对象边界注释不同,时间动作边界的手动注释更主观,并且易于发生较大变化[20,18]。在这里,我们专注于学习仅使用视频级监督在时间上定位动作,通常称为弱监督学习。弱监督的时间动作定位已经使用不同类型的弱标签进行了研究,动作类别[25,28,14]、电影脚本[12,1]和稀疏时空点[13]。最近,Paulet al. [16]提出了一种动作本地化方法,展示了最先进的结果,使用视频级类别标签作为弱监督。在他们的方法[16]中,引入了一种基于协同活动相似性损失的公式,该公式在包含相同动作类别的配对视频中区分相似和不相似的时间段(区域)。这导致改进的动作定位结果。然而,[16]中的公式对用于训练的小批量设置了约束,以主要包含具有属于相同类别的动作的配对视频。在这项工作中,我们研究了一种替代配方,允许小批量在训练过程中包含不同的动作样本。我们提出了一个框架,称为3C-Net,使用一种新的配方来学习歧视性的动作功能,增强定位能力,使用视频级监督。与[14,16]一样,我们的公式包含一个分类损失项,用于确保视频级动作分类的学习特征然而,仅在全局视频级的这种可分性不足以进行准确的动作定位,这通常是局部时间上下文分类。这可以在图中观察到。1,其中仅用分类损失训练的网络(表示为“CLS”)将动作的多个实例(时间轴的中心部分)定位为单个实例。因此,我们在我们的公式中引入了两个额外的损失项,以确保在全球层面上的行动类别的可区分性和在本地层面上的实例的可分性。我们公式中的第一个附加术语是中心损失[30],此处引入用于多标签作用分类。最初是为人脸识别问题[30]设计的,中心损失项的目标是减少训练样本特征表示中的类内变化这是通过学习类特定的中心和惩罚fea之间的距离来8680地面实况(GT)CLSCLS +CL我们的图1.包含来自THUMOS 14数据集的PoleVault动作类别的视频剪辑的预测动作建议来自视频的样本帧包含动作的帧有蓝色边框。GT表示包含动作的视频中的地面实况片段。 单独使用分类损失项(CLS)训练的网络不准确地将中间的四个动作实例合并为单个实例。在分类和中心损失项(表示为CLS + CL)上训练的网络改进了动作定位,但仅部分描绘了合并的动作实例。建议的3C-Net框架,表示为Ours(CLS + CL + CT),使用分类,中心和计数损失项的联合公式进行训练,在中间描绘相邻的动作实例。时间轴中的白色区域表示不包含感兴趣的动作的背景区域。他们各自的阶级中心。然而,标准中心损失对表示单标签实例的训练样本起作用。这禁止其在我们的多标签动作本地化设置中的直接适用性。因此,我们提出使用类特定的基于注意力的特征聚合方案,利用多标签动作视频进行中心丢失的训练。因此,获得了用于改进定位的有区别的特征表示。这种对“CLS”的改进可以在图中观察到。1,其中使用分类和中心损失项训练的网络,表示为“CLS + CL”,部分解决了多个动作实例的不正确分组。在我们的制定中的最后一项是计数损失项,它增强了在本地级别的动作实例的可分性。计数信息先前已在图像域中用于对象描绘[8,6]。在这项工作中,计数损失项包含有关视频中动作类别的频率的信息。所提出的损失项最小化视频中的预测动作计数与地面实况计数之间的距离。因此,预测分数在动作实例内总计为正值,否则为零,从而改进定位。这可以在图中观察到1,其中使用所有三个损失项(表示为“我们的(CLS + CL + CT)”)训练的3C-Net我们的计数术语利用视频级动作计数,不需要用户密集的动作位置信息(例如,时间边界)。1.1. 贡献我们引入了一个弱监督的动作定位框架,3C-Net,一个新的配方。我们的公式包括一个分类损失,以确保类间的可分性,多标签中心损失,以提高特征的我们公式中的三个损失项在端到端的fash- ion中联合优化据我们所知,我们是第一个提出一个公式包含多标签动作视频的中心损失和计数损失,以利用视频级动作计数信息进行弱监督动作定位。我们在两个基准上进行综合实验:THUMOS 14 [9]和ActivityNet 1.2 [3]。我们的联合制定显着提高了基线只包含分类损失项。此外,我们的方法在两个数据集上都有了新的最新技术,与THUMOS 14上现有的最佳弱监督方法相比,在mAP方面实现了4.6%的绝对增益。2. 相关工作未裁剪视频中的时间动作定位是一个具有挑战性的问题,近年来得到了极大的关注这在流行的挑战中很明显,例如THUMOS [9]和ActivityNet [3],其中一个单独的轨道专用于未修剪视频中的时间动作本地化问题。弱监督动作定位减轻了对时间动作边界注释的需要在标准设置中,只有动作类别标签可用于训练本地化模型。现有的方法研究了不同的弱监督策略的动作本地化。[25,14,28]的工作使用视频中的动作类别标签进行时间定位,而[13]使用点级超视来时空定位动作。[17,2]利用视频中的动作顺序作为弱监督线索。[12,7]的工作使用视频字幕和电影脚本来获得用于训练的粗略时间定位,而[1]利用从脚本中提取的演员动作对来学习空间演员动作定位。最近的工作[8]表明,在注释成本方面,使用图像级监督的对象计数较便宜,与实例级监督(例如,边界框)。在这项工作中,我们建议使用动作实例计数作为弱监督动作本地化的额外线索。最先进的弱监督动作定位方法利用外观和运动特征,通常是8681我我我我我我我我我我i cls ii从针对动作识别任务训练的骨干网络中提取。[28]的工作提出了一个框架,该框架由分类和选择模块组成,用于对动作进行分类并检测相关的节奏。ground-truth multi-hot vector表示vi中某个动作类别的存在或不存在,其中i∈[1,N]。这里,N是视频的数量,Nc是动作数据集中的类设xa,xf∈Rsi×D表示区间我我分别是ral segments。该方法使用双流时间段网络[29]作为其骨干,并使用分类损失进行训练。在[14]中,使用双流架构来学习时态类激活图中间功能(第二个FC层的输出),流,分别。这里,si表示视频vi的长度(片段的数量)。最终FC铺设的输出ers表示T-CAM,记为Ca,Cf∈Rsi×Nc,我我和不分阶级的暂时注意力 它们的组合用来定位人类的行为。分类分别用于RGB和流两个T-CAM(Ca和Cf)通过学习的类特定我我和基于稀疏性的损失被用来学习激活参数,wa,wf∈RNc,然后通过加法组合地图和时间注意力。 最近,[16]以得到最终的T-CAM,CF∈Rsi× Nc. 学习提出了一个框架来学习时间定位从视频级标签,其中的分类损失和三重损失匹配的动作类别在配对视频中的相似片段。在这项工作中,我们提出了一个联合制定明确的损失条款,以确保可分性的学习动作功能,增强功能的可区分性和划定相邻的动作实例。3. 方法在本节中,我们首先描述我们的方法中使用的特征提取方案。然后,我们提出了我们的整体架构,然后详细描述了不同的损失条款的建议制定。特征提取:如[14,16]所述,我们使用从RGB和FlowI3D深度网络[4]中提取的膨胀3D(I3D)特征,在Kinetics数据集上训练,以编码ap。分别是速度和运动信息。视频被分成不重叠的片段,每个片段由16帧组成。RGB和流I3D网络的输入分别是一个片段的颜色和对应的光流帧来自两个网络中的每一个的每个段的D维输出I3D特征被用作我们的架构中的相应RGB和流的输入3.1. 整体架构在最终T-CAM中,CF由分类和计数损失项指导。因此,我们的3C-Net框架使用整体损失公式进行训练,L=Lcls+αL中心+βL计数(1)其中Lcls、Lcenter和Lcount分别表示分类损失、中心损失和计数损失项中心损失和计数损失各自的权重项用α和β表示。接下来,我们描述了三个损失项中使用的建议制定。3.2. 分类损失在我们的配方中使用的分类损失项,以确保在视频级的功能的类间可分性,并解决了多标签的动作分类在视频中我们利用交叉熵分类损失[28,16]来识别视频中的不同动作类别。每个视频的片段数量在未修剪的视频中变化很大因此,top-kval-如[16]中所示,选择T-CAM1(CA)的每个类别的UE(其中k=ki/8i,与视频的长度si成这导致视频的大小为k×Nc的表示。此外,执行时间平均在该表示上以获得类特定的编码,ra∈RNc,对于T-CAM,Ca.因此,概率我我我们的整体3C-Net架构如图所示二、在我们的方法中,外观(RGB)和运动(流)都是质量函数(pmf),pa∈RNc,计算如下:exp(ra(j))在并行流中处理数据。将两个流然后在网络的稍后阶段融合。 两条溪流都是pa(j)=L我exp(ra(l))(二)在设计上结构相同。我们网络中的每个流都由三个全连接(FC)层组成。在中心损失[30]的指导下,前两个FC层学习将I3D特征转换为有区别的中间特征表示。最后的FC层在分类损失的指导下将中间特征投影到动作类别空间最终FC层的输出表示每个动作随时间的分类分数序列这种类特定的1D表示,类似于对象检测中的2D类激活图[34],称为时间类激活图(T-CAM),如[14]所示给定一个训练视频vi,让yi∈RNc 指其中j∈[1,Nc]表示动作范畴。 如图所示在图2中,k时间池化、平均和类别方式的softmax操作,并且输出针对输入C a的预测pmf,pa。多热编码的地面实况动作标签yi被l1归一化以生成地面实况pmf,qi。然后,分类损失被表示为pa和qi之间的交叉熵。令La= −E[qTlog(pa)]表示RGB流的分类损失,其中pa是从Ca计算的pmf。流动流T-CAM的损失1为简洁起见,使用变量的上标a(表示外观)8682CLSC我我我我我我我我我我RGB帧CL*2CLSXaXfCLS一CLSFCLS一中心WaCaCfFCLSCTFCLSCF电子计数光流帧*2CLW布拉夫中心传奇图2.我们的整体架构(3C-Net)包含不同的损失术语(分类、中心和计数)以及相关模块。该体系结构是基于一个双流模型(RGB和流)与相关的骨干特征提取器在每个流。两个流在结构上是相同的,并且由两个完全连接的层(FC)组成两个流中的最终FC层的输出是时间类激活图(T-CAM),Ca用于RGB,Cf用于流。这两个T-CAM通过类特定参数(wa和wf)加权,并以后期融合方式组合。所得到的T-CAM,CF,用于推断。不同损失项的模块没有可学习的参数,为了清楚起见,在底部行中单独显示了样本输入和相应的输出两个中央中心Lf中心)和分类(LaLfCLS )损失应用于两个流(Ca和Cf)中的每一个,而分类FCLS)和计数(L_count)损失被应用于融合表示(C_F)。上标a、f和F表示外观(RGB)、流动性(F)、颜色(B)和颜色(C)。最后,分别。颜色编码的箭头表示网络中的特征与相应模块之间的关联f和最终的T-CAM CF以类似的方式计算。然后,总分类损失Lcls由下式给出施加在特征1,xa上(如图2中倒数第二个FC层的输出)。2)的情况。通常,视频在长度(si)上变化,Lcls阿CLSfclsFCLS(三)包含多个操作类。此外,该行动-在未修剪的视频中,配给可能相对较短。因此,我们认为,3.3. 多标签分类的中心损失我们在整体公式中调整并整合中心损失项[30],以聚类不同类别的特征,从而将相同的动作类别特征分组在一起。中心损失学习每个动作类的聚类中心,并惩罚特征与相应类中心之间的距离。分类损失的目的是确保学习特征的类间可分性,而中心损失的目的是增强它们的区分度,这通常用于动作局部化需要通过仅考虑视频中那些类别的高关注区域来聚集类别特定特征。我们在xa并计算单个特征fa(j)∈RD,如果yi(j)=/0(即,如果动作类别j存在于视频vi中)。在在视频中不存在动作类别的情况下,不执行特征聚合步骤,因为这些类别在该视频中将不具有有意义的特征为此,我们首先计算注意力,aa∈Rsi×Nc,在时间t上,对于范畴j,使用exp(Ca(t,j))通过特定行动的集群和最小化,类内变量。 然而,标准的Cen-aa(t,j)=L我exp(Ca(l,j))(四)terloss,最初被提出用于人脸识别[30],oper-其中,Ca表示用于视频Vi的RGB流T-CAM。对代表单标签实例的训练样本进行评估Ia这阻碍了它在多标签弱监督AC中的使用。阈值τj=median(ai(j))用于设置注意力小于τj的权重为0(即,aa(t,j)= 0,如果aa(t,j)0ni(j)响应中心,在训练i期间,使用其k_c_j来更新c_ing. 流动流的损失,Lf,也计算-1Σ Σ中心以类似方式。总中心损耗由下式给出L计数=Ni(j)=0 |mi(j)|afL=L++λL−(十)L中心=L中心+L中心(8)计数计数计数3.4. 计数漏失在这项工作中,我们建议使用辅助计数信息,除了标准的动作类别标签弱监督动作定位。这里,计数是指视频中发生的动作类别的实例的数量。如前所述,集成计数信息增强了视频中的时间相邻动作实例的特征表示和描绘,从而导致改进的时间定位。在我们的3C-Net框架中,计数损失应用于最终的T-CAM,CF。为了计算预测计数,首先,执行类别特定时间注意力和最终T-CAM的乘积,CF。由此产生的注意力加权T-CAM相当于动作类别的密度图[6],其总和产生该类别的预测计数。 令动作类别j的注意力为F(j),其使用最终T-CAM来计算,类似于Eq. 4.第一章类别j的预测计数由下式给出其中ni∈RNc是地面真值计数标签,λ是一个超参数,通常设置为10−3,以补偿动作类的正实例与负实例的比率总而言之,我们整体公式中的损失项增强了学习特征的可分性和可辨别性,并改善了相邻动作实例的描绘。从而得到了一种区分的、改进的T-CAM表示.3.5. 使用T CAM进行在训练3C-Net之后,CLS模块(见图11)2和Eq。2)用于使用最终T-CAM计算视频级的动作类得分(pmf),用于动作分类任务。与[28,16]类似,我们使用计算的无阈值pmf进行评估。对于动作定位任务,使用[16]中使用的类似方法获得检测。视频中的检测是针对平均top-k分数高于0的动作类别生成的(即,对于cate-在集合{j:rF(j)>0}中的gories,其中rF被计算为我我mi(j)=Σ aF(t,j)CF(t,j) (9)秒3.2使用最终T-CAM)。对于OB中的J类-在连续的视频片段我我t当T-CAM高于和低于阈值时的时刻其中,mi(j)表示对于第j个动作类别,随时间推移的由时间注意力加权的激活的总和。如图 2,“计数模块(CT)”实现等式2。4和9用于最终的T-CAM,CF. 时间注意力加权忽略不包含动作类别j的背景视频片段。在动作定位的背景下,我们观察到具有较高动作计数的视频在训练期间的计数预测具有绝对误差的训练导致较差的T-CAM,因为小批量损失将由具有较高动作计数的视频的计数预测误差主导。为了解决这个问题,我们使用一个简单而有效的加权策略,其中错误旧η对应于有效动作检测。动作类别的结果检测是不重叠的。检测中的最高T-CAM值与视频的类别分数的加权和对应于检测的分数。具有与地面实况重叠(高于IoU阈值)的最高分数的检测在评估期间被认为是真阳性的。4. 实验4.1. 实验装置数据集:在两个具有挑战性的数据集上评估所提出的3C网络的时间动作定位,我N8685具有不同程度的活动持续时间的未经修剪的视频。THUMOS 14[9]数据集包含来自101个动作类别的1010个验证和1574个测试视频。其中,20个类别在200个验证和213个测试视频中具有时间注释。该数据集具有挑战性,因为它包含每个视频平均15个活动实例。与[14,16]类似,我们使用验证集进行训练,使用测试集评估我们的框架。ActivityNet 1.2[3]数据集包含来自100个活动类别的4819个训练,2383个验证和2480个测试视频请注意,此数据集的测试集注释被保留。每个视频平均有1.5个活动实例。与[22,16]一样,我们使用训练集来训练和验证集来测试我们的方法。计数标签:两个数据集中的视频的地面实况计数标签是使用可用的时间动作片段信息生成的。视频中动作类别的片段总数是相应类别的这样做是为了使用可用的注释并避免重新注释。然而,对于一个新的数据集,动作计数可以被独立地注释,而不需要动作片段信息。评估指标:我们遵循标准协议,提供两个数据集,进行评估。评估协议是基于动作定位任务的不同交集和并集(IoU)值的平均平均精度(mAP)对于多标签动作分类任务,我们使用从预测的视频级分数计算的mAP进行评估。实现细节:我们使用一种替代的小批量训练方法来训练拟议的3C-Net框架。由于计数标签在视频级可用,因此计数预测需要视频的所有片段。我们使用随机时间裁剪的视频交替小批量,以提高泛化。因此,分类和中心损失用于每个小批量训练,计数损失仅应用于包含全长视频特征的交替小批量。在我们的框架中,TV-L1光流[32]用于生成视频的光流帧 在对来自RGB和Flow I3D网络的Mixed 5c层进行时空平均池化之后,获得了每段16个视频帧的大小为D = 1024的I3D特征。 这些I3D特征然后被用作我们框架的输入。与[14,16]中一样,骨干网络没有进行微调。我们的3C-Net使用Adam [11]优化器以10-4的学习率和0.005的权重衰减进行训练,小批量大小为32 使用SGD优化器以0.1的学习率学习中心c j。对于这两个数据集,我们在等式中设置α1到10−3,因为中心损失惩罚是平方误差损失,与其他损失项相比具有更高的幅度 我们在等式中设置β。THUMOS14和ActivityNet 1.2数据集分 别 为 1 至 1 和 0.1 。 η 被 设 置 为 0 。 5[min ( CF(j))+max(CF(j))]对于第j个类别方法mAP @ IoU0.10.20.30.40.50.7FV-DTF [15]+36.633.627.020.814.4-[23]第二十三话47.743.536.328.719.05.3美国疾病控制与预防中心[21]+--40.129.423.37.9R-C3D+54.551.544.835.628.9-TAL-Net [5]+59.857.153.248.542.820.8[28]第二十八话44.437.728.221.116.25.1STPN [14]52.044.735.525.816.94.3[22]第二十二话--35.829.021.25.8W-TALC [16]53.748.539.229.922.07.3我们的:CLS + CL56.849.840.932.324.67.7我们的:3C-Net59.153.544.234.126.68.1表1.我们的3C-Net与THUMOS 14数据集上最先进的方法的方法上标我们的3C-Net优于现有的弱监督方法,并实现了4.6%的绝对增益,IoU= 0。5,与最佳弱监督结果相比[16]。T-CAM在THUMOS 14.由于ActivityNet 1.2中动作的性质,W-TALC [16]方法使用Savitzky- Golay滤波器[19]对T-CAM进行后处理。在这里,我们使用可学习的时间卷积滤波(内核大小=13,膨胀=2)并将η设置为0。4.2. 最新技术水平比较时间动作定位:选项卡。1显示了我们的3C-Net方法与THUMOS 14数据集上的文献中现有方法的比较。上标1表示训练需要帧级标签(强我们的方法被称为“3C-Net” 。 我 们 报 告 不 同 IoU 阈 值 的 mAP 分 数 。UntrimmedNets [28]和Autoloc [22]都使用TSN [29]作为主干,而STPN [14]和W-TALC [16]使用类似于我们框架的I3 D网络STPN方法获得的mAP为16。在IoU= 0时为9。5,而W-TALC达到22的mAP。0的情况。我们的方法CLS + CL,没有任何计数监督,优于所有现有的弱监督动作定位方法。通过整合计数监控,我们的3C-Net在IoU= 0时的mAP方面实现了4.6%的绝对增益。5,在W-TALC上[16]。此外,在其他IoU阈值下也获得了性能的一致改善选项卡. 图2显示了在ActivityNet 1.2数据集上进行的最新比较。我们遵循标准评价方案[3],报告不同阈值(0.5:0.05:0.95)下的平均mAP评分。在现有的方法中,SSN方法[33]依赖于帧级注释(强监督,在2)进行训练,并达到平均mAP得分26.6。我们的基线方法仅使用分类损失进行训练,平均mAP为18.2。只有中心损耗自适应,我们的方法实现了平均mAP21.1并且优于现有的所有弱监督方法。我我8686我基线:CLSCLS + CL3C-Net:CLS + CL +CT19.124.626.6表4. 基线动作定位性能比较(mAP)在THUMOS 14上,IoU=0.5。与基线相比,我们的3C-Net在mAP方面实现了7.5%的绝对增益表2.我们的3C-Net与ActivityNet 1.2数据集上最先进的方法的动作定位性能比较(平均mAP)平均mAP用平均值表示。请注意,SSN [33]需要帧级标签(强监督)进行训练。我们3C-Net优于所有现有的弱监督方法,与最先进的弱监督W-TALC相比,平均mAP的绝对增益为3.7%[16]。方法THUMOS14ActivityNet 1.2iDT+FV [27]63.166.5物体+运动[10]71.6-[24]第二十四话66.171.9C3D [26]-74.1TSN [29]67.788.8[28]第二十八话82.287.7W-TALC [16]85.693.2我们的:3C-Net86.992.4表 3. 我 们 的 3C-Net 与 最 先 进 的 方 法 在 THUMOS 14 和ActivityNet 1.2数据集上的动作分类性能比较(mAP)。在THUMOS 14上,我们的3C-Net与现有方法相比,取得了更好的分类结果。随着计数监督的集成,性能进一步提高到21.7,并且在 平 均 mAP 方 面 比 最 先 进 的 弱 监 督 方 法 [16] 高 出3.7%。与THUMOS 14相比,使用计数标签的改进幅度相对较低,可能是由于训练中的多实例视频较少以及该数据集中的噪声注释。动作分类:我们还评估了我们的动作分类方法。选项卡. 3显示了THU-MOS 14和ActivityNet 1.2数据集的比较。与THUMOS 14数据集上的现有方法相比,我们的3C-Net在mAP方面实现了86.9的卓越分类性能,并且与ActivityNet 1.2上的W-TALC相当4.3. 基线比较和消融研究基线比较:表4显示了THUMOS 14上的动作定位性能比较(IoU=0.5)。我们还展示了在我们的3C-Net框架中一次逐步集成一个组件的影响。单独使用分类损失训练的基线(CLS)获得19.1的我们的多标记中心损失项(CLS + CL)的整合通过获得24.6的mAP评分显著提高了性能。通过积分计数损失项( CLS + CL +CT),动作定位性能进一步提高到26.6 mAP。消融研究:图3显示了关于图3.在我们的THUMOS 14数据集上的动作定位框架中,针对不同设计详情见正文不同的设计选择和不同损失术语在我们的动作本地化框架中对THUMOS 14数据集的影响。所有的实验都是独立进行的,并显示了相对于所提出的3C-Net框架的性能偏差。我们最终提出的3C-Net框架的本地化性能显示为黄色条。首先,我们展示了去除两个流中的分类损失并仅为最终的T-CAM(CF)保留它的影响这导致(橙色条)2.5%mAP的下降。接下来,我们观察到仅在流动流中保留中心损失项导致2.1%mAP的下降(紫色柱)。仅在RGB流中保留中心损失项之后,我们观察到,去除方程中的负类别计数损失。10导致1.5% mAP下降(蓝色条)。此外,用绝对误差代替计数损失的相对误差使结果劣化1.2%mAP(红色条)。这些结果表明,我们的设计选择和不同的损失项有助于我们的方法的整体性能4.4. 定性分析我们现在介绍我们的3C-Net方法的定性分析。图4显示了我们的3C-Net对来自THUMOS 14和ActivityNet 1.2数据集的示例视频的定性时间动作本地化结果对于每个视频,示例帧显示在顶行中。GT表示地面实况片段。随时间推移的类别特异性置信度分数由T-CAM表示。检测说明使用T-CAM预测的动作片段。前两个视频来自THUMOS 14。跳高动作(第一个视频)的多个场景被我们的3C-Net准确地本地化。第二个视频包含视觉上相似的多个动作(Shotput和ThrowDiscus),并具有重叠的地面实况注释。在这种情况下,3C-Net主要准确地定位这两个动作。下面两个例子来自ActivityNet 1.2方法mAP @ IoU0.50.70.9平均值 *SSN [33]+41.330.413.226.6[28]第二十八话7.43.91.23.6[22]第二十二话27.317.56.816.0W-TALC [16]37.014.6-18.0我们的:CLS +CL35.422.98.521.18687铅球&掷铁饼ShotputGTT-CAM检测ThrowDiscusGTT-CAM检测图4.我们的3C-Net方法对来自THUMOS 14和ActivityNet的示例视频的定性时间动作定位结果1.2数据集对于每个视频,我们在顶行中显示示例帧,地面实况片段指示动作实例为GT,并且随时间推移的类特定置信度得分为T-CAM(为了简洁起见,仅显示阈值T-CAM)。使用T-CAM预测的动作片段示例显示了不同的场景:相同动作的多个实例(第一视频)、视觉上相似的多个动作类别(第二视频)和长持续时间活动(第三和第四视频)。我们的方法在这些不同的动作上实现了有希望的本地化性能。数据集包含来自演奏小提琴和双杠类别的长时间活动。通过观察两个视频中的T-CAM进展,我们发现所提出的框架可以很好地检测动作实例。对于播放小提琴视频,关于第二实例的预测被正确地检测,而第一实例被部分地检测。这是由于第一实例的不精确注释,其具有一些没有播放活动的片段。在双杠视频中,注释了单个动作实例然而,视频包含一个活动实例,后面跟着没有任何动作的背景片段,并以第一个动作实例的重放活性-背景-活性的这种进展已经通过我们的方法清楚地识别,如在T-CAM中观察到的。这些结果表明,我们的方法的有效性的时间动作定位的问题。我们观察到常见的失败原因是极端的尺度变化,视觉上相似的动作混乱和I3D特征生成的时间量化段图中的故障实例很少。四是:与GT具有最小重叠的检测(ThrowDiscus的前两个检测实例)、错误检测(ThrowDiscus的第三和第四个检测实例)和多个检测(Parallel Bars的前两个检测实例)。5. 结论我们提出了一种新的配方与分类损失,中心损失和计数损失条款弱监督的动作定位。我们首先提出使用基于类别特定注意力的特征聚合策略来利用多标签视频进行中心丢失的训练。我们还引入了计数损失项,以利用视频级动作计数信息。据我们所知,我们是第一个提出一个制定与多标签中心损失和行动计数损失条款弱监督行动定位。在两个具有挑战性的数据集上的实验清楚地证明了我们的方法对于动作定位和分类的有效性。8688引用[1] Piotr Bojanowski , Francis Bach , Ivan Laptev , JeanPonce,Cordelia Schmid,and Josef Sivic.寻找电影中的演员和InICCV,2013. 一、二[2] PiotrBojano wski , Re' miLajugie , Franci sBach , IvanLaptev,Jean Ponce,Cordelia Schmid和Josef Sivic。排序约束下视频中的弱监督动作标注2014年,在ECCV。2[3] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。CVPR,2015。二、六[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR,2017年。3[5] Yu-Wei Chao , Sudheendra Vijayanarasimhan , BryanSey-bold , David A Ross , Jia Deng , and RahulSukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在CVPR,2018年。1、6[6] Hisham Cholakkal、Guolei Sun、Fahad Shahbaz Khan和Ling Shao。具有图像级监控的对象计数和实例分割。在CVPR,2019年。二、五[7] Olivier Duchenne , Ivan Laptev , Josef Sivic , FrancisBach,and Jean Ponce.视频中人类动作的自动注释。ICCV,2009年。2[8] Mingfei Gao,Ang Li,Ruichi Yu,Vlad I Morariu,andLarry S Davis. C-wsl:计数引导的弱监督局部化。在ECCV,2018。2[9] Haroon Idrees , Amir R Zamir , Yu-Gang Jiang , AlexGorban,Ivan Laptev,Rahul Sukthankar,and MubarakShah.Thu- mos挑战在行动识别的视频在野外。CVIU,2017年。二、六[10] Mihir Jain,Jan C Van Gemert和Cees GM Snoek。15,000个对象类别告诉我们关于分类和局部化动作的什么?CVPR,2015。7[11] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[12] 伊凡·拉普捷夫,马尔辛·马萨泽克,科迪莉亚·施密德和本 · 罗 森 菲 尔 德 . 从 电 影 中 学 习 真 实 的 人 类 动 作 。CVPR,2008。一、二[13] Pascal Mettes,Jan C Van Gemert,and Cees GM Snoek.现场:从点监督的建议行动本地化。在ECCV,2016年。一、二[14] Phuc Nguyen 、 Ting Liu 、 Gautam Prasad 和 BohyungHan。基于稀疏时间池网络的弱监督动作定位。在CVPR,2018年。一、二、三、六[15] Dan Oneata,Jakob Verbeek,and Cordelia Schmid. Thelear submission at thumos 2014. 2013. 1、6[16] Sujoy Paul、Sourya Roy和Amit K Roy-Chowdhury。W-滑石:弱监督的时间活动定位和分类。在ECCV,2018。一、三、五、六、七[17] Alexander Richard,Hilde Kuehne,and Juergen Gall.基于rnn的从细到粗建模的弱监督动作学习。在CVPR,2017年。2[18] 斯科特·萨特金和马夏尔·赫伯特对动作的时间范围进行建模。ECCV,2010年。1[19] Abraham Savitzky和Marcel JE Golay。用简化的最小二乘程序对数据进行平滑和微分分析化学,36(8):1627-1639,1964。6[20] 康拉德·辛德勒和吕克·范古尔。操作片段:人类动作识别需要多少帧?CVPR,2008。1[21] Zheng Shou,Jonathan Chan,Alireza Zareian,KazuyukiMiyazawa,and Shih-Fu Chang. Cdc:卷积-去卷积网络,用于在未修剪的视频中进行精确的时间动作定位。在CVPR,2017年。1、6[22] Zheng Shou , Hang Gao , Lei Zhang , KazuyukiMiyaz
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功