没有合适的资源?快使用搜索试试~ 我知道了~
3160Colar:通过咨询示例进行有效和高效的在线动作检测杨乐韩俊伟*张定文西北工业大学自动化学院https://nwpu-brainlab.gitee.io/indexwww.example.com摘要近年来,在线行为检测引起了人们越来越多的研究兴趣.目前的工作模型的历史依赖性和预期的未来感知的视频片段内的动作演变,提高检测精度。然而,现有的范式忽略了类别级建模,并且没有充分关注效率。就一个范畴而言,其代表框架表现出不同的特征。因此,类别级建模可以为时间依赖性建模提供补充指导。 本文提出了一种有效的范例查询机制,该机制首先测量一个框架与范例框架之间的相似性,然后基于相似性权重聚合范例特征这也是一种有效的机制,因为相似性度量和特征聚合都需要有限的计算。基于样本协商机制,以历史框架为样本获取长期依赖关系,以类别中的代表性框架为样本进行类别级建模。由于类别级建模的互补性,我们的方法采用了轻量级的架构,但在三个基准上实现了新的高性能此外,使用时空网络来处理视频帧,我们的方法在有效性 和 效 率 之 间 取 得 了 很 好 的 平 衡 。 代 码 可 在www.example.com上获得https://github.com/VividLe/Online-Action-Detection。1. 介绍随着移动通信的发展,视频已经成为记录生活、传递信息的有力媒介。因此,视频理解技术引起了越来越多的研究兴趣。在这些技术中,时间动作检测[36,39,62]可以从未修剪的视频中发现动作实例并提取有价值的信息。执行良好的行动detec-*通讯作者。OadTR每帧预测未来科拉尔历史范例······类别范例图1.现有最先进的方法OadTR [42]和我们提出的Colar之间的比较。与OadTR不同,Colar使用历史样本来建模长期依赖关系,并使用类别样本来捕获类别级别的特殊性,从而形成了一种有效且高效的方法。算法可以有益于智能监视[32]、异常检测[4]等。近年来,随着动作检测技术的日趋成熟,一个更具挑战性但更实用的任务--在线动作检测被提出[8]。在线动作检测算法处理流视频,报告动作实例的发生,并保持警报,直到动作结束[8]。在推理中,该算法只使用已观察到的历史帧,但不能访问未来帧。作为早期的探索,Geestet al. [8]发现了建模长期依赖关系的重要性。后来,Xuet al.[45]揭示了预测未来状态以增强长期依赖性建模的价值。OadTR[42] 最近利用多头自注意模块联合建模历史依赖关系和预测未来,取得了很好的在线动作检测结果。作为一个未充分开发的领域,在线动作检测有三个核心挑战:如何建模长期依赖关系?如何将一个框架与同一类别的代表性框架联系起来?如何有效地进行侦查?现有的工作[8,42,45]主要集中在长期依赖建模,但忽略了3161另外两个挑战。然而,如图1(a)所示,分析历史帧和预测未来状态都只对视频片段内的关系进行建模,而未对类别级建模进行充分探索。由于一个动作类别包含多个实例,每个实例都具有特殊的外观和运动特性,因此示例帧的引导可以使在线检测算法更鲁棒地抵抗视频片段中的噪声。此外,一个实用的在线动作检测算法应该始终考虑计算效率,包括执行在线检测的效率和提取视频特征的效率。本文提出了一种范例咨询机制,在一个统一的框架内解决上述三个挑战。该方法首先将帧及其示例帧联合变换到关键字空间和值空间。 然后,在关键字空间中度量相似度,并利用相似度在值空间中聚合信息。由于特征变换和相似性度量都需要有限的计算,因此所提出的范例协商机制是有效的。考虑到一个视频片段,我们可以有效地模型的长期依赖性,通过使用历史帧作为样本的基础上的样本咨询机制。由于我们只将一个帧与其历史帧进行比较,而不是对所有帧进行自关注,因此减轻了计算负担。同样,我们也可以把每个类别的代表框架作为范例,基于范例协商机制进行类别级建模。与视频片段相比,类别样本可以提供互补的指导,使算法更具鲁棒性。通过consultingaplar,我们构建了一个统一的框架,即Colar,来执行在线动作检测,如图2所示。Colar并行地维护动态分支和静态分支,其中,前者对视频段内的长期依赖性进行建模,而后者对类别级特性进行建模。在动态分支中,Colar查阅以前的帧并聚合历史特征。在静态分支中,Colar首先通过聚类获得类别样本,然后参考样本并聚合类别特征。最后,融合两个分类分数来检测动作。此外,我们分析了现有工作的运行时间瓶颈,并发现昂贵的成本来提取流特征。因此,我们采用时空网络来仅处理视频帧并执行端到端在线动作检测,这仅需要9.8秒来处理一分钟的视频。综上所述,本文的主要贡献如下:• 我们做了一个早期的尝试,进行类别级建模的在线动作检测任务,提供了全面的指导,使检测算法更强大。• 我们提出了范例协商机制来比较相似性和聚合信息,它可以有效地建模长期依赖和类别特殊性。• 由于范例咨询机制的有效性和类别级建模的补充指导,我们的方法采用了轻量级架构。尽管如此,它仍然实现了卓越的性能,并在三个基准上建立了新的最先进的性能。2. 相关工作建模时间依赖性。不同于基于图像的任务,例如.检测[12-现有的工作依赖于递归网络,包括基于LSTM的方法[9,45,50]和基于GRU的方法[11]。具体而言,Geestet al. [9]提出了双流LSTM[17]网络。类似地,TRN [45]采用LSTM块来建模历史时间依赖性。最近,OadTR [42]将循环网络范式转变为基于转换器的范式,并通过自我注意力有效地捕获了长期关系。尽管OadTR [42]有效地对长期依赖性进行了建模,但所有帧的自注意过程导致了计算负担问题。该工作以历史框架为范例,利用范例协商机制来建立长期依赖模型。预见未来。虽然在线动作检测算法不能访问未来帧,但预测未来特征可以辅助当前帧的决策。在RED [22]中,Gaoet al.估计未来帧的特征,并计算分类损失和特征回归损失,以提高预期质量,这是由TRN [45]和OadTR [42]进一步开发的。本文中,静态分支采用范例咨询机制,将框架与每个类别的代表性范例进行比较,并将补充信息带到动态分支。离线动作检测。离线动作检测算法旨在从未修剪的视频中发现动作实例[5,29,30],其中可以利用所有视频帧。一些算法[19,36,39,44]处理视频帧以执行定位。此外,大多数作品[28,62]首先从强大的骨干网络中提取视频特征[3,40,60,61],然后基于视频特征进行动作定位。From the view of anchor mecha-nism, the representative works include anchor-based meth-ods [28, 62] and anchor-free methods [26, 27, 47]. 此外,还提出了多种有效的模块,如:图卷积模块[53,54]。此外,动作检测3162评分历史特色网络01 …类别特征e0.010.02中国,12012年2月键值重量评分铅球铅球高尔夫挥杆铅球静态分支动态分支4321联系我们图2. 提出的在线动作检测的Colar方法的框架给定视频,动态分支将帧与其历史样本进行比较并对时间依赖性进行建模,而静态分支将帧与类别样本进行比较并捕获类别特殊性。在弱监督环境下[46,51,52,58]也得到了很好的探索。在线动作检测算法与离线动作检测算法的主要区别在于是否能够访问未来帧。在离线算法中,Xuet al.[44]通过以相反的顺序播放视频来执行数据增强,而朱[62]则对视频中多个提议之间的关系进行建模。然而,这些程序是不适合的研究在线行动检测任务。Space-time memory network. Oh等人[33]提出了空时存储器网络,以通过空时存储器读取有效地连接帧及其先前的帧。该模型在时态信息建模方面具有良好的性能,并已被扩展到多个任务中,如:视频对象检测[6],视频对象分割[18,31],跟踪[25]。与时空记忆网络不同,静态分支采用范例协商机制来模拟类内关系。具体来说,它首先聚合每个类别的特定特征,然后组合多个特征以获得类别特征。3. 方法给定视频流,一旦动作开始,在线动作检测算法就应该报告动作的发生并持续报警直到行动结束学习过程由帧级分类标签y=[y0,y1,...,yC],其中yc0,1指示帧f0是否属于第c类。如图2所示,我们首先采用骨干网络来提取视频特征。然后,我们提出了动态分支来模拟一个段内的长期依赖关系,并提出了静态分支来捕获每个类别的整体特殊性最后,将两个检测结果进行融合,以执行在线动作检测任务。3.1. 动态分支由于相邻帧可以提供丰富的上下文线索来确定当前帧的类别标签,动态分支的核心思想是通过将帧与其先前的历史帧进行比较并动态地聚合局部特征来建模局部图2的上半部分展示了动态分支中的详细操作。与OadTR [42]的标准多头自注意机制相比,我们提出的动态分支进行了两个合理的设计,这充分有利于在线动作检测任务。首先,我们使用核大小为3的时间卷积来对历史帧之间的局部线索进行建模,这与自我注意的全局建模是互补的。其次,我们对OadTR做了两个简化,即:把班级移到-………相似性相似性相似性分类器分类器3163c我不0∈Σ0不并在当前帧上用单头注意力替换多头自注意力。这种简化降低了学习难度,并在训练数据不够丰富时提高了性能。给定一个视频特征序列,首先将一个特征变换到键空间和值空间,其中前一个空间负责比较相似性,后一个空间用于特征聚合.fk= Φk(ft),fv= Φv(ft),(1)与OadTR [42]相比,我们不仅简化了注意力计算,而且去除了解码器层。因此,我们的整体计算小于OadTR [42],并且我们也需要更少的内存(参见第二节中的实验)。4.2)。此外,即使给定一个具有数百万个样本和数千个类别的数据集,K-Means算法的现代 实 现 [23] 仍 然 可 以 有 效 地 生 成 示 例 , 正 如DeepCluster[2]所验证的那样。如图2的底部所示,分支使用类别样本{E为t t[ec,1,ec,2,.,ec,M]}CC对特征f0进行分类,其中每个其中,Φk和Φv指示卷积层中的两个卷积层类别包含c=0M代表性范例。 一开始我们动态分支 然后,我们测量成对亲和力,在fk和其它关键特征(例如,fk)通过计算将每个样本ec,i转换为键空间和值0吨余弦相似度:空间:kc,i=k(ec,i),ev=bv(ec,i),(5)fk·fk并将帧特征f0转换为键空间和值µ t= cos(f k,f k)=0t。(二)||fk||·||f k||空间也是:0吨给定一系列亲和值,我们ek= rk(f0),ev= rv(f0),(6)[µ− T,., µ−1,µ0]00执行softmax标准化并获得注意力掩码[µm−T, .,µ−1,µ0]。由于每个元素μt表示前t帧和当前帧之间的帧,我们可以聚合先前帧之间的值特征并获得历史特征f:其中,Rk、Rv、Rk和Rv指示卷积层。在关键字空间中,我们可以测量特征f0和来自第c个类别的样本Ec克克克vc,i=cos(ek,ek)=0c,i.(七)0c,i0ekf=Σ t·fv.(三)0基于两个人之间的成对相似性,c我杨永所有的前-t=−T恩普拉尔斯 [ec,1,ec,2,.,ec,M]从cth0类别,我们可以最后,动态分支联合考虑值特征fv和历史特征f(例如,通过求和)并进行在线动作检测:首先计算注意力掩码[v]c,1,...,通过softmax归一化,然后从第c个类别的角度聚合所有样本以D dvdMS = n(f0,f|(4)其中,Rcid是具有参数Θd的动态分支中的分类器,并且是来自动态分支的分类分数。3.2. 静态分支考虑到同一类别的动作实例,可以选择一些具有独特外观特征和清晰运动模式的实例作为样本来表示该类别。我们采用K-means聚类算法对每个类别,进行聚类,并获得M个典型的功能。在此基础上,在线动作检测任务可以被公式化为将帧与每个类别的代表性样本进行比较。因此,静态分支可以为动态分支提供补充线索,并使在线检测算法对本地视频段内的噪声具有鲁棒性。在开始静态分支中的详细操作之前,有必要分析其效率。首先,使用另一个分支会增加一定的计算量。然而,在这方面,e3164c我Σ00ec=νεc,即v.(八)i=1在将当前帧与所有类别的代表性样本进行比较之后,我们获得类别特定的特征[e0,e1,.,eC]。从第c类中考虑一个特征,它将与第c类中的样本相似,而与其他样本不同。因此,我们使用卷积层来估计注意力权重a∈RC+1和聚合类别特征e:Ce=a c·ec。(九)c=0示例性特征e是从所有示例中生成最后,静态分支使用值特征ev和类别特征e来预测分类得分ss:ss=s(ev,e|其中θs是具有参数Θs的分类器。3165∈D =−ylogg(s ),LccΣLLD设置方法最大平均接入点(%)3.3. 高效的在线动作检测给定一系列预提取的视频特征,动态分支将帧与其历史邻居连接该方法便于融合两个分支的预测,实现在线行为检测.然而,特征提取过程,特别是计算光流,需要大量的计算,这使得我们无法在实际场景中进行在线动作检测。为了减轻计算负担,我们可以采用时空网络来处理视频帧,并为动态和静态分支提供代表性特征。考虑到视频识别性能和计算效率,我们利用ResNet-I3 D网络[41],丢弃最后一个分类层,并构建我们的特征提取主干。给定一个T帧的视频序列,骨干网络的输出是xRD×T/8,其中D表示特征维数。在实践中,由于基准数据集包含有限的训练视频,我们发现冻结前三个块可以产生更准确的检测结果。3.4. 训练和推理给定一个帧,动态分支和静态分支分别预测其分类得分sd和ss。我们计算交叉熵损失来指导学习过程:表1. THUMOS 14数据集上的比较实验,通过mAP(%)测量。线下在线CNN [38]ICLR 15CNN [37]NIPS 14LRCN[10]CVPR15[35]第49 话 :我的世界[11]第一届中国国际汽车工业(TSN-Anet)OadTR [42]ICCV 21科拉尔34.736.239.341.344.445.347.250.058.359.4在线(TSN动力学)RGB端到端[42]第十一届中国国际医疗器械展览会科拉60.365.266.958.64. 实验4.1. 设置数据集。 我们在三个广泛使用的基准测试上进行了实验,THUMOS 14 [21],TVSeries [8]和HDD [34]。THUMOS 14 [21]包括来自20个动作类别的体育视频,其中验证集和测试集连接LclsCDsCLSc=0C=−yclog(scs),c=0(十一)200和213个视频。在THUMOS 14上,在线动作检测的挑战包括剧烈的类别内变化、运动模糊、短动作实例等。我们遵循以前的作品[9,11,42,45],训练模型其中,scd和scs表示softmax标准化之后的分数此外,由于动态和静态分支处理同一帧,因此两个分类得分应该一致。因此,我们引入一致性损失约束,以实现两个分支之间的相互指导:Lcons=LKL(sdss)+LKL(sdsd),(12)其中KL表示KL发散损失。 如Zhanget al.[57],一致性损失可以导致具有更好泛化的综上所述,培训过程是由以下损失指导的:验证集,并在测试集上评估性能。TVSeries [8]收集了6部热门电视剧中约16小时的视频。该数据集包含30个日常操作,总实例数为6231。TVSeries数据集呈现出一些具有挑战性的特征,例如:时间上重叠的动作实例,背景框架和无约束透视图。HDD [34] contains 104 hours of human driving video,belonging to 11 action categories.这些视频是从137次驾驶过程中收集的,使用的是配备有不同传感器的仪表车。根据现有的工作[9,42,45],我们使用100个会话进行培训,L=LclsSCLS+λLcons,(13)测试会话公制。 我们采用平均精度(mAP),其中λ是折衷参数。在推理中,动态分类得分sd和静态分类得分ss通过平衡系数β融合以执行在线动作检测:s=βss+(1−β)sd。(十四)+L3166校准的平均精度(cmAP)来衡量在线动作检测算法的性能。对于mAP,我们首先收集所有帧的分类分数,然后根据排序结果计算精确率和召回率。然后,我们计算插值平均精度,以获得一个类别的AP分数,最后考虑平均值3167†我·i·××方法RGB光流动作推理mAP特征 流 特征检测时间(%)表2. TVSeries数据集上的比较实验,通过mcAP(%)测量。表3. HDD数据集上的比较实验,通过mAP(%)测量。设置方法mAP(%)美国有线电视新闻网[8]ICLR1522.7LSTM [34]CVPR 1823.8传感器ED [22]BMVC 1727.4[45]第四十五话[42]第四十二话表4. 我们提出的Colar方法和实验方法之间的比较 推理时间(以秒为单位)是在1080Ti GPU处理相同的一分钟视频。“Colar*”和Colar都给定预提取的特征,Colar更快,更准确。所有类别中的AP评分值作为mAP。认为-将不同的帧数量严重不平衡分类,Geestet al.[8]建议校准mAP得分 特别地,我们首先计算W与W之间的比率,OadTR-RGB2.3- -4.56.851.2背景帧和动作帧,然后计算颜色-RGB2.3- -4.06.352.1校准精度为:给定帧,Colar提供了速度和精度之间的权衡cPre(i)=w·TP(i)。(十五)w·TP(i)+FP(i)之后,一个类别的校准平均精度cAP可以计算为:科拉尔 *5.8- -4.09.853.4科拉尔†5.8- -4.09.858.8是在Kinetics-400 [3]数据集上预训练的,我们使用cAP=cPre(i)1(i)第1(i)条,(十六)[ 7 ]第二卷第七集。在训练中,我们冻结了主干网络的前三个区块视频其中1()指示第i帧是否属于所考虑的动作类别。最后,可以通过计算所有cAP之间的平均值来获得cmAP实作详细数据。根据以前的工作[9,11,42,45],我们首先使用预提取的特征进行实验特征提取器使用双流网络[43],其空间流采用ResNet-200 [16],时间流采用BN-Inception [20]。我们报告了两个实验,其中双流网络[40,43]在ActivityNet v1.3数据集[1]或Kinetics-400 [3]数据集上进行训练,以验证所提出的Colar方法的泛化。至于端到端在线动作检测,我们的骨干网络基于ResNet 50-I3 D架构[41],其中删除了最后一个平均池化层和分类层。ResNet 50-I3 D网络以25fps的帧速率提取帧,其中空间大小被设置为224 × 224。 我们使用Adam [24]算法来优化整个网络 , 并 将 batchsize 设 置 为 16 。 初 始 学 习 率 为 310−4,每5个epoch衰减一次4.2. 对比实验定量比较。我们与当前最先进的方法[9,11,42,45]进行了比较,并在THUMOS 14 [21],TVSeries [8]和HDD [34]基准上建立了新的高性能如表1所示,基于TSN-ActivityNet功能,我们的Colar带来了比OadTR[42] 1.1%的mAP增益,如果比较基于TSN-Kinetics功能,则mAP的改善将为1.7%持续改进设置方法mcAP(%)LRCN [10]CVPR 1564.1红色[22]BMVC 1771.2RGB 2S-FN [9]WACV1872.4[45]第四十五话美国[11]FlowFV-SVM [8]ECCV201674.3美国[11]红色[22]BMVC 1779.2[45]第四十五话[11]第十一届全国人大代表(TSN-Anet)OadTR [42]ICCV 2185.4科拉尔86.0美国[11]在线OadTR [42]ICCV 2187.2(TSN-动力学)Colar88.1RGB端到端Colar 86.8注射毒品[11]2.339.84.452.899.360.3OadTR [42]2.339.84.44.751.265.2科拉尔2.339.84.44.250.766.9OadTR-流量-39.84.44.548.757.8Colar-Flow-39.84.44.048.259.63168L设置方法诉讼部分0-0.1 0.1-0.2 0.2-0.3 0.3-0.4 0.6-0.7 0.7-0.8 0.8-0.9 0.9-10.4-0.5 0.5-0.6表5. 详细的在线动作检测性能,在不同的动作部分,衡量的mcAP(%)的TVSeries数据集。RGB美国有线电视新闻网[8]LSTM [8]ICLR1561.063.361.064.561.264.561.164.361.265.061.264.761.364.461.564.461.464.461.564.3流[8]第八届中国国际汽车工业展览会67.068.469.971.373.074.075.075.476.576.8美国[45]78.879.680.481.081.681.982.382.782.983.3在线美国[11]80.681.181.982.382.682.882.682.983.083.9(TSN-Anet)美国[42]79.583.986.485.486.487.987.387.385.984.6科拉尔80.284.487.185.886.988.588.187.786.685.1美国[11]81.781.983.182.983.283.283.283.083.386.6在线美国[42]81.284.987.487.788.289.988.988.887.686.7(TSN-动力学)科拉尔82.385.788.688.788.891.289.689.988.687.3RGB端到端科拉尔80.884.487.287.587.889.488.488.587.386.4在当前最先进的方法验证了我们提出的范例协商机制的有效性。此外-表6.关于每个组件的有效性的消融研究,通过三个基准上的mAP(%)测量。因此,建议的Colar可以直接处理视频帧并 进 行 在 线 动 作 检 测 , 达 到 58.6% 的 mAP 。 除 了THUMOS 14之外,在TVSeries上的实验[8]和HDD [34]基准测试也验证了我们方法的优越性,如表2和表3所示。有效性和效率。表4分析了不同设置下的性能和运行时间。当使用预提取的特征时,Colar的性能优于预提取方法[11,42]。值得注意的是,提取RGB和流特征需要46.5秒,其中计算光流花费了大部分时间。当只有流特征或RGB特征可用时,特征提取成本降低,但OadTR [34]和我们的Co- lar都观察到性能下降。特别是,它需要44.2秒来提取流特征,其中OadTR [34]和Colar分别观察到7.4%和7.3%的性能下降。提取RGB特征的代价很小,但在线检测性能下降很多。给定ResNet 50-I3 D网络[41],我们首先从视频帧中提取特征,然后训练提出的Co- lar方法,该方法获得53.4%。相比之下,所提出的端到端学习范式达到了58.8%。综上所述,我们提出的Colar方法实现了有效性和效率之间的良好平衡。给定预提取的特征,Colar可以得到准确的检测结果。如果只给视频帧,Colar处理一分钟视频的时间为9.8秒,并实现了相当的性能。此外,我们在相同的设置下测量内存成本,其中Colar需要2235M内存,OadTR [42]需要4375M内存。在不同动作部分下的表现。表5详细研究了在线动作检测性能动态静态LconsTHUMOS 14 TV系列硬盘✓✓✓当观察到不同的作用部分时。所提出的Colar在使用TSN-ActivityNet特征、TSN-Kinetics特征并且仅使用视频帧时实现了有希望的准确性。特别是,考虑到仅观察到前10%部分作用的最严重情况,先前最先进的方法OadTR [42]显示出劣于IDU [11]的性能然而,由于静态分支有效地将框架与每个类别的代表性范例连接并提供补充指导,因此所提出的Co- lar始终超过OadTR4.3. 消融实验每种成分的功效。提出的Colar方法包括动态分支和静态分支,以及一致性损失约束,使两个分支之间的相互指导表6研究了每个组件在所有三个基准数据集上的有效性。首先,动态分支的性能优于静态分支,证明了仔细建模时间依赖的必要性。此外,在不损失一致性的情况下,直接融合两个分支的预测分数(例如,使用等式(14))只观察到有限的改善,而CONS可以进一步提高检测性能。动态分支的消融 所示✓65.258.186.383.529.526.4✓✓ ✓65.866.986.988.129.930.6L316967.0%65.064.965.2六十四点六)(63.7)mAP 63.0六十二点三61.016 32 48 64 8066.065.2%64.264.5)mAP64.0六十三点六(62.01 2 3 4 558.458.1五十八点零)% 58.0(57.7五十七点八五十七点八mAP57.657.21 5 10 15 2067.066.3% 66.065.8)(65.4)mAP65.064.364.01282565121024204867.0)%(66.166.066.1mAP66.0 65.865.00.6 0.8 1 1.2 1.468.066.566.9六十六点三三%65.064.57)(mAP62.060.959.00.1 0.3 0.5 0.7 0.9静态评分动态评分背景排球扣球背景(a) dy中的时间长度T-(b)卷积层-1namic分支。在动态分支中。0.50(a)动态分支和静态分支的检测分数(c)代表性FEA的数量-(d)COM的通道数量静态分支中的tures。完全Colar法。10-1(b)动态分支中的注意权重。(e)系数λ的影响(f)系数β的影响图4.对提出的Colar方法进行定性分析。损失函数融合预测分数段包含多个操作实例,图 3. 提 出 的Colar 方 法 中有 关 超 参数 的 消 融研 究 , 通过THUMOS 14数据集上的mAP(%)测量。图3(a),我们首先研究了时间范围T在建模时间依赖性中的影响,发现64是动态分支的合适选择。过短的时间范围不足以感知视频段内的演变,而过长的时间范围会带来噪声。此外,我们改变卷积层的数量并选择两层,如图3(b)所示。关于静态分支的消融。基于K-Means聚类,样本数是静态分支的一个重要如图3(c)所示,有限样本的能力是不够的,压倒性的样本也会损害性能。关于完整方法的烧蚀 给定完整的方法,图3(d)研究了不同特征通道下的性能,并验证了1024是一个合适的选择。图3(e)研究了训练阶段中一致性损失的系数λ,而图3(f)验证了推理阶段中系数β我们发现λ= 1,β= 0。三是正确的选择。4.4. 定性分析图4定性分析了所提出的Colar方法。图4(a)展示了视频片段内由于排球扣球实例显示了显著的视点变化,因此动态分支预测某些独特帧的低置信度分数相比之下,静态分支咨询排球扣球类别的代表性样本,并一致预测这些独特的帧的图4(b)显示了一个视频当前帧(最后一帧)与其历史帧之间的相似性。相似性权重清楚地突出历史动作帧并抑制背景帧,这有助于聚合时间特征。5. 结论本文提出了基于样本协商机制的Colar,对每个帧进行类别级建模,并捕获视频片段内的长期依赖性。Colar将帧与示例帧进行比较在动态分支中,Colar将历史框架视为范例,并使用轻量级网络结构对长期依赖性进行建模。在静态分支中,Colar采用每个类别的代表性范例,并捕捉类别的特殊性。Colar的突出功效将激励未来的工作关注类别级建模。此外,Colar算法在有效性和效率之间取得了很好的平衡,因此直接从流视频数据中进行在线动作检测是一个很有前途的方向,具有一定的实用价值。局限性。由于Colar仅在基准数据集上进行验证,因此在实际场景中可能会观察到由于新的挑战而导致的性能下降。长尾分布,开集动作类。此外,无意中使用Colar进行监视可能会侵犯个人隐私。致谢。本工作得到了广东省重点领域研究发展计划( No.2019B010110001 ) 、 国 家 自 然 科 学 基 金 U21B2048、62036011项目和浙江省实验室开放研究项目(No.2019KD0AD01/010)的部分资助。66.966.9链球链球背景背景3170引用[1] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。在CVPR中,第961-970页,2015年。6[2] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。ECCV,第132-149页,2018。4[3] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR中,第6299-6308页二、六[4] Varun Chandola、Arindam Banerjee和Vipin Kumar。异常检测:一个调查。ACM计算调查(CSUR),41(3):1-58,2009。1[5] Peihao Chen,Chuang Gan,Guangyao Shen,WenbingHuang,Runhao Zeng,and Mingkui Tan.时间动作定位的关系注意。IEEE TMM,2019年。2[6] Yihong Chen,Yue Cao,Han Hu,and Liwei Wang.用于视频对象检测的记忆增强全局-局部聚合。在CVPR中,第10337-10346页,2020年。3[7] MMAction2贡献者。Openmmlab的下一代视频理解工具箱和基准测试。github.com/open-mmlab/mmaction2,2020. 6[8] Roeland De Geest,Efstratios Gavves,Amir Ghodrati,Zhenyang Li,Cees Snoek,and Tinne Tuytelaars.在线动作检测。见ECCV,第269-284页。施普林格,2016年。一、五、六、七[9] Roeland De Geest和Tinne Tuytelaars。基于lstm的在线动作检测时间结构建模WACV,第1549-1557页。IEEE,2018年。二、五、六[10] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络在CVPR,第2625五、六[11] Hyunjun Eun,Jinyoung Moon,Jongyoul Park,ChanhoJung和Changick Kim。学习辨别在线动作检测的信息在CVPR,第809-818页,2020年。二五六七[12] 风小旭,韩俊伟,姚希文,宫丞。遥感图像中弱监督目标检测的渐进式上下文实例细化。IEEE TGRS,58(11):8002-8012,2020。2[13] 风小旭,韩俊伟,姚希文,宫丞。Tcanet:三重上下文感知网络,用于遥感图像中的弱IEEE TGRS,2020。2[14] 风小旭,姚希文,宫成,韩军公,韩军威。Saenet:自监督对抗和等价网络,用于远程传感图像中的弱监督对象检测。IEEE TGRS,2021年。2[15] Guangyu Guo,Junwei Han,Fang Wan,and DingwenZhang.增强弱监督对象定位的学习容忍度。在CVPR中,第7403-7412页,2021年。2[16] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。6[17] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。2[18] 黄培良,韩俊伟,刘念,任俊,张鼎文.涂鸦监督视频对象分割。IEEE/CAA Journal of Automatica Sinica,9(2):339 3[19] 黄培良,韩俊伟,张定文,徐明亮. Clrnet:用于深度人脸解析的语义级细化网络。IEEE TNNLS,2021年。2[20] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。在ICML,第448-456页中。PMLR,2015. 6[21] Y.-- G. Jiang,J.Liu,中国粘蝇A.Roshan Zamir,G.托代里奇岛拉普捷夫M. Shah和R.苏克坦卡THUMOS挑战:动作识别与大量的类。网址://crcv.ucf.edu/THUMOS14/,2014年。五、六[22] Zhenheng Yang Jiyang Gao and Ram Nevatia.红色:增强的编码器-解码器网络,用于动作预测。在BMVC中,第92.1-92.11页,2017年。二、五、六[23] Je f fJohnson,MatthijsDouze,andHer ve'Je'gou. 用gpu进行十亿级相似性搜索。IEEE TBD,7(3):5354[24] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。6[25] Zihang Lai,Erika Lu,and Weidi Xie. Mast:记忆增强的自我监督跟踪器。在CVPR中,第6479- 6488页3[26] Chuming Lin,Chengming Xu,Donghao Luo,YabiaoWang , Ying Tai , Chengjie Wang , Jilin Li , FeiyueHuang,and Yan-wei Fu.学习显著边界特征用于无锚时间动作定位。在CVPR中,第3320-3329页2[27] 林天威,小刘,李欣,丁二瑞,文石磊。Bmn:用于时间动作提议生成的边界匹配网络。在ICCV,第3889-3898页,2019年。2[28] 林天威,赵旭,郑寿。单次瞬时动作检测。在ACM MM中,第988-996页,2017年。2[29] Xiaolong Liu , Yao Hu ,Song Bai , Fei Ding, XiangBai,and Philip HS Torr.多激发时间事件定位:一个基准在CVPR中,第12596-12606页,2021年。2[30] 刘小龙,王启蒙,胡耀,唐旭,宋白,向白。使用Transformer进行端到端的临时动作检测。arXiv预印本arXiv:2106.10271,2021。2[31] Xiankai Lu,Wenguan Wang,Martin Danelljan,TianfeiZhou,Jianbing Shen,and Luc Van Gool.视频对象分割与 情 节 图 记 忆 网 络 。 参 见 ECCV , 第 661-679 页 。Springer,2020年。3[32] 阿拉·马拉、蒂埃里·沙托、萨米·加扎和纳茹阿·埃斯苏克里·本·阿马拉。嵌入式计算机视觉系统在交通监控中的多目标检测IEEE T-ITS,20(11):4006-4018,201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功