没有合适的资源?快使用搜索试试~ 我知道了~
3097用于视频动作识别的局部最大合并特征时空向量Ionut Cosmin Duta1Bogdan Ionescu2Kiyoharu Aizawa3Nicu Sebe11意大利特伦托大学2罗马尼亚布加勒斯特理工大学3日本@unitn.it,bionescu@imag.pub.ro,aizawa@hal.t.u-tokyo.ac.jp摘要我们介绍了局部最大池化特征的时空向量(ST-VLMPF),这是一种专门为局部深度特征编码而设计的基于超级向量的编码方法所提出的方法解决了视频理解的一个重要问题:如何构建一个视频表示,将CNN功能纳入整个视频。特征分配是在两个层次上进行的,通过使用相似性和时空信息。对于每个分配,我们构建了一个特定的编码,专注于深度特征的性质,目标是从网络的最高神经元激活中捕获最高特征我们的ST-VLMPF显然提供了一个更可靠的视频表示比一些最广泛使用的和强大的编码方法(改进的Fisher矢量和矢量的局部聚集描述符),同时保持了较低的计算复杂度。我们在三个动作识别数据集上进行了实验:HMDB 51,UCF 50和UCF 101。我们的管道获得了最先进的结果。1. 介绍在计算机视觉中,动作识别仍然是一个非常具有挑战性和高计算要求的任务,由于其巨大的潜在应用前景而受到研究界的持续关注。它的流水线可以分为三个主要步骤:特征提取,编码和分类。而对于分类部分,现有的技术已经比较成熟,对于特征提取和编码还有很大的改进空间。特征提取主要有两个方向:手工制作和学习的功能(深层功能)。对于手工制作的类别,最流行的描述符由定向反射直方图(HOG)[5,20]、光流直方图(HOF)[20]和运动边界直方图(MBH)[6]表示。这些描述符是使用不同的方法从视频中提取的,以建立提取区域,例如在兴趣点[19],使用密集采样[42,47],沿着运动轨迹[38,43,45]。再-图1:用于深度特征编码的ST-VLMPF框架最近,使用深度神经网络学习的特征代表了研究的突破,获得了令人印象深刻的结果[3,17,25,33,34,39,40,49,52]。特征编码是影响系统性能的关键步骤之一。基于超级向量的编码方法代表了构建最终表示的最强大的解决方案之一,该最终表示作为分类器的输入改进的Fisher 向 量 ( iFV ) [29] 和 局 部 聚 集 描 述 符 向 量(VLAD)[15]在许多作品中证明了它们优于其他编码方法,并且作为编码步骤的最先进方法[22,27,41,42,45]而存在。当前标准编码的缺点之一是缺乏对时空信息的这些编码方法是围绕手工制作的功能构建的。然而,一个新的趋势是使用深度特征,因为它们比传统的手工制作的特征获得了有希望的结果最近的许多作品也将这些编码方法应用于深度特征。然而,目前还没有一个成熟的管道来使用这些新功能,因为它们的性质和行为与手工设计的类别有很大的不同。在整个深度神经网络中学习深度特征,在网络的上层提供高辨别力,具有高级信息,例如ob-bits,而手工制作的特征是手动设计的,并且通常包含低级信息,例如边缘。深层特征的特征还在于它们的高稀疏性。例如,在[34,49]中,从网络的上层提取的特征图(通常在作品中用作特征)可以包含超过90%的稀疏度,视频体积x1x2cxn特点相似性最大池化VLMPF在特征编码上阿希格1m=[1m2=[0000.01]Cm=[ST-VLMPF编码位置p1特征p2提取cpn阿希格2n会员资格成员上的时空和池基于特征的时空最大池算法St编码3098而对于手工制作的特征,如[42,47],稀疏性水平可以忽略不计。目前的编码方法,如iFV和VLAD等,都是为了获取高统计量的信息来提高性能。一般来说,对于手工制作的特征,iFV比VLAD [27,42]更好,虽然对于手工特征,使用更多的统计信息显著提高了性能,但考虑到它们之间的差异,对于深度特征,使用高阶统计量可能无法保证性能提高。事实上,在许多最近的作品中,如[50]中,VLAD编码在使用深度特征时被强调为优于iFV。这方面也在我们的实验中得到验证,其中iFV不能保证比VLAD更好的性能。这表明,更简单的编码方法可以比依赖于高阶信息的方法执行得更好。这是一个完全相反的行为,在COM与手工制作的功能。考虑到所有这些,我们认为一种专门为深度特征设计的新编码方法可以提供更好的结果。由于目前现成的预训练神经网络的高可用性,许多研究人员仅将其用作特征提取工具,因为重新训练或微调在许多方面要求更高。因此,需要一种性能良好的深度特征编码方法。当前基于ConvNets的方法的主要缺点之一是网络考虑了一个或多个staked帧(例如,10-staked光流场[33,49])。网络的每个采样输入都被分配给它所属的整体视频标签。问题是,如果我们将如此短的帧数量视为网络的输入,那么它可能无法正确反映整体视频标签,从而导致错误的标签输入。当前的ConvNets方法从视频的所有采样输入单独获得预测分数然后,通过聚合从每个采样输入产生的所有这些预测分数来计算视频的最终预测。然而,这种简单的聚合并不能完全解决上述问题.这项工作解决了这个重要的问题,lem通过学习一个新的一般表示,反映了整体的视频标签。这种方法使分类器能够访问在整个视频上提取的深度特征在本文中,我们提出以下主要贡献:(i)提供专门设计用于处理深度特征的新编码方法。我们利用深层特征的本质,目标是从网络的最高神经元激活中捕获最高特征响应。(ii)通过考虑特征位置有效地将时空信息结合在编码方法中,并且具体地对该方面进行时空信息在视频分类中至关重要。我们最终提出的编码方法(如图1所示),时空矢量局部最大池化特征(ST-VLMPF)执行两种不同的特征分配。一种是基于它们的相似性信息,另一种是基于时空信息。对于每个产生的分配,我们执行一个特定的编码,通过执行两个最大池和一个汇总的信息。(iii)提供了一个动作识别方案来处理深度特征,可以采用它来获得令人印象深刻的结果,而不需要对特定数据集进行重新训练或微调。此外,我们的框架可以很容易地结合不同的信息提取从不同的网络。事实上,我们的动作识别管道提供了一个可靠的表示,优于以前的最先进的方法,同时保持低复杂性。我们公开了我 们 提 出 的 ST-VLMPF 编 码 的 代 码 ( https ://iduta.github.io/software.html)。第二部分对相关工作进行了总结。第三节介绍了我们的编码方法.第四节介绍了局部深部特征提取管线。实验评价见第5节。结论见第6节。2. 相关工作有许多工作集中于改进特征编码步骤,因为作为分类器的输入的最终表示是系统性能的关键组成部分。基于超级矢量的编码方法是最强大的表示生成器之一改进的Fisher矢量(iFV)[29]是最先进的基于超级矢量的编码方法之一,其执行特征的软分配并合并一阶和二阶信息。局部聚合描述符向量(VLAD)[15]是iFV的简化,仅捕获一阶信息并执行特征的硬分配。超级矢量编码(SVC)[55]方法保持零阶和一阶统计,因此SVC可以被视为矢量量化(VQ)[35]和VLAD之间的组合。最近的许多工作试图改进上述方法。[26]中的工作提出通过连接二阶和三阶统计量以及使用监督字典学习来改进VLAD。[22]中的工作提出了在树的修剪版本中使用随机森林来构建词汇表,然后附加地关联类似于iFV的二阶信息。[20,21]中的工作考虑了空间金字塔方法来捕获关于特征位置的信息,然而,可缩放性是该方法的一个问题,因为它会增加最终表示的大小,并且不可能将视频划分为4个以上的片段。[1]中的工作提出使用帧内归一化来提高VLAD性能。在[9]中,提出了一种双重分配的VLAD,以提高精度。[28]中的工作使用多层嵌套iFV编码来提高性能。3099S1 2ds与上述最初构建用于编码手工特征的方法不同,我们的工作提出了一种专门为局部深度特征编码而设计的方法。最近,在深度学习突破的鼓舞下,许多作品[3,17,25,33,34,39,40,49,52]将所有三个主要步骤:特征提取,编码和分类封装在端到端框架中。[33]中的工作使用两个流来捕获外观和运动信息。[12,13]中的工作是基于用于编码的秩池;[ 3 ]中的作者将该思想扩展到动态图像以创建视频表示。与上述方法相比,我们提出的方法具有能够使用任何可用的训练网络而无需训练、重新训练或微调的优点,从而获得令人印象深刻的性能,甚至改善了原始网络的结果。此外,我们的方法可以很容易地结合不同的网络,不同的信息源,以创建一个有竞争力的视频表示。3. 提出的ST-VLMPF编码方法在本节中,我们介绍我们提出的深度特征编码方法,局部最大池化特征的时空向量(ST-VLMPF)。我们最初使用k均值从从来自数据集的视频子集提取的随机选择的特征的大子集学习码本C 结果表示k1个视觉词,C={c1,c2,.,c k1},基本上是每个使用k-means学习的特征聚类。 当我们提取我们还保留其在视频中的位置。对于每个特征,我们关联一个位置p:视频. 与局部特征一起,如上所述,我们保留它们的位置P ={p1,p2,...,pn} ∈ Rn×3.我们提出的编码方法执行两个硬分配使用所获得的码本,第一个是基于特征的相似性,第二个是基于它们的位置。对于第一次分配,每个局部视频特征 Xj(j=1,.,n)被分配给来自码本C的其最近的视觉字。然后,在分配给聚类c i(i=1,.,k1)我们计算向量表示vci=[vci,vci,...,vci],其中每个vci (s在向量的每个维度上迭代,s=1,.,d)的形式计算如下:vci=sign(xj,s) max|xj,s|(二)xj:NN(xj)=ci其中NN(xj)表示特征xj的码本C的最近邻域质心,基本上它保证我们对分配给视觉单词的每组特征单独执行池化;符号函数返回数字的符号,|. | represents the absolute value.基本上,等式2获得最大绝对值,同时保持返回的最终结果的初始符号在图1中,我们将这种相似性称为特征上的最大池化,因为特征是基于它们的相似性分组的,然后对每个结果组执行最大池化所有向量[v c1,vc2,.,v ck1],表示VLMPF(局部最大池化特征向量)编码,最终矢量大小(k1×d)。p=(x<$,y<$,t<$);x<$=x,y<$=y,t<$=t(一)在第一次赋值后,我们还保留质心h w#fr其中h、w和#fr表示视频的高度、宽度和帧数。因此,x<$、y<$、t<$对应于相对于视频的归一化x、y、t这种标准化保证位置值的范围在相同的区间[0; 1)任何视频。与第一码本C并行,我们还利用k-均值学习第二码本PC={pc1,pc2,.,Pck2},从相应的选择的特征位置。PC的大小为k2,其结果表示位置码本.根据用于第一码本C的特征的位置信息来计算码本PC。这是一种自动的方式来提出一个k2时空视频分割。在构建代码本之后,我们可以开始创建最终视频表示,其用作分类器的输入。图1描绘了视频为获得最终表示而遍历的管道。框架开始 通过从视频中提取本地特征(参见第二节),第4节)。 视频由其提取的局部特征X={x 1,x2,...,xn} ∈ Rn×d,其中d是特征di-而n是局部特征的总数,每个特征的成员资格,目的是保留相关的基于相似性的聚类信息。对于每个特征,我们通过大小等于视觉单词数量k1的向量m来表示成员信息,其中所有元素都为零,除了位于对应于视觉单词的位置上的一个值(其等于1)相关质心 例如,m=[0100.. 00]映射将隶属特征信息添加到码本C的第二视觉词。我们根据特征位置执行第二次分配。图1的底部显示了此路径。将来自P的每个特征位置p,j分配给距离码本PC最近的质心。在我们根据它们的位置对特征进行分组之后,我们通过执行两种池化策略来计算另一个向量表示:一种是在时空聚类特征上的最大池化,另一种是在相应的时空聚类特征成员资格上的和池化。我们将来自每个集群pc r(r=1,..., k2)。因此,对于每个时空特征组,我们计算向量表示v pcr=[v pcr,vpcr,.,其中每个v_pc_r用于-1 2ds3100S主要计算如下:Σvpcr=cat符号(xj,s)最大pj:NN(pj)=pcr|、|,.Σpj:NN(pj)=pcrmj,i中文(简体)其中cat表示级联,并且NN(pj)表示用于特征位置pj的码本PC的最近邻域视觉字。 由于成员信息上的和池化可以在向量内创建峰值的事实,我们将和池化的结果标准化为类似于功率标准化,标准α=0。五、基本上,在这种情况下,我们对求和池的结果执行平方根,以减少最终向量中的峰值与等式2类似,在等式3中,我们基于时空信息对特征进行分组,然后计算最大绝对值,同时保持特征上的原始符号。我们还在等式3中将关于从第一分配获得的特征相似性的成员资格信息与时空信息以及时空分组特征的相似性成员资格封装在一起的目标相 我们将所有这些向量[v pc1,v pc2,., v pck2]创建ST(时空)en-编码,这导致(k2×d+k2×k1)矢量大小。最后,我们将ST和VLMPF编码连接起来,创建最终的ST-VLMPF表示,其用作分类器的输入。因此, 用 于 ST-VLMPF 表 示 的向量的最终大小是(k1× d)+(k2× d + k2×k1)。ST-VLMPF的目标是提供可靠的表示其结合了整个视频上的深度特征,为分类器提供了更完整的信息,用于做出正确的决定。4. 局部深度特征提取本节介绍了用于局部深度特征提取的流水线。基于卷积网络(ConvNets)的方法[3,17,25,33,34,39,40,49,52]最近获得了与传统手工制作的特征相比非常有竞争力的结果。 视频包含两个主要信息来源:外观和运动。在我们的特征提取管道中,我们分别使用三个流:用于捕获外观的空间流、用于捕获运动的时间流和用于同时捕获外观和运动信息的时空流。局部深度特征提取的流水线如图2所示,对于给定的视频,我们为三个网络中的每一个独立地提取具有空间信息的特征为了捕获空间流中的外观信息,我们使用了[34]中的VGG ConvNet,这是一个具有19层的网络。图2的上半部分描述了该网络的局部深度特征提取管道。的图2:深度局部特征提取管道的框架。VGG19 ConvNet的输入是一幅224×224分辨率的图像,三个通道的颜色信息。在我们从视频中提取单个帧后,我们根据-将它们重新调整到网络所需的输入大小。对于每个单独的帧,我们采用具有空间信息的最后一个卷积层的输出,池5。我们之所以选择卷积层,是因为更深层提供了高分辨信息。通过获取具有空间信息的层,我们可以为视频的每一帧提取局部深度特征,还包含关于特征的空间成员关系的细节输出池5的是空间大小为7×7和512个通道的特征图 用于从要素地图我们单独采取每个空间位置和concate- nate沿所有512通道的值,获得局部深度有512个维度。因此,从每个帧中,我们获得7×7=49个局部深度特征,每个特征是512维向量。因此,对于每个视频,我们总共获得#帧×49个局部深度特征。SCN指的是使用该空间卷积网络提取对于运动信息,我们使用[49]中的重新训练这个深度网络,也称为VGG,最初在[34]中提出,包含16层。作者在[49]中使用几种良好的网络再训练实践,例如预训练以初始化网络,更小的学习率,更多的数据增强技术和高辍学率,使用新的输入数据重新训练VGG ConvNet用于新任务VGG ConvNet使用UCF 101数据集重新训练动作识别任务[37]。时间ConvNet的输入是10个堆叠的光流场,每个光流场都有一个垂直图像和一个水平运动图像因此,总共有20个堆叠的光流图像作为网络的一个输入。为了提取光流场,我们使用TVL1算法的OpenCV实现[53]。对于时态ConvNet,我 们 还 使 用 最 后 一 个 卷 积 层 的 输 出 和 结 构 信 息(pool5)。pool5图层的要素地图空间大小为7×7512频道输入的最终局部深度要素ch=512H个人空间w框架ConvNet外观特征图h x w外观局部深度特征ch=512H视频音量叠加光流时态ConvNetW运动特征图高x宽运动局部深度特征Maxch=512H夹时空wConvNet运动外观特征映射高x宽运动-外观局部深层特征3101通过沿着所有通道连接来自每个空间位置的值来获得 , 从 而 导 致 输 入 的 49 个 局 部这 导 致(#frames−9)×49局部深度使用时间ConvNet的视频特征TCN指这个时间卷积网络提取的特征。对于图2底部表示的时空流,我们使用3D ConvNet[40]。这个网络是在Sports-1 M数据集上训练的[17],包含16层。该网络旨在通过使用3D卷积核来捕获外观和运动信息。网络的输入是从视频中提取的16帧长的剪辑。与我们的管道中使用的前两个网络类似,我们使用一帧的采样步长来覆盖视频的帧,以创建输入剪辑。作为这个网络的最后一层,空间信息-tion的特征图大小只有4×4,我们在管道中考虑了之前的一层,称为conv5b。的Conv5B层具有与前两个网络相似的特征图的空间大小7×7和类似数量的通道,即,512.然而,conv5b层包含两个特征映射,每个都是7×7×512。在我们的流水线中,对于这个网络,对于一个输入,我们只构建了一个7×7×512的特征图,方法是从conv5b中为两个特征图的每个位置取最大值然后,我们可以提取局部深度特征类似于前两个网络。对于3D网络,对于输入视频,局部深度特征的总数为(#frames-15)×7×7每一个结果都是-cal深度特征是也具有512维的向量我们将使用该卷积3D网络提取的特征称为C3D。对于所有从这三个网络得到的局部深度特征,基于特征图上的定位来提取ST-VLMPF所需的归一化位置。5. 实验评价本节介绍了实验部分,我们在动作识别的背景下测试我们提出的框架5.1. 数据集我们在三个最受欢迎和最具挑战性的动作识别数据集上评估我们的框架:HMDB51 [18]、UCF50 [30]和UCF101 [37]。HMDB51数据集[18]包含51个动作类别,共有6,766个视频片段。我们使用原始的非稳定视频,并且我们遵循原始协议使用三个训练测试分割[18]。我们报告三个分割的平均准确度作为性能指标。UCF50数据集包含6,618个来自YouTube的真实视频。有50个相互排斥的人类动作类别,视频被分成25个预定义的组。我们遵循推荐的标准程序,进行留一组交叉验证,并报告所有25个折叠的平均分类准确度。SCN256 512TCN256 512C3d256 512VLMPF43.544.756.658.852.853.4ST-VLMPF47.049.858.961.355.156.3表1:使用32个时空视频划分的HMDB 51上的最终准确度我们还报告了不使用时空信息时的结果(VLMPF)。UCF 101数据集[37]是一个被广泛采用的动作识别基准,包括13,320个真实视频和101个动作类。我们按照推荐的默认三个训练/测试分割进行评估,并报告这三个分割的平均识别准确率5.2. 实验装置对于局部深度特征提取管道的运动流,[49]中的工作为UCF 101数据集的每个分割提供了三个训练模型。因此,我们使用UCF 101的每个分裂的模型进行特征提取。对于另外两个数据集HMDB 51和UCF 50,我们只使用在UCF 101的split1上训练的模型来提取局部深度特征。我们将我们提出的ST-VLMPF编码方法与两种最先进 的 特 征 编 码 方 法 进 行 比 较 : 改 进 的 Fisher 向 量(iFV)[29]和局部聚集描述符向量(VLAD)[15]。我们从50万个随机选择的特征中创建代码本,这些特征是从视频的子集中提取的我们将码本的大小设置为256个可视字,这是标准采用的大小,在使用基于超级矢量的编码时被社区广泛方法. 还将用于ST-VLMPF的码本C(k1=256)的大小设置为与用于其它编码方法的相同使得更容易比较它们,并且对于所有基于超矢量的编码方法,具有相似数量的可视字也是公平的比较。当使用我们的编码方法ST-VLMPF时,我们在分类之前对最终视频表示向量进行L2归一化。许多作品,如[42,45],表明iFV和VLAD表现更好,如果在功能编码后的功率2.标准化(PN),然后是L2标准化(||符号(x)|X|α||). iFV和VLAD遵循这条线,将α设置为广泛使用的标准值0.5。真正的-iFV和VLAD在使用PN时更好地工作的原因是由于它们得到的最终表示在矢量内包含大的峰值,并且PN有助于减少它们并使矢量更平滑。相反,在我们的申请中,ST-VLMPF不提供包含大峰的最终矢量,因此,也没有必要应用PN。对于分类部分,在所有实验中,我们使用参数C=100的线性一对所有SVM。5.3. 参数整定我们提出了参数调整的分割视频的数量和功能的维数。所有的3102精度0.620.60.580.620.60.58TCNC3D0.56 0.560.54 0.540.52 0.520.5 0.50.480.460.44TCNC3D0.480.460.440 2 4 8 16 32 64128256码本大小(k)2图3:视频的时空划分的评估64 128 256 512Dim. PCA图4:使用PCA进行降维的评估。在HMDB51数据集上报告了调谐实验图3呈现了参数k2的评估,其表示码本PC的大小。k2参数表示用于我们的ST-VLMPF编码方法的视频分割的数量。我们报告了对所有三个局部深度特征的评估:SCN,TCN和C3 D;保持原始局部深度特征的所有512个维度图3中所示的0值表示不考虑时空信息的情况,这是指来自图1的VLMPF编码。值得注意的是,当增加视频分割时,所有三个特征的ST-VLMPF的性能在准确性方面具有连续的显著提高,直到k2=32。该图清楚地表明,我们在编码过程中结合时空信息的方法为动作识别系统的最终准确度带来了显着的增益虽然对于C3D特征,精度的增加在k2=32的值附近停止,但是对于SCN和TCN,精度仍然继续略微增加。然而,在本文的所有剩余实验,我们为我们的ST-VLMPF编码设置k2=32,因为该值在准确性和计算成本以及最终视频表示的大小之间提供了良好的权衡。图4说明了使用PCA降低特征维数和去相关数据时的评估。从图中我们可以看到,对于所有特征,准确性都受到保留的维数的严重影响。将特征维数从原始大小 512 降 低 到 64 导 致 SCN 的 准 确 度 从 0.498 降 低 到0.464,TCN从0.613降低到0.545,C3D从0.563降低到0.525。在接下来的实验中,我们将考虑原始特征的维数为512,以及当维数降低到256时。表1总结了所有三个特性的性能数据。 此表包括具有两种特征维度设置的结果:256和512。我们还报告的 结 果 时 , 时 空 信 息 不 使 用 内 的 编 码 过 程(VLMPF)。以这种方式,我们可以直接观察到在编码方法中结合时空信息对于系统性能的益处。5.4. 与其他编码方法的比较在这一部分中,我们提出了我们的ST-VLMPF编码方法的比较,VLAD和iFV,在精度和计算效率。准确度比较。我们在三个数据集的准确性方面比较了ST-VLMPF与VLAD和iFV:HMDB 51、UCF 50和UCF 101。我们报告的比较结果与特征维数为256和512。表2显示了所有三个数据集的比较准确度结果。在具有挑战性的HMDB 51数据集上,ST-VLMPF在所有三个特征上明显优于iFV和VLAD例如,对于256维的 SCN , ST-VLMPF 比 VLAD 多 9.8% , 比 iFV 多10.4%。分别针对UCF 50和UCF 101报告了类似的结果,其中我们可以看到,我们提出的编码方法ST-VLMPF在所有情况下都大大优于iFV和VLAD,这表明了我们的表示的我们还可以从表1中看到,我们的方法在没有时空信息的情况下仍然优于iFV和VLAD。效率比较。表3显示了我们的ST-VLMPF与iFV和VLAD的效率比较。时序测量在单核Intel(R)Xeon(R)CPU E5-2690 2.60GHz上执行,使用来自HMDB51数据集的500个随机我们报告了编码方法可以处理以创建视频表示的平均每秒帧数和每个视频的秒数。对于我们的编码方法,我们还报告了在不使用时空信息(VLMPF)的情况下直接观察添加时空编码的成本的结果。我们可以看到,到目前为止,计算成本最高的方法是iFV。这是由于该方法使用软分配和高阶统计量来创建最终表示。VLAD编码比VLMPF稍慢,这是由于残差的计算。我们的ST-VLMPF的计算成本与VLAD相当,但是,它比iFV更有效,快5倍以上。表3的最后两列表示尺寸-精度3103HMDB51(%)UCF 50(%)UCF101(%)SCN256 512TCN256 512C3d256 512SCN256 512TCN256 512C3d256 512SCN256 512TCN256 512C3d256 512IFV36.6 41.8 51.0 56.6 46.1 49.075.7 81.0 95.2 96.1 84.7 88.867.8 74.1 84.1 85.4 77.7 79.8弗拉德37.2 40.3 51.1 53.9 46.8 49.178.4 80.2 95.5 95.4 86.4 89.069.9 73.4 83.7 85.2 78.6 81.4ST-VLMPF 47.0 49.8 58.9 61.3 55.1 56.386.3 87.7 97.1 97.2 94.1 94.780.4 81.8 86.6 87.3 85.5 86.2表2:所有三个数据集的准确度比较。最佳结果以粗体显示。SCN 256SCN 512TCN 256TCN 512C3D 256C3D 512256512fr/sec sec/vid fr/sec sec/vidfr/sec sec/vidfr/sec sec/vid fr/sec sec/vid fr/sec sec/vid昏暗昏暗IFV253.2 0.357168.7 0.536301.4 0.300197.6 0.457308.7 0.293202.3 0.447131,072 262,144弗拉德1967年5月1143.8 0.0792213.8 0.0411299.5 0.070 2372.5 0.038 1375.0 0.06665,536 131,072VLMPF2049.4 0.0441192.6 0.0762329.2 0.0391370.9 0.066 2455.0 0.0371426.0 0.06365,536 131,072ST-VLMPF 1531.1 0.059964.7 0.0941741.0 0.0521062.0 0.085 1769.6 0.051 1086.5 0.08381,920 155,648表3:计算效率比较。我们报告每秒帧数(fr/sec)和每个视频的秒数(sec/vid)。最后两列显示了每种编码方法为256和512特征维度生成的维度最佳结果以粗体显示针对每种编码方法生成的视频表示的完整性我们可以看到,iFV要求更高,生成的维度更大,而ST-VLMPF与VLAD相当。即使所生成的维度相对较高,在用于具有512个特征维度的ST-VLMPF的线性SVM(如本文中所使用的)的情况下,获得用于给定视频表示的预测类的分类时间小于0.001秒,因此,这是可忽略的成本。5.5. 融合策略先前的结果表明,我们的ST-VLMPF方法在所有数据集和所有特征类型上都获得了最佳精度。我们还表明,当特征维数降低时,准确率会显著下降,因此,为了获得最终得分,我们使用所有512个特征维数。将深度功能与手工制作的功能相结合可以提高系统的性能。因此,在本文中,我们报告了三种特征组合:DF 、 DF+HMG 和 DF+HMG+iDT 。 DF ( DeepFeatures)由SCN、TCN和C3 D表示,所有的深度特征都用我们的ST-VLMPF方法编码。如前所述,为了提取TCN特征,我们使用ConvNet,它是在UCF 101的split1上训练的。由于UCF 101是UCF 50数据集的扩展,为了避免过度拟合的风险,对于任何进一步的融合以及与最新技术水平的比较,我们排除了UCF 50数据集结果的TCN特征。HMG(Histograms of MotionConcentrations)[10]是一个手工制作的描述符,可以有效地捕获运动信息。我们使用了作者提供的代码和描述符提取的默认设置,并根据论文中的建议使用iFV对描述符进行相应的编码iDT(改进的密集轨迹)[45]是一种最先进的手工制作方法,在我们的论文中由四个单 独 的 手 工 制 作 描 述 符 ( HOG , HOF , MBHx ,MBHy)表示。我们还使用作者提供的代码来提取具有默认设置的描述符,并创建最终表示也建议使用iFV。 对于所有手工制作的特征,我们在分类前单独应用PN(α=0. 1)然后L2推荐[10]。对于这四个特征组合,我们评估不同的融合策略:早期,在我们为每个特征类型单独构建最终表示并相应地对其进行归一化之后,我们将所有得到的表示串联在最终向量中,我们应用L2归一化以制作单位长度,然后执行分类部分; sLate,其中我们通过在每个表示输出的分类器之间求和来进行后期融合;wLate,其中我们为每个特征表示分类器输出给出不同的权重,然后我们执行求和。通过以0.05的步长取0和1之间的值来调整权重组合; sDouble,其中除了对来自各个特征表示的分类器输出进行求和之外,我们还添加了由早期融合产生的分类器输出; wDouble,其中我们调整用于求和的权重组合,类似于wLate。表4显示早期融合的表现优于晚期融合。双融合结合了早期和晚期融合的优点,并进一步提高了准确性。对于HMDB 51等更具挑战性的数据集,将深度特征与手工特征相结合可以显著提高准确性,而对于UCF 50等 挑 战 性 较 小 的 数 据 集 在 这 个 框 架 下 , 我 们 在HMDB51上获得了73.1%的出色最终结果,在UCF50上获得了97.0%的结果,在UCF101上获得了94.3%的结果。5.6. 与最新技术表5显示了我们的最终结果与HMDB 51、UCF 50和UCF 101上最先进方法的比较。对于这种比较,我们报告 两 个 最 终 结 果 。 第 一 个 结 果 仅 表 示 我 们 的 ST-VLMPF ( DF ) , 这 是 通 过 在 所 有 三 个 深 度 特 征(SCN,TCN和C3 D)上使用我们提出的编码方法获得的。第二个3104DFHMDB51(%)DF + HMGDFUCF 50%DF + HMGDFUCF101(%)DF + HMG早期68.669.571.795.095.396.793.594.094.3石板66.466.568.894.294.495.692.092.592.4wLate67.667.870.994.895.196.692.292.793.4sDouble68.368.470.394.694.996.192.693.192.8wDouble69.570.373.195.195.497.093.694.094.3表4:融合策略。DF(深度特征)表示所有三个局部深度特征(SCN,TCN,C3D),HMG(运动轨迹直方图)[10]和iDT(改进的密集轨迹)[45]用HOG,HOF,MBHx和MBHy表示。对于每个特征表示组合上的每个融合类型,最佳性能结果以粗体显示。每个数据集的最佳结果也被下划线。(如上所述,UCF50数据集不考虑UTTCN特征。)HMDB51(%)UCF 50%UCF101(%)Jain等人[14](2013)52.1Solmaz等人[36](2013年)73.7Wang等人[46](2013)85.9Zhu等人[56](2013)54.0Reddy等人[30](2013年) 76.9Karpathy等人[17](2014年)65.4Oneata等人[24](2013)54.8Shi等人[32](2013)83.3Simonyan等人[33](2014年)88.0Wang等人[45](2013)57.2Wang等人[43](2013)85.6Wang等人[44](2015)86.0Kantorov等人[16](2014年)46.7Wang等人[45](2013)91.2Sun等人[39](2015)88.1Simonyan等人[33](2014年)59.4巴拉斯等人[2](2013年)92.8Ng等人[52](2015)88.6Peng等人[28](2014)66.8Everts等人[11](2014年)72.9Tran等人[40](2015)90.4Sun等人[39](2015)59.1Uijlings等人[41](2014年)80.9Wang等人[49](2015)91.4Wang等人[44](2015)60.1Kantorov等人[16](2014年)82.2Wang等人[48](2015)91.5Wang等人[48](2015)65.9Ciptadi等人[4](2014年)90.5Zhang等人[54](2016年)86.4Park等人[25](2016)56.2Narayan等人[23](2014)92.5Peng等人[27](2016)87.9Seo等人[31](2016)58.9Uijlings等人[42](2015年)81.8Park等人[25](2016)89.1Peng等人[27](2016)61.1Wang等人[44](2015)91.7Bilen等人[3](2016年)89.1Yang等人[51](2016)61.8Peng等人[27](2016)92.3Diba等人[8](2016)90.2Bilen等人[3](2016年)65.2Duta等人[10](2016)93.0费尔南多等人[12](2016年)91.4费尔南多等人[12](2016年)66.9Seo等人[31](2016)93.7Yang等人[51](2016)91.6我们的ST-VLMPF(DF)69.5我们的ST-VLMPF(DF)95.1我们的ST-VLMPF(DF)93.6我们最好的73.1我们最好的97.0我们最好的94.3表5:与最新技术水平的比较。我们的ST-VLMPF(DF)表示仅用我们的表示在深度特征(SCN,TCN和C3 D)上获得的结果。我们最好的是我们的ST-VLMPF与手工制作的HMG[10]和iDT(HOG,HOF,MBHx,MBHy)[45]。(如上所述,UCF50数据集不考虑UTTCN特征是本文报道的最佳结果,用ST-VLMPF(DF)+ HMG+ iDT得到。我们的ST-VLMPF表示在所有三个数据集上都大幅优于最先进的方法,这表明我们的方法提供了一个强大的视频表示,具有非常有竞争力的结果。此外,凭借我们最好的结果,也使用了手工制作的功能,我们在具有挑战性的HMDB51数据集上将最先进的技术提高了6.2个百分点,在UCF50上提高了3.3个百分点,在UCF101上提高了2.7个百分点。需要强调的是,这些结果是使用预先训练的网络获得的,这些网络没有在我们的特定数据集上重新训练或微调(UCF 101数据集的TCN例如,对于HMDB51数据集,所有三个网络都没有看到来自该数据集的任何训练示例,但我们仍然获得了令人印象深刻的结果。因此,我们的方法也适用于各种实际情况下,当重新训练或微调是更难以完成的。31056. 结论在本文中,我们介绍了局部最大池化特征的时空矢量(ST-VLMPF),这是一种专门为编码局部深度特征而设计的基于超级矢量的编码方法我们还有效地将时空信息纳入编码方法中,从而显著提高了准确性。ST-VLMPF在执行两种最强大的编码方法(改进的Fisher矢量和局部聚集描述符矢
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功