没有合适的资源?快使用搜索试试~ 我知道了~
基于冗余减少注意力的细粒度视频分类陈柱1【0000−0002−3103−8752】、小谭2【0000−0001−9162−8570】、周峰3【0000−0002−1132−5877】、小刘2【0000−0002−5689−9786】、岳开宇2【0000−0002−1820−3223】、丁二瑞2【0000−0002−1867−5378】、马毅41马里兰大学帕克分校chenzhu@cs.umd.edu2百度公司计算机视觉技术部(VIS)北京3百度研究,森尼维尔{tanxiao01,zhoufeng09,liuxiao12,yuekaiyu,dingerrui}@ baidu.com4加州大学伯克利分校yima@eecs.berkeley.edu抽象。对于细粒度分类任务,视频可以作为比静态图像更好的源,因为视频具有更高的机会包含有区别的模式。然而,视频序列也可能包含许多冗余和不相关的帧。如何定位关键信息是一个具有挑战性的课题。在本文中,我们提出了一种新的网络结构,被称为冗余减少注意力(RRA),它学会集中在多个歧视模式,通过抑制冗余的特征通道。具体地说,它首先总结的视频加权求和的所有特征向量的特征图中的选定帧的时空软注意力,然后预测哪些通道,以抑制或增强,根据这个总结与学习的非线性变换。抑制是通过调制的特征图和脱粒出弱激活。更新后的特征图然后在下一次迭代中使用。最后,基于多个摘要对视频进行分类。该方法在多个视频分类数据集上取得了优异的性能此外,我们收集了两个大规模的视频数据集,YouTube-Birds和YouTube-Cars,为未来的细粒度视频分类研究数据集可在http://www.cs.umd.edu/~chenzhu/fgvc上获得。关键词:细粒度视频分类·注意机制1介绍细粒度视觉识别,例如识别鸟类[30,36]和汽车模型[18,6],长期以来一直受到计算机视觉社区的关注。在这些任务中,类别可能仅在细微的细节上有所不同,例如,在流行的基准CUB-200-2011 [30]中收集的黄嘴杜鹃和黑嘴杜鹃看起来几乎相同,除了它们的喙的颜色和图案。他们的尾巴。因此,许多著作都强调了区别对待的重要2C. Zhu,X.谭,F.Zhou,X.Liu,K.Yue、红腹锦鸡儿E.丁氏Y.马(a) 输入样本(b)一瞥1-3(c)一瞥4Fig. 1. 使用我们的RRA模型在我们的YouTube-Birds验证集上可视化两个真实案例。热图是用等式7来计算的,等式7表示关于这些像素的模型。 它包含4个简单的框架和4个网关。图2和图3被隐藏以节省空间。网络的输入帧中的目标可能在预处理之后丢失或变形,如(1)和(2)中所示。我们的模型通过以下方式来解决这些问题:1)集中在所有输入帧中最具区别性的位置,其中具有以下优点:(1)忽略“边缘”帧。 2)相对地抑制无信息通道,这有助于(2)校正由于变形而在一瞥1-3中对鹪鹩的错误识别,并且在一瞥4中正确地识别模式(头部)。模式,采用部分注释[34,35]和注意机制[4,36]。在现有的数据集上取得了明显的进展,但反映杜鹃鸟喙颜色或尾巴的照片并不总是很容易拍摄,因为鸟类很少保持静止和快速移动。在预处理过程中,区分模式也可能变得不重要,如图所示。1.一、识别这种非歧视性的图像是一个不适定的问题。相反,视频通常具有其主题的丰富视觉细节、运动和音频,其具有更高的包含区分模式的机会,并且比单个图像更适合于日常场景中的细粒度识别。然而,视频具有比图像更高的时间和空间冗余。感兴趣的区别模式通常仅存在于几个帧中并且仅占据帧的一小部分。其他冗余帧或背景可能会稀释区分模式,并导致模型过度拟合不相关的信息。在这项工作中,我们提出了一种新的神经网络结构,称为冗余减少注意力(RRA),以解决上述冗余问题。它的灵感来自于观察到不同的特征通道响应于不同的模式,并且学习减少非歧视通道的激活会导致实质性的性能改善[10,36]。本着同样的精神,我们允许我们的模型学习减少冗余,并通过削弱甚至阻塞非歧视性通道来关注歧视性模式。具体而言,该模型迭代地总结和更新所有输入帧的特征图。在每次迭代中,对所有输入特征图的每个特征向量应用软注意力掩模以对特征图进行加权求和转换成一个概要特征向量,然后一个学习的非线性变换预测(1)叶(()w-Bi((ed Cuck))(2)B(ack-Bi((edCuck))冗余减少注意力基于RRA的细粒度视频分类3根据概要特征向量增加或减少每个通道。增量或减量在空间上和时间上复制到特征图中的每个特征向量,并且BN-ReLU块将对修改后的特征图进行重新加权和阈值化有了这样的结构,我们的模型学会通过软注意力专注于有区别的局部特征,同时忽略冗余通道,使每个一瞥5信息。因为现有的细粒度视频数据集很小[25]或弱标记[15],我们已经收集了两个新的大型视频数据集,以弥补更好的细粒度视频数据集的缺乏。这两个数据集分别用于细粒度鸟类和汽车模型分类,分别命名为YouTube Birds和YouTube Cars。正如他们的名字所示,这些视频是从YouTube上获得的。它们与CUB-200-2011数据集[30]和斯坦福汽车数据集[18]共享相同的分类,并通过众包进行注释。YouTube-Cars拥有196个类别的15220个视频,YouTube-Birds拥有200个类别的18350个视频据我们所知,我们的两个数据集是具有干净标签的最大细粒度概括起来,这项工作的主要贡献是:1)提出了一种新的冗余减少注意力模块,明确地处理视频中的冗余问题。2)收集两个已发布的细粒度视频分类数据集。3)在ActivityNet [3],Kinetics [16]以及我们新收集的数据集上实现最先进的结果2相关作品2.1细粒度视觉分类最先进的细粒度分类方法大多采用在ImageNet上预训练的深度一些工作寻求增加特征的容量,流行的双线性特征[21]和最近提出的多项式核[1]求助于卷积激活的高阶统计来增强网络的代表性。尽管取得了成功,但这些统计数据对整个图像一视同仁。还有其他方法试图明确地捕获有区别的部分。其中一些利用关键区域的手动注释[30,34,35]来学习部分检测器,以帮助细粒度分类器,这需要大量的人力参与。为了摆脱劳动密集型的过程中,注意力机制被部署到突出显示相关的部分没有注释,这促进了后续模块。一项名为STN [12]的开创性工作利用定位网络预测感兴趣区域及其变形参数,使得该区域比刚性边界框更灵活。[4]通过采用多次瞥见来逐渐放大到最具辨别力的区域来改进STN,但细化同一区域并不能充分利用视频中的丰富信息。MA-CNN [36]学习对空间相关的特征通道进行聚类,使用来自聚类通道的有区别的部分进行定位和分类。5ReferstooxinEq. 1,similartoo[19]4C. Zhu,X.谭,F.Zhou,X.Liu,K.Yue、红腹锦鸡儿E.丁氏Y.马2.2视频分类已经发现,仅使用单个帧的卷积特征的视频分类的准确性已经具有竞争力[15,24]。2D ConvNets的自然扩展是3D ConvNets [13],它在空间和时间上都进行卷积P3D ResNet [24]将3D卷积滤波器分解为使用预训练的2D ConvNets初始化的时间和空间卷积滤波器的张量积I3D [2]将预训练的2D ConvNets注入3D ConvNets,在主要视频分类数据集上实现最先进的准确性。RNN是捕获时间维度中的依赖关系的替代方案[20,28]。到目前为止,许多性能最好的模型都采用了双流集成[27],它分别在RGB图像和光流场上训练两个网络,并将它们的预测融合在一起进行分类。TSN[32]通过融合几个等分的时间段的分数来改进[27]另一个方向是考虑区域或帧的重要性。注意力池[7]将基于软注意力的分类器解释为低秩二阶池。注意力集群[22]认为,整合一组独立的局部一瞥比考虑长期的时间模式更重要[37]提出了一种关键卷挖掘方法,该方法学习识别关键卷并同时进行分类AdaScan [14]预测视频帧[26]利用3层LSTM在每一步预测一帧上的注意力图上述两种方法只利用前一帧来预测重要性或关注度,而忽略了传入的帧。此外,上述所有方法都缺乏一种能够明智地区分视频中的信息位置和帧的机制。值得注意的是,Attend and Interact [23]考虑了对象的交互,而我们专注于通过抑制冗余特征来提取多3方法图2示出了所提出的网络的总体结构。相同的结构可用于处理RGB和光流输入,除了改变第一卷积层以适应堆叠光流。一般来说,我们的模型通过软注意力和通道抑制来学习关注最具区分力的视觉特征进行分类。对于输入,我们从每个均匀切片的时间片段中取出一帧来表示视频。对于训练,每个剪辑由其帧的随机样本表示,以增加训练数据的种类。对于测试,在每个剪辑的相同索引处获取帧是-在进入细节之前,我们列出了在整个论文中使用的一些符号。将特征图的宽度和高度表示为w和h。xi∈Rc× hw是在该矩阵的一个映射X=[x1,…,xn]∈Rc×nhwis所有帧的映射的组合。X¯stheredundancy-简化X将在第3.1节中描述。 我们用AB表示基于RRA的细粒度视频分类5阿卡迪亚鹟加权和Lcls选择裁剪调整裁剪大小绒毛啄木鸟黄莺ConvNet概要特征广播总和BatchNorm,ReLU阿卡迪亚鹟Lcls绒毛啄木鸟选择裁剪调整裁剪大小加权和黄莺LclsConvNet概要特征广播总和BatchNorm,ReLU选择裁剪调整裁剪大小加权和ConvNet阿卡迪亚鹟Lcls羽绒啄木鸟黄莺概要特征FC,tanhFC,tanh...... ...这是阿卡迪亚霸鹟绒毛啄木鸟或黄莺(1)输入视频(2)选定帧(3)转换层(4)冗余减少注意力(5)损失函数图二、提出的模型的一般结构输入序列被划分为相同长度的从每个剪辑中采样一个帧或流堆栈CNN从采样帧中提取特征图,然后RRA模块迭代地更新特征图。每个概要特征向量经由分类器给出一个分类replication后跟元素求和,其中replication转换A和B具有相同的尺寸。上标k表示第k次迭代.3.1冗余减少注意力由于内容的重复,时空特征表示X是高度冗余的。在本节中,我们将介绍一种新的网络结构,如图所示。3,这是能够参加最具歧视性的时空特征和抑制冗余通道的特征图。软注意力机制[5,33]能够选择最具鉴别力的我们将其扩展到时空域,以推断出最具鉴别力的视频特征进行分类,并减少冗余。正如我们的消融实验所示,与仅空间注意力不同,它防止了最具鉴别力的特征被背景我是你的朋友。tentionweighsa∈Rnh被建模为a= softmax(X¯TW),一其中Wa∈Rc是可接受的,并且X¯在Eq中定义二、 的特征向量X然后通过a进行加权求和以获得汇总向量:x=Xa。(一)由于视频包含丰富的分类上下文,因此很自然地会考虑提取具有多个注意力的多个区分特征。但是,我们不希望摘要重复。我们在本文中介绍了一种简单但有效的方法,该方法迭代地抑制冗余特征通道,同时提取互补的判别特征,称为冗余减少注意力(RRA)。通过减少,我们指的是减小夹1夹子2...... ...这是夹3............6C. Zhu,X.谭,F.Zhou,X.Liu,K.Yue、红腹锦鸡儿E.丁氏Y.马XKBatchNorm,ReLUX¯k一个kX'kak软注意xkak∈Rnhwxk∈Rcx~k∈RcXK ∈Rc×nhwX<$k∈Rc×nhwx~kXk+1FC(c,c),tanhFC(c,1),Softmax图三. RRA模块的结构。RRA网络是通过连接这些模块来构建的。最后一个是广播运营商。这 是 一 个 很 好 的 例 子 。 在 这 种 情 况 下 , chanel-wisereductionx-k 是 从summaryx-k的非 线性 代数 形式中 推导 出来 的。 在图中的C中。在图3中,非线性变换被选择为全连接层,随后是双曲正切激活。通过将x~k添加到在您的映射Xk处的ReLU活动来实现恢复,该恢复通过BatchNorm-ReLU [11]块进一步增强,以将低于在您的映射X¯k+1处的剩余存储量和周期性恢复的活动设为阈值:X¯k+1=ReLU(BatchNorm(Xkx~k))(2)如果x~k is(-1,1)的范围,则x~k不能仅增加信道,但也增强信息信道以产生更优选的特征图Xk+1。根据x的定义,使用a时,x ~k的作用是比−ReLU(x)更好抑制过程的可视化如图4所示。3.2损失函数我们利用一个Softmaxclas作为条件,从最小平均值y = s of t max(W c xx一个覆盖率恢复率应用于最大限度地减少KL分布,这是因为该区域的分布是复杂的,并且:ΣL(y)=−yilogyi(3)我对于具有多个RRA模块(迭代)的模型,融合汇总向量进行分类是一个自然的选择。我们已经探索了三种方法来实现融合。级联损失Lc:相当于[5]等多视点模型,其将视点特征级联成更高维的特征向量,我们可以计算出一个chglimps scoresk=Wkxk+bkfr st,并最大限度地减少损失。C c基于RRA的细粒度视频分类7前4个抑制通道一瞥1一瞥2一瞥3一瞥4见图4。冗余抑制的一个实例。输入帧与图11.一、对于支持字符串的操作,x ~ k中的字符串比较简单,因此字符串可以提供更多的细节。 我们在系统3中计算出该组件。3通过设置所有从Xk到X¯k+1的数据集,并设置wi作为它们各自的递减量。抑制不与下一个目标重叠,并且在有意义的模式上。红色表示较高的抑制。entrop ylossLc=L(y(cat,y)oftheheir sumΣK01-0201-01k=1sk)。(四)这种方法被广泛使用,但由于分数未归一化,因此它们不一定具有相同的标度。如果一个瞥见给出极高的幅度,则其他瞥见将被淹没,并且softmax损耗也可能达到梯度消失的饱和,这损害了性能。在我们的实验中,我们也发现这种损失是次优的。个体损失Li:为了克服Lc的归一化问题,我们直接监督每个个体一瞥。也就是说,我们可以应用交叉KEntrop ylossoneachglimp se 并将其分解夏天,Li= ΣKk=1L(yk ,y)。(五)这种损失及其组合在我们的实验中表现最好。Ensemble LossLe:因为我们实际上已经训练了几个分类器Li,我们可以将不同一瞥的结果集成为y¯=1KΣKk=1yk 、(6)8C. Zhu,X.谭,F.Zhou,X.Liu,K.Yue、红腹锦鸡儿E.丁氏Y.马布吕普¨¨并且计算Le=L(y¯,y)。 这实际上是对所存储的数据进行精确的优化。在我们的实验中,这种损失单独表现不佳,但与其他损失结合时,性能得到改善。损失可以相加以实现不同的目标。虽然本文中未探讨,但权重也可以应用于每个损失,并且甚至作为可训练参数,反映在计算Le和最终得分时每个一瞥的重要性。3.3在输入为了检查网络是否真的学会了关注有区别的部分,我们可视化了每个像素以来||一||1= 1,L vis=1||一||2反映了a与均值池的差异。我们22希望它的分布突出的歧视模式,这是可能的。可以从romΣme和poo l ing开始。 这是一个很好的例子。R. t. ainputpixelp∈R3isLvis =nhwLvisai=nhwww ii其中wi=ai。它不仅反映了i=1伊萨岛布吕普i=1pp在a i上与a i相关,但也反映了权重w i对这种相关的关注程度。有了这个等式,我们还可以将wi设置为其他值来衡量影响。最后,我们用该导数的范数来表示注意力加权的连续性¨ ¨LvisIvis=、(7)¨∂p¨并在Ivis上使用颜色映射来增强视觉差异。应用高斯滤波器以使高值更可区分。4新的细粒度视频数据集为了提供细粒度视频分类的良好基准,我们构建了两个具有挑战性的视频数据集,YouTube Birds和YouTube Cars,分别由200种不同的鸟类和196种不同的汽车模型组成两个数据集的分类分别与CUB-200-2011 [30]和Stanford Cars [18]相同图1显示了来自两个数据集的一些样本帧与两个参考数据集相比,我们的数据集中的主题有更多的视角和尺度的变化。YouTube Birds也使IBC127的大小增加了一倍,IBC127是一个视频数据集,包含8,014个视频和127个细粒度的鸟类类别。表2列出了注释数据集的规格。Nc是类别数。Ntrain和Ntest是训练和测试视频的数量。nv和mv是类别的视频的最小和最大数量。通过YouTube视频搜索收集两个数据集的视频。我们限制视频的分辨率不低于360p,时长不超过5分钟。我们使用了一个众包系统来注释视频。在注释之前,我们首先用鸟和汽车检测器过滤视频,以确保至少有一个样本帧包含鸟或汽车。为每个1基于RRA的细粒度视频分类91一瞥2一瞥3一瞥4一瞥5一瞥一瞥1一瞥4一瞥2系综一瞥3设置NcN训练N测试nvmv鸟类200 12666 56846 249汽车196 1 0259 4961 6 207表1.来自YouTube Birds和表2的示例帧。YouTube汽车数据集的规格。前两行来自YouTubeYouTube Birds和YouTube鸟,底部2行来自YouTube汽车。汽车对于视频,工作人员被要求通过与该类别的正图像(每个类别10到30个)进行比较来注释其样本帧(每个视频8到15个帧)中的每一个是否属于假定类别。只要视频中有一个样本帧属于假定的类别,则视频将被保留。根据注释,YouTube Birds/YouTube Cars的约29%和50%的帧包含鸟/汽车。然而,由于一个视频可能包含来自不同类别的多个主题,因此在同一视频中可能有多为了使评估更容易,我们删除了出现在多个类别中的所有视频。每个类别的视频以固定的比例分成训练集和测试集更多细节在项目页面。5实验结果6 6 6LC李Lc+LeLc+Li乐+礼Lc +Le+Li4.54.54.53 3 31.51.51.50 0 004812162024283236404448525660646872768084889296历元04812162024283236404448525660646872768084889296历元04812162024283236404448525660646872768084889296历元(一)(二)(三)图五. 在ActivityNet v1.3训练集上的整个时期的平均损失曲线。(1):损失曲线w.r.t.不同数量的一瞥。随着扫描次数的增加,算法收敛速度加快,在验证集上具有更好的泛化能力。(2):仅具有L1的4-slight模型中的每个slight和总体得分的损失曲线。(3)不同损失函数的 Le曲线被忽略-曲线是上升的。我们评估了一般的视频分类和细粒度的视频分类的方法对于一般任务,我们选择了活动识别,并在ActivityNet v1.3 [3]的RGB帧以及Kinetics[16]的RGB和流量上进行了实验。对于细粒度任务,我们在我们的新数据集YouTube Birds和YouTube Cars上进行了平均交叉熵10C. Zhu,X.谭,F.Zhou,X.Liu,K.Yue、红腹锦鸡儿E.丁氏Y.马我们首先介绍了两个公共数据集和我们的实验设置,然后用对照实验分析我们的模型。最后,我们比较我们的方法与国家的最先进的方法。损失映射c图e损失mAPc mAPeLc80.27 77.84Li82.60 82.97Le25.75 36.24 Lc+L i82.41Lc+L e81.48 80.45Le+Li82.90 83.42Lc+L i+L e 82.28 82.59-- -表3.ActivityNet v1.3确认集上损失函数的消融分析图e其中,mAP_c表示集合得分的mAP,mAP_c表示级联得分的mAP。5.1设置ActivityNet v1.3[3]:它有200个活动类,10,024/4,926/5,044个培训/验证/测试视频。数据集中的每个视频可以具有多个活动实例。在训练/验证集中分别有15,410/7,654个带注释的活动实例。视频被下采样到4fps。我们对训练集中的15,410个带注释的活动实例进行了训练,并为4,926个验证视频中的每个视频保留了前3个分数。我们报告的性能给出的官方评估脚本。动力学[16]:该数据集包含306,245个视频剪辑,其中包含400个人类动作类。每个片段大约10秒,来自不同的YouTube视频。每个类别有250-1000个剪辑,50个验证剪辑和100个测试剪辑。使用OpenCV中实现的TV-L1算法提取光流我们没有对这个数据集上的帧进行在验证集上使用官方脚本测试结果YouTube Birds和YouTube Cars:我们只在两个数据集的RGB帧上进行实验。YouTube Birds和YouTube Cars中的视频分别被下采样到2fps和4fps。 我们如表2所示分割数据集。训练:我们使 用 P y T o r c h 以端到端的 方式训 练 模 型 。我们模型的输入是标签和4个随机采样的RGB帧或者说,四个相同的时间段的流栈(有五个流场)。 我们采用了相同的多尺度裁剪和随机翻转到每一帧作为TSN用于数据增强。我们使用PyTorch提供的ImageNet预训练ResNet-152 [9]和Wang等人提供的ImageNet预训练Inception-V3 [29]。[32]公平竞争。我们使用Adam [17]优化器,初始学习率为0.0002,RGB和流量网络的学习率衰减因子为0.1。所有数据集的批处理大小均设置为256。对于ActivityNet,YouTube Birds和YouTube Cars,我们每30个epoch衰减一次学习率,epoch总数设置为120,而在Kinetics上,我们分别为RGB和Flow网络每13000和39000次迭代衰减一次学习的基于RRA的细粒度视频分类11预训练的卷积层在ActivityNet、YouTube Birds和YouTube Cars上冻结了30个epoch,在Kinetics上冻结了5个epoch。辍学在每个分类FC层之前添加,并分别设置为0.7/0.5(RGB/RGB)。测试:我们遵循标准的TSN测试协议,其中每个视频被划分为25个时间段。从每个时间段的中间取一个样本帧,并且将样本在2个方向(原始+原始)复制成5个裁剪水平翻转),即,每个视频的输入是250个图像5.2消融研究首先,我们评估了RRA模型在ActivityNet v1.3上的性能,并使用了第3.2节中提出的不同损失函数。 我们列举了3种损失的所有可能组合。 对于具有多于一个损失的组合,所有损失被同等地加权。 所有变体都使用ResNet-152作为基础网络,并配置为具有4个一瞥。表3列出了级联得分(等式4)和总体得分(等式6)的mAP。 我们可以看到,当与另一个损失相结合时,L e通常会提高性能。相反,当与L i或L i+ L e组合时,L c破坏了准确性。然而,单独使用Le训练并不收敛。这可能是因为如果没有对每一次瞥见的单独监督,联合训练所有瞥见是很难实现的。此外,由于Lc直接监督级联分数,因此Lc和Lc+Le具有比mAPe更高的mAPc。从mAP值中,我们可以看到,对于我们的模型,Li是最好的单一损失,Le+Li是最好的组合。图图5(3)显示了ActivityNet训练集上每个epoch的平均损失,其中有不同类型的损失。我们可以看到,添加Le并没有改变Li和Lc+Li的曲线那么多,尽管当添加到它们时它确实提高了要注意的是,L1利用冻结BN实现了83.03的 top-1准确度,冻结BN是TSN中使用的技巧然而,在我们的实验中,冷冻BN不改善Le+Li目标。我们还比较了我们的模型与平行的一瞥模型。k个平行的瞥见模型预测k个瞥见,并连接汇总特征向量以进行分类。更多的瞥见通常会提高性能,这是相当合理的。毫无疑问,我们的模型比平行一瞥模型更好。ActivityNetv1.3上的4个并行一瞥模型的最佳mAP为82.39,而我们最好的RRA模型的mAP为83.42。其次,我们评估了具有不同数量的一瞥的RRA模型在这个实验中,基础网络是ResNet-152,损耗是Li+Le。图5(1)示出了在不同的瞥见次数下的总体得分的平均训练交叉熵。通常,随着更多的一瞥,它更快速地收敛,并且当一瞥数达到4时,一瞥数的进一步增加带来收敛的加速小得多,并且验证mAP开始下降,如表4(左)所示所以在我们的大多数实验中,我们把它设置为4.图5(2)示出了每个一瞥的个体得分的交叉熵,以及集成分数的交叉熵,这有助于解释为什么增加更多12C. Zhu,X.谭,F.Zhou,X.Liu,K.Yue、红腹锦鸡儿E.丁氏Y.马#一瞥1 2 3 4 5米AP 80.89 82.14 82.12 83.42 82.94号1 2 3 4 5 6平均值80.20 81.97 82.41 83.15 82.75 82.75表4. ActivityNet v1.3确认集上的消融mAP,使用ResNet-152。左图:将瞥见次数从1更改为5。 右:将RRA模块修改为:1.时空平均池化而不是注意力;2.空间注意力和时间平均池化;3.no BN; 4.no ReLU; 5.no tanh; 6. ReLU(x)而不是tanh(x)。除规定的变化外,所有设置均与83.42 mAP模型相同一瞥加速了总体得分的收敛。在以后的迭代中,一瞥收敛得更快,这表明冗余被删除,并且他们提取了更多的判别特征用于分类。随着更准确的一瞥,总体得分也变得更好,因此收敛更快。为了检查这些一瞥之间的差异,每个一瞥及其4-一瞥模型的集合的前1精度为77.49、79.09、78.71、78.9278.81。第三,我们评估图中每个组件的作用。3通过删除或更改其中之一,并在ActivityNet v1.3上验证mAP。结果示于表4(右)中。注意力起着最重要的作用,没有注意力,mAP下降了3.22。如果将时空注意力替换为空间注意力和时间平均池化,mAP比平均池化更好,但仍比时空注意力差。tanh激活更适合作为用于约简的激活,因为用线性变换(直接移除它)或-ReLU(x)将mAP减小0.67。批量规范化和ReLU也是重要的组件。5.3与现有技术的在验证模型的配置后,我们将损失函数固定为Li+Le,瞥见的数量为4,然后在我们的两个数据集以及两个动作识别数据集上进行训练和测试。表5(左)显示了ActivityNet v1.3的结果,其中最先进的方法的结果都来自已发表的论文或技术报告。只有RGB帧,我们的网络已经与3DCNN类方法竞争,包括最近提出的P3D [24],它使用ImageNet预训练ResNets 来 帮 助 初 始 化 。 需 要 注 意 的 是 , 由 于 物 理 限 制 , 我 们 在ActivityNet v1.3上的模型仅使用4fps RGB帧进行训练和验证。我们在具有挑战性的Kinetics数据集上进一步评估了我们的模型,包括RGB和光流输入。表5(右)示出了与动力学数据集上的最新技术水平结果的比较。3D ResNet、TSN和我们的结果在验证集上,而I3D在测试集上TSN的结果来自他们最新的项目页面。我们的融合结果是通过直接添加RGB和流量分数来实现的我们的方法在RGB和光流上都超过了TSN,但融合结果有点低,这可能是由于在验证时对RGB和光流采样相同的帧。基于RRA的细粒度视频分类13真实标签我们的1我们的2我们的3TSN 1TSN 2TSN 3图六、 左:类的前3个置信度。颜色越深表示置信度越高右:基础事实(前3列)和最令人困惑的类(后3列)的置信度,以及间隙(1列和2列)。我们的模型是73。7,其中TSN是72。五、在这些情况下,模型的最高置信度小于0.5。为了证明由我们的模型带来的混淆的减少,在图1中。6我们展示了一些TSN和我们的模型的前3个平均置信度,这些置信度我们的模型对正确的类具有系统性更高的平均置信度,并且正确类和错误类之间的差距更明显方法top-1 mAP top-3RGB流融合方法方法鸟汽车[31]第31话68.69 77.983D ResNet [8]58.0--BN-inception60.1361.96C3D [24]65.80 67.68 81.16I3D [2]*71.1 63.474.2I3D(Res50)40.6840.92P3D [24]75.1278.86 87.71TSN [32]72.5 62.876.6TSN [32]72.361 74.340我们78.81 83.4291.88我们73.7 63.976.1我们73.205 77.625表5. 左图:ActivityNet v1.3验证结果表6。比较使用ResNet-152的数据集。右:YouTube Birds的前1名准确度动力学数据集,使用ResNet-152。YouTube汽车最 后 , 表 6 显 示 了 YouTube Birds 和 YouTube Cars 上 的 结 果 。 BN-Inception模型在训练期间从每个视频中随机抽取一帧类似地,I3 D(Res50)[2]通过对ImageNet预训练的ResNet-50进行初始化。它在随机时间或视频中间分别取32个连续帧用于训练和测试。对于TSN,我们使用其在PyTorch中的官方实现和作者提供的ImageNet预训练Inception-V3模型进行公平比较。我们的模型也使用相同的Inception-V3模型进行初始化。我们的方法在这两个数据集上超过了TSN,因为细粒度任务中的类别通常具有许多共同的特征,因此需要更高级别的冗余减少,并更多地关注信息位置和帧。出于类似的原因,YouTube汽车上的利润率甚至更大。5.4定性结果图7示出了YouTube Birds和ActivityNet v1.3上的定性可视化 来演示注意力模块是如何工作的热图是用空气鼓回答问题的节拍弯背弯金属刷毛侧手翻接球或投球庆祝换轮子拍手擦地板煮 鸡蛋扭脖子哭跳舞查尔斯顿 跳舞江南风格跳舞macarena做有氧运动喝喝啤酒喝射击下降踢 吃蛋糕吃薯条 吃甜甜圈吃热狗锻炼手 臂facetplanting手指抢购固定头发 头撞高踢曲棍球停止拥抱慢 跑笑做蛋糕做三明治按摩 脚移动家具跑酷美式足球(非 比赛)宠物(不是猫 )抹灰打篮球抽拳录音音 乐撕纸机器人跳舞石头剪刀布萨 尔萨舞握手摇头剃腿 毛射击篮球射门(足球)手语翻译唱歌拍打吸烟打喷嚏嗅闻翻筋斗喷洒伸 舌头 伸 胳 膊伸 腿 扫地摇摆舞摇摆 腿在某物上摇摆掷硬币三级跳远排队等候吹口哨打哈欠前3名信心地面实况我们的TSN最高困惑我们的TSN我们的TSNbeatboxing吹口琴0.106 0.0790.350 0.265庆祝鼓掌0.079 0.0720.341 0.235侧倾0.467 0.393体操翻滚0.065 0.0750.402 0.318煮鸡蛋0.540 0.435炒蛋0.201 0.2570.339 0.178饮酒0.330 0.238啤酒0.125 0.1140.205 0.124饮酒喝啤酒0.087 0.0970.166 0.07214C. Zhu,X.谭,F.Zhou,X.Liu,K.Yue、红腹锦鸡儿E.丁氏Y.马visvis输入1vis2vis3vis4vis(1)波希米亚蜡燕(2)雪松蜡燕(3)单板滑雪(4)滑雪(5)滑雪(6)滑雪见图7。 定性结果。热图上的红色表示关注度较高。(1,2)来自YouTubeBirds,其余来自ActivityNet。绿色单词是正确答案,红色单词是错误答案。(5)答案应该是滑雪。(1)(2):模型的结果这两种鸟非常相似,除了它们的肚子和尾 我们的模型首先关注翅膀和脸部的纹理(I1)认识一般物种,然后腹部的颜色(I4)来区分这两个物种。(3,4):我们的结果模型第一次瞥见/中间两次/最后一次瞥见倾向于关注背景/人类姿势/背景和姿势两者。(5,6):平行注意力的结果。在(5)中,所有4个瞥见碰巧集中在背景上,并且预测是错误的,因为瞥见是独立的。当量7. 我们为每个数据集选择两个相似的类。我们的模型在所有情况下都注意到正确的区域,而在一种情况下,平行注意失败。可视化还展示了我们的模型所给出的一瞥的互补性。在(3,4)中,它的第一次一瞥往往更普遍,关注周围环境,这只是一个微弱的行动指标,因为两个行动都是在雪地上。由于专门设计的冗余减少结构,在第一次迭代后,代表背景特征的通道的激活被削弱了。后来的一瞥更多地集中在人类的姿势上,更有助于识别活动。然而,正是背景和人体姿势的组合给出了更准确的预测,所以最终两者都被参加比较图7(3,4)与(5,6)的比较,我们模型的优势是明显的。对于平行瞥见模型,可能偶然发生所有瞥见都集中在背景上并且是冗余的,从而导致错误的预测。然而,在我们的模型中,瞥见可以合作并摆脱这个问题。6结论我们已经展示了冗余减少注意力(RRA)结构,其目的是提取细粒度视频分类的多个判别模式的特征它包括一个时空软注意,总结的视频,和一个抑制阈值结构,减少了冗余的激活。在四个视频分类数据集上的实验证明了所提出的结构的有效性。我们还发布了两个视频数据集,用于细粒度分类,这将有助于未来的社区。我我我我基于RRA的细粒度视频分类15引用1. Cai,S.,左,W.,Zhang,L.:用于细粒度视觉分类的分层卷积激活的高阶集成在:IEEE计算机视觉国际会议(ICCV)(2017年10月)2. 卡雷拉,J.,齐瑟曼,A.:你好,动作识别?新模型和动力学数据集。arXiv预印本arXiv:1705.07750(2017)3. Fabian Caba Heilbron,Victor Escorcia,B.G.,尼布尔斯,J.C.:Activitynet:人类活动理解的大规模视频基准。在:Proceedings oftheIEEEConferenceo nC onComuterVis isinandPater nRe g inition中。pp. 9614. Fu,J.,郑洪,Mei,T.:看得更近些,看得更清楚:用于细粒度图像识别的递归注意卷积神经网络。IEEE计算机视觉与模式识别会议(CVPR)(2017年7月)5. Fukui,A.,D.H.公园杨,D.,Rohrbach,A.,Darrell,T.,Rohrbach,M.:多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv:1606.01847(2016)6. Gebru,T.,Hoffman,J.,李菲菲:在野外的精细识别:一种多任务域自适应方法。在:IEEE计算机视觉国际会议(ICCV)(2017年10月)7. Girdhar河Ramanan,D.:动作识别的注意力集中。In:AdvancesinNeuralIinNeronPr oceSys. pp. 348. Hara,K.,Kataoka,H.,Satoh,Y.:利用三维残差网络学习动作识别的时空特征arXiv预印本arXiv:1708.07632(2017)9. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习在:IEEE计算机视觉和模式识别会议论文集。pp. 77010. 胡 , J , Shen , L. , Sun , G. : 压 缩 - 激 励 网 络 。 arXiv 预 印 本 arXiv :1709.01507(2017)11. Ioffe,S.,Szegedy,C.:批次标准化:通过减少内部协变量偏移来加速深度 网 络 训 练 。 国 际 机 器 学 习 会 议 ( International Conference on MachineLearning)pp. 44812. Jaderberg,M.,西蒙尼扬,K.,Zisserman,A.,等:空间Transformer网络。In:Ava ncesi nNe ur alI np roces ing S y s i n gPr ocesi ngS y s i n
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功