没有合适的资源?快使用搜索试试~ 我知道了~
深度生成模型对卷积激活进行编码的方法及应用
6759深度量化:用深度生成模型对卷积激活进行编码赵凡秋、姚婷、陶梅中国科学技术大学,合肥,中国微软研究院,北京,中国zhaofanqiu@gmail.com,{tiyao,tmei}@ microsoft.com摘要全局激活深度卷积神经网络(CNN)已被证明对视觉识别非常有效,其中从卷积层的激活中学习通用表示是一个基 本 问 题 。 在 本 文 中 , 我 们 提 出 了 Fisher Vectorencoding with Variational Auto- Encoder(FV-VAE),这是一种新型的深度架构,通过以端到端的方式训练它们,量化深度生成模型中卷积层的局部激活。为了将FV编码策略纳入深层遗传-卷积激活FV编码FV-VAE编码在变分自动编码器模型的基础上,我们引入了变分自动编码器模型,该模型在神经网络中引导变分推理和学习,该神经网络可以使用标准随机梯度方法直接优化 。 与 传 统 生 成 模 型 ( 例 如 , 与 高 斯 混 合 模 型(Gaussian Mixture Model)对数据分布的稀疏拟合相比,FV-VAE更能灵活地反映数据的自然属性,具有更好的泛化能力。在三个公共数据集上进行了广泛的实验UCF 101、ActivityNet和CUB-200-2011分别在视频动作识别和细粒度图像分类的上下文中进行了测试。苏-perior结果报告相比,国家的最先进的表示。最值得注意的是,我们提出的FV-VAE在UCF 101上达到了迄今为止最好的94.2%的准确率1. 介绍深度卷积神经网络(CNN)的最新进展已经证明了视觉识别的高能力。例如,在Ima-geNet数据集[26]上,残差网络[7]的集合在前5个误差方面达到3.57%。更重要的是,当利用全连接层或卷积层的激活时,本文的工作是在邱兆凡作为研究实习生访问微软研究院时完成的图1.视觉表征来自于不同的激活,CNN中的不同层(上排:全连接层的全局激活;中间一行:卷积激活与费舍尔矢量编码;最下面一行:使用我们的FV-VAE编码的卷积激活)。将预训练的CNN中的视觉层作为通用视觉表示,并将该表示应用于其他视觉识别任务(例如,场景理解和语义分割),CNN也表现出令人印象深刻的性能。当CNN仅使用特定于任务的数据量进行进一步微调时,预计会有所改进。CNN中不同层的激活通常分为两个维度:全局激活和卷积激活。前者直接将全连接层的激活作为视觉表示,其在整个图像上是整体的,如图1的上一行所示。相反,后者通过使用量化策略将来自卷积层的一组区域和局部激活编码为矢量表示来例如,Fisher矢量(FV)[23]是最成功的量化方法之一,如图1的中间行所示。 虽然最近的研究[3,44]中报告了聚合卷积激活的优越结果,但卷积激活首先被提取为局部描述符,然后是另一个单独的量化步骤。因此,这样的描述符可能不是最佳地与编码过程兼容,使得量化次优。此外如卷积激活............6760t=1t=1在[13]中讨论,FV背后的生成模型,即,高斯混合模型(GMM)不能很好地反映描述子的自然聚类,其不灵活的高斯观测模型限制了其泛化能力。我们在本文中表明,这两个限制可以通过设计一个用于表示学习的深度架构来缓解,该架构将卷积激活提取和量化结合到一个阶段学习中。具体来说,我们提出了一种新的Fisher向量编码与变分自动编码器(FV-VAE)框架,以编码卷积激活与深度生成模型(即,VAE),如图1的底行所示。所提出的深度架构的流水线通常由两个组件组成:具有卷积层堆栈的子网络,以产生卷积激活,然后是将区域卷积描述符聚合到FV的VAE结构。VAE由条件随机变量的层次结构组成,是一个高度表达的模型,通过优化变分近似(推理/识别模型)的生成分布的棘手后验与传统的高斯混合模型相比,本文的推理模型可以看作是一种替代方案,可以通过单个神经网络对不同的输入进行特定高斯分量的预测,从而使其更加灵活。还值得注意的是,另外考虑分类损失以在训练阶段保留语义信息。整个架构都可以以端到端的方式进行训练。在特征提取阶段,我们从理论上证明了输入描述子的FV可以通过累积重构损失在VAE中通过反向传播。本文的主要贡献是提出了一种基于变分自动编码器的FV-VAE卷积描述子编码结构。我们从理论上阐述了VAE中FV的计算,并实现了视觉表征学习的FV-VAE实现。2. 相关工作在文献中,从预训练的CNN模型生成视觉表示沿着两个维度进行:全局激活和卷积激活。第一种是直接从CNN中的全局活动中提取视觉表示,例如,VGG[30]中的全连接层或ResNet [7]中的pool5层的输出。在实践中,该方案通常通过在大数据集上预训练CNN模型开始(例如,ImageNet),然后用少量任务特定的数据微调CNN架构,以更好地表征目标场景中的内在信息。在这个方向上学习的视觉表示已被广泛用于计算机视觉任务,包括细粒度图像分类[1,17],视频动作识别[18,19,24,29]和视觉字幕[36,38]。另一种替代方案是利用CNN中卷积层的激活作为区域和局部描述符。与全局激活相比,来自CNN的卷积激活嵌入了丰富的空间信息,使它们更可转移到不同的领域,并且对平移和旋转更鲁棒,这已经在几个技术 进 步 中 显 示 出 有 效 性 , 例 如 , 空 间 金 字 塔 池(SPP)[6],快速R-CNN [5]和全卷积网络(FCN)[22]。最近,许多工作试图通过使用不同的量化策略对卷积激活进行编码来产生视觉表示。例如,FisherVector [23]是在VGG网络的最后一个卷积层的输出上计算的,用于描述[3]中的纹理。 类似地,Xu等人利用VLAD [11]对视频帧的卷积描述符进行编码以用于多媒体事件检测[44]。在[28]和[43]中,Sharma等人和Xu等人分别动态地将卷积描述符与注意力模型合并用于动作识别和图像字幕。此外,一个卷积层的卷积描述符在[21]中的连续卷积层的激活的指导下被池化。 在[20]中,来自两个CNN的卷积描述符使用外积相乘并合并以获得双线性向量。总之,我们的工作属于第二维,旨在使用深度生成模型计算卷积激活的FV。我们利用变分自动编码器,它优化了一个推理模型的棘手后验。推理模型的高度灵活性和结构优化的高效性使得VAE比传统的GMM更先进我们在本文中的工作不仅研究了在深度架构中对卷积激活进行编码,而且从理论上解决了基于VAE架构的FV计算。3. Fisher Vector满足VAE在本节中,我们首先回顾Fisher向量理论,然后介绍如何通过VAE估计FV中的概率密度函数然后详细阐述了VAE的优化,最后介绍了如何计算输入描述符的FV。3.1. Fisher向量理论假设我们有两组局部描述符X={xt}Tx和Y={yt}Ty,具有Tx和Ty描述符。 设xt,yt∈ Rd表示每个描述子的d维特征. 为了衡量在这两个集合之间,采用核方法将它们映射到一个超空间中。具体地说,假设Rd中描述子的生成过程可以用一个概率密度函数uθ来模拟,其中M参数为6761编码器......θ不θ不txθθθ′算法1变分自动编码(VAE)优化1:输入:训练集X={x}Tx,对应标签L={x}T x采样解码器tt=1{l}Tx,损失权重λ,λ,λ。tt=1123(a) VAE培训2:初始化:随机初始化θ0,φ0。3:输出:VAE参数θθ、φθ。4:重复5:小批量中的样本xt。6: 编码器:µz←fφ(xt).7: 采样:zt σz,N(0,I)。8:解码器:µx ←fθ(zt).编码器9:计算重建损失:Lrec= − log pθ(xt|zt)= − log N(xt; µx,σ2I)。10:计算重均化损失:Lreg=1?+1?σz??−1d(1 +log σ2)。2zt22k=1z(k)(b) FV提取图2.基于VAE的FV学习综述:(a)VAE的训练过程,(b)基于VAE的FV提取。eters θ=[θ1,.,θM]′,两个集合X和Y之间的Fisher核(FK)[9]由下式给出:11:计算分类损失:Lcls= softmax loss(zt,l t)。12、三个损失:L(θ,φ)=λ1Lrec(θ,φ)+λ2Lreg(φ)+λ3Lcls(φ)。13:反向传播梯度。十四: 直到达到最大迭代。K(X,Y)=GX′F−1GY、(1)我们开发了变分自动编码器(VAE)来生成概率函数uθ。其中GX=θloguθ(X)定义为Fisher评分根据第3.1节中的符号并假设函数通过计算对数似然的梯度基于生成模型的集合,并且Fθ=E[GXGX]是Fisher信息矩阵,所有的描述符都是独立的,log集合的似然性可以通过对各个描述符的对数似然性求和来计算,并写为Xuθθ θuθ被认为是统计特征归一化。S-因为Fθ是半正定的,所以等式中的FK是半正定的。(1)在超空间中可以被显式地重写为内积:loguθ(X)=Txt=1logpθ(xt)。(四)K(X,Y)=GX′GY、(二)θ θ哪里为了对参数θ生成的xt的概率进行建模,在-GX=F1-2GX=F12<$θlog uθ(X)。(三)与先验分布pθ卷积(z)且每个xt是generat-θθθθ从条件分布pθ(x|z)。 因此,每个形式上,GXFisher Vector(FV)。的对数似然logpθ(xt)可以使用Kullback来测量。FV的维数等于生成路径的数目参数θ往往远高于描述者的参数θ,使FV具有更高的描述能力。3.2. 通过VAE进行概率估计Leibler发散(DKL),logpθ(xt)= D KL(qφ(z|xt)||pθ(z|xt))+LB(θ,φ; xt)>LB(θ,φ;xt)、(五)接下来,我们将讨论如何估计FV中的概率密度函数uθ。通常,uθ被选择为高斯混合模型(GMM)[27,40],因为人们可以通过GM- M以任意精度逼近任何分布,其中θ由高斯分量的混合权重、均值和协方差组成然而,期望最大化算法需要大量的混合成分和低效的优化,使得参数学习计算量大,难以应用于大规模复杂数据。受深度生成模型[16,25]的思想启发,该模型能够在神经网络中实现灵活有效的推理学习其中LB(θ,φ; xt)是描述符xt的似然的变分下界,并且可以写为LB(θ,φ;xt)=− DKL(qφ(z|xt)||pθ(z))+Eqφ(z|xt)[logpθ(xt|z)],(六)其中qφ(z|x)是一个识别模型,它是对难处理的后验p θ(z)的一个近似|X)。在我们提出的FV-VAE方法中,我们使用这个下限LB(θ,φ; xt)作为对数似然的身份解码器反向传播重建损失梯度矢量累加器分类损失重建损失正则化损失..................−不6762近似。 通过这个AP-近似地,生成模型可以分为两个部分:编码器qφ(z|x)和解码器pθ(x|z),分别预测隐藏概率和可见概率。6763…zt(k)Xzt不不不XFV-VAE视频分类224x224CNN卷积激活SPP50/帧当地784/image功能集图像分类图3.用于图像和视频识别的视觉表示学习框架,包括我们的FV-VAE。在CNN的最后一个池化层上执行空间金字塔池化(SPP),以聚合视频帧的局部描述符,它应用四种不同的最大池化操作,并为每个卷积滤波器获得(6×6),(3×3),(2×2)和(1×1)输出,总共产生50个描述符。为图像,将具有更高分辨率(448 × 448)的输入馈送到CNN中,并提取VGG 19中最后一个卷积层conv5 4+relu的激活,从而产生28 × 28的密集局部描述符。在训练阶段,FV-VAE结构通过最小化整体损失。在提取阶段,学习的FV-VAE将局部描述符的集合编码成向量FV表示。3.3. VAE的优化推理模型参数φ和生成模型参数θ可直接用随机梯度下降法进行优化。更具体地说,假设先验分布是标准正态分布,nθ(z)=N(z; 0,I),且条件我们在等式中固定λ1=λ2=1(8)并将在实验中研究折衷参数λ_3在训练期间,计算梯度并反向传播到较低层,使得较低层可以调整其参数以最小化损失。3.4. FV提取分布pθ(x|z)和后验近似qφ(z|x)电子 邮件是多变量高斯分布N(xt;µx,σ2I),2吨吨在优化模型参数[θ,φ]后,图2(b)演示了如何提取基于Fisher VectorN(zt;µz,σzI)。一步蒙特卡罗在学习过的VAE体系结构上进行了尝试用于估计潜在变量zt。所以在Eq. (6)可以改写为1Σd通过用其近似值代替对数似然,即,下界LB(θ,φ;xt),我们可以在等式中获得FV。(三):LB(θ,φ; xt)log pθ(xt|zt)+2k=1(1+logσ2)、(7)Gθ=F-一个∗2∇θ loguθ(X)1¨ ¨1-1千兆Tx、(9)-z-22σzt=−Fθ[θLrec(xt;θ,φ)]其中zt由N(µz),σ2I),它是等价的。t=1得到zt= μz + ε σzt,ε ε N(0,I).图2(a)说明了我们的VAE培训过程和算法1进一步详述了优化步骤。还值得注意的是,与在另一个并行编码器-解码器结构中估计σx和σz的标准VAE方法的训练不同,我们简单地通过梯度下降技术学习两个协方差并在所有描述符之间共享它们,使得在VAE中学习的参数数量在我们的情况下显著减少。除了基本的重建损失和正则化损失之外,我们还在VAE训练中考虑了分类损失,以纳入语义信息,这在半监督生成模型学习中已被证明是有效的[15]。总损失函数由下式给出:L(θ,φ)=λ1Lrec(θ,φ)+λ2Lreg(φ)+λ3Lcls(φ)。( 八)这是重建的归一化梯度向量损失,并且可以通过反向传播操作直接计算。值得注意的是,在提取FV表示时,我们取消了采样操作,直接使用µz作为zt,以避免随机因素。4. 视觉表示学习通过利用FV-VAE作为用于量化的深度架构,分别为图像和视频识别设计了通用视觉表示学习框架,如图3所示。其基本思想是为图像或视频帧构造一组卷积描述符,然后使用FV-VAE架构将其编码为矢量FV表示。训练时期和FV提取时期如图3所示,整个框架可以端到端的方式进行训练。冰舞/信天翁训练时期浸提时间+梯度向量视觉表示损失功能CNN448x448卷积密集网格激活(28x28)θ不26764θ不由于图像和视频帧之间的性质不同,我们分别采用不同的聚合策略来构造图像和视频帧的卷积描述子集。视频由具有大的类内变化的帧序列组成,摄像机运动、照明条件等,使得同一物体的比例在不同帧中变化。在[44]之后,我们在最后一个池化层上采用空间金字塔池化(SPP)[6]来提取视频帧的尺度不变局部描述符。相反,我们提供更高的分辨率(例如,448×448)输入到CNN中,以充分利用图像信息并提取最后一个卷积层(例如,conv54 + VGG 19中的relu),导致密集的局部描述符(例如,28×28)的图像[20]。在我们的实现中,多层感知器(MLP)的编码器和解码器,并开发了一层解码器来降低FV表示的维数。因此,算法1中的函数可以被指定为表1.不同量化方法的比较量化指示器描述符[23]第二十三话高斯观测模型相对于的GMM参数VLAD[11]聚类中心差异 到 作为-签下了中锋英国石油公司[20]局部特征坐标表示tionFV-VAEVAE隐变量相对湿度梯度电损耗可以很容易地通过平均从视频采样的所有帧的FV获得,因为公式中的FV。(13)是线性加法。5. 实验我们在三个流行的数据集上通过FV-VAE架构评估学习的视觉表示UCF 101 [31]、ActivityNet [2]和CUB-200-2011 [39]。UCF101数据集是最受欢迎的视频动作识别之一编码器:µz解码器:µx←MLPφ(xt)←ReLU(W′zt+bθ)、(10)行动基准。它包括来自101个动作类别的13,320个视频。行动类别分为五组:人-物交互,仅身体运动,其中{Wθ,bθ}是编码器参数θ。Lrec的梯度向量计算为:人与人之间的互动,演奏乐器和运动。数据集提供了三个训练/测试分割L(x;θ.Σ[Lrec,Lrec]组织者和UCF101中的每个分裂包括约9.5K培训和3.7K测试视频。ActivityNet数据集是θrec不公司简介.αbθΣ人类活动的大规模视频基准,=flatten[Lrec·z′,Lrec]站着数据集的最新发布版本(v1.3)µx.不tµxΣt、 被利用,其中包含来自200个活动的19,994个视频,=flattenLrec·[z′,1]µxt.不类别。 这19,994个视频分为10024个,4,926,5,044个用于培训、验证和测试集的视频,Σ=flattenµx−xtt(µxσ2xt >0)·[z′,1](十一)分别为。 注意,测试集的标签不是公开的。可用,ActivityNet数据集上的性能都在验证集上报告此外,我们还...其中,考虑到很难获得一个-在这种情况下,我们通过将期望值替换为整个训练集的平均值来进行近似:F=E[GXGX′]平均[GXGX′],(12)在CUB-200-2011数据集上进行表示,该数据集被广泛用于细粒度图像分类,由来自200种鸟类的11,788张图像组成。我们在这个数据集上使用了5,994张训练图像和5,794张测试图像。5.1. 比较方法和θXuθ.-一个θ θTx µxθ θX-xt为了从经验上验证FV-VAE学习的视觉表征的优点,我们比较了以下量化搜索 方法:Global Activations(GA)直接利用全连接/池化层的输出作为视觉表示-GX=变平 −F2·( t(µx>0)·[z′,1]),θ∗θt=1σ2xtt(十三)位置。Fisher向量(FV)[23]通过连接相对于这是我们框架中的输出FV表示。为了提高收敛速度并更好地规范视频的视觉表示学习,我们通过输入单个视频帧而不是从视频中随机采样的多个视频帧来训练这个框架。在FV提取阶段,视频级表示可以GMM的参数,它是在本地描述符上训练的。局部聚合描述符向量(VLAD)[11]是针对使用K均值学习的每个聚类中心,累积聚类中心与分配给它的描述符之间的差异,然后将每个中心的累积向量连接为量化表示。不不6765双线性池(BP)[20]通过外积以成对的方式池化局部描述符。在我们的例子中,一个本地描述器与它自己配对。为了更好地说明比较方法之间的差异,我们在表1中详细介绍了方法。特别地,我们将量化过程解耦为两个部分:指示符和描述符。指标是指对整组局部描述符估计的观测值/分布,描述符将代表关于指标的集合。5.2. 实验设置卷积激活。在视频动作识别任务中,我们提取了两个广泛采用的卷积激活,即, VGG 19中池5层的激活[30],ResNet 152中的res5c层[7]。给定一个224×224的视频帧作为输入,两层的输出都是7 ×7,每个激活的维数分别是512和2,048,re-level。分别为。对于每个视频,25帧被均匀地采样用于表示提取。在图像分类问题上,我们将448×448的图像送入VGG 19,并将AC开发了conv54 +relu层的活化,28×28卷积描述符。VAE优化。为了使VAE的训练过程稳定,我们首先在每个卷积激活上利用L2归一化,以使VAE的输入处于共同的规模。在[8,37]之后,然后采用dropout来随机丢弃输入到编码器的单元,但是自动编码器被优化以重建完整的“修复”输入。辍学率固定为0.5。此外,我们利用Caffe[12]中实现的AdaDelta[46]优化方法来归一化每个参数的梯度,以平衡它们的收敛速度。基本学习率设置为1,小批量的大小为128张图像/帧。优化将在5,000个批次后完成。量化设置。对于我们的FV-VAE,给定具有维度C(C∈ {512,2048})的局部描述符,我们设计了两层编码器(C→C→255)以将维度减少到255,与单层解码 器 ( 255→C ) 耦 合 。 最 终 量 化 表 示 的 维 数 为256×C。我们在[3]和[44]中遵循FV和VLAD的设置。具体来说,128高斯COM-FV的ponents和VLAD的256个聚类中心被利用。因此,由FV和VLAD编码的表示的维数也将是256×C。这两种量化方法由VLFeat[35]实现。分类器训练。在所有代表学习之后,在我们的实验方法中,我们采用了符号平方根步长(sign(x)),|)和L2归一化(x/x 2),|) andL2 normalization (x/ǁxǁ2) as表2.不同量化方法在默认VGG 19网络的UCF 101 split1上的性能比较特征尺寸精度GA409674.91%级联2508875.89%Ave51273.25%FV13107278.85%弗拉德13107280.67%BP26214481.39%FV-VAE−13107281.91%FV-VAE13107283.45%5.3. 性能比较不同的量化方法。 我们首先检查我们的FV-VAE和比较与其他量化方法。除了上述四种量化方法外,我们还包括三种运行:级联,AVE和FV-VAE −。级联是将pool5层的激活平坦化并级联成一个超向量,其维数为25088(7× 7× 512)。AVE中的表示是通过将池5层中的49个512维卷积激活平均融合而产生的。我们的FV-VAE的一个稍微不同的设置被命名为FV-VAE-,其中公式中的分类损失。(8) 被排除或者λ3被设置为0。表2总结了UCF 101(拆分1)上的性能以及与默认VG-G19网络的比较。总的来说,结果表明,我们的FV-VAE导致- S的性能提高对别人。其中,FV-VAE的准确率可达83.45%,比最佳竞争对手BP的准确率相对提高了2.5%。同时,FV-VAE学习的表征维数仅为BP的一半。GA、Concatenation和AVE三种运行方式之间存在性能差距。虽然三个运行都直接源自于pool5层,但它们在生成帧表示的方式上有着根本的不同。GA的表示是将池5中的所有核映射平坦化到全连接层,而级联和AVE是通过直接级联卷积描述符或在池5层中平均融合它们。实验结果表明,级联算法的性能优于GA和AVE算法。VLAD在UCF 101上的性能优于FV,但仍低于BP。与FV相比,FV产生关于多个高斯混合分量的表示,FV-VAE将通过推理神经网络学习输入特定描述符需要哪个高斯分布,使得FV-VAE更灵活。因此,FV-VAE的性能明显优于FV。更重要的是,FV-VAE可以以端到端的方式进行训练通过另外结合语义信息,FV-VAE导致对FV-在[3,20,23,44]中,然后训练具有固定超参数Csvm=100的one-vs-all线性SVM。VAE−。此外,通过将潜在变量的维数降低到7,FV-产生的视觉表示6766表3. FV-VAE与UCF 101 split 1上不同网络的本地激活的性能比较。网络GAFV-VAE−FV-VAEpool574.91%81.91%83.45%pool5微调79.06%82.05%82.13%Res5c81.57%85.05%86.33%表4. 与UCF 101上最先进方法的性能比较(3次分裂,×10次增强)。C3 D:卷积- al 3D[33]; TSN:时间段网络; TDD:轨迹池深度卷积描述符[41];IDT:改进的密集弹道[40]。方法精度[29]第二十九话88.1%美国(公告牌成人另类歌曲榜)[33]85.2%[32]第三十二话88.1%Two-stream + LSTM[45]88.6%双流聚变[4]92.5%长期时间ConvNet[34]百分之九十一点七关键卷挖掘CNN[49]93.1%TSN(3种模式)[42]94.2%IDT[40]百分之八十五点九C3D + IDT[33]百分之九十点四TDD + IDT[41]91.5%长期时间ConvNet + IDT[34]92.7%FV-VAE-池5百分之八十三点九FV-VAE-pool 5光流89.5%FV-VAE-res5c86.6%FV-VAE-(池5+池5光流)百分之九十三点七FV-VAE-(res 5c + pool 5光流)94.2%FV-VAE-(res 5c + pool 5光流)+IDT95.2%因此,VAE和GA具有相同的维数4,096。在这种情况下,FV-VAE的准确率仍然可以达到78.37%,高于GA的74.91%,再次证明了我们的FV-VAE的有效性。此外,在CUB-200-2011数据集上观察到类似的性能趋势,如表6的上行所示,在提供或不提供对象边界框的两个方案中。表5.在ActivityNet验证集上的Top-1 Top-3分类准确性和平均AP方面的性能比较方法Top-1前3地图VGG 19-GA[30]66.59%82.70%70.22%ResNet 152-GA[7]71.43%86.45%76.56%C3D-GA[33]65.80%81.16%67.68%IDT[40]64.70%77.98%68.69%FV-VAE-池572.51%85.68%77.25%FV-VAE-res5c78.55%91.16%84.09%表6. CUB-200-2011在两种情况下的性能比较:其中对象边界框在训练和测试时提供或不提供。ft:微调。方法昏暗无英尺w/ft+box w/o ft+箱w/ftGA4k61.0%百分之七十点四65.3%百分之七十六点四FV128k70.8%百分之七十四百分之七十三点六百分之七十七点一弗拉德128k百分之七十三点五76.5%百分之七十五点一百分之七十九点八BP256k百分之七十五点二百分之七十八百分之七十六点九百分之八十点八FV-VAE 128k79.3%百分之八十二点四百分之七十九点五83.6%先前[20] 2016年全国农村妇女工作会议85.1%[20] 82.8%[17]作品[10]第17话:我的世界76.4%[47] 73.0%[3]75.7%[1]73.9%[47]与 最 先 进 技 术 的 比 较 。 我 们 比 较 了 UCF 101 ,ActivityNet验证集和CUB-200-2011的三个分裂的几个国家的最先进的技术。性能比较分别总结在表4、5和6中。值得注意的是,UCF 101的最新工作采用并融合了两个或多个模态。为了公平比较,采用了两种基本和广泛采用的模式,即,视频帧和光流如表4所示,具有图像和光流输入的VGG 19中池5层的激活上的FV-VAE可以达到93.7%,这使得双流网络[29],[45]和[4]相对改善。分别下降6.3%、5.7%和1.3%当利用与不同网络的比较。 接下来我们 接下来,我们来测量我们的FV-VAE在UCF 101 split 1上的性能,这些性能来自不同的网络,包括VGG 19中的pool 5层和分别使用视频帧进行微调的VGG 19,以及ResNet 152中的res 5c层。如表3所示,与VGG 19中的池5相比,具有更深CNN的ResNet 152中的res 5c层的输出上的FV-VAE表现出更好的性能。一个有趣观察到GA和FV-VAE-在微调VGG 19中对池5层的输出的在VGG 19中,而FV- VAE显示相反的趋势。我们推测,这可能是UCF 101微调中过度拟合的结果,这特别影响了卷积层的描述能力。这一结果也表明了基于一般网络输出的FV-VAE训练中探索语义信息比微调网络的优势。ResNet 152中res5c层的输出对图像输入的准确性将进一步提高到94.2%。通过结合IDT这是手工制作的功能,我们的最终性能将提高到95.2%,这是迄今为止在UCF 101上公布的最佳性能。不同评估指标的结果一致表明,我们的FV-VAE产生的视觉表示导致ActivityNet验证集上的基线性能提升,如表5所示。更具体地说,VGG 19中的池5和ResNet 152中的res 5c的输出上的FV-VAE在mAP方面分 别 相 对 优 于 VGG 19 和 ResNet 152 的 GA 10.0% 和9.8%。此外,FV-VAE仅在视频帧的视觉外观上学习的表示也表现出比来自C3 D和IDT运动特征的GA表示更好的性能,这些运动特征额外地探索了视频中的时间信息。676784VLADFV8280787674FV-VAE?FV-VAE88pool587池5微调8685848382Res5c85RM84潜在变量减少838281807978PCA7212 13 14 15 1617810 1 2 3 4577161514 13 12特征尺寸(log2)(一)在Eq. (8)(日志10)(b)第(1)款特征尺寸(log2)(c)第(1)款图4.实验分析:(a)通过不同量化方法学习的不同维度的视觉表示的准确性。(b)在Eq. 1中,FV-VAE对来自不同网络的具有不同λ 3的激活的准确性曲线。(八)、(c)不同特征压缩方法对FV-VAE学习的表示的准确性。请注意,此图中报告的所有性能均基于UCF 101 split1,在其他两个数据集上观察到类似的性能趋势。如表6所示,在给定或不给定对象边界框的两种协议上,针对FV-VAE的CUB-200-2011上的微调VGG 19通常比原始VGG 19性能更好。总的来说,FV-VAE的表示learn- t导致相对于一些基线的性能提升,例如,[17]提取通过共同分割学习的局部区域的表示,[1]分别结合了来自三个网络的表示,这些网络分别由扭曲的鸟头,扭曲的身体和整个图像提供。FV-VAE产生比其他基线差的性能并不奇怪,因为我们的FV-VAE学习的表示是用于通用目的,而在这些方法中考虑了不同区域的贡献,特别是细粒度分类。例如,在[48]中学习显著性权重并将其分配给每个局部区域,并且在[10]中训练空间Transformer以减少平移和旋转的影响作为预处理。更重要的是,每个局部区域的重要性估计可以很容易地集成到我们的框架作为空间注意。5.4. 分析表征维度的影响。图4(a)通过改变FV-VAE中的潜在变量的数量、VLAD中的质心的数量和FV中的混合分量来比较具有不同维度的学习表示的准确性总体而言,视觉表征的FV-VAE学习始终优于其他人在每个维度从2- 12至2 -17。一般来说,维数越高表示的精度越好,但当维数大于215时,FV学习的表示精度会下降,这可能是由于过拟合引起的。结果基本上表明了在我们的FV-VAE中用神经网络预测高斯参数权衡参数λ 3的影响。多个损失的组合的一个常见问题是需要在两者之间设置折衷参数。图4(b)显示了FV-VAE相对于公式中不同λ3的准确性。(8)、这反映了利用语义信息的贡献。当λ 3在10 0 ~ 10 5范围内变化时,精度曲线与预期的一致,均为特征压缩。图4(c)比较了性能-通过应用不同的代表性组合获得的mance压缩方法:(1)随机麦克劳林(RM)[14],(2)PCA降维和(3)减少VAE中潜在变量的数量。与RM和PCA分别学习一个变换进行特征压缩相比,我们可以通过减少潜在变量的数量来降低VAE框架中学习的FV的维数正如我们的研究结果所示,减少隐变量的数量总是达到最佳的精度,这再次证实了VAE的高灵活性。6. 结论我们已经提出了具有变分自动编码器(FV-VAE)架构的Fisher Vector,其目的是在深度生成模型中对卷积激活进行量化。特别地,我们从理论上推导了VAE结构中FV的计算公式。为了验证我们的主张,一个通用的视觉表征学习框架的设计,通过整合我们的FV-VAE架构和FV-VAE的实现也证实了图像和视频识别。在三 个公共数据集 上进行的实验, 即,UCF101、ActivityNet和CUB-200-2011在视频动作识别和细粒度图像分类的背景下验证了我们的建议和分析。性能的改善,清楚地观察到相比,其他量化技术。我们未来的工作如下。首先,在我们的FV-VAE架构中将探索更深层次的自动编码器架构。第二,注意机制将被明确纳入我们的FV-VAE,以进一步提高视觉识别。第三,将研究生成对抗网络(GAN),以更好地学习生成模型并集成到表示学习中。准确度百分比准确度百分比准确度百分比6768引用[1] S.布兰森湾Van Horn,S. Belongie和P.佩洛娜基于姿态归一化深度卷积网络的鸟类分类。InBMVC,2014.[2] F. Caba Heilbron,V.埃斯科西亚湾Ghanem和J.卡-洛斯尼布尔斯。Activitynet:人类活动理解的大规模视频基准。CVPR,2015。[3] M. Cimpoi,S.马吉岛Kokkinos和A.维达尔迪用于纹理识别、描述和分割的深度滤波器组IJCV,118(1):65[4] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在CVPR,2016年。[5] R.娘娘腔。快速R-CNN。在ICCV,2015年。[6] K. 他,X。Zhang,S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔2014年,在ECCV[7] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。[8] D. J. Im,S.安河Memisevic和Y.本吉奥。变分框架的去噪准则。InAAAI,2017.[9] T. S. Jaakkola,D.Haussler等人在判别分类器中开发生成模型NIPS,1998年。[10] M. Jaderberg , K. Simonyan 、 A. Zisserman 等 人 空 间Transformer网络。2015年,在NIPS[11] H. 我也是M. 杜兹角Schmid,和P. 佩雷斯。将局部描述符聚集成紧凑的图像表示。CVPR,2010。[12] Y. Jia、E.Shelhamer,J.多纳休S.Karayev,J.隆河,西-地Gir- shick,S. Guadarrama和T.达雷尔。Caffe:用于快速特征嵌入的卷积架构。在ACM MM,2014中。[13] M. J. Johnson,D. Duvenaud,A. B. Wiltschko ,S. R.Datta和R. P·亚当斯使用神经网络组合图形模型以实现结构化表示和快速推理。在NIPS,2016年。[14] P. Kar和H.卡尼克点积核的随机特征映射2012年,在AISTATS[15] D. P. Kingma,S.Mohamed,D.J. Rezende和M.威林使用深度生成模型的半监督学习。在NIPS,2014。[16] D. P.Kingma和M.威林自动编码变分贝叶斯。InICLR,2013.[17] J. Krause,H. Jin,J. Yang,and L.飞飞无需零件注释的细粒度识别。CVPR,2015。[18] Q. Li,Z. Qiu,T. Yao,T.梅,Y. Rui和J. Luo。通过学习深度多粒度时空视频表示的动作识别。InICMR,2016.[19] Q. Li,Z. Qiu,T. Yao,T.梅,Y. Rui和J. Luo。学习层次视频表示的动作识别。IJMIR,第1-14页[20] T.- Y. Lin,L.RoyChowdhury和S.玛吉用于细粒度视觉识别的双线性cnn模型在ICCV,2015年。[21] L. Liu,C.Shen和A.范登亨格尔。卷积层下的宝藏:用于图像分类的交叉卷积层池化。CVPR,2015。[22] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,2015。[23] F. Perronnin,J. S'nchez和T。门辛克改进fisher核用于大规模图像分类。ECCV,2010年。[24] Z.邱,智-地Li,T. Yao,T. Mei和Y.瑞MRA Asia MSM在Thumos Challenge 2015。2015年CVPR研讨会[25] D. J. Rezende,S. Mohamed和D.维尔斯特拉深层生成模型中的随机反向传播和近似推理。InICML,2014.[26] O. 鲁萨科夫斯基Deng,H.Su,J.Krause,S.萨蒂希S.妈Z。Huang,黄背天蛾A.卡帕西A
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功