没有合适的资源?快使用搜索试试~ 我知道了~
C3AE:紧致模型在年龄估计中的应用
1C3AE:探索紧凑模型在年龄估计中张超1,2,刘帅成1,2,徐迅3,朱策1,刘伟电子科技大学1美谷科技2新加坡国立大学3galoiszhang@gmail.com,liushuaicheng@megvii.com,eczhu@uestc.edu.cn,elexuxu@nus.edu.sg摘要年龄估计是计算机视觉中的一个经典学习问题。许多更大、更深的CNN已经被提出,具有很好的性能,如AlexNet、Vg- gNet、GoogLeNet和ResNet。然而,这些模型对于嵌入式/移动设备是不实用的。最近,高分辨率初始图像/尺寸200*240*3低分辨率/尺寸的裁剪图像64*64*3中等分辨率/大小的裁剪图像64*64*3高分辨率/尺寸的裁剪图像64*64*3MobileNets和ShuffleNets已经被提出来减少参数的数量,产生轻量级模型。然而,由于采用了深度可分离卷积,它们的表示被削弱了。本文研究了紧致模型在小尺度图像上的局限性,提出了一种非常紧致而有效的基于级联上下文的图像估计模型(C3AE)。与MobileNets/ShuffleNets和VggNet相比,该模型的参数仅为MobileNets/ShuffleNets和VggNet的1/9和1/2000,但性能仍具有竞争力。特别地,我们通过两点表示重新定义了年龄估计问题,并通过级联模型实现。此外,为了充分利用人脸背景信息,提出了多分支CNN网络来聚合多尺度背景。在三个年龄估计数据集上进行了实验。紧凑型车型上的最先进性能已以相对较大的余量实现。1. 介绍近年来,卷积神经网络(CNN)正在向更这一趋势给培训或部署带来了前所未有的计算成本。特别地,将现有的经典大型模型,例如,AlexNet [17],VggNet[33]和ResNet [11]在手机,汽车和机器人上几乎是不可能的,因为模型大小和计算成本。为了解决上述问题,最近已经提出了MobileNet[12,31]和ShuffleNets [40,23],通过利用深度分离来大大减少参数。*通讯作者图1:无论分辨率或比例如何,人类都可以在四张图像有必要使用第一张大尺寸的图像吗?在这项工作中,我们使用小规模的图像(64×64×3)的年龄估计,它可以实现非常有竞争力的性能。曼斯。简单卷积在这些模型中,传统的卷积被两步卷积所取代,即滤波层和合并层。例如,在MobileNets中,过滤层首先分别卷积每个对应的通道,从而打破了各个输出通道之间的交互,这可以减少参数的数量。戏剧性地结束了。然后,1×1卷积缝合不同的通道,以组合从不同通道获取的信息。输入通道。对于大规模图像,这种操作是合理的,因为图像需要由大量通道表示,例如,512和384在VggNet [33]和ResNet [11]中。然而,对于小尺度图像,例如,低分辨率和小尺寸的图像,此类等同器械仍然存在问题。与大尺度图像相比,小尺度图像通常可以由网络中较少数量的通道表示,参数和分类的数量也是如此。因此,与深度可分离卷积相比,具有小尺寸内核的标准卷积层不需要更多的参数和存储器[12,40]。从图像表示的角度来看,深度卷积的输出通道比标准卷积的输出通道大很多倍。为了补偿表示能力,深度方向卷积必须支付增加的参数的成本。因此我们认为1258712588具有小核尺寸的常规卷积层比深度方向对应层更适合于处理小尺度图像通常必须在低成本移动设备上以低分辨率和低比例存储和处理图像属于这一类的突出问题之一是年龄估计。例如,人类可以很容易地识别图1中的人的年龄1中的全部或低分辨率以及面部的部分或全部视图因此,我们推测这种能力适用于当代CNN,并设计了一个紧凑的标准卷积层,其中小规模的人脸图像作为年龄估计的输入。年龄估计的最新进展通常概括为两个主流方向:联合类别分类和值回归以及分布匹配。对于前者,心理学证据[15]表明,人类倾向于对图像进行分类评级,而不是连续评分,即,喜欢不同的层次。一些工作[19,4]利用类别信息和顺序信息同时实现分类和回归。对于后一种情况,在提供图像的分布标记的前提下,分布匹配可以取得较好的然而,获取数千张人脸图像的分布标签在这项工作中,我们建议同时利用分类,回归和标签分布的信息。这是通过将离散年龄表示为两个离散年龄水平上的分布来实现的在深度回归模型中,在特征层和年龄值预测层之间插入具有语义分布的全连接层总之,我们设计了一个紧凑的模型,以小规模的图像作为输入。具体来说,我们利用标准卷积而不是深度卷积,具有合适的内核和通道数。 据我们所知,这是迄今为止在面部识别上获得的最小模型,即,普通型号为0.19MB,完整型号为0.25MB。然后我们将离散的年龄值表示为一个分布,并设计了一个级联模型。此外,我们还引入了一个基于上下文的回归模型,该模型以人脸图像的多个尺度作为输入我们采用了紧凑的基本模型、分类训练和多尺度的上下文环境,解决了小尺度图像的自动估计问题。 因此,我们将网络命名为C3AE。我们的主要贡献如下。首先,我们研究了通道数与深度卷积表示之间的关系,特别是在小尺度图像上。我 们 的 讨 论 和 结 果 提 倡 重 新 思 考 MobileNet 和ShuffleNets的小/中规模图像。其次,我们提出了一种新的年龄表示,同时利用分类,回归和标签分布的信息并设计了一个级联模型。最后,我们提出了一种基于上下文的年龄推断方法,该方法收集不同粒度的输入图像。所提出的模型,命名为C3AE,实现了国家的最先进的性能相比,替代紧凑型模型,甚至优于许多笨重的模型。凭借极其紧凑的型号(0.19MB和0.25 MB分别用于普通和完整模型),C3AE适合部署在低端手机和嵌入式平台上。2. 相关工作年龄估计人脸上显示的年龄进程是不可控和个性化的[5],传统方法往往存在泛化问题。随着深度学习的成功,许多最近的工作应用深度CNN来实现各种应用的最先进性能,如图像分类[17,33,35,36,11,34,14],语义分割[20,2],对象检测[8,27,26]。至于年龄估计,CNN也因其强大的泛化能力而被使用。Yi等人[39]首先利用CNN模型从几个面部区域提取特征,并使用平方损失进行年龄估计。AgeNet [18]使用一维实值作为年龄组进行年龄分类。Rothe等人[29]建议使用softmax概率的期望值和离散年龄值进行年龄估计。它是一个加权的softmax分类器,仅在测试阶段。Niu等人[24]通过采用多输出CNN将年龄估计公式化为有序回归。继[24]之后,Chen等人 [3]将排名CNN用于年龄估计,其中有一系列基本的二进制CNN,聚合到最终估计。Han等人[9]使用多个属性进行多任务学习。Gao等人[6]使用KL分歧来衡量年龄的估计分布和地面实况分布之间的相似性。Pan等人[25]设计了一种新的分布学习的均值方差损失。然而,在实际应用中,分布通常不适用于面部图像。在这项工作中,我们同时考虑两个目标。第一个最小化分布之间的Kullback-Leibler损失,第二个优化离散年龄之间的平方损失。随着对运行深度学习的移动/嵌入式设备的需求不断增长,各种有效的模型,如GoogLeNet [35],SqueezeNet[16],[11]和SENet [13],旨在迎合这一浪潮。最近,深度卷积被MobileNets [12,31]和ShuffleNets [40,23]采用,以降低计算成本和模型大小。它们最初是从[32]中引入的深度可分离卷积中构建的,随后用于Inception模型[36,34],以减少前几层的计算特别是,滤波的分离-在每个通道上分别应用卷积和组合-重组12589KK F F=D2KKFFKN无无无无无无无单个通道的输出实现了更少的计算,表1:紧凑型普通模型选项。 [12]第一次在《易经》中,ble convolution探索了有效模型的一些重要设计准则。ShuffleNet-V1 [40]利用新颖的逐点组卷积和通道混洗来降低计算成本,同时保持准确性。MobileNet- V2[31] 提 出 了 一 种 具 有 线 性 瓶 颈 的 新 型 反 向 残 差 。ShuffleNet-V2 [23]主要分析了模型的运行时性能,并给出了有效网络设计的四个指导原则。对于年龄估计,我们认为,对于小规模的图像,通道大小往往很小,深度方向的分离并没有好处。相反,标准卷积足以在准确性和紧凑性之间进行权衡。3. 该模型在这一节中,我们首先介绍了紧凑模型及其架构,以及一些重要的讨论实践指导方针。然后,我们描述了一种新的两点表示的年龄,并利用级联风格插入到深度回归模型。下一个基于上下文的模块(BRA)表示批归一化(BN)、Relu和平均池化。(MACC)这里我们只计算conv层的MACC由大小为D2×M××的卷积核K参数化N. 标准卷积和深度可分离卷积之间的计算成本降低[12]是:通过在三个粒度级别上利用面部信息来嵌入到单个回归模型中。最后一些D2·M·D2+M·N·D2D2·M·N·D2M文MN+MND2(一)讨论是为了反思。3.1. 小型图像的紧凑模型:瑞维斯标准卷积仅假设深度卷积和标准卷积需要相同的通道尺寸即 M=M和N=N,等式1可以减少到1+<11。然而,深度卷积通常K我们的普通模型由五个标准卷积组成,和两个完全连接的层,如表1所示11号。对于标准卷积层,然后进行批归一化、Relu和平均池化,其核、通道数和参数分别为3、32和9248。作为一个基本模块,我们将展示为什么我们使用标准卷积-需要更多的通道数,以便在小尺度图像上执行与标准卷积相当的操作。因此,在现实中,M远小于M,N也是如此。例如,图像可以用标准卷积中的32个通道来表示在这种情况下,减少比率为卷积块,而不是可分离的卷积块,M+的MN=144+144·144=2。39>1。 它indi-用于MobileNets和ShuffleNets。我们将展示M·ND2·M·N32·3232·32·32在后面的实验中,我们的基本模型虽然简单,但与时尚模型相比,却产生了竞争性的性能分析了MobileNets中卷积算法在节省参数和计算量方面的现状,特别是对标准卷积和深度可分离卷积进行了比较。该分析适用于大尺度图像,而对于小尺度/中等图像,它可能不起作用。给定输入和输出为DF×DF×M特征图F和DF×DF×N特征图G,DF表示特征图的大小,M和N是输入通道的数量,分别用于卷积层的输出通道。 的一个标准的卷积甚至可以节省一半以上计算成本与MobileNet-V2相比。因此,对于小尺寸图像和模型,选择标准卷积层是合理的。3.2. 年龄的两点表示法在本节中,我们提出了一种新的年龄表示为两个离散相邻箱的分布给定一组图像{(In,yn)}n=1 ,2,···,N,深度回归模型可以可以写成映射F:I→ Y,其中In和yn分别表示图像和回归标签。 任何回归标记yn,它可以表示为两个其它数z1和z2的凸组合(z1z2),22yn=λ1z1+λ2z2,(2)计算代价数由DK·M·DF+M·nn给出N·D2[12].相比之下,标准卷积层其中λ1λ2是权重,λ1,λ2∈R+,λ1+λ2=1时。1(-)在整个手稿表示价值不可用,或也使用-少的比较。给定年龄区间[a,b],标签yn∈[a,b]和bin具有均匀间隔K,yn的{zm}可以表示为层内核步幅 输出尺寸参数MACC图像-164*64*3--Conv13*3*32162*62*328963321216胸罩-131*31*32128-Conv23*3*32129*29*3292487750656胸罩-114*14*32128-Conv33*3*32112*12*3292481327104胸罩-16*6*32128-Conv43*3*3214*4*329248147456BN+ReLu-14*4*32128-Conv51*1*3214*4*32105616384壮举1*1*121126156-Pred1*1*11113-总---36377-12590Wconcat0.60.50.410.30.20.10W2yy0.7分布yKL损失图2:我们关于年龄估计的紧凑模型概述。年龄和MAE损失z1=,yn,·K和z2=,yn,·K,其中,可能属于箱70而不是箱60。两点代表-nKnK地板和天花板功能。因此,系数λ1和λ2计算为:sentation可以自然地消除这个问题。 为后者,一些方法[7,6,25]使用分布匹配,y −z1y−,yn,·K更好的结果。 然而,这需要大量的标签,λ1=1−nn= 1−nK获得分配是非常昂贵的。Kz2−y,yn ,K·K−yn(三)更重要的是,两点代表性得到两个adja-λ2=1−n n=1 −K而不是任何其他两个或更多个点,K K给两个相邻的仓分配非零元素。在例如,如图2所示3、相应的代表-表示68或74与K=10(第二行图。3)或K=20(图中第三行)(3)给出。如果K=10,箱的集合是{10,20,30,40,50,60,70,80}并且y n是68,对应的向量表示是yn=[0,0,0,0,0,0。2,0。8,0]。此操作会为标签分配一个discount,并且不会产生任何额外成本分销标签。此外,两点表示的分布是稀疏的.事实上,线段中的每个点/年龄可以由多个点表示,其中组合的数量非常多样化。 每个点也可以表示为 两个点或任何其他点。然而,这些组合可能不是我们想要的,例如,50=0 的 情 况 。 5×0+0 。 5×100 =0 。 2×10+0 。 2×40+0 。2×60+0。2×90。对于年龄估计,这些表示是无用的。 而对于深度回归模型,需要消除这些组合。0106874203040506070809010068in[60,70]74in[70,80]3.3. 连锁培训从上面的部分,年龄值yn可以表示为分布向量yn。然而,yn6860 708 24748068=60*0.2+70*0.874=70*0.6+80*0.46是多样化的。两点表示法适用于下一个问题是如何将矢量信息嵌入到端到端网络中 我们通过图1所示的级联模型来实现这一步骤。二、 具体来说,一个完全68(0,0,0,0,0,0,0.2,0.8,0,0,0)74(0,0,0,0,0,0,0.6,0.4,0,0,0)6874在be中插入具有语义分布的连接层在特征层yn和回归层yn之间。 从特征X到年龄值y的 映 射 f 可 以 分 解 为 两 个 步 骤 f1 和 f2 , 即 ,f=f2<$f1。 事实上60 8068=60*0.6+80*0.474=60*0.3+80*0.7整个过程可以表示为f:W2Conv−−−→ X−W−→1814126yn−−→yn。68(0,0,0,0.6,0.4,0)74(0,0,0,0.3,0.7,0)图3:两点法年龄估计的新定义.任何点都由两个adjumper bin而不是任何其他两个或更多个bin表示。在这里,我们为两个级联任务定义两个损失第一一种是测量地面实况标签和预测的年龄分布之间的差异。我们采用KL-发散度作为度量,ΣL(y,y)=D(y|λy)+λ||W||KLn nKLnn1 1n实际上,λ1和λ2表示属于克什蒂尔克=yklog n+ λ||W1||1、(四)包括丰富分布信息的两个仓。NK年龄估计的主要趋势包括两个方面:新的分类和回归,以及分布学习。对于前者,根据上述图。3,68更多分享PlainCNNn12591其中W1是从关联特征X到分布yn的映射f1的权重,λ用于控制12592的稀疏性。第二个损失控制最终年龄的预测,并作为L1距离实现V2、ShuffleNet-V2和C3 AE使用普通模型。第二篇是烧蚀研究Ⅱ,讨论了叶栅模型的必要性(MAE损失),Lreg(yn,y<$n)=Σ||yn−yn||.(五)n基于规则和上下文的模块。最后一部分主要是与一些先进技术的比较。4.1.数据集在训练过程中,训练两个损失函数,如图所示的级联样式。二、然而,它们仍然是联合训练的,并且总损失被给出为Ltotal=αLkl+Lreg(6)其中α是平衡两个损失的超参数。在多种组合的情况下,级联训练能适当地控制分布3.4. 基于上下文的回归模型小尺度图像的分辨率和尺寸是有限的。利用不同粒度级别的面部信息是必要的。如图1,每个裁剪的图像在脸上都有一个特殊的视图。高分辨率图像包含丰富的局部信息,而低分辨率图像则包含全局信息和场景信息。除了在SSR [ 38 ]中选择一个对齐的面部中心之外,我们还使用三个粒度级别裁剪面部中心,如图所示。2,然后将它们输入共享的CNN网络。最后通过拼接和级联模块的方法解决了三尺度人脸图像的瓶颈问题3.5. 讨论在本节中,我们总结了两个针对小尺度图像和模型的重要经验指南。我们将在下一节用实验来支持我们的主张。残差模块对于小尺度图像和模型,是否需要残差模块?至少对于年龄估计数据集,它不是。具有捷径策略的残差模块是首先由[11]设计,用于解决梯度消失问题,特别是在非常深的网络上。它的捷径力量只有在足够多的层次上才能显现出来。小尺寸模型通常只包括浅层。根据我们的实验,普通卷积上的普通连接对于小图像和模型是足够的这一讨论提醒我们重新思考深度学习中的表面思想,特别是在小尺寸图像和模型上。SE模块挤压和激发(SE)模块已通过许多工作[31,23]验证,可用于大规模图像。虽然对于小尺寸的图像和模型,它也工作得很好。因此,我们将SE模块集成到网络中,参数很少。例如,当挤压因子为2时,每个SE模块= 1024。4. 实验实 验 分 为 三 个 部 分 。 第 一 部 分 是 对 SSR 、MobileNet、我们在三个数据集上研究年龄估计:[29 ]第二部第28集第五集第六集第七集第八集第七集第七集第八集第八集第七集第八集第八我们遵循文献SSR [38]、DEX [29]和Hot [29]中的惯例,WIKI-IMDB用于预训练和消融研究。因为Morph II是年龄估计的最流行和最大的基准,我们选择它进行消融研究。Morph II和FG-NET被用来与最先进的技术进行比较。IMDB-WIKI是最大的带有年龄标签的面部数据集,它在[29]中引入,总共包含523,051张图像范围是从0到100。 它分为两个部分:IMDB(460723张图片)和WIKI(62328张图片)。但是,由于它含有较多的噪声,不适合于年龄估计的因此,根据以前的工作,例如,SSR [38]和DEX [29],我们只使用IMDB-WIKI进行预训练。Morph II是最受欢迎的年龄估计基准,它有大约55000张带有年龄标签的13000名年龄范围为16-77岁(平均每例受试者4张图像)。类似于以前的一些作品[24,41],我们将数据集随机划分为两个独立的部分:培训(80%)和测试(20%)。FG-NET包含 1,002面 图像 82不-名人主题与照明,姿势和表情的大变化年龄范围从0到69(平均每个受试者12张图像)[5]。由于FG-NET的规模较小,以往的一些方法通常采用留一法它需要训练82个深度模型。在此设置下,大约有12个样品用于测试。在这里,我们随机选择30个样本作为测试集,剩下的样本用于训练。我们重复这个分割10次,并计算它们的平均性能。4.2. 实现细节在SSR [38]和DEX [29]之后,该模型首先在IMDB和WIKI数据集上进行预训练,大小为64×64×3。在所有的实验中,亚当优化器。在第一次消融研究中,由于平原将C3AE模型与其他普通模型进行比较,每个模型训练160个epoch,批量为50。与SSR类似,初始学习率、辍学率、动量和权重衰减都设置为0。002,0。2,0。九比零。0001,分别。学习率降低了回归值的一个因子,耐心时期为10,变化值为0.0001。在第二个消融研究中,为了与最先进的方法进行比较,每个模型总共训练了600个epoch,批量大小为50。我们12593使用[42]中的策略,随机丢弃输入图像上的块。在这个阶段,初始学习率、辍学率、动量和权重衰减都被设置为0。005,0。3,0。九比零。0001,分别。学习率降低了回归值的一个因子,耐心时期为20,变化值为0.0005。SSR [38]之后,评价标准为平均绝对值(MAE)。方程中的因子α在所有实验中将6设定为10。对于所有级联模型,方程中的K。3设置为10。4.3. 消融研究消融研究分为两部分进行对于第一个,我们的普通模型与SSR,MobileNet-V2和ShuffleNet-V2进行了比较进一步研究了残差模和SE模是否第二部分对两点表征和语境模块的必要性进行了消融性研究4.3.1消融研究I:C3AE的平面模型本部分包括三组实验:比较了我们的plain模型、SSR、MobileNet-V2和ShuffleNet-V2;有/无剩余模块比较;以及有无SE模块的比较。三种方法(SSR、MobileNet-V2和ShuffleNet-V2)在Morph II(M-MAE)、IMDB(I-MAE)和WIKI(W-MAE)上的结果见表1。二、为了公平比较,我们实施了广泛的因素组合(Comb.)。在选项卡中。2 ,对于MobileNet-V2 (M-V2 ) 2,(αpw ,αexp)分别表示每个扩展层的逐点滤波器数量和扩展因子 对于ShuffleNet-V2(S-V2)3,(α ra,α fa)分别表示瓶颈模块输出通道对各级的比例和各级输出通道的比例因子。从比较中得出结论,我们的普通模型即使具有最小的参数(Param.)而记忆体在三种方法中无论参数如何调整都能达到最佳效果。我们还从两点给出了速度分析:MACC和运行时速度。前者是多加运算的理论个数。后者是实测速度深度方向卷积绝不比我们的标准卷积的普通模型差此外 , 还 有 一 个 奇 怪 的 观 察 , 即 αexp=4 的 结 果 优 于αexp=6。我们认为,过大的倒瓶颈可能不适合小尺寸的模型.对于SSR,也使用标准卷积。然而,它的完整模型仍然不如我们的平原模型。另外,在平原地区,训练损失与验证损失之间的差距最小.这表明我们的朴素模型具有更好的泛化能力。所有这些观察都表明了我们的朴素模型的有效性。虽然我们的普通模型足够简单,没有任何花里胡哨的东西,但它仍然可以获得非常有竞争力的性能。我们进一步研究了剩余连接和SE模块的有效性。根据Tab. 4和补充资料中的比较,我们观察到残差模块在小尺寸模型中没有益处,特别是对于三个年龄估计数据集。而SE模块则适用于小尺寸模型。表2:SSR、M-V2、S-V2和C3 AE之间的比较。方法Comb.M-MAE I-MAE W-MAE 参数存储器 MACC(0.25,第4页)3.727.237.29107129 808.7KB 2.2M(0.25、6)4.267.017.30153561 994.7KB 3.0MM-V2(0.5,第4页)(0.5、6)3.714.056.766.756.766.833547135188571.8MB2.5MB5.7M8.1M(0.75,第4页)3.246.576.497479613.4MB 12.3M(0.75、6)4.106.696.721102537 4.8MB 17.7M(0.250.5)4.858.228.78765891.0MB0.6M(0.25、1)4.117.678.024641852.6MB4.0MS-V2(0.50.5)(0.5、1)4.113.837.667.408.047.6315575312840871.3MB5.9MB1.4M12.7M(0.750.5)3.987.557.912508291.7MB2.5M(0.75、1)3.637.077.192473043 10.7MB 26.1MSSR完整模型3.166.946.7640915 326.4KB 17.6MC3AE平面模型3.136.576.4436345 197.8KB 12.8M表3:速度分析评价普通SSR M-v2(.5,6)M-v2(.75,6)S-v2(.5,1)S-v2(.75,1)MACC(男)12.817.68.117.712.726.1runtime-cpu(s)0.0126 0.02330.02450.03940.02280.0295runtime-gpu(s)0.0029 0.00500.00700.00800.00800.0082Mae3.133.164.054.103.833.63表4:剩余模块和系统工程都在相同的条件下(前向单个图像2000时间,然后平均),在CPU(英特尔至强2.1GHZ)和GPU(泰坦X)。比较结果如表1所示。3 .第三章。如 图 4 、 C3 AE 的 平 原 模 型 一 致 优 于 SSR 、ShuffleNet-V2和MobileNet-V2,具有较低的验证损失(valloss in orange,training loss蓝色)。更多的例子可以在档案材料中找到。对于MobileNet-V2和ShuffleNet-V2,2代码来自keras应用程序3代码来自https://github.com/opconty/keras-shufflenetV2数据集不含Res+不含SEW. ResW. SE变形金刚II3.133.213.11IMDb6.576.666.50125944.3.2消融研究II:级联和背景模块在本节中,我们分析了级联模块(两点表示)和上下文模块的选择如何影响年龄估计的性能。12595M-V2(普通)-0.5-6:2.5MB M-V2(普通)-0.75-4:3.4MBS-V2(Plain)-0.25-1:2.6MB S-V2(Plain)-0.5-0.5:1.3MB SSR(Fullmodel):326.4KB我们的型号(Plain):197.8KB图4:M-V2,S-V2,SSR和我们的平原模型的训练过程比较(Best用彩色和放大镜观看两点表示的结果通过级联训练来实现,即,带/不带级联模块。如图5,不管方程中的正则化器λ如何,4的情况下,有级联模块的结果一致优于无级联模块的结果。如果上下文模块进一步应用(Cascade +Context),其性能优于其他两种。32.82.62.45e-5 5e-4 5e-3 5e-2 5e-1 5e0Lambda具体来说,我们在图中给出了一些例子。六、GT表示地面实况值,图例表示预测的年龄。X轴是学习的权重W2,并且Y轴是预测的向量W2,n。他们的点/内产品是预测的年龄。我们可以看到,学习到的权重几乎相当于地面实况箱W2=[10,20,30,40,50,60,70,80]。也就是说,W2控制两点表示,从而消除了多样化的组合。预测箱的最后一个元素非常奇怪,即,92. 七十三,五十五。四十九在分析数据分布后,我们发现只有9个样本在[70,80]范围内,很容易解释为什么最后一个元素异常。由于两点表示,预测的分布是稀疏的,只有两个或三个相邻的非零元素。全连接层会导致这样的现象,即每个年龄段都可以用许多不同的组合来表示。此外,如图6,我们还观察到顶部的预测分布和年龄优于底部。条形图、图例和分布图的颜色与顶部图像上的彩色边框相对应。基于上下文的模型(上)比单尺度输入(下)获得更好的性能。最后,为了显示我们模型的通用性,我们图5:级联和上下文模块的评估。在我们的全模型上微调超参数α为5,8,10,12和15,相应的结果分别为2.79,这些结果并没有太大变化。这表明了我们模型的鲁棒性。4.4. 与Morph II最新技术的比较在本节中,我们将进一步将我们的模型与Morph II上的最先进模型进行比较。如Tab.所示。5,我们的完整模型在以下条件下实现了2.78和2.75 MAE:从头开始训练,并在IMDB-WIKI上进行预训练,这是紧凑模型中最先进的性能。此前在紧凑型车型中实现的最佳性能为3. 16在SSR中[38]。标签中的一些结果。五是要有“三才”。事实上,我们的普通模型实现了3.13即使没有任何铃铛和哨子。所有其他紧凑模型的结果都在IMDB-WIKI上进行了预训练我们在有/无预训练过程上的结果非常相似。我们相信Morph II足够大,可以训练我们的小模型。另一方面,我们的结果是很有竞争力的相比,庞大的模型,它甚至超过七,无级联级联级联+上下文WIKI变形IMDbMae12596GT=16GT=36GT=45GT=45GT=57W2*[0.420.580.0.0.0.0.0.] =15.77W2*[0.0.0.390.610.0.0.0.] =36.11W2*[0. 0的情况。0的情况。 0.50.490. 0的情况。0.] =45.00W2*[0. 0的情况。0的情况。 0.460.530.010. 0.] =45.43W2*[0. 0的情况。0的情况。0的情况。 0.220.750.030.] =57.99W2*[0.20.740.050. 0的情况。0的情况。0的情况。0.] =18.14W2*[0.30.70.0. 0的情况。0的情况。0的情况。0.] =16.68W2*[0.330.660.0. 0的情况。0的情况。0的情况。0.] =16.33W2*[0. 0.020.340.500.120.010. 0.] =37.42W2*[0. 0的情况。 0.010.330.590.070. 0.] =47.14W2*[0. 0.010.070.330.470.110.010.] =46.28W2*[0. 0的情况。0的情况。 0.040.470.460.040.] =54.80W2*[0. 0的情况。0.440.540.010.0. 0.] =35.55W2*[0. 0的情况。 0.010.530.440.020. 0.] =44.63W2*[0. 0的情况。0.010.300.610.080.0.] =47.59W2*[0. 0的情况。0的情况。0.010.240.660.090.] =58.02W2*[0. 0.010.570.410.0.0. 0.] =34.08W2*[0. 0的情况。 0.010.450.510.030. 0.] =45.63W2*[0. 0的情况。0.050.530.400.020.0.] =43.87W2*[0. 0的情况。0的情况。 0.030.430.490.050.]=55.35图6:C3AE上的一些示例。上图:基于上下文的回归模型的结果。黄色条表示预测的分布yn,X轴是从分布到年龄值的学习权重W 2。底部:三种不同的颜色RGB对应于每种颜色xt和预测的分布yn。(Best 以彩色和放大的方式显示。所 有 笨 重 的 模 型 , 尽 管 它 只 消 耗 了 模 型 尺 寸 的1/2000。所有庞大的模型都使用VggNet在Ima-geNet或IMDB-WIKI上进行了预训练。我们的结果没有略优于MV [25] 4.10。在FG-NET上的验证表明了C3AE的有效性。表6:与FG-Net上最先进技术的比较。预先训练的过程甚至超过了一些预先训练的庞大的模型总的来说,C3AE在Morph II上获得了非常有竞争力的性能,具有非常轻量级的模型。表5:与在Morph II上使用紧凑和笨重的基本模型的最新技术水平的比较4.5. 与FG NET最新技术的比较如Tab.所示。6、我们将我们的模型与FG-Net上的最新模型进行了比较。在没有训练82个模型的情况下,我们随机重复实验10次。这也是一个挑战,因为我们使用更少的训练数据集。[ 10 ][12][13][14][15][16][17][18][19][16也是使用不同的分裂。使用均值方差损失,MV [25]与预训练过程得到最好的结果2.68。虽然我们的预训练过程的结果是2.95 MAE和0.17 std,即,与Bulky型号相比,性能第二好。此外,如果没有任何预先训练的过程,我们的结果4.09是方法MAE内存参数Geng等[七]《中国日报》5.77--Han等人[10个国家]四块八--Luu等人[21日]4.37--Luu等人[22日]4.12--Wang等人[37]第三十七届4.26--Feng等人(1)[4]美国4.35 530MB138MFeng等人(2)[4]美国4.09 530MB138MZhu等(实际)[43]4.58 530MB138MZhu等(合成)[43]3.62 530MB138MLiu等[19个]3.89 530MB138M[29]第二十九话4.63 530MB138M美国(WIKI-IMDB)[29]3.09 530MB138M[25]第二十五话4.第一章10530MB138M美国(WIKI-IMDB)2.68530MB138MC3AE(刮擦)4.第一章09± 0.190.25MB39.7K类型方法MAE内存参数[24]第二十四话3.27 1.7MB479.7KMRCNN [24]3.42 1.7MB479.7K紧凑DenseNet [14][第12话]5.056.501.1MB1.0MB242.0K226.3KSSR [38]3.16 0.32MB40.9K美国有线电视新闻网排名[3]2.963.453.123.252.683.00二、52二、412.162.2GB530MB530MB530MB530MB530MB530MB530MB530MB500M138M138M138M138M138M138M138M138M热门[30]笨重ODFL [19][29]第二十九话[29]第二十九话ARN [1]美联社[41][25]第二十五话[25]第二十五话C3AE完整模型(Scratch)2.782.750.25MB0.25MB39.7K39.7K125975. 结论在 本 文 中 , 我 们 提 出 了 一 个 紧 凑 的 模 型 ,C3AE,它已经达到了国家的最先进的性能之间的紧凑模型和竞争力的性能之间的庞大的模型。从各种消融研究中,我们已经证明了C3AE的有效性。针对中小企业的形象和模型进行了分析和反思。在未来的工作中,我们将评估我们的观察一般数据集和应用程序的有效性。6. 确认本 研 究 得 到 了 国 家 自 然 科 学 基 金 项 目(No.61571102,No.61602091,No.61872067)、四 川 省 科 技 攻 关 项 目 ( No.2018JY0035 ,No.2019YFH0016)的部分资助。12598引用[1] E.阿古斯特松河Timofte和L.范古尔锚定回归网络在年龄估计和超分辨率中的应用。InICCV,2017. 8[2] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE Trans. onPattern Analysis and Machine Intelligence,40(4 ):834-848,2018。2[3] S. Chen C.,马缨丹属Zhang,M. Dong,J. Le,and M.娆使用ranking-cnn进行年龄估计。在CVPR,2017年。二、八[4] S. Feng角Lang,J. Feng,T. Wang和J.罗 基于代价敏感标 签 排 序 和 迹 范 数 正 则 化 的 人 脸 年 龄 估 计 IEEETransactions on Multime-dia , 19 ( 1 ) : 136-148 ,2017。二、八[5] Y. Fu,G. Guo和T. S.煌通过面部进行年龄合成和估计 : 一 个 调 查 。 IEEE Trans. on Pattern Analysis andMachine Intelligence , 32 ( 11 ) : 1955-1976 , 2010.二、五[6] B.- B.高氏C.兴角W. Xie,J. Wu,and X.耿。标签模糊的深度标签分布学习IEEE Trans. on Image Processing,26(6):2825-2838,2017. 二、四[7] X. Geng和R.纪标签分发学习。InICDMW,2013. 四、八[8] R.格希克,J。多纳休,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功