没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报使用深度网络进行马济达河Ahmeda,Abdul,Ridip Dev Choudhuryb,Kishore Kashyapaa印度阿萨姆邦Guwahati 14号高哈蒂大学信息技术系bKrishna Kanta Handiqui State Open University,Guwahati 22,Assam,印度阿提奇莱因福奥文章历史记录:收到2020年2020年10月13日修订2020年11月13日接受2020年11月24日网上发售保留字:深度学习卷积神经网络反向传播迁移学习Grad-CAM特征图A B S T R A C T种族是人类的一个主要身体特征,但由于缺乏种族的具体定义和全球人口的多样性,种族的识别仍然是一项具有挑战性的任务在本文中,我们试图解决的问题,种族识别的四大种族群体,即高加索人,非洲人,亚洲人和印度人。新开发的BUPT人脸识别数据集在不受限制的环境中包含约130万张图像为了测试该模型的有效性,在其他数据集(即UTK和CFD)上进行了评估。R-Net还与微调的VGG 16模型进行了比较。实验结果证明了该模型在无约束环境中的鲁棒性。最后,应用梯度加权类激活映射(Grad-CAM)来获得深度学习模型的可视化解释©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍一个人的脸的视觉激活三个神经刺激:性别,年龄和种族。种族作为一种主要的生物特征,其机械化识别与面部识别、性别识别和年龄检测一样重要,因为大多数安全机构如执法和情报机构现在都倾向于自动预测系统。虽然人类甚至可以在第一眼就预测比赛,但机器却不是这样。推断出一个人的软生物特征的信息肯定会增强安全系统。例如,在特定场景中,在寻找逃犯时,如果使用种族作为过滤器,则该系统将支持减少搜索空间。其他种族效应(ORE)(Yaros等人,2019年),一个众所周知的现象常见于人类,也取得了机器翻译的方式。这一事实是由著名的谷歌照片事件曝光的,当时它将两名美国非洲人标记为大猩猩。这就需要一个具有平衡种族组成的数据集,*通讯作者。电 子 邮 件 地 址 : gmail.com ( 硕 士 ) Ahmed ) , rdc@gauhati.ac.in(R.D.Choudhury),kk@gauhati.ac.in(K. Kashyap)。沙特国王大学负责同行审查制作和主办:Elsevier减轻种族偏见的影响。自动种族识别可以帮助在这个任务中作为一个过滤器的过程中的图像收集建立一个数据集。在过去的十年中,已经进行了许多研究,从数字图像的种族估计。Tin和Sein(2011年)以及Lu和Jain(2004年)探索了PCA和LDA等线性变换技术,用于导出种族特征。Xie等人(2012)和MansoorRoomi等人(2011)使用肤色特征对高加索人、非洲人、印度人和亚洲人进行分类。类似地,纹理和形状属性也被Saei Manesh等人用于相同的目的。(2010)、Ding等人(2013)、Muhammad等人(2012)等。(2010)仅使用眼周区域进行种族分类。虹膜还包含丰富的种族判别特征。Qiu等人(2006)和Lagree和Bowyer(2011)以及其他研究探索了虹膜属性以获得种族信息。除了这些使用手工制作特征的传统方法外,还探索了深度学习方法。Wang等人(2016)使用卷积神经网络(CNN)对中国人和非中国人进行分类,并对汉族、维吾尔族和非中国人进行亚民族分类。他们收集 了 从 多 个 来 源 收 集 的 数 据 , 如 MORPH-II , CMU-MultiPIE ,CASIA-WebFace , CASIA-PEAL 和 他 们 的 私 人 中 国 图 像 收 集 。Srinivas等人(2017)还使用自行设计的数据集探索了中国人、日本人、韩国人、南亚人、菲律宾人等的亚种族分类。Narang和Bourlai(2016)研究了在夜间使用可见光和NIR波段的CNN进行种族估计,其中受试者距离为30,60,90和120米。 Vo等人(2018)将越南人和https://doi.org/10.1016/j.jksuci.2020.11.0291319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comM.A. 作者声明:David D.Kashyap沙特国王大学学报4580表1使用CNN比较不同的种族分类。纸质数据集使用的图像数量(训练集)姿势/表情/光照/年龄变化输入大小ROI类平均值精度(Narang和Bourlai,2016)自制(可见光+NIR波段,与相机的距离不同)未知未知128×128× 1面部亚洲人,白人99.04%[可见1.5 m处的条带];95.3% [30 m处的可见光(列车)、NIR(试验)](Wang等人,(2016年)MORPH-II21,060是(限制型)64×64×1面孔非洲人,高加索人99.7%(Wang等人,(2016年)(Wang等人,(2016年)自制+CAS-PEAL+ CASIA-WebFace+ MORPH-II自制+ CASIA- WebFace+ MORPH-II2,40,000是(受约束)64×64×1面孔中国人,非中国人99.8%3,30,411是(受限)64× 64× 1面孔汉族、维吾尔族、非中国人99.7%( Srinivas等人,( 2017年)WEAFD 2,500是(无约束)256×256×36个ROI(Full面和部分线段)中文、日语、韩语、(菲律宾语、印度尼西亚语、马来西亚语)、(越南语、缅甸语、泰国语)33.33%(Vo等人,2018年)VNFaces 6,100是(无约束)64×64×1面孔越南人,非越南人88.64%(Mohammad和Al-Ani,2018)Feret(种族不平衡)2,730否40×160×3扩展眼部区域亚洲人、中东人、非洲人、西班牙人、高加索人百分之九十七点八三非越南人使用从Facebook收集的图像。他们总共使用了6100张图片。Mohammad和Al-Ani(2018)使用FERET数据库中的眼部区域(覆盖眼睛和鼻子)以获取种族信息。他们使用了2730张正面图像,忽略了侧面或任何非正面图像(表1)。本文尝试使用大规模数据(BUPT数据集)构建深度学习模型,与以前的工作不同,该模型不限于实验室环境,而是真实的,在姿势,表情,年龄和背景方面有很大的变化。该模型在输入网络之前使用面部标志来对齐图像。本文强调了组成深层网络的各个组件的重要性,并试图通过选择最合适的组件来优化模型。开发的模型在其他数据集上进行了测试,并与流行的预训练模型进行了比较。结果表明,该模型具有较好的生理小种识别能力,可应用于多种场合。论文的其余部分组织如下。第2节描述了所使用的数据,所使用的方法的数学背景,也提出了模型。第3节讨论了实验结果。第四是论文的结论。2. 材料和方法2.1. 数据准备2.1.1. BUPT数据集用 于 构 建 模 型 的 数 据 集 是 新 发 布 的 BUPT Equalized Face(Wang et al.,2019年)。它由北京邮电大学开发,并于2019年8月公开发布。该数据集由总共130万张具有四个不同种族的图像每个种族都有大约320K+图像的平等比例。这些照片共有28,000名名人,每个种族各有7000张。这些图像是在一个不受约束的环境中拍摄的,具有不同的表情,年龄和姿势,从中度到高度的偏航和滚动角度。图1分别显示了来自BUPT的每个类别的样本。在其上进行实验的平台具有如表2中所述的配置。的资源限制,平台限制了整个数据集用于实验。因此,数据集被下采样以适应平台的容量。总共选择400,000张图像进行训练,每类100,000张图像,而32,000张图像用于验证,每类8,000张图像测试集由8,000张图像组成图像被选择为使得集合是不相交的,也就是说,没有集合共享相同主题的图像。2.1.2. 用于评价的除了在BUPT集上测试模型外,还使用其他数据集来评估模型。两个数据集,即芝加哥人脸数据库(CFD)(Ma等人, 2015)和UTK面部数据集(Song和Zhang),具有不同种族起源的样本。这些数据集的一些样本如图2所示。我们提出的方法的流程如图所示。3.第三章。2.1.3. 数据预处理由于图像显示的姿态范围很广,因此需要进行预处理以确保它们之间的一致性,以提高模型的性能。该模块负责以下任务:1) 人脸检测和对齐,2) 图片来源:3) RGB到灰度转换,4) 均值中心化,5) 将值归一化到范围[0,1]。虽然步骤4和步骤5是非常明显的,步骤1-3的细节描述如下。图像经过Ahmed和Choudhury(2019)中的2D对齐过程,详细说明如下:a) 根据Kazemi和Sullivan(2014)使用dlib(King,2009)检测面部标志。估计通过双眼的线与水平线所形成的角度b) 图像围绕眼睛中心旋转步骤a中计算的角度。M.A. 作者声明:David D.Kashyap沙特国王大学学报4581×Fig. 1. 每个类的BUPT数据集的样本图像。图二. 来自UTK面部和CFD数据集的样本图像。表2使用系统配置处理器Intel Core i5- 8300 H逻辑处理器数量处理器速度2.30 GHz物理内存8 GB共享GPU Intel UHD Graphics 630专用GPU NVIDIA GeForce GTX 1050 Ti专用GPU内存4 GBc) 然后,在面部区域周围裁剪目标图像,使得眼睛出现在距离边缘总宽度的32%和距离顶部高度的38%的距离处。然后将所得图像调整为40 - 40的大小,并转换为灰度(图1)。 4).d) 当遵循上述过程时,具有较高偏航的面在下部基本上被裁剪。 为了纠正他们,下巴也被认为是,使它出现在框架内(图。5)。M.A. 作者声明:David D.Kashyap沙特国王大学学报4582布ð Þ ¼Pb我我我i¼1i我NBi¼1i- -以下是预处理的伪代码:方法预处理输入:image,target_size输出:对齐图像function preProcess(image,target_size)Begin:步骤一曰:找到68面部第二步:A =通过眼睛的直线与水平线的夹角第三步:围绕眼睛中心旋转图像A第四步:裁剪面部调整比例,使左眼和下巴出现在描述中第5步:调整裁剪图像的大小结束步骤6:返回旋转,裁剪和调整大小的图像2.2. 卷积神经网络我们使用CNN(s)进行实验。种族识别的任务可以被认为是一个N路分类问题,N = 4(高加索人、非洲人、亚洲人和印度人)用于BUPT数据集。卷积层通过具有核的卷积操作来提取特征。卷积之后是非线性激活;其示例包括sigmoid、tanh和整流线性单元(ReLU)。(1)图四、(a)具有标志的原始图像;红点是眼睛Ioffe和Szegedy(2015)引入了批量归一化(BN),它将层输出归一化为零均值和单位方差。创作者展示了BN在加速训练过程中的有效性。如果对于小批量b,x是BN层的输入激活,则归一化的输出激活xi由以下等式给出:X Lbxi¼qr2s4其中,elb和rb分别是b的均值和方差。每个人都分别。sigmoid z11e-zð1Þ由一系列这些卷积层提取的特征被馈送到充当分类器组件的全连接(FC)层,其中前一层的每个节点都连接到下一层的每个其他节点不像卷积,每-丹兹ez-e-z在输入的局部2D区域形成,FC层在整个2ð Þ ¼ezþe-zð Þreluzmax0;z3输入量。FC层还包括非线性,匹配输入信号。DropOut(DO)通常用作正则化技术,其以概率p断开随机节点从前一层到下一层的连接。这种连接的丢弃用作对抗过拟合的措施。对于多类分类,最终FC层的输出是每个样本的分数(softmax激活)。Softmax是一个函数,它接受大小为C的输入向量z,并输出相应后验概率的相同大小的向量。如果C是类别数,则softmax值表示样本属于每个类别的概率。softmax的方程在(5)中给出softmax zezi12C和z zz z5联系我们第1页ezj 8¼;; ···;1/4;2; ···C反向传播训练的目的是找到最佳的参数值,使模型对训练样本的输出尽可能接近其地面真理;换句话说,它们的损失最小化。多类交叉熵损失(f)函数用于计算每个时期发生的损失。 当量(6)给出了单个样本xi的交叉熵损失方程,其中C是类的总数,y,y分别是其基础真值和预测概率。基本事实是标签的独热编码。对于一批(7)计算总损失。l¼XC 伊洛湾2016年6月f¼1XN L图三. 建议方法的基本工作流程。ð7ÞM.A. 作者声明:David D.Kashyap沙特国王大学学报4583@hxiRrRK-sqrtqk- -K1/4吨kn1/1G@J图五. a)具有面部标志的原始图像(高偏航); b)对准(步骤c); c)对准(步骤d)。通过梯度下降方法找到使损失最小化的参数。从初始值开始,梯度下降在梯度的负方向上更新参数值,这确保新的损失值低于先前值(Zhang等人,n.d. ).通过几次迭代重复这个更新过程,损失函数达到其最小值。设rfivl@f为损失函数evalu的梯度值V k1-bV k1-bfk 其中b是权重,fk 是kth梯度值此外,更新学习率g,随着时间的推移逐渐减少,收敛速度更快自适应学习算法结合了这种自动学习率衰减技术。均方根传播(RMS prop)(Andrew Ng,n. d. )是一种自适应学习算法,其中通过使用梯度平方的移动平均值来更新模型参数。2在采样点xi处,则等式(8)给出第k次更新,模型参数h.ent,qk;由qk<$bqk-11-brfk给出,其中b为重量和fk是第k个梯度值。参数更新方程变为h ¼h-g1Xn Rfð8Þ其中g是学习率,n是小批量中训练样本的数量随机梯度下降(SGD)是梯度下降的更新版本,其中,而不是精确的梯度,使用梯度的噪声估计。SGD通过计算每个数据样本的梯度估计来当量(8)减少到(9)当使用SGD时,其给出样本xi的第k次更新。hkhk-1-sqrtq@h10自适应矩估计(Adam)(Kingma和Ba,2014)也是一种自适应学习算法,其中学习率随着每次迭代而变化。Adam可以被看作是两种优化技术的混合体,即Momentum和RMSprop。亚当的更新方程由下式给出:hk¼ h K-1 -grfikð9Þhk1-gV k11虽然SGD应在每次列车其中,q是移动平均值的偏差校正项,样本,但参数更新是用小批量完成的,以固定kq过程Momentum(Qian,1999)被合并到SGD中以加快收敛。在动量中,梯度值被它第k个梯度的平方,由qk<$1kt给出,其中t是电流数据和Vk是移动平均值的偏差校正项,由VVk给出的梯度 .1-B见图6。CNN模型。K-1我M.A. 作者声明:David D.Kashyap沙特国王大学学报45842q-出来B¼ þ128@J斯格雷特·格洛克××我1ijIJIJ2反向传播的伪代码是:方法反向传播输入:训练集(Tr),验证集(V),随机权重的R-NetTr:{m1,m2,...}其中mi是大小为128输出:训练的R-Net函数反向传播(Tr,V,R-Net){对于m2 Tr doJ¼0对于xi m dox相对较大的过滤器。核是从区间上的均匀分布初始化的[l,l],其中l6和þin和out是权重张量中输入和输出单元的数量。图6显示了R-Net的图形表示。FC层中包含40%的DO,而在第五卷积层中添加10%的最小DO以避免过拟合。可训练参数的总数为8,407,254。用于训练和测试的伪代码是:#培训输入:训练集(Tr),验证集(V)输出:训练的R-Net模型步骤yi = forward_propagate(R-Net)(xi)#计算损失(li)步骤2:对于img2(Tr[V]),l¼P4 ylog.其中,byx的标签。preProcess(img,(40,40))端第三步:因为i从1到40J.J.L.i端J¼1×J#更新模型参数(h)rf¼@hVk¼bVk-11-brf k#rf的移动平均值;qk<$bqk-11-brfk #移动平均值的平方rf;反向传播(Tr,V,R)端测试次数输入:test_image输出:种族标签步骤1:t = preProcess(test_image,(40,40))步骤2:y_scores = R(t)第三步:race_label = argmax(y_scores)hk1-GVk#Adam优化带V端的}2.3. R-Net:提出的CNN架构所提出的模型是一个简单的体系结构,共包括九层。前六层是卷积层,而最后三层是具有1000、500和4个节点的FC层。CNN的输入是4040灰度图像。第一层从输入中提取20个特征。所有的激活都是双态的。第3.1.1节讨论了激活的选择。第一层的输出用批量归一化进行归一化。受VGG的启发,在后续层中提取的特征逐渐增加。在第二层中有40个特征,在第三层中有50个,在其他三层中有64个。卷积层5和6通过采用卷积步长2将大小缩小到一半。在卷积层中不使用填充,这也有助于减小输入体积的大小内核大小被选择为3 3,这是受到Simonyan和Zisserman(2015)的启发,因为具有较小滤波器的卷积层实际上比具有较小滤波器的单层涉及更少的参数。表3模型见图7。使用不同的优化器训练模型的损失。激活函数训练集验证集见图8。 训练损失/准确度与时期曲线。名称损失准确度(%)准确度(%)损失准确度(%)ReLU初始0.30688.70.2591经过40个纪元0.05698.20.2294.72乙状初始0.82820.3287经过40个纪元0.01599.40.2894.4Tanh初始0.446383.90.323088.7经过40个纪元0.502081.40.380285.9M.A. 作者声明:David D.Kashyap沙特国王大学学报45852 22表4R-Net与BUPT上评估的其他方法的比较2.4. 时间复杂根据He和Sun(2015)的卷积层贡献的时间复杂度为:是输出特征图的大小。时间复杂度为 O ( n4 ),时间复杂度为O(n2)。对于R-Net模型,根据(12),6个卷积层的总(测试)时间复杂度为:O.XDnl-1:s2:nl:m2ð12Þ= O(1×32×20×(n-2)2)+ O(20×32×40×(n -4)2)40×3 ×50×100× 100 × 100 ×100 ×6422ll苏ICP备05000000号-1电话:+8621 8888 8888 ×64×n-10=22 7其中d是卷积层的总数,nl是第l层中的滤波器的数量,sl是滤波器的大小,ml1000×1000×64×n-12= 4 6: 99×10运算:M.A. 作者声明:David D.Kashyap沙特国王大学学报4586.Σ6图9.第九条。错误分类的BUPT样本示例见图10。 视觉解释(Grad-CAM)。此外,训练阶段的时间复杂度是测试阶段的三倍(He和Sun,2015),因为它包括前向和后向传播。上述复杂度估计不包括批量归一化的复杂度。对于FC层,前向传递由前一层的权重和激活的矩阵乘法组成,然后通过激活函数传播。对于单个实例,R-Net的测试时间复杂度为:= O(1000× 3136)+O(500× 1000)+O(4× 500)<$3.63× 106次运算。在反向传播过程中,对于单个实例起作用的基本方程是:dz½l]<$da½l]ωg0½l]。z½l]13dw½ l]<$dz½l]。A½l-1]14db<$l]<$dz<$l]15dal-1½w½l]Tdzl16其中,da[l]、dw[l]、db[l]、dz[l]是损耗相对于激活、权重、偏置和网络输出的偏导数,g[l]是激活函数,A[l]是激活向量,全部用于第l层。对于R-Net,总反向传播时间复杂度为:= O(3136× 1000 + 1000× 1 + 1000× 3136 + 1 +500× 4þ500× 1þ 500× 1000þ 1þ 1þ 4× 3þ 1Þ2016年:7×10次手术db[l]的复杂度是常数时间,并且上述表达式不包括激活函数所涉及的复杂度。对于具有n个epoch的M个训练样本,上述复杂度扩展到M× n倍。M.A. 作者声明:David D.Kashyap沙特国王大学学报45873. 结果和讨论进行的实验如下。在Python环境中使用TensorFlow后端可以促进GPU上的加速执行3.1. 实验1:BUPT数据集上的拟议模型该模型在BUPT测试集上进行训练和评估3.1.1. 训练和验证激活函数和优化方法是CNN模型的基本组成部分,也影响模型进行实验以选择合适的候选者。激活函数表3显示了使用Adam作为优化算法时模型很明显(表3),在完成定义数量的epoch后,在sigmoid激活的情况下,列车损失小于ReLU或tanh。因此,选择sigmoid作为模型。优化器的选择该模型的性能也进行了分析和比较,为三个不同的优化,即(i)SGD,(ii)RMSprop和(iii)亚当。Momentum被纳入SGD,(初始)对于所有三个优化器,学习率被设置为0.01。最小批量大小固定为128。从图7中可以看出,Adam在降低列车损失方面对我们的模型工作得更快。亚当被选为优化者。使用sigmoid激活和Adam,该模型被训练了40个epoch。图8示出了在 训 练 期 间贯 穿 时 期 的 训 练 集丢 失 ( train_loss ) 和 验 证 集丢 失( val_loss ) 的 转 变 。 该 模 型 在 40 个 epoch 后 的 训 练 集 准 确 率 为99.44%,验证集准确率为94.4%。 虽然验证损失趋于上升,但其仍包含在0.28(表3)。3.1.2. 测试该模型在BUPT测试集上进行评估时,平均准确率可所有类的查准率和查全率都在0.95以上,这表明模型对所有类都是无偏学习的。模型性能的详细总结见表4。3%的误差,图。 9描述了一些错误分类的样本。3.1.3. 使用Grad-CAM进行梯度加权类激活映射(Grad-CAM)使用分类网络中的任何目标概念的梯度,流入最终卷积层,以产生粗略的局部化图,突出显示图像中的重要区域,用于预测概念(Selvaraju等人,2020年)。Grad-CAM已经实现,以便对我们的CNN进行可视化解释(图10)。图11显示了使用Grad-CAM后的输出示例。 虽然在模型中使用了灰度图像,但是为了清晰的可视化,已经给出了彩色图像作为输入。如Grad-CAM所示,眼周和下巴区域似乎很重要用于种族识别的区域。3.1.4. 过滤器和特征图过滤器的可视化给出了网络如何学习的想法。特征图还提供了CNN检测到的 图图12和图13示出了过滤器及其图十一岁使用Grad-CAM对亚洲人(a)、非洲人(d)、高加索人(g)和印度人(j)面部图像进行可视化预处理后的面部图像[a,d,g,j];产生的热图[b,e,h,k];将热图透明地覆盖在面部图像上[c,f,i,l] 第一卷积层中的滤波器。M.A. 作者声明:David D.Kashyap沙特国王大学学报4588~图十三.第一卷积层的特征图。精度召回f1得分考卡0.940.780.85非洲0.970.900.93亚洲0.460.940.61精度0.85见图14。 CFD测试统计表5R-Net模型在不同年龄段的表现。14981精度召回精度召回精度召回精度召回高加索0.770.740.950.810.940.900.880.88非洲0.250.760.351.000.400.930.600.75亚洲0.800.880.800.910.760.810.560.45印度0.790.300.650.480.770.570.230.27Avg. 精度百分之七十一百分之七十九百分之八十四百分之七十六R-Net的第一卷积层的对应特征图可以看出,第一层提取了轮廓形状和整体纹理等过程特征3.2. 实验2:在其他数据集3.2.1. 芝加哥人脸数据库(CFD)CFD数据集是属于不同种族群体的男性和女性面部的集合,例如高加索人、非洲人、亚洲人和拉丁美洲人。芝加哥消防局没有来自印度的样本。这些图像在统一的白色背景上展示了不同表情的正面姿势。R-Net的性能如图所示。 十四岁3.2.2. UTK数据集与CFD不同的是,它由20-30岁的受试者样本组成由于图像是从互联网上收集的,因此它们显示了不同的姿势、表情和照明条件,而不是像CFD那样处于受约束的均匀环境中。我们用不同的年龄组来检验我们的模型。我们按照1-3岁、4-8岁、9-80岁和81-110岁的年龄组划分UTK集表5显示了该模型分析表5中的值,可以得到以下观察结果:M.A. 作者声明:David D.Kashyap沙特国王大学学报4589表6使用预训练的VGG16进行比赛分类。特定类别的性能VGG16(ImageNet)VGG16(VGGFace)精度召回精度召回高加索0.760.850.760.72非洲0.770.830.790.85亚洲0.840.900.820.82印度0.86总体业绩(%)0.630.790.77列车接入90.3491.23确认访问75.571.63测试访问8079图15. (a)VGG16卷积神经网络示意图(改编自Manikonda和Gaonkar,2019),(b)微调VGG16卷积神经网络示意图。图16. (a)VGG16的ROC曲线(ImageNet),(b)VGG16的ROC曲线(VGGFace)[0类ROC =高加索人Vs其他人,1类ROC =非洲人Vs其他人,2类ROC =亚洲人Vs其他人,3类ROC =印度人Vs其他人]a) 模型对高加索人和亚洲人类具有公平的性能。b) 模型对所有年龄组的印度类样本具有相对较弱的召回值。c) 模型d) 该模型在9-80岁年龄组中表现最好这是很自然的,因为这一群体的种族识别甚至对人类来说都是困难的。3.3. 实验3:迁移学习迁移学习意味着使用预先训练好的模型的全部或一部分来完成新的分类任务。迁移学习是M.A. 作者声明:David D.Kashyap沙特国王大学学报4590×采用三种不同的方式:(i)使用完整的训练模型(ii)微调和(iii)特征提取。对于该实验,使用微调方法微调是指FC层被截断并且附加新的FC层集合的过程。然后在当前数据集上重新训练改变的模型,保持卷积层的权重在这里,流行的VGG16(Simonyan和Zisserman,2015)模型在BUPT上进行了微调(见图15)。VGG16有一系列卷积层和最大池层,然后是3个FC层,总共16层。在我们的实验中,VGG 16在两个版本中用作基础模型; VGG 16在(i)ImageNet数据和(ii)VGGFace数据。ImageNet(Deng等人,2009)是具有从动物、鸟类到计算机键盘的1000个不同类别的数百万大小的大型数据集。VGGFace(Parkhi等人,2015),另一方面,仅包括属于互联网电影数据库的不同主题的面部图像。它的大小约为2.6M,由牛津大学视觉几何小组开发。在微调的VGG 16模型中,有两个FC层,500和4个节点。ReLU和softmax相应地用作激活。交叉熵损失和亚当分别是损失函数和优化器。由于我们系统的计算限制,我们总共使用了32,000张图像,其中BUPT集的每类8,000张图像用于重新训练模型。使用这些预训练模型的种族分类结果在表6中给出。R-Net的平均准确率为97%,似乎是比微调的VGG 16模型更好的种族分类选择。 微调VGG16(ImageNet)和VGG16(VGGFace)的ROC曲线如图16所示。4. 结论种族本身对人类来说是一个定义不清的概念,对机器识别来说是一项艰巨的任务更重要的是,混血人口的增长正在进一步缩小边界。因此,训练样本的选择将最终决定模型在实际应用中的性能,具有重要意义本文提出了一种CNN模型,用于在无约束环境中从低分辨率(40 - 40)灰度图像中进行种族识别。开发的模型可以用于现实生活中的情况下,图像或可以集成在视频中的不同应用。通过在不同数据集上的测试以及与预训练模型的比较,验证了模型的有效性。通过使用高分辨率彩色图像作为输入,预计将进一步改进。资金这项工作得到了高哈蒂大学提供的TEQIP-III资金的支持。作者贡献这项工作由Mazida Akhtara Ahmed在Ridip Dev Choudhury博士的监督下进行。Kishore Kashyap先生提供了技术指导和支持。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用Ahmed,文学硕士,Choudhury,R. D.,2019.从面部图像进行性别分类。国际工程高级技术杂志9,6217-6223.https://doi.org/10.35940/ijeat.A1874.109119网站。Andrew Ng,n.d.改进深度神经网络:超参数调整,正则化和优化。丁,H.,黄,D.,王玉,Chen,L.,中国地质大学,2013.基于局部纹理和形状描述的人脸 种 族 分 类 。 In : 2013 10th IEEE Int. Conf. Work. 自 动 。 Face GestureRecognition,FG 2013,pp. 1-6. https://doi.org/10.1109/FG.2013.6553815。他,K.,孙,J.,2015.时间受限的卷积神经网络。In:Proc. IEEE Conf. Comput.目视模式识别,pp. 5353-5360. https://doi.org/10.1109/CVPR.2015.7299173。Ioffe,S.,塞格迪角,澳-地2015年。 批量归一化:通过减少内部协变量偏移来加速深度网络训练。在:第32届机器学习国际会议论文集,pp。 448- 456邓,贾,董,魏,索赫尔,R.,李丽佳,李凯,李飞飞,2009年。ImageNet:一个大规模的 分 层 图 像 数 据 库 .IEEE 计 算 机 视 觉 与 模 式 识 别 会 议 。 IEEE , pp. 248-255.https://doi.org/10.1109/cvprw.2009.5206848.Kazemi,V.,Sullivan,J.,2014.一毫秒人脸对齐与回归树的集合。在:IEEE计算机协会 计 算 机 视 觉 和 模 式 识 别 会 议 论 文 集 , pp 。 1867-1874.https://doi.org/10.1109/CVPR.2014.241。King,D.E.,2009. Dlib-ml:机器学习工具包。J·马赫。学习. Res. 10,1755- 1758.金玛,D.P.,Ba,J.L.,2014. Adam:随机最佳化的方法。第三届国际学习表征会议论文集,ICLR 2015。Lagree,S.,Bowyer,K.W.,2011年。基于虹膜纹理特征的种族预测输入:程序第22届中西部Artiff。内特尔科根Sci. Conf. 2011年,第页 225- 230卢,X.,贾恩,A.K.,2004. 从人脸图像中识别种族/title>。在:SPIE的程序,pp。114-123 https://doi.org/10.1117/12.542847网站。莱尔J.R.米勒体育Pundlik,S.J.,伍达德,D.L.,2010年。使用局部外观眼周区域特征的软生物特征第四届IEEE生物识别国际会议:理论,应用和系统(BTAS),pp。1-7.https://doi.org/10.1016/j.patcog.2012.04.027网站。妈D.S.Correll,J.,Wittenbrink,B.,2015年。芝加哥人脸数据库:一个免费的人脸刺激 集 和 标 准 化 数 据 。 行 为 举 止 。 Res. Methods 47 , 1122-1135 。 网 址 : //doi.org/10.3758/s13428-014-0532-5。Manikonda,S.K.G.,Gaonkar,D. N.,2019.提出了一种基于VGG16网络的迁移学习孤岛检测方法。第一届IEEE可持续能源技术和系统国际会议,ICSETS 2019。IEEE,pp. 109-114. https://doi.org/10.1109/ICSETS.2019.8744778网站。Mansoor Roomi,S.M.,Virasundarii,S.L.,Selvamegala,S.,Jeevanandham,S.,Hariharasudhan,D.,2011.基于面部特征的种族分类。在:3rd Natl.确认补偿视觉 , 模 式 识 别 , 图 像 处 理 .Graph.NCVPRIPG2011 , pp.54-57.https://doi.org/10.1109/NCVPRIPG.2011.19网站。Mohammad,A.S.,Al-Ani,J.A.,2018.卷积神经网络用于移动环境下基于眼区的种族分类。在:2018年第10届计算机科学和电子工程会议,CEEC 2018 -会议记录。IEEE,pp.293-298. https://doi.org/10.1109/CEEC.2018.8674194网站。Muhammad,G.,侯赛因,M.,Alenezy,F.,Bebis,G.,米尔扎,上午,Alsamh,H.,2012.基于局部描述符的人脸图像种族分类。Int. J. Artif.内特尔Tools 21,11-13.https://doi.org/10.1142/S0218213012500194网站。Narang,N.,Bourlai,T.,2016年。在异质人脸识别中使用深度学习进行性别和种族 分 类 在 : 2016 年 国 际 会 议 上 生 物 识 别 ICB , pp.1-8.https://doi.org/10.1109/ICB.2016.7550082网站。帕克希,O.M.,维达尔迪,A.,齐瑟曼,A.,2015年。深度面部识别在:英国机器视觉会议(BMVC),pp。41.1-41.12. 网址://doi. org/10.5244/c.29.41。Qian,N.,1999.梯度下降学习算法中的动量项。Neural Networks 12,145-151.https://doi.org/10.1016/S0893-6080(98)00116-6.邱,X.,太阳,Z.,Tan,T.,2006.用于种族分类的虹膜图像全局纹理分析。在:国际会议上生物识别,页。411-418.网址://doi.org/10.1007/11608288_55网站。Saei Manesh,F.,Ghahramani,M.,Tan,Y.P.,2010.面部部分位移对基于模板的性别和种族分类的影响。第11届国际会议控制。自动机器人Vision,ICARV2010,pp.1644-1649. https://doi.org/10.1109/ICARCV.2010.5707882。Selvaraju,R.R.,Cogswell,M.,达斯,A.,韦丹塔姆河,帕里克,D.,巴特拉,D.,2020. Grad-CAM:通过基于梯度的定位从深度网络进行视觉解释。国际计算机视觉,336-359。https://doi.org/10.1007/
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功