眼中心定位的深度学习技术在人脸识别应用中的鲁棒性和准确性

108 浏览量更新于2024-01-27 收藏 2.58MB PDF 举报

眼睛定位

计算机视觉

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于深度网络和矩形强度梯度技术Naseem Ahmada，Kuldeep Singh Yadava，Manir Ahmedb，Rounge Hussain Laskara，Ashraf Hossainaa印度阿萨姆邦，Cachar-788010，Silchar国家技术研究所，欧洲经委会系。b印度Telangana海得拉巴CMR工程技术学院ECE系，邮编501401阿提奇莱因福奥文章历史记录：2021年10月30日收到2022年2月15日修订2022年2月15日接受2022年3月2日在线发布保留字：眼中心定位眼睛检测睁眼检测深度卷积神经网络A B S T R A C T眼中心定位在计算机视觉应用中起着至关重要的作用，如人脸识别，凝视估计，驾驶员疲劳检测，活性检测等。然而，由于姿势，遮挡，光照，镜面反射，旋转，尺度等的变化，很难定位眼中心。这项工作提出了一种综合的方法，对上述变化具有鲁棒性，并精确定位眼中心。这种集成方法包括（i）更快的RCNN深度学习模型来检测面部和眼睛;（ii）AlexNet用于使用转移学习的眼睛开放检测;（iii）提出矩形强度梯度（RIG）用于眼睛中心定位。实验在基准数据库如GI4E和BioID上进行。在GI4E和BioID数据库中，Nerr≤ 0.05的准确度分别为97.50%和94.25%，Nerr≤ 0.10的准确度分别为98.75%和98.40%，N err≤0.25的准确度分别为99.64%和99.45%。此外，所提出的方法的鲁棒性进行了测试AR和CAS-PEAL数据库。所提出的眼睛中心定位方法在准确性和计算时间方面比现有的最先进的方法版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍眼睛是其他面部特征中最稳定和最突出的特征。眼睛中心定位是眼睛和面部相关的计算机视觉应用以及许多面部生物测量应用的关键步骤，例如凝视估计（Ahmed和Laskar，2021）、虹膜识别（Vatsa等人，2008）、驾驶员疲劳检测（Li等人，2020）、面部识别（Lu等人，2015）和活性检测（Thavalengal等人，2016年）。对于眼睛中心定位，眼睛的检测起着重要的作用。然而，这仍然是一个困难的任务，因为眼睛的形状，大小，虹膜的颜色等的结构个性的外部因素，如照明，旋转，图像质量，眼镜，规模和occlu- sion的变化降低任何眼睛中心定位系统的性能。在这方面，研究人员试图解决*通讯作者。电子邮件地址：naseem_rs@ece.nits.ac.in（N. Ahmad），rhlaskar@ece.nits.ac.in（R.Hussain Laskar）。沙特国王大学负责同行审查提出了上述挑战，并提出了各种办法。最初，研究人员遵循检测面部和眼睛作为所需感兴趣区域的方法，以更好地定位眼睛中心。大多数研究人员使用不同的基于浅层架构的人脸检测技术，如Voila-Jones人脸检测器（Ahmed和Laskar，2019; Kim等人，2010; Monzo等人，2011;Kim等人， 2017）增强级联人脸检测器（Ahmed和Laskar，2019）;人脸地标检测（Ahmed和Laskar，2021）等，以在受控且固定的环境中检测面部。对于眼睛检测，大多数研究人员已经使用不同的技术检测到粗糙的眼睛候选者，例如眼睛方差滤波器（EVF）（Yu等人，2018）、多虹膜形状特征（Kim等人，2010）、半圆形边缘形状（sCES）和半椭圆形边缘形状（sEES）（Ahmed和Laskar，2019;Ahmed和 Laskar ，2019 ）、高增强韦伯滤波器（ Affonso 等人，2018）、图像梯度信息（Timm和Barth，2011）、不变等距图案（Valenti和Gevers，2011）和共形几何代数（Ma等人，一些研究人员还尝试使用卷积神经网络检测眼睛。然而，他们报告说，在姿态和尺度变化的存在通常，眼睛中心定位方法被分类为三种方法（Affonso等人，2018;Ahmed和Laskar，2019 a，2019 b; Kim等人，2010年; Yu等人，2018）：（i）基于眼睛特征的方法，（ii）基于眼睛外观的方法，以及（iii）混合https://doi.org/10.1016/j.jksuci.2022.02.0151319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comN. 放大图片作者：Kuldeep Singh Yadav，M.Ahmed等沙特国王大学学报7154方法.基于眼睛特征的方法对眼睛特征（例如眼睛形状和大小、颜色、对称性等）起作用。Dopico等人（2014）提出了基于图像强度阈值的瞳孔椭圆中心。边缘检测技术用于边缘和瞳孔边界提取。由于闪光灯，这种方法无法进行镜面反射。Hassaballah等人（2010）提出了基于独立分量分析和灰度强度方差的眼中心定位。该方法在强遮挡图像中失败。Timm和Barth（2011）建议基于梯度向量和位移向量的点积的眼中心定位。眼镜的镜面反射和反光影响梯度矢量的分布。Valenti和Gevers（2011）提出了基于不变等距模式的眼中心定位。它需要眼睛区域与面部的人体测量关系。 Ma等人（2020）提出了基于共形几何代数的眼中心定位。基于眼睛特征的方法是简单和快速的眼睛中心定位。然而，它们的性能在不受控制的环境中由于大量遮挡、镜面反射和照明变化、遮挡等而降低。基于眼睛外观的模型对眼睛的光度外观起作用，例如直观特性和眼睛外观特征。Viola和Jones（2001）提出了一种用于眼睛检测的Haar类特征和AdaBoost分类器。它基于Haar类特征。他们的模型的性能下降的姿态变化。Kroon等人（2009）提出了用于眼中心定位的多尺度局部二进制模式（LBP）特征。然而，需要人脸的先验信息。You-jia等人（2010）使用Adaboost人脸检测器和正交小波分析来训练SVM分类器以获得最佳眼睛对。Laxmi和Rao（2012）提供了一个Gabor滤波器来训练SVM。它们的性能下降的虹膜区域中的镜面反射。Wang等人（2012）提出了log-Gabor变换的积分图像。萨瓦基斯（2014）提出了用于训练SVM分类器的HOG-PCA特征。性能会因姿态变化而降低。Chen和Liu（2015）提出了区分Haar类特征和有效的SVM分类器。基于眼睛外观的方法优于基于眼睛直观特征的方法，并且在受控环境下提供更好的准确性。然而，这些方法的性能下降，在实际环境中，如高遮挡，姿态变化，和大规模的变化。提出了混合方法来解决上述的姿态变化、尺度变化和遮挡问题。Monzo等人（2011）提出了Haar类特征与AdaBoost分类器检测粗糙眼睛，然后使用支持向量机与HOG描述子检测最佳眼睛对。该方法适用于不同的照明，但未能检测到眼睛中心的姿态变化超过20度。Kim等人（2017）提出了多个虹膜形状特征来检测粗糙的眼睛候选者，然后使用HOG和CMI与SVM验证最佳可能的眼睛候选者。Ahmed和Laskar（2019）提出了潜在眼候选者的半圆形边缘形状和半椭圆形边缘形状，然后在验证阶段使用SVM，并将HOG，LBP和CMI特征融合为真正的眼睛候选者。他们的模型的性能（Yu等人，2018）针对可能的眼睛候选人提出了眼睛方差滤波器（EVF）他们的模型的性能降低了大阴影和闭塞的眼睛。 Xia等人（2020）提出了用于眼中心定位的混合回归和等光曲率技术。对于强镜面反射和被遮挡的眼睛，其模型的性能降低。Xia et al.（2019）提出了通过具有热图的完全卷积网络进行准确和鲁棒的眼中心定位他们的模型不能处理完全闭合的眼睛，眼镜或头发的遮挡，以及阴影的影响。Liu et al.（2021）pro-提出了一种基于加权二值化级联卷积神经网络的人眼定位方法。他们的模型的性能下降的姿态变化。Abbasi和Khosravi（2020）提出了一种基于粒子滤波器的瞳孔检测方法。在实际环境中，瞳孔在图像中不可见，因此模型的性能下降。Choi等人（2020）提出了一种使用卷积神经网络的瞳孔定位算法。他们的方法的性能下降的遮挡眼睛和姿态变化和图像中的瞳孔是不清晰可见。从上述文献中，可以观察到：（i）大多数研究人员选择了手工制作的基于特征的面部和眼睛检测;（ii）缺少为确定眼睛的张开/闭合所做的研究量;（iii）对眼睛中心定位所做的研究使用统计方法;（iv）除了少数之外，大多数研究人员已经证明了他们对受控环境的主张;（v）对用于面部、眼睛和眼睛中心定位的最先进的对象（SOTA）检测模型的探索是微小的。这些因素促使我们研究和探索各种SOTA模型的人脸和眼睛检测，开放识别，眼中心定位。受到SOTA深度网络在各种对象检测领域的性能的鼓舞（Girshick和Fast，2015; Zhang等人，2018; Nguyen，2019; He等人，2016年;Feng等人，2020年; Jiang等人，2021; Gao等人，2020年;拉古纳例如， 2011年，我们试图在这项工作中使用它们。本文的主要贡献如下：1. 人脸和眼睛检测：使用更快的RCNN模型来顺序检测人脸和眼睛。人脸检测将有助于确定所需的感兴趣区域（ROI）。在这个ROI中，更快的RCNN被重新用于检测眼睛。ResNet50被用作该网络的骨干。该网络使用图像标记数据集进行训练。此外，还进行了数据扩充以使网络在一定程度上对旋转和缩放的变化具有鲁棒性。2. 眼睛张开度识别：通过迁移学习利用预先训练的深度卷积神经网络（AlexNet）该网络是在Faster RCNN的输出（眼睛的ROI）上训练的。3. 眼中心定位：将虹膜形状特征与基于梯度的方法相结合，提出了一种基于矩形灰度梯度的混合定位方法。这种混合技术修改了反应分数，有助于精确定位眼睛中心。4. 在GI 4 E、BioID、AR、CAS-PEAL数据库上的实验结果表明了该方法的有效性。本文的其他部分组织如下：在第2节中描述了一种拟议的方法。实验框架在第3节中描述了数据库和评估方法。结果和讨论见第4节。最后，第5节强调了拟议工作的结论和未来的范围。2. 拟议方法2.1. 拟议工作流程所提出的用于眼睛和面部检测、眼睛张开度识别和眼睛中心定位的模型的流程图如图1所示。使用更快的RCNN对象检测模型来检测面部和眼睛。AlexNet用于在定位眼睛中心之前进行眼睛开放检测。一个矩形强度梯度的方法用于眼睛中心定位睁开的眼睛。直方图均衡化减少了强度差异（Ahmed和Laskar，2021）。在图像数据库上手动使用图像注释，并且N. 放大图片作者：Kuldeep Singh Yadav，M.Ahmed等沙特国王大学学报7155-Fig. 1. 拟议工作的流程图。然后基于图像注释/标记数据集，训练Faster RCNN用于人脸和眼睛检测。检测精度与MATLAB Image Labeler中形成的图像注释/标记数据集有关（Nguyen，2019）。这是一个手动过程，在制作标记数据集时需要特别小心。剩余网络ResNet50被用作Faster RCNN深度学习模型的基础网络所提出的方法跳过眼睛中心定位在闭上眼睛的状态。一个矩形强度梯度的方法用于眼睛中心定位。2.2. 预处理本文在训练Faster RCNN模型进行人脸和眼睛检测之前使用了预处理技术。预处理方法使数据库更适合检测（Ahmed和Laskar，2019）。图像增强使得所提出的模型对光照、尺度、旋转等具有更强的鲁棒性直方图均衡化通过减少强度差异来改善图像的照明变化（Ahmed和Laskar，2021）。直方图均衡化处理前后的图像如图所示。二、在对象检测器模型的训练期间使用图像增强深度学习神经网络的主要缺点是用于鲁棒深度学习模型的数据库的限制（He等人，2016年）。在开发和训练模型之前，我们需要一个更通用的数据库。现有的数据库不包含在比例，平移，旋转等方面的变化，因此，在这项工作中，我们有使用数据扩充技术来创建扩充数据，该扩充数据包括比例（从0到10像素）、平移（从0到10像素）、旋转（10到10度）的变化。图像增强通过旋转、移位、翻转等多种处理自动操纵现有数据库。它增加了训练数据集中的变化数量，并自动提供不同变化的图像，使训练模型在测试阶段对变化更加鲁棒（Fenget al.， 2020年）。2.3. 使用Faster RCNN进行本文提出了一种用于人脸和眼睛检测的快速RCNN模型更快的RCNN模型由两个模块组成，DCNN网络用作区域提议网络，然后快速RCNN检测器（Girshick和Fast，2015）用于基于提议区域的检测目的（He等人，2016年）。深度卷积神经网络（DCNN）ResNet50被用作基础网络（Zhanget al.， 2018年）用于提取特征图。区域建议网络（RPN）模块使用基于注意力的机制，并告诉Faster RCNN模块在哪里寻找（Nguyen，2019）。具有区域建议网络的更快RCNN如图所示。3.第三章。区域提议网络从基础网络的最后一层获取卷积特征图，然后在图像上生成区域提议（He等人， 2016年）。区域提议网络预测对象的概率（Feng等人，2020年）。非最大抑制将移除与其他N. 放大图片作者：Kuldeep Singh Yadav，M.Ahmed等沙特国王大学学报7156图二. (a)（b）直方图均衡化后的输出图像。图3.第三章。更快的RCNN与区域建议网络。箱.然后将这些特征送入分类层和回归层。Soft-max给出对象的概率得分，回归层将细化对象上的边界框。回归层收紧目标周围的锚框的中心和大小（He等人， 2016年）。眼睛检测的性能取决于图像注释过程。ResNet50可以直接用于人脸和眼睛检测，但检测的计算时间会更多。ResNet50，残差网络，是一种具有50层的深度卷积神经网络（DCNN）模型（Feng etal.，2020年）。在更深的网络中，由于重复的池化层，会出现梯度消失/爆炸和性能下降问题深层网络的性能在某种程度上饱和，并开始下降。残差网络有助于解决这些问题。它-igates通过跳过梯度的路径的梯度消失的问题，如图所示。四、它们确保网络学习身份函数以提高其性能。身份快捷连接不提供额外的参数，并且更深网络的计算复杂性也不受剩余网络的影响。剩余网络可以帮助形成更深的网络，而不会使梯度消失。2.4. 眼对选择（EPS）更快的RCNN对象检测将多个边界框检测为眼睛。非最大值抑制和阈值调整提供了更好的边界框和高置信度得分。但是，它不会给双眼或多只眼睛。因此见图4。残差框图。N. 放大图片作者：Kuldeep Singh Yadav，M.Ahmed等沙特国王大学学报7157-ðÞðÞ第十章ð Þ ð Þ ð Þ ðÞ44Ri-R0n1/1对于真正的眼睛对选择，考虑以下几何约束：1. 两个眼睛候选者应对齐30 到+30度（ Ahmed和Laskar ， 2021;Ahmed和Laskar，2019; Ahmed和Laskar，2019）。2. 眼睛候选者之间的距离应该在脸部尺寸的1/5到4/5之内（Kim等人，2010; Kim等人， 2017年）。2.5. 开放性检测在文献调查中，大多数都忽略了闭上眼睛分割区域仅包含虹膜区域和相邻区域，如图5（图5（b-e）中所示的所有四个提出的细分虹膜形状特征的响应被组合以检测眼睛中心。所提出的虹膜形状特征在真实环境中受遮挡的影响较小，并且计算速度比原始虹膜形状特征快周围区域（R1、R2、R3、R4）的平均强度大于虹膜区域（R0）的强度。如果R0的平均强度大于周围区域的平均强度，则该像素位置被认为是非眼睛像素。虹膜的大小是脸部大小的7%。本文使用Faster RCNN 检测人脸。虹膜尺寸通过使用Eq.（1）如下所示案子眼睛张开度检测有助于眨眼检测、驾驶员困倦检测和诊断神经障碍（Gou等人， 2017年）。一个DCNN模型，AlexNet，被应用于眼睛的开放性虹膜长度¼ 0：07×. FaceWFaceH2ð1Þ检测（Kimura等人，2020年）。AlexNet由卷积层、池化或采样、ReLU、全连接和输出层组成（Xiao等人，2017年）。第一卷积层提取低级特征。进一步的卷积层通过组合低级特征来提供高级池化层减小了卷积特征的空间大小，并通过减小特征的大小来降低计算能力Max Pooling提供特征图的极值ReLU是一个整流线性其中面W是面宽度，面H是面高度。可以使用积分图像计算每个细分细胞的平均强度（Kim等人，2017年）。像素处的平均强度x;y使用Haar类特征来计算，如等式（1）所示。（2）速度快。积分图像的平均值是原始图像中x ; y像素处的所有左侧像素值和上方像素值的总和（Kroon等人， 2009年）。应用非线性函数的单元。它通过将负值设置为零来删除负值。检测到打开和关闭后I0x;yx06x;y06yIx0;y02眼睛，提出了一种矩形强度梯度的眼睛中心定位方法。如果眼睛是闭着的，就没有必要去寻找。眼睛中心。2.6. 眼中心定位提出了一种通过将细分的虹膜形状特征（Kim等人，2017）和基于梯度（Timm和Barth，2011）的方法来精确地定位眼睛中心。细分的虹膜形状特征考虑强度信息，如虹膜区域的平均强度小于其中I0x;y和Ix0;y0分别是积分图像和原始图像的像素x;y和x0;y0处的平均值计算所有细分区域的平均强度，如图6所示。虹膜区域R0的强度值之和将低于其它区域如R1、R2、R3和R4的强度之和。虹膜区域的所有强度的总和由Sum（R0）表示。类似地，Sum（R1）、Sum（R2）、Sum（R3）和Sum（R4）表示周围区域的所有强度的总和。如下所示，可以使用等式（3）和等式（4）来计算平均强度。SumR眼睛的周围区域（Kim等人，2017年）。闭合梯度向量朝向中心对齐。梯度矢量与位移矢量的点积的最大值为见眼科中心的信息（艾哈迈德和拉斯卡，R？0¼0R<$1<$$>SumR1;R<$2<$SumR2;R<$3<$SumR3;R-<$SumR4ð3Þð4Þ2021年）。点积3n3n3n4 3n并且位移矢量给出更好的眼睛中心定位。角分布是轴和位移矢量之间的角度。原始虹膜形状特征包含9个细胞，包括中间的一个虹膜细胞，其被8个相同大小的相邻细胞包围。图5示出了原始虹膜形状特征和所提出的虹膜形状特征。眉毛，头发落在眼睛上，玻璃框架可以有类似的-虹膜区域的ILAR强度。原有的虹膜形状特征技术往往由于眉毛、头发等原因而无法定位眼睛中心其中R<$0是虹膜区域的平均强度，R<$1、R<$2、R<$3、R-是周围区域的平均强度。n是虹膜区域R<$0中的像素数。在图像的像素位置处的所有细分虹膜形状特征的响应分数由等式（6）给出。X.--落在眼睛上、边框上和影响眼睛区域的镜面反射上。因此，提出了四个细分虹膜形状特征，与原始特征略有不同。该子-图6示出了具有计算平均强度的逐像素细分的虹膜形状特征。我是细分虹膜形状特征的反应。对于虹膜检测，细分的虹膜形状特征应图五. (a)原始虹膜形状特征，（b-e）提出了细分虹膜形状特征。我是ð5ÞN. 放大图片作者：Kuldeep Singh Yadav，M.Ahmed等沙特国王大学学报7158-（十）我¼××P.1P不Bp变化.在单个目标函数中具有细分的虹膜形状特征的响应分数和梯度向量的融合的矩形强度梯度示于等式（1）中。（七）、眼睛的人造模型在图7中示出。图7（a）中示出了梯度矢量，图7（b）中示出了梯度矢量与水平轴的夹角。基于强度、基于梯度和基于矩形强度梯度的眼睛中心定位分别在图8（a）-（c）中示出。矩形强度梯度方法比原来的方法对光照的鲁棒性更好，速度更快。的中间步骤所提出的算法如下所示。见图6。利用积分图像计算虹膜及其周围区域的平均亮度。遵循强度条件。如果满足细分虹膜特征的两个条件，则计算梯度向量的对准分数。在这里，细分的虹膜特征被认为是寻找虹膜区域。对于眼睛中心定位，还考虑梯度向量对准，并且大多数闭合梯度朝向眼睛的中心对准（Valenti和Gevers，2011年）。它有助于检测圆形和半圆形的中心算法：眼中心定位初始化FD作为使用更快RCNN的ED作为使用更快RCNN的眼睛检测器I是输入图像F_BB是人脸的边界框E_BB是眼睛的边界框EPS作为眼睛对选择ROI是眼睛的感兴趣区域E_dist是眼睛对之间的距离E_ang是眼睛方向预处理I_hist = I检测的直方图均衡化F_BB = I_histROI = I_hist的F_BBE_BB = ROI图像中的物体。用于眼中心定位的梯度和位移向量之间的点积应该是高的。Eq中的目标函数（6）表示梯度与位移矢量之间的关系这一目标的最大价值功能被认为是眼睛的中心。眼对选择如果E_ang位于30到+30度之间E_dist位于F_BB的1/5到4/5之间，则EPS初始化否则，退出cω¼argmax1NN1（wcdTgi）ð6ÞEPS上应用的开放性DCNN如果EPS打开，则眼中心定位过程否则，退出di¼ xi-c ;8i：kgk ¼1I2眼中心矩形强度梯度定位法在EPSkxi-ck2其中gi和di表示梯度和位移矢量，N是梯度矢量的总数，wc表示反转的像素强度，xi是梯度矢量的位置，c被认为是眼睛中心。高于方程式（6）只考虑梯度和位移矢量，不考虑梯度矢量的角分布梯度向量均匀地分散在眼睛中心周围，并且已经观察到闭合梯度大部分朝向中心对齐，如图8所示。闪光灯的眼睛使一个白色的点在虹膜，其强度将是高的。因此，对于具有更高强度的虹膜区域融合了反转的像素强度因此，提出了一种改进的眼中心定位目标函数眼睛中心的最佳位置可以重新公式化，如下式所示：（七）、Im是中心c处的细分虹膜形状特征响应，Nu是使u角的梯度向量的总数。本文考虑了b2的值3. 实验框架3.1. 数据库建议的工作已经在公开可用的 BioID （ BioID TechnologyResearch，2001）和GI4E（Villanueva）上进行了评估例如，2013）数据库。这些数据库是在不受控制的环境中捕获的，对于眼中心定位更具挑战性和现实性。这些包括姿势变化、照明变化以及佩戴诸如眼镜、围巾等的配饰，使得眼睛中心定位更具挑战性。BioID数据库包含1521张38486像素的灰度人脸图像，GI4E数据库包含1236个彩色人脸图像，800 600像素。两个数据库的详细信息见表1。此外，AR（Martinez和Benavente，1998年）和CAS-PEAL（Gao等人， 2007）数据库也被用来检查cω¼ argmax（Im×2p2个pu¼0Nu1Nu 1/1德·伊·格我的朋友1-天啊！）所提出的方法在变化的光照下的鲁棒性和姿态变化条件。这些数据库是在受控环境中捕获的，并在结果和di ¼ xi-c ; ax ¼ a-c ;i： kgi k1/4;ð7Þkxi-ck2ka-ck22讨论区。Di¼xi-c3=2×虹膜长度 ;u<$cos-1diax3.2. 评价方法梯度、位移矢量和梯度的角分布使用方程计算（七）、对梯度向量进行归一化，以提高模型对光照所提出的工作的性能进行了评估，使用归一化的眼睛定位误差，精度，召回率和准确性N. 放大图片作者：Kuldeep Singh Yadav，M.Ahmed等沙特国王大学学报71592019 -04 - 210.00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000见图7。在细分的虹膜形状特征边界ABCD内的眼睛的人工示例（a）图像边缘下的眼睛的梯度向量见图8。使用强度梯度的眼睛中心定位：（a）虹膜区域具有比周围区域低的强度，（b）归一化梯度向量，（c）使用强度梯度方法的眼睛中心定位。（Ahmed和Laskar，2021年; Ahmed和Laskar，2019年; Kim等人，2010年）。归一化误差是估计眼与真实眼之间的差异（Ahmed和Laskar，2019）。两只眼睛的数据库给出了地面实况位置。N err<0：1表示虹膜<的大小，N err 0：05表示瞳孔大小（Valenti和Gevers，2011; Kim等人，2017年）。针对这些归一化误差中的每一个来评价性能。导出用于计算归一化的眼睛定位误差的数学公式，如下面的等式中所示。（八）、模型性能该模型的性能与现有的最先进的方法在精度和处理时间方面进行了比较。准确率和召回率应该接近100%，以获得更好的分类。召回True Positive100实际阳性总数PrecisionTrue Positive100总预测阳性我不知道ð8ÞIOD其中Idet和Igt是估计的眼睛位置，准确度%正确预测数Þ¼预测总数×100左眼和右眼的真实位置。眼间距离（IOD）是两眼之间的欧几里得距离。召回率是真阳性与实际阳性总数的比率。精密度是真阳性与总预测阳性的比值（Ahmed和Laskar，2021）。准确度反映了测量接近精确值的程度。这些参数有助于评估受过训练表1有关用于实验的数据库的详细信息。详细信息使用的数据库BioID GI4E号图像1521灰度面1236彩色面No.23 103图像尺寸384 ×286像素800 × 600像素精确度与召回率以及每个图像的对数平均未命中率与假阳性图，绘制了不同的阈值以分析模型4. 结果和讨论4.1. 人脸和眼睛检测在这项工作中，使用ResNet50的Faster RCNN对象检测器来检测面部和眼睛。通过迁移学习，Faster RCNN用于人脸和眼睛检测。为了显示所提出的方法在检测面部和眼睛方面的有效性，我们执行了FasterRCNN来顺序工作。该算法首先检测人脸，并将人脸作为眼睛检测的感兴趣区域。一个区域提案网络将生成N. 放大图片作者：Kuldeep Singh Yadav，M.Ahmed等沙特国王大学学报7160~~~~~××检测到的ROI内的区域。我们可以使用Faster RCNN直接检测眼睛，但这会生成类似眼睛的冒名顶替者和一些背景作为眼睛。我们采用非最大抑制（NMS）和眼对选择（EPS）技术检测上面部区域的双眼，以去除虚假的冒名顶替者。像物体一样。人脸坐标将有助于测量虹膜长度以计算细分的虹膜形状特征。在Image Labeler中手动形成标记数据集，用于首先训练用于面部检测的Faster RCNN模型（Jiang et al.，2021年; Jiang等人，2021;高例如，2020年）。超参数的小批量大小为32，时期为50，学习率为0.0001，使用自适应矩估计（Adam）优化器（Kimura et al.，2020年）。NMS被应用于获得具有高置信度分数的面部。因此，在反复实验之后手动调整阈值以获得人脸。在表2中，示出了与现有面部检测器方法的比较。Voila-Jones人脸检测器和级联增强人脸检测器在受控环境中对弱特征起它们的性能在复杂环境中会降低带有滑动窗口的AlexNet提供了更好的准确性，因为它适用于深度特征。AlexNet从图像中提取高级特征，但它采用计算复杂的带有滑动窗口的AlexNet提供了更好的准确性，但对于复杂背景的比例变化和姿势变化，这将失败。AlexNet与滑动窗口给出了89.69%和90.16%的准确性与BioID和GI4E数据库的计算时间为3.503和3.500秒。在训练用于人脸检测的Faster RCNN期间，图像增强用于尺度变化（从0到10像素），平移（从0到10像素），旋转（-10至10度）。这将有助于使人脸检测器对最小尺度、平移和旋转具有鲁棒性提出的Faster RCNN模型在BioID和GI4E数据库中分别给出了96.30%和96.78%的准确度，分别为0.196和0.185 sFaster RCNN模型的处理时间优于DCNN模型，因为它使用了区域建议网络。提出的人脸检测器对最小尺度、平移和旋转具有更强的鲁棒性。同样，一个更快的RCNN模型为眼睛训练用于眼睛的区域应仅在检测到的面部中，使得所提出的模型比SOTA DCNN模型更准确且计算更快。使用FasterRCNN检测两只眼睛，并微调参数，如minibatch大小，epochs数量，学习率和优化器。人脸检测有助于找到人脸上的区域建议（Ahmed和Laskar，2019）。与在没有找到面部的情况下运行的方法相比，准确性和处理时间将得到改善（Ahmed和Laskar，2019;Kim等人，2010; Hassaballah等人，2010; Timm和Barth，2011）。联合上的阈值交叉保持在0.5。在图11中示出了具有不同阈值的实验。较低的阈值将面部上的多个边界框较高的阈值导致检测器在测试数据库的一些图像中检测不到眼睛在选择这些参数后，FasterRCNN模型会检测具有置信度分数的边界框。某些边界框与另一个边界框重叠。采用非最大值抑制法从重叠包围盒有更好的信心得分。同样，眼睛对选择用于获得最佳眼睛对，如第2.4节中所讨论的。具有现有尖端技术的眼睛检测模型的性能分析在下面的表3中示出。为了展示所提出的方法在眼睛检测中的性能，我们实验了一些SOTA技术。Voila-Jones和增强型级联眼睛检测器使用手工制作的功能。它们在受控环境中表现良好，但在复杂环境（如遮挡图像和姿态变化）中性能会下降。这导致准确率为56.36%（BioID数据库）和57.71%（GI4E数据库）。AlexNet模型使用深度学习功能，准确率更高，为96.39%（对于BioID），但计算量很高（3s），因为它适用于滑动窗口方法。对于复杂的背景和尺度变化，它们的性能也会降低Faster RCNN模型工作在机器提取的深度特征上，因为它工作在具有选择性搜索的区域建议网络上，所以具有更好的计算速度具有ROI的更快RCNN提供了更好的准确性和计算时间，因为它在RPN上工作，面部被视为感兴趣区域更快的RCNN将只看脸来检测这个方法中的眼睛具有ROI的更快RCNN为眼睛检测提供了97.32%和97.49%的准确性，BioID和GI4E数据库分别为0.177和0.169 s。两个数据库的面部和眼睛检测性能如图9和图10所示。据观察，BioID数据库对于面部和眼睛检测更具挑战性如上所述，应该手动选择阈值，在该阈值下，该模型可以预测眼睛，并且错误预测的数量不应该存在。对于这个提出的模型，阈值被认为是0.5。更快的RCNN眼睛检测模型的性能如图所示。十一岁混淆矩阵给出真阳性、真阴性、假阳性和假阴性值。查准率和查全率由混淆矩阵计算精确度将在所有检测中正确地测量眼睛检测精度反映了模型对准确检测眼睛的可靠性。召回率衡量模型如何正确识别真阳性。图图11（a）中，针对不同的阈值绘制了精确度与召回率的关系图，图11（a）中，针对不同的阈值绘制了精确度与召回率的关系图。图11（b）示出了针对不同阈值的每个图像的对数平均未命中率与假阳性之间的曲线图。4.2. 对不同光照的眼睛检测模型在AR 数据库的子集上进行评估（ Martinez和Benavente，1998），以评估不同照明条件下AR数据库是在受控环境下采集的，图像是正面人脸图像。AR数据库包含120人（70名男性和56名女性）的4000多幅正面彩色图像，图像大小为768 576 3像素。它包括具有不同照明条件、不同面部表情以及由于围巾、化妆和发型而造成的遮挡的图像。所提出的眼睛检测器测试其余909个图像没有清晰的眼镜和366个图像与清晰的眼镜。我们的模型在不同的光照条件下表现得表2与现有的人脸检测方法的比较。方法BioID数据库GI4E数据库准确度（%）计算时间（秒）准确度（%）计算时间（秒）瞧琼斯69.360.06071.360.058增强级联71.990.06572.550.060AlexNet +滑动窗口89.693.50390.163.500Faster RCNN96.300.19696.780.185N. 放大图片作者：Kuldeep Singh Yadav，M.Ahmed等沙特国王大学学报7161表3人眼检测模型的性能分析方法BioID数据库GI4E数据库准确度（%）计算时间（秒）准确度（%）计算时间（秒）瞧琼斯56.360.06857.710.063增强级联57.900.07159.900.072AlexNet +滑动窗口96.393.50397.403.500Faster RCNN91.360.89491.750.090更快的RCNN + ROI97.320.17797.490.169图9.第九条。BioID数据库中的人脸和眼睛检测图10个。GI4E数据库中的人脸和眼睛检测N. 放大图片作者：Kuldeep Singh Yadav，M.Ahmed等沙特国王大学学报7162-×-见图11。具有不同分析参数的更快RCNN眼睛检测模型的性能评估;（a）精度与召回曲线，（b）对数平均值。每个图像曲线的未命中率与假阳性。对于摄像机轴具有小于45°眼睛检测结果如图所示。图12示出了对照明变化的鲁棒性。归一化误差Nerr 0.1被认为是实验性能。实验结果表明，该方法在均匀光照条件下能够准确地检测出人眼.相比之下，如果照明影响眼睛的一部分，诸如由于人佩戴眼镜而导致的眼睛上的镜面反射，则性能略微降低。4.3. 姿态变化使用CAS-PEAL数据库的子集来评估眼睛检测模型对于姿态变化的性能（Gao等人，2007年，在不同的头部姿势变化下。2025年的子集CAS-PEAL数据库的图像用于评估对姿态变化的鲁棒性。它包含具有不同姿势、光照和表情变化的正面人脸图像。图像的大小为360480像素。数据库仅包含从45°到+45°移位15度的姿态变化，以评估姿态变化期间的鲁棒性。甚至水平旋转的图像也被考虑用于评估目的。图像增强使模型对头部姿态随旋转和翻转的变化具有更强的鲁棒性。实验结果给出了97.2%的眼睛检测性能。不同姿态变化的眼睛检测结果如表4所示。该模型在具有零度姿态旋转的正面图像上表现更好然而，所提出的模型给出了令人满意的结果之间的姿态旋转45 °至+45 °。CAS-PEAL数据库上不同姿态变化下的眼睛检测如图所示。13岁见图12。AR数据库中不同光照变化下的人眼检测。N. 放大图片作者：Kuldeep Singh Yadav，M.Ahmed等沙特国王大学学报7163×≤ ≤≤表4CAS-PEAL数据库中姿态变化的眼睛检测结果（N err≤0.10）。姿势-450-300-150 00 +150 +300 +450平均准确度92.72% 95.40% 97.45% 98.30% 97.26% 95.50% 92.64% 95.614.4. 睁眼检测眼睛睁开检测被提出用于检测眼睛是睁开还是闭合的眼睛状态。深度学习神经网络用于对睁开和闭合的眼睛进行分类。通过Faster RCNN模型从检测到的眼睛形成闭合和睁开的眼睛的数据库。AlexNet模型使用70%的随机睁眼和闭眼图像进行训练，30%的数据库用于测试目的。眼睛和非眼睛图像的大小被认为是32 - 32像素。这是一个二元分类问题，无论眼睛是睁开还是闭上。使用迁移学习，并且AlexNet

下载后可阅读完整内容，剩余1页未读，立即下载