基于评价引导非对称回归的眼睛注视估计方法

17 浏览量更新于2023-10-13 收藏 857KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于评价引导非对称回归Yihua Cheng1，Feng Lu1，2 and Xucong Zhang31北京航空航天大学计算机科学与工程学院虚拟现实技术与系统国家重点实验室，北京。2北京航空航天大学大数据精准医学创新中心，北京，中国。3马克斯·普朗克信息学研究所，萨尔信息学院，德国。{宜化c，lufeng}@ buaa.edu.cn，xczhang@mpi-inf.mpg.de抽象。最近的智能系统越来越需要眼睛注视估计，以通过使用简单的眼睛图像作为输入来完成一系列与交互相关的任务。然而，学习眼睛图像和注视方向之间的高度复杂的回归是不平凡的，并且因此该问题尚未被有效地解决本文提出了非对称回归评价网络（ARE-Net），试图最大限度地提高视线估计性能。在该方法的核心是在左眼和右眼的注视估计期间不存在“两眼对称受此启发，我们设计了多流ARE-Net;一个非对称回归网络（AR-Net）用一种新的非对称策略预测双眼的3D注视方向，评估网络（E-Net）通过评估双眼在优化过程中的表现来自适应地调整策略。通过训练整个网络，我们的方法取得了令人满意的结果，并超越了目前的状态。多个公共数据集上的艺术方法。关键词：注视估计，眼睛外观，非对称回归1介绍眼睛及其运动携带着重要的信息，传达着人类的视觉注意、目的、意图、感觉等。因此，自动跟踪人眼注视的能力已经被许多最近的智能系统越来越多地要求，其直接应用范围从人机交互[1，2]、显著性检测[3]到视频监控[4]。如在[5]中所调查的，注视估计方法可以分为两类：基于模型和基于外观。基于模型的方法通常被设计为提取小眼睛特征，例如，角膜表面上的红外反射点，以计算注视方向。然而，他们有共同的通讯作者：冯璐。这项工作得到了国家自然科学基金U1533129，61602020和61732016的资助。2Y. Cheng，F.鲁和X。张限制，诸如1）对用于照明和捕获的特定硬件的要求，2）当在不受控制的环境中使用时的高故障率，以及3）有限的工作距离（通常在60cm内）。与基于模型的方法不同，基于外观的方法不依赖于特殊光照下的小眼睛特征提取相反，他们可以只使用一个普通的相机来捕捉眼睛的外观，然后学习映射函数来直接从眼睛的外观预测注视方向虽然这极大地扩大了适用性，但挑战部分是人眼外观可能受到各种因素的严重影响，例如头部姿势，照明和个体差异，使得映射函数难以学习。近年来，卷积神经网络（CNN）已经证明能够在足够的训练数据下学习非常复杂的函数。因此，据报道，基于CNN的方法优于传统方法[6]。这项工作的目标是进一步利用CNN的能力，并将基于外观的凝视估计的性能提高到更高的水平。我们的方法的核心是左眼和右眼的不对称回归的概念。基于我们的关键观察，1）两只眼睛的注视方向应该在物理上一致，然而，2）即使我们应用相同的回归方法，两只眼睛上的注视估计性能也可能非常不同。这种“ 双精度 “ 方法是一种新的基于 ” 高精度 “ 方法的非线性平均但非线性的回归方法，可以构建更有效和更稳健的回归模型。为此，我们考虑了以下技术问题，即：如何设计同时非对称处理双眼的网络，以及如何通过使用高质量数据来控制非对称性以优化网络我们的想法是通过评估不同眼睛的回归策略的性能来指导不对称凝视回归。特别地，通过分析“两个月作为一个月”（S ec. 3），我们采用了 y_mm_r_ic 回归网络（ AR-Net ）来预测双眼的 3D 注视方向（Sec.4.2），以及评估网络（E-Net），以自适应地评估和调整回归策略（Sec.4.3）。通过整合AR-Net和E-Net（第二节），4.4），所提出的非对称回归评估网络（ARE-Net）学习最大化注视估计器的整体性能。我们的方法做了以下假设。首先，如沿着该方向[6，7]的先前方法通常假设的，可以通过使用现有的头部跟踪器[8]来获得用户头部姿势。第二，用户应该用两只眼睛大致有了这些假设，我们的方法是能够估计的两个眼睛的注视方向，从他们的图像。总之，这项工作的贡献有三个方面：– 我们提出了非对称双眼回归的多流AR-Net我们还提出了E-Net来评估和帮助调整回归。3– 基于评价引导的非对称回归机制的实现，我们观察到“两个变量都是对称的”。这导致新的针对两只眼睛的– 基于所提出的机制和网络，我们设计了最终的ARE-Net，它显示了有前途的性能，在凝视估计双眼。2相关工作已经有越来越多的针对远程人类注视估计的任务提出的最近研究，其可以大致分为两大类：基于模型和基于外观[5，9]。基于模型的方法使用某些几何眼睛模型来估计注视方向[10]。他们通常从眼睛图像中提取并使用近红外（IR）角膜反射[10而这种类型的方法可以以良好的准确度预测注视方向，提取眼睛特征的成像可能需要由红外光、立体/高清摄像机和RBG-D摄像机组成的硬件[15，16]。当使用许多常见设备时，这些设备可能不可用，并且它们通常具有有限的工作距离。因此，基于模型的方法更适合于在受控环境中使用，例如，在实验室中，而不是在室外场景中或具有大的用户-相机距离，例如，广告分析[18]与基于模型的方法相比，基于外观的方法具有相对较低的要求。它们通常需要单个相机来捕获用户眼睛图像[19]。某些非几何图像特征从眼睛图像产生到目前为止，已经探索了各种映射函数，例如神经网络[20，21]，局部线性插值[19]，自适应线性回归[22]，高斯过程回归[23]和降维[24，25]。其他一些方法使用额外的信息，如显着图[22]和[26]来指导学习过程。这些方法都旨在减少所需的训练样本的数量，同时保持回归精度。然而，由于凝视映射是高度非线性的，因此该问题至今仍然具有挑战性。基于CNN的方法已经显示出它们处理复杂回归任务的能力，因此它们优于传统的基于外观的方法。最近的一些工作引入了大型的基于外观的凝视数据集[27]并提出有效的基于CNN的凝视估计器[6，28]。最近，Krafkaet al.在移动设备中实现基于CNN的凝视跟踪器[29]。Zhang等人将整个面部考虑为CNN的输入[30]。Deng等提出一种基于CNN的几何约束方法[7]。在一般情况下，这些方法可以实现更好的性能比传统的。请注意，他们都对待左右眼无差别，而在本文中，我们试图通过引入和利用两眼不对称性，使进一步的改进。4Y. Cheng，F.鲁和X。张除了眼睛图像之外，最近的基于外观的方法也可以将面部图像作为输入。面部图像可以用于计算头部姿势[31，6]或输入到CNN以进行凝视回归[29，30]。在我们的方法中，我们只假设可用的头部姿态，可以通过使用任何现有的头部跟踪器，我们不需要高分辨率的人脸图像作为输入的凝视估计。3注视回归在进入技术细节之前，我们首先回顾3D注视定向的问题，并且在具体方法中将“两个像y mm etry一样”进行推导3.1经由回归的任何人类注视方向可以由3D单位向量g表示，其表示3D空间中的眼球取向。同时，眼球取向还确定眼睛图像中的眼睛外观，例如，虹膜轮廓的位置和眼睑的形状因此，眼睛注视方向与图像中的眼睛外观之间存在强关系结果，从给定的眼睛图像I∈RH×W估计3D注视方向g∈R3的问题可以被公式化为回归问题g =f（I）。回归通常是高度非线性的，因为眼睛外观是复杂的。此外，还有其他因素会影响I，头部运动是一个主要因素。为了处理头部运动，还需要在回归中考虑头部姿势h∈R3，这导致g =f（I，h），⑴其中f是回归函数。在文献中，已经使用了各种回归模型，例如神经网络[20]，高斯过程回归模型[32]和自适应线性回归模型[22]。然而，问题仍然具有挑战性。近年来，随着深度神经网络的快速发展，在大规模训练数据集的存在下，解决这样一个高度复杂的回归问题变得可能，而设计一个高效的网络架构是最重要的工作。3.2双眼不对称现有的凝视回归方法无差别地处理两个眼睛然而，在实践中，我们观察到关于回归精度的两眼不对称观察. 在任何时候，我们都不能指望同样的准确性。两只眼睛，任何一只眼睛都有机会更准确。这两种方法都是简单易行的，可以根据不同的因素，例如：G. ，他的姿势，我的质量和我的速度。这是因为这两个月的图像可能会有不同的质量。因此，当不建立眼睛回归模型时，最好从输入中识别并依赖于高质量的眼睛图像来训练更有效和鲁棒的模型。5L双眼3D凝视数据流：输入输出反馈预测（pl，pr）左/右>EP-net（双流）3D凝视方向（gl，gr）AR-Net（四流）头部姿势h图1.一、概述了所提出的非对称回归评估网络（ARE- Net）。它由两个主要的子网组成，即AR-Net和E-Net。AR-Net对双眼执行非对称回归，而E-Net预测并调整非对称性以提高注视估计精度。4非对称回归评估网络通过“两眼同视”来实现，在该方案中，我们提出了用于双眼的基于外观的注视估计的自度量回归评估网络（ARE-Net）。4.1网络概述所提出的网络使用两个眼睛图像{I（i）}、{I（i）}和头部姿势向量。Lrtor{ h（i）}作为输入，以学习预测地面实况{g（i）}的回归和{g（i）}，其中{g（i）}和{g（i）}是3D注视方向，并且i是样本rlr指数.为此，我们首先介绍了非对称回归网络（AR-Net），然后提出了评价网络（E-Net）来指导回归。整体结构如图1所示。1.一、非对称回归网络（AR-Net）。它是四流卷积网络，并且它针对左眼和右眼两者执行3D注视方向回归（在第12节中详细描述）。4.2）。最重要的是，它被设计成能够以不对称的方式优化两只眼睛。评价网络（E-Net）。它是学习预测当前不对称状态的双流卷积网络，即，AR- Net倾向于在那个时候优化哪只眼睛，并相应地调整不对称的程度（在第2节中详细描述）。4.3）。网络培训。在训练过程中，AR-Net和同时更新E-Net。损失函数和其他细节将在相应的章节中给出。测试阶段。在测试期间，AR-Net的输出是双眼的3D注视方向。4.2非对称回归网络AR-Net以联合和不对称的方式处理两个眼睛图像，并估计它们的3D注视方向。6Y. Cheng，F.鲁和X。张图二.建议的网络架构。(a)AR-Net是一个四流网络，用于从两个眼睛图像中产生特征。使用线性回归来估计两只眼睛的3D注视方向。(b)E-Net是一个用于双眼评估的双流网络。输出是二维概率向量。(c)基本CNN是构建AR-Net和E-Net的基本组件。它使用眼睛图像作为输入。输出是六个卷积层之后的1000D特征架构AR-Net是一个四流卷积神经网络，使用“base-CNN”作为基本组件，然后是一些完全连接的层，如图所示。第2段（a）分段。按照双眼的单独特征和联合特征都应该被提取和利用的思想，我们设计了前两个流来从每只眼睛独立地提取500D深度特征，最后两个流来产生联合的500D特征。注意，头部姿势也是影响注视方向的重要因素，因此我们在最终回归之前输入头部姿势向量（每只眼睛的3D）。最终的1506D特征向量是通过连接来自先前网络的所有输出而产生的，如图2所示。第2段（a）分段。基地CNN。所谓的它由六个卷积层，三个最大池化层和一个完全连接层组成。基本CNN的结构如图所示。第2段（c）分段。base-CNN中每个层的大小设置为与AlexNet的大小类似[33]。基本CNN的输入可以是具有36× 60的固定分辨率的任何灰度级眼睛图像。对于卷积层，可学习滤波器大小为3× 3。第一和第二层的输出通道号为64，第三和第四层的输出通道号为128，第五和第六层的输出通道号为256损失函数我们通过以下方式测量两只眼睛的当前预测的3D注视方向的角度误差：. g·f（I）Σel= arccosLlgl、（二）150000015000001@36 60 64@34 58 256@1 41@36 601500（pl，pr）000左左1564@34 58 256@1 41000200000权5001506权充分15左003D凝视方向Softmax连接回归(b)E-Net500000权基本CNN全连接线性回归头部姿势矢量6 1(a)AR-Net(c)Base-CNN眼睛图像256@1 4FC输出要素1@36 60流4流3流2流1流2流171er和. g·f（I）Σer= arccosRrgr、（3）其中，f（·）指示气体区域。然后，计算两眼误差e=λl·el+λr·er（4）以表示双眼的注视预测精度方面的损失。不对称损失。权重λ1和λr确定左眼或右眼的准确度是否应被认为更重要。的情况下λlλr，损失函数变得不对称。根据因为y mm etry“d i s在S ec中被使用。3.2，如果两个月中有一个月更有可能进行评估误差较小，在优化网络时应加大其权重根据这个想法，我们建议根据以下内容设置权重：.λl/λr=1/el，λl+λr=1，（五）其解决方案是1/elλ=，λ1er=.（六）l1/el + 1/err1/el + 1/er通过将λl和λr代入Eq.(4)，最终的非对称损耗变为LARel·er=2·，（7）el+er这鼓励在训练中依靠高质量的眼睛。4.3评价网络（E-Net）如上所述，AR-Net可以依赖于高质量的眼睛图像进行不对称学习。为了提供更多的证据，它应该是哪只眼睛，我们设计的E-Net学习预测的AR-Net的选择，并指导其在优化过程中的非对称策略。架构E-Net是一个双流网络，其中左眼和右眼图像作为输入。这两个流中的每一个都是一个基本CNN，后面是两个完全连接的层。然后，输出的500D特征被连接为1000D特征，如图1所示。第2段（b）分段。最后，1000 D特征被发送到Softmax回归器以输出2D向量[pl，pr]T，其中pl是AR-Net选择依赖于左眼的概率，并且pr是右眼的概率。在训练期间，如果来自AR-Net，则p的基础真值被设置为1，否则p被设置为0。<换句话说，评估网络被训练以预测左眼/右眼图像在注视估计中更有效的概率8Y. Cheng，F.鲁和X。张AR损失函数：在为了实现E-Net以实现AR-Net的选择而进行的设计中LE=−{η·arccos（f（Il）·f（Ir））·log（pl）+（1− η）·arccos（f（Il）·f（Ir））·log（pr）}，（八）其中，如果 el≤er，则 η=1，如果 el>er ，则 η=0。此外，arccos （f（ll）·f（Ir））计算由AR-Net估计的两个眼睛注视方向的角度差，其测量gl和gr的不一致性。该损失函数可以直观地理解如下：如果左眼在AR-Net中具有较小的误差，即，<因此，E-Net应该选择最大化pl以学习该事实，以便调整AR-Net的回归策略，特别是在gl和gr不一致的情况下。通过这种方式，E-Net被训练来预测可以帮助优化AR-Net的高质量眼睛修改AR-Net的损失函数。E-Net的一个重要任务是调整AR-Net的不对称性，目的是提高视线估计准确度，如前所述为了这样做，通过对E-Net进行积分，可以在Eq.（7）可以修改为*=ω·L+（1−ω）·β·（el+er），（9）2其中ω平衡非对称学习（第一项）和对称学习（第二项）之间的权重。β衡量对称学习的权重，在我们的实验中设置为0.1。特别地，给定E-Net的输出（pl，pr），我们计算ω= 1+（2η− 1）·pl+（1 − 2η）·pr。（十）2再次，如果el彡er，则η=1，并且如果el>er，则η=0。这里我们省略了ω的推导，同时很容易看出，当AR-Net和E-Net在高质量眼睛上具有很强的一致性时，ω = 1，这意味着可以推荐严重不对称的学习策略;当他们完全不同意时，ω = 0，这意味着最好使用对称学习策略作为妥协。实际上，ω是0和1之间的十进制数。4.4通过评估在上述解释之后，我们再次总结了AR-Net和E-Net是如何集成在一起的（图1）。1），以及E-Net如何引导AR-Net。– AR-Net：将双眼图像作为输入;由E-Ne t的输出（pl，pr）修改的损失函数以将其调整为y_mm_y自适应（Eq. （9））。– E-Net ：取双眼图像作为输入 ; 由 AR_Ne t 的输出（ f （ ll ）， f（Ir））和err或s（el，err）修改的损失函数，以针对最优化来更新高质量眼睛图像（等式（1））。（8））。– ARE-Net：如图所示。1，AR-Net和E-Net被集成在一起并一起训练。最终注视估计结果是来自AR-Net的输出（f（II），f（Ir））。LAR95实验评价在本节中，我们通过进行多个实验来评估所提出的非对称回归评估5.1数据集提出了一种典型的基于外观的视线估计方法。因此，我们在我们的实验中使用以下数据集作为以前的方法。已按所述进行了必要的修改。修改的MPIIGaze数据集：MPIIGaze数据集[6]由15个参与者的213659个图像组成，其包含大量不同的照明、眼睛外观和头部姿势。它是基于外观的凝视估计的最大数据集之一，因此被广泛使用。MPIIGaze数据集中的所有图像和数据都已经被归一化，以消除由于面部未对齐而造成的影响。MPIIGaze数据集提供了一个标准的评估子集，其中包含从每个参与者中独立选择的1500张左眼图像和1500张右眼图像。然而，我们的方法需要成对的眼睛图像captured在同一时间。因此，我们通过从原始数据集中找出每个左右眼图像对的缺失图像来修改评估集。这会使评估集中的图像数量加倍。在我们的实验中，我们使用这样一个修改的数据集，而不是原始的MPIIGaze数据集。此外，我们还进行了实验，以比较使用全脸图像作为输入的方法。因此，我们使用来自MPIIGaze数据集的相同全脸子集，如[30]中所述。UT多视图数据集[34]：它包含50个参与者的密集注视数据。直接提供左眼图像和右眼图像以供使用。数据标准化与MPIIGaze数据集相同。EyeDiap数据集[27]：它包含一组16个参与者的视频剪辑，在各种照明条件下具有自由头部运动。我们从每个视频片段中随机选择100帧，总共18200帧。可以从每个视频帧获得两只眼睛请注意，我们需要以与MPIIGaze数据集相同的方式对所有眼睛图像和数据进行归一化5.2基线方法为了进行比较，我们使用以下方法作为基线。基线方法的结果是从我们的实现或发表的论文中获得的。- 单眼[6]：基于深度神经网络的典型的基于外观的凝视估计方法之一。输入是一只眼睛的图像。我们使用[6]的作者提供的原始Caffe代码来获得我们实验中请注意，另一种方法[28]也使用相同的10Y. Cheng，F.鲁和X。张RF单眼AR-NetARE-Net ARE-One Eye8.06.35.65.04.9角度误差（度）8876645423–V.S.基于眼睛图像的方法。0–V.S.基于全脸图像的方法。图3.第三章。数据集内评估和比较的实验结果– RF：最常用的回归方法之一。它被证明是有效的各种应用。类似于[34]，针对每个头部姿势集群训练多个RF– iTracker [29]：一种多流方法，将完整的面部图像、两个单独的眼睛图像和面部网格作为输入。 iTracker的性能已经在 [30] 中在MPIIGaze数据集上报告，因此我们使用报告的数字。– 全脸[30]：一种基于深度神经网络的方法，该方法将全脸图像作为具有空间加权策略的输入。它的性能也进行了测试，并在相同的MPIIGaze数据集报告。5.3数据集内评价我们首先使用来自同一数据集的训练数据和测试数据进行实验。特别地，我们使用如在第12节中描述的修改的MPIIGaze数据集。5.1，因为它包含大量的眼睛图像和全脸图像请注意，由于训练数据和测试数据来自同一数据集，因此我们使用了leave-one-person-out策略来确保实验以完全独立于人的方式进行。基于眼睛图像的方法。我们首先考虑仅使用眼睛图像作为输入的情况。通过包括左图像和右图像的所有测试样本所有方法的结果都是通过使用相同的协议在我们修改后的MPIIGaze数据集上运行相应的代码来获得的。比较如图所示。第3（a）段。所提出的方法显然达到了最佳的精度。对于AR-Net，平均误差为5。6◦，与单眼方法相比提高了11%以上，与RF方法相比也提高了30%。这得益于我们新的网络架构和损耗函数设计。此外，通过引入E-Net，最终的ARE-Net进一步大幅提高了精度。这证明了拟议的电子网络的有效性最终精度为5。0◦实现了基于眼睛图像的凝视估计的最新技术水平。AR-NetiTracker全脸6.86.26.04.9角度误差（度）1115105EyeDiapMPIIGaze见图4。跨数据集评估的实验结果。所提出的方法优于单眼方法的EyeDiap和MPIIGaze数据集。基于全脸图像的方法。最近的方法，如[30]提出使用完整的面部图像作为输入。虽然我们的方法只需要眼睛图像作为输入，但我们仍然与它们进行比较。对于数据集，我们使用前面介绍的人脸图像数据集，并提取两个眼睛图像作为我们的输入。请注意，在[30]之后，iTracker和Full Face方法的注视原点都定义在面部中心。因此，为了进行公平的比较，我们还将我们估计的两个眼睛注视向量转换为几何上具有相同的原点，然后将它们的平均值作为最终输出。如图在图3（b）中，全脸方法实现了最低的误差，而所提出的AR-Net和ARE-Net也显示出与iTracker可比较的良好性能值得注意的是，我们的方法是唯一一个不需要全脸图像作为输入的方法，考虑到计算成本的节省，其性能是相当令人满意的（人脸图像分辨率448× 448 vs.眼睛图像分辨率36 ×60）。5.4跨数据集评价然后，我们在跨数据集设置中呈现我们的评估结果对于训练数据集，我们选择UT多视图数据集，因为它覆盖了注视方向和头部姿势的最大变化因此，我们使用其他两个数据集，即MPIIGaze和EyeDiap数据集的数据对于来自Eyediap数据集的测试数据，我们从每个视频片段中提取100张图像，得到18200张人脸图像用于测试。我们首先将我们的方法与单眼方法进行比较，单眼方法是一种典型的基于 CNN 的方法。如图 4 ，所提出的 ARE-Net 在 MPIIGaze 和EyeDiap数据集上都优于单眼方法。特别地，与单眼方法相比，性能提高了13. 5%的EyeDiap数据集，和25。4%的MPIIGaze数据集。这证明了所提出的ARE-Net的优越性。请注意，我们的基本AR- Net也实现了比单眼方法更好的准确性这表明了所提出的四流网络的有效性，双眼作为输入。单眼AR-Net15.615.2ARE-Net13.511.89.48.8角度误差（度）12Y. Cheng，F.鲁和X。张表1.比较单眼、AR和ARE方法对每例受试者的准确度方法主题Avg.1 2 3 4 5 6 7 8 910 11 12 13 14 15单眼4.9 7.1 5.8 6.5 5.9 6.4 5.6 7.6 6.7 6.0 6.1 6.9 5.56.3AR-Net4.0 4.4 5.9 6.8 3.7 6.1 4.3 5.8 6.0 7.1 6.5 5.5 5.6 6.8 6.25.7ARE-Net3.8 3.4 5.1 5.0 3.2 6.2 3.9 5.6 5.5 5.7 6.7 5.1 4.0 5.7 6.35.0表2.对以下平均注视误差的分析：（从左到右）双眼的平均误差/E-Net方法两只眼睛E-Net选择视力较佳的眼睛较差眼∆附近正面RF8.0–6.79.42.78.18.1单眼6.3–5.07.62.66.26.4AR-Net5.7–5.36.00.75.65.7ARE-Net5.04.94.85.20.45.05.05.5对每个个体的实验结果表明，该方法在平均性能上具有一定的优势。在本节中，我们将进一步分析其对每个主题的性能。如表1所示，示出了MPI-IGaze数据集中所有15个受试者的结果，并与单眼方法进行了比较。所提出的ARE-Net和AR-Net在几乎每个主题上都优于单眼方法（只有一个例外），并且ARE-Net也始终优于AR-Net。这验证了我们的关键思想，并证实了所提出的方法的鲁棒性。5.6E网分析建议的电子网络是我们的方法的关键组成部分，因此，重要的是要知道它是如何受益的方法。为此，我们在第二节中获得的初步结果的基础上进一步分析5.3.根据表2所示的比较，我们得出以下结论：– 关于总体注视误差，与其他方法相比，E-Net的存在在所有情况下都大大提高了准确性。– E-Net仍然可以从ARE-Net已经非常平衡的输出中在一定程度上选择相对更好的眼睛，而那些其他策略不能进行更有效的选择。136.56.05.55.00 20 40 60 80 100数量的时段图五、验证ARE-Net的收敛性了图六、两个人都有一个共同点。单目视觉方法（情况的左侧图）通常在一只眼睛中产生大的误差，而所提出的ARE-Net（每种情况的右侧图）减少双眼的注视误差。– 有了E-net，更好/更差的眼睛之间的差异大大减少（仅为0。4◦）。因此，E-Net的主要优点是它可以同时有效地优化左眼和右眼。– 即使与其他方法相比，正确选择更好的眼睛，ARE-Net仍然达到了最好的结果，没有选择。5.7附加分析本节介绍了对所提出方法的其他分析和讨论。收敛。图5示出了在MPIIGaze数据集上测试的所提出的ARE-Net的收敛性分析。在迭代过程中，估计误差呈递减趋势，在100个历元左右达到最小值。在一般情况下，在我们的实验中，所提出的网络被证明是能够快速和鲁棒地收敛。案例研究。我们展示了一些有代表性的案例，解释了为什么提出的方法优于前一个，如图所示六、在这些情况下，仅使用单个眼睛图像，例如，像单眼方法一样，可能对一只眼睛表现得很好，但对另一只眼睛表现得很差，而差的一只眼睛将极大地影响最终的精度。另一方面，ARE-Net执行非对称优化，并通过设计的评估和反馈策略帮助改善好眼和差眼。因此，输出凝视误差平均误差左眼误差右眼误差埃误差（度）14Y. Cheng，F.鲁和X。张表3.仅使用一个眼睛图像作为ARE-Net输入的注视估计误差输入图像替换丢失的眼睛图像0矩阵复制输入随机眼固定眼左眼右眼六、3 ◦（左）6.2◦（右）六、1分（左）6.1◦（右）8. 5 ◦（左）7.9◦（右）10个。7 ◦（左）9.3◦（右）对于两只眼睛来说往往较小，并且这导致更好的总体精度。这也在表2中证明。仅一个眼睛图像作为输入。我们的方法需要左眼和右眼图像作为输入。在只有一个眼睛图像可用的情况下，我们仍然可以如下测试我们的网络。不失一般性，假设我们仅具有左眼图像。为了运行我们的方法，我们需要为网络提供一些东西作为右眼的替代品。在我们的实验中，我们使用1）0矩阵，即，黑色图像，2）左眼的副本，3）来自数据集中不同的人的随机选择的右眼图像，以及4）来自数据集中不同的人的固定右眼图像（典型形状，正面我们在Sec中测试训练的模型。5.3同样的留一个人的方式所有15名受试者在修改的MPIIGaze数据集上的平均结果如表3所示。有趣的是，如果我们使用黑色图像或输入图像的副本作为另一个眼睛图像，估计误差相当好（6◦）。这证实了我们的网络是相当强大的，即使有一个非常低质量的眼睛图像。6结论与讨论我们提出了一种基于深度学习的远程凝视估计方法这个问题是具有挑战性的，因为学习眼睛图像和注视方向之间的高度复杂的回归是不平凡的。在本文中，我们提出了非对称回归评估网络（ARE-Net），并试图提高视线估计的性能，以最大限度地。我们的方法的核心是“两眼同视”的概念，其可以在注视估计期间对左眼和右眼的形态进行观察据此，我们设计了多流ARE-Net。它包含一个非对称回归网络（AR-Net）预测3D注视方向的双眼与非对称的策略，和一个评估网络（E-Net），以自适应调整的策略，通过评估的两个眼睛在他们的质量优化。通过训练整个网络，我们的方法在公共数据集上取得了良好的性能。在这方面还有很多工作要做首先，我们考虑扩展我们目前的框架，也利用完整的人脸信息。其次，由于我们目前的base-CNN很简单，如果我们使用更先进的网络结构，就有可能进一步提高其性能。15引用1. 张，X.，Sugano，Y.，Bulling，A.：使用无监督注视目标发现的日常目光接触检测。在ACM用户界面软件和技术研讨会（UIST）的会议录中。（2017）1932. Sugano，Y.，张，X.，Bulling，A.：Aggregaze：对公共显示器上观众注意力的集体估计。在ACM用户界面软件和技术研讨会（UIST）的会议录中。（2016）8213. 太阳，X.，Yao，H.，Ji，R.，Liu，X.M.：扫视眼球运动与视觉显著性之统计模型。图像处理IEEE Transactions on 23（11）（2014）46494. Cheng，Q.，Agrafiotis，D.，Achim，A.，Bull，D.：用于宽视角的视线位置预测。IEEETransactionImageProcessing22（12）（2013）49185. Hansen，D.，Ji，Q.：在旁观者眼中：眼用模型与眼用模型的研究概况。IEEETrans. 参见P.A.M.I32（3）（2010）4786. 张，X.，Sugano，Y.，Fritz，M.，Bulling，A.：野外基于外观的凝视估计。IEEE计算机视觉与模式识别会议。（2015）45 117. 朱伟，Deng，H.：具有深度学习和几何约束的单目自由头3d注视跟踪。IEEE International Conference on Computer Vision（ICCV）（2017年）8. 莱佩蒂Moreno-Noguer，F.，Fua，P.：Epnp：pnp问题的精确O（n）解。国际计算机视觉杂志81（2）（2008）1559. 森本角Mimica，M.：用于交互式应用的眼睛注视跟踪技术。CVIU98（1）（2005）410. Guestrin，E.，Eizenman，M.：使用瞳孔中心和角膜反射的远距离注视估计的一般理论。IEEE生物医学工程学报53（6）（2006）112411. Zhu ， Z. ， Ji ， Q. ：自然头部运动下的新型视线跟踪技术。IEEETransactionBimedicEnGiner ing54（12）（2007）224612. Nakazawa，A.，Nitschke，C.：通过角膜表面反射的注视点估计将在视觉上实现。 In：ECCV. （2012）15913. 瓦伦蒂河塞贝，N.，Gevers，T.：结合头部姿势和眼睛位置信息进行凝视估计。IEEETransactionsonImageProcessingAPublicationoftheI/OSignalProcessingSociety21（2）（201 2）80214. 洛杉矶杰尼科恩，J.F.：使用人脸正面位置的人无关的3d注视估计。In：C〇m puterVisisi n andPater n Re cognitio nWo rks ho ps。（2016）79215. Funes Mora，K.A.，Odobez，J.M.：几何生成注视估计（g3e）用于远程RGB-D相机。In：IEEE Computer Vision and Pattern Recognition Confere.（2014）177316. Xiong，X.，中国农业科学院，刘志，Cai，Q.，张志：使用RGBD相机的眼睛注视跟踪：与RGB解决方案的比较。第四届国际普适性眼科治疗和眼科手术研讨会（PETMEI2014）（2014）111317. Wang，K.，Ji，Q.：基于3d可变形眼脸模型的实时视线跟踪IEEEInternational Conference on Computer Vision（ICCV）（2017年）18. Duchowski ， A.T. ：眼动追踪应用的广度优先调查。BehaviorRearchMethodsInstrunmentsComp uters34（4）（2002）45519. Tan，K.，Kriegman，D.，Ahuja，N.：基于外观的眼睛注视估计。In：WACV （2002年）19116Y. Cheng，F.鲁和X。张20. Baluja，S.，Pomerleau，D.：基于人工神经网络的非侵入性视线跟踪。卡耐基梅隆大学21. Xu，L.Q.，马钦，D.，Sheppard，P.：提出了一种新的实时非侵入式数据采集方法。 In：BMVC. （1998年）42822. Lu，F.，Sugano，Y.，Okabe，T.，Sato，Y.：用于基于外观的注视估计的自适应线性回归。模式分析和机器智能， IEEETransac-tions 〇 n36（10）（2014）203323. 威廉斯岛Blake，A.，Cipolla，R.：基于S3GP的稀疏半监督可视化映射In：CVPR. （2006）23024. Schneider，T.，Schauerte，B.，Stiefelhagen，R.：用于基于人独立外观的注视估计的流形对准。在：专利研究国际会议（ICPR）上。（2014）116725. Lu，F.，陈旭，Sato，Y.：经由未校准的注视点接收的基于外观的注视估计。IEEETRANSACTIONSONIMAGEPROCESSIG26（4）（2017）154326. Sugano，Y.，Matsushita，Y.，Sato，Y.，Koike，H.：基于外观的视线估计与鼠标操作的在线校准。 IEEE Transactions onHuman-MachineSystems45（6）（2015）75027. 莫拉K.A.F. Monay，F.，Odobez，J.M.：Eyediap：一个用于开发和评估rgb和rgb-d相机的凝视估计算法的数据库。在：系统集成的EyeTrackingReeear ch a r chandA ppl i cati ons。（2014）25528. Wood，E.，Morency，L.P.，Robinson，P. Bulling，A.：从一百万个合成图像中学习基于外观的凝视估计器。 In ： Biennial ACM SymposiumonEyeTrackingResear ch&Applications. （2016）13129. Krafka，K.，Khosla，A.Kellnhofer，P.，Kannan，H.，Bhandarkar，S.，Matusik，W.，Torralba，A.：每个人的眼动在：计算机视觉和模式识别.（20 16）217630. 张，X.，Sugano，Y.，Fritz，M.，Bulling，A.：它写在你的脸上：基于全脸外观的凝视估计。IEEE计算机视觉和模式识别研讨会（CVPRW）。（2017年）31. Lu，F.，Sugano，Y.，Okabe，T.，Sato，Y.：通过眼睛图像合成的基于外观的头部姿态自由注视感测。国际模式识别会议。（201 2）100832. Sugano，Y.，Matsushita，Y.，Sato，Y.：使用视觉显著性的基于外观的注视估计。IEEE Transactions on Pattern Analysis Machine Intelligence 35（2）（2013）32933. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深度卷积神经网络。在：神经信息处理系统的进展。（2012年）34. Sugano，Y.，Matsushita，Y.，Sato，Y.：基于外观的三维几何建模的合成学习。 In：ComuterVisinandPater nReco gni

下载后可阅读完整内容，剩余1页未读，立即下载