EasyGaze：手持移动设备的眼动跟踪技术

28 浏览量更新于2024-01-24 收藏 1.88MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

引文：Shiwei ChENG，Qiufeng PING，Jialing WANG，Yijian Chen. EasyGaze：用于手持移动设备的混合眼动跟踪方法。虚拟现实智能硬件，2022，4（2）：173-188DOI：10.1016/j.vrih.2021.10.003虚拟现实智能硬件2022年12月4日第2·文章·EasyGaze：用于手持移动设备陈世伟*，邱峰平，王佳玲，陈毅浙江工业大学计算机科学与技术学院，浙江杭州310023*通讯作者，swc@zjut.edu.cn投稿时间：2021年7月30日修订日期：2021年9月16日接受日期：2021年10月7日国家自然科学基金（61772468，62172368）、浙江大学基础研究基金（RF-B2019001）资助。摘要背景眼动跟踪技术在移动设备上的应用已经取得了显著的进展。然而，由于计算能力有限和上下文的复杂性，传统的基于图像特征的技术不能准确地提取特征，从而影响性能。方法提出一种基于外观和特征的眼动跟踪方法。进行面部和眼睛区域检测以获得用作外观模型的输入以检测特征点的特征。利用特征点生成角点中心-瞳孔中心等特征向量，计算注视点坐标。结果为获得性能最佳的特征向量，在不同图像分辨率和光照条件下比较了不同特征向量的性能，结果表明，当图像分辨率为96 × 48像素，光源从眼睛前方照射时，在视角为1.93°时，平均注视准确率达到最高。结论与现有方法相比，该方法提高了注视点的准确性，具有更好的实用性。关键词眼动;注视估计;注视;人机交互;眼动跟踪1引言用户可能无法在某些活动（如烹饪或驾驶）期间操作移动终端[1]。此外，当屏幕顶部的用户界面（UI）元素难以到达时，基于触摸的输入受到限制[2]。虽然有语音控制的替代品来操作智能手机和平板电脑，但它们不适用于拥挤或嘈杂的环境。因此，眼动跟踪已经成为一种很有前途的方式与手持移动设备进行交互。除了允许免提交互外，还有一些特定的应用，其中眼动跟踪优于其他模式，例如身份验证[3]和支持运动障碍用户[4]。因此，眼动跟踪技术和基于凝视的移动设备交互的研究取得了进展。然而，由于移动设备的局限性（例如有限的中央处理器2096-5796/©版权所有2022北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2022年12月4日第2(CPU)性能、低相机分辨率和短电池寿命）和复杂的外部因素（诸如各种环境照明、视觉距离、眼睛和屏幕之间的角度以及用户无意识的头部运动），常规的基于特征的眼睛跟踪方法不能确定特征向量和眼睛运动数据之间的精确定量映射关系（例如，注视注视坐标）或在移动设备上保持高精度和稳定性。为了应对这些挑战，研究人员探索了在移动设备上实现眼动跟踪应用的新方法。计算凝视估计的最新进展以及传感器丰富且功能强大的设备的可用性已经在现成的移动设备上实现了普遍的眼动跟踪和基于眼动的交互[1]。例如，已经开发了基于外观的眼睛跟踪方法，以在未经修改的智能手机和平板电脑上实现准确的凝视估计[5]。这些方法使用深度学习方法（e。例如，在一个实施例中，神经网络），不受外部因素（例如，例如，在一个实施例中，环境照明），并且不需要为基于特征的方法调整回归模型参数。所有这些优点使它们便于在移动设备上使用。然而，这些方法的限制是凝视注视估计的低准确度，特别是当与基于特征的眼睛跟踪方法相比时。本研究的目的是提高注视的准确性。因此，提出了一种新的眼动跟踪方法，结合外观和基于特征的方法。实验结果表明，该方法在移动设备上实现简单可行，与其他眼动跟踪方法相比，具有更高的精度（平均视角为1.93°）和更好的稳定性（图像分辨率和环境光照）。此外，它还展示了支持人机交互（HCI）社区开发人员在更多移动应用程序中部署眼动跟踪方法的潜力。本研究的主要贡献如下：（1）提出了一种结合外观和特征的手持移动设备眼动跟踪方法;（2）通过考虑和比较不同的条件，如特征向量、图像分辨率、光照条件、视角和距离、处理时间，以及屏幕区域，这是很少探索在这样的综合评价：（3）我们还比较了我们的结果与那些国家的最先进的外观或特征为基础的凝视估计方法;（4）最后，我们讨论了评估结果和发现及其对可能的应用、挑战和未来方向的影响，范围从设备握持姿势到电池容量和隐私问题。2相关作品2.1眼动追踪方法眼睛跟踪（凝视估计）方法通常可以分为基于特征和基于外观的方法[6 - 8]。(1) 基于图像的方法通常使用传统的图像处理方法来从人眼图像中提取特征。这些特征包括眼睑边缘[9]、虹膜边缘[10]、眼角[11]、瞳孔中心[12]以及由角膜上的外部红外光源的反射引起的角膜反射[13]（称为浦肯野图像[14]）。因此，有必要建立这些特征与注视点坐标（或注视方向）之间的映射关系，并且注视点估计可以随后应用于移动设备。Papoutsaki等人提出了WebGazer，这是一种使用网络摄像头在浏览器上进行可扩展和自校准眼动跟踪的新方法[15]。Holland等人假设瞳孔中心为图像特征，并获得了3.55°视角的眼动跟踪精度[16]。Garcia等人使用USB红外线174Shiwei CHENG et al：EasyGaze：用于手持移动设备的混合眼动跟踪方法高清晰度（HD）摄像头连接到智能手机上捕捉眼睛图像，并计算智能手机屏幕上的凝视固定[17]。然而，这些特征对外部因素高度敏感，并且容易不稳定。(2) 基于外观的方法需要从相机获得的图像，然后使用机器学习学习从2D输入图像到3D注视方向的映射[18]。最近的研究已经将深度学习算法用于大规模训练数据（例如，眼睛图像和相应的注视点坐标），从而提高了在更具挑战性的现实世界场景中注视方向或坐标的估计精度[19]。Zhang等人提出了一种使用多模态卷积神经网络进行基于外观的凝视估计的方法[20]。Krafka等人介绍了一种iTracker，它使用基于端到端外观的方法来估计注视，即不使用任何特征，如头部姿势或眼睛中心位置，以及iPhone和iPad上2.58°视角的准确度[5]。总之，基于外观的方法不依赖于图像特征或显式形状检测，并且它们通常可以处理具有较低分辨率和质量的输入图像，以及比基于特征的方法更长的距离。此外，不需要校准程序，并且最近的方法允许在摄像机前自由3D头部移动[21 <$23]（早期方法假设头部位置固定[18，24 <$26]）。然而，基于外观的方法需要比基于特征的方法更多的人特定的训练数据，以覆盖由自由头部运动引起的眼睛外观的显著变化;因此，它们主要针对特定的领域或人进行评估。主要的研究挑战是教授凝视估计器，不对用户，环境或相机进行假设[19]。此外，与具有基于特征的方法的商业眼睛跟踪器相比，大多数基于基于外观的方法的原型眼睛跟踪系统具有相对低的准确度。最后，由于它们依赖于大量的训练数据，基于外观的方法消耗大量的时间和计算资源。因此，我们结合基于外观的方法的稳定的特征点提取和基于特征的方法的高精度的优点，提出了一种新的混合眼睛跟踪方法。该方法不依赖于大量的训练数据，并且不需要高图像分辨率来提取特征。2.2移动设备上的眼动追踪眼动追踪技术在手持移动设备中的实现有两个阶段：在第一阶段，手持移动设备需要硬件支持，而在第二阶段，眼动追踪和基于眼动的交互可以在现成的设备上执行，而无需任何硬件修改[1]。在21世纪初，智能手机制造商开始在手持移动设备中引入前置摄像头。然而，这些设备的处理能力、电池容量以及相机分辨率有限，并且它们的性能不符合实时眼动跟踪的标准[1]。为了克服在手持移动设备上部署眼动追踪技术时的硬件限制，一些研究人员通过佩戴头戴式眼动追踪器来增强用户[27]，而其他研究人员则通过使用外部摄像头和处理器或构建自己的硬件来增强移动设备[28]，甚至使用远程商业眼动追踪器[29]。在2010年代，移动设备逐渐开始具有更好的前置摄像头和处理器，激励研究人员在未经修改的手持设备上探索眼动跟踪和基于眼动的交互[30]。从那时起，在手持移动设备上实现基于眼睛的交互和细粒度注视估计的研究兴趣已经增加。当设备安装在支架上时，对许多提出的注视估计方法进行了评估。此外，一些高度精确的方法没有进行实时测试[31]。175虚拟现实智能硬件2022年12月4日第23移动设备上的混合眼动跟踪方法据我们所知，没有相关的工作集中在使用混合方法的手持移动设备与前置摄像头。虽然Li等人开发了一种混合眼睛跟踪算法，该算法集成了基于特征和模型的方法，但他们的头戴式原型系统使用外部红外摄像机[32]。在这项研究中，我们提出了一种混合眼睛跟踪方法，只使用红绿蓝（RGB）相机，比基于外观的方法更准确;此外，它比基于特征的方法更有用。3.1基于外观模型在本节中，我们使用堆叠的沙漏网络来训练外观模型。此外，我们使用眼动特征进行分析和计算。具体情况如下：3.1.1数据准备Wood和Bulling[33]开发了一个基于Unity的UnityEyes系统，它提供了一个包含人眼图像和特征点坐标的数据集。此外，该系统可以生成不同分辨率的图像。Zhang等人证明，在图像卷积过程中，基于单眼的特征点效果优于双目图像拼接后的效果[20]。因此，我们使用UnityEyes系统合成分辨率为1280×768像素的右眼图像。如图1所示，首先，提取人眼图像并去除冗余背景信息。为了获得96×48像素的图像，使用最近邻插值方法对提取的人眼图像进行下采样[34]。之后，对图像进行灰度处理，以减小图像尺寸并提高训练速度。最后，高斯模糊被用来过滤掉噪声和丰富的数据集。高斯模糊的核大小为3×3。图1离线图像增强。此外，UnityEyes系统生成了由3D眼睑边缘坐标、瞳孔边缘坐标和瞳孔大小组成的数据集。这些可用于构造图像标签集。提取图像特征点的坐标作为神经网络的标签。以前的研究表明，瞳孔位置的变化可能反映了眼球运动的变化[35]。为了使神经网络快速收敛并加快计算速度，我们消除了冗余的特征信息，并选择了12个特征点进行训练：4个来自瞳孔边缘，8个来自眼睑边缘。3.1.2外观模型的设计与训练具有中间监督的机器学习可以提高模型预测的性能[36]。沙漏网络架构先前已被应用于人体姿态估计，其中主要问题是由于其他身体部位导致的地标遮挡在这里，一个标志性的外观是没有176͂pi= 1我（x，我2Shiwei CHENG et al：EasyGaze：用于手持移动设备的混合眼动跟踪方法更长的信息用于精确定位，并且仅可以使用先验知识。具有中间监督的堆叠沙漏网络首先将每个子沙漏网络的输出与标签值进行比较，然后计算损失函数[37]。基于之前的一项开创性研究，即训练传统的堆叠沙漏网络来估计眼睛区域地标[38]，我们使用前一层计算的特征点位置之间的相关性信息，并比较标签值和损失之间的差异，从而提高模型预测的准确性。因此，本研究采用中间监督训练一个层叠沙漏网络，在保证神经网络模型性能不变的前提下，最小化训练。模型的设计和训练如图2所示。图2眼动跟踪的外观模型框架。对预处理后的输入图像同时进行两种采样方法。一种方法将输入图像比例与1×1卷积核进行卷积，这只会改变深度信息。另一种方法首先通过最大池化方法使用下采样来生成特征图，然后通过最近邻插值方法使用上采样。将两种采样方法得到的深层特征在上层进行融合，然后逐层输出。将输出送入沙漏网络进行训练，并生成相同大小的置信矩阵。置信矩阵便于模型损失的计算。随后，整个过程在沙漏网络的下一层中重复。因为每个训练过程输出表示来自输入图像的特征点的估计的置信矩阵，所以计算估计值（模型的输出）和标签值（地面实况）之间的损失，并且然后将其反馈到神经网络中，从而改善了神经网络的性能。模型估计的准确性。本节中的损失函数定义为：L=∑n ∑P（ x，y）-P<$（ x，y）<$2，（1）其中（x，y）表示要计算的坐标，n表示特征点的数量，Pi（x，y）P_i（x，y）表示由该模型估计的最优值。第12章选择置信矩阵中具有最高概率的点作为图像特征点（每个置信矩阵包含12个特征点）。在训练神经网络模型时，一开始模型的参数空间并没有优化，需要高质量的图像来加速优化。由于培训次数177虚拟现实智能硬件2022年12月4日第2迭代次数增加，参数空间趋于稳定，变化率降低，使模型易于过拟合。为了解决这个问题，我们使用动态高斯噪声[39]模型并动态调整信噪比（SNR）。3.2基于特征模型的视线计算3.2.1特征选择当用户查看屏幕上的某个标记（校准点）时，我们可以提取特定的特征并相应地定义特征向量。之后，我们可以构建一个数据集，其中包括特征向量和相应的标记的坐标。然而，眼睛图像包含许多可以构成许多特征向量的特征点。因此，我们首先评估所有向量的性能，以选择最合适的特征向量。在这项研究中，我们定义的基本特征点，这不会改变沿视线方向。在从眼睛外观模型中提取眼睛图像的特征点后，我们选择了两个合适的特征点，并将它们组合成一个特征向量。Zhang等人选择浦肯野图像的中心作为基本特征点，动态瞳孔中心作为可以反映注视方向变化的特征点[35]。之后，这两个特征点被构造为瞳孔中心和角膜反射（PCCR）的特征向量。在此基础上，我们选择瞳孔中心（PC）作为一个特征点，然后我们选择了三个不同的基特征点来构建特征向量。如图3所示，我们计算了眼睑边缘点包围的图像的一阶矩，并将其定义为眼睛中心（EC），然后我们选择它作为基本特征点，并构建了EC和瞳孔中心（ECPC）的向量。此外，我们使用眼角中心（CC），这是左，右眼角的中心，和眼睑中心（ELC），这是上，下眼睑的中心，分别构建与CCPC和ELCPC的向量。图3基于（a）ECPC;（b）CCPC;（c）ELCPC的特征向量。3.2.2模型训练梯度下降算法[40]对初始值敏感。不适当的初始值会影响算法的精度。Zhang等人研究了个体差异对注视计算的影响。他们通过实验发现，当不同用户在同一位置看屏幕上的同一点时，注视点计算的结果高度一致[41]。差异主要是由用户的注视方向与眼睛的光轴之间的不同角度（Kappa角）引起的。由于这些个体差异，用于计算注视固定的映射模型不能通用。当具有显著个体差异的映射模型的参数（来自现有用户）被用作梯度优化参数（对于新用户）的初始值时，最优参数的空间可以更快更好地近似。在此基础上，提出了一种具有初始值的自适应梯度下降算法。感知哈希算法用于计算现有参与者（校准后）和具有轻微个体差异的新参与者的眼睛图像的相似性。该算法使用图像的低频信息来计算哈希指纹[42]，并计算相似度178αi我、（5）i= 1αiviviFiShiwei CHENG et al：EasyGaze：用于手持移动设备的混合眼动跟踪方法通过将散列指纹的汉明距离与现有的和新的参与者的眼睛图像进行比较来识别图像。之后，使用梯度下降算法来训练模型并优化参数。为了加快优化参数的速度，我们采用了带有动量项的批量梯度下降[43]。为了获得参数，我们将模型转换为以下公式：fα（ xv，yv）=α0+α1xv+α2yv+α3xvyv+α4x2v+α5yv2（2）2 2fβ（ xv，yv）=β0+β1xv+β2yv+β3xvyv+β4xv+β5yv其中，α0、α1、α2、α3、α4、α5、β0、β1、β2、β3、β4和β5是要拟合的系数。（xv，yv）表示特征向量;xv和yv分别表示X轴和Y轴坐标;fα（xv，yv）和fβ（xv，yv）表示将向量（xv，yv）代入公式计算出的X轴和Y轴坐标此外，随机选取m个样本数据作为批数据，计算批数据的误差。损失函数公式如下：J（ α）=∑m（f（ x，y）-y）2，（3）其中，αi表示第i个样本对应的模型参数，fαi（xvi，yvi）表示使用上述公式得到的计算结果，yfi表示标签值。在损失函数中，计算每个特征值的偏导数，偏导数函数是损失函数中的梯度信息。在传统的梯度下降算法中，参数应沿梯度方向更新，以最小化损失函数。部分导数函数公式如下：αJ （α i）=J（α+αi）-J（α），（4）其中，α i表示X轴方向上的增量，J（α+α）表示相应的函数值。Qian等人对传统的梯度下降算法进行了优化，提出了一种带动量项的梯度下降算法。动量项表示参数在某一时刻的下降速度[43]。在学习批优化器中加入动量项，可以累积上次的动量，加快参数收敛，降低噪声数据的影响。的势头项计算为vti=γvti-1+ηαJ（αi）αi=αi-vti其中vti表示当前时间的动量，vti-1表示前一时间的动量，动量参数γ表示前一时间的动量的权重，其被归一化（从0到1）并设置为0.9，η表示学习速率（例如，0.01），根据动量项vti更新αi，代入拟合方程继续迭代，直到损失或迭代次数达到预定阈值。3.3注视估计在这项研究中，移动终端上的眼动跟踪方法不需要外部摄像头或其他硬件。我们使用移动终端的前置摄像头来捕获用户的面部图像，然后执行面部和眼睛检测。此外，如第3.1.2节所述，我们将提取的眼睛图像作为外观模型的输入，以提取特征点（四个瞳孔和八个眼睑边缘点）。此后，构建特征向量并将其导入映射模型，如第3.2.2节所述，以估计凝视注视。为了验证我们提出的方法的可行性，我们179虚拟现实智能硬件2022年12月4日第2进行了实验分析，并与其他方法进行了比较。注视注视的计算过程如图4所示。图4凝视固定的计算。人脸和眼睛检测方法都采用基于Haar特征的自适应梯度上升算法。该算法首先将原始输入图像划分为若干个子窗口，然后将这些子窗口导入级联分类器进行Haar特征提取。Haar特征是一种人工设计的特征，与检测窗口的大小无关。在检测开始时，检测窗口的大小与原始输入图像的大小相同，并且窗口被缩放一定步长（例如，2)然后我们遍历整个图像来检测可能的人脸区域。此后，以指定倍数放大检测窗口，然后遍历图像，直到检测窗口的尺寸超过原始图像的尺寸的一半。将提取的眼睛图像作为外观模型的输入，提取图像特征点。之后，构建CCPC向量并导入映射模型以估计注视。4实验结果及分析4.1注视的准确性从当地参与者库中招募了12名参与者（10名男性和2名女性，年龄23-28岁，8名戴眼镜）。所有参与者都被告知了实验的程序，并在实验前签署了同意书。所有实验均由大学实验室伦理委员会（类似于IRB）批准。实验在智能手机上进行（具有Android OS）。这款智能手机有一个6.53英寸的屏幕，分辨率为2244× 1080px，屏幕长度和宽度为15.82cm×7.72cm，CPU频率为2244 × 1080px。2.6GHz，6GB RAM。将智能手机水平放置并用支架固定在参与者面前，参与者与智能手机之间的距离设定为约30 cm。实验设置如图5所示。参与者被要求在实验前完成校准。随后，屏幕上显示了与校准点不一致的六个在一次试验中，测试点停留了一段时间，测试和要素180图5实验装置。Shiwei CHENG et al：EasyGaze：用于手持移动设备的混合眼动跟踪方法同时记录来自眼睛图像的点。该试验重复了10次。为了更好地比较注视固定的平均准确度，在自然环境光源（例如，早晨在实验室关灯），眼睛图像分辨率固定在三个不同的尺度：26× 13、52×26和96×48像素。因此，在该实验中有三个区组，因此总共进行了30次试验。结果如图6所示。我们发现特征向量有不同的影响注视点的准确性，其中向量CCPC的准确性最高，分别达到2.15°、2.01°和2.59°图6在不同特征向量和图像分辨率下的注视固定的平均准确度（误差条表示95%置信区间）。度，图像分辨率分别为52×26，96×48和26×13像素。向量ELCPC获得了低精度的注视固定，这是因为当用户看着屏幕上的每个点时，眼睑轻微的颤动。例如，当在智能手机上观看屏幕的底部时，瞳孔随着眼睑向下移动。此外，眼睛图像的分辨率影响精度，即，分辨率为52×26和96×48像素的眼睛图像具有高精度，而分辨率为26×13像素的眼睛图像具有低精度。这可能是因为低分辨率可能导致大量信息丢失，并且特征点变得不稳定，这降低了注视固定的准确性。此外，参与者还完成了在各种环境照明条件下的注视精度实验（眼睛图像分辨率固定为96×48像素，并使用CCPC矢量）。我们选择了一个没有自然光源的房间，只打开了一盏LED灯。此后，我们设置了三种不同的条件：（1）灯光从正面照亮参与者的脸，（2）从侧面照亮，（3）不使用光源（只有来自智能手机屏幕的微弱灯光）。在这些照明条件下的注视固定的准确性如图7所示。正面光源的平均视角精度最高，为1.93°;侧面光源和无光源的平均视角精度较低，分别为2.82°和2.14°此外，虽然侧光精度低于前灯精度，但前者保持类似于或高于其他注视固定计算方法的精度（表1）。综上所述，当使用图像分辨率为96×48像素的CCPC向量和来自前方的照明时，我们的眼动跟踪方法实现了凝视注视估计的最佳性能。结果表明，最低的视角为4.41°，最高的视角为1.07°（M=1.93，SD=0.95）。4.2处理时间由于实时操作对于移动设备（诸如智能手机）上的眼动跟踪是重要的，因此有必要探索处理时间和图7不同环境光照条件下的注视精度（误差条表示标准差）。181虚拟现实智能硬件2022年12月4日第2表1本研究中的方法与其他眼动追踪方法参考文献方法眼睛图像分辨率（像素）平均精度（°）[48个]基于外观448×4484.8度[33个]基于特征多分辨率2.68度[五]《中国日报》基于外观80×802.53cm（视角不可用）[49个]基于外观40×726.375度[50个]基于外观28×286.7度[46个]基于特征30×1003.17cm（视角不可用）[47个]基于特征65×402.80°- 3.56°我们混合96×481.93度分析在真实移动环境中的可行性。因此，我们将成功识别面部后的时间点表示为t0，将成功计算注视注视后的时间点表示为t1。一帧的注视注视的计算时间可以表示为t1<$t0，并且帧速率（每秒帧，fps）可以计算为fps=1/（t1<$t0）。我们在智能手机（Android操作系统，CPU频率为2.6GHz，RAM为6GB）上进行了注视固定估计程序，fps的结果为M=22.86，SD=1.51。实验结果表明，本文提出的移动设备注视点计算方法具有良好的稳定性，处理速度满足智能手机实时眼动跟踪的要求。此外，我们的fps优于现有研究工作中报道的fps（10-16fps）[20，33，44，45]。因此，我们得出结论，当我们提高硬件配置，如CPU频率时，fps会增加。4.3与其他眼动追踪方法的我们将本研究中提出的眼动跟踪方法与现有方法进行了比较。如表1所示，在各种场景中使用的基于外观的眼睛跟踪方法存在明显的缺点，即准确度相对较低;因此，在智能手机上的应用将受到限制。对于基于特征的眼动跟踪方法，例如[33，46，47]，准确度相对较高，但这些方法需要较高的图像分辨率，并且在复杂场景下，特别是在不同和动态光照条件下，无法保证凝视精度的稳定性。相比之下，我们的方法不仅具有高准确性，而且还继承了基于外观和基于特征的方法的优点，例如较小规模的数据集，高效率和稳定性。此外，我们的方法可以很容易地在智能手机上实现，因此非常适合实际的移动HCI应用。综上所述，我们的方法具有以下优点：（1）视线固定精度最高，平均视角为1.93°，图像分辨率为96×48像素;（2）在各种环境光照条件下表现良好，可以应用于各种实际场景，例如当瞳孔部分被覆盖时;（3）不需要高端相机参数，即使在26×13像素（2.59°视角）的图像分辨率下也表现出良好的性能;（4）易于在移动设备上实现，不需要额外的硬件或大量的训练数据。5讨论5.1特征提取堆叠沙漏网络应用两种采样方法，这两种方法保持相对空间182Shiwei CHENG et al：EasyGaze：用于手持移动设备的混合眼动跟踪方法因此，它可以使用已知特征点的坐标来计算其他特征点的位置。这提高了特征点的稳定性萃取例如，如图8所示，原始训练图像中的眼睑遮挡了瞳孔边缘的大部分特征点。我们的模型仍然可以通过特征点之间的空间位置关系更准确地预测瞳孔边缘点。5.2视角和距离当使用移动设备时，用户面对设备屏幕时有各种头部姿势;因此，眼睛与相机之间的视角和距离也是变化和动态的。因此，我们进行了评估，以探讨眼动跟踪性能，同时考虑到这些因素。如图9所示，智能手机和用户眼睛之间的视觉距离被设置为22 cm、25 cm和28 cm。视角设置为15 °，0°和5°，这意味着相机分别从左，前和右面向用户的眼睛。结果总结见表2。一般来说，当智能手机被设置在参与者头部的左前方位置时，准确度较高，但当智能手机被设置在参与者头部的中前方或右前方位置时，准确度相对较低。这可能是因为智能手机被放在图8来自（a）原始训练图像和（b）预测结果的瞳孔边缘点。图9眼动跟踪精度测试的配置。表2试验准确度结果距离（cm）角度（°）精度（°）M（SD）22‒54.33（0.35）25‒51.75（0.75）28‒51.22（0.52）2203.06（0.46）2503.33（0.45）2801.39（0.98）2253.14（1.44）2551.87（1.37）2853.60（1.56）因此，当智能手机上的前置摄像头朝向参与者的左手时，摄像头可以更详细地捕捉眼睛图像，并在向左移动时获得更高的眼睛跟踪精度。此外，短距离通常导致较低的准确性。这可能是因为图像质量受到距离的影响。5.3屏幕上区域的精度差异此外，我们发现，当参与者看屏幕的不同区域时，凝视的相关准确性不同。我们将整个屏幕划分为九个区域，并为每个区域标记注视的平均准确度。结果表明，右下角区域的准确度高于其他区域（图10）。这可能是因为通过在不同区域中观看屏幕，前置摄像头有时无法捕获足够数量的眼睛图像用于特征点检测，这也可能降低注视固定估计的准确性。183虚拟现实智能硬件2022年12月4日第25.4设计含义移动设备上的眼动跟踪和基于凝视的交互已经研究了十多年。计算机视觉和前置摄像头的最新进展利用了眼动跟踪，使其能够在现成的手持移动设备上交付。高质量甚至深度图10每个区域中注视估计的平均准确度。谷歌的Project Tango和苹果的iPhone X等商品设备上的摄像头将是一个转折点，甚至比头戴式眼动跟踪目前改变移动凝视记录的方式更重要。这些进步可以将移动设备上的眼动跟踪从研究实验室带到消费者移动设备上，从而每天被数十亿用户使用。Khamis等人认为，手持移动设备可以利用用户的凝视进行多种HCI应用，并总结了三个主要应用领域：凝视行为分析、隐式凝视交互和显式凝视交互[1]。例如，隐式注视交互是指对用户的自然眼睛行为做出反应的眼睛跟踪系统。在这种交互模式下，我们的眼动追踪系统可用于支持应用程序，例如，如果用户的视线从屏幕转移，则暂停视频回放。5.5限制、挑战和未来方向由于经济和时间的限制，我们没有招募大量的参与者在不同的背景条件下进行评估。由于眼动追踪在参与者之间差异很大，例如Kappa角的偏差，面部结构和眼窝的大小，我们将邀请更多的参与者在更多场景中进行用户研究，并验证我们方法的鲁棒性。我们的研究结果仅验证了所提出的眼动跟踪方法，该方法可以提高96×48，52×26和26×13像素的低分辨率眼动成像的性能，如先前研究所报告的那样[50]。虽然一些研究人员使用高分辨率图像作为移动眼动跟踪的输入[46，48]，但我们不确定该算法是否可以在智能手机上成功实现。因此，我们将在未来继续对图像分辨率进行进一步的研究。移动技术的发展提出了新的挑战，这些挑战超出了过去使用的硬件的限制。例如，用户并不总是以允许前置摄像头检测到他们的眼睛的方式拿着手机。移动设备可以通过哪些方式来适应受不同手部姿势影响的不同级别的面部和眼睛可见度？在汽车/飞机的自然摇晃或振动的情况下，有哪些方法可以保持凝视估计的准确性？此外，正如我们在本文中提到的，适应移动环境中复杂多变的环境照明条件是一项挑战，特别是考虑到无处不在的广告以及在小区站点设备上进行野外眼睛跟踪研究时。由于移动设备需要定期充电，因此需要高度优化手持设备上的眼动跟踪以降低电池消耗。电池容量不断增加，现在电池充电速度比以前更快。但是，如果算法连续处理前置摄像头，则应考虑降低电池消耗的方法。此外，需要较少处理能力的算法不会使设备过热。隐私问题也是我们研究中最常提到的问题。担心他们的凝视行为会导致泄露他们的兴趣、偏好、ID、密码或其他生物特征认证指标的用户。例如，当使用凝视手势来解锁用户界面时，184Shiwei CHENG et al：EasyGaze：用于手持移动设备的混合眼动跟踪方法如果用户在智能手机屏幕上输入密码或输入应用程序的密码，则存在肩扛冲浪攻击的潜在风险6结论在这项研究中，我们提出了一种混合的眼动跟踪方法在移动设备上的眼动跟踪。首先，我们使用基于外观的方法来提取稳定和有用的眼睛图像的特征，然后我们结合这些特征来生成特征向量。此后，我们使用了一种基于特征的方法，该方法用改进的梯度下降算法优化来计算注视点的坐标。最后，我们进行了实验，发现使用所提出的特征向量CCPC与分辨率为96×48像素可以获得最高的平均精度的注视注视与视角为1.93°。这些结果表明，混合方法优于其他方法，具有显着的有效性和可行性。未来的工作将集中在细化外观模型的神经网络结构和提取更多的特征点来构建特征向量，以及简化校准过程和适应各种复杂上下文以改善用户体验。竞合利益我们声明我们没有利益冲突。引用1Khamis M，Alt F，Bulling A.支持凝视的手持移动设备的过去、现在和未来：调查和经验教训。第20届国际人机交互与移动设备和服务会议论文集。巴塞罗那西班牙，纽约，美国，ACM，2018，1DOI：10.1145/3229434.322945221999年10月20日，陈X '，Marquardt N，Tang A，Greenberg S.胖拇指：使用拇指的接触尺寸进行单手移动交互.第14届国际人机交互与移动设备和服务会议论文集。旧金山，加利福尼亚州，美国，纽约，ACM Press，2012，39-48 DOI：10.1145/2371574.23715823刘东昌，董宝，高翔，王宏宁.利用眼动追踪进行智能手机身份验证。应用密码学和网络安全。Cham：SpringerInternational Publishing，2015，457DOI：10.1007/978-3-319-28166-7_224张晓宇，库卡尼H，莫里斯M R.运动障碍者基于智能手机的凝视手势交流。2017 CHI Conference on HumanFactors in Computing Systems会议论文集。丹佛科罗拉多美国，纽约，美国，ACM，2017，2878DOI：10.1145/3025453.30257905[10]张文辉，张文辉.每个人的眼动追踪2016年IEEE计算机视觉与模式识别会议（CVPR）拉斯维加斯，NV，美国，IEEE，2016，2176DOI：10.1109/cvpr.2016.2396作者：Ji Q.在旁观者的眼中：眼睛和凝视模型的调查。IEEE Transactions on Pattern Analysis and MachineIntelligence，2010，32（3）：478DOI：10.1109/tpami.2009.307张晓春，菅野义伟，布林A.基于外观的方法的评价和对基于注视的应用的影响。在：2019年CHI计算机系统人为因素会议的会议记录。格拉斯哥苏格兰英国，纽约，纽约，美国，ACM，2019，478DOI：10.1145/3290605.33006468Kar A，Corcoran P.对消费者平台中的眼睛注视估计系统，算法和性能评估方法的回顾和分析。IEEE Access，2017，5，16495185虚拟现实智能硬件2022年12月4日第2DOI：10.1109/access.2017.27356339岳X，刘Y.虹膜图像预处理中一种新的眼睑定位算法。光电工程，2018，35（8）：66–7010王建国，宋鄂.视线估计的研究。IEEE Transactions on Systems，Man，and Cybernetics，Part B（Cybernetics），2002，32（3）：332DOI：10.1109/tsmcb.2002.99980911杨文，李文.我的阅读生活：在未修改的平板电脑和手机上使用眼动追踪。2013年ACM普适和普适计算会议论文集（Proceedings of the 2013 ACM Conference on Pervasive and Ubiquitous Computing）苏黎世瑞士，纽约，美国，ACM，2013，283DOI：10.1145/2494091.249417912Hennessey C，Noureddin B，Lawrence P.具有自由头部运动的单相机眼睛注视跟踪系统。在：2006年眼动跟踪研究应用研讨会的会议记录。圣地亚哥，加利福尼亚州，纽约，ACM出版社，2006年，87DOI：10.1145/1117309.111734913朱志文，季庆.自然头部运动下的视线跟踪。2005年IEEE计算机协会计算机视觉和模式识别会议。San Diego，CA，USA，IEEE，2005，918DOI：10.1109/cvpr.2005.14814李东，郝强，黄华.一种新的基于Purkinje图像的视线跟踪方法。光学技术，2007; 33（4）：498DOI：10.13741/j.cnki.11-1879/o4.2007.04.00515Papoutsaki A，Daskalova N，Sangkloy P，Huang J，Laskey J，Hays J. WebGazer：Scalable webcam eye trackingusing user interactions.第25届国际人工智能联合会议论文集。AAAI，2016年，3839–384516Holland C，Komogortsev O.未修改的普通平板电脑上的眼动跟踪：挑战和解决方案。眼动追踪研究与应用研讨会论文集加利福尼亚州圣巴巴拉市，纽约，ACM出版社，2012年，277–280DOI：10.1145/2168556.216861517加西亚·D·辛托斯岛EyeDROID：用于Android SPCL-Autumn的凝视跟踪组件。http://www.itu.dk/~tped/teaching/pervasive/SPCL-E2014/draft01handins/02_EyeDROID%20Gaze%20tracking%20component%20for%20Android.pdf18陈国雄，陈国雄，陈国雄.基于外观的眼睛注视估计。第六届IEEE计算机视觉应用研讨会。诉讼奥兰多，佛罗里达州，美国，IEEE，2002，191DOI：10.1109/acv.2002.118218019张晓春，菅野义雄，弗里茨M，布林A. MPIIGaze：真实世界数据集和基于深度外观的凝视估计。IEEETransactions on Pattern Analysis and Machine Intelligence，2019，41（1）：162-175 DOI：10.1109/tpami.2017.277810320张晓春，菅野义雄，弗里茨M，布林A.基于外观的凝视估计在野外。2015年IEEE计算机视觉和模式识别会议（CVPR）。Boston，MA，USA，IEEE，2015，4511-4520 DOI：10.1109/cvpr.2015.729908121[1] Lu F，Okabe T，Sugano Y，Sato Y.头部姿态自由注视估计的头部运动注视偏差学习。图像与视觉计算，2014，32（3）：169DOI：10.1016/j.i

下载后可阅读完整内容，剩余1页未读，立即下载