实时多人注视估计方法GazeOnce及其应用

34 浏览量更新于2023-10-25 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4197GazeOnce：实时多人注视估计张明芳1，2，刘云飞3，卢峰1，3，*1鹏程实验室，2东京大学3国家重点实验室。北京航空航天大学计算机工程学院虚拟现实技术与系统研究网址：mfzhang@iis.u-tokyo.ac.jp，lyunfei@buaa.edu.cn，网址：www.example.com，lufeng@buaa.edu.cn摘要基于外观的注视估计旨在从单个图像预测3D眼睛注视方向。虽然最近的基于深度学习的方法已经表现出出色的性能，但它们通常在每个输入图像中假设一个校准的面部，并且不能实时输出多人凝视然而，同时注视估计多人在野外是必要的现实世界的appli-阳离子。在本文中，我们提出了第一个单阶段的端到端的视线估计方法，GazeOnce，它能够同时预测图像中多个人脸（>10）的视线方向此外，我们设计了一个sophisticated数据生成管道，并提出了一个新的数据集，MPSGaze，其中包含多个人的完整图像与3D凝视地面真相。实验结果表明，我们的统一框架不仅提供了更快的速度，但也提供了一个较低的凝视估计误差与国家的最先进的方法。该技术在具有多个用户的实时应用中是有用的。1. 介绍目光注视是揭示人类意图的重要渠道之一。它已被广泛应用于人机交互[23]，虚拟/增强现实[3，26]，医疗诊断[4]和监控系统[17]。为了估计注视方向，已经开发了各种系统。然而，在大范围的环境中快速且准确地计算注视方向仍然具有挑战性。随着深度学习的发展，基于外观的视线估计受到越来越多的关注，即，使用由普通相机捕获的面部图像的注视估计。现有方法的主要缺点是：1）它们通常仅支持针对单个人的注视估计，而对于具有不同头部的多个人的注视估计* 通讯作者。本研究得到了国家自然科学基金（61972012）的部分资助这项工作是在M。张4540353025201510501 2~7 8~16>16面数/帧图1.与以前的基于外观的注视估计方法[6，30，32]相比，我们的方法是唯一一种可以随着输入图像中人脸数量的增加而保持实时速度的方法考虑到不同人脸分辨率下的平均注视精度，我们的方法也达到了最佳性能。实验设置与Tab相同。3 .第三章。姿势的探索较少; 2）它们需要对图像进行预处理，即，人脸图像的裁剪和校准图2示出了现有系统的典型流程该方法首先利用人脸检测器提取人脸感兴趣区域，然后利用检测到的人脸特征点对人脸进行标定，最后将标定后的人脸输入视线方向估计系统。可以看出，系统误差在这些步骤之后累积此外，它们的计算复杂度与图像中的人数成正比，并且当每帧中有超过5张人脸时，它们通常无法实时操作，如图所示。1.一、在本文中，我们将多人注视估计重新构建为单阶段回归任务，该任务直接将图像像素映射到多个注视方向。具体地，我们提出了第一个单阶段注视估计方法，凝视误差（越小越好）22.620.524.8我们的[32][30个]ETH-1823.226.2ETH-5018.121.4GazeTR24.121.9全断面21.823.120.721.120.617.117.316.917.014.9我们13.5帧/秒实时4198视线估计正常化定位地标人脸定位…………3D凝视注视投影电子邮件www.freestock.com/free-photos/group-college-friends-looking-very-happy-151033616图2.现有的基于外观的凝视估计（AGE）方法和我们的方法之间的比较AGE方法通常对每个人脸逐个进行定位、归一化和注视估计我们提出了第一个一阶段的方法，同时估计多个人在一个通行证的注视方向。即，GazeOnce，其估计一次通过内的所有人类注视方向。所提出的方法不仅估计视线方向，但也预测辅助人脸信息，包括边界框和面部标志。此外，我们精心设计了一个基于投影的自我监督损失的3D凝视估计。另一个需要克服的困难是数据集。基于外观的注视估计依赖于具有面部图像和地面实况注视方向的高质量数据集。然而，获得凝视地面实况是非常具有挑战性的。许多凝视数据集已经发布[30，32]，而它们通常在严格控制的环境中记录每个人的数据，导致图像风格和身体姿势有限。另一方面，3D注视方向的手动注释是耗时的并且容易出错的。为了训练我们的GazeOnce方法，需要一个新的高为此，我们提出了一种复杂的凝视交换方法，用于生成高质量的多人凝视数据集。所提出的MPSGaze数据集对人和场景的数量没有限制，并且也易于扩展。这使得多人注视估计的训练和评估成为可能。基于所提出的数据集，我们的方法不仅实现了实时多人注视估计，而且在估计误差和运行时间方面优于现有技术的方法，如图所示。1.一、综上所述，我们的主要贡献如下：• 我们提出了第一个一阶段的视线估计方法，GazeOnce，其可以在单个图像中同时估计多个用户注视此外，我们设计了一个基于投影的自监督策略，可以进一步提高视线的准确性。• 我们提供了一个新的凝视数据集MPSGaze，它使一个阶段的凝视估计训练和评估。这个数据集是由一个复杂的交换凝视过程产生的，以产生多人的完整图像与他们的凝视地面真相。• 我们的方法在凝视精度和速度方面优于最先进的方法，特别是在大量人脸的情况下。2. 相关作品基于外观的凝视估计（AGE）。年龄一直是一个长期存在的计算机视觉问题[15，16]。最近的基于深度学习的AGE方法[7，9，31，32]使用各种策略显著提高了准确性，例如从粗到精的方法[5]，对抗学习方法[24]，自我注意方法[2]等。同时，已经提出了大规模凝视数据集[9，13，22，30]。它们中的大多数是在实验室环境中收集的，其中具有多视图相机、人类参与者的3D位置和注视目标等的严格设置。该过程总是导致这些数据集在有限数量的场景中仅包含单个人脸图像。相应地，当前的AGE方法都假设在输入图像中仅存在一个校准的面部。然而，这将导致当前AGE方法的速度取决于输入图像中的面部的数量的缺点。当图像中有多个人时，大多数方法不能实现实时性能。实时多面处理。人脸理解因其广泛的应用而受到人们的关注.已经提出了许多用于面部局部化[18]、面部表情识别[27]、头部姿态估计[1]等的方法。随着目标检测方法的发展[14]，用于多面理解的一阶段方法由于其轻量级设计和高精度而受到实时应用的青睐。例如，人脸检测方法[8，18]应用单阶段架构并为人脸特征设计更有效的模块。相应地，大规模的人脸数据集[28]已经通过采用大量的手动注释来构建。此外，研究人员发现，这是一种有效的方法[20，29]进行多任务（地标，头部姿势，性别等）。人脸检测是因为4199∈F∈ ∈ ∈∈--Σ面部匹配（第二节）3.1.1）面属性计算凝视交换（第3.1.2）宽脸人脸检索换脸（更好的鲁棒性）地面实况凝视附加FW正常化矩阵RW地标&（I）[Eq.头部姿势$（&#，&$）[等式（2）]反向归一化逆矩阵R-1W-1fw ′使用泊松混合的无缝克隆fefe年龄种族性别评分：2评分：评分：（已选定）评分：3一百万...fefeETH-XGaze（标准化）基本属性过滤器辅助属性过滤器眼睛交换（完美匹配）fw ′地面实况凝视附加图3. MPSGaze的生成。为了创建具有凝视地面真实的多人完整图像的数据集，我们在Widerface [28]数据集（具有面部边界框标签）和ETH-XGaze [30]数据集（具有凝视标签）之间进行凝视交换。流水线由匹配和交换两个阶段组成对于Widerface中的每个合格人脸，我们通过过滤各种人脸属性从ETH-XGaze中检索最近的人脸在匹配结果的基础上，设计了两种凝视交换策略，交换眼神，交换眼神。这些任务共享共同的面部特征。受这些工作的启发，我们建议开发一个一阶段的凝视估计方法。3. 多人交换注视数据集我们提出了一个新的多人交换凝视数据集，MPSGaze，我们的任务的凝视估计多人在一个阶段。据我们所知，现有的数据集要么只包含面部信息（例如，装订盒、地标等）或者包含具有注视标签的归一化的单个因此，我们的第一个障碍是构建一个包含野外多个人和相应的凝视地面真相的数据集。为此，我们建议合并人脸数据集和凝视数据集的优点，以在一个阶段中实现多人凝视估计的训练和评估。在下文中，我们首先介绍生成MPSGaze数据集的管道，然后展示数据集的细节。其中A是从单面图像I中提取的属性。在这里A=一个linguists，姿势，年龄，种族，性别和linguistsR68×2，一个姿势R2，a年龄R9，一场比赛R7，性别R2.该功能由国家执行-最先进的方法[12，25]。接下来，对于Widerface [28]中的每个合格面fw，我们从ETH-XGaze [30]中检索最近的面fes。我们的检索实现如下。1)我们首先在ETH-XGaze [ 30 ]中对人脸进行基本属性（我们选择性别）过滤，以与f w匹配。chosen的脸被称为f-e。2）fw根据其标志进行归一化，归一化步骤与ETH-XGaze一致[30]。3）我们保存图像扭曲矩阵W和头部姿态旋转矩阵R。4)我们计算了fw和fe中的人脸之间的地标和头部姿势的差异。通过一个评分函数，我们共同计算出f-e3.1. 生成管线我们选择最大和最常见的凝视数据集S（fe，fw）=τ∈{lpose，pose}ατ∗|aτ，w−aτ，e|、（二）可用的ETH-XGaze [30]和人脸检测数据集Widerface[28]，用于我们的任务。所提出的方法包括两个阶段，人脸匹配和凝视交换，如图所示。3 .第三章。3.1.1面部匹配图的左半部分3示出了两个数据集之间的面部匹配的过程。首先，我们通过以下方式对Widerface [28]和ETH-XGaze [30]中的其中ατ由比较匹配结果的经验确定5)我们保留n个得分最高的面孔用于最终过滤，即属性过滤，其中我们通过年龄和种族差异的联合测量来对左侧n个面孔的得分进行归一化。6）最后，我们选择在f e中具有最终最高得分的面f es作为Widerface [28]中的f w的匹配。3.1.2地面实况可用凝视交换我们提出了一种凝视交换方法来产生合成的A=F（I），（1）faceimagesfw′用地面实况凝视G′。通过仿射42004∼作为×∗pLLL凝视数据集MPIIGaze [32][30]第三十话360 [13]MPSGaze（我们的）#people #faces/imageUnconstrained15 1 ×110 1 ×238 1 ×∼10 1∼30 ✓表1.与其他凝视数据集的比较在现有的数据集中，有限数量的人主体被要求看预设目标以收集受约束的注视数据。图4.具有我们的MPSGaze数据集中的地面实况凝视标签的凝视交换结果（第二行）。详情请放大变换时，可以保留FE的地面实况凝视。该过程显示在图的右侧部分。3 .第三章。给定一对匹配的脸fw和fes，我们交换凝视如下。1）我们首先通过W-1和R-1扭曲fes以与原始fw匹配，其中W和R是图像扭曲矩阵和头部姿态旋转矩阵。这两个矩阵在面部匹配步骤中预先计算。2)然后，我们加载由等式（1）计算的匹配误差（2）根据面部对之间的界标和头部姿势差异。3）当误差在给定阈值之下时，我们仅通过将fw替换为fes来交换眼睛区域。4)否则，我们保留fes的整个人脸区域来替换fw。该操作产生更鲁棒的结果，因为面部fes的头部姿态信息被保留。5）接下来，我们采用泊松混合方法[19]无缝融合两个重叠的面，以达到真实感6）最后，我们将逆旋转矩阵R-1应用于fes的原始注视标签上，作为最终经变换的图像fw′的地面实况注视g ′。3.2. 关于MPSGaze在Widerface [28]训练数据集中，交换了24282张脸，留下了太小，太模糊，遮挡太多的脸。图中示出了一些示例。4.第一章如Tab.所示。1，与其他凝视数据集相比，MPSGaze包含2万人的图像，每个图像具有多个面孔此外，MPSGaze还具有[28]的优点，即它包含了各种专门设计的野生场景4. 方法在获得能够进行一阶段多人注视估计训练的MPSGaze数据集之后，我们提出了一种新的多人注视估计方法。4.1. 基于多任务学习的人脸检测和视线估计我们为建议的GazeOnce配备了多任务学习策略，即，联合优化面部定位和注视估计。受RetinaFace [8]的启发，我们采用了类似的架构来完成我们的任务。建议的GazeOnce主要由两个组件组成：功能提取器和下游头。特征提取器旨在将来自输入图像I的不同面部编码成潜码。为了获得丰富的嵌入，其中具有不同尺度的面部可以被平等对待，我们采用[8]中的特征具体来说，特征金字塔的不同层次产生不同尺度的特征，这些特征是使用自上而下和横向连接从MobileNet [21]或ResNet [11]的相应阶段的输出中计算出来的接下来，对于每个特征水平，实施上下文模块[18]以增加感受野。特征提取对于面部检测任务和注视估计任务都是有效的，因为它们共享除了眼睛区域信息之外的所有面部信息，诸如头部姿势。在[32]中也有类似的结论。在特征提取之后，11个卷积被用于不同任务的下游头。对于人脸检测任务，我们采用了三个头，即分类头，定位头和地标头。这三个头分别用于预测存在概率yp、边界框yb和地标位置yl。我们设计了一个3D凝视头和三个辅助投影头用于凝视估计任务。这些头部估计3D注视yg和三个2D注视投影yF、yT和yS。对于每个训练锚点i，我们最小化多-任务损失：L=αL脸+βL凝视，（3）其中：L面= L类（yi，yi）+λ1yi L盒（yi，yi）GazeOnce框架。架构概述如图所示五、我们模型的输入是一个完整的图像ppp+λ2yiLlandmark（yi，yi），BB（4）包含任意数量的面部，并且输出是多用户注视方向。我们提出了第一个在一个阶段估计多人注视的模型，而不是一个接一个地处理每个人脸。其中，符号为对应的地面真值。地标回归是一个辅助任务，有利于面检测，这在[8，29]中得到了证明。我们将在下一节介绍凝视原始交换4201√--C3P3C2P2C1P1分类头X定位头标志头3D凝视头C2D凝视头-F2D凝视头- T 2D凝视头-S布吕普布布里尔布吕格F电子邮件公司简介输入图像特征提取金字塔网络上下文模块多任务下游头图5. GazeOnce框架概述。特征提取基于特征金字塔，然后是上下文模块[18]，其采用自RetinaFace [8]。接下来，我们计算每个正锚点的注视估计和面部定位的联合损失。为了实现更高的凝视精度，我们建议从3个方向投影的3D凝视作为辅助监督信号，并设计一个自我监督损失函数来约束来自不同视图的预测是相等的。4.2. 基于二维投影的自监督三维视线估计我们提出了一个基于投影的自我监督技术，我们的方法。想法是将3D注视投影到三个平面上以形成三个2D注视估计子任务，这以自监督方式约束原始3D注视估计受3D头部姿态估计工作[1]的启发，该工作将3D姿态投影到图像平面上以进行监督，我们在3D注视估计任务中应用投影操作然而，我们注意到，将3D凝视投射到不同平面上可能会导致不同的表现。图6示出了3D注视在三个平面上的三个投影，即前平面（图像平面）、侧平面和顶平面。当在3D注视中存在特定变化dg时，其像素的投影变化在三个平面上是不同的例如，侧平面上的2D投影点落在原点附近，并且因此对应的ing像素变化较大。为了对这种差异进行数学建模，我们引入了2D凝视灵敏度（GS）的概念：dg dφ rGS=。（五）dx dxr2−x2GS定义3D注视角相对于投影平面上的位置X处的变化dx的相应变化dg根据等式（5）x离原点越远，二维GS越大。显然，较低的2D GS意味着在给定固定像素分辨率的情况下，相应的3D注视方向的不确定性较低然而，如图如图6所示，2D GS在具有大x值的两个投影平面中可以是大的因此，我们建议使用不同平面上的所有三个投影，以确保存在至少一个较低的2D GS。我们在我们的网络中实现了这个想法。如图5、除了3D凝视任务之外，我们引入了三个额外的子任务来估计投影平面上的三组2D凝视点，即y F、y T和y S，其中'F'、'T'和'S'代表前、顶和侧。然后，可以通过分别检查三个2D注视输出中的每一个与3D注视输出yg的三个投影yF、yT和yS之间的一致性来构建自监督机制，如图1B所示。五、具体地，yg的三个投影遵循以下等式：F（θ，T（θ，ΠS(θ, ϕ) = [−r ∗ cos ϕ ∗ cosθ,−r ∗sinθ],（六）图6.将3D凝视的2D投影可视化到3个平面上。当3D注视中存在变化dg时，其像素中的投影变化在三个平面上是不同的。式中，θ是投影函数，r是半面宽，θ，θ是yg的俯仰和偏航分量。如上所述，通过将3D注视同时投影到三个平面上，总是存在至少一个具有低2D GS的投影，这有利于估计。Tab中的结果支持这一点。4.第一章Xy===F阿提哈3D凝视的变化（）&X3D凝视2D凝视投影前投影基于投射的自我监督4202ΣΣ∗表2. NVIDIA GeForce RTX 2080上的运行速度比较。我们的单阶段凝视估计方法可以以与RetinaFace [8]（SOTA人脸检测方法）几乎相同的速度运行。假设现有的AGE方法[6，30，32]采用RetinaFace [8]进行人脸检测，花费时间T（平均25 ms），它们在Widerface [28]验证集上测试的运行速度的平均值如表所示方法Ours（MobileNet）全脸[32]ETH-18 [30]ETH-50 [30]GazeTR [6]Time/image (ms)24.93T（φ25）+1.21× #面T+3.15 × #面T+6.64× #面T+9.98× #面表3.在MPSGaze上评估的注视误差。它显示了我们的方法与现有AGE方法之间的比较，包括全脸[32]，ETH-18 [30]，ETH-50[30]和GazeTR [6]（在ETH-XGaze数据集上训练[30]）。我们的方法在对具有各种尺度的面部进行分级比较时显示出更高的准确性，即使与基于变换器的方法相比[6]。方法骨干输入注视误差（越低越好）w.r.t.面宽30-6060-9090-120120-150150-180180-210210-240>240全断面AlexNet1个标准化面24.9920.0017.5617.0316.4714.7413.4312.31ETH-18ResNet181个标准化面28.8921.9316.6614.9014.3312.4411.6810.32ETH-50ResNet501个标准化面29.8221.8716.9314.7613.8711.7911.139.98GazeTRResNet181个标准化面24.5116.8414.5913.3713.6511.7210.719.96我们MobileNet0.251完整图片22.9417.5513.6911.0811.139.418.177.74我们ResNet501完整图片21.1713.7710.587.98.576.686.015.56损失设计。通过将三个平面上的三个2D注视估计点yF、yT、yS约束为等于3D注视估计方向yg的三个投影，我们的自我监督提高了最终注视估计准确度。通过使用以下损失函数实现自我监督：这些面孔的正常化。实验表明，我们的方法不仅在MPSGaze的合成数据上实现了更高的准确性和速度，而且我们还测试了来自人类专家的视线注释的真实全图像，我们的方法仍然比现有的AGE方法表现得更好。5.2.与现有AGE方法的Lself=τ∈{F，T，S}|1e − p τ + p τ，（7）|1∗e−pτ+p τ,(7)我们将我们的方法与4种基于全脸外观的凝视估计方法进行比较[6，30，32]。他们都是其中，F、T、S表示前、顶和侧，Π函数来自等式p是与每个投影平面相关联的可训练权重[10]最后，总损失是L=αL脸+βL注视，其中L脸在等式中定义。并且L凝视被定义为：Lga ze=λ1Lself+λ2|yg−yg|1在ETH-XGaze [30]数据集上进行训练，以匹配我们测试数据的凝视交换源，这也是ETH-XGaze [30]。如Tab.所示。2、Tab。3，全脸[32]是最早提出的，其速度相对较高，但精度最差。ETH-18和ETH-50 [30]是使用ResNet 18和ResNet 50 [11]作为主干训练的模型，其中ETH-50用作基线方法+λ3τ∈{F，T，S}|第1条，第（8）项|1, (8)发表于[30]。GazeTR [6]是基于Transformer设计的最新方法，在四种方法中达到最高精度。然而，它运行最慢，其中表示地面实况，其他表达式与等式中相同。（七）、5. 实验5.1. 实验装置我们的评估主要是在MPSGaze的测试集上进行的，该测试集基于Wider- face [28]和ETH-XGaze [30]的验证集，我们对6277张不同分辨率的人脸进行了凝视交换。为了匹配现有AGE方法的输入格式，我们执行裁剪和4203如果图像中有多个人脸，则无法实现实时性能。我们用MobileNet [21]和ResNet50[11]作为骨干。Tab. 2表明我们的方法性能最好，因为我们的方法可以达到与RetinaFace [8]类似的速度，SOTA人脸检测方法。假设上述四种现有的AGE方法使用RetinaFace [8]进行面部检测，即使不考虑基于面部标志的归一化所花费的时间，它们与我们的方法的速度比较也明显落后。在选项卡中。月24204××××使用AGE方法人类改造全图像中的对象关系表4.MPSGaze测试集上的消融研究约束面的宽度和地面实况凝视的角度，进行两个值得注意的是，与仅预测3D注视（F1，F2）的模型相比，仅预测前投影2D注视（F1，F2）的模型在小角度范围（0-60°）内实现了更高的准确度，而在大角度范围内实现了更低的准确度，这是由于注视灵敏度（公式10）的不均匀分布。（5））。该表显示了我们的完整模型的优势，F，T，S（等式2）。（6））和Lself（Eq.（七））。3D凝视任务2D凝视任务Lself注视误差（越低越好）w.r.t.面宽30-6060-9090-120120-150150-180180-210210-240>240✓××24.5119.5115.5913.2312.8411.3410.689.76×F×24.0018.7314.5612.612.2210.838.778.99✓FF23.4418.1014.1611.7611.0910.019.158.09✓F、T、SF、T、S22.9417.5513.6911.0811.139.418.177.743D凝视任务2D凝视任务Lself注视误差（越低越好）w.r.t.GT注视角度0-2020-3030-4040-5050-6060-7070-8080-90✓××9.129.9410.8311.5914.318.6726.8643.04×F×8.568.499.7510.7712.6418.3730.254.35✓FF8.018.669.2110.0411.5217.1226.5743.75✓F、T、SF、T、S7.978.458.999.5110.5316.3623.3143.4#面越大，速度越慢。凭借绝对的速度优势，Tab。3也表明我们的方法具有最高的精度。5.3. 消融研究选项卡. 4显示了我们的方法的消融研究。我们的完整模型包含4个凝视任务：一个3D凝视任务（俯仰，偏航）和三个投影的2D凝视任务（x，y），其中在前向方向上的投影与3D凝视具有一一对应关系，因此它可以容易地变换为俯仰和偏航并与地面实况进行比较。此外，根据Eq.（7），我们还向4个凝视预测添加了相等损失，这也被证明在Tab中有效4.第一章Tab中有两个部分4分别约束目标每个表有4行数据。第一行表示，自动人图7.人类专家注释管道。首先，每个人的脸都被裁剪出来，归一化，然后[30]被用来生成初步的凝视标签。其次，人类专家被要求修改凝视标签。第三，凝视标签显示在原始的完整图像中，专家可以根据对象关系再次修改它们以获得最终注释。第二行指示模型仅在前向方向上回归2D凝视投影，其随后被转换为3D凝视;第三行指示模型回归3D注视和2D注视投影（前）两者，其中训练损失将它们限制为相等;并且第四行指示模型回归所有4个注视值并将它们限制为相等。表中的结果显示了我们完整模型的优势值得注意的是，正如我们在方法节中所描述的那样。4.2，与仅回归3D凝视的模型相比，仅在前向方向上回归2D凝视的模型在小角度范围（0-60°）内具有更高的准确度，而在大角度范围内具有更低的准确度，这是由于凝视灵敏度的不均匀分布（Eq.（5））。为了解决这个问题，我们提出了从不同方向投射3D凝视5.4. 人类标注数据集除了对交换凝视合成数据进行测试外，我们还对真实的全图像进行评估。为了获得相应的凝视标签，我们请一些专家进行主观凝视注释，并最终获得Widerface [28]验证集中2719张面孔的凝视注释注释过程如图所示7 .第一次会议。首先，为现有的AGE方法裁剪每个面部接下来，人类专家被要求修改凝视标签，然后在原始的完整图像中显示凝视，以便专家可以根据对象关系再次修改它们以获得最终的注释。我们还开发了一个GUI软件，以方便人类专家，4205我们的预测原始测试数据人类注释我们的预测交换凝视测试数据地面实况30像素80像素130像素180像素230像素30像素80像素130像素180像素230像素图8.在裁剪的单个面孔上预测注视的可视化。人类注释数据集（左）和MPSGaze测试集（右）中具有各种分辨率的面部从整个图像中裁剪并调整大小以获得更好的可视化。请注意，这些结果是由我们模型的MobileNet版本生成的。图9.全图像上多人注视估计的可视化。不同的人的视线方向估计在同一时间由我们的模型的MobileNet版本。进行注释。选项卡. 图5显示了我们的方法和现有的AGE方法之间的比较。虽然人类在3D注释任务中表现不佳，但我们可以将此实验视为主观测试。该方法的显著领先性表明了其优越性。从另一个角度来看，相对较大的测试误差表明了我们提出的带有地面真实标签的MPSGaze数据集的必要性我们还在图中显示了可视化结果。8和图9 .第九条。表 5. 人类注释数据集上的比较。我们的方法（ m ：MobileNet0.25骨干网，r：ResNet 50主干）显示出比现有AGE方法更高的准确性[6，30，32]（在ETH-XGaze [30]数据集上训练）。方法注视误差w.r.t.面宽0-6060-120120-180180-240>240全断面36.0635.733.3825.3721.67ETH-1831.9531.3828.522.8519.93ETH-5030.4331.2428.3122.1118.79GazeTR36.0033.5331.1026.8123.59Ours-m26.0625.8824.0222.2718.41我们的25.9022.6922.0219.9215.546. 局限性和未来工作首先，我们的方法不能产生估计的人谁显示他们的背对相机或看向背面的场景。这是基于前视外观的注视估计方法的常见问题，而这在现实世界中是不可避免的。在未来的研究中，这种背对镜头的情况可以进一步考虑和尝试处理。其次，虽然我们提出了一种有效的方法来合成全图像与多人凝视地面真相，它仍然值得考虑尝试直接收集真实数据与多人在野外的准确凝视方向。7. 结论我们提出了第一个一阶段的视线估计方法，GazeOnce，其可以在完整图像中同时估计多用户注视方向。此外，我们设计了一个基于投影的自监督策略，可以进一步提高视线的准确性。为了实现一阶段凝视估计训练和评估，我们提供了一个新的凝视数据集MPSGaze，它是由一个复杂的交换凝视过程生成的，以产生具有凝视地面实况数据的多人的完整图像最后，我们的方法在凝视精度和速度方面优于最先进的方法。4206引用[1] Vitor Albiero，Xingyu Chen，Xi Yin，Guan Pang，andTal Hassner. img2pose：通过6dof进行人脸对齐和检测，人脸姿态估计。在IEEE/CVF计算机视觉和模式识别会议集，第7617-7627页二、五[2] Yiwei Bao，Yihua Cheng，Yunfei Liu，and Feng Lu.自适应特征融合网络用于移动平板电脑中的视线跟踪2020年第25届国际模式识别会议（ICPR），第9936-9943页。IEEE，2021。2[3] AlisaBurov a ， JohnMa¨k ela¨ ， Jaakk oHakulinen ，TuuliKeski-nen，Hanna Heinonen，Sanni Siltanen，andMarkku Turunen.利用虚拟现实和视线追踪技术为工业维护开发增强现实解决方案。在2020年CHI计算机系统人为因素会议的会议记录中，第1- 13页，2020年。1[4] Nora Castner，Thomas C Kuebler，Katharina Scheiter，Ju-lianeRichter ， The' re' seEder ， FabianHu'ttig ， ConstanzeKeu-tel，and Enkelejda Kasneci.在opt观看期间用于专业分类的深度语义凝视嵌入和扫描路径比较。在ACM眼动跟踪研究和应用上，第1-10页，2020年。1[5] Yihua Cheng，Shiyao Huang，Fei Wang，Chen Qian，and Feng Lu.用于基于外观的注视估计的从粗到细的自适应网络。在AAAI人工智能会议论文集，第34卷，第10623- 10630页，2020年。2[6] 程毅华和冯璐。使用变换器的注视估计。arXiv预印本arXiv：2105.14424，2021。一、六、八[7] Yihua Cheng ， Xucong Zhang ， Feng Lu ， and YoichiSato. 通过探索双眼不对称性进行注视估计。 IEEETransactions on Image Processing，29，2020。2[8] Jia Guo ， Evangelos Ververas ， Irene Kot- sia ， andStefanos Zafeiriou. Retinaface：在野外进行单次拍摄的多层次面部定位。在IEEE/CVF计算机视觉和模式识别会议论文集，第5203-5212页，2020年。二、四、五、六[9] Tobias Fischer，Hyung Jin Chang，and Yiannis Demiris.Rt-gene：在自然环境中的实时眼睛注视估计在欧洲计算机视觉会议（ECCV）的会议记录中，第334-352页2[10] NicolaGarau ， NiccoloBisagno ， PiotrBro'dka ，andNicolaConci.Deca：使用胶囊自动编码器进行深度视点等变人体姿势估计。在IEEE/CVF计算机视觉国际会议论文集，第11677-11686页，2021年。6[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。四、六[12] Kimmo Karkkainen和Jungseock Joo。Fairface：用于平衡种族、性别和年龄的面部属性数据集，用于偏差测量和缓解。在IEEE/CVF计算机视觉应用冬季会议论文集，第1548-1558页，2021年。3[13] Petr Kellnhofer 、 Adria Recasens 、 Simon Stent 、Wojciech Matusik和Antonio Torralba。第360章：身体不适在野外紧张的凝视估计。在IEEE/CVF计算机视觉国际会议论文集，第6912-6921页，2019年。二、四[14] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。2[15] Feng Lu，Takahiro Okabe，Yusuke Sugano，and YoichiSato.头部姿态自由注视估计的头部运动注视偏差学习。Image and Vision Computing ， 32 （ 3 ）： 169- 179 ，2014。2[16] Feng Lu，Yusuke Sugano，Takahiro Okabe，and YoichiSato.用于基于外观的注视估计的自适应线性回归。IEEEtransactionsonpatternanalysisandmachineintelligence，36（10）：2033-2046，2014。2[17] Alexandre Marois ， Laura Salvan ， Daniel Lafond ，Alexan-dreWilliot，Noe'mieLemaire，andSe'bastienTrembla y. 通过以用户为中心的设计提高基于凝视的监视支持工具的可用性。在应用人的因素和人体工程学国际会议上，第732斯普林格，2021年。1[18] Mahyar Najibi，Pouya Samangouei，Rama Chellappa，and Larry S Davis. Ssh：单级无头人脸检测器。在IEEE计算机视觉国际会议论文集，第4875-4884页，2017年。二、四、五[19] 帕特里克·佩雷斯、米歇尔·冈内特和安德烈·W·布莱克。泊松图像编辑。ACM SIGGRAPH 2003论文，第3132003.4[20] Rajeev Ranjan ， Vishal M Patel ， and Rama Chellappa.Hy-表面：用于人脸检测、地标定位、姿势估计和性别识别的深度多任务学习框架。IEEE transactions onpattern analysis and machine intelligence，41（1）：121-135，2017。2[21] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2：反演残差和线性瓶颈。在IEEE计算机视觉和模式识别会议论文集，第4510-4520页，2018年。四、六[22] Yusuke Sugano，Yasuyuki Matsushita，and Yoichi Sato.基于外观的3d注视估计的合成学习在IEEE计算机视觉和模式识别会议论文集，第1821-1828页，2014年。2[23] Haofei Wang ， Xujiong Dong ， Zhaokang Chen ， andBertram E Shi.机器人手臂控制拾取和放置任务的混合凝视/脑电图脑计算机接口。2015年第37届IEEE医学和生物学工程学会（EMBC）国际年会，第1476IEEE，2015年。1[24] 王康、赵瑞、苏辉、季强。用贝叶斯对抗学习推广眼动跟踪。在IEEE/CVF计

下载后可阅读完整内容，剩余1页未读，立即下载