Gaze360：无约束的凝视估计

133 浏览量更新于2023-10-13 收藏 1.66MB PDF 举报

大规模数据集

泛化性能

身份认证购VIP最低享 7 折!

30元优惠券

1Gaze360：野外无约束的凝视估计Petr Kellnhofer1，Adria`Recasens1，Simon Stent2，Wojciech Matusik1，and AntonioTorralba11麻省理工学院，Cambridge MA 02139，USA2丰田研究所，剑桥，MA，02139，美国{pkellnho，recasens，wojciech，torralba}@ csail.mit.edusimon. tri.global*表示等额缴款摘要了解人们在看什么是一个信息性的社会线索。在这项工作中，我们提出了Gaze360，一个大规模的凝视跟踪数据集和方法，在无约束的图像中进行鲁棒的3D凝视估计。我们的数据集由室内和室外环境中的238名受试者组成，他们在各种头部姿势和距离上标记了3D凝视。它是同类主题和种类中最大的公开可用数据集，一种简单有效的收集方法。我们提出的3D凝视模型扩展了现有的模型，包括时间信息，并直接输出凝视不确定性的估计。我们通过消融研究证明了我们的模型的好处，并通过对其他最近的凝视基准数据集的交叉数据集评估显示其泛化性能。此外，我们提出了一个简单的自我监督的方法，以提高跨数据集的主适应。最后，我们展示了我们的模型估计客户的注意力在一个超级市场设置的应用。我们的数据集和模型可在www.example.com上获得http://gaze360.csail.mit.edu。1. 介绍为了更好地理解人类--他们的欲望、内在和精神状态--我们必须能够观察并感知特定的行为线索眼睛注视方向就是这样一个线索：它是一种强有力的非语言交流形式，在社会交往中发出参与、兴趣和注意力的信号[1]。发现和跟踪别人的目光是一种早期发展起来的技能，例如，已知四个月大的正如父母的凝视可以帮助引导孩子的注意力一样图1. 概述：我们介绍了一种新的数据集和方法，用于在野外估计3D凝视该图说明了我们的模型近年来，虽然通过利用深度卷积神经网络的表示能力以及非常大的注释数据集[2，6，9，14，26]，用于相关人体建模问题（如2D身体姿势和面部跟踪）的方法这主要是由于缺乏用于任务的足够大且多样的注释训练数据收集精确且高度变化的具有地面真实性的凝视数据，特别是在实验室之外，是一项具有挑战性的任务。在这项工作中，我们介绍了一种方法，以帮助解决这项任务，并缩小感知的性能差距：• 我们首先描述了一种在任意环境中有效地收集带注释的3D注视数据的方法;• 我们使用我们的方法来获得最大的3D凝视，69126913数据集的文献中的主题和品种，捕捉视频的238个主题在室内和室外的条件下，我们仔细评估的错误和characitrics的数据集;• 我们训练各种3D凝视估计模型表1. 流行的凝视数据集的比较。凝视标签的类型和范围、受试者数量和公开可用图像数据的完整性。Full代表全面部图像，Eyes表示眼睛区域的作物，N/A表示数据集不可用。星号表示包含部分遮挡的面部图像的数据集。在收敛到最终模型之前的数据集唯一地采用多帧输入（以帮助解决单帧模糊性），并采用弹球回归损失进行误差分位数回归，以提供注视不确定性的估计;• 我们通过跨数据集模型性能比较（训练一个数据集和测试另一个数据集）证明了我们的数据集相对于现有数据集的有用性，并介绍了一种简单的自监督域自适应凝视模型的方法• 最后，我们演示了我们的Gaze360模型如何应用于现实世界的用例，例如估计顾客2. 相关工作凝视数据集。可比凝视数据集的总结如表1所示。虽然近年来已经公布了许多注视相关的数据集[10、12、16、17、20、23、27、30、31]，但是它们大多面向物理约束的应用，诸如桌面或智能手机注视跟踪。通常，使用静态记录设置[17，20，27，34]或集成在智能手机中的相机[10，12，28]捕获这些数据集静态方法允许更多的控制和更高的精度，但是可能缺乏对于更一般的应用有用的照明和运动模糊的基于智能手机的解决方案克服了这些缺陷，并具有通过众包直接扩展以增加主题多样性的优势然而，由于设备的相机和屏幕的共置以及屏幕用于投影目标的相对狭窄的区域，它们缺乏头部姿势和注视可变性为了尝试在任意自然场景中捕捉人类注视的性质，重要的是不要过度约束主体的姿势，从而允许覆盖头部和眼球相对于相机的取向的全色域。虽然一些现有数据集具有相对较小的头部姿势和注视变化[16，17，20]，但其他数据集确实提供了更宽的范围[12，27，34]，但仍然限于主要正面视图而不是倾斜视图。虽然确实，眼睛变得越来越被遮挡在较大角度的头部偏航，我们希望捕捉这样的情况，以便我们的模型可以在较少约束的设置中使用。在来自Zhu和Deng [34]的最全面的数据集中，作者通过使用不同姿势的相机阵列来提高采集速度和视点多样性但是，该设置仅限于在实验室环境中收集数据。虽然我们的方法也使用了多摄像头设置，但我们的目标是快速获得许多数据集凝视范围受试者数量图像户外[第11话]2D∼80○51眼睛没有iTracker [12]2D∼100○1,450充分部分[23]第二十三话3D∼50○50眼睛没有哥伦比亚[20]3D60○56全部 *没有RT-GENE [4]3D75○15全部 *没有[31]第三十一话3D∼80○15充分没有EYEDIAP [17]3D90○16充分没有魏登布[27日]3D180○20N/A没有朱[34]3D180○200N/A没有360 [我们的]3D360○238充分是的使用自由移动的而不是固定的目标，使我们能够捕捉全方位的注视方向，如图所示。第四节和第四节。此外，由于我们的捕获设置是移动的，这使得我们能够在更多样化的自然照明环境中有效地从广泛的人口统计中收集数据这更接近于诸如交互式机器人或监视/监控摄像机之类的系统的领域，其可能受益于我们的注视跟踪模型。最近的工作也解决了具有较大相机-主体距离和较少约束的主体运动的自然环境中的凝视估计，这是[4]的工作。他们的数据集生成方法是无目标的，但需要受试者佩戴注视跟踪眼镜，使用运动捕捉相机来恢复头部姿势，并且需要复杂的语义修复步骤来从目标图像中移除注视跟踪眼镜。相比之下，我们的方法相对简单，允许我们扩展到更多的主题(238与15）和照明条件。几何凝视模型：几何模型通常使用近红外光源[8，29，35]或具有已知几何形状[ 10 ]的其他光源的角膜反射来拟合眼球的模型，从该模型可以推断凝视。由于这些方法依赖于物理模型，因此它们很容易推广到具有很少或没有训练数据的新对象，但代价是对输入噪声（例如部分遮挡或照明干扰）具有更高的灵敏度。由于它们也依赖于固定的光源，因此在我们这样的非约束环境中是不可行的。基于外观的凝视模型：基于外观的方法使用带注释的眼睛或面部图像的大型数据集来学习更直接的图像到凝视映射。支持向量回归[28]，随机森林[11]和最近的深度学习[4，12，30，31，34]已经以这种方式应用。通常需要眼睛或面部检测的预处理步骤[12，30]。我们的模型不依赖于眼睛或面部6914研究者Ladybug53000万像素360°摄像机AprilTag目标横向数据集示例目标板科目图2. 采集设置。我们的设置使我们能够有效地收集大量的不同的，注释的数据，三维凝视估计。我们创建了一个数据集，其中包含238个受试者，在广泛的光照条件（室内和室外）以及受试者的距离检测器，这使得它能够实现更高的鲁棒性，在无约束的设置时，所需的功能变得部分遮挡。凝视和头部姿势之间的依赖关系可以通过隐式训练来处理[12，30，31]，也可以通过单独的分支显式建模[34]。在眼睛部分遮挡的情况下，注视估计变得更加困难即使在90−135○的头部偏转下，一个眼球的重要部分通常仍然可见，并为凝视估计提供信息（见补充资料）。现有的冰毒-ODS [12，32]不处理这些情况，并且通常假定对象面向相机。然而，这样的模型不能很好地推广到具有挑战性的应用，如机器人或监视。与以前的approaches，我们的模型的目的是应付这种情况下，始终提供最大的努力预测以及适当的信心措施。我们学习通过分位数回归[15]来预测不确定性，使用弹球损失来学习我们的模型通过依赖于可见的头部特征来输出估计的注视方向，即使眼睛完全被遮挡，同时通过输出相应的更高的不确定性值来通知其预测的有限准确性此外，与以前的模型不同，我们研究了使用额外的帧，以改善凝视估计，通过聚合的图像证据随着时间的推移。这增加了捕获可能仅在少数帧中可见的相关特征的机会我们展示了如何使用运动，灰显着有助于系统的性能在很宽的视角范围内。3. 数据集收集方法目前没有适合于学习能够在野外鲁棒地估计3D注视的模型的数据集。先前记录大规模数据集的努力依赖于精心的采集设置，精确测量受试者和凝视目标定位[17，23，34]。这样的设置几乎不可能移动到不同的位置，一次只能记录单个对象，并且需要不断地验证来自对象的期望注视，这使得收集过程不灵活并且非常慢。这就是为什么具有3D注视标签的所有现有数据集都在室内环境中记录并且经常使用很少的主体的原因。如2D身体和面部跟踪模型在野外的成功所证明的[2]，为了提高野外鲁棒性，重要的是收集具有大量不同对象、自然照明的大变化以及广泛的头部姿势和注视方向的数据。3.1. 设置为了解决这些问题，我们选择了一个围绕Ladybug5360 ○全景相机构建的设置。2）放置在场景中心的三脚架上，以及一个标有AprilTag [ 25 ]和十字架的大型移动刚性靶板受试者被指示持续地注视于其上。这允许同时记录多个受试者的数据。Ladybug 5由五个同步和重叠的500万像素摄像头单元组成，每个摄像头单元具有120°水平视野，加上一个额外的向上-我们不使用的摄像头。每帧图像经过鱼眼镜头校正后，存储为3382×4096像素的图像。站在离相机一米远的对象的面部可以在至少一个视图中被完全捕获。相机是出厂校准的，我们纠正了所有捕获后的图像，以消除桶形失真。该装置的紧凑性包括三脚架上的单个摄像机单元以及笔记本电脑和便携式电源，允许在许多环境中轻松携带和部署以进行有效受试者定位。为了构建数据集，我们使用 Al-phaPose [3]来独立地检测来自每个相机单元的校正帧中主体的头部关键点和脚部的位置。对于脚在摄像机视场之外的非常近的被摄体，我们使用站立被摄体的平均身体比例来从他们的臀部位置估计他们的脚位置。Ladybug相机为每个图像像素提供全局Ladybug笛卡尔坐标系L=[Lx，Ly，Lz]中的3D射线。我们用它来推导脚和眼睛在球面坐标中的位置。剩下的未知变量是从瓢虫原点到眼睛的距离d。我们利用测量的相机高度以上的水平地平面上的相机和所有科目的立场。虽然这限制了我们的训练数据收集到平坦的表面，但在测试时并不受限制。关于三角学的更多细节，请查阅补充资料。目标定位：我们的目标由一个白板组成，一面有一个大的AprilTag [25]，两边都有一个较小的十字架。2）的情况。当标签被使用时，十字架作为研究对象的注视目标6915a）、b）、科目目标c）、目标相机顶部目标轨迹前图3. 数据集采集方案：（a）场景的俯视图和靶板轨迹显示全覆盖受试者周围;（b）来自摄像机的场景的图像（仅为了说明而拼接）;（c）现场和靶板轨迹的侧视图，显示了对靶的俯仰的大的诱导变化。用于在3D空间中跟踪板。我们使用原始的AprilTag库来检测每个相机视图中的标记，并使用已知的相机校准参数和标记大小来估计其3D姿态然后，我们使用姿势和已知的板几何形状来找到目标交叉点的3D位置。注视方向：我们计算凝视向量瓢虫坐标系作为一个简单的差异gL=pt− pe。然而，这种形式将随着相机及其坐标系L的旋转而改变。为了补救这一点，我们在观察相机的笛卡尔眼睛坐标系E=[Ex，Ey，Ez]中表示注视。E被定义为使得原点是pe，Ez具有与gL相同的方向，并且Ex位于由Lx和Ly定义的平面中（无滚动）。然后，我们可以通过以下方式将注视向量转换为眼睛坐标系GL增加了内部路径以采样更极端的凝视间距变化，由于场景中标记的垂直位置的限制，只能从更近的距离实现这种变化我们确保标记板总是定位成面向相机，AprilTag尽可能地正面平行，以减少姿态估计误差（图2）。3b）。为了捕获大范围的相对眼球和头部姿势，我们在每次捕获期间在“移动”和“冻结”指令之间交替当处于“移动”状态时，受试者被允许自然地定向他们的头部和身体姿势以帮助跟踪目标。当发布“冻结”指令时如果可能的话，保持一个固定的头部姿势4. Gaze360数据集摘要我们的数据集是独一无二的，因为它结合了3D凝视符号，广泛的凝视和头部姿势，各种室内和室外捕获环境以及主体的多样性。它仅在受试者数量上被GazeCapture [12]数据集（1，450个受试者）超越，该数据集是2D的，并且仅覆盖有限用例的窄凝视范围。数据集比较见表1。值得注意的是，我们的数据集也是第一个为短连续视频（8 Hz）提供这些质量的数据集。汇总统计。我们收集了238名受试者在5个室内（53名受试者）和2个室外（185名受试者）的位置超过9个记录会话。这是一个采集速度g=E· ||2||2 .（一）是其他现场技术无法比拟的与众包方法相比，然而，注视方向的这种定义保证了当主体直视相机时g= [0，0，-1]，这与主体以从头部的局部外观表达注视方向，而不需要任何全局上下文。3.2. 获取过程我们的数据集收集实验获得了机构审查委员会的批准受试者被指示站在摄像机周围，距离在1-3米（av-1）之间。2. 2米），并不断跟踪目标交叉上的他们看到的标记板的一侧（图）。（3）第三章。为了安全起见受试者被指示大致停留在他们的起始位置，因为他们在移动时不能既跟踪目标又看到可能的障碍物。标记板由其中一名研究人员操纵，他将标记板在被摄体和相机周围绕一大圈（半径为2-5 m），然后在相机和被摄体之间绕一大圈（图2）。3 a）。在运动中，靶板同时上下移动(Fig.3c）引起注视音高变化。轨迹的环部分允许覆盖所有可能的注视方向。的在实验控制方面无法竞争。我们总共获得了129K训练，17K验证和26K带有凝视注释的测试图像。出于隐私原因，我们没有调查关于我们的受试者的额外数据，但目视检查显示受试者年龄、种族和性别的广泛分布（58%女性，42%男性）。请参考图5为例。数据分发。我们使用图中的Mollweide投影绘制了由我们和其他几个数据集覆盖的注视标签的角度分布。4.第一章这说明了我们的数据集如何覆盖360○的整个水平范围。虽然这些注视方向的一部分对应于完全被遮挡的眼睛（背向相机），但是我们的数据集允许注视估计达到眼睛可见度的极限。在某些情况下，该限制可以对应于在特定时间点的注视偏航。大约+−140○（其中头部姿势为90○，使得一只眼睛保持可见，并且该眼睛是另外的50○ ro。tated）。垂直范围受到标记的可实现高度的限制采样在后部区域（在地图的左边界和右边界周围）不太密集这可以通过目标板被主体遮挡来解释。6916900-90900-90-180 0180 -180 0180t-3t-2t-1t t+1t+2t+3偏航[度]偏航[度]图6.Gaze360模型架构。模型接收多个-图4. 数据集统计。注视偏转的联合分布和间距为TabletGaze [10]，MPIIFaceGaze [31]，iTracker [12]和我们的Gaze360数据集。Mollweide投影用于可视化整个单位球面。所有强度均为对数。图5. Gaze360数据集样本：显示环境、照明、年龄、性别、种族、头部姿势和注视方向的多样性。顶部：全身作物;底部：近距离的头状作物。黄色箭头显示测量的地面实况凝视。错误表征。为了验证我们的凝视注释的准确性，我们进行了对照实验。我们使用我们的360 °摄像机遵循标准采集程序，每次一名参与者佩戴安装在右眼上方的额外前置测试摄像机。我们使用基于标准AprilTag的程序和与相机一致的已知原点测量测试相机中的3D凝视背景中的附加AprilTags用于注册两个摄像机。我们测量两个注视标签之间的平均差为2。9○超过两个受试者的三个记录。这在远距离处的基于外观的眼睛跟踪的误差内，验证了我们的采集过程作为收集注释的3D凝视数据集的手段。5. Gaze360模型凝视是一种自然连续的信号。注视注视和转变产生一系列注视方向。为此，我们提出了一个基于视频的视线跟踪模型通过主干网传输的输入帧的三倍工作每个帧的输出被馈送到双向LSTM以产生用于进行注视方向和分位数回归的最终预测的紧凑表示。我们使用以目标帧为中心的7帧输入窗口。使用双向长短期记忆胶囊（LSTM）[5]，它提供了一种建模序列的方法，其中一个元素的输出取决于过去和未来的输入。在本文中，我们利用序列7帧来预测中心帧的注视。注意，仅包括单个中心帧的其它序列长度也是可能的。图6示出了Gaze360模型的架构。来自每个帧的头部裁剪由卷积神经网络（骨干）单独处理，其产生具有维度256的高级特征。这些特征被馈送到具有两个层的双向LSTM，其消化前向和后向向量内的序列最后，这些向量被连接并通过一个完全连接的层，以产生两个输出：凝视预测和误差分位数估计。注视预测输出使注视相对于相机视图的角度回归。在以前的工作中，3D凝视被预测为单位凝视向量[17，34]或其球面坐标[23，31]。我们使用球面坐标，我们认为在这种情况下更自然地解释我们定义球坐标，使得极点奇点对应于严格垂直的凝视，向上或向下，这是非常罕见的方向。我们使用ImageNet预训练的ResNet-18 [7]作为骨干网络。所有模型都使用Adam优化器[13]在PyTorch中训练，学习率为10- 4。5.1.误差分位数估计据我们所知，所有现有的研究apply- plying神经网络的任务的凝视估计不考虑误差界。在无约束的环境中估计注视时，误差界限很有用，因为当从侧面观察眼睛或当一只或多只眼睛被部分遮挡时，精度可能会降低平板电脑凝视iTrackerMPIIGazeOpenGaze10注视方向分位全连接层LSTM LSTM LSTMLSTMLSTM LSTM骨干骨干骨干骨干骨干骨干骨干节距[deg]节距[deg]6917gz(e.g.眼镜架）。在分类设置中，softmax输出通常用作置信度的代理。然而，对于回归，这是不可能的，因为输出的幅度直接对应于预测的属性。为了对误差范围进行建模，我们使用弹球损失函数[15]来预测误差分位数。我们使用一个单一的网络来预测平均值和10%和90%分位数。这样做的效果是，对于给定的图像，我们是-通过单次向前传递来估计预期注视方向和误差锥，其中地面实况应该在80%的时间内位于该误差锥内。我们假定在球坐标系中分布是各向同性的。这个假设并不严格正确，特别是对于大的俯仰角，由于周围的空间畸变极点奇点。然而，对于大多数观察到的注视方向（图1A）。4）它是一种合理的近似方法，可以降低维数，简化结果的解释。我们的网络的输出是f（I） =（θ，φ，σ），其中（θ，φ）是球面坐标中的期望注视方向，对于该期望注视方向，我们已经在眼睛坐标系g中具有对应的地面实况注视向量（参见第二节）。 3.1 ）为θ=−arctangx和φ=arcsin g y。第三参数σ对应于与预期注视的偏移，使得θ+σ和φ+σ是其分布的90%分位数，而θ-σ和φ-σ是10%分位数。最后，我们计算了这个输出的弹球损失。这将自然地迫使φ和θ收敛到它们的基础真值，并迫使σ收敛到分位数阈值。如果y=（θgt，φgt），分位数τ和角度θ的损失L τ可以写为：（鼓励未标记数据的模型输出一致性我们使用该模型来计算原始和水平翻转图像的注视，并且使用弹球损失L_S来最小化来自第一输入的预测与来自第二输入的水平镜像预测之间的角度差虽然这种损失本身可能导致沿着对称线的凝视预测崩溃，但我们在Sec.6.2表明，当用作正则化器时，这有助于提高看不见的目标域中的性能在实验中，我们使L = α·Lτ+LD+ β·LS最小化，其中α= 60，β = 3。6. 实验分析6.1.模型评估在本节中，我们使用Gaze360数据集比较了几种方法。我们比较了以下方法：Mean-使用所有预测的训练集的平均凝视; Deep Head Pose-Ruiz等人的基于深度网络的头部姿势估计器。[19]; Static-主干模型，ResNet-18和两个最终层来计算预测;TRN-时间关系网络[ 33 ]的一个版本，其中在时间t周围的固定窗口处的帧的特征在对时间窗口的预测进行平均之前被连接;LSTM-指的是Gaze 360架构。对于上述三种架构中的每一种，我们报告了不同基线的不确定性估计精度：MSE-使用均方误差仅回归没有不确定性的注视球面角;q=θgt−（θ−σ），对于τ≤0。5（二）MSE+Drop- 使用MSE模型，不确定度为es-τθgt -（θ+σ），否则通过每个输入的5次向前传递来估计，同时随机丢弃最后一层中的神经元并计算变化的Lτ（θ，σ，θgt）为max（τq<$τ，−（1−τ）q<$τ）。（三）类似的公式用于角度Φ。我们对角度和分位数τ = 0的损失进行平均。1和τ=0的情况。9 .第九条。因此，σ是10%之间的差异的度量。和90%分位数以及期望值。5.2. 适应未知领域尽管Gaze360数据集的多样性，一些现实世界的应用程序可能会受益于模型对目标域的更紧密的适应。出于这个原因，我们引入了一个自我监督的方法域适应。我们的一般模型是微调使用的标签的Gaze360图像和未标记的图像从新的域的混合。受[24]的启发，我们引入了一种尝试将图像特征的源域识别为二进制分类任务的方法。要素是主干网络的输出。鉴别器损失L_D被添加到用于其中地面实况可用的那些图像的原始监督损失Lτ此外，我们增加了进一步的损失，以利用凝视估计任务的左右对称性作为一种手段，产量的高低;作物扩增-5随机头作物依次评估，以估计不确定性使用方差的5个预测的MSE训练模型;和弹球损失-使用弹球损失联合估计注视方向和误差界限。表2中的角度误差分别针对整个测试集（所有360°）和受试者在摄像机方向的90°（前180°）和20°（前向）内观看的样本提供我们还报告了误差分位数估计和实际误差之间的斯皮尔曼结果证实，无眼均值预测以及头部姿势不足以预测我们的数据集中眼球运动我们所有的凝视模型都优于这些简单的基线。我们还观察到，在相同的条件下，误差通常是最低的模型使用弹球损失。对于预测不确定性和实际预测误差之间的相关性，可以看到相同的趋势。此外，预测仅需要因此，我们选择了691830201000 50 100 150 200凝视偏航[度]图8. 使用弹球模型在Gaze360数据集上测量的误差。实线表示预测误差，虚线表示预测的不确定性。0°40°0°40°0°40°0°40°图7. 测试集示例：地面实况凝视（黄色）和Gaze360预测（红色）针对看不见的测试对象示出条形表示实际（黄色）和预测（红色）误差，单位为度。插图示出了注视估计和预测误差对地面实况的自顶向下视图。最下面一行显示了模型过度自信的失败案例。表2. Gaze360数据集上的性能比较。下表报告了Gaze360测试数据上各种型号和基准的平均角度误差。最后一列显示实际误差与预测不确定度之间在图8中，我们呈现了使用弹球损失作为注视偏航角的函数的模型的预测误差。正如预期的那样，准确度随着注视偏航角的增加而下降。与传统的眼动仪不同，我们的模型平滑地过渡到头部姿态估计（在90-150○的头部偏转之间），以提供即使对于后视的凝视的最佳猜测。这伴随着更高的相关不确定性（虚线）。虽然正面视图的误差通常大于现有高分辨率数据集上报告的误差，但我们接下来表明，这是由于Gaze 360的chal-challening属性，该属性允许在其上训练的模型更好地转移到物理上不受约束的图像。在图7中，我们显示了测试数据的样本结果。由黄色条表示的角度误差直观地随着眼睛由于距离而变小或由于头部姿势变化而被遮挡而增长尽管对于外视姿态的预测误差平均来说很大，但是不确定性度量提供了对该行为的合理预测。不确定。所有前前不确定。6.2.跨数据集评价我们通过使用多个预先存在的3D凝视数据集训练弹球静态模型并测量跨数据集测试误差来评估Gaze360数据集在野外进行凝视估计的价值。我们使用的比较数据集是：哥伦比亚号 [20] - 高分辨率特写镜头 ;MPIIFaceGaze [31] - 网络摄像头捕捉的人脸 ;RT-GENE [4] -使用in-painting来掩盖眼睛跟踪眼镜的低分辨率人脸; Gaze 360（Ours）-具有不同分辨率的人脸;对于那些没有提供官方分裂的数据集[20，31]，我们使用所有可用的样本进行训练，并且不测量域内误差。表3总结了结果。这项任务远不止弹球损失作为我们的推荐方法。从单帧静态模型切换到时间模型也实质上有益于注视预测准确性。我们的结论是，虽然TRN和LSTM类似，我们推荐Pinball LSTM因为它在我们的度量和直-以适应使用不同数量的输入帧。表3. 跨数据集评价：我们报告了使用不同数据集训练的静态模型的平均角度误差。测试火车哥伦比亚MPIIFaceGaze公司简介360哥伦比亚-12.332.857.9MPIIFaceGaze12.4-26.557.8公司简介24.218.9-56.63609.012.123.4-凝视360 + DA8.19.921.9-0°40° 0°40°0°40°0°40°0°40° 0°40° 0°40° 0°40°静态TRNLSTM误差[度]模型损失360○180○面临Corr.是说-59.040.519.0-深度HP-49.330.722.7-MSE静态没有15.813.713.4-MSE TRN没有14.311.811.8-MSE LSTM没有14.112.111.6-MSE+跌落静态没有15.813.713.40.24MSE+丢弃TRN没有14.311.811.80.31MSE+Drop LSTM没有14.112.111.60.31作物8月静态没有16.013.212.60.37作物8月TRN没有14.211.511.40.39作物8月LSTM没有14.111.611.20.37静态弹球是的15.613.413.20.42PinBall TRN是的14.111.711.60.46Pinball LSTM(i.e.、360）是的13.511.411.10.456919图9.在野外估计3D凝视：我们的模型在从YouTube收集的未见过视频上的输出的进一步例子主题可口可乐洗发水每个市场的货架，这是相关的产品放置在商店。我们重建了一个超市货架，并要求受试者在自我报告这些物体的同时观察各种物体。我们用架子旁边的摄像机记录它们，如图所示10个。尽管对物体的观察不是最佳的，但我们能够在51%的时间里正确地预测出哪个物体正在被观察。使用直接嵌入在架子上的智能手机摄像头（以便拍摄对象的视野更接近正面），准确率提高到68%。沿着底部架子的物体具有最高的错误率，因为眼睛在向下看时几乎完全被遮挡。最后，我们能够生成客户热图-图10. 一个示例应用程序：我们使用Gaze360被动地推断顾客在货架上浏览产品时的注意力，使用货架旁边摄像头（右）的视频（左）。比域内测试更具挑战性。当我们的数据集用于训练时，始终可以获得最佳结果。此外，我们使用第二节中描述的自监督方法在新领域（Gaze360 + DA）上微调我们的Gaze360训练模型。5.2，其不利用其他数据集中的地面实况标签。我们的域自适应策略进一步提高了所有数据集的性能。7. 在野外追踪凝视无约束环境中的预测：Gaze360数据集中主体外观的变化使我们的模型能够表现良好，而无需进一步训练或微调来自未策划的在线来源的不可见图像和视频数据我们在图1和图2中的许多示例中直观地演示了这一点。1和9在我们的补充视频。估计注意力在超市：为了说明Gaze360的一个可能的应用，我们将其应用到预测哪些对象正在看的任务上。张力，如图所示。10个。虽然简单，但该应用程序展示了我们的系统在广泛的实际应用中的灵活性。8. 结论在这项工作中，我们引入了一种新的方法来有效地收集大规模的带注释的凝视数据，并使用它来生成一个大而多样的数据集，适合于从图像和视频中深度学习3D凝视。我们提出了一种新的基于时间外观的凝视模型，使用一种新的损失函数来估计误差分位数。最后，我们证明了（i）我们的数据集通过与三个现有的3D凝视数据集进行仔细的跨数据集性能比较的价值，以及（ii）我们的模型通过应用于来自YouTube视频的未被约束的不可见图像的价值。我们希望通过使用我们的数据集和模型，各个领域的研究人员能够更好地利用凝视作为线索，以改善对人类行为的基于视觉的理解鸣谢。丰田研究所提供资金，以协助作者与他们的研究，但这篇文章只反映了意见和结论，其作者，而不是TRI或任何其他丰田实体。6920引用[1] 迈克尔·阿盖尔人类社会交往中的非语言交际1972. 1[2] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。第1、3条[3] 方浩树，谢淑琴，戴玉荣，陆策武。区域多人姿态估计。InICCV，2017. 3[4] Tobias Fischer ， Hyung Jin Chang ， and YiannisDemiris.RT-GENE：自然环境中的实时眼睛注视估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第334-352页二、七[5] Al e xGr av es ， SantiagoF e rn a´ ndez ， andJ ürgenSchmidhube r. 用于改进音素分类和识别的双向lstm网络。在国际人工神经网络上，第 799-804 页。Springer，2005年。5[6] RizaAlpGuéler，Na taliaN ev er ov a，andIasonasKokkinos. 密度：野外密集的人体姿势估计。在CVPR，2018年。1[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。5[8] Craig Hennessey，Borna Noureddin，and Peter Lawrence.具有自由头部运动的单摄像机视线跟踪系统。载于ETRA，2006年。2[9] Peiyun Hu和Deva Ramanan寻找小脸在CVPR，2017年。1[10] Michael Xuelin Huang，Jiajia Li，Grace Ngai，and HongVa Leong. Screenglint：智能手机上的实用原位凝视估计。在2017年CHI计算机系统中人为因素会议的会议记录中，CHI'17，第2546-2557页，纽约州纽约市，美国，2017年。ACM。二、五[11] 黄琼，阿肖克·维拉加万，阿舒托什·萨巴尔-瓦尔.平板电脑凝视：移动平板电脑中基于无约束外观的凝视估计的数据集和分析。Machine Vision and Applications，28（5）：445-461，Aug 2017. 2[18] 奥斯卡·帕林科、弗朗切斯科·雷亚、朱利奥·桑迪尼和亚历桑德拉·休蒂。机器人解读人类目光：为什么眼动跟踪比头部跟踪更适合人机协作？智能机器人和系统（IROS），第5048IEEE，2016. 1[19] Nataniel Ruiz、Eunji Chong和James M.瑞格无关键点的细粒度头部姿态估计。CoRR，abs/1710.00925，2017。6[20] Brian A Smith，Qi Yin，Steven K Feiner，and Shree KNa- yar.凝视锁定：用于人-物体交互的被动目光接触检测。InUIST，2013. 二、七[21] Tricia Striano和Vincent M Reid。第一年的社会认知。Trends in Cognitive Sciences，10（10）：471-476，2006.1[22] 菅野雄介和安德烈亚斯·布林。与人类一起看：凝视辅助神经图像字幕。arXiv预印本arXiv：1608.05203，2016。1[23] 菅野雄介，松下幸希，佐藤幸基于外观的3d凝视估计的合成学习。CVPR，2014。二三五[24] 埃里克曾，朱迪霍夫曼，凯特萨恩科，和特雷弗达雷尔。对抗性判别域自适应。在IEEE计算机视觉和模式识别会议的论文集，第7167-7176页，2017年。6[25] John Wang和Edwin Olson。AprilTag 2：高效和鲁棒的基准点检测。在IEEE/RSJ智能机器人和系统国际会议（IROS）上，2016年10月。3[26] Shih-En Wei，Varun Ramakrishna，Takeo Kanade，andYaser Sheikh.卷积姿势机器。在CVPR，2016年。1[27] Ulrich Weidenbacher ， Georg Layher ， Petra-MariaStrauss，and Heiko Neumann.一个全面的头部姿势和凝视数据库。2007年IET智能环境国际会议。2[28] Pingmei Xu ， Krista A Ehinger ， Yinda Zhang ， AdamFinkel-stein ， Sanjeev R Kulkarni ， and Jianxiong Xiao.Turkergaze：Crowdsourcing显着性与基于网络摄像头的眼动跟踪。arXiv：1504.06755，2015年。2*[29] Dong Hyun Yoo and Myung Jin Chung. 一部小说非-[12] Aditya Khosla，Kyle Krafka，Petr Kellnhofer，HariniKan-Nan，Suchi Bhandarkar，Wojciech Matusik，andAntonio Tor- ralba.每个人的眼动在CVPR，2016年。二三四5[13] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。国际学习代表大会（ICLR），2015年。5[14] Muhammed Kocabas 、 Salih Karagoz 和 Emre Akbas 。Mul-tiPoseNet：基于姿态残差网络的快速多人姿态估计。在ECCV，2018。1[15] 罗杰·科恩克分位数回归。计量经济学会专著。剑桥大学出版社，2005年。三、六[16] Christopher D McMurrough，Vangelis Metsis，JonathanRich，and Fillia Makedon.用于注视点检测的眼睛跟踪数据集。载于ETRA，2012年。2[17] 肯尼思·阿尔贝托·富内斯·莫拉，弗洛朗·莫奈，让-马克·奥多贝兹. Eyediap：一个用于开发和评估rgb和rgb-d相机凝视估计算法的ETRA，2014年。二三五6921在大头部运动下使用交比的侵入式眼睛注视估计。CVIU，2005年。2[30] Xucong Zhang，Yusuke Sugano，Mario Fritz，andAndreas Bulling.野外基于外观的凝视估计。CVPR，2015。二、三[31] Xucong Zhang，Yusuke Sugano，Mario Fritz，andAndreas Bulling. 你的脸上写满了在2017年IEEE计算机视觉和模式识别研讨会会议，CVPR研讨会，檀香山，HI，美国，2017年7月21日至26日，第2299-2308页，2017年。二三五七[32] Xucong Zhang，Yusuke Sugano，Mario Fritz，andAndreas Bulling. Mpiigaze：真实世界数据集和基于深度 IE

下载后可阅读完整内容，剩余1页未读，立即下载