混合效应神经网络在视线估计中的应用

97 浏览量更新于2023-10-19 收藏 5.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17743混合效应神经网络及其在视线估计中的应用威斯康星大学麦迪逊分校yxiong43@wisc.edu维卡斯·辛格Hyunwoo J. Kim韩国大学hyunwoojkim@korea.ac.kr威斯康星大学麦迪逊分校vsingh@biostat.wisc.edu摘要在计算机视觉中，利用普通硬件进行凝视估计有很大的兴趣许多论文已经表明，基于深度卷积架构的算法正在接近来自大众市场设备的流数据可以提供良好的凝视跟踪性能的准确性，尽管在可能性和用户在实际部署中期望的性能之间仍然存在差距我们观察到，一个明显的改进途径与大多数现有方法背后的一些基本技术假设和用于训练的数据的统计属性具体来说，大多数训练数据集涉及数十个用户，每个用户有几个hun-numbers（或更多）重复采集非i.i.d. 该数据的性质表明，如果该模型明确地利用来自每个用户的这种“重复测量”，如在使用所谓的混合效应模型的经典统计分析中通常所做的那样，则更好的估计是可能的本文的目标是根据深度神经网络架构中的统计数据调整这些这样的公式寻求专门利用关于训练数据的分层结构的信息-分层结构中的每个节点是提供数十或数百个重复样本的用户。这种修改产生了一种体系结构，该体系结构在各种公开可用的数据集上提供了最先进的性能，将结果提高了10-20%。1. 介绍凝视是理解人类注意力、情感和社会互动的重要线索因此，估计和跟踪凝视的能力对于包括心理学[19]，神经科学[13，35，8]在内的各个领域都很重要。YanYX和HJK是通讯作者。HJK在加入高丽大学之前的工作。以及最近的计算机视觉[45，17，21，23]。虽然来自几个供应商的专门的眼睛注视跟踪硬件已经可用并用于研究实验一段时间，但在过去几年中，也可以购买提供良好实时准确性的许多商品产品（例如[1]）不幸的是，许多高性能设备仍然相当昂贵，因此，需要大量的工作来提出精确的基于计算机视觉的注视估计技术。这方面的工作中的一个想法是基于外观的方法[48]，使用眼睛图像的外观来预测人类注视方向。一般来说，基于外观的3D注视估计可以被公式化为回归f：x∈Rp→ y∈R3，其中x是特征的集合，例如，图像导出的特征和来自图像的头部姿势的估计，3D空间中的方向。这个问题可以通过以各种方式。例如，我们可以使用[46]中的标准k-NN回归估计器或[46]中的随机森林进行与人无关的凝视估计。作者在[30]中设计了自适应线性回归，而Schneider等人。[39]使用支持向量回归与多项式核。最近，深度神经网络已经被广泛研究[60，43]中的问题。例如，在[60]中，向深度卷积神经网络提供输入眼睛图像，最后一层对三维凝视向量进行编码。网络的参数可以用足够的训练数据来训练。假设是否满足？观察到，与我们使用哪种方案进行推断无关，凝视估计是一个统计拟合问题，并且理解一些基本假设和属性可能会提示自然的改进途径。大多数回归模型的一个基本假设是样本是独立同分布的（i.i.d.）。[50]第50段。评估在许多注视估计工作中使用的公共数据集如何（以及是否）满足（或违反）该性质是有意义的。（A）Eyediap数据集[32]包括94个16个视频序列17744受试者在两种不同的照明条件下以静态和自由头部运动观看三个不同的目标。（B）UT多视图数据集包含在受控实验室设置下记录的50个受试者的160个凝视样本，并且眼睛区域的3D重建用于生成任意头部姿势的合成图像。（C）在MPIIGaze数据集中收集了来自15个对象的总共214，000个图像，其被认为是在极端照明条件下捕获的增强数据集这些（和其他类似）数据集的共同特征是数据被如果违反了统计假设，我们可以问：（1）这只是一个理论问题，还是与实践有关？（2）是否有简单的解决方法？对于任何凝视数据集，我们不能期望研究人员收集i.i.d.数据：这将意味着花费精力引入参与者并且仅收集一个注视样本。本文的基本结构。问题（1）的答案是肯定的（我们稍后将通过实验证明）。但首先，我们解决（2），因为它有助于建立我们的公式。请注意，非i.i.d.数据并不局限于计算机视觉，事实上，数据通常出现在社会科学、流行病学和医学中。在处理来自每个参与者的多个样本时，事实上的建议是利用所谓的混合效应模型[22，25]，这是更一般的历史贝叶斯模型的特殊情况。混合效应模型由两部分组成：固定效应和随机效应。固定（全局）效应在所有样本中都很常见，因此相应的系数称为固定。相比之下，随机（局部）效应对受试者（或组）具有特异性。随机效应系数可能因受试者而异，假设来自某种未知分布。这种方法在许多应用中是有效的[22，2，16，12，20]，并广泛用于标准统计分析。这就提出了我们是否可以在深度神经网络（特别是CNN）中利用“混合效应”的想法的可能性实际上，使用混合效果是很自然的，每当图像聚集在组/层次结构中时（不一定是单个主题）：这在细粒度多标签分类、对象检测、医学成像和任何纵向数据中是常见的。一般来说，除了特定于参与者的随机效应，我们甚至可以考虑单独的“站点”或“数据集”特定随机效应。这是相关的，因为最近的结果表明，即使对于线性回归，不同的数据集也不能以简单的方式容易地合并[62，61]。用于重复测量的其他型号。我们应该指出，非独立身份识别的神经网络。数据并不是本文所独有的。实际上，递归神经网络-自20世纪90年代以来，RNN已经在语言建模[31]，语音识别[37]，图像字幕生成[55]，运动捕捉[47]和机器翻译[5，57]中进行了研究，最近的工作基本上建立在早期的公式上。然而，RNN是为顺序（有序）数据设计的，不能直接满足我们基于单个输入图像的凝视估计更重要的是，RNN没有明确地利用组信息（例如，这100次重复测量来自Alice），而混合效应模型通过估计每个受试者的随机效应明确地使用受试者（组）信息，其中样本不需要顺序。这这是我们工作要解决的主要差距。本文的贡献是：1）我们提供了一个理论上合理的神经网络，其中包括对重复测量进行建模的术语的好处，可以说是与大多数可用凝视数据集的统计特性更好的拟合。2）在实验上，我们表明我们的公式在大多数可用数据集上的表现优于最先进的水平1.1. 相关工作用于注视估计的基于模型的方法使用预定义的几何眼睛模型，并且可以被细分为基于特征的方法和基于形状的方法。基于特征的方法使用预定义的几何眼睛特征，例如瞳孔中心角膜反射[14]、虹膜轮廓[36]、利用红外传感器[14]、立体相机[42]深度相机[18]这些方法可以提供高精度，但它们依赖于专门的硬件和校准可能不适合更大规模的市场应用。另一方面，基于形状的方法[60，49，52，3]从观察到的眼睛图像中提取形状参数，例如瞳孔中心，角膜缘和虹膜的边界，并试图将它们与几何眼睛模型相关联以推断注视方向。这些方法是相当成功的，但是由于需要基于精确配准的摘要（光轴、角膜半径、瞳孔半径），因此不清楚它们是否可以利用来自网络相机的低分辨率图像产生高精度。与前述工作相比，基于外观的方法不使用显式几何眼睛模型，而是利用眼睛图像（或非几何特征）作为输入来直接学习眼睛图像与注视之间的映射的参数。虽然早期作品[4，56，48，51，41，39]假设固定的头部姿势用于对眼睛图像进行凝视估计，最近的作品[29，6，33，27，28，54，24]显示了具有任意头部姿势、照明和背景的有希望的结果。[4，56]在眼睛图像上训练神经网络进行凝视估计。[48]利用眼睛外观流形的局部线性，并应用局部插值来预测注视。在[29]中，一种校准方法，称为自适应线性回归，17745我我开发用于对头部移动鲁棒的注视估计。随着最近深度神经网络框架在计算机视觉中的影响，对基于外观的方法的兴趣已经恢复，在很大程度上是通过使用CNN[60，21，58，59，10]。这些作品利用参与者在日常生活中更一般的设置中在笔记本电脑和移动设备上收集的相对大规模的数据集这些数据集旨在在涉及照明、头部姿势、背景等显著变化的广泛场景中实现基于外观的免头部和免校准凝视估计。我们注意到，与上述方法不同，眼睛图像合成也被研究用于生成具有更大头部姿势变化的更大训练数据[28]，最近，通过生成式对抗网络（GAN）[43，40]。[29，26，34]提出了个性化的注视估计方法，以使用校准样本来处理受试者之间的可变性。2. 混合效应模型综述许多统计模型都是固定效应模型，使用单个“全局”模型，所有参数都与完整样本集相关，而不对哪些重复样本来自哪些参与者的信息进行编码。相比之下，随机效应模型为每个受试者（或组）提供一组参数，并假设参数来自未知分布。与贝叶斯方法中建立先验分布不同，基于某些领域知识选择未知分布，2.1. 线性混合效应模型我们从固定效应模型开始，即，一个标准的线性模型，然后引入一个线性混合效应模型。回想一下，线性回归模型如下所示：y= β0+ β1x1+···+ β p x p+ n，n n n n N（0，nnn）（1）其中x =[x1，. ......、 xp] ∈ Rp，β =[β1，. ......、 βp]T∈ Rp，y∈R. 我们称之为“标准”线性模型。当x和y都是多变量测量，那么我们称之为它是一个一般线性模型。为了讨论简单，我们引入了具有单变量响应变量（也称为标签，因变量或目标变量）的模型。观察到在（1）中，所有受试者具有将眼睛外观映射到注视方向的完全相同的功能;模型估计中允许的噪声也来自于对每个人都相同的分布。但是大多数凝视估计数据集都重复了来自受试者的多个测量结果（见图1）。①的人。这些样本不是独立的，每个受试者可能具有略微不同的映射函数。为了解决这个问题，我们可以为参与者在（1）中添加随机效应这产生了混合效应模型y=β0+β1x1+···+βp xp+u1z1+···+uq zq+i，ui<$N（0，u）andi<$N（0，i）（2）其中β：=[β1，. ......、 β p]T是整个总体共享的固定效应，u i：= [u1，. ..，T是随机的我我在随机效应模型中的分布也被估计[38]。混合效应模型有何不同？同时具有固定效应和随机效应的模型称为混合效应模型[22]。混合效应模型描述了响应变量与数据中的一些协变量之间的关系，这些协变量是根据某些分组标准分组的。如果Alice和Bob各提供20个样本，模型将知道哪些样本来自谁。来自Alice的测量值可能更高，而来自Bob的样本可能方差更大。通过将这种“随机”效应与具有相同“人”标签的重复测量相关联回想一下，基于外观的凝视估计是一个拟合问题x→y，其中x∈Rp是眼睛图像或fea。第i个受试者（或组）的影响，并且z=[z1，. ..，z q]是q个随机效应的设计向量。在（2）中的随机效应部分中，u i允许特定于对象的调整，从受试者特定的未知分布N（0，n=i）中提取，其使得能够精确处理非独立同分布。数据的性质通常，未知分布是假设为具有未知协方差结构的零均值高斯分布估计涉及估计固定效应模型β的参数，随机效应分量u1，. ..，对于所有i，u N以及i，其中N是受试者的数量。由于线性混合效应模型具有来自未知分布的多个随机效应，因此没有封闭形式的解决方案[53]。对于估计，使用EM算法和MCMC采样[53，15]。真向量（例如，头部姿态、深度卷积特征），并且y∈R3是注视方向。我们的目标是为全局模型使用固定效应（如是大多数现有方案的情况），但也包括随机效应，以利用关于哪些样本来自哪个参与者的信息-这产生了特定于主题的调整。我们首先介绍线性和非线性8.48.07.6爱丽丝1234567星期几7.67.26.8鲍勃1234567星期几6.56.05.5查理1234567星期几5.55.04.5戴夫1234567星期几小时的睡眠小时的睡眠小时的睡眠小时的睡眠17746版本的混合效应模型，涵盖在共同的教科书。然后，有了这个概念，我们将在深度神经网络中添加混合效应项。图1：一个简单的例子。Alice、Bob、Charlie、Dave的睡眠测量结果在合并时不对应于i.i.d.。样本的分布，而不是分层结构。77465我我（ij）更新M步残差的估计值。该算法通过更新固定效应和随机效应分量来不断迭代，可以通过在每次迭代时计算以下损失函数来捕获al-tax m的收敛：ΣNF（g，β，u |X，y）=[（y−Γ（X）β − Γ（X）u）T<$−1图3：ResBlock结构。我我我i=1伊伊鲁伊（七）（y−Γ（X）β−Γ（X）u）+uT<$−1u+log |Σ |Σ|]|]可以用设计矩阵的形式表示为，我我我i uiiuyi=f（Xi） +f∈（Xi） + f∈i， i=1， . ..... .你好。，N（六）其中yi=[y（i1）， . ..... . 你好。，y（ini）]T是受试者i的ni个观测值的响应的ni×1向量[x（i1）， . ..... . 你好。，x（ini） ]T是ni×p设计矩阵，且ni=[n（i1）， . ..... . 你好。，n（ini）]Tni×1误差向量，n ni<$N（0，nni）.回忆一下，在完全一致之后的隐藏表示图中的连接层 2是Γ（Xi），其是混合效应模型的输入，即， f （ Xi ） =Γ （ Xi ） β 和f∈（ Xi ） =Γ（Xi）ui。我们进一步假设ui和mi是独立的，凹陷和正态分布，受试者之间观察是独立的。我们可以证明，对于对象i观测值yi的协方差为Vi=C O V（yi）=Γ（Xi）<$uΓ（Xi）T+<$u。非线性混合效应模型的估计可以通过EM算法[53，16]进行，我们的算法模拟了我们公式的这种策略，参见算法1。我们的算法是一个变分EM算法，它涉及到一个EM过程中的迭代优化算法（SGD）。在任何EM过程中，数据都被假定为不完整的，目标是迭代地估计未观测到的测量值和模型参数。在我们的问题中，β、ui和β i是未观察到的测量值，它们在期望步骤中进行估计。在最大化步骤中，使用“完整”数据（观察到的加上估计的测量值），该算法试图通过最大化似然来简单地与惯例一致，下面，任何变量的估计，比如ρ，是g iv en作为ρ。算法是做什么的算法1从β，u，σ2，σu的初始值开始。然后在E步骤中，我们计算响应变量yfixed的固定效应部分，即我们从中移除电流（即，随机效应项的估计值为了更新固定效应项对响应变量的贡献，我们使用SGD来拟合（x（ij），y固定），使用卷积神经网络来获得β和Γ（X）。然后，我们基于重新移动更新固定效应项来估计随机效应部分u_i。最后，我们更新了受试者间和受试者内方差，这是一个负对数似然函数，其中对噪声（α）和随机效应ui进行高斯假设，如经典混合效应模型（2）中所示为了预测新观察j的注视估计，我们可以遇到两种情况。首先，受试者在训练时被看到，其次，受试者在训练时没有被看到。对于第一种情况，我们使用其对应的总体水平网络回归项f（xi j）（·）和对应于主题i的预测随机效应项f（·）进行预测。对于在训练时没有遇到的主题，接下来，我们将描述可以在不知道测试时的主题“id”的情况下近似这些项的贡献处理看不见的主题。一个简单的解决方案最有效的方法是在测试时不知道受试者ID的情况下，基于输入的眼睛图像同时学习假设我们有两个函数，一个单变量函数h（a）和一个双变量函数l（a，b）。通过边缘化变量b，我们可以最好的，最好的，最好的，bl（a，b）db. 如果h（a）被正确地学习，则它可以充当L（a，b）的良好代理，而无需访问关于第二变量b的信息。由于我们的主模型估计了特定于主题的f（·）我们使用函数h（·）来仅基于eye图像预测随机效应项。请注意，h（·）与f（·）共享许多相同的网络架构，因此没有必要拥有单独的“网络”，相反，h（·）可以简单地使用Γ（xi j）作为输入来指示fset的随机效应，即， h（·）：Γ（xi j ）→f∈（xi j ）. 事实上，训练h（·）甚至不需要与Alg同时发生。1.一、一旦训练的Alg。1已经完成，我们可以固定卷积层的权重，并学习完全连接的层h（·），其将仅基于hid来最好地预测f（xij）den表示由卷积层提供。在测试时，对于新的受试者，我们使用固定效应项，并使用该特定参与者的眼睛图像（而不是其来自Γ（·）的隐藏表示）添加由h（Γ（·））提供的“偏移”。4. 实验在本节中，我们将讨论与主体无关的注视估计任务，并验证我们的MeNets的有效性7747H×W ×CConv 3 ×3高×宽×高Batch Norm高×宽×高ReLU高×宽×高Conv 3 ×3高×宽×高Batch Norm高×宽×高ReLU高×宽×高+774877749专门的设备来收集地面真实的凝视方向。它需要为每个会话进行校准。我们的数据收集系统的设置如图所示。4（左），数据收集系统的详细信息见附录。我们使用MSI笔记本电脑的网络摄像头记录眼睛图像，分辨率为848×480，并将Tobii X-30连接到笔记本电脑上以记录相应的注视。 Tobii X-30Compact在理想条件下（包括特定于对象的精确校准[1 ，7]），可以提供小于1μ m的注视方向估计误差，在非理想条件下，可以提供2.46μ m的我们从7个志愿者中收集了这些数据：每个参与者1，711到7，605张图像。决定架构：我们使用各种最先进的深度架构作为公式中的卷积模块进行了实现和实验。我们使用leave-one-subject-out交叉验证评估了MPI-IGaze数据集上的注视估计准确性。我们评估的两个选项是18层ResNet和GoogLeNet。为了设置MeNets网络，我们将最后一个分类层更改为两个完全连接的层，用于视线方向回归，如图所示。2.具有这两种架构的MeNet的评估与相应的基线（即，ResNet本身，GoogLeNet本身）在表1中示出，该表还示出了其他现有技术方法的性能。从结果来看，我们提出的MeNets优于相应的GoogLeNet和ResNet网络以及所有其他当代方法（比GazeNet+提高10%，配对Wilcoxon检验的p值为<0。01）。基于这些实验，我们在剩余的评估中使用MeNet和ResNets架构。变分EM + SGD的收敛性：在附加精度图之前，我们给出了一些结果来评估我们的估计方案的收敛性。我们在两种设置下进行实验：受试者内（标准10倍交叉验证）和跨受试者（14名受试者用于培训，1名受试者用于测试）。两种设置都显示出良好的收敛行为。将对数似然作为迭代次数的函数进行评估，我们看到7-8次迭代就足够了（参见附录）。MeNet模型中的“混合效应”术语是否会产生改进？我们评估我们架构中的固定效应项是否与我们的MeNets模型（具有混合效应项）接近我们使用这个策略，[60]其中使用用于训练和测试的随机子集，并且包括每个人的1500个左眼样本+1500个右眼样本。由于眼睛不是完全对称的，我们水平地交换右眼图像并镜像姿势和注视方向，使得双眼可以由单个回归函数处理。在这里，我们的MeNets模型使用随机效应项进行训练，然后在测试时，我们使用两个选项：使用预测随机效应或不使用预测随机效应。在MPIIGaze上，即使图5：MeNet、MeNet[fixed]和ResNet在受试者内和跨受试者设置下的凝视估计比较。MeNet在测试时间，而MeNet[fixed]在测试时不包含随机效应，ResNet在训练/测试中不考虑任何个体水平差异。（左）MeNet提供了最高的准确度，增益为30%，2.66度，ResNet为3.9度，即使在测试时不包含随机效应，MeNet[fixed]也优于ResNet。（右）显示MeNet仍然为跨主体凝视估计提供最高准确度4.34 ResNet的6.0度在测试时不使用随机效应（但模型是用特定于对象的随机效应训练的），与单独使用ResNets架构进行凝视预测相比，我们实现了更好的准确性。这是因为纳入受试者特异性随机效应项可改善我们对图5中固定模型的估计。使用完全混合效应，会产生最佳结果（p值<0. 01）。我们还评估了其他凝视数据集是否是恶魔-受试者特异性随机效应。通过使用受试者特异性随机效应，我们看到线性混合效应回归在表1中的三个数据集上的注视估计方面优于线性回归。用于凝视估计的线性混合效应模型比仅使用线性效应模型更准确：在实时视频和UT多视图数据集上更准确。总之，我们发现在我们的实验中清楚地观察到了解释重复样本的项MeNets在数据集内评估上的性能：我们将我们提出的方法与其他基线方法进行比较，并评估在离开一个人设置下的注视预测准确性。基于模型的方法EyeTab在三个平均误差大于20度的数据集上表现不佳。这意味着基于外观的方法比基于模型的方法具有在真实图像上执行凝视估计的优势。由于kNN、随机森林、用于凝视估计的ALR回归在卷积神经网络下执行[54]，因此在我们的实验中，我们仅报告了线性模型、线性混合效应模型、支持向量回归、几种基于CNN的方法和MeNet的性能。我们对MPIIGaze进行了排除一人的凝视估计，并对UT Multiview数据集进行了3倍交叉验证（与[46]一致）。表1显示了MPIIGaze和Real-video数据集上的数据集内评估的平均估计误差。我们的MeNet获得平均误差4。9度的MPIIGaze下留一个人的设置，而国家的最先进的GazeNet+只能提供平均误差为5。MPIIGaze上的4度（p值<0. 01）。我们的凝视估计也77750表1：我们的模型与其他基线的比较。第2行显示MPIIGaze数据上的留一人设置错误，第3行显示实时视频上的错误。第4行显示了UTMultiview上3重交叉验证的错误。第5行显示了使用来自UT Multiview数据集的训练数据进行交叉数据集评估的误差和MPIIGaze数据集上的测试误差我们的MeNet在基线上实现了大幅度一致的准确性改进MeNetResNetGoogLeNet[59]第五十九话[21]第二十一话[54]第五十四话SVRLRLMEMPIIGaze4.第一章90± 0。59六、04± 0.64六、15±0。81五、40± 0。67六、20±0。85六、59± 1。078. 94± 3。207 .第一次会议。44±1。167 .第一次会议。06±1。07RealVideo六、72±1。15六、98±1。637 .第一次会议。13±1。74六、90± 1。347 .第一次会议。65±2。019 .第九条。78± 2。8512个。67±3。5712个。90±2。7110个。14±1。88UT多视图五、50±1。03五、86±1。10五、97±1。15五、78± 1。04N/A五、98± 1。219 .第九条。11± 2。279 .第九条。07± 2。41六、71±1。41跨数据集9 .第九条。51± 0。759 .第九条。84±1。739 .第九条。97± 1。829 .第九条。80± 1。83N/A十三岁30±2。12>15岁>15岁>15岁在UT Multiview上优于其他CNN方法。我们的表现明显优于所有其他基线方法，这支持了将每个受试者的特定影响纳入视线估计的优势。这对于真实的视频数据是如何工作的？为了显示我们的方法提供针对真实数据的主体无关的注视估计的能力，我们针对我们的真实视频数据集执行注视方向预测。由于Real-Video数据集中的眼睛图像的分辨率低于MPIIGaze数据集（以及其他现实因素），因此它使得注视预测比MPI-IGaze数据集更具挑战性。我们将我们的方法与其他凝视预测方法进行了比较。我们优于所有其他方法considerably。此外，当在真实视频数据上添加用于注视预测的MPIIGaze数据集时，准确度增加到6。十一尺。一些凝视预测的例子可以在附录中看到。交叉数据集评价：我们评估了我们的方法在跨数据集评估中的有效性。我们选择UT多视图数据集进行训练，并在MPIIGaze上进行估计。表1总结了我们的方法和其他基于CNN的MPIIGaze方法我们的方法仍然优于GazeNet+，但改进没有数据集内评估设置那么大。由于UT Multiview数据集使用合成学习方法来生成更多的眼睛图像，因此生成的图像与MPIIGaze中的图像非常不同。在[43]中，通过增加生成图像的真实性，细化的生成图像提供了更好的视线估计准确度，超过3μ m。数据移位问题在这里很重要，应该使用哪些领域自适应技术来处理，但本文没有使用。然后，将MPIIGaze数据集加入到训练数据中，并对真实视频数据集进行了leave-one-person-out视线估计，将视线估计精度提高了 1倍以上，部分支持了 UT Multiview 和MPIIGaze之间的个性化凝视估计：由于我们的混合效应模型可以学习与特定人相关的随机效应，因此我们的方法可以通过少量校准样本进行个性化。为了表明我们的方法可以适应个体主体，我们对MPIIGaze数据集进行个性化注视估计。我们从MPIIGaze中挑选校准样本，并使用剩余样本进行评估。给定每个受试者200个校准样本，我们的模型实现了3的平均误差。8度，与最先进的个性化凝视方法相当[34]。混合数据集评估：为了进一步显示多数据集上的注视估计性能，我们评估了我们的方法用于混合数据集评估的有效性，其中我们从每个数据集中挑选样本进行训练，并挑选其他样本进行测试。我们从MPIIGaze数据集中挑选了10个受试者，并从GAN [44]中生成了相同数量的眼睛图像，然后，使用来自MPIIGaze数据集的另外5名受试者和GAN生成的相同数量的受试者进行测试。尽管两个数据集的实际注视估计任务是相同的，但是合成数据集和真实数据集之间的差异很大。在不考虑数据集差异的情况下，经过训练的ResNet模型提供了16。36度误差，而我们的MeNet公式使用数据集的随机效应项给出11。2度误差和MeNet（无随机效应）产生11。7错误。这意味着数据集特定的随机效应可以改善对该信息不可知的模型的估计;在测试时建议随机效应会产生额外的改进。5. 结论大多数进行数据分析的研究人员都知道，为手头的数据选择正确的模型可以提高性能，相反，次优模型可能会产生较差的结果。对于基于外观为了在现代架构中实现这一观察结果，我们提出了一种公式，该公式估计混合效应模型，同时利用强大的深度神经网络的优势这个概念上简单的想法导致在大多数注视估计数据集上的现有技术的改进（10-20%，在某些情况下更多代码和附录可在 https://github.com/vsingh-group/MeNets上获得。致谢。这项工作得到了 UW CPCP AI117924 和 NSFCAREER奖RI 1252725的支持，并由 R01 EB 022883 、 R01 AG 062336 、 R01 AG040396和UW ADRC（AG 033514）部分支持我们感谢Karu Sankaralingam 进行讨论， Mona Jalal ， RonakMehta ， Ligang Zheng ， Brandon M. Smith 、 SukanyaVenkataraman 、 Haoliang Sun 、 Xiaoming Zhang 、Sathya Narayanan Ravi和Seong Jae Hwang，感谢他们在实验的各个方面提供帮助77751引用[1] 准确度和精密度测试报告x2-30 fw 1.0.1。[2] R Harald Baayen，Douglas J Davidson，and Douglas MBates.受试者和项目的交叉随机效应混合效应建模。Journal of Memory and Language，59（4）：390[3] Tadas Baltrus Mesquaitis ， Peter Robinson ，和 Louis-Philippe Mesquaitis。Openface：一个开源的面部行为分析工具包。计算机视觉应用冬季会议，第1-10页，2016年[4] Shumeet Baluja和Dean Pomerleau使用人工神经网络的非侵入式凝视跟踪。神经信息处理系统的进展，第753-760页，1994年。[5] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。[6] Jinsoo Choi，Byungtae Ahn，Jaesik Parl，等.使用Kinect的基于外观的注视估计。在国际泛在机器人和环境智能会议上，第260-261页[7] A Clemotte ， M Velasco ， D Torricelli ， R Raya 和 RCeres。tobii x2-30眼动仪在非理想条件下的准确度和精确度Eye，16（3）：2，2014.[8] Kim M Dalton，Brendon M Nacewicz，Tom Johnstone等人，凝视和自闭症中面部处理的神经回路。NatureNeuroscience，8（4）：519[9] 尤金·德梅尼科。混合模型：理论与应用R. John WileySons，2013年。[10] 邓浩平和朱望江。具有深度学习和几何约束的单目自由头在计算机视觉（ICCV），2017年IEEE国际会议上，第3162-3171页。IEEE，2017年。[11] 路德维希·法米尔和格哈德·图茨。基于广义线性模型的多元统计建模。Springer Science Business Media，2013.[12] 方子兴和罗伯特L贝利。集约化造林后湿地松优势高生长的非线性混合效应模型。森林科学，47（3）：287[13] Nathalie George，Jon Driver，and Raymond J Dolan.在面部处理过程中，注视方向调节梭状回活动及其与其他脑区的耦合。神经影像学，13（6）：1102[14] Elias Daniel Guestrin和Moshe Eizenman。利用瞳孔中心和角膜反射进行远距离凝视估计的一般理论IEEE生物医学工程学报，53（6）：1124[15] Jarrod D Had field等.多响应广义线性混合模型的Mcmc方法。Journal of Statistical Software，33（2）：1[16] AhlemHajjem，Fran c.Bell avance，andDenisLarocque. 聚类数据的混合效应随机森林。 Journal of StatisticalComputation and Simulation ， 84 （ 6 ）： 1313-1328 ，2014.[17] Eakta Jain ， Yaser Sheikh ， Ariel Shamir ， and JessicaHodgins.视频重新编辑。ACM Transactions on Graph-ics，34（2）：21，2015.[18] 李剑锋和李世刚。基于眼睛模型的rgb-d相机注视估计。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition Work-shops，第592-596页[19] Knut KW Kampe，Chris D Frith，Raymond J Dolan，等.心理学：吸引力和凝视的奖励值。自然， 413（6856）：589[20] Hyunwoo J Kim ， Nagesh Adluru ， Heemanshu Suri ，Baba C Vemuri，Sterling C Johnson，and Vikas Singh.黎曼非线性混合效应模型：神经影像学纵向变形分析。在IEEE计算机视觉和模式识别会议论文集，第2540-2549页[21] Kyle Krafka，Aditya Khosla，Petr Kellnhofer，等.每个人的眼动追踪在CVPR中，第2176-2184页[22] Nan M Laird和James H Ware。纵向数据的随机效应模型Biometrics，第963-974页[23] Yong Jae Lee，Joydeep Ghosh，and Kristen Grauman.覆盖重要的人和物体，用于以自我为中心的视频摘要。在CVPR，第1346-1353页[24] Yin Li，Alireza Fathi，and James M.瑞格学习预测自我中心视频中的凝视。InICCV，2013.[25] 玛丽·J·林德斯特罗姆和道格拉斯·M·贝茨。重复测量数据的非线性混合效应模型Biometrics，第673-687页[26] 刘刚，俞渝，肯尼斯A富内斯-莫拉，让-马克Odobez，和Eyeware技术SA。一种用于具有校准的注视估计的差分方法。技术报告，2018。[27] Feng Lu，Takahiro Okabe，Yusuke Sugano，et al.头部姿势自由凝视估计的头部运动学习凝视偏差。Imageand Vision Computing，32（3）：169[28] Feng Lu，Yusuke Sugano，Takahiro Okabe，et al.通过眼睛图像合成的基于外观的头部姿态自由注视感测模式识别国际会议，第1008-1011页，2012年[29] Feng Lu，Yusuke Sugano，Takahiro Okabe，and YoichiSato.通过自适应线性回归从外观推断人类注视。在计算机视觉（ICCV），2011 IEEE国际会议上，第153-160页。IEEE，2011年。[30] Feng Lu，Yusuke Sugano，Takahiro Okabe，and YoichiSato.用于基于外观的注视估计的自适应线性回归。IEEE Transactions on Pattern Analysis and MachineIntelligence，36（10）：2033[31] TomasMi k ol ov，MartinKara fia't，LukasBu r get，JanCe r-nock y` ，andSanje e vKhudanpu r. 基于递归神经网络的InInterspeech，volume 2，page 3，2010.[32] 肯尼思·阿尔贝托·富内斯·莫拉，弗洛朗·莫奈，让-马克·奥多贝兹. Eyediap：一个用于开发和评估rgb和rgb-d相机凝视估计算法的眼动追踪研究与应用研讨会论文集，第255-258页。ACM，2014年。[33] Kenneth Alberto Funes Mora和Jean-Marc Odobez。基于多模态kinect数据的注视估计在计算机视觉和模式识别研讨会，第25-30页77752[34] 朴善旭，张旭聪，安德烈亚斯·布林，奥特玛·希里格斯.学习在不受约束的设置中找到用于远程凝视估计的眼睛区域标志。在2018年ACM眼动追踪研究应用研讨会的会议记录中，第21页。ACM，2018。[35] Kevin A Pelphrey ， James P Morris ， and GregoryMcCarthy. 自闭症中眼睛凝视处理缺陷的神经基础Brain，128（5）：1038[36] Michael J Reale，Shaun Canavan，Lijun Yin，KaoningHu，and Terry Hung.一种多手势交互系统，其使用用于注视估计的3-d虹膜盘模型和用于3-d手指向的主动表观模型。IEEE Transactions on Multimedia，13（3）：474[37]

下载后可阅读完整内容，剩余1页未读，立即下载