没有合适的资源?快使用搜索试试~ 我知道了~
198310带有眼动力学的神经启发式眼动追踪0KangWang RPI0kangwang.kw@gmail.com0Hui Su RPIand IBM0huisuibmres@us.ibm.com0QiangJi RPI0qji@ecse.rpi.edu0摘要0将眼动追踪推广到新的受试者/环境对于现有的基于外观的方法仍然具有挑战性。为了解决这个问题,我们提出利用神经学研究启发的眼动力学。研究表明,存在几种常见的眼动类型,与观看内容和受试者无关,例如注视、扫视和平滑追踪。因此,结合通用的眼动力学可以提高泛化能力。具体而言,我们提出了一种新颖的动态注视转换网络(DGTN),用于捕捉潜在的眼动力学并作为自上而下的注视先验。结合深度卷积神经网络的自下而上的注视测量,我们的方法在数据集内和跨数据集评估中相比现有技术取得了更好的性能。此外,还构建了一个新的DynamicGaze数据集来研究眼动力学和眼注视估计。01. 引言0眼动是人们与他人和视觉世界互动的最重要方法之一。眼动追踪已应用于不同领域,包括心理学研究[1]、社交网络[2,3, 4, 5]、网络搜索[6, 7,8]、市场营销和广告[9]、人机交互[10, 11,12]。此外,由于神经活动影响处理视觉信息的方式(通过眼动反映),因此眼动追踪成为研究神经科学的最有效工具之一。估计的眼动、眼注视模式可以帮助注意力研究,如物体搜索机制[6],了解知觉决策过程中的神经功能[13],以及精神分裂症、脑震荡后综合症、自闭症、脆性X综合症等的医学诊断。尽管眼动追踪对神经科学研究的重要性,研究人员忽视了眼睛的神经学研究也可以使眼动追踪受益。研究表明,眼动追踪不是一个随机过程,而是涉及强烈的动力学。存在共同的眼动0独立于观看内容和受试者的眼动力学1的泛化能力。利用眼动力学可以显著提高眼动追踪的性能。从神经解剖学研究中,有几种主要的眼动类型2:调节、扫视、注视和平滑追踪。调节运动是为了在不同距离上注视物体,两只眼睛相反方向移动。由于调节在自然观看场景中较少见,我们主要关注注视、扫视和平滑追踪眼动。扫视运动是从一个注视到另一个注视的快速眼动,其持续时间短且振幅与持续时间呈线性相关。还有关于微扫视的研究[14],但不是本文的重点。注视是在一段时间内注视同一物体,眼动非常小(微小),可以视为静止或随机行走。平滑追踪是眼睛平滑地跟踪缓慢移动的物体。它不能被主动触发,通常需要一个移动的物体。现有的工作(参见[15]进行综合调查)对眼注视估计是基于静态帧的,没有明确考虑底层动力学。其中,基于模型的方法[16, 17, 18, 19, 20, 21, 22, 23, 24,25]根据几何3D眼睛模型估计眼注视。通过检测几何3D眼睛模型中的关键点,可以估计眼注视。与传统的基于静态帧的方法不同,我们提出利用眼动力学来估计眼注视。由于眼动力学可以在受试者和环境之间泛化,所提出的方法因此具有更好的泛化能力。系统示意图如图1所示。对于在线眼动追踪,静态注视估计网络首先从输入帧估计原始注视x_t。接下来,我们将自上而下的眼动力学与自下而上的图像测量(Alg.1)相结合,得到更准确的预测y_t。此外,y_t还被反馈回去优化静态网络,以便更好地泛化到01 在本文中,眼动指的是屏幕上的实际注视移动。2https://www.ncbi.nlm.nih.gov/books/NBK10991/98320y t x t0G0(算法2)w t ← w t−10输入视频流0静态注视估计网络= f( ; )x t I t w t−10动态注视转换网络G(α)0)0= g({ , G(α)) y t0i=t−k+10I t0在线眼动追踪模型改进0图1.提出系统的概述。对于在线眼动追踪,我们将静态注视估计网络与动态注视转换网络结合起来,以获得更好的注视估计。此外,系统的反馈机制允许模型的改进,从而可以更好地将静态网络推广到未见过的受试者或环境。0当前用户和环境(算法2)。该方法的贡献如下:0据我们所知,我们是第一个利用动态信息来改善注视估计的人。将自上而下的眼动动力学与自下而上的图像测量相结合可以获得更好的泛化和准确性(提高15%),并且可以自动适应未见过的受试者和环境。0•提出了DGTN,有效捕捉不同眼动的转换及其底层动态。0构建DynamicGaze数据集,不仅为评估静态注视估计提供了另一个基准,还有助于研究眼注视和眼动动力学的社区。02. 相关工作0静态眼注视估计。与我们的静态眼注视估计最相关的工作是[27]。作者提出使用深度卷积神经网络结合面部、眼睛和头部姿势信息在移动设备上估计注视。尽管他们在数据集内表现良好,但无法很好地推广到其他数据集。带有眼动动力学的眼注视估计。眼动是一个时空过程。大多数现有的工作只使用空间眼动,也称为显著性图。在[32, 18,33]中,作者使用从图像/视频刺激中提取的显著性图来近似空间注视分布。然而,他们的目的是执行隐式个人校准,而不是提高注视估计的准确性,因为空间显著性图是场景相关的。在[34]中,作者利用了头两次注视有超过80%的机会落在人脸上的事实来帮助估计眼注视。然而,他们的近似过于简单,不能适用于更自然的场景。0对于时间眼动,[35]中的作者提出使用隐马尔可夫模型(HMM)来预测推荐系统中的未来注视位置,其中假设注视是潜在状态,用户行为(点击、评分、停留时间等)是观测。然而,他们的方法非常依赖于任务,并且无法推广到不同的任务。在[36]中,作者提出使用类似的HMM来预测注视位置以减少网络视频流的延迟。他们还考虑了对应于注视、扫视和平稳追踪的三个状态。然而,他们的方法忽略了这三个状态的不同持续时间,并且对每个状态的动态建模相对较简单。此外,它需要商用眼动追踪器,而提出的方法是基于外观的注视估计器,可以使用简单的网络摄像头进行在线实时眼动追踪。此外,提出的方法支持模型改进,可以推广到新的受试者和环境。0眼动分析。除了眼动追踪外,还有很多关于根据眼动追踪数据识别眼动类型的研究。这包括基于阈值的方法[37,38]和基于概率的方法[39, 40,41]。这两种方法都需要眼动追踪数据的测量,如离散度、速度或加速度。分析这些测量的底层分布可以帮助识别眼动类型。然而,这些方法并不关注建模注视转换以改善眼动追踪。03. 提出的框架0我们首先在第3.1节讨论眼球运动动态和DGTN,然后在第3.2节简要介绍静态注视估计网络,接下来在第3.3节讨论如何通过自上而下的眼球运动动态和自下而上的注视测量进行在线眼球追踪,最后在第3.4节重点讨论静态注视估计网络的改进。100horizontal gaze0.5time0.5vertical gaze10002001fixationsaccadesmooth pursuit050100150200time00.20.40.60.8horizontal gazefixationsaccadesmooth pursuit050100150200time00.20.40.60.8vertical gazefixationsaccadesmooth pursuit00.20.40.60.8horizontal gaze00.20.40.60.8vertical gazefixationsaccadesmooth pursuit98330t0x0y0注视摩托车0扫视0注视汽车0扫视0平滑追踪跟随运动0图例:0场景帧注视转换注视点扫视点平滑追踪点0(b)图2.眼球运动动态。(a)观看视频时眼球运动的示意图,(b)动态注视转换网络的图形表示。03.1. 眼球运动动态和DGTN0我们首先观察观看视频时的眼球运动。如图2(a)所示,用户首先被天空中的摩托车吸引。在注视摩托车一段时间后,由于拍摄角度的变化,用户将注意力转移到最近出现的汽车上。两个注视之间有一个扫视。接下来,用户将注意力转回摩托车,并开始用平滑追踪眼球运动跟随运动。我们对眼球运动有三个观察结果:1)每个眼球运动都有自己独特的动态模式,2)不同的眼球运动持续时间不同,3)不同眼球运动之间存在特殊的转换模式。这些观察结果启发我们构建了图2(b)中所示的动态模型来建模整体注视转换。具体而言,我们采用半马尔可夫模型来建模每种眼球运动类型的持续时间。在图2(b)中,顶部的红色曲线显示了一个样本注视模式,其中包括3个分别对应于注视、扫视和平滑追踪的片段。顶部行表示状态链s_t,其中s_t = {fix, sac,sp}可以取三个值,分别对应于注视、扫视和平滑追踪。每个0状态可以生成一系列真实注视位置{y_t},其中d表示状态的持续时间。尽管状态s_t在很长一段时间内保持不变,但为了确保结构的规则性,它的值被复制到状态内的所有时间片中。真实注视y_t不仅取决于当前状态,还取决于先前的注视位置。例如,平滑追踪的移动方向由几个先前的注视位置确定。给定真实注视y_t,我们可以生成噪声测量x_t,这些测量是静态注视估计方法的输出。接下来,我们将详细讨论1)状态内动态(第3.1.1节),2)眼球运动持续时间和转换(第3.1.2节),3)测量模型(第3.1.3节)和4)参数学习(第3.1.4节)。03.1.1 状态内动态0图3.眼球运动的可视化。左上:x-y-t的3D图;右上:在y-t平面上的投影的2D图;左下:在x-t平面上的投影的2D图;右下:在x-y平面上的投影的2D图。0注视。注视是将眼睛凝视在同一静态物体上一段时间(图3(d))。我们提出使用随机游走模型来建模:y_t = y_{t-1} +w_{fix},其中w_{fix}是均值为零、协方差矩阵为Σ_{fix}的高斯噪声。扫视。通常,扫视是两个注视之间的快速眼球运动。轨迹通常是一条直线或广义指数曲线(图3)。在这项工作中,我们用分段线性函数来近似轨迹。第一个扫视点y_1实际上是上一个注视的终点。在不知道图像内容的情况下,预测第二个扫视点y_2的位置是困难的。然而,根据[42],水平扫视比垂直扫视更频繁,这为第二个扫视点提供了强烈的线索。具体而言,我们假设第二个点可以通过在二维平面上以一定的振幅和方向(角度)从第一个点过渡来估计:y_2 = y_1+ λ [cos(θ), sin(θ)]^T,其中振幅λ�N(µ_λ,σ_λ)和角度θ�N(µ_θ,σ_θ)都遵循高斯分布。振幅(图4(a))和角度(图4(b))的直方图绘制也验证了高斯分布的可行性。050010000100200300050100150P(st = j|st−1 = i, dt = d) =� δ(i, j) if d > 0A(i, j) if d = 0P(dt = d′|dt = d, st = k) =� δ(d′, d − 1) if d > 0pk(d′) if d = 0(1)dktα∗m = arg maxαm{αst, αsd}∗ = arg maxαst,αsddktα∗j = arg maxαj983400 200 400 600 幅度 / 像素0样本数量0(a)0-100 -50 0 50 100 角度 / 度0样本数量0(b)01->2 2->3 3->4 4->5 5->6 6->7转移索引 i -> 索引 j0幅度/像素0(c)0图4. 眼动特征。 (a) 幅度分布, (b) 角度分布, (c) 与相邻眼动点的幅度变化。0其余的眼动点可以通过前两个点进行估计: y t = B i 1 y t− 1 + B i 2 y t − 2 + w sac ,其中 B d 1 和 B i 2是回归矩阵,上标 i表示当前眼动点的索引,或者进入状态时经过的帧数。索引i 的值等于方程 ( 1 ) 中的持续时间变量 d 。如果我们假设 Bi 1 和 B i 2 对于不同的索引 i保持不变,可能会更容易,但是眼动运动具有某些特征。例如,如图 4 (c)所示,相邻眼动点之间的幅度变化首先增加然后减少。使用依赖于索引的回归矩阵可以更好地捕捉潜在的动态特性。 wsac 是均值为零、协方差矩阵为 Σ sac的高斯噪声。平滑追踪。平滑追踪是为了跟踪一个缓慢移动的物体。因此,我们可以通过分段线性函数来近似移动轨迹,类似于眼动点。对于第二个平滑追踪点,我们引入幅度和角度变量 { λ sp , θ sp )。对于剩余的平滑追踪点,我们引入依赖于索引的回归矩阵: y t = C i 1 y t − 1 + C i 2 y t − 2 + w sp 。 w sp是均值为零、协方差矩阵为 Σ sp 的高斯噪声。03.1.2 眼动持续时间和转移0隐性半马尔可夫模型已在 [ 43 ]中得到了很好的研究,我们采用类似的形式来描述我们模型中的状态持续时间和转移建模。除了状态、真实注视位置和测量注视位置的随机变量 s t 、 y t 和 x t,我们还引入另一个离散随机变量 d t (范围为 { 0 , 1 , ...,D } ),表示状态 s t 的剩余持续时间。状态 s t和剩余持续时间 d t是离散随机变量,遵循多项式(分类)分布。状态转移的条件概率分布(CPDs)定义如下:0其中 δ ( i, j ) = 1 if i = j else 0 。当我们进入一个新的状态 s t = i 时,持续时间 d t 从先验多项式分布 q i ( ∙ ) = [ p i (1) , ...,p i ( D )] 中抽取。然后,持续时间递减至 0。当 d t = 0时,状态转移到一个0使用状态转移矩阵 A 和新状态的持续时间再次从 q i ( ∙ )中抽取。03.1.3 测量模型0测量模型 P ( x t | y t ) 与眼动类型无关,我们假设: x t =Dy t + w n ,其中 D 是回归矩阵, w n是均值为零、协方差矩阵为 Σ n 的多变量高斯噪声。03.1.4 参数学习0DGTN 参数总结如表 1所示。为简单起见,我们将所有参数表示为 α = [ α st , αsd , α fix , α sac , α sp , α m ] ,DGTN 表示为 G ( α )。图 2 (b)中的所有随机变量在学习过程中都是可观测的(在线注视跟踪期间,状态和真实注视位置是未知的)。给定完全观测到的 K 个序列( { s k t , y k t , x k t } T k t =1),每个序列的长度为 T k,我们可以使用最大对数似然估计所有参数:0α� = arg max α lo0k = 1 P({s_k_t, y_k_t, x_k_t} T_k t=1 |α) (2)0= arg max α0k = 1log0T_k �0t = 10�0P(s_k_t, d_k_t) P(y_k_t | s_k_t, d_k_t) P(x_k_t |y_k_t)0在完全观测到的数据下,上述优化问题可以分解为以下子问题,每个子问题可以独立求解:0k = 1log0t = 1 P(x_k_t | y_k_t, α_m), (3)0k = 1log0T_k �0t = 10�0P(s_k_t, d_k_t) (4)0N_j0n = 1log0t = 1 P(y_k_t | s_k_t = j, d_k_t= T_n, α_j)0�j ∈ {fix, sac, sp}. (5)98350表1. 模型参数总结。0状态转移α_st 状态持续时间α_sd 注视α_fix 扫视α_sac 平滑追踪α_sp 测量α_m0A_q_i = [p_i(1), ..., p_i(D_i)] for i ∈ {fix, sac, sp} Σ fix {µ λ, σ λ, µ θ, σ θ} sac, {B_i1, B_i2} D sac i=3, Σ sac0{µ λ, σ λ, µ θ, σ θ} sp, {C_i1,C_i2} D_sp i=3, Σ_sp0D, Σ_n03.2. 静态眼注视估计0图5. 静态注视估计网络的架构。0原始注视测量x_t是通过标准的深度卷积神经网络(图5)[44,45]来估计的。输入是左右眼(大小均为36×60)和6维头部姿势信息(旋转和平移:俯仰、偏航、翻滚角和x、y、z)。左右眼分支共享卷积层的权重。每个卷积层后面跟着一个大小为2的最大池化层。全连接层的激活函数使用RELU。详细的层配置如下:CONV-R1,CONV-L1:5×5/50,CONV-R2,CONV-L2:5×5/100,FC-RT1:512,FC-E1,FC-RT2:256,FC-1:500,FC-2:300,FC-3:100。为了简化,我们将静态注视估计表示为x_t = f(I_t;w),其中I和w分别是输入帧和模型参数。03.3. 在线眼动追踪0传统的基于静态的方法只输出静态注视估计网络中的测量注视x。在这项工作中,我们提出使用DGTN的帮助输出真实注视点y:0y_t = arg max p(y_t | x_1, x_2, ..., x_t)0= arg max �0s_t p(y_t, s_t | x_1, x_2, ..., x_t) ds_t (6)0直接解决方程(6)中的问题是不可行的,因为涉及到隐藏状态的积分。作为替代,我们建议首先从其后验中绘制可能状态s_t([43])的样本。给定状态,注视估计是LDS或卡尔曼滤波器的标准推断问题([46])。该算法在Alg.1中总结。03.4. 模型细化0静态注视估计网络是在离线阶段从被试者中学习得到的。它们可能不具有很好的泛化能力。0算法1:在线眼动追踪0当获取到新的帧I_t时,执行以下操作:0- 从其后验中绘制状态s_t([43])的样本:s_i_t � P(s_t | x_t−k, ..., x_t), �i = 1,..., N。-根据状态s_t的样本值,使用方程(1)中的相应LDS([46])来预测真实注视点:y_i_t = arg max y_i_t P(y_i_t | x_t−k, ..., x_t, s_i_t) �i = 1, ..., N。-对N个样本的结果进行平均:y_t ≈ 10N � N i=1y_i_t.0对于新的被试者或环境,我们建议利用改进的真实注视来改进静态注视估计网络(最后两个全连接层)。算法如图2所示。请注意,我们不使用y的确切值,而是假设静态网络的时间注视分布(p(xt))与真实注视分布(p(yt))相匹配。类似于图3(b)和(c),我们将x-t曲线和y-t曲线视为两个分类分布(p = [p1, ...,pT]),其范围从1到T,值pi等于归一化的注视位置。通过最小化两个注视分布之间的KL散度,我们可以逐渐改进静态网络的参数。该算法可能在开始时不会给出很好的准确性,但可以逐步进行,并随着收集更多帧而提供更好的预测。0算法2:静态注视估计网络的模型改进。01.输入:具有初始参数w0的静态注视估计网络f(∙)。2. 0- 收集最近k个真实注视点yt = (at,bt)从算法1中,并构建水平和垂直注视的两个分类分布:px = 1 � ai [at − k, ..., at],py = 1 � bi [bt− k, ..., bt]。0- 收集最近k个原始注视点(ˆat, ˆbt) = f(It;w)并构建自下而上的分类分布:qx(w) = 1 � ˆai[ˆat − k, ..., ˆat],0qy(w) = 1 � ˆbi [ˆbt − k, ...,0- 更新静态注视估计网络:wt = arg min w DKL(px || qx(w)) + D KL(py || qy(w)),其中D KL(p|| q) = �0i p(i) log p(i)0q(i)。05001000150020002500x / pixel02004006008001000120014001600y / pixelpearsonr = 0.036; p = 3.7e-1075001000150020002500x / pixel02004006008001000120014001600y / pixelpearsonr = -0.05; p = 8.4e-8005001000150020002500x / pixel02004006008001000120014001600y / pixelpearsonr = 0.075; p = 2.5e-16105001000150020002500050010001500983604. 动态注视数据集0现有的眼球注视估计和眼动力学数据集几乎没有重叠。一方面,与注视相关的基准数据集都是基于帧的。要求被试者注视屏幕上的标记,记录他们的面部图像和真实注视位置。然而,数据集中没有自然的动态注视模式。另一方面,眼动相关的数据集侧重于在被试者观看自然视频刺激时收集数据。尽管收集到的数据涉及动态,但没有自下而上的图像测量。为了弥合这两个领域之间的差距,我们构建了一个新的数据集,记录了被试者在执行自然操作(浏览网站,观看视频)时的图像和真实注视位置。可以从数据集中观察到清晰的眼动力学。为了获取真实的注视位置,我们使用了一款商用眼球跟踪器,该跟踪器在后端运行。同时,笔记本电脑的前置摄像头记录了被试者的视频流。在后期处理过程中,视频流和注视流进行了同步。Tobii4C眼球跟踪器在校准后的误差小于0.5,我们相信这个精度足以构建一个基于网络摄像头的眼球注视跟踪系统的数据集。04.1. 数据收集过程0我们邀请了15名男性和5名女性参与数据集的构建,他们的年龄在20到30岁之间。我们收集了3个数据会话:1)基于帧;2)观看视频;3)浏览网站。基于帧的数据收集有两个目的:1)为静态眼球注视估计提供另一个基准,并且2)训练我们的通用静态注视估计网络。我们要求被试者注视屏幕上的一些随机移动物体,这些随机移动物体是为了确保被试者的注视范围遍布整个屏幕。每个被试者在不同的日期和位置进行3-6次试验。我们还要求被试者在笔记本电脑前的不同位置坐下,以引入更多的变化。最后,我们得到了约370,000个有效帧。观看视频。我们要求被试者观看来自3个眼球跟踪研究数据集的10个视频刺激(表2)。采集过程与前一个会话类似,最终我们收集了约145,000个有效帧。浏览网站。同样,我们要求被试者在笔记本电脑上自由浏览网站,持续时间约为5-6分钟,共收集了约130,000帧。04.2. 数据可视化和统计0图6显示了来自20个受试者的示例眼睛图像。其中包括眼镜和反射等遮挡物。图7显示了在分辨率为2880×1620的显示器上的空间凝视分布。对于基于帧的数据,凝视呈均匀分布。对于视频观看数据,凝视0数据集名称 描述0CRCNS [47] 1. saccadetest点在屏幕上移动。02. beverly07人们走路和跑步。0[48] 3. 01-car-pursuit汽车在环形道上行驶。04. 02-转弯汽车汽车在一个环形道上转弯。0DIEM [49]05. BBC4广告蜜蜂BBC标志上的飞蜜蜂。06. 北极熊北极熊在海洋中。07. 莫桑比克的夜生活一个螃蟹捕鱼。08. 乒乓球无人乒乓球在周围弹跳。09. 运动巴塞罗那极限运动剪辑。010. 运动扰乱器极限运动扰乱器。0图6. 数据集中的示例眼睛图像。0(a) 基于帧0(b) 视频观看0(c) 网页浏览0图7. DynamicGaze数据集的空间凝视分布。00 100 200 300 400 500 时间0水平凝视位置00 100 200 300 400 500 时间0垂直凝视位置0图8. 8个受试者观看相同视频的动态凝视模式示例。0观看视频时,凝视模式呈现出中心偏向,这是观看视频时最常见的模式。最后,对于浏览网页,凝视模式主要集中在屏幕的左侧,这主要是由于网页的设计。由于数据集的主要目标是探索凝视动态,我们还研究了8个受试者观看相同视频刺激时的动态凝视模式。如图8所示,不同受试者共享相似的整体凝视模式,尽管水平和垂直凝视位置的确切值不同。05. 实验和分析0对于DGTN,测量模型P(xt|yt)是通过来自DynamicGaze的数据进行学习的,其中我们既有地面真实凝视yt,也有来自静态凝视估计网络的测量凝视。模型的其余部分是通过来自CRCNS[47]的数据进行学习的,其中我们有地面真实状态注释st和地面真实凝视。012345678910Static, avg = 5.34EMD, avg = 4.97Full, avg = 4.65012345678910Static, avg = 4.97EMD, avg = 4.58Full, avg = 4.0798370CRCNS包括50个视频片段和8个受试者的235个有效眼动轨迹。对于静态凝视估计网络,我们使用Tensorflow作为后端引擎。注视是一阶LDS,扫视和平滑追踪可以被视为二阶LDS,因此Alg.1中的值k可以是1或2。Alg.2中的值k设置为50(约2秒的数据),我们用它们来更新静态网络的参数。对于整体凝视估计,静态凝视估计(GPU Tesla 54K40c)的时间小于1毫秒,而在线部分(Alg.1)使用IntelXeon CPU E5-2620 v3@2.4GHz大约需要50-60毫秒。在实践中,对于实时处理,模型的改进在凝视估计线程之外的单独线程中运行。性能评估使用角度误差(以度为单位)。我们首先计算在显示器(2880×1620)上的欧几里得像素误差,然后可以将其转换为厘米误差errd,给定显示器尺寸。角度误差通过err a =arctan(err d /t z)来近似,其中tz是相对于摄像头的被试头部的估计深度。05.1. 静态凝视估计网络的基准0表3. 不同输入数据通道的比较。0L R F L,R L,R,F L,R,P L,R,F,P0误差 5.38 5.27 5.56 4.70 5.29 4.27 4.470我们尝试了不同的输入组合。如表3所示,符号L、R、F、P分别表示左眼图像、右眼图像、面部图像和头部姿势。根据结果,我们决定同时使用两只眼睛和头部姿势。为了获取头部姿势,我们对面部标记进行离线检测[50],然后可以使用3D形状模型[51,52]解决头部姿势角度。需要注意的是,添加面部图像并不有用,因为受试者的面部纹理与眼睛纹理非常不同,这使得很难推广到新的受试者。此外,添加面部可能会显著增加推理时间。05.2. 不同模型组件的评估0所提出的模型由两个主要组件组成:1)具有眼动力学的凝视估计和2)优化模型以更好地适应当前用户/环境。为了研究每个组件的贡献,我们比较了所提出模型的以下3个变体:0• 静态:该模型输出原始的凝视预测x,并作为基准。0•EMD(眼动力学):该模型仅使用眼动力学(算法1)而不进行模型优化,并输出真实的凝视预测y。0•完整:这是我们的完整模型,包含眼动力学和模型优化。01 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 受试者0误差(度)0(a) 视频观看01 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 受试者0误差(度)0(b) 网页浏览0图9. 所有受试者的凝视估计误差。0我们进行了跨受试者评估,图9显示了3个模型的性能。首先,对于大多数受试者,完整模型相对于静态模型显示出了改进的性能。平均估计误差从5.34度降低到4.65度((俯仰,偏航)=(2.67,3.81),改进13%)用于视频观看,从4.97度降低到4.07度((俯仰,偏航)=(2.23,3.41),改进18%)用于网页浏览。其次,将EMD(灰色条)与静态(黑色条)进行比较,我们始终可以获得更好的结果,无论是哪种情况,这证明了在用户的凝视模式具有强烈动态性的实际情况下,引入动态性的重要性。眼动力学的平均改进分别为6.9%和7.9%用于视频观看和网页浏览。第三,完整模型(白色条)与EMD(灰色条)之间的差异显示了模型优化的效果。我们可以清楚地观察到静态模型无法很好地推广到某些受试者。通过模型优化,我们显著减少了某些受试者的误差(例如,视频观看中的Subj6、15、16、18和网页浏览中的Subj15、16、18)。我们还观察到,模型优化并不总是有帮助的,它可能会增加某些受试者的误差(例如,视频观看中的Subj4、5、7)。总体而言,模型优化分别提高了6.4%和11.2%用于视频观看和网页浏览。总的来说,这两个组件都可以帮助减少眼睛凝视估计的误差,而将两者结合起来进一步减少了误差。05.3. 随时间变化的凝视估计性能0图10显示了随时间变化的凝视估计误差。误差是从所有受试者的前8000帧平均计算得出的。对于两种情况,最初的时间段改进很小(有时甚至下降),但随着数据的增加,改进逐渐变得更加显著。010002000300040005000600070008000frame-20246810error (degree)staticdynamicstatic - dynamic010002000300040005000600070008000frame-20246810error (degree)staticdynamicstatic - dynamic98380(a) 视频观看0(b) 网页浏览0图10.随时间变化的凝视估计误差。红色曲线表示静态模型的误差,绿色曲线表示完整模型的误差,绿色曲线表示减小的误差。0这表明,通过足够的帧数,所提出的方法可以显著提高眼球注视估计的准确性。05.4. 与不同动态模型的比较0表4. 使用不同动态模型的所有受试者的平均误差。0静态 均值 中位数 LDS s-LDS RNN 我们的0视频 5.34 5.18 5.16 5.20 5.14 5.15 4.970网络 4.97 4.85 4.84 4.70 4.66 4.71 4.580在这个实验中,我们与几个基线动态模型进行比较。实验结果如表4所示。首先,我们发现引入动态效果优于静态方法。即使简单的均值/中位数滤波器也可以改善结果。在不考虑不同眼动类型的情况下训练的LDS模型无法给出良好的结果。一旦我们考虑到不同的眼动类型,即使没有持续时间建模,切换-LDS也可以改善结果。RNN [ 53 , 54 ]给出了相当好的结果,但忽略了不同眼动的特征,因此我们提出的方法仍然可以超越它。总体而言,我们认为所提出的动态建模可以更好地解释潜在的眼动动力学,并有助于提高眼球注视估计的准确性。05.5. 与最先进方法的比较0我们与最先进的基于外观的方法[ 27]进行了数据集内和跨数据集实验的比较。具体而言,我们使用Tensorflow按照相同的架构和与架构相关的超参数重新实现了[ 27]中的模型。对于与训练相关的超参数(例如学习率,迭代次数),我们没有遵循[ 27 ]中的设置,而是根据交叉验证进行了调整。0表5. 与最先进方法的比较。0实验 数据集内 跨数据集0视频 网站 视频 网站01. 静态网络(我们的)5.34 4.97 9.12 9.6502. 静态网络([ 27 ])4.97 4.86 8.73 9.1703. 静态网络(我们的)+ DGTN 4.65 4.07 7.15 7.8704. 静态网络([ 27 ])+ DGTN 4.51 4.00 7.05 7.590超参数(例如学习率,迭代次数),我们没有遵循[ 27]中的设置,而是根据交叉验证进行了调整。0对于数据集内实验,两个模型都是在DynamicGaze的基于帧的数据上进行训练,并在DynamicGaze的网络和视频数据上进行测试。对于跨数据集实验,两个模型都是使用来自EyeDiap的数据进行训练,并在DynamicGaze的网络和视频数据上进行测试。0结果如表5所示。我们得出以下观察结果:1)比较实验1和实验2,我们可以看到两个静态网络都给出了合理的准确性,而更复杂的网络([ 27])比我们的性能更好;2)比较实验2和实验4,将DGTN添加到静态网络中显著降低了注视估计误差;3)类似地,比较实验2和实验4,将DGTN模块添加到最先进的静态网络仍然可以实现更好的性能;4)跨数据集设置的改进比数据集内情况更为显著,证明了通过引入眼动动力学来提高泛化能力;5)比较实验2和实验3,我们可以发现我们提出的方法(实验3)在跨数据集情况下优于当前最先进的方法(实验2)。06. 结论0在本文中,我们提出利用眼动动力学来改进眼球注视估计。通过分析与计算机自然交互时的眼动模式,我们构建了一个动态注视转换网络,捕捉了凝视、扫视、平滑追踪等的潜在动态以及它们的持续时间和转换。将DGTN的自上而下的注视转换先验与深度模型的自下而上的注视测量相结合,我们可以显著提高眼球跟踪性能。此外,所提出的方法允许在线模型优化,有助于泛化到未见过的受试者或新环境。定量结果证明了所提出方法的有效性以及将眼动动力学纳入眼球跟踪的重要性。0致谢:本文所描述的工作部分得到了NSF奖励(IIS1539012)和RPI-IBM认知沉浸式系统实验室(CISL)的支持,该实验室是IBM人工智能地平线网络中的一个中心。98390参考文献0[1] A. L. Yarbus,“在感知复杂对象过程中的眼动”,在《眼动和视觉》中,第171-211页,Springer,1967年。10[2] W. A. W. Adnan,W. N. H. Hassan,N. Abdullah和J.Taslim,“在线社交网络中用户行为的眼动分析”,在《在线社区和社交计算国际会议》中,第113-119页,Springer,2013年。10[3] G.-J. Qi,C. C. Aggarwal和T. S.Huang,“社交感知中的在线社区检测”,在第六届ACM国际网络搜索和数据挖掘会议上,第617-626页,ACM,2013年。10[4] J. Tang,X. Shu,G.-J. Qi,Z. Li,M. Wang,S. Yan和R.Jain,“用于社交感知图像标签细化的三聚类张量补全”,《IEEE模式分析与机器智能交易》,第39卷,第8期,第1662-1674页,2017年。10[5] G.-J. Qi,C. C. Aggarwal和T.Huang,“通过有偏的跨网络采样进行网络间的链接预测”,在2013年IEEE第29届国际数据工程大会上,第793-804页,IEEE,2013年。10[6] J. H. Goldberg,M. J. Stimson,M. Lewenstein,N. Scott和A. M.Wichansky,“网络搜索任务中的眼动跟踪:设计影响”,在2002年眼动研究与应用研讨会论文集中,第51-58页,ACM,2002年。10[7] X. Wang,T. Zhang,G.-J. Qi,J. Tang和J.Wang,“用于相似性搜索的监督量化”,在IEEE计算机视觉和模式识别会议论文集中,第2018-2026页,2016年。10[8] S. Chang,G.-J. Qi,C. C. Aggarwal,J. Zhou,M. Wang和T. S.Huang,“网络中的因子化相似性学习”,在2014年IEEE国际数据挖掘大会上,第60-69页,IEEE,2014年。10[9] C. H. Morimoto和M. R.Mimica,“交互应用的眼球注视跟踪技术”,《计算机视觉和图像理解》,第98卷,第1期,第4-24页,2005年。10[10] K. Wang,R. Zhao和Q.Ji,“头部姿势、眼球注视和身体手势的人机交互”,在2018年第13届IEEE国际自动面部和手势识别会议上,第789页,IEEE,2018年。10[11] R. Zhao,K. Wang,R. Divekar,R. Rouhani,H. Su和Q.Ji,“具有多模式人机交互的沉浸式系统”,在2018年第13届IEEE国际自动面部和手势识别会议上,第517-524页,IEEE,2018年。10[12] R. R. Divekar,M. Peveler,R. Rouhani,R. Zhao,J. O.Kephart,D. Allen,K. Wang,Q
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功