没有合适的资源?快使用搜索试试~ 我知道了~
RT-GENE:自然环境Tobias Fischer、Hyung Jin Chang和Yiannis Demiris英国伦敦帝国理工学院电气与电子工程系个人机器人实验室{t.fischer,hj.chang,y.demiris}@ imperial.ac.uk抽象。在这项工作中,我们考虑了在自然环境中的鲁棒注视估计的问题。大的相机到主体的距离以及头部姿势和眼睛注视角度的高变化在这样的环境中是常见的。这导致用于注视估计的现有技术方法中的两个主要不足:阻碍了地面实况注视注释以及由于图像分辨率随距离而降低而降低的注视估计准确度。 我们首先记录了一个新的数据集的不同的目光和头部姿态图像在自然环境中,解决地面实况注释的问题,通过测量头部姿态使用运动捕捉系统和眼睛注视使用移动眼动跟踪眼镜。我们将语义图像修复应用于眼镜覆盖的区域,通过去除眼镜的突兀性来弥合训练图像和测试图像之间的差距。我们还提出了一种新的实时算法,该算法涉及基于外观的深度卷积神经网络,具有更高的能力来处理新数据集中的各种图像。使用这种网络架构的实验在许多不同的眼睛注视数据集上进行,包括我们自己的,以及交叉数据集评估。我们在所有实验中的估计精度方面展示了最先进的性能,并且该架构即使在较低分辨率的图像上也表现良好。关键词:注视估计·注视数据集·卷积神经网络·语义修复·眼动跟踪眼镜1介绍眼睛注视是各种应用中的重要功能组件,因为它表示人类的注意力,因此可以用于研究他们的意图[9]和理解社交互动[41]。出于这些原因,准确估计注视是计算机视觉中的一个活跃的研究课题,其应用于影响分析[22],显着性检测[42,48,49]和动作识别[31,36],仅举几例。凝视估计也已应用于计算机视觉以外的领域,例如眼睛凝视控制轮椅的导航[12,46],驾驶员非语言行为的检测[16,47]以及推断人机交互中的感兴趣对象[14]。深度学习已经在各种计算机视觉任务中取得了成功,在这些任务中,它们的有效性取决于图像的大小和多样性2T. Fischer,H. J. Chang,Y. 德米里斯运动捕捉摄像头(8个摄像头)移动式眼动追踪眼镜光线跟踪运动捕捉标记RGB-D相机受试者与摄像机的距离为0.5-2.9m图1.一、 用于记录注视数据集的建议设置。RGB-D相机记录佩戴Pupil Labs移动眼动跟踪眼镜的受试者的一组图像[24]。反射红外光的标记附接到相机和眼睛跟踪眼镜两者,以便由运动捕获相机捕获该设置允许以自动化方式进行准确的头部数据集[29,51]。然而,在基于深度学习的凝视估计中,通常发现相对较浅的网络就足够了,因为大多数数据集都是在受试者靠近相机并且移动范围较小的受限场景中记录的[15,20,28,60]。在这些数据集中,地面实况数据通常通过在屏幕上显示目标并要求受试者注视该目标以间接方式进行注释,其中典型的记录设备是移动电话[28]、平板电脑[20,28]、笔记本电脑[60]、台式机屏幕[15]或电视[10]。这是由于在主体远离相机并且被允许自由移动的场景中注释注视的困难。据我们所知,这项工作是第一个解决在自然环境中的视线在这些设置中,先前仅通过头部姿势来近似注视[30,35]。我们的新方法,RT-GENE,涉及自动注释地面实况数据集相结合的运动捕捉系统的头部姿态检测,与移动眼睛跟踪眼镜的眼睛凝视注释。如图1所示,该设置在自由观看条件下(即,不指定明确的注视目标)以自动方式直接提供注视向量,这允许快速记录数据集。虽然我们的系统提供了准确的注视注释,但眼动跟踪眼镜在从眼睛记录时引入了不自然的主体外观的问题。外部摄像头。由于我们感兴趣的是在不使用眼动跟踪眼镜的情况下估计受试者的注视,因此重要的是测试图像不受试者外观改变的为了这个目的,我们表明,语义图像修复可以应用在一个新的情况下,即修复的眼睛跟踪眼镜所覆盖的区域然后使用移除了眼动跟踪眼镜的图像来训练新的注视估计框架,如图2所示,并且我们的实验验证了修复提高了注视估计准确度。我们表明,网络与更多的深度应付RT-GENE:自然环境中的实时眼睛注视估计3图二、 RT-GENE架构概述。在训练期间,运动捕捉系统用于找到移动眼动跟踪眼镜和RGB-D相机(两者都配备有运动捕捉标记)之间的相对姿态眼睛跟踪眼镜提供关于头部姿势的眼睛注视向量的标签从摄像机图像中提取被摄体的面部图像,并使用语义图像修复网络来去除眼动跟踪眼镜。我们使用地标检测深度网络来提取五个面部地标的位置,这些地标用于生成眼罩图像。最后,我们提出的凝视估计网络上的注释凝视标签进行训练。我们的新数据集内的外观变化很大,同时在传统数据集中也优于最先进的方法1。2相关工作凝视数据集:在表1中,我们比较了通常用于凝视估计的一系列数据集。在Columbia Gaze数据集[52]中,受试者将其头部放置在下巴托上,并被要求注视墙壁上显示的点,同时记录他们的眼睛注视。这种设置导致严重有限的外观:相机-主体距离保持恒定,并且只有少量可能的头部姿势和注视角度。UT Multi-view [53]包含使用多个摄像机记录的受试者,这使得可以使用虚拟摄像机和3D人脸模型合成额外的训练图像Deng和Zhu [10]提出了类似的设置,他们通过首先显示头部姿势目标,然后显示眼睛注视目标来捕获极端角度的眼睛注视数据点。最近,已经收集了几个数据集,其中要求受试者查看移动终端屏幕上的预定义目标,目的是引入照明和外观的更大变化 Zhang等人 [60]展示了MPII凝视数据集,其中每次会话在笔记本电脑屏幕上显示20个目标项目。使用RGB-D相机收集的少数凝视数据集之一是Eyediap [15]。1数据集和代码可供公众访问:www.imperial.ac.uk/PersonalRobotics。眼睛跟踪-3D眼睛凝视用于训练的地面实况注视方向眼镜- 闪烁- 信心凝视滤波器RGB-D相机眼动追踪眼镜头眼动追踪眼镜CAD模型无需眼动追踪眼镜的自然人脸图像左眼蒙面经修复运动捕捉将军脸Disc.GAN右眼RGB+深度人脸特征点检测网基于运动捕捉的人脸定位语义图像修复脸头部姿态估计网RGB-D相机RGB左眼RGB-D相机网络摄像头笔记本电脑摄像头机器人摄像右眼人脸特征点检测网头部姿势面部估计网目光目光数据集生成网络训练3D姿态视线估计4T. Fischer,H. J. Chang,Y. 德米里斯表1. 凝视数据集的比较数据集RGB/图像类型注释#图像距离头部姿势凝视头部姿势RGB-D类型annot。阿诺 东方。[18]第十八话RGB相机帧68面部标志300cmC- 全部BIWI [13]RGB-D相机帧头部姿态向量15,500 100厘米C- 全部ICT 3D头部姿势[2] RGB-D相机帧头部姿态向量14,000 ≈100cmC- 全部[38]第三十八话RGB-D相机帧头部姿态向量68,000≈200-800cmC- 全部[23]第二十三话RGB(机器人)相机框架头部姿态向量未知不同C-所有咖啡休息区[8]RGB低分辨率人脸图像头部姿态向量18,117不同C-所有眼镜片[15]RGB-D面部+眼罩注视向量62,500英镑80-120cmCC正面MPII凝视[60,61]RGB面部+眼罩注视向量213,65940-60cmCC正面哥伦比亚[52]RGB高分辨率相机图像注视向量5,880200cm5东方。C正面[第56话]RGB合成眼罩注视向量11,382不同CC所有UnityEyes [55]RGB合成眼罩注视向量1,000,000不同CC所有UT多视图[53]RGB眼区+眼罩注视向量1,152,00060cmCC所有[28]第二十八话[20]第二十话RGBRGB面部+眼罩平板摄像头视频2D pos on screen2D pos on screen> 250万≈ 10万关闭30- 50cm--CC正面正面我们的(RT-GENE)RGB-DFace +eye patches凝视矢量122,531 80- 280 cmCC全部除了计算机屏幕上的目标之外,数据集还包含使用颜色和深度信息跟踪的3D浮动目标。GazeCapture [28]是近1500名受试者在平板电脑屏幕上观看凝视目标的众包数据集。对于前述数据集,使用对象的界标位置和(通用或对象特定的)3D头部模型来估计头部姿态。虽然这些数据集适用于对象直接面对屏幕或移动终端的情况相比之下,在较大距离处捕获准确头部姿势注释的数据集通常不包含眼睛注视标签[2,8,13,18,23,38]。获得注释的注视数据的另一种方式是创建合成图像块[32,55- 57],其具有头部和眼睛位置以及相机-主体距离的任意变化。例如,Wood等人 [55]提出了一种实时渲染眼睛区域的照片级逼真图像的然而,合成图像和真实图像之间的域差距使得这些训练过的网络很难应用于真实图像。Shrivastana等人。 [50]提出使用生成对抗网络来优化合成补丁,以类似于更真实的图像,同时确保注视方向不受影响。然而,细化图像的外观和注视多样性则限于在真实图像中发现的变化。McMurrough等人 [37]提出了采用运动捕捉系统和眼动跟踪眼镜的数据集。它仅包含由眼动追踪眼镜提供的眼睛图像,但不包含来自外部相机的图像。此外,由于使用屏幕来显示目标,所以注视角度受到限制。基于深度学习的凝视估计:几项工作将卷积神经网络(CNN)应用于凝视估计,因为它们已被证明优于传统方法[60],例如k-最近邻或随机森林。Zhang等人。 [60]提出了一种具有六层的浅层CNN,它将眼睛图像作为输入,并将其与网络最后一个完全连接层中的头部姿势融合。Krafka等人。[28]介绍了一种CNN,它通过将左眼,右眼和面部图像与面部网格相结合来估计凝视,提供RT-GENE:自然环境中的实时眼睛注视估计5该网络具有关于原始图像中头部的位置和大小的信息。在[61]中提出了一种将完整面部图像作为输入的空间权重CNN,即没有任何眼罩。空间权重对不同面部区域的重要性进行编码,从而实现最先进的性能多个数据集。最近,Deng和Zhu [10]提出了一种两步训练策略,其中头部CNN和眼睛CNN分别训练,然后再训练。与几何约束的“注视变换层”联合微调3凝视数据集生成基于外观的注视估计中的主要挑战之一是在允许自由移动的同时准确地标注具有自然外观的我们提出了RT-GENE,这是一种新的方法,它允许在自由观看条件和大相机-主体距离下自动标注主体的我们的新数据集是按照这种方法收集的该数据集是使用移动眼动跟踪眼镜和Kinectv2 RGB-D相机构建的,两者都配备了运动捕捉标记,以便精确地找到它们相对于彼此的姿势。使用眼动跟踪 眼镜 来记 录受试 者的 眼睛 注视,同时使用Kinect v2作为记录设备来提供1920x1080的RGB图像图三. 左:包括运动捕捉标记的眼动跟踪眼镜的3D模型。右图:受试者佩戴的眼动追踪眼镜3D打印的黄色部件被设计成将眼动追踪眼镜的眼睛相机保持在每个主体的相同位置。分辨率和深度图像在512x424分辨率。与表1中呈现的数据集相比,我们的方法允许即使当受试者背对相机时也对凝视数据进行准确注释。眼睛注视注释:我们使用Pupil Labs眼动追踪眼镜的定制版本[24],在屏幕基础设置中,其平均眼睛注视误差非常低,为0.6度。在我们的数据集中,距离明显更大,我们获得的角度精度为2。58 ± 0。56度该头戴式耳机由一个框架组成,该框架带有一个背对主体的场景相机和一个用于眼睛相机的3D打印支架。这样就不需要调整眼睛摄像头的位置对于每个主题。定制的眼镜提供了两个关键的优势,超过原来的耳机。首先,眼睛相机被安装得离受试者更远,这导致眼睛区域的遮挡更少。第二,固定器的固定位置允许生成眼镜的通用(与对象特定相反)3D模型,如所描述的,这是修复过程所需要的6T. Fischer,H. J. Chang,Y. 德米里斯在第4节。通用3D模型和由受试者佩戴的眼镜在图3中示出。头部姿势注释:我们使用商业OptiTrack运动捕捉系统[39]来跟踪眼动追踪眼镜和RGB-D相机,使用附接到每个对象的四个标记,每个标记的平均位置误差为1 mm。这允许推断眼动跟踪眼镜相对于视觉传感器的姿态。RGB-D相机,其用于注释头部姿势,如下所述坐标变换:我们的数据集收集设置中的关键挑战是将眼睛跟踪参考系F E中的眼睛注视g与RGB-D相机的视觉系F C相关联,如由变换TE→C所表示的。使用该变换,我们还可以定义头部姿势h,因为它与T C→E一致。然而,我们不能直接使用由运动捕获系统提供的变换TE*→C*,因为由运动捕获系统提供的帧FE*和F C * 与视觉帧F E和F C * 不匹配。因此,我们必须找到变换TC→C*和TE→E*。 为了找到TC→C*,我们使用RGB-D相机的属性,其允许获得视觉帧F C中的对象的3D点坐标。 如果我们为这个物体配备运动捕捉系统跟踪的标记,我们可以在运动捕捉帧F C *中找到相应的坐标。 通过收集足够多的样本,Nelder-Mead方法[40]可以用来找到T C→Cε。由于我们有眼动跟踪眼镜的3D模型,我们使用加速迭代最近点算法[6]来找到模型内标记的坐标与使用运动捕捉系统找到的坐标之间的变换T E → E *。利用T E*→C*、TC→C*和TE→E*的变换,任何两个坐标系之间都不可能相互转换。最重要的是,我们可以使用TE-C将注视向量g映射到RGB-D相机的帧。数据收集程序:在记录程序开始时,我们使用印刷的校准标记来校准眼动追踪眼镜,该校准标记在覆盖受试者的视场的多个位置中显示给受试者,同时保持头部固定。随后,在第一阶段中,在佩戴眼动追踪眼镜的同时记录受试者10分钟。我们指导受试者表现自然,同时尽可能多地改变他们的头部姿势和眼睛注视,并在动作捕捉区域内移动。在第二阶段,我们在没有眼动追踪眼镜的情况下记录相同受试者的未标记图像,持续10分钟。这些图像用于我们提出的修复方法,如第4节所述。为了增加每个主体的外观的可变性,我们改变RGB-D相机的3D位置、朝向主体的视角和初始主体-相机距离。后处理:我们在后处理步骤中将RGB-D相机的记录图像与眼动跟踪眼镜的注视数据g同步。我们还过滤训练数据以仅包含±37之间的头部姿态h。水平± 5度和垂直±30度,这允许准确提取双眼的图像。此外,我们过滤掉眨眼和图像,其中瞳孔未被正确检测,置信阈值为0。98(详见[24])。RT-GENE:自然环境中的实时眼睛注视估计7MPII凝视4020020404020020 40UTMV凝视4020020404020020 40RT-GENE凝视4224MPII头位4020020404020020 40UTMV头位4020020404020 020 40RT-GENE头位4020020404020 020 40见图4。顶行:MPII凝视数据集[60](左)、UT多视图数据集[53](中)和我们提出的RT-GENE数据集(右)的凝视分布。底行:头部姿势分布,如上所述。我们的RT-GENE数据集覆盖的范围要广得多的凝视角度和头部姿势,这使得它更适合自然场景。数据集统计:提出的RT-GENE数据集包含15名参与者的记录(9名男性,6名女性,2名参与者记录两次),其中共有122,531张标记的训练图像和154,755张未标记的图像,这些图像都是未佩戴眼动追踪眼镜的相同受试者图4示出了与其他数据集相比的所有受试者的头部与[53,60]相比,在注视角分布中展示了更高的变化,主要是由于所呈现的设置的新颖性自由观看任务导致更广泛的传播,并且类似于自然的眼睛行为,而不是与移动终端交互或屏幕观看相关的行为[15,20,28,60]。由于合成图像,UT多视图数据集[53]也覆盖了广泛的头部姿势角度,然而由于用于渲染合成图像的虚拟相机的固定放置,它们不是连续的相机-主体距离的范围在0. 5米和2。9米,平均距离为1.82米,如图5所示。这与固定距离0相比。6m的UT多视图数据集[53],以及非常窄的分布0的情况。5 m ± 0. 对于MPII Gaze数据集为1m [60]。此外,与其他数据集(MPII凝视数据集平均值:100×100px)相比,我们的数据集中受试者面部覆盖的区域要低得多(平均值:100× 100px)。485 × 485 px)。因此,与许多其他专注于近距离场景的数据集相比[15,20,28,53,60],我们的数据集捕捉了更自然的现实世界设置。我们的RT-GENE数据集是第一个在这些设置中提供准确的地面实况凝视注释以及头部姿势估计的数据集。这允许在新的场景中应用,例如多个人之间或人与机器人之间的社交交互。000004020 020 408T. Fischer,H. J. Chang,Y. 德米里斯MPII凝视UT多视图公司简介0.8.60.40.20.03.02.52.00.751.50.370.001.00.370.50.750.0n=12.52.01.51.00.50.055*55100*100 175*175 300*300面部面积(以像素为单位)(对数标尺)1.00550*550图五. 左:MPII [60]和我们提出的RT-GENE数据集中的面部面积分布。 在我们的数据集中,人脸区域的分辨率(平均100×100px)比MPII数据集(平均485×485px)低得多。这主要是由于相机-主体距离较大。右:各种数据集的相机-主体距离分布[53,60]。 RT-GENE覆盖的摄像机到主体的距离比其他的要远得多,距离在0。5米和2。9米。4移除眼动追踪眼镜使用眼动追踪眼镜的缺点是它们改变了对象的外观。然而,当在自然环境中使用注视估计框架时,受试者将不会佩戴眼睛跟踪眼镜。我们建议对眼动追踪眼镜覆盖的区域进行语义修补,以消除训练数据和测试数据之间的任何差异。图像修复是在考虑图像语义的基础上对图像中的目标区域进行填充的过程早期的方法包括基于扩散的纹理合成方法[1,5,7],其中通过以粗略到精细的方式扩展周围纹理来填充目标区域。对于较大的区域,基于块的方法[4,11,19,54]从输入图像或图像数据库中获取语义图像块更成功。最近,通过利用生成对抗网络(GAN)架构,语义修复在性能上有了很大的提高[21,44,58]。在本文中,我们采用这种基于GAN的图像修复方法,同时考虑到纹理相似性的紧密周围的区域和图像的语义。据我们所知,这是第一个使用语义修复来提高视线估计精度的工作。掩蔽眼动追踪眼镜区域:眼动追踪的CAD模型眼镜由N = 2662个顶点{v n}N组 成 ,其中v n∈ R3。找到在待修复的目标区域中,我们使用TE→C来导出每个顶点的3D位置在RGB-D相机框架中。对于极端的头部姿势,眼睛跟踪眼镜的某些部分可能被受试者的头部遮挡,因此遮蔽所有像素将导致图像的一部分被不必要地修复。为了克服这个问题,我们设计了一个指示函数1M(pn,vn)={0 ifpn-vnτ<, else 1},如果CAD模型的顶点vn在深度场中它们的对应点pn的容差τ将映射每个选定的折点I数据集MPI不GENE数据库RT-相对密度RT-GENE:自然环境中的实时眼睛注视估计9图六、 显示佩戴眼动追踪眼镜的受试者的原始图像(左)和对应的修复图像(右)的图像对。修复后的图像看起来与测试时的受试者的外观非常相似,因此适合于训练基于外观的注视估计器。最佳的颜色。使用RGB-D相机的相机投影矩阵到2D图像掩模M ={mi,j}中,其中每个条目mi,j∈{0, 1}示出位置(i,j)处的像素是否需要被修复。语义修复:为了填充眼动跟踪眼镜的掩蔽区域,我们使用基于GAN的图像生成方法,类似于Yeh等人的方法。[58]。有两个条件要满足[58]:修复的结果应该看起来逼真(感知损失L感知),并且修复的像素应该与周围像素良好对齐(上下文损失L上下文)。如图5所示,人脸区域的分辨率大于[ 58 ]中支持的64×64px。我们提出的架构允许修复的图像分辨率为224×224px。这是一个至关重要的特征,因为出于修复目的而降低面部图像分辨率可能会影响注视估计准确度。我们为每个主题训练了一个单独的修复网络。令Di表示将来自未佩戴眼动跟踪眼镜的数据集的对象i的图像xi∈Rd(d=224×224×3)作为输入并且输出表示输入xi是真实样本的概率的标量的鉴别器设Gi表示以从均匀噪声分布pnoise=U(−1,1)采样的潜随机变量zi∈ Rz(z=100)作为输入并输出合成图像Gi(zi)∈Rd的生成器。理想地,当xi来自对象i的真实数据集pi时,Di(xi)=1,并且当xi从Gi生成时,Di(xi)=0。对于本节的其余部分,为了清楚起见,我们省略了下标i我们使用最小二乘损失[34],其已被证明更稳定且性能更好,同时具有更少的模式崩溃机会[34,62]。GAN的训练目标是minDLGAN(D)=Exp [(D ( x)−1)2]+ Ezpnoise [( D (G ( z)2]和minGLGAN (G )=Ezpnoise [(D(G(z))−1)2]。特别地,L_GAN(G)测量由G生成的图像的真实性,我们认为这是感知损失:10T. Fischer,H. J. Chang,Y. 德米里斯Σ。ΣΣ 2L感知(z)= D G(z)−1。(一)基于真实图像x和所生成的非掩蔽区域的图像G(z),如下:L_c_t_e_x_t(z)|M,X)=|M′⊙x−M′⊙G(z)|、(二)其中⊙是逐元素乘积,M′是M的补数(即定义不应修复的区域)。潜在随机变量z控制由G(z)产生的图像。因此,生成用于输入的最佳图像等于找到最小化感知损失和上下文损失的组合的最佳值:z=argminz.ΣλLp e r e ptin(z)+L c ont e xt(z|M,x)(三)其中λ是加权参数。在找到z之后,可以通过以下方式生成输入图像x inpainted=M′⊙x +M⊙G(z¨).(四)然后将泊松混合[45]应用于x_inpainted,以生成最终的经修复的图像,该图像在经修复的区域和未经修复的区域之间具有无缝边界在图6中,我们展示了我们场景中的图像修复应用。网络架构:我们进行了超参数调整,以生成高质量的高分辨率图像。我们将生成器设置为具有架构z-dense(25088)-(256)5d 2s-(128)5d2s-(64)5d 2s-(32)5d 2s-(3)5d 2s-x,其中所有内部激活都使用SeLU[27],而输出层使用tanh激活函数。鉴别器架构为x-(16)5c 2s-(32)5c2s-(64)5c 2s-(128)5c 2s-(256)5c 2s-(512)5c 2s-dense(1)。我们使用LeakyReLU [33],α= 0。2用于所有内部激活,以及用于输出层的S形激活。我们对所有科目使用相同的架构训练超参数详细信息:为了训练G和D,我们使用Adam优化器[26],学习率为0.00005,β1= 0。9,β2= 0。999和批量大小128,用于100个时期。我们对所有层使用Xavier权重初始化[17]。为了找到z,我们将z中的所有值约束为[-1,1]内的be,如[58]中所建议的,我们训练1000次迭代。 加权参数λ被设置为0。1.5注视估计网络概述:如图2所示,使用若干网络来执行注视估计首先,我们使用多任务级联卷积网络(MTCNN)[59]以检测脸部以及眼睛、鼻子和嘴角的界标点使用提取的地标,我们旋转和缩放面部补丁,使得我们最小化对齐的地标和预定义的平均面部点位置之间的距离,以使用加速迭代最近点算法获得归一化的面部图像[6]。然后,我们从眼睛中提取出RT-GENE:自然环境中的实时眼睛注视估计11标准化的面部图像作为以眼睛的界标点为中心的固定大小的矩形。其次,我们发现头部姿态的主题,通过采用国家的最先进的方法提出的Patacciola等人。 [43]。提出的眼睛注视估计:然后,我们使用我们提出的网络估计眼睛注视眼罩被单独馈送到执行特征提取的VGG-16网络[51]每个VGG-16网络在最后一个最大池化层之后是大小为512的全连接(FC)层,然后是批量归一化和ReLU激活。然后,我们将这些层连接起来,得到大小为1024的FC层该层之后是大小为512的另一我们将头部姿势向量附加到这个FC层,后面是两个大小分别为256和2的FC层。最后一层的输出是偏航和俯仰眼睛注视角度。为了提高鲁棒性,我们使用了一种集成方案[29],其中单个网络预测的平均值代表了整体预测。图像增强:为了提高凝视估计器的鲁棒性,我们以四种方式增强训练图像。首先,为了对由于地标提取中的缺陷而导致的稍微偏离中心的眼罩具有鲁棒性,我们通过在侧面裁剪图像并随后将其大小调整回其原始大小来执行10次增强。每一侧由独立于均匀分布U(0, 5)绘制的像素值裁剪。其次,对于相机模糊的鲁棒性,我们将图像分辨率降低到其原始分辨率的1/ 2和1/ 4,然后通过双线性插值来检索原始图像大小的两个增强第三,为了覆盖各种光照条件,我们采用直方图均衡化。最后,我们将彩色图像转换为灰度图像,以便灰度图像也可以用作输入。培训详情:作为损失函数,我们使用预测和地面实况凝视向量之间的个体l2损失的总和。用于估计头部姿势的网络的权重是固定的,并且取自预训练模型[43]。VGG-16模型的权重使用ImageNet上的预训练模型进行初始化[51]。由于我们发现权重共享会导致性能下降,因此我们不使用它。FC层的权重使用Xavier初始化[17]进行 我们使用Adam优化器[26],学习率为0。001,β1 = 0。9,β2 = 0。95,批量为256。6实验数据集修复验证:我们首先进行实验,以验证我们提出的修复算法的有效性。将五个面部标志点(眼睛、鼻子和嘴角)的平均像素误差与修复之前和之后每个受试者的一组100个图像上手动收集的地面真实标签进行表2中报告的结果证实了所有地标估计算法都受益于修复,在增加的面部检测率和较低的像素误差(p<. 01)。我们提出的修复性能2所有的层尺寸都是通过实验确定的。12T. Fischer,H. J. Chang,Y. 德米里斯6.7 6.2 5.6 4.8 4.84.8 4.6 4.33D角度误差(度)表2. 各种地标检测器[3,25]在原始图像(使用眼动跟踪眼镜)上的比较,其中眼动跟踪眼镜填充有均匀颜色(图像的平均颜色)的图像,以及如我们的方法中提出的修补图像。当提供修补图像作为输入时,面部检测率和地标误差都显著改善。没有报告MTCNN [59]的性能,因为这是一个有偏见的比较(MTCNN用于提取人脸补丁)。.5地标检测方法人脸检测率(%)地标误差(像素)Original Uniformly filled Inpainted Original Uniformly filled InpaintedCLNF [3]54.6±24.775.4±20.987.7±15.66.0±2.45.6±2.35.3±1.8CLNF in the wild [3] 54.6±24.775.4±20.987.7±15.65.8±2.35.3±1.85.2±1.6[25]第二十五话36.7±25.359.7±23.084.1±17.96.6±2.35.8±1.75.1±1.3[第17话iTracker [19][第17话空间权重CNN [37]}没有iTracker(AlexNet)[19,37]空间权重CNN [37]空间权重CNN(集成)空间权重CNN(集成)建议:4个模型集合[第17话修复建议:1个模型空间权重CNN [37]}建议:2个模型集合建议:4个模型集合空间权重CNN(集成)建议:4个模型集合修复8156104520 0见图7。左:MPII凝视数据集上的3D凝视误差。右:我们提出的凝视数据集上的3D凝视误差。修复提高了所有算法的注视估计准确度。我们提出的方法表现最好,精度为7.7度。方法也显著高于单纯地用平均颜色均匀地填充眼睛跟踪眼镜的区域的方法(p<。01)。然而,重要的是,我们发现在修复的图像和没有佩戴眼动追踪眼镜的图像之间没有统计学差异(p = 0.001)。第16段)。注视估计性能比较:我们在两个事实上的标准数据集MPII Gaze [60]和UT Multi-view [53] 3以及我们新提出的RT-GENE数据集上评估了我们的方法。首先,我们在MPII数据集上评估了我们提出的凝视估计网络的性能[60]。MPII数据集使用分别包含左眼和右眼的1500个图像的评估集。由于我们的方法采用双眼作为输入,我们直接使用3000图像,而不采取目标眼睛3由于这些数据集的许可限制,我们没有在Eyediap数据集[15]和Deng和Zhu [10]的数据集上比较我们的14.910.010.0 8.613.4 8.7 8.7 7.73D角度误差(度)RT-GENE:自然环境中的实时眼睛注视估计13考虑在内。先 前 的现有技术实现了 4 的误差。8± 0。7[61]在一个“留一”的设置。我们实现了更高的性能,4.第一章3 ± 0。9度使用我们的方法(10. 4%的改善),如图7所示。在对UT多视图数据集[53]的评估中,我们实现了平均误差五、1 ± 0。2度,优于张等人的方法。[60] 13。6%(5. 9度误差)。这表明我们提出的方法在两个现有数据集上实现了最在第三组实验中,我们使用3倍交叉验证评估了我们新提出的RT-GENE数据集的性能,如图7所示。与MPII凝视和UT多视图数据集相比,所有方法在我们的数据集上的表现都较差,这是由于具有较大外观变化的自然设置以及由于较高的相机-主体距离而导致的较低分辨率图像我们确认,对于包括我们自己的算法在内的所有算法,与使用未修复的原始图像相比,在训练时使用修复图像会导致更高的准确性(10. 5%的业绩提升)。对于修复后的图像,我们提出的凝视估计网络实现了最好的性能,误差为7。7± 0。3度,与[60]相比,误差为13。4± 1。0度(42. 5%的改进)和之前的最先进网络[61],其中8. 7± 0。7度误差(11。5%的改善)。这些结果表明,与以前的最新技术相比,使用我们更深入的网络架构获得的特征更适合此此外,合奏方案被发现是特别有效的,在我们的架构。为了公平比较,我们还将集成方案应用于最先进的方法[61]。然而,我们没有观察到任何性能改进超过单一模型(见图7)。我们假设这是由于空间权重方案导致不同模型的中间层中的相似权重这导致了个体模型的相似凝视预测,因此集合不会提高[61]的准确性。跨数据集评估:为了进一步验证我们的数据集是否可以应用于各种设置,我们对我们提出的集成网络进行了训练,见图8。使用我们提出的方法对MPII Gaze数据集[60](左)和我们提出的数据集(右)进行的样本估计(红色)和地面实况注释(蓝色)。我们的数据集更具挑战性,因为我们的数据集中的图像由于更高的主体-相机距离而更模糊,并且在头部姿势和注视角度方面显示出更高的变化。最佳的颜色。14T. Fischer,H. J. Chang,Y. 德米里斯从我们的RT-GENE数据集(包括所有受试者)中提取样本,并在MPIIGaze数据集上对其进行测试[60]。这是具有挑战性的,因为面部外观和图像分辨率非常不同,如图5和图8所示。我们得到的误差为7.7度,在类似的跨数据集评估中优于当前最佳性能方法[55](9.9度误差,22. 4%的改善)。我们还进行了一个实验,其中我们在UT Multi-view而不是RT-GENE上训练我们的集成网络在在这种设置下,我们获得了8.9度的角度误差,这证明了我们新数据集的重要性。我们也优于[50]的方法(7.9度误差),该方法在训练时使用MPII Gaze数据集的未标记图像,而我们的方法不使用任何图像。定性结果:我们提出的方法应用于MPII Gaze和RT-GENE的一些定性结果显示在图8中。 我们的框架可以用于实时凝视估计使用任何RGB或RGB-D相机,如Kinect,网络摄像头和笔记本电脑摄像头,运行在25。3fps,延迟为0。12s.补充视频中对此进行了演示所有比较都是在具有Nvidia 1070和64 GB RAM的Intel i7- 6900 K上进行的。7结论和未来工作我们的方法引入了自然场景中的凝视估计,其中凝视先前由受试者的头部姿势近似。我们提出了RT-GENE,这是一种在这些自然环境中进行地面真实凝视估计的新方法,并且我们使用这种方法收集了一个新的具有挑战性的数据集。我们证明,与以前的野外数据集相比,该数据集涵盖了更广泛的相机-主体距离,头部姿势和凝视。我们已经表明,使用GAN的语义修复可以用于克服在训练期间由眼动跟踪眼镜引起的外观所提出的方法可以应用于在可穿戴传感器附接到人(例如EEG/EMG/IMU传感器)的设置中弥合训练和测试之间的差距。我们提出的深度卷积网络在MPII凝视数据集上实现了最先进的凝视估计性能(10. 4%的改善)、UT多视图(13. 6%的改善),我们提出的数据集(11。5%改善),以及交叉数据集评价(22. 4%的改善)。在未来的工作中,我们将研究凝视估计的情况下,参与者的眼睛不能被摄像机看到,例如极端的头部姿势或当主体是面向远离摄像机。由于我们的数据集即使在这些不同的条件下也允许对凝视进行注释,因此探索可以处理这些具有挑战性的情况的算法我们假设场景的显著性信息在这种情况下可以证明是有用的。致谢:这项工作部分得到了三星全球研究外展计划的支持,部分得到了欧盟地平线2020项目PAL(643783-RIA)的支持我们要感谢CaterinaBuizza,Antoine Cully,Joshua Elsdon和Mark Zolotas对这项工作的帮助,以及所有自愿参与数据集收集的受试者。RT-GENE:自然环境中的实时眼睛注视估计15引用1. Ballester,C. Bertalmio,M.,Caselles,V. Sapiro,G.,Verdera,J.:矢量场和灰度级联合插值填充。IEEE Transactions on Image Processing10(8),1200https://doi.org/10.1109/83.9350362. Baltrusaitis,T., Robinson,P. Morency,L.P.: 用于刚性和非刚性面部跟踪的3D约束局部模型。 在:IEEE会议计算机视觉和模式识别。pp. 2610-2617(2012)。https://doi.org/10.1109/CVPR.2012.62479803. Baltrusaitis,T., Robinson,P. Morency,L.P.: 约束局部神经场用于野外鲁棒的面部标志检测。 在:IEEE国际计算机视觉研讨会. pp. 354-361(2013)。https://doi.org/10.1109/ICCVW.2013.544. 巴 恩 斯 角 Shechtman , E. , Finkelstein , A. , Goldman , D.B. :Patchmatch:一种用于结构图像编辑的随机对应算法 ACM TransactionsonGraphics28(3),24:1-24:11(2009)。https://doi.org/10.1145/1531326.15313305. Bertalmio,M.,Sapiro,G.,Caselles,V. Ballester,C.:图像修复。计算 机 图 形 学 与 交 互 技 术 年 会 pp. 417-424 第 50 集 5.1 The Lord's Lord(2000)https://doi.org/10.1145/344779.3449726. Besl,P.J.,McKay,N.D.:一种三维形状配准方法。IEEE Trans- actionson Pattern Analysis and Machine Intelligence14(2),239-256(1992)。https://doi.org/10.1109/34.1217917. Chan,T.F.,Shen,J.:局部非纹理嵌入绘画的数学模型. SIAM JournalonA
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功