没有合适的资源?快使用搜索试试~ 我知道了~
工程7(2021)777研究智能制造-文章基于参考网格的差分眼外观网络的注视估计宋谷a,王立辉b,王伟,何龙a,何贤定a,王健aa成都航空职业技术学院,成都610100,中国b瑞典斯德哥尔摩10044皇家理工学院生产工程系阿提奇莱因福奥文章历史记录:收到2019年2020年6月11日修订2020年8月6日接受2021年4月30日在线提供保留字:注视估计差分注视连体神经网络跨人评估Human–robotA B S T R A C T一个人因此,视线估计是智能制造中分析人的意图的重要方法许多注视估计方法通过分析眼睛(也称为眼罩)的图像来回归注视的方向。然而,由于个体差异,很难构建可以估计每个人的准确注视方向的独立于人的模型。在本文中,我们假设一个人的每一只眼睛的外观的差异与相应的注视方向的差异有关。基于这一假设,差分眼睛的外观网络(DEANet)的公共数据集上训练,以预测属于同一个人的我们提出的DEANet是基于暹罗神经网络(SNNet)的框架,它有两个相同的分支。多流架构被馈送到SNNet的每个分支中。共享相同权重的DEANet的两个分支一旦训练了差分注视模型,则当提供了用于该人的几个校准的眼罩时,可以估计新的人的注视方向。由于在测试阶段涉及到特定于个人的校准眼罩,因此提高了估计精度。此外,有效地避免了在训练特定于个人的模型时需要大量数据的问题。为了直接根据估计值选择一些参考作为DEANet在公共数据集上的实验表明,我们提出的方法优于最先进的方法。©2021 THE COUNTORS.Elsevier LTD代表中国工程院出版,高等教育出版社有限公司。这是一篇CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。1. 介绍在人类的交流中,眼睛的凝视是信息的。当在嘈杂的共享空间中工作时,人们更喜欢通过非语言行为(如眼睛注视和手势)来表达他们的意图。眼睛凝视携带了大量的信息,允许完成任务一个人许多研究者已经研究了基于凝视线索的例如,在Ref.[1],机器人双手各拿一块积木,而人类则成功地控制机器人,使其在人类注视机器人的手时将该实验表明,*通讯作者。电子邮件地址:lihuiw@kth.se(L. Wang)。由眼睛注视携带的丰富信息对协作具有显著影响。凝视估计已应用于许多领域,例如特别是在HRC中,除了手势、语音命令和身体运动之外,还将采用凝视估计系统作为通过多模态融合控制机器人的附加模态[5,6]。眼睛注视的加入将扩大HRC的应用范围,并有助于提高多模态机器人控制的可靠性。在智能制造中,人类是智能和灵活自动化过程循环的一部分[7,8],并在与机器人的协作中发挥重要作用。机器人可以处理的任务范围越来越大[9],人类一般更喜欢通过自然的方法与机器人交流。例如,在一个示例中,最好是通过手势给机器人下命令或者凝视,而不是使用遥控器。此外,委员会认为,https://doi.org/10.1016/j.eng.2020.08.0272095-8099/©2021 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程杂志首页:www.elsevier.com/locate/engS.古湖,澳-地 王湖,加-地He等人工程7(2021)777778人们通常不愿意使用侵入性的解决方案,例如佩戴可以估计他们注视方向的特殊眼镜。相反,可以在附近位置安装相机以观察操作者,并且可以通过分析由相机捕获的数字图像来估计操作者的注视方向。这是一种基于计算机视觉技术的常见非侵入性解决方案。当他或她的注视方向被估计时,操作者不感知系统的存在。基于视觉的非侵入性解决方案通常可以分为两种类型:基于模型的方法和基于外观的方法[11]。在基于模型的方法中,通过分析图像来评估眼睛部分的几何模型,例如瞳孔的半径和中心,并且基于几何模型来估计注视方向[12,13]。在基于外观的方法中,通过分析眼睛的图像(称为眼罩)来直接回归注视方向一方面,与基于外观的方法相比,基于模型的方法中估计方向的准确性取决于捕获图像的质量,例如图像分辨率和照明,因为某些边缘或特征点必须被准确地提取。相比之下,基于外观的方法不需要特征点。参考文献[14]评估了流行的凝视估计方法,以证明基于外观的方法比基于模型的方法具有更好的性能。另一方面,使用基于模型的方法来获得基于先验知识的良好模型以准确地估计注视方向是一项具有挑战性的任务[15]。然而,深度神经网络可以有效地识别数据的内在特征深度神经网络在基于外观的方法中的成功因此,基于外观的方法近年来吸引了大量的关注[16参考文献[19,20]提出了基于视频的凝视估计系统,这是基于模型的方法。有可能通过深度神经网络(诸如递归神经网络或长短期记忆网络)来增强系统的然而,这种用法超出了本文的范围对于基于外观的方法,关键步骤是确定输入图像和注视方向之间的关系许多研究者构建了不同的模型来拟合这种关系。这些模型在来自不同人的数据上进行训练和测试相应的模型被表示为与人无关的模型。因为一个独立于个人的模型不包含关于被测试者的信息,个体的外观差异会影响估计的准确性。如果在训练过程中建立模型时考虑到测试过程中的某些条件,如被测试者一种常见的方法是收集属于被测试者的标记数据用于模型训练。这被称为特定于个人的模型。然而,学习特定于个人的模型需要大量的标记数据。收集特定于个人的训练数据是一项耗时的任务,这限制了此类方法的适用性。虽然一些技术,如在参考文献中讨论的那些。[21,22],已经提出了降低收集阶段的复杂性,这些方法仍然需要大量的训练数据。受Refs启发[23一旦构建了两个输入图像的差异与两个注视方向的差异之间的关系使用该方法,也将准确地估计注视方向。在本文中,我们提出了一个差分眼睛工作(DEANet)基于深度神经网络估计注视方向网络学习框架所提出的网络基于暹罗神经网络(SNNet)[26],它有两个相同的分支。一对样本集同时被馈送到网络的两个分支。每个样本集包括图像中的左眼块和右眼块两者。两个补丁都被馈送到其中一个分支中,作为多流架构的一部分[27]。网络的每个分支从所有补丁中提取特征,其中包含两个具有不同参数的VGG 16网络[28]两个分支的输出与头部姿态信息相结合,被级联。网络的输出是成对样本集的差分注视,然后是一些完整的链路层。在测试阶段,将一个属于被测者的标记样本集作为参考样本集送入网络的一个被测样本集被送入另一个网络分支,网络的输出是参考样本集与被测样本集之间的注视差。因为参考样本集的注视方向被标记,所以估计的注视方向等于网络的输出加上对应于参考样本集的标记的注视方向。此外,如果标记少量参考样本集,则可以采用参考选择策略来提高系统的性能。我们提出的方法假设每个人的眼睛的外观的差异与相应的注视方向的差异有关。由于在测试阶段将被测试者的信息嵌入到训练好的模型中,提高了估计此外,当估计被测试人的注视方向时,仅需要该人的少数标记图像。所提出的网络不需要大量的数据来训练特定于个人的模型。许多流行的数据集上的评估表明,我们提出的算法表现良好,对其他国家的最先进的方法。我们的贡献可概括如下:(1) 这项工作提供了一个新的公式差分注视估计,是整合了眼睛图像和归一化的头部姿态信息。多流架构被馈送到SNNet中的每个分支中基于SNNet的框架不仅在测试阶段结合了关于被测试者的信息,而且不需要收集大量数据来训练特定于人的模型。(2) 提供了参考选择策略。本文提出了一种新的参考样本集选择策略,以提高估计精度。在凝视空间中构造参考网格,根据估计值直接选取有效的参考样本集,简化了系统的计算。本文的其余部分组织如下。第2节介绍了相关工作。我们提出的方法将在第3节中详细说明。实验结果和讨论在第4节中给出。最后,在第5中强调了结论和未来的研究计划。2. 相关工作本节简要概述了基于外观的凝视估计、特定于人的估计和SSNet方面的最新工作。2.1. 基于外观的注视估计大多数基于外观的凝视估计算法被认为是回归解决方案。所估计的注视方向是输入图像的函数。直觉上,眼罩携带关于(左眼和右眼的)注视方向的最大量的信息,并且应该足以估计注视S.古湖,澳-地 王湖,加-地He等人工程7(2021)777779方 向 Zhang 等 人 。 [29] 提 出 了 一 种 基 于 多 模 态 卷 积 神 经 网 络(CNN)的基于外观的凝视估计方法。Lian et al.[30]提出了一种共享的CNN来估计从不同相机捕获的多视图眼罩中的注视方向Liu等人。[23,25]证明了差分CNN的直接训练,以预测一对眼罩之间的凝视Park等人[31]提出了一种新的完全卷积框架中的图像表示来估计注视方向。然而,除了眼罩之外,许多其他元素也影响估计精度,诸如头部位置、图像中眼睛的尺度、头部姿势等。一些信息应该嵌入系统中Liu等人。[32]使用眼罩和眼睛网格来构建两步训练网络,以提高移动设备上Krafka等人[4]将眼罩、全脸贴片和人脸网格作为系统的输入,并获得了很好的Wong等人。[33]提出了一种残差网络模型,该模型结合了头部姿势和面部网格特征来估计移动设备上的注视方向。在参考文献[34]中,基于瞳孔中心的定位将注视划分为三个区域,并且构造Ize-Net网络以使用无监督学习技术来估计注视方向。Yu等人。[17]引入了一种约束地标凝视模型,通过整合眼睛地标位置来实现凝视估计。Funes-Mora和Odobez[35]提出了一种基于RGB-D相机进行凝视估计的头部姿态不变性算法,并评估了低分辨率数据集的性能[36]。Zhang等人[16]根据他们自己的模型分析了上述所有信息的影响。在参考文献[37]中,使用全脸图像作为系统的输入,并且具有空间权重的Alex-Net [38]网络显示出显着这些实验表明,全脸外观比仅用眼睛的方法对头部姿势和照明更鲁棒然而,全脸方法显著地增加了计算的复杂性,因为输入数据的大小比仅用眼睛的方法大得多。压缩方法,如Ref. [39],以便在保持估计精度的同时有效地压缩图像这仍然是一个悬而未决的问题,是否全面的方法或眼睛只有方法将获得更好的性能。将原始图像输入系统,无需任何预处理这将增加回归网络的复杂性。为了降低网络的复杂度,可以在预处理阶段对一些信息进行归一化处理。Sugano等人。[40]在预处理阶段提出了一种新的归一化方法,以便在将图像输入网络之前对其进行对齐。各种数据,包括图像和视线方向,也被转换到归一化空间中。物体的比例不需要在学习或测试网络时应考虑。在参考文献[40]中,通过将相机变换或旋转到人的眼睛的固定位置来构造虚拟相机。在虚拟相机坐标中导出输入图像和注视方向。Zhang等人。[41]详细分析了归一化方法,并将原始归一化方法扩展到参考文献中的全脸图像。[37]第37段。2.2. 个体估计大多数视线估计算法的目标是训练一个与人无关的模型,并实现良好的跨人评估性能。一个独立于人的模型来描述输入图像和注视方向之间的相关性。然而,根据参考文献[25]中提出的分析,视轴和光轴之间的差异因人而异。一个独立的模型不能准确地描述视轴和光轴之间的相关性,但是个人特定的模型可以准确地估计注视方向。一个良好的性能的个人特定的模型被证明在参考。[16]假设有足够的训练样本。收集样品是一项耗时的工作。在最近的论文中已经提出了许多简化样品收集的方法。Sugano等人[42]提出了一种增量式学习方法,不断更新估计参数在参考文献[43]中,从不同设备收集的多种数据被馈送到由共享特征提取层和设备特定编码器/解码器组成的单个CNN中Huang等人[22]建立了一个监督自学习算法来逐步训练凝视模型。此外,鲁棒的数据验证机制可以区分好的训练数据和噪声数据。Lu等人。[21]还提出了一种自适应线性回归,以自适应地选择用于训练的最佳样本集。所需的训练样本的数量显着减少,而一个有前途的估计精度保持。虽然上述方法简化了数据收集的过程,但仍然需要许多标记样本来训练个人特定的模型。Yu等人。[44]设计了一个凝视重定向框架,以基于少数样本生成大量标记数据Liu等人[23]提出了一种基于仅一个眼罩的个人特定估计的新想法。通过SNNet根据作为输入的对应图像来估计注视方向的差异在SNNet训练完成后的测试阶段,需要少量的标记样本2.3. 连体神经网络SNNet在参考文献[26]中首次引入,用于验证手写输入板上的签名。SNNet的特征之一是它有两个相同的分支。与单个输入不同,一对具有相同类型和不同参数的输入被馈送到SNNet中。因此,网络的输出是相应输入的差这种方法在许多领域有许多应用Venturelli等人[24]提出了一个SNNet框架来估计训练阶段的头部姿势为了提高回归网络的学习能力,在损失函数中加入了微分项。Veges等人[45]引入了一种连体架构,以减少三维(3D)人体姿势估计中对数据增强的需求与我们最接近的作品是Refs。[23,25]。然而,SNNet在参考文献中提出。[23,25]没有考虑眼睛和头部姿势的影响。此外,在这两种算法中,它被证明然而,文献中对参考文献的选择策略没有进行系统的[23,25]。应该注意的是,成对输入将显著增加成对训练样本的数量。参考文献中分析了训练样本中子集的选择[463. 差异眼虽然我们提出的模型是一个独立于个人的模型,个人特定的信息将涉及在测试阶段。该系统的框架如图所示。1.一、一般来说,整个框架是基于SNNet的。而不是一个单一的输入,一个连体对输入分别馈送到网络中的两个分支。此外,两个分支共享相同的权重。系统的原始输入是一幅测试人脸图像和一幅参考人脸图像 每个图像通过原始头部姿态信息H ~归一化为左眼块和右眼块。所有归一化的块都包括在输入的连体S.古湖,澳-地 王湖,加-地He等人工程7(2021)777780. Σ. - 是的Σ[1/2]不 不FF~~表示为Gf。将两个连体对馈送到DEANet中以回归Pt和Pf之间的差分注视。这表示为Gd。N Htn ff是相同的标准化Fig. 1.我们提出的框架的结构。测试人脸图像和参考人脸图像分别用它们的原始头部姿态信息进行归一化,构造Siamese对Pt和Pf。每个连体对包括左眼片Il、右眼片Ir和归一化头部姿态信息H,其中Pt<$fIl;Ir;Htg和Pf<$fIl;Ir;Hfg。 Gt是标准化测试注视。 原始参考注视G~f被标记,然后归一化。埃德,埃塞尔和特。非标准化参考注视是不同参数的操作。 N-1号H~tN是N的逆正规化运算,其参数与N相同。好的和被测样本集Pt。每个样本集包括左眼块Il、右眼块Ir和归一化的头部姿态信息H。 与参考数据被标记,并且被称为参考注视G~f。系统的被称为测试注视G~t的输出是对应于测试数据的注视方向。所有图像和G~f由它们的原始头部姿态信息归一化由于在归一化过程中,测试人脸图像和参考人脸图像将使用不同的原始头部姿态信息,因此表示为NH~t和NH~f ,相应地,在图1B中,1.一、所有补丁,通过标准化对齐的数据被送入DEANet。标准化测试注视是差分注视和标准化参考注视的总和,随后是阶段上的反标准化,N-1H-t 、这是具有与N相同的参数的归一化的逆运算。好的3.1. 定义所估计的方向的表示可以被分类为两组:二维(2D)表示和3D表示。2D凝视位置总是由屏幕上凝视位置的坐标表示,并且在移动设备的控制器中使用。3D注视是3D空间中从参考点到目标点的方向。它是由三个角度在凸轮的时代坐标系:偏航,俯仰和滚动.在实践中,3D注视被定义为从参考点到目标的单位向量。 它可以用球坐标系包括/和h,即G/g;hg0。此外,参考点被定义为眼睛的中心。具体来说,只有对3D注视进行了评估,并将3D注视方向定义为从左眼中心到目标的向量注意,当在3D空间中获得屏幕平面时,类似地,头部姿态信息具有与3D姿态信息相同的定义。注视方向;即本文中的H<$h/h;hhi03.2. 预处理和归一化如参考文献中所述。[37,40],原始图像应该被归一化用于注视估计,以便减轻由不同相机和原始头部姿势信息引起的影响,从而降低网络的复杂性。标准化过程是一系列透视变换,使得标准化的片与从观看相同参考点的虚拟相机捕获的图片相同。规范化过程和性能已在参考文献中详细说明。[40,41]。本节介绍了一些关键步骤最初,如图1中的测试面部图像的单个面部图像。 1提供。面部标志,如眼睛和嘴巴的角点,由流行的算法检测[49]。由角点计算的左眼中心点、右眼中心点和嘴中心点从右眼中心到左眼中心的直线是x轴,y轴在平面内部垂直于x轴,从眼睛指向嘴巴。z轴是符合右手定则的平面的范数以左眼中心或右眼中心为原点,三个坐标轴构成双眼的归一化空间。根据检测到的地标和通用平均面部形状模型[16],然后可以通过有效的透视n点(EPn P)算法[50]计算归一化的头部姿势信息。应该注意的是,原始头部姿势信息和摄像机的内部参数都是由流行的数据集提供的所有输入到DEANet的补丁都在归一化空间中进行归一化在归一化后,对所有归一化的图像块进行直方图均衡化,以减轻光照对图像的影响DEANet在标准化方面有两个优势。(1) 归一化作为一种图像对齐操作,降低了网络的复杂度,减轻了不同摄像机距离、不同摄像机内参数和不同原始头部姿态信息对眼罩的影响。归一化的图像可以同时送入暹罗网络,其分支共享相同的权重。(2) 归一化简化了差分注视的计算。所有参数都在归一化空间中,视线差的计算等价于两个视线向量的运算,而与坐标变换无关。在第3.4中演示了拟议的参考选择策略以简化。3.3. DEANet的培训阶段归一化后,所有的补丁在归一化的空间对齐,而不管相机归一化的补丁被送入网络S.古湖,澳-地 王湖,加-地He等人工程7(2021)777781×不gtgtt;kg1f;kg1t;kf;kK;d;k2d;kt;kf;kd;k因为它们使网络学习比非规范化的网络学习更有效。我们的假设是,每个人的眼睛的外观的差异而且,这种关联是独立于人的。为此,DEANet提出了基于SNNet的外观为基础的视线估计。网络的架构和配置如图所示。 二、在训练过程中,我们的DEANet的输入是一对样本集,Pt和Pf。它们中的每一个包括左眼块、右眼块和归一化的头部姿势信息。样本集的分量充当三个流,通过SNNet的分支,其参数为两个分支共享。在其中一个暹罗分支中,馈送到网络中的所有补丁都是固定大小的3660 RGB或灰度图像。当如果输入图像块是灰色的,则将其视为三个通道中具有相同强度值的RGB图像。归一化的头部姿势信息是长度为2的向量。左眼区块和右眼区块被分别馈送到VGG16网络中,该VGG16网络提取两个区块的特征,从而产生具有3.3.1. 训练阶段根据本文的假设,一对属于同一个人的标记训练样本被送入网络。考虑一个包含N个训练样本的数据集,有N2个可能的对可以用于网络训练。与单输入算法[4,16,37]相比,由于不同的框架,我们提出的方法具有大量的样本用于训练。由于它是一个巨大的值,训练样本的子集在训练阶段采用。有关该子集的策略已在文献[1]中提出。[47、48]。这些用于分类框架,其中两个输入都有正对和负对。然而,我们提出的方法是一个回归的解决方案,不使用明确的积极和消极的对。在我们的解决方案中,在训练过程中,采用随机选择的KN23.3.2. 损失函数根据图1,当给定Gf时,如果由DEANet预测的注视差异接近于地面实况差分注视,则预测的Gt将接近于Ggt假设K对标记的长度512每个VGG16网络后面都有顺序的操作,例如大小为训练样本fP;GgtKfP;GgtK是给定,其中1024、批量归一化(BN)和校正线性单元(ReLU)激活。每个Siamese对计算的特征图被连接(CAT),然后是另一个FC层,尺寸512在附加标准化的头部姿势信息之后,Ggt2R2×1和Ggt2R2×1是对应的凝视地面实况分别为Pt;k和Pf;k损失函数的公式如下:K在这种情况下,其他顺序操作也随之而来,包括BN、ReLU激活,大小为256的FC层,以及另一个ReLU活动。L¼1XjjGdk-Ggtjj2k¼0ð1Þvation。最后,从两个暹罗连接分支,另外两个FC层的大小其中,地面实况差分注视GgtG-G ,G是第256章两个人跟着为了避免过拟合,在最后一个FC层之前添加了一个dropout层。图二、DEANet配置(从上到下)。Il、Ir、Il和Ir是RGB图像由网络基于Pt;k和Pf;k预测的差分注视,其中||2是l 2范数运算。||2isthe l2-normoperation.3.4. 推理阶段如图1所示,在推断阶段,将通过标记的参考样本集来参考样本集的选择将影响估计精度。直觉上,在一个好的参考选择策略中,所采用的参考贴片与被测贴片之间的差异不应该很大。差异大会导致估计误差大。此外,在推理阶段采用的几个参考样本集优于一个单一的参考样本集的估计精度。以上的演示将在第4.3节中讨论。根据上述规则,然后在整个注视空间中构建参考网格,该参考网格由注视方向的两个维度支持,如图1B所示。3.第三章。当输入补丁之间的差异很小时,DEANet的输出也很小,反之亦然。因此,DEANet的输出(差分注视)可以是参考贴片和测试贴片之间的距离的度量均匀分布的参考,如图3所示,使一些采用的参考片和测试片之间的差异如此之小,以至于如果网格的步长足够小,则可以实现有希望的精度例如,12个红色点是表示为Gf;j;j=0; 1; 11的参考注视的候选。测试注视由蓝色点标记,其表示为Gt。显然,Gt由Gf; 3、Gf; 4、Gf; 6和Gf; 7计算,而不是由其他参考注视计算,因为Gt与上述四个参考注视之一之间的距离小于Gt与上述四个参考注视之一之间的距离。不不f f尺寸为36× 60。Ht和Hf是对应于连体对的归一化头部姿态信息。Gd是预测的差分注视。都是长度为2的VGG16是一个16层Visual Geometry Group网络。FC是全连接层,BN是批量归一化层,Dropout是Dropout层。层的名称后面是它们的参数。CAT是将两个向量连接成一个向量的操作。共享相同权重的层将使用相同的颜色高亮显示。其他参考凝视。同时,由于DEANet中的差分注视可以预测注视空间中测试注视与参考注视之间的距离,因此采用差分注视小于一定阈值的参考注视来估计测试注视。为了避免经验参数,t;kf;kS.古湖,澳-地 王湖,加-地He等人工程7(2021)777782X .布雷格特M;t;m图三.凝视空间中的参考网格的示例。十二个参考注视(用红点标记)分布在注视空间中。蓝色的点代表一种测试性的凝视。注视空间中Gf;i和Gt之间的距离由对应的差分注视Gd;i预测。差分视线小于其他差分视线。之后,通过将每个参考注视添加到对应的差分注视来预测测试注视。平均值就是最终的估计值。在实验中,这种策略被证明是一个很好的选择,所有的测试集。见参考文件[25]中,通过比较从输入块提取的两个特征图来确定平均权重根据DEANet的结构,网络的输出与两个斑块的差异使用不同的凝视作为并且由数据集提供的目标位置直接用于我们的归一化过程。UT-多视图最初在参考文献[40]中引入。它包括来自50个不同人的64000张原始图像。该数据集允许通过3D眼睛形状模型构建大量合成的眼睛图像。UT-Multiview具有比MPIIGaze更大的注视角度分布。因为我们引入的归一化是基于参考文献[40],所以归一化的补丁与UT-多视图中的补丁大小相同。采用UT-Multiview中的所有灰度图块作为DEA网络在实验中,对MPIIGaze数据集应用留一人协议,而对UT多视图数据集使用三重跨人验证协议。本节中采用的协议与其他最先进的算法相同[4,16,18,25,37,40]。4.3. 参考样品组在我们提出的方法中,参考样本集的性能将影响系统的估计精度,使样本集的DEANet的关键元素。在该实验中,在MPIIGaze数据集中,每个人随机采用500个参考文献。每个参考样本集和属于同一个人的每个样本组成用于测试的连体对为了证明参考样本集对估计精度的影响,图4示出了每个人在参考方面将每个人的所有暹罗对馈送到DEANet中用于注视估计,并且每个参考的平均角度误差Δt公式化如下:1MAt¼xGtm;G2而不是使用在参考文献[1]中提出的特征图[25]第10段。4. 实验4.1. 实现细节我们提出的DEANet是在一个pytorch框架中实现的。它是通过为每个人随机选择10000对训练样本来训练的利用迁移学习,VGG16模型的权重由预训练模型初始化[28]。采用随机梯度下降(SGD)优化器,动量为0.9,权重衰减为0.0001。批量为512。初始学习率为0.1,每5个epoch衰减0.1网络使用单个GTX 1080 ti GPU,每人20个epoch。本节报告了三个实验。第一个实验(第4.3节)基于MPIIGaze数据集评价了DEANet,以证明参考选择策略。第二个实验(第4.4节)评估了DEANet在跨人员和跨数据集评估中的性能。第三个实验(第4.5节)评价了DEANet的变化。4.2. 数据集和方案DEANet的性能在两个公共数据集MPIIGaze和UT-Multiview上进行了评估。MPIIGaze首次在参考文献[16]中介绍。它包括来自15个不同年龄和性别的参与者的213659张图像。这些图像是在不同时期收集的。为了在RGB图像中评估我们提出的DEANet,我们自己对MPII-Gaze 数 据集 中的 眼 罩和 注释 的 注视 方向 进 行了 归一 化 ,尽 管在MPIIGaze数据集中提供了一些标记的灰色补丁和注视方向。应当注意,原始头部姿势信息每平方米其中,M是数据集中每个人的样本数,x是计算两个向量之间角度差的函数应该注意的是,x函数是另一种方法。估计误差的ric,其相当于等式中的l2范数函数。(一). 在实验中直观地采用x函数作为度量,而不是l2范数函数,以便与采用相同度量的其他算法。如图4中的蓝色条所示,每个人的估计准确度都不同。有些人,如0号、1号和2号人,角度误差比其他人小。然而,对于其他的平均角度误差,见图4。不同参考选择策略的MPIIGaze数据集中每个参考的平均角度误差:随机选择策略,其中随机采用500个参考样本集;和参考网格策略,其中参考网格采用12个参考样本集。参考选择标准简化了计算,S.古湖,澳-地 王湖,加-地He等人工程7(2021)777783F.ΣF.Σ不FF平均值。它们表示为x。Ggt;Ggt和3号、7号、8号、9号等4个人的病情比上述4个人严重得多。例如,7号人的一些眼罩包括眼镜,而其他眼罩则没有。如果所采用的参考样本集不包括眼镜,而测试样本集包括眼镜,则它们的不同出现将导致估计精度的较大误差,因为眼镜会在外观计算。虽然它是在Ref。选择作为参考样本集。此外,单个参考策略不足以进行准确估计。图 6表明参考样本集的分布影响系统的性能。此外,参考样本集和测试样本集之间的差异也对系统的性能产生应该注意的是,两个样本集之间的真实差异可以表示为:Ggt和Ggt之间的地面真实角误差,tf[16]在标准化阶段中使用的通用平均面部形状模型足够精确以估计注视方向,如果将不精确的标准化眼罩作为参考样本集来处理,则其将明显地在推断阶段中导致大的误差。图中示出了一些示例。 五、良好的参考文献选择策略有助于系统的改进参考选择策略的关键要素我们提议的网络。此外,系统这也是两个样本集之间的真实差异的预测值。两个样本集的差异与估计精度之间的关系如图所示。7.第一次会议。为了简化Figure,x. Ggt ; G gt;Ggt;被量化到100个箱中,并且x. Gt;Ggt,不F有什么样的人,都没有。这与测试样品的分布有关 图图6示出了对于人No. 0、No. 5、不。7、在空间里每个参考注视可以由注视空间中的点 当参考i的平均角误差At,i小于所有参考的平均值时,相应的参考被识别为“好”参考(在图中用红色标记)。 6)。相反,当At,i大于所有参考的平均值时,对应的参考被识别为灰色点是所有用于表示每个人的整个分布在图6中,不良参照几乎都位于整个分布的外围,尤其是在7号人物身上,而良好参照则均匀地分布在整个空间中。包括大的注视方向的一些样本集不能被图五、导致较大误差的规范化面片示例(a,b)不准确标准化的眼罩(p03-第54 -0097天-左侧和p08-第31 -0301天-左侧)。(c)眼镜引起的噪音(p09-第12 -0158天-左侧)。(d,e)不戴眼镜的图像作为参考样本集(p07-第24天-0046-左),戴眼镜的图像作为测试图像(p07-第25天-0255-右)。每个补丁的名称来自MPIIGaze数据集。xGt;Ggt在图7中,分别。估计误差会增大当测试注视和参考注视之间的差异增加时。接近测试注视方向的良好参考注视方向将获得良好的估计精度。由于没有提供测试注视方向,因此将涉及更多的参考样本集。这是参考数量和估计精度之间的折衷。此外,虽然没有提供测试注视方向,但是测试注视的尺度应该是预先已知的。参考网格可以根据注视方向的尺度来构造。在我们提出的方法中,一个三行四列的网格被构造,以便在所有的实验中获得良好的性能。图6中用绿点说明了示例。因此,使用每个人的MPIIGaze数据集评估具有参考网格的DEANet;平均角度误差如图4所示(红色条)。结果表明,几乎所有的平均角误差与参考网格策略优于误差与随机选择策略。所有人的平均角度误差从随机选择策略的5.09降低到参考网格策略的4.38,因此使用参考网格策略实现了14%的性能4.4. 跨人员和跨数据集评估所提出的DEANet是一个独立于人的模型,可以估计一个新的人的注视方向。新人的信息在测试阶段作为参考样本集纳入网络。从而有效地避免了与人无关的模型与新人无关为了评估DEANet如何应对挑战,在两个公共数据集中进行了跨人员评估表1示出了所提出的算法和基于该算法的其他方法图六、人的注视角度分布0,不。5、不。7在MPIIGaze。任何参考样本集都可以由注视角度维度中的点根据其标记的注视方向来表示红点是好的参考样本集,其值At小于所有参考样本的平均值;蓝点是坏的参考样本集,其值大于所有参考样本的平均值。灰色点是每个人的所有样本。绿点是根据实验中的参考网格所采用的参考。egy是确定哪些补丁是参考的候选S.古湖,澳-地 王湖,加-地He等人工程7(2021)777784×× ××MPIIGaze和UT-Multiview数据集。我们提出的算法在两个数据集上都取得了良好的效果。虽然参考文献[25]和我们提出的方法都采用了相同的SNNet框架,但我们提出的方法的性能优于参考文献[25],因为我们的方法涉及更多的信息,包括双眼和头部姿势的信息。与MPIIGaze相比,UT-Multiview数据集包含更多的人,因此在UT 500 Multiview上评估的所有算法的性能都优于在MPIIGaze上评估的算法。作为数据驱动的模型,训练数据的多样性提高了预训练模型的性能,我们提出的DEANet在两个数据集上都优于其他算法。为了证明我们提出的方法的鲁棒性,也进行了跨数据集评估。该模型在UT-Multiview数据集上进行了训练,然后在MPIIGaze数据集上进行了测试。 图 8显示了用于交叉数据集评估的所有评估算法的平均角度误差[16,29,40,51,52]。由于训练样本的注视分布与测试样本的注视分布不同,因此所有算法在跨数据集评估中的表现都比跨人员评估中的表现更差。然而,我们提出的DEANet是一个差分网络,网络的输入和输出被替换为差分输入和输出。我们所提出的方法是更强大的视线分布比其他trans-optimization方法。我们提出的方法的平均角度误差为7.77度,标准差为3.5度。4.5. 针对变化的在先前的评估中,我们提出的DEANet在凝视估计方面取得了良好的性能在本节见图7。本文还讨论了估计误差(y轴)与两个样本集之差(x轴)之间的关系。0,不。5、不。7.第一次会议。表1两个流行数据集上的凝视方向结果,具有平均角度误差(度)。方法MPIIGaze UT-多视图进一步研究了针对变化(例如头部姿态信息和图像分辨率的影响)的性能。为了处理任意的头部姿态信息,在我们提出的DEANet,归一化的头部姿态信息。为了证明DEANet对变化的性能,在没有头部姿势信息的MPIIGaze数据集中进行了跨人评估。在该实验中,基于MPIIGaze数据集重新训练没有头部姿势信息的新网络。所有人的平均角度误差为4.46,略高于具有头部姿势信息的网络的平均角度误差(4.38),如表1所示。如果没有头部姿态信息,网络的性能会略有下降。头部姿势信息对于诸如DEANet的深度网络是边缘的。然而,它对于较浅的网络仍然很重要,例如MnistNet[53],在参考文献[16]中进行了评估。为了节省计算资源,通常采用较浅的网络,特别是在远程设备中。此外,本实验还研究了图像分辨率对注视估计的影响。采用了与第4.4节中建议的相同的网络参数,进行了跨人员评价。方案与第4.4节中描述的方案相同。在评估中,将所有输入面片的大小调整为18三十,九15和58.它应该注意的是,调整大小的补丁需要通过插值恢复到原始大小(36 60),以便可伸缩地馈送到DEANet中。基于MPIIGaze和UT-多视图数据集,将DEANet在在这个实验中,我们提出的DEANet优于GazeNet。5. 结论提出了一种新的基于外观的凝视估计DEANet。三个流-包括两个眼罩和见图8。交叉数据集评估的平均角度误差,在UT- Multiview数据集上进行训练并在MPIIGaze数据集上进行测试。表2图像分辨率的影响。在具有不同图像分辨率的MPIIGaze和UT-Multiview数据集上评价平均角度误差。图像分辨率MPIIGaze UT-多视图6.5我国4.38 3.56在MPIIGaze数据集中使用了一个留一个人的协议9×15 8.57 - 5.42 11.45× 8 12.10 - 13.07 15.7平均值8.69 11.7 7.41 12.3[第16话]5.54.4[25]第二十五话4.644.13[18]第十八话4.8-iTracker[4]5.6-全脸[37]4.8-我们[第16话][16]第十六话[29]第二十九话LbS[40]6.16.7-18× 305.41-3.75 9.9S.古湖,澳-地 王湖,加-地He等人工程7(2021)777785将头部姿态信息输入网络,并基于SNNet框架训练与人无关的模型。由于采用了不同的注视,因此可以在测试阶段使用个人特定的信息。为候选参考构造参考网格,选择好的参考,提高估计精度。我们的方法在两个公共数据集上进行了评估:MPIIGaze和UT-Multiview。广泛的实验评估表明,我们的方法实现了更有前途的性能比其他流行的方法。所有的实验都在公共数据集上进行了理论分析。我们所提出的方法将包含作为一种模态HRC机器人控制与多模态融合,这将是investi-门仔细在我们未来的工作。确认本研究得到了四川省科技厅科技支撑项目(2018SZ0357)和国家奖学金的资助。遵守道德操守准则Song Gu、Lihui Wang、Long He、Xianding He和Jian Wang声明他们没有利益冲突或财务冲突需要披露。引用[1] Palinko O,Rea F,Sandini G,Sciutti A.机器人阅读人类凝视:为什么眼动跟踪比头动跟踪更适合人 机协作。在:2016年IEEE/RSJ 智能机器人和系统 国际会议(IROS)论文集; 2016年10月9日New York:IEEE; 2016. p. 5048-54[2] Duarte NF , Rakovic M , Tasevski J, Coco MI , Billard A , Sant
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功