没有合适的资源?快使用搜索试试~ 我知道了~
3702用于无监督注视表示学习的交叉编码器孙云佳1、2,曾佳蓓1,石光山1、2,陈西林1、21中国科学院智能信息处理重点实验室,中国科学院计算技术研究所,北京1001902中国科学院大学,北京100049{sunyunjia18z,jiabei.zeng,sgshan,xlchen} @ ict.ac.cn摘要为了在没有太多注释的情况下训练3D注视估计器,我们提出了一种无监督学习框架,交叉编码器,以利用未标记的数据来学习用于注视估计的合适表示。为了解决凝视特征总是与眼睛的外观交织在一起的问题,交叉编码器在眼睛一致的图像对和凝视相似的图像对上使用潜在代码交换机制来解开特征。具体地,每个图像被编码为注视特征和眼睛特征。交叉编码器被训练为根据眼睛一致对中的每个图像的注视特征和另一个眼睛的注视特征来重建眼睛一致对中的每个图像,但是根据眼睛相似对中的每个图像的眼睛特征和另一个眼睛的注视特征来重建眼睛相似实验结果表明(一)(b)第(1)款注视特征我们工作的有效性。首先,使用交叉编码器学习的凝视表示,在数据集内和跨数据集协议下,用非常少的样本训练的凝视估计器其次,由交叉编码器预训练的ResNet18与最先进的凝视估计方法相比具有竞争力。第三,消融研究表明,交叉编码器解开凝视特征和眼睛特征。1. 介绍凝视表示某人正在看向何处。它是理解人类欲望、意图和心理状态的线索之一。3D注视估计检索从观察者的眼睛到视线的线的方向。自动估计注视方向在心理学研究[22]、人机交互[26]、驾驶员分心检测[1]和其他领域中显示出潜在的应用。近来,已经致力于基于面部或眼睛图像的非侵入性注视方向估计器的去干扰特别是,随着我国经济实力的不断增强-鸣谢:本工作得到了国家重点研发计划(2005年)的部分支持& 。 2017YFA0700800 ) 和 国 家 自 然 科 学 基 金 ( No. 61976203 、61702481)。同一只眼睛相似的凝视...3703图1. (a)自动编码器学习的表示与眼睛(b)由交叉编码器学习的分解的凝视特征和眼睛特征。来自不同帧的同一眼睛的图像具有一致的眼睛特征。来自一帧的两只眼睛的图像具有相似的注视特征。卷积神经网络(CNN)[11]使得它相对容易地处理凝视估计中的一些实际问题,如头部姿势变化、眼睛遮挡和可变的眼睛形状[7,8,31,38,40]。尽管具有代表性,但性能良好的基于CNN的方法通常是在足够大和多样化的标记数据上训练的。然而,获取精确的注视标签是困难的。视线方向无法直接测量,但可以根据几何结构通过复杂的设置和计算进行测量[20,41]。对标记数据的有限访问阻碍了注视估计方法的发展。当在少量单调的注释样本上训练时,监督学习方法容易过拟合训练数据并保留不表示注视的特征。冗余和不相关的特征导致方法在训练数据之外的数据上表现不佳3704提出了各种无监督或自监督学习策略,并显示出解决稀缺注释问题的潜力[4,6,29]。他们中的大多数专注于学习相对通用的表示,例如,图像分类[4]、对象检测[9]、分割[28]。然而,这些表示和方法对于注视估计不是最好的。所有任务都有普遍代表性,这也是有争议的学习注视的良好表示是不平凡的,因为注视方向的特征总是与眼睛看起来的特征交织在一起。图1(a)示出了由自动编码器学习的无监督特征的前10个主要分量与眼睛身份或注视之间的互信息眼睛身份被定义为眼睛的独特形状和外观。同一个人的左眼和右眼具有不同的眼同一性。可以看出,如果我们以无监督的方式从眼睛图像学习表示而没有任何先验,则所学习的特征与眼睛身份比与注视更相关。据我们所知,Yu和Odobez [37]是第一个在没有注释的情况下学习凝视特定表征的人。与他们的工作不同,他们利用凝视重定向任务并忽略了相互交织的因素,我们以无监督的方式明确地解开了凝视的特征以及使眼睛看起来像眼睛的特征。为此,我们提出了一个无监督的学习框架,从眼睛图像中学习解纠缠的凝视特征和眼睛特征。关键组件是一个类似自动编码器的架构,称为交叉编码器。它同时使用两种类型的配对图像进行训练:相同眼睛或具有相似注视方向的成对图像。图1(b)显示了我们方法的直观性。可以看出,我们从不同的帧中选择对象的相同的右(或左)眼以构成眼睛一致对。对于凝视相似对,我们在一个帧中使用主体的右眼和左眼,因为当有人看着远处的物体时,两只眼睛的凝视方向几乎平行[27]。交叉编码器的目的是在眼睛特征中编码眼睛我们的贡献可归纳为三个方面。1)我们提出了一种简单有效的非监督表示学习方法,称为交叉编码器。它通过根据切换特征重构图像来解开表示。2)我们通过引入两种策略来选择训练对,使用交叉编码器学习未监督的特定注视表示。3)大量的实验证明了学习的凝视表示的优点,并验证了交叉编码器中每个组件的有效性2. 相关工作注视估计方法:注视估计包括2D注视估计和3D注视估计。2D凝视系统估计试图推断2D平面上的注视点,例如,屏幕。然而,不同的设备导致2D平面相对于相机的不同相对位置。因此,2D凝视估计难以推广到新设备。3D注视估计旨在预测3D世界中的视线,而不管设备如何。为了估计注视,提出了基于几何的方法和基于外观的方法如Kar et al.[19],前者需要特殊的硬件,如NIR LED和IR LED,而后者只需要普通RGB相机拍摄的图像。因此,基于外观的方法吸引了越来越多的研究者。我们的工作集中在学习凝视表示为基于外观的3D凝视估计。关于基于外观的注视估计的早期工作集中于从眼睛图像设计注视特征(例如,眼睛界标[2]和虹膜形状[25]),然后使用所提取的特征通过现成的方法(例如, 主成分分析[36],支持向量机[3])。最近的深度学习方法以端到端的方式训练表示和注视估计器,并实现有希望的性能[7,10,30,31,33,35,38,40]。注视估计还受益于眼睛图像之外的各种源。例如,Zhang et al.[40]使用注意力块从整个面部提取与注视最相关的信息。Cheng等人[8]使用评估网络校正左右眼的不对称性能。注意,这里的Cheng等人[7]从人脸图像预测粗略的注视方向,并通过两个眼睛图像对其进行校正。在从侧面信息学习的同时,最近的方法也学习了混合在特征中的冗余信息。有些作品努力消除凝视以外的因素的影响。Zhang等人[38]通过根据旋转虚拟摄像机[ 33 ]对眼睛图像进行归一化,减少了头部姿势的影响。 邓等al. [10]明确学习头部姿势、不同坐标系中的注视方向Park等人[30]通过使用自动编码器重新构建同一个人在不同头部姿势和不同注视下的图像,解开了外观、头部姿势和注视的特征。虽然通过减少不相关的信息来实现有希望的性能,但是这些方法需要除了凝视之外的监督。无监督表示学习:无监督表示学习的目标是在不访问标记数据的情况下学习表示。提出了许多新颖的无监 督 表 示 学 习 方 法 , 例 如 , [12][13][14] [15][16][17][18] [19][1然而,这些方法集中于从图像和视频中学习一般的视觉特征。他们中的大多数人表现出良好的性能3705Σ∥图像分类[4]、对象检测[9]、语义分割[28]。为了学习与任务相关的表示,努力将无监督表示分离成目标部分。Locatello等人[24]指出,如果没有归纳偏差,则无监督解缠是不可能的,例如:、数据的特殊模型结构或先验知识。许多工作使用成对的训练数据,并利用对之间的先验关系来学习解纠缠的表示[5,17,18]。Jha等人[18]通过在一个部分上交替应用循环一致性并从切换的特征重建输入,将Chen等人[5]通过对相似性的概率进行建模,对具有一对中的两个图像之间的相似性标记的信息的特征进行分解Jakab等人[17]将地标特征转换为一个图像的显式热图,并将它们与另一个图像的外观特征连接起来进行重建。Li等人。[23]通过学习如何将源图像扭曲到目标图像来分解面部动作和头部运动的表示,其中只有一个因素被改变。Yu等人[37]是第一个,据我们所知,以自我监督学习的方式学习特定于凝视的表示他们利用凝视重定向任务的优势,并在双眼对同一主题的图像上训练该方法。虽然Yu et al.[37]已经获得了简单有效的注视表示,但是他们的方法具有一些局限性。它要求输入对具有相似的头部姿势并且严格对齐。建议的交叉编码器不是通过额外的组件来对齐输入,而是随机选择来自受试者的眼睛的两个图像以获得可用的注视特征。3. 方法我们提出了一个无监督的学习框架来提取凝视特定的表示,它排除了相互交织的无关信息,对凝视估计有负面影响。下面,我们首先介绍一种新颖的交叉编码器架构作为具有潜在代码交换机制的主要组件。然后,我们使用交叉编码器通过引入两种策略来选择训练对,即,眼睛一致对和注视相似对。3.1. 交叉编码器传统的自动编码器将输入编码成类似向量的嵌入,解码器根据该嵌入来重构输入。为了解开嵌入,交叉编码器修改传统的自动编码器,将嵌入分为两个部分,并采取两个成对的图像作为输入。然后,交叉编码器将每个图像编码成两个特征,称为共享特征和特定特征。每个图像都被重建ED分享分享ED图2.交叉编码器的架构。输入图像Ii和Ij被编码为[di,si]和[d,j,s,j]。交叉编码器被强制重构Ii和Ij,当Si和Sj被调换了。因此,期望di和dj对Ii和Ij之间的差进行编码,并且期望si和sj对I i和I j之间的差进行编码。共享的特征。根据自己的特点和对方的共同特点,图2说明了建议的交叉编码器架构。 可以看出,一对训练图像Ii和Ij被馈送到权重共享编码器E中,并且被编码为特征[di,si]和[d, j,s, j]。我们假设di和dj是编码不同的输入Ii和Ij ,i之间的关系。例如, 形状 Si和Si对输入的共享特征进行编码,即, 质地在传统的自动编码器中,从[di,si]重构输入Ii。 在交叉编码r中,由于si和sj是一致的,因此根据di和sj 重 构Ii。类似地,Ij根据dj和si重构。如果两个特征被解开,则共享特征si和sj不应包含关于特定特征di和di的任何信息,反之亦然。为了保证前者,我们通过最小化损失函数来训练交叉编码器L=Ii−Ii1+Ij−Ij1+αR,(1)(i,j)其中(Ii,Ij)是所选择的训练对。IiandIjde-注意Ii和Ij的重构。 前两项是重建损失,其迫使重建图像在像素方向上与原始图像一致。如果si和si不同,则重建图像将不一致。帐篷到原来的。项R=(Ii−Ii)−(Ij−I(j)1是使两个残差相等的残差损失。在重建图像和原始图像之间的关系相似 它还防止交叉编码器将输入对之间的差异编码到共享特征si和sj 中。α是平衡重建损耗和剩余损耗的重要性的系数尽管关于差异的信息很少-3706ΣEGRRΣ眼睛特征EDED同一只眼睛分享分享相似凝视分享分享EDED图3.使用交叉编码器的无监督凝视呈现学习框架。使用具有相同眼睛的输入对(左)和具有相似注视的输入对(右)两者来更新编码器和解码器。在左侧,在重建期间切换眼睛特征。在右侧,凝视特征被切换。在S1或Sj 中 编 码,不能确保特定特征D1和Dj不传送共享信息。存在退化解决方案,即编码器将所有信息保持在di或di中,并且在si和si 中 保 留 一 些 噪 声。 为了解决这个问题,我们建议同时用一对互补的输入来训练交叉编码器。在新的一对中,共享信息成为差异。考虑图中的示例2、互补对可以是一对斜线圆和实心圆,其中共享信息是形状,差异是纹理。因此,对于新的对,d应该是共享特征,并且s应该是特定特征。通过最小化如(1)中的类似损失,我们确保特征d不传达应该在s中的信息。3.2. 无监督注视表示学习凝视的特征本质上与那些因为当某人正在看远处的物体时,两只眼睛的注视方向几乎平行[27],所以我们假设注视特征gi和gi在特征空间中是接近的因此,我们可以根据他们自己的眼睛特征和切换的注视特征来重建输入对。人们可能会争辩说,除了眼睛然而,这个问题并不关键。首先,为了避免强光照因素,我们把图像的灰度和直方图均衡化。此外,凝视特征的维度可以被视觉地扩展以容忍帧之间的环境变化。这不会影响性能,如在实验中可以看到的。从数学上讲,我们通过最小化来眼睛的身份。 为了将关于注视和眼睛身份的特征分别编码到两个嵌入中,我们使用双输入对来训练交叉编码器:眼睛-L =(i,j)∈E+βIi−D(gi,ej)I−D(g,e)一致的一对相同的眼睛,和凝视相似的一对相似的凝视。我(i,k)∈Gki1 kIk1G(二)图3示出了使用交叉编码器的无监督注视呈现学习框架。使用两种类型更新编码器和解码器的参数输入对同时进行。 如图所示,眼睛-一致对(Ii,Ij)被选择为不同视频帧中来自同一人注意这里左眼和右眼不被认为是同一只眼睛。每个图像被编码为注视特征(黄色矩形)和眼睛特征(绿色矩形)。由于两个图像是同一只眼睛的,因此它们的眼睛特征ei和ej应该是一致的。因此,我们可以根据输入对自身的注视特征和视觉特征来重建输入对切换眼睛功能。注视相似对(Ii,Ik)是来自一个视频帧中的人的两只眼睛其中是具有相同眼睛的配对的集合,并且是具有相似注视的配对D(gi,ej)表示根据注视特征gi和眼睛特征ej重建的图像。E和G分别是两对的剩余损耗。α、β、γ是平衡项目的系数考虑到注视对于G中的对是相似的但不相等,β和γ分别小于1和α4. 实验我们通过其学习的表示和预训练的模型,通过将它们与公共数据集上的最先进方法进行比较,对Cross-Encoder进行了全面评估。我们分析了解纠缠的特征并讨论了3707±表1. Columbia、UTMultiview和MPIIGaze数据集内100次凝视估计的角度误差(平均标准差)。GS代表凝视相似对。dg和de:注视特征和眼睛特征的维度。对于眼睛特征、注视特征(无GS对)、注视特征(无残余损失)设置,对于UTMultiview、Columbia和MPIIGaze,de分别为32,dg分别为9、12和12。请注意,对于MPIIGaze,我们使用交叉编码器在Columbia上无监督地预训练,并且在MPIIGaze上只训练了10个epoch。带头部姿势无头部姿势方法哥伦比亚UT多视图MPIIGaze哥伦比亚UT多视图MPIIGazeImageNet预训练ResNet18自动编码器自动编码器(EFC)SimCLR[6]BYOL [12]Yu等人[37]第三十七届12.1±0.110.5±0.29.2±0.37.2±0.19.9±0.18.9520.2±0.518.0±0.513.5±0.312.1±0.214.4±0.28.5610.6±0.29.5±0.29.2±0.210.0±0.311.1±0.5-11.9±0.210.6±0.39.4±0.38.2±0.0310.2±0.03-24.9±0.518.5±0.522.1±0.521.3±0.723.5±0.2-10.6±0.29.5±0.18.9±0.19.8±0.211.0±0.6-交叉编码器(建议)- 眼睛特征- 凝视特征(无GS对)- 凝视特征(无残留损失)- 注视特征(dg=9,de=32)- 注视特征(dg=12,de=32)- 注视特征(dg=15,de=32)- 注视特征(fg=12,fe=16)- 注视特征(fg=12,fe=64)12.8±0.17.6±0.16.7±0.16.7±0.16.6±0.16.4±0.16.7±0.16.5±0.115.5±0.410.6±0.37.4±0.17.7±0.38.0±0.28.0±0.27.6±0.27.8±0.29.8±0.18.2±0.17.2±0.28.1±0.27.5±0.17.5±0.27.2±0.27.5±0.212.6±0.28.5±0.27.4±0.17.6±0.17.3±0.17.1±0.17.4±0.27.2±0.131.9±0.317.2±0.68.2±0.28.8±0.28.9±0.29.2±0.28.6±0.28.9±0.19.7±0.18.1±0.27.2±0.28.0±0.27.6±0.27.3±0.27.2±0.17.4±0.1特征切换机制的有效性、两种类型的输入对、特征维度和剩余损失。4.1. 实验设置实施详情:我们使用PyTorch实现了交叉编码器。在我们的实验中,我们使用ResNet18 [13]作为编码器,四个DenseNet [15]去卷积块作为解码器。值得注意的是,编码器和解码器可以是任何其他架构。根据眼睛周围检测到的面部标志[14]裁剪眼睛图像所有的输入图像都是灰度的,并进行直方图均衡化以消除光照影响。我们在一个TI-TAN RTX GPU上训练交叉编码器,使用Adam [21]优化器进行200个epoch。学习率为0.0001。在每一批中,两种类型的训练对是一半一半。对于眼睛一致的对,我们从剪辑的两个随机帧中随机选择受试者对于凝视相似的一对,我们随机选择一帧并裁剪受试者数据集:我们评估了公共凝视数据集Columbia Gaze[32]、UTMultiview [33]和MPI-IGaze [41]上的方法。所有的数据集包含各种头部姿势和注视方向。ColumbiaGaze ( C ) 由 来 自 56 个 受 试 者 的 6000 张 人 脸 图 像UTMultiview(U)由来自50个受试者的64000张人脸图像组成我们在实验中使用了UTMultiview的真实MPIIGaze(M)包含15名受试者的213659张图像,并且在日常生活中在笔记本电脑的屏幕前5倍、3倍和留一法交叉验证评估分别用于Columbia、UTMultiview和MPIIGaze。我们表2.交叉数据集下100次注视估计的平均角度误差。CUM监督-10.848.35- 在C- 在U7.19-8.11- X训练5.678.797.28无监督- Yu等人[37](在U上训练)交叉编码器- 在C- 在U- X训练- 接受过X,T和F8.82-七点四八7.767.09- 九块七毛九-10.309.58-八点三二9.099.048.20也使用XGaze [39],TabletGaze [16]和FreeGaze作为无监督数据,忽略它们的注释,当受试者看着屏幕上的点时,从18台高分辨率佳能250D数码单反相机收集XGaze(X) 我们使用了80名受试者的756540张图像在XGaze的训练集中。当受试者以4种不同姿势观看平板电脑时,收集平板电脑凝视(T)。我们在51个主题的817个视频中采集了171971张图像。FreeGaze(F)是一个自我收集的数据集,其中有138名亚洲人在4台摄像机前自由观看。它由867808幅图像组成。4.2. 学习表示3708我们通过几个镜头的凝视估计任务评估了学习的表示,如[37]所示,在数据集内和跨数据集设置下。3709±表3. Columbia、UTMultiview和MPIIGaze数据集内50/200次拍摄凝视估计的角度误差(平均标准差)。50表4. Cross-Encoder的平均角度误差以及Columbia和UTMultiview数据集上的最新方法。哥伦比亚UT多视图200U11.9±0.311.0±0.314.1±0.27.3±0.2男8.8±0.19.2±0.310.4±0.47.3±0.1数 据 集 内 评 估 : 我 们 比 较 了 ImageNet 预 训 练 的ResNet18的表示,这是一种具有与交叉编码器相同的编码器和解码器架构的香草自动编码器,这是之前唯一的自监督凝视表示学习方法(Yu等人。[37]),两种最近流行的对比学习方法SimCLR[6]和BYOL[12],以及所提出的交叉编码器的变体。具有相等要素约束的自动编码器自动编码器(EFC)通过添加 自动编码器框架下的约束(L1损失)。给定一对输入,EFC将每个输入编码成两个特征。EFC不是交换要一致的特征,而是通过最小化它们上的L1损失来迫使要一致的特征相等。表1显示了Columbia、UTMultiview和MPIIGaze数据集内100次凝视估计的角度误差的平均值和标准差。在每个折叠中,我们首先使用未标记的训练集训练交叉编码器。然后,我们根据100个带有标签的随机训练样本来训练注视估计器,并重复10次以显示平均值和标准差。由于头部姿势可以影响凝视估计,我们报告的结果与头部姿势信息。我们列出了Yu et al.[37]作为一个头部姿势,因为头部姿势是必要的,当他们回归凝视。对于其他方法,在w/头部姿势设置中,表示被认为是协调的头部姿势和学习的注视特征。在表1中,交叉编码器学习的注视特征在不同的数据集和设置上优于其他表示。预训练的ResNet18是最差的,因为它的特征是为了图像分类而学习的。交叉编码器优于自动编码器,因为自动编码器学习的表示保留了重建眼睛图像的所有信息,包括与注视无关的Sim-CLR [6]和BYOL [12]方法专注于学习一般视觉特征,而不是专门用于凝视估计的表示,这导致其性能较差。与Yu et al.[37],交叉编码器在两个数据集上使用不同的特征尺寸设置实现了一致的改进。Yuet al.[37]结合头部姿势信息来归一化输入图像并从相机坐标变换回归的注视向量系统到头部坐标系。因此,他们明确地消除了头部姿势的影响。虽然没有与头部姿势级联或转换到头部姿势协调系统,但所提出的交叉编码器可以获得比[37]更低的MAE,并且比[37]更简单。我们还在表3中显示了50/200拍摄性能,其中交叉编码器始终优于其他编码器。结果表明,交叉编码方法在少炮点情况下比其他方法具有更好的稳定性跨数据集评价:为了研究学习的特征的泛化能力,我们使用不同的数据集来训练表示并进行100次凝视估计。 我们比较了监督特征 在三个公共凝视估计数据集(即,Columbia,UTMultiview,XGaze)、最先进的无监督凝视表示[37]以及在不同数据集上训练的交叉编码器的无监督凝视特征。为了了解未标记数据的强大功能,数据集(XGaze,TabletGaze和FreeGaze)的联合也被无监督地用于训练交叉编码器。表2示出了在交叉数据集设置下的100次拍摄注视估计的平均角度误 差 。 注 意 , 该 表 示 与 头 部 姿 势 连 接 。 分 别 在Columbia、UTMultiview和MPIIGaze上使用5倍、3倍、留一法评价方案在表2中,我们有三个观察结果。首先,交叉编码器优于最先进的无监督注视表示[37]。其次,对于相同的训练数据,除了Columbia训练的特征外,监督特征优于非监督特征,因为监督方法很容易过拟合仅包含6000张人脸图像的Columbia数据集。第三,更多的训 练 数 据 有 助 于 交 叉 编 码 器 学 习 更 好 的 表 示 在XGaze,TabletGaze和FreeGaze的联合上训练的交叉编码器是所有无监督模型中最好的,因为它包含最多的图像和主题。4.3. 与最新凝视估计方法的我们通过将交叉编码器与最先进的凝视估计方法进行比较来进一步评估交叉编码器,包括三种监督方法[31] [38] [35] 和 一 种 自 监 督 方 法 [37] 。 表 4 显 示 了Columbia和UTMultiview数据集上比较方法的平均角度误差5-不良事件(EFC)simCLRBYOL我们CUM11.1±0.314.9±0.59.8±0.28.1±0.0414.4±0.510.7±0.410.8±0.115.1±0.511.9±0.47.0±0.28.8±0.48.5±0.2C7.8±0.16.3±0.029.4±0.036.2±0.1Yu等人[37]第三十七届3.425.52Park等人[三十一]3.59-Zhang等人[38个]-5.9Wang等人[35]第三十五届-5.4交叉编码器(建议)3.524.813710在眼睛一致对(训练集)上在注视相似对(训练集)上(a)(b)第(1)款对眼睛一致对(测试集)对凝视相似对(测试集)(c)(d)其他事项注视特征(交叉编码器)眼睛特征(交叉编码器)gaze feature(equal feat.约束)眼睛特征(相等专长。约束)自动编码器图4.眼睛一致对和注视相似对中的图像之间的表示的平均余弦相似性在两个数据集中分别使用倍和3倍评估方案。我们首先使用未标记的训练数据训练交叉编码器。然后,我们在编码器之后放置两层MLP以在注释的训练数据上构建注视估计器。测试集上的估计器的性能报告。其他方法的结果最初由作者在其论文中报道。在表4中,交叉编码器实现了与最先进的注视估计方法一样的竞争性能。交叉编码器在UTMultiview上得到的误差小于其他方法。在Columbia上,交叉编码器的性能与Park [31]相似,但略差于Yu [37]。原因是Columbia包含的样本比UTMultiview少得多。对大量数据进行预训练使编码器更好地捕获数据的分布。4.4. 消融研究凝视和眼睛特征是否分开?首先,我们比较了凝视特征和眼睛特征在少镜头凝视估计任务。在表1中,使用眼睛特征比使用注视特征差得多。这表明眼睛特征中编码的关于注视的信息很少。其次,我们将两种类型的输入对中的学习特征可视化。图5示出了由交叉编码器、香草自动编码器和自动编码器(EFC)在Columbia和UTMultiview的训练集和测试集两者上对于每个特征,x轴对应于维度的索引,y轴对应于值。对于注视相似对中的图像(在同一列中),它们的交叉编码器学习的注视特征是相似的,但是它们的眼睛特征具有差异。和vise诗的图像在眼睛一致对(在同一行)。这表明交叉编码器确实将关于注视的信息编码在注视特征中,并且将眼睛看起来像什么编码在眼睛特征中。自动编码器学习的特征随着不同的眼睛或注视而变化,因为信息在特征中交织在一起。第三,图4绘制了成对图像之间的学习特征的平均余弦相似性。为了计算平均相似度,我们随机选择眼睛一致的对图5. 来自不同数据集的眼睛图像及其眼睛特征(fe)和注视特征(fg)的示例。在每个数据集中,眼睛(成行)来自同一个人但不同的帧。列中的眼睛是来自一个帧的左眼睛(el)和右眼睛(erel和er是通过交叉编码器重建的图像。涵盖了所有科目。对于凝视相似对,我们在每个图像中使用左眼和右眼。观察到,通过其他方法学习的注视和眼睛特征都不显示两种类型的对之间的差异。然而,凝视相似对上的凝视特征(交叉编码器)凝视相似对上的眼睛特征(交叉编码器)比眼睛一致对上的眼睛特征(交叉编码器)更不相似。这表明交叉编码器在解开凝视和眼睛特征方面的优势。值得注意的是,两对上的眼睛特征的相似度都很大(大于0.5)这是因为在凝视相似对中,虽然左眼和右眼具有不同的眼同一性,但它们属于同一个人,并且获得了适度大的相似性。我们还观察到凝视特征(交叉编码器)的相似性在凝视相似对的测试集上下降。训练集上的值接近1,测试集上的值约为0.6和0.8。这是合理的,因为凝视不是绝对相等的,而是在我们的方法中假设是相似的。第四,我们使用图6中的t-SNE [34]在二维空间中可视化眼睛特征和注视特征。每个点表示眼睛图像的特征不同的颜色去注意不同的眼睛身份。注意,一个眼睛身份对应于一只眼睛,这使得同一个人的左眼和右眼具有不同的眼睛身份,因此颜色的数量是主体数量的两倍据观察哥伦比亚训练集哥伦比亚试验装置UTMultiview训练集UT多视图测试集图像ele^lere^r交叉编码器fg(el)fg(er)fe(el)fe(er)等特征约束fg(el3711眼睛特征注视特征(a) 哥伦比亚训练器材。眼睛特征注视特征(c) UTMultiview训练集。眼睛特征注视特征(b)Columbia确认集。眼睛特征注视特征(d) UT多视图验证集。图6.使用t-SNE的交叉编码器学习表示的可视化[34]。每个点对应于一只眼睛更好地看到颜色。眼睛特征通过眼睛身份被聚类,但是聚类对于注视特征不是那么明显。凝视特征比眼睛特征更好地混合,尽管存在一些特定于人的聚类。值得注意的是,尽管聚类不完美,但交叉编码器学习的注视特征对于注视估计是有效的。交叉编码器与相等特征约束:由于交叉编码器旨在使特征相似,因此另一种方法是通过添加约束(例如,L1损失).我们证明了交叉编码器的优势,自动编码器使用相同的功能约束。首先,约束学习的凝视特征在凝视估计任务中的表现比交叉编码器学习的特征差。在表1中,自动编码器(等特征约束)的误差远大于所有数据集中最佳交叉编码器的误差其次,使用相等特征约束不能将眼睛特征和注视特征分开。如图5.尽管注视和眼睛不同,但约束学习的注视特征和眼睛特征几乎相同。在图4中还观察到,在眼睛一致对和注视一致对上,两个约束学习特征的余弦相似度都接近1可能的原因是,它达到了一个退化的解决方案,将所有输入图像编码成两个相似的功能。这些特征足以在丢失细微信息的情况下重建两种类型的训练对:同时使用眼一致对和注视一致对是必要的。表1示出了仅具有眼睛一致对的交叉编码器的性能与具有两个眼睛一致对的交叉编码器的性能之间的大差距。注视特征和眼睛特征的尺寸表1报告了具有不同注视特征和眼睛特征尺寸的交叉编码器的性能。在Columbia、MPIIGaze和UTMultiview上,Columbia和MPIIGaze具有更大的特征维度,可能是因为它具有更大的方差,例如, 戴玻璃的人。MPIIGaze的最佳眼睛特征维度为16,其他两个数据集的最佳眼睛特征维度为64。一般来说,差异是微妙的,交叉编码器超过其他方法,无论维度如何。这表明交叉编码器对特征的维度不敏感。剩余损耗:表1报告了没有剩余损耗的交叉编码器的性能添加剩余损耗提高了Columbia的性能,但降低了UTMultiview和MPIIGaze的性能这可能归因于数据集的不同分布。我们的结论是残余损失是可选的,重建损失是切削刃损失。5. 结论在本文中,我们提出了一种无监督的学习方法来学习凝视表示。我们的主要贡献是提出了一种无监督的表示学习方法Cross-Encoder,并通过引入两种策略来选择训练对,将其应用于视线估计。我们进行了实验,以证明学习的表示的能力和这些都表明了我们方法的有效性。交叉编码器是一种用于非监督表示学习的通用方法。未来的工作可以探索交叉编码器的其他应用。3712引用[1] 克里斯特·阿尔斯托姆、卡佳·基彻和阿尔伯特·基彻。基于注视的驾驶员注意力分散预警系统及其对视觉行为的影响。IEEE Transactions on Intelligent Trans- portationSystems,14(2):965[2] Ioana Bacivarov Mircea Ionita和Peter Corcoran用于眼动跟 踪 和 眨 眼 检 测 和 测 量 的 外 观 统 计 模 型 。 IEEETransactions on Consumer Electronics,54:1312[3] 克里斯托弗·JC·伯吉斯支持向量机模式识别教程。数据挖掘与知识发现,2(2):121[4] Mathilde Caron,Piotr Bojanowski,Armand Joulin,andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集,第132-149页[5] Junxiang Chen和Kayhan Batmanghelich。基于两两相似性的弱监督解纠缠。在AAAI人工智能会议论文集,第34卷,第3495-3502页,2020年[6] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架。第37届国际机器学习会议论文集,第119卷,第1597-1607页,2020年[7] Yihua Cheng,Shiyao Huang,Fei Wang,Chen Qian,and Feng Lu.用于基于外观的注视估计的从粗到细的自适应网络。在AAAI人工智能会议论文集,第34卷,第10623- 10630页[8] Yihua Cheng,Feng Lu,and Xucong Zhang.通过评估引导的非对称回归的基于外观的注视估计。在欧洲计算机视觉会议论文集,第100-115页[9] 埃里克·克劳福德和乔埃尔·皮诺。用卷积神经网络进行空间不变无在AAAI人工智能会议论文集,第33卷,第3412-3420页[10] 邓浩平和朱望江。具有深度学习和几何约束的单目自由头2017年[11] 福岛邦彦Neocognitron:不受位置变化影响的模式识别机制的自组织神经网络模型。Biological Cybernetics,36(4):193[12] Jean-BastienGrill , FlorianStrub , FlorentAltche' ,CorentinTallec,PierreH.Richemond,ElenaBuchatskaya , CarlDoersch , BernardoA'vilaPires ,ZhaohanGuo , Moham-madGheshlaghiAzar, BilalPiot ,KorayKavukcuoglu , Re'miMunos , andMichalValko.Bootstrap Your Own Latent:一种新的自我监督学习方法。在神经信息处理系统的进展,2020年。[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[14] Zhenliang He,Jie Zhang,Meina Kan,Shiguang Shan,and Xilin Chen.稳健的fec-cnn:一种高精度人脸界标检测系统。在IEEE计算机视觉和模式识别研讨会论文集,第98-104页[15] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集,第4700-4708页[16] 黄琼,阿肖克·维拉加万,阿舒托什·萨巴尔-瓦尔.平板电脑凝视:移动平板电脑中基于无约束外观的凝视估计的数据集和分析。Machine Vision and Applications,28(5):445[17] Tomas Jakab 、 Ankush Gupta 、 Hakan Bilen 和 AndreaVedaldi。通过条件图像生成的对象地标的无监督学习神经信息处理系统进展,第31卷,第4016-4027页,2018年。[18] Ananya Harsh Jha、Saket Anand、Maneesh Singh和VSRVeeravasarapu。用周期一致的变分自动编码器解开变化因素在欧洲计算机视觉会议集,2018年9月[19] Anuradha Kar和Peter Corcoran。回顾和分析消费者平台中的视线估计系统、算法和IEEE Access,5:16495[20] Petr Kellnhofer 、 Adria Recasens 、 Simon Stent 、Wojciech Matusik和Antonio Torralba。在野外进行身体非约束的凝视估计。IEEE/CVF计算机视觉国际会议论文集,2019年10月。[21] 迪德里克山口金玛和吉米·巴。 Adam:随机最佳化的方法。在2015年国际学习代表会议上[22] 克里斯·L·克莱因克 凝视和眼神交流:研究综述Psychological bulletin,100(1):78,1986.[23] Yong Li,Jiabei Zeng,and Shiguang Shan.从未标记的视频 中 学 习 面 部 动 作 的 表 示 。 IEEE Transactions onPattern Analysis and Machine Intelligence,2020。[24] Francesco Locatello
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功