没有合适的资源?快使用搜索试试~ 我知道了~
3464基于注视强度感知变换的精细注视重定向学习Sangjin Park、Daeha Kim和Byung Cheol SongInha大学,大韩san9569@naver.com,kdhht5022@gmail.com,bcsong@inha.ac.kr摘要视线重定向是将给定面部或眼睛图像的视线朝向期望方向调整的任务,并且旨在通过基于神经网络的生成器来学习面部图像的视线方向。考虑到现有技术已经学习了粗略的注视方向,学习精细的注视方向是非常具有挑战性的。此外,高维凝视特征的外显本文提出了克服上述局限性的解决方案。首先,我们提出了特征级变换,它在潜在特征空间中提供与各种注视方向相对应的注视特征。其次,我们提出了一个新的损失函数的判别学习的凝视功能。具体地,对注视具有不显著或不相关影响的特征头部姿势和外观)被设置为负对,重要注视特征被设置为正对,然后执行成对相似性学习。因此,所提出的方法对于凝视捕获数据集显示出仅2°的重定向误差。这是一个10%的性能优于现有技术的方法,即,STED。此外,通过激活视觉化,给出了为什么要区分各种属性的潜在特征的依据 。 代 码 可 在 https://github.com/san9569/Gaze-Redir-Learning上获得1. 介绍凝视是一种典型的非语言线索,当一个人集中注意力在一个特定的物体上时,它首先被检测到最近,凝视信息已被用于辅助机器人[30],用于避免安全关键情况的驾驶员用于凝视表示的经典方法从面部(或眼睛)图像中提取手工制作的描述符,并将其用作凝视特征[33,23]。然而,手工制作的描述符的简单化的性质已经成为个人概括的障碍随着神经网络特征提取能力的迅速发展,目前的方法能够提取更强的注视特征,图1:我们的问题定义的概念说明。与以前的工作相比,所提出的方法可以学习各种注视方向[26,45]。图[40,27,26,45]。特别是,基于生成器的方法[26,45]通过直接操纵眼睛或面部图像的注视方向显示了注视表征学习本文认为,以下两个问题应该解决学习更强大的凝视表示。首先,不能由输入图像表示的注视方向必须在(潜在)特征空间上适当地反映。如图1所示,现有技术[26,45]仅使用输入图像的有限注视方向,即,源图像和目标图像作为训练期间的监督,因此难以学习不可见注视方向的表示。其次,凝视与几个人类因素紧密相关,例如头部姿势和外观,这些因素与凝视关系不大或没有关系[34,19]。所以,如果目光,头部姿势,外表,等等。在特征空间中纠缠在一起,学习一个可以完全表示凝视的特征将是非常困难的[22]。凝视特征和诸如头部姿势特征的非必要特征的区别性学习,即特征间关系的学习尚未被尝试。本文提供了一种新颖的概念,凝视理解,解决了上述两个问题。首先,我们提出了所谓的GazeH ardness-awareT transformation(GHT),从一对3465S˜源图像和目标图像。GHT由源和目标注视特征的线性内插定义,即,zg和将放置/输出空间应用于最新的凝视重定向方法[26,45],并显示出可靠的性能。他们zg(cf.图中的T2)的情况。变换特征zg用作学会了自动编码的过程,测试树一种增加不能单独由源和目标表示的注视方向的数量并且也被输入到所提出的注视一致性损失函数的附加监督(参见图1)。秒3.2)。此外,由于GHT被设计为增加注视表示的学习难度,因此它防止了琐碎的解决方案,并在训练的后期阶段消除了过拟合问题(参见图1)。秒4.4)。其次,本文提出了一个所谓的结构化凝视(SG)损失函数的判别学习的凝视特征和非本质特征。我们将凝视和非本质特征定义为负对,将不同的凝视特征定义为正对,以形成三元元组。基于三元元组的SG损失函数通过小批量中正负对之间的各种组合来在这里,为了减轻度量学习的固有过拟合问题,还利用了Zhu等人的硬否定和肯定。[46因此,SG损失函数基于所谓的“推拉”策略来学习特征间关系(参见图1)秒3.3)。本文的贡献点归纳如下:• GHT生成不限于给定源和目标的不同注视方向的特征。据作者• 基于SG损失函数的度量学习在学习注视特征和非本质特征之间的特征间关系中得到了应用。• 对 于 GazeCapture [20] 数 据 集 , 与 最 先 进 的(SOTA)凝视重定向方法相比,所提出的方法在定量性能此外,该方法的解纠缠性能通过激活可视化证明。2. 相关工作凝视重定向。注视重定向是将面部图像的注视方向重定向到目标注视方向的计算机视觉任务。基于变形的方法[8]将输入的眼睛图像变形为期望的输出外观。基于GAN的方法[11,38]使用生成对抗网络(GAN)生成重定向图像,该网络已广泛用于生成任务。[1]使用了基于数字和图形指导的自动编码器,[16]使用了基于样式的生成器来生成重定向图像。转换自动编码器(TA)[12],将源图像的方向转换为目标图像的方向。在[26,45]中,调整(源)注视方向的(几何)变换被称为重定向过程(本文中的R附录)。STED [45]定义了凝视、头部姿势和潜在空间中的任务无关属性,并另外生成基于伪标签的图像。然而,现有的方法不能精确地学习在野外环境中的注视表示,因为它们只使用具有有限数量的注视方向的图像SEC中提出的企业级3.2可以解决这个问题。企业级转换。提高神经网络泛化性能的方法之一是在特征空间上进行变换[5,44,46]。例如,DAML [5]通过生成器网络,并使用它们进行相似性学习。HDML [44]通过特征插值产生合成特征,可以自适应地调整相似性学习的难度。最近,已经开发了一种数据有效的变换,可以产生对判别学习有用的特征,以解决[5,44]的计算和优化问题Zhu等[46]通过采用特征外推和内插,缓解了过拟合问题以及正负对相似性学习卡在平凡解上的现象受[44,46]的启发,我们提出了一种新的特征级变换,可以自适应地控制注视学习的难度,从而生成与各种注视方向相对应的注视特征多对深度度量学习。深度度量学习使用距离度量来理解潜在特征之间对比损失[9,13]和三重损失[3,29]了解到不同类别的对之间的距离在预定范围内变得更远,并且同一类别的对之间的距离变得更近。基于对的度量损失已经逐渐扩展到四元组[2,14]或N对损失[32],即基于N对否定的广义三元组。Song等人[25]提出了一种提升的结构化损失,将小批量中所有正样本和负样本之间的关系设计为结构化公式。我们通过度量学习将特征间的关系应用于凝视。3. 方法•问题公式化我们的目标是使模型通过生成图像xt来学习精细的注视表示,在该图像中,源图像xs的注视方向被重定向到目标图像的注视方向。等变 映射 之间 潜 特点和年龄xt.我们的基本模型,即,变换式自动编码器3466trtrEGz阿格特尔~t在x和x估计的gaze(或head)方向之间的距离trEEStr˜ ˜˜˜ ˜˜trS不G不联合不S不不不 不不trLs s ss∈G图2:所提出的方法的概述R是传统的旋转过程(参见秒第3.1节)。T是凝视硬度感知变换并生成新的注视特征zg(参见秒3.2)。zG可以产生尽可能多的迷你-批次并表示各种注视方向。网络是用于重定向学习的预先训练的网络,并且在训练期间被冻结(参见秒第3.4段)。在计算了所有阶段的所有损失函数之后,更新和的参数在在第一阶段中,执行阶段1以生成重定向图像x,并且阶段3用于计算重定向误差,评价(TA)[12,45,26],分别定义了潜在空间中的凝视zg、头部姿势zh和任务无关特征zu~tg通过源和目标注视特征之间的线性插值。为了学习zg的新方向,zg是tr tr然后学习特征之间的等变映射,重定向到ZG其表示目标注视方向空间和输入空间(cf.秒2)的情况。然而,如果进行测试,通过阿斯特丽德g具有难以从源图像和目标图像观察到的注视方向的图像图1)。也就是说,利用有限数量的注视方向学习各种注视方向是相当具有挑战性的。因此,我们试图学习联合国-通过生成特征zg代表R. 在这里,自标签用于重定向z树(参见秒3.2)。最后,基于zg和zg之间的余弦距离的注视一致性损失cns被最小化(参见图1)。当量2)的情况。在阶段3中,为了监督xt的注视和头部方向,重定向损耗Lred,其是角度误差tt通过预先训练的网络,最小化(参见图1)。秒第3.4段)。一个新的视线方向,通过线性插值之间的给定源和目标注视特征(zg和zg)。预先训练了凝视(和头部)估计任务在训练中被冻住了S t概况. 图2是所提出的方法的概述。在阶段1中,给定源图像xs,编码器 亲 在单位超球面上导出(潜在)特征zs:2016 - 05 -22 00:00:00其中Nm表示L2归一化。zs是由注视Zg,头部姿势Zh,•凝视硬度感知学习本节描述了用于创建新注视特征的注视硬度感知变换(GHT)。GHT的核心是生成对注视方向的附加监督S s和任务无关特征zu:zs= Concat(zg,zh,zu)。G h具体来说,GHT创建了无法表达的视图zg和zg单独存在。受硬度感知插值的启发对于重定向注视和头部方向,zs和zs是s tg旋转到G和ZH,分别通过常规旋转,在[44]中,我们通过线性定义变换特征ztr,斯塔兹特插值如下:[45]第四十五章. R使用源和目标的注视和头部姿势地面实况(GT)将源特征旋转到目标特征(参见图1)。更多详情见附录)。还有,它用于将阶段2的新特征旋转到目标特征。为了保留身份和细节,到生成器G,并且G生成重定向的图像xtus。zg=αsimzg+(1 −αsim)zg,(1)其中,αsim(0,1)是初始化为0.5的自适应系数,并且生成与ing旋转要素(zg和zh)和zu:x=G(z)其中小批量或更多。方程式中的αsim1随着学习而增加随着时间的推移,zg的比例逐渐下降不zt= Concat(zt,zt,zs)在阶段2中,目标图像xt以与x s相同的方式通过EH3467trtr编码:zt=Nm(E(xt))=Concat(z,zh,zu)。减弱zg的影响,包括GT注视方向,这使得更难学习zg的注视方向。在那里-因此,zg用作注视方向的附加监督然后,GHT(由T表示)生成源和目标不能看到的新注视特征,并且贡献于3468L˜z阿格特尔不∼trSSSL∥ ∥∥z ∥白树~t通过将源的注视标签替换为S将目标图像转换为Eq.1.一、注意zg和zg重定向SSSSSS(zs,zs)。注意,尽管提取了zg和ze,但是眼睛图像具有细粒度的注视属性SSSS双头T型机trSsSsGGGGz学习凝视表示的水平SSSS学习注视特征之间的注视一致性。为了更新αsim并学习生成的凝视特征,我们基于重定向凝视一致性定义损失函数cnsg g (2)Lcns=1−αsims。t. αsim=cos(ztr,zt),tr不Gtr其中,cos(zg,zg)=ztr·ztg其中,λ·λ是L2范数。zG朝向目标图像的注视方向,是其中zgR,分别。自我标签 获得zg所需的g图3:拟议SG损失的概念图功能(a)插值特征z−s用于附加n g at iv esample. (b)外推特征z+提供atrS在相同zg的注视方向上,因此,,即cos(zg,zg)是1。在理想情况下,zg是gener-αsimtrttr只从zg开始计算,这对应于最困难的z−= Nm。Mh(zh)+(zg−Mh(zh))α−ε通过这样做,生成的凝视特征允许神经网络-S. t. Mh(zh)= Nm(ReLU线性(zh)),作品不仅学习给定数据的凝视,而且还学习var-s s其他凝视方向。实际上,它是实验证实,所提出其中α−Beta(2. 0,2。[001-word 2nd][001-word2nd]有[001-word 2nd]范围,细粒度的Ze可以代替Zg(参见秒4.4)。注意zu是方法在交叉数据集设置中得到改进,zg的增加(cf.秒4.4)。•SG损失函数也用于生成附加的负样本,而不是等式2的zh3 .第三章。这里,使用Mu代替Mh。这里,由于zh和zu表示异构属性,S s我们希望在重定向过程中视线方向的变化受头部姿势和任务无关特征的对于这种解纠缠特性,我们提出了通过度量损失进行特征之间的相似性学习。基于三元元组的相似性学习的基本思想是将相同的类定义为正对,将不同的类定义为负对。受心理学研究[34,19]的启发,凝视实际上与凝视无关的因素(如头部姿势)有关,我们形成了消极的配对。(zg,zh),(zg,zu)通过定义zh和zu为负属性z-s(方程)3)通过朴素线性插值生成的样本可以被视为容易的负样本。所以,我们用两个,多层感知器(MLP),即,Mh和Mu。通过这个额外的对齐过程,z−s不仅可 以定位在同一层的特征空间上,而且可以用作度量学习的有用样本。 N ow,z−s包含zh和zu不能表达的语义属性,通过绑定到z g(或z e)来定 义 为 负对, zg ( 或 ze) 充 当 锚 点 ( 见 图 2 ) 。 3(a))。此外,由于z−s为SS ss s s对于zg,分别。均匀分布,基于对的simi的偏差问题,可以减轻重力学习(参见图1)。附录)。然而,正对不能仅用zs来一个单一的属性。[6]《易经》中的“道”,是指“道”。另一方面,正对的相似性学习(zg,ze)的约束比负对相对较少,从眼睛图像中提取的纹理可以表示细粒度的S凝视,我们定义从编码器提取的眼睛特征ze试图找到一个微不足道的解决方案。为了防止这个问题,因此,我们通过E眼睛,其中裁剪的眼睛图像xs作为输入。眼睛是前-使用凝视估计任务训练ResNet-18,并在训练期间冻结。也就是说,ze=Eeye(xe)。因此,正对被定义为geS特征外推[46]如下:z+=Nm。zg+(ze−zg)α+,(4)S s因此,所提出的正对可以有助于相似性学习。然而,与以前的研究相比[10,17],汉-其中,α+=α−+1在[1,2]范围内采样表示外插系数。代理向量z+位于一对正关系(zg,ze)的附近,S s除去几十个或几百个类标签,我们只有两个负属性(zh,zu)来区分注视特征。提供了一个附加约束,使得(zg,ze)不具有一个平凡的解决方案(见图)。第3(b)段)。S s受[46]的启发,我们生成了额外的负样本通过负对的线性插值,即,(zg,zh)和最后,SG损失函数sg是基于基本三元组(zg、ze、zh或zu)和附加矢量(zg,zu)。S和和是redi-学习正对的硬例子(三)S3469ss s s s s个如上所定义的S s3470ττ×Στ··∥ −∥PNGEnnL˜L真实正则化[45](cf. 附录)。损失函数s ssΣL LLSG1=2|P| (i,Σj)∈Pmax(0,Ji,j)2NVIDIA A100 GPU。每个实验重复三次。这比仅进行一次实验的STED更可靠在图2中,编码器E和生成器GJi,j=S. Di,j+(i,k)∈NS. δ − Di,k(五)基于DenseNet架构[45],将图像大小调整为128 128.眼睛特征提取网络Eeye是预先训练好的ResNet-18 [6],+(j,l)∈NS. δ − D j,l,最终裁剪的眼睛图像作为输入。与其他方法[31]一样,我们使用数据归一化过程[42]对凝视数据集进行预处理,其中和分别表示小批量中的所有正对和负对的集合。D i,j=zizj2代表向量之间的欧几里得距离。 S()(=ln(1 +exp()表示softplus函数。δ是阴性样品的界限,设定为1.3。τ是TEM,温度超参数,并设置为0.89。请注意─Eq.的骰子i和j5对应于zg和ze(或z+),re-头部方向。所设计的神经网络的学习参数通过重复大约14万次的前向和后向过程来更新。和的初始学习率(LR)被设置为10−3,并且使用了每25K次迭代将LR降低0.8倍重量衰变系数为10−4,亚当优化器[18]为s s s通过Di,j计算正对的相似度。 指数k、l分别对应于zh(或zu)和z−与正对元素具有负关系。因此,SG损失函数如下-称为结构化公式,其中考虑了阳性和阴性对的所有组合关于SG损失函数和广义对比损失的进一步分析,请参见附录•总损失函数所提出的方法的总损失函数定义如下:N受雇。小批量设定为32。4.1. 数据集和评估指标我们采用了可用于研究目的的开放数据集,并在EYEDIAP中获得了知情同意[7]。我们总共使用了四个凝视 数据 集:[20][31][32][33][34][35][36][37][38][39]数 据 集 包 括 注 释 的 头 部 姿 势 和 注 视 方 向 信 息 。GazeCapture由在无约束设置中从1,474个受试者采集的2M图像组成。MPIIGaze由日常生活中采集的15个子脑的213,569个图像组成。哥伦比亚凝视包含6000个1L=N(λn=1红色L红 +λcns LCNSn个其他 )+λsgLsg,(六)图片来自56个主题EYEDIAP是来自16个受试者的凝视数据集。我们的模型是在GazeCapture数据集的训练分割上训练的,而泛化是在其中,λred、λcns和λsg分别设置为5.0、2.0和10.0。N是小批量的大小第一项Lred是通过x t和x t之间的平均角误差(MAE)度量计算的损失函数。也就是说,Lred=其中MAE(a,b)=cos−1a·b并且,ResNet-18预先训练了凝视或头部方向,通过对三个不同凝视数据集的交叉数据集评估来验证该方法。总共使用了四个评价指标来评估所提出的方法。首先,errg表示MAEGT和注视方向的预测之间的关系,不不MAE((xt),(xt))a由x和x通过预先训练的凝视估计任务[45]。第二任期CNS是一个损失函数,用于在两个重定向的注视特征之间的一致性学习的等式(参见等式10)。2)的情况。第三项sg是用于凝视特征的区别性学习的损失函数(参见等式(1))。(五)。的最后一项Lother由逐像素重建组成,(或头部姿势)估计任务[45]。也是埃尔河解缠误差是用于测量诸如凝视和非本质特征的因素的相互影响例如,凝视头部(g→h)的解纠缠误差是头部姿态GT和头部姿态GT之间的MAE。对于进一步的FEA,在Xt和Xt除了sg是用N个样本计算的,并且sg被计算得与正变换特征和负变换特征的大小一样多,即, |P|和|N|.+L3471SSS→→~tSS∼−4. 实验配置. 我们实现了神经网络-来自zs的重定向图像包括被扰动的注视功能zg. 这里,扰动的gaze特征zg是添加基于均匀分布的随机扰动ε的结果U(0. 1π ,0。1π)到zg:zg=zg+ε。此外,特征和GT的各种组合用于解缠错误:h g,头部姿势因子的变化对注视方向的影响,以及ug(/h),效果 的变化任务无关因素的凝视(头部姿势)方向。最后,LPIPS[15]是一个衡量使用PyTorch库[28],以下实验在AMD 7742 CPU的环境中进行,xt之间的知觉相似性和x,并量化重定向图像的视觉质量[11,45]。3472†→†→测试数据集MPIIGaze哥伦比亚EYEDIAP表1:数据集内评价方案的定量结果。““表示我们的再现结果。(a)与GazeCapture数据集上最先进的方法进行FAZE和STED的结果借用自[26]和[45]。这里,在FAZE的情况下,u g(/h)度量被排除,因为它不具有任务无关的特征。百分比表示与STED相比,所提出的方法的改进程度。(b)与MPIIGaze,Columbia和EYEDIAP数据集上的STED比较。方法错误gu→gh→g错误hu→hg→hLPIPSStarGAN [4]4.602--3.989--0.257He等人 [第十一届]4.617--1.392--0.223[37]第三十七话5.314--4.122--0.255[26]第二十六话7.114-4.8822.470-0.5420.279STED [45]2.195 0.5072.0720.816 0.2110.3880.205我们1.8840.3721.9020.720.1840.3420.199▼14.2%▼26.7%▼6.7%▼11.7%▼12.8%▼11.9%▼2.9%(a) [20]第二十话数据集方法错误gu→gh→g错误hu→hg→hLPIPSMPIIGazeSTED†2.1330.6052.3120.7240.3140.4420.204我们1.8140.5121.9940.6840.2110.3390.202哥伦比亚STED†3.1340.9023.3070.8860.3341.0020.233我们2.8720.7822.9020.9020.3140.9870.212EYEDIAPSTED†13.0946.41312.7960.8170.6621.6740.224我们11.0945.4989.4380.8020.4030.9040.232(b) [31]第43话:我的世界,表2:交叉数据集评价方案的定量结果所有方法都在GazeCapture数据集上训练方法错误gh→gLPIPS错误gh→gLPIPS错误gh→gLPIPSStarGAN4.4882.7830.2606.5223.3590.25514.9064.0250.248He等人5.0923.4110.2417.3453.8310.22713.5483.8310.218GazeFlow†6.0244.9170.2448.9334.1200.23418.3444.9530.231Faze6.8944.1140.2219.2334.3240.24719.5635.1220.24STED2.2331.8490.2033.3332.1360.24211.2902.6700.213我们1.9981.7140.1943.0021.9740.22110.2312.1340.204▼10.5%▼7.3%▼4.4%▼9.9%▼7.5%▼8.6%▼9.3%▼20.0%▼4.2%4.2. 定量结果数据集内评价。表1显示了根据所谓的数据集内评价方案 提 出 的 方 法 的 性 能 。 表 1a 将 所 提 出 的 方 法 与GazeCap- ture数据集的其他方法进行了比较。所提出的方法优于其他SOTA方法在所有指标。例如,所提出的方法实现了1. 884°,与STED相比提高了14.2%。此外,所提出的方法显示出1的hg。902°,比STED好6.7%。这表明,潜在特征的一致性和解纠缠性对于TA的自动编码学习是重要的。同时,表1b分别显示了MPIIGaze、Columbia和EYEDIAP数 据 集 的 数 据 集 内 评 价 结 果 。 在 这 里 ,STED,它实现了最高的性能,在现有的方法,并与所提出的方法进行了比较。并与现有方法进行了比较在附录中。注意,所提出的方法超过-3473E图4:MPIIGaze数据集的少量注视估计性能。我们将MAE的标准差表示为每条曲线上覆盖的阴影。通过将STED的学习表示应用于凝视估计器来计算STED的曲线[45]。因为[39,26]的结果是从论文中借来的。在大多数指标中形成STED。这意味着无论数据集如何,所提出的方法始终有助于性能改进。交叉数据集评价。表2通过具有不同训练和评估数据集的交叉数据集评估协议显示了所提出的方法的强度。与表1中的数据集内方案相似,在交叉数据集方案中,所提出的方法显示出优于基线方法的特别是,请注意,对于三个数据集,所提出的方法实现了比STED平均低9.9%的误差此外,所提出的方法生成的重定向图像的视觉质量更高,甚至在LPIPS度量方面表现出略好的性能这在Sec. 四点三。学习表征的评价。我们通过几次凝视估计任务评估了学习的表示。我们仅使用几个校准样本来训练凝视估计器。视线估计器被设计为具有两层MLP,并且其通过接收学习的视线表示来输出三维视线在凝视估计器的训练期间,编码器被冻结。在MPIIGaze数据集中,每个受试者使用500张图像进行评价。从剩余的样本中随机选择k个校准样本,并将其用作注视估计器的训练数据。每个实验重复10次以计算平均值和标准偏差。图4显示了MPIIGaze数据集中几种方法[39,26,45]在大多数情况下(k >5),所提出的方法优于以前工程. 这证明了凝视代表的优越性从我们的模型中学习。4.3. 定性结果我们使用了最新的可视化技术ContraCAM [24]来证明所提出的识别方法的有效性。图5:ContraCAM [24]在测试分割上的可视化GazeCapture数据集。图6:在GazeCap- ture数据集上的潜在空间遍历实验一系列面部图像(a)具有随机选择的四个注视方向,以及(b)具有相同的注视方向,同时改变不重要的特征。本土学习。可以利用连续类型的GT来计算激活图的ContraCAM比类别概率得分更适合于所提出的具有连续凝视或头部姿势作为GT的方法(参见图10)实施细节的附录图5可视化了STED和所提出的方法的特征图。STED的凝视特征关注与凝视关系不大的非眼睛区域。另一方面,所提出的方法的视线特征只集中在眼睛区域,和非必要的特征指向区域独立的视线特征。图6通过所提出的方法和STED的定性比较分析了注视特征辨别对注视重定向的影响。在图6(a)中,所提出的方法跟踪GT井的方向变化,并且显示出比STED显著更低的MAE。此外,欧几里德距离(D)定量地测量注视特征和非必要特征彼此分离的程度。在图6(b)中,即使当不重要的特征3474LSGLLtrLLLLtrSSGLStrtr表3:比较STED与我们方法的用户研究的投票结果每一列的总和为100%。度数指示注视方向(俯仰、偏航、滚动)在图像平面上的投影,并且顺时针增加0°是面中心的左侧方法[0°,120 °) [120°,240 °)[240°,360 °)是说STED百分之十四点六百分之二十九百分之二十点二百分之二十一点三我们85.4%百分之七十一百分之七十九点八78.7%表4:注视一致性损失(CNS)、无特征变换的SG损失(wo−ft)和全SG损耗( SG)在整个性能上。GazeCapture数据集用于该实验。情况 LCNS Lwo−ftSGLSG错误gh→gLPIPS(a)2 334 2414 0237(b)(c)(d)(e)表5:根据本发明的方法的性能哥伦比亚数据集上zg的数量错误g 2.872 2.714 2.364 2.112图7:(a)errg和αsim的学习过程。(b)第(1)款根据αsim生成的图像的一些示例。在注视特征的方向固定的同时改变特征。此外,我们进行了用户研究,以评估所提出的方法。我们随机选择了50对由所提出的方法和STED生成的图像,具有相同的输入图像和注视方向。对于每张图像,要求13名受试者选择看起来与GT更相似的重定向图像。如表3所示,所提出的方法优于STED高达57%。4.4. 消融研究本节涉及消融研究,分析所提出方法的关键组件的影响首先,Fig.图7(a)示出了训练期间αsim和errg的转变。我们可以观察到,由于zg的存在,errg每20K次迭代都会减少,这可以缓解网络在学习后期的过拟合问题。图7(b)示出了受试者的视线根据α sim从源的方向移动到目标的方向的现象接下来,我们分析了所提出的cns和sg在性能改进中所占的比例。如表4所示,CNS对性能改善的贡献略大于sg. (d)显示了EF-不使用z−s和z+时SG损耗的影响(参见第3.3节),即,在性能上。与情况(c)相比,情况(d)显示在所有度量中的显著性能增加这证明特征变换对生成SG损失的硬负样本和正样本的影响。此外,情况(e)表明两个损失函数引起彼此的协同效应。最后,表5示出了根据zg的数目的所提出的方法的性能。随着zg的数量增加,errg变得更低,因为我们的模型可以学习源和目标之间的细粒度注视方向我们在附录中报告了消融研究的其他结果。它们包括Mh(或Mu),ze和批量大小的影响最后,还报告了其他度量损失(裕度损失[35]和信噪比(SNR)损失[41])时的5. 结论我们通过GHT成功地增强和操纵了包括各种注视方向在内的注视特征。生成的凝视特征作为额外的监督,提高视线重定向的泛化性能在未来,GHT将用于各种目的的凝视表征学习需要大量的注释成本。此外,用于特征的区分性学习的SG损失函数可以扩展到其他计算机视觉任务,例如面部情绪或手势的识别。确认这项工作得到了韩国政府(MSIT)资助的IITP赠款的支持(第100号)。2021-0-02068,AI In-AidHub andRS-2022-00155915, Artificial Intelligence ConvergenceResearch Center(Inha University)),并得到了韩国政 府 ( MSIT ) 资 助 的 NRF 赠 款 ( No.2022R1A2C2010095和No.2022R1A4A1033549)。#zgtr1N10N20N50N3475引用[1] Jingjing Chen , Jichao Zhang , Enver Sangineto , TaoChen,Jiayuan Fan,and Nicu Sebe.通过数字和图像引导实现从粗到精的凝视在IEEE/CVF计算机视觉应用冬季会议论文集,第3665-3674页[2] Weihua Chen , Xiaotang Chen , Jianguo Zhang , andKaiqi Huang.除了三重态损失:一个深度的四元组网络用 于 人 的 重 新 识 别 。 在 Proceedings of the IEEEconference on computer vision and pattern recognition,pages 403[3] De Cheng , Yihong Gong , Sanping Zhou , JinjunWang,and Nanning Zheng.基于改进三重丢失函数的多通道部件cnn的人员再识别。在计算机视觉和模式识别的iPhoneConference的Proceedings中,第1335-1344页[4] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第8789-8797页,2018年。[5] 段跃奇,郑文钊,林旭东,卢吉文,周杰。深度对抗度量学习。在IEEE计算机视觉和模式识别会议论文集,第2780-2789页,2018年[6] Yi Fang,Jiapeng Tang,Wang Shen,Wei Shen,XiaoGu,Li Song,and Guangtao Zhai.野外双注意引导凝视目标检测。在IEEE/CVF计算机视觉和模式识别会议集,第11390-11399页[7] Kenneth Alberto Funes Mora,Florent Monay和Jean-MarcOdobez。Eyediap:用于开发和评估来自rgb和rgb-d相机的凝视估计算法的数据库在眼动追踪研究和应用研讨会论文集,第255-258页[8] 雅罗斯拉夫·甘宁,丹尼尔·科诺年科,戴安娜·桑加图利娜,维克多·伦皮茨基。Deepwarp:用于凝视操作的真实感图像欧洲计算机视觉会议,第311-326页。施普林格,2016年。[9] Raia Hadsell,Sumit Chopra,and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉和模式识别会议(CVPRIEEE,2006年。[10] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第9729-9738页[11] Zhe He , Adrian Spurr , Xucong Zhang , and OtmarHilliges.使用生成对抗网络的照片般逼真的单眼注视重定向。在IEEE/CVF国际计算机视觉会议论文集,第6932[12] Geoffrey E Hinton,Alex Krizhevsky,and Sida D Wang.转换自动编码器。国际人工神经网络,第44-51页。Springer,2011.[13] Junlin Hu,Jiwen Lu,and Yap-Peng Tan.用于野外人脸验证的判别式在Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 1875[14] 陈煌,陈昌来,唐晓鸥。局部相似性感知深度特征嵌入。神经信息处理系统的进展,29:1262[15] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694施普林格,2016年。[16] Harsimran Kaur和Roberto Manduchi。应用于凝视重定向的受试者引导的眼睛图像合成在IEEE/CVF计算机视觉应用冬季会议上,第11-20页,2021年[17] Prannay Khosla , Piotr Teterwak , Chen Wang , AaronSarna , YonglongTian , PhillipIsola , AaronMaschinot,Ce Liu,and Dilip Krishnan.监督对比学习。神经信息处理系统的进展,33,2020。[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[19] Nathan L Kluttz,Brandon R Mayes,Roger W West和Dave S Kerby。头转向对注视知觉的影响。Visionresearch,49(15):1979[20] Kyle Krafka , Aditya Khosla , Petr Kellnhofer , HariniKan- nan,Suchendra Bhandarkar,Wojciech Matusik,and Antonio Torralba.每个人的眼动追踪在IEEE计算机视觉和模式识别会议论文集,第2176-2184页[21] Eui Chul Lee,Kang Ryoung Park,Min Cheol Whang和Junseok Park。立体虚拟现实系统中鲁棒的视线跟踪方法。国际人机交互会议,第700-709页。Springer,2007.[22] 刘刚,余宇,肯尼斯·阿尔贝托·富内斯·莫拉,让-马克 · 奥 多 贝 兹 . 用 于 注 视 估 计 的 差 分 方 法 。 IEEETransactionsonpatternanalysisandmachineintelligence,2019。[23] Yoshio Matsumoto和Alexander Zelinsky一种头部姿态和视线方向测量的实时立体视觉实现算法。第四届IEEEInternational Conference on Automatic Face and GestureRecognition(IEEE自动人脸和手势识别国际会议)No.PR 00580),第499-504页。IEEE,2000年。[24] Sangwoo Mo , Hyunwoo Kang , Kihyuk Sohn , Chun-Liang Li,and Jinwoo Shin. 对象感知的对比学习去偏场景表示。arXiv预印本arXiv:2108.00049,2021。[25] Hyun Oh Song , Yu Xiang , Stefanie Jegelka 和 SilvioSavarese。通过提升结构化特征嵌入的深度度量学习。在IEEE计算机视觉和模式识别会议论文集,第4004-4012页,2016年。3476[26] Seo
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功