没有合适的资源?快使用搜索试试~ 我知道了~
467DSDDSCUDA-GHR:用于凝视和头部重定向的可控无监督域自适应加利福尼亚大学圣克鲁兹分校{swjindal,xwang366}@ ucsc.edu摘要凝视和头部姿态估计模型的鲁棒性高度依赖于标记数据的量最近,生成式建模在生成照片级真实感图像方面表现出了出色的效果,这可以减轻对注释的需求然而,将这样的生成模型用于新的领域,同时保持它们提供对不同图像属性的细粒度控制的能力,凝视和头部姿势方向一直是一个具有挑战性的问题。本文提出了CUDA-GHR,一个无监督的主适应框架,使细粒度控制的目光和头部姿态方向,同时保留外观相关的因素的人。我们的框架同时学习适应新的领域和disentangle视觉属性,如外观,视线方向,头部方向,利用标签丰富的源域和未标记的目标域。在基准数据集上的大量实验表明,该方法在定量和定性评估方面都优于最先进的技术。此外,我们还证明了在目标域中生成的图像标签对对用于凝视和头部姿势估计的下游任务的预训练网络的有效性源代码和预训练模型可在https://github.com/jswati31/cuda-ghr上获得。1. 介绍凝视行为在非语言线索的分析中起着关键作用,并且可以为各种应用提供支持,例如虚拟现实[35,36],人机交互[29,18],认知[1,38]和社会科学[16,32]。最近的注视估计模型依赖于学习鲁棒表示,这需要收集大量训练数据的耗时且昂贵的步骤,尤其是当标签是连续的时。尽管已经提出了各种方法[49,47,39]来规避数据需求,但仍然存在对野外真实世界场景的概括监督(a) 先前的方法(FAZE [33]; ST-ED [58])无监督副本监督(b) 该方法图1:现有方法和拟议方法。在图(a)中,先前的方法[33,58]假设条件图像到图像平移(X1→X2),使用来自单个域S的一对标记样本,并使用在潜空间中的转换函数F,以确保解纠缠。这里,S和T表示源域和目标域。在图(b)中,我们的方法仅使用来自源的标签将来自两个域的图像XS,XT自动编码到公共的解缠空间中,并传输通过一个简单的复制操作的潜在因素。这是一个挑战,也是一个开放的研究问题。已经探索了不同的凝视重定向方法[58,51,20]作为使用基于生成对抗网络(GAN)[9这些生成方法需要一对跨越源域和目标域的标记图像来学习图像到图像的翻译;因此这些方法不能忠实地推广到新的领域。此外,各种视觉属性在生成过程中相互纠缠,无法独立操作以提供细粒度控制。因此,这些468D方法的适用性有限,因为为了使生成的数据对下游任务有用,这些可视属性在生成的数据上的可变性在它们的成功中起着关键作用。很少有关于神经图像生成的作品[45,23]试图在野外真实世界场景中操纵个体视觉属性;然而,它们受到具有预定义标记属性的模拟数据的可用性的限制。最近的工作[46]提出了对比回归损失,并利用无监督域自适应来提高凝视估计性能。在本文中,我们提出了一种新的域自适应框架的任务,可控生成的眼睛注视和头部姿态方向的目标域,而不需要任何标签信息的目标域。我们的方法通过分离明确的因素(例如,注视和头部方向)与各种内隐因素(例如,外观、照明、阴影等)使用标记丰富的源域和未标记的目标域。解纠缠和域自适应都是联合执行的,因此能够将学到的知识从源域转移到目标域。由于我们只使用未标记的目标域数据来训练我们的框架,因此我们将其称为无监督域自适应[59,42]。图1说明了拟议的方法和以前的方法[33,58]。以前的方法使用一对标记的样本(X1,X2),帐篷空间,仅使用源域中的标签。2. 我们的方法利用自动编码行为来维护隐式因素,并实现对注视和头部姿势方向的细粒度控制,并且在各种评估指标上优于基线方法。3. 我们证明了生成的redirected图像在提高下游任务per-task上的凝视和头部姿势估计的有效性。2. 相关工作本节简要概述了学习解纠缠表征和凝视重定向方法的工作。2.1. 非纠缠表示学习非纠缠表示的目标是对数据生成过程中普遍存在的隐式和显式因素的可变性进行建模[30]。完全监督方法[37,53,6]利用从可用注释中获得的语义知识来学习这些分解的表示。另一方面,无监督方法[12,3]旨在学习相同的行为,而不依赖于任何标记信息。然而,这些方法提供有限的灵活性来选择特定的变异因子,并且主要集中在单个域代表上。源域DS S 表示学习问题[4]。S学习有条件的图像到图像的翻译,同时解开视觉属性我们-求一个变换函数F。特别地,Parket al.[33]仅提供了对显式因素的控制,而Zhenget al. [58]操纵外显和内隐的视觉属性。相比之下,我们的方法可以在没有任何输入输出配对样本和ap的情况下进行可控生成。将来自源DS和目标T域的图像XS和XT同时,我们调整潜在的代表性-从这两个领域的学习,从而允许从标记的源到未标记的目标领域的学习知识的转移与以前的方法不同,所提出的方法不受标签信息的约束,并且可以无缝地应用于更广泛的数据集/应用程序。我们在GazeCapture[ 24 ]数据集上训练我们的方法,并在两个目标域上证明了其有效性:MPI-IGaze [56]和Columbia [41],并获得优于最先进方法的定性和定量结果[33,58]。我们的实验结果表现出更高的质量,在保持照片的真实感的生成的图像,同时忠实地呈现所需的视线方向和头部姿势取向。 总的来说,我们的贡献可以总结如下:1. 我们提出了一个域自适应框架,用于在LA中联合学习解纠缠和域自适应无监督的跨域分解表示学习方法[27,14]利用域共享和域特定属性的优势例如,最近的一些作品[45,23]利用合成数据来控制各种视觉属性,同时依赖于与通过图形管道获得的渲染图像相关联的预定义标签信息。另一方面,Liuet al. [28]使用来自源域和目标域的图像提供对不同图像属性的控制,并且在半监督设置中训练。然而,他们的方法只考虑分类标签,因此具有有限的适用性。相比之下,我们的方法允许对连续值图像属性(即,凝视和头部姿势)。2.2. 凝视重定向方法已经开发了许多方法用于注视重定向以获得用于注视估计任务的大量标记合成数据。Kononenko等人[22]使用随机森林来预测注视校正的流场。最近,一些作品[8,2,52]采用深度神经网络来学习图像之间的翘曲流场以及校正项。然而,这些基于扭曲的方法不能很好地推广到大的凝视和大的视觉。469图像编码器/凝视编码器目标图像鉴别器图像编码器HoloGAN发电机凝视编码器源图像鉴别器→----我联系我们SS不不真假真假图2:CUDA-GHR概述。该框架由源域和目标域共享的两个编码器Ea和EgEa将目标域图像XT编码为za,并且将源域图像XS编码为za,而Eg将目标域图像X T编码为z a。伪Gaze标记GT SG到zg和zgT和地面实况源注视标记STS。总体图像表示为形式为ZS=zazg和ZT=zazg(其中,是级联运算)。这些特定于域的编码嵌入Z T和Z S与对应的头部姿势(用于目标域的伪头部姿势标签hT和用于源域的地面真实头部姿势标签hS)一起通过共享生成器网络G。se嵌入也通过一个特征域EIDF。 DT和DS表示两个特定领域的图像鉴别器。 整个框架以端到端的方式学习红色的标签是地面实况标签,而绿色的标签是生成的伪标签。头部姿势方向。He等人[11]提出了一种基于GAN的框架,该框架利用周期一致性损失来学习凝视重定向并生成具有高分辨率的图像此外,Woodet al. [48]使用图形管道通过拟合变形模型来重定向眼睛图像然而,这些基于建模的方法做出的假设在实践中并不成立。基于掩模的生成器网络[34]也已经被探索用于凝视重定向的任务,尽管它们的性能高度依赖于分割模块的准确性[20]。Park等人[33] UTI-A变换基于编码器-解码器的网络[13,50],以学习潜在空间中的解纠缠。最近,Xiaet al. [51] Zhenget al. [58]提出了使用条件图像到图像转换的可控注视重定向方法然而,这些方法在训练期间使用一对标记的样本。如前所述,我们的方法不需要任何成对的输入输出样本,在没有任何标签数据的情况下适应于目标域。3. 该方法我们的目标是学习控制器网络C,使得给定输入图像XT和显式因子的子集ei(例如,注视和头部姿势方向),它生成满足由下式描述的属性的图像X0 ei,即,C: (X T,e i)X O.为了实现这一点,我们设计了一个框架,学习解开潜在的空间,独立地操纵每个外显因素。我们首先假设有三个变异因素:1)外观相关,包括照明、阴影、个人特定等,其可以或可以不被解释性地标记有数据集,2)眼睛注视方向和3)头部姿势取向。我们通过利用完全标记的源域和未标记的目标域,考虑到数据集之间的分布变化,在无监督的域自适应设置中训练我们的网络。回想一下,我们只有源域的凝视和头部姿势标签。因此,我们的目标是在潜在空间中解开和控制我们将我们的框架命名为CUDA-GHR。3.1. 模型CUDA-GHR的整体架构如图2所示。我们将S表示为源域,T表示为目标域。此外,根据[33]中使用的符号,我们将外观相关的潜在因子表示为za,将注视潜在因子表示为zg。我们的网络的初始阶段由两个编码器组成(a) 图像编码器Ea编码图像Xi的隐式(外观相关)因子并输出za,使得i S,T,以及(b)单独的基于MLP的注视编码器Eg编码对应于图像Xi的输入注视gi,以470我不不Σ不Σ不不不不不不不T T TTLTT˛¸P我 我|l(Xi)|L我L我 2不一G不不一我我⊕⊕4不潜在因素zg。对于源域,我们使用地面实况凝视标签gS作为Eg的输入,而对于未标记的因此,总重建损失被定义为为了得到域,我们输入从预测图像的注视和头部姿势的预训练任务网络获得的伪注视标签g_T。请注意,仅在源域数据上训练因此,整体嵌入Zi与一个L重建=i∈{S,T}LR(Xi,Xi)(5)图像Xi可以通过连接这两个潜在因素来形成,即,Zi=z a z g(此处表示级联)。此外,Z i和头部姿势标签h i被给出作为基于在HoloGAN [31]中使用的生成器的解码器G的输入,因为它允许头部姿势被单独地控制,任何编码器。 这个生成器G解码潜在的Zi感知损失。为了确保我们生成的图像在感知上与输入图像相匹配,我们应用了视觉损失[19],其定义为均方损失,- 在所生成的图像Xi和输入图像Xi之间应用的预先训练的神经网络的激活之间。和头部姿势hi到输出图像g i ven的映射,并且以对抗的方式利用训练网络Di来训练。再次注意,对于标记的源图像,我们使用地面实况头部姿势标记hS,而我们采用伪头部姿势由任务网络产生的未标记的姿势标记h目标域输入。 此外,我们使用一个特征域为此,我们使用在Ima-geNet [26]上训练的VGG-16 [40L(X,X)=1||(X||(六)l=1以确保潜在分布ZS和ZT是相似的。在推理时,通过将来自目标do的图像传递到目标do来控制其中,VGG-16网络。因此,我们的整体感知损失变得通过编码器Ea的主XT和通过Eg的期望注视方向g,分别给出Ea(XT)和Eg(g)。这两个潜在因素被连接起来,并与期望的头部姿势一起通过生成器GLperc=i∈{S,T}LP(Xi,Xi)(7)h,以生成具有凝视g和头部姿态h的输出图像X_ g,h,即,Xg,h=G(Ea(XT)<$Eg(g),h)(1)同样地,我们还可以通过提供从T获得的期望注视(或头部姿势)方向和伪头部姿势(或注视)标签来控制注视(或头部姿势)的个体因素,以生成如下给出的注视重定向图像:Xg=G ( Ea ( XT ) Eg ( g ) , hT )(2),头部重定向图像给出为一致性损失。为了确保隐式和显式因子之间的行为不纠缠,我们应用了一致性生成图像Xi和输入图像Xi之间的损失。为此,我们使用了一个预先训练的任务网络,它可以预测图像的伪标签(凝视和头部姿势)。一致性损失由两个项组成:(a)标签一致性损失被应用在用于输入的伪标签和所生成的图像之间以保留注视和头部姿势信息,以及(b)重定向一致性损失保证以保留重定向图像的伪标签。对于(b),我们使用Equa生成凝视和头部重定向图像X=G(E(X(g)(h)(3)分别通过应用凝视和头部姿势,标签来源域。我们实施凝视预测3.2. 学习目标X_(?) g和X_(?)S之间的一致性,以及头部姿态预测在Xg和XT之间一致,即,Tg(Xg)=Tg(XS)我们的方法的总体目标是为源域和目标域学习一个公共的因子分解潜在空间和T TTh(Xg)=Th(XT)。类似的规则适用于使得可以容易地控制各个潜在因素以操纵目标图像。为了确保这一点,我们使用多个目标函数来训练我们的框架,下面将详细解释每个目标函数。重建损失。我们用像素级的L1重建头部重定向图像X_ H,即, Tg(Xh)=Tg(XT),h(Xh)= h(X S). 这里,g和h表示的gaze和头部姿态预测层。整体的凝视控制-损失将成为Lgc=La(Tg(X<$S),Tg(XS))+La(Tg不不不471一不R我 我|Xi|我(X<$T),Tg(XT))生成的图像Xi和输入之间的结构损失图像Xi以确保自动编码行为。+(`g(X)g),g(X标签一致性损失))+L(Tg(Xh),Tg(X))(8x)L(X,X)=1||X- -X||(四)联系我们重定向一致性损失S不我1472`˛¸不不ΣL−哥伦比亚号[41]包含5880张高分辨率图像,甘D我 我 我我 我我X我L.Σ一ΣS类似地,我们可以计算头部姿势一致性损失Lhc如下:Lhc=La(Th(X<$S),Th(XS))+La(Th(X<$T),Th(XT))MPIIGaze[56]是用于野外凝视估计的最具挑战性的数据集,并且包括外观的较高受试者内变化,例如照明、化妆和面部毛发。我们使用标准的图像标签成本和成本损失一不不一不由MPI提供的x 评估子集MPIIFaceGaze [57]+L(Th(Xg),Th(X))+L(Th(Xh),Th(X))(九)IGaze包含从15个主题捕获的37667张图像。这里,La重定向一致性损失定义为:56名受试者,并在参与者中显示出更大的多样性这些图像是在受约束的实验室环境中收集的,头部姿势和注视方向的变化有限。(u,u)=arccosu·u(10)||u||·||u||因此,总一致性损失变为L稠度=Lgc+Lhc(11)GAN损失。为了从生成器G强制照片般真实的输出,我们将标准GAN损失[9]应用于图像GANDi。L(D,X ,X)=logD(X)+log(1−D(X))4.2.实现细节编 码 器 Ea的 架 构 是 如Park 等 人 中 所 使 用 的 基 于DenseNet的块。[33]并且解码器网络G是基于HoloGAN的生成器[31]。注视编码器Eg由四个MLP层组成,其中隐藏维度等于输入维度,并且输出维度被设置为8。任 务 网 络 是 一 个 基 于 ResNet-50 [10] 的 模 型 , 在GazeCapture [24]训练子集上训练,并提供4-D输出,每个凝视和头部方向有两个角度。两个图像鉴别器DS和DT共享类似的PatchGAN [17]基于架构。 域F由以下组成:LGANG(Di,Xi)=logDi(Xi)最终GAN损失定义为(十二)四层MLP。请注意,在我们整个管道的训练过程更多的实施细节可以在补充材料中找到。L盘=Li∈{S,T}甘D(Di,Xi,Xi)(十三)所有数据集都通过Zhang等人所述的数据归一化算法进行预处理。[55]。我们的输入是一个包含两只眼睛的单个图像,大小为256×Lgen=i∈{S,T}LGANG(Di,Xi)64. 我们使用了一个数据处理管道,等人[33]以提取眼睛图像条带。输入凝视着g和头部姿态h是2-D俯仰角和偏航角。 我们训练特征域对抗性损失。我们采用了一个潜在的域竞争网络DF,并使用以下域对抗损失[43]来训练它,以使ZT的分布更接近ZS。feat(DF,ZT,ZS)=logDF(ZS)+ log(1DF(ZT))(十四)整体损失。总 而言之,我们训练编码器和生成器网络的最终损失函数是总体L=λRLrecon+λP Lperc+λC L一致性+λGLgen+λFLfeat(15)4. 实验4.1. 数据集GazeCapture[24]是最大的公开可用的凝视数据集,由来自1474个受试者的约200万帧组成。按照[24]中定义的划分,我们使用来自1274个受试者的数据进行训练,50个用于验证,150个用于测试。473→→→→→我们的框架在两个设置:GazeCapture MPIIGaze,使用GazeCapture作为源域和MPIIGaze作为目标域进行训练,GazeCapture Columbia使用Columbia作为目标域进行训练。对于GazeCapture,我们使用来自数据分割的训练子集作为标记的源域数据。从MPIIGaze和Columbia中分别选取前11个和前50个主题作为未标记的目标域数据进行训练。我们称他们为我们在三个测试子集上评估我们的方法:“看不见”、“看不见”和“一切 ” 。 ‘All’ in- cludes both ‘Seen’ and ‘Unseen’participants超参数。我们对GazeCapture MPIIGaze和GazeCaptureColumbia都使用10的批量大小,并分别针对200K和81K迭代进行训练。所有网络模块都通过Adam进行优化[21]优化器,权重衰减系数为10−4。初始学习率设置为0。0005,其衰减因子为0。8经过大约34K次迭代。 对于GazeCaptureMPIIGaze我们重新启动学习率调度器在大约160K次迭代后,474→→不→→不→→→→--表1:定量评价。CUDA-GHR与最先进方法的比较[33,58]。 GazeCapture MPIIGaze在MPIIGaze子集上进行评估,GazeCapture Columbia在Columbia子集上进行评估。除LPIPS外,所有误差均以度(°)为单位,越低越好。凝视捕捉MPIIGaze凝视捕捉哥伦比亚gence. 目标函数的权重设为λR= 200,λP= 10,λC= 10,λG= 5和λF= 5。4.3. 评估指标我们使用[58]以前采用的三种评估方法来评估我们的框架:感知相似性,重定向错误和解纠缠错误。习得知觉意象贴片相似性(LPIPS)[54]用于通过计算AlexNet [ 25 ]特征空间中的距离来测量成对图像的相似性。重定向误差被计算为从我们的任务网络获得的估计方向和期望方向之间的角度误差。它衡量的是明确因素的实现,即,注视和头部方向。解纠缠误差测量了凝视和头部姿势等外显因素的解纠缠。我们计算gh,注视方向的变化对头部姿势的影响,反之亦然(hg)。 为了计算g h,我们首先计算来自源域和样本随机注视标签的注视方向值的联合概率分布函数。我们将该注视方向应用于输入图像,同时保持头部姿势不变,并测量来自重定向图像的任务网络的头部姿势预测与原始重建图像之间的角度误差。类似地,我们通过从源标记数据中随机采样头部姿势方向来计算h g4.4. 与最新技术水平的我们采用FAZE [33]和ST-ED [58]作为基线方法。FAZE和ST-ED都基于变换编码器-解码器架构[13,50],并将凝视和头部旋转中的已知差异应用于嵌入空间用于将输入图像转换为重定向的输出图像。FAZE输入包含双眼的图像,这与我们的方法相同,因此需要进行比较。我们使用原始实现1和FAZE作者提供的训练模型进行比较。此外,我们在包含双眼的图像上重新训练ST-ED网络,以进行公平的比较。FAZE学习仅控制外显因素(凝视和头部姿势方向),而ST-ED也控制内隐因素。请注意,对于ST-ED基线,我们仅通过改变显式因子进行比较。此外,我们还将CUDA-GHR与基线ST-ED+PS进行了比较,该基线ST-ED+PS是用源数据GazeCapture并使用目标数据集(MPIIGaze或Columbia)的伪标签进行训练的。伪标记以与CUDA-GHR相同的方式获得。详情请参阅补充资料。定量评价表1总结了我们的实验GazeCaptureMPIIGaze和GazeCapture Columbia的定量评估。表1的左半部分示出了对MPIIGaze测试子集我们得到较低的LPIPS(即使在“看不见”的用户),表明生成更好质量的图像,同时实现所需的凝视和头部方向,通过较低的凝视和头部重定向错误证明。我们还获得了更好的解纠缠误差展示我们的方法成功地控制每个显式因素单独。对“看不见的”用户的改进性能我们还注意到ST-ED+PS基线的改进,表明域适应对于实现更好的性能至关重要。1https://github.com/NVlabs/few_shot_gaze测试集方法LPIPS ↓目光Redir。↓他a→dRedir。↓G →h ↓h→g ↓LPIPS ↓目光Redir。↓他a→dRedir。↓G →h ↓h→g↓FAZE0.3116.1316.4086.9254.9090.4359.0086.9966.4544.295看不见ST-ED0.2742.3551.6051.3492.4550.2652.2831.6511.3642.190ST-ED +PS0.2662.8641.5761.4722.3460.2662.1171.4371.1242.356CUDA-GHR0.2612.0231.1541.1611.8290.2551.4490.8731.2091.514FAZE0.3825.7786.8995.3115.1720.48610.3687.2317.3024.788看到ST-ED0.3152.4051.6691.2092.3410.3192.4841.6161.3432.456ST-ED +PS0.2882.2691.8881.1792.2290.2992.0711.5361.0882.330CUDA-GHR0.2781.9050.9790.7611.2360.2821.3280.8310.6460.996FAZE0.3705.8406.8285.6135.1230.48110.2147.2267.2144.737所有ST-EDCUDA-GHR0.3070.2752.3921.9221.6601.0121.2320.8442.3591.3410.3140.2792.4731.3371.6180.8321.3500.7072.4351.045475→→→−→−我 们 在 表 1 的 右 半 部 分 显 示 了 对 GazeCaptureColumbiaexper的评估。 请注意,由于Columbia数据集的大小很小,我们使用GazeCapture MPIIGaze上先前训练的权重初始化该实验的模型,以获得更好的收敛性。回想一下,我们在任何实验中都没有使用目标域数据集的任何标签如表1所示,我们的方法在所有评估指标上明显优于其他基线,表明我们的框架在不同领域的通用性,因此可以适应新的数据集,而无需任何标签。定性评价。我们还报告了使用GazeCapture MPIIGaze训练的模型对图3中生成的图像进行的定性比较。结果显示在MPIIGaze数据集图像上,该数据集图像是该设置中的目标主数据集。可以看出,我们的方法产生了更好质量的图像,同时保留了外观信息(例如,皮肤颜色、眼睛形状),并在与FAZE [33]和ST-ED [58]配合时忠实地操纵注视和头部姿势方向。同样值得注意的是,我们的方法为戴眼镜的人生成了更高质量的图像,图3a中的第3行和图3b中的第6行。这些结果与我们在定量评估中的发现一致,从而表明我们的方法在再现所需的注视和头部姿势方向方面更忠实其他结果在柔软的材料中提供。4.5. 消融研究为了了解目标函数的各个组成部分的作用,我们提供了以下消融研究。在表2中,我们比较了各个损失项的消融感知损失的消融显示在第一行(λP=0)。第二行(λC=0)表示一致性损失设置为零时的结果,而第三行(λF=0)显示在训练期间未强制执行特征域对抗性损失时的结果。第四行和第五行分别显示了重建(λR=0)和GAN(λG=0)损失时的消融。可以看出,所有这些损失条款对性能的改善至关重要曼斯。我们看到,随着L一致性的增加,有了实质性的改善。消融研究是针对凝视捕获→MPIIGaze在MPIIGaze的“看见”子集上4.6. 可控性图4示出了我们的方法在控制注视和头部姿势方向方面的有效性。我们改变俯仰和偏航角度从30度到+30度的凝视和头部redirections。我们可以看到,我们的方法忠实地呈现了所需的注视方向(或头部姿势方向),同时重新因此,保持头部姿势(或注视方向),表现出解缠的功效。此外,请注意[33]第三十三章:你是谁?(a) 凝视重定向图像头源输入图像模糊[33] ST-ED [58] CUDA-GHR(b) 头部重定向图像图第三章:定性评价:CUDA-GHR(GazeCapture MPIIGaze)生 成的 图像 与基 线方法FAZE [33]和ST-ED [58]的比较。注视重定向图像的质量在3a中描绘,而头部重定向图像在3b中示出。第一列表示注视/头部姿势源图像,从该注视/头部姿势源图像使用注视/头部姿势信息来重定向。第二列显示了来自目标域的输入图像。我们的方法(第5列)产生了更好的图像质量,并保留了比基线方法(第3列和第4列)的隐式因子。最好用彩色观看。偏 航 角 和 俯 仰 角 的 范 围 [30° , 30°] 是 源 数 据 集(GazeCapture)的标签外分布,显示了CUDA-GHR在一般情况下的外推能力。过程。4.7. 下游任务评估我们还展示了从我们的框架中生成的图像在提高下游凝视和头部姿态估计任务的性能方面的实用性为此,我们进行了跨学科估计的实验,476→→±→∼(a)使用(pitch,yaw)∈[−30<$,30<$]重定向凝视图像表2:消融研究:针对GazeCapture MPIIGaze“Seen”子集的不同损失项的消融研究。除LPIPS外,所有误差均以度(°)为单位,越低越好。消融期LPIPS ↓目光Redir。↓头Redir。↓G →h ↓h→g ↓λP= 00.3076.4500.9220.6551.334λC= 00.32615.1833.4120.10611.616λF= 00.2814.7910.7870.6360.826λR= 00.3044.9580.9110.4630.876λG= 00.30911.1300.9420.3550.868我们0.2781.9050.9790.7611.236(b) 头部重定向图像(俯仰,偏航)∈[−30<$,30<$]图4:可控生成:可控凝视和头部重定向的图示,显示了各种外显因素之间的解纠缠的有效性MPIIGaze和Columbia数据集。这个实验的主要目标是证明从我们的框架中生成的我们将其与三种初始化进行比较:随机,Ima-geNet [7]和使用ST-ED [58]生成的图像获得的预训练模型。我们使用GazeCapture MPIIGaze训练的生成器从MPI-IGaze数据集为每个用户生成大约10 K个样本,并训练ResNet-50 [10]网络(使用ImageNet预训练的权重初始化),其中批量归一化[15]被实例归一化[44]层取代。之后,我们在MPIIGaze数据集上使用leave-one-subject-out交叉验证对凝视和头部姿势估计进行微调,并报告平均角度误差。对于ST-ED生成的图像,遵循类似的方法。我们比较了从四种初始化方法获得的误差:random、ImageNet、ST-ED和CUDA-GHR。表3:下游任务评估:凝视和头部姿势估计任务中各种初始化方法的平均角度误差(平均标准度)比较。越低越好。初始化方法头部姿势估计误差↓目光估计误差↓哥伦比亚MPIIGaze哥伦比亚MPIIGaze随机ImageNetST-EDCUDA-GHR6.8±1.2 6.7 ± 0.75.9±1.3 5.7 ± 2.85.7±1.1 5.1 ± 2.45.3± 1.1 4.9± 2.56.7±0.7 6.7 ± 1.35.5±0.1 5.7 ± 1.45.4± 0.45.5±1.35.1± 0.4 5.5± 1.4类 似 地 , 我 们 使 用 GazeCapture Columbia 模 型 在 为Columbia数据主题生成的图像上训练注视和头部姿势估计模型(每个1.6K样本),并使用4重交叉验证在Columbia数据集两个数据集上不同初始化方法的比较如表3所示。可以看出,对于头部姿态估计任务,使用CUDA-GHR训练的模型分别比Columbia和MPIIGaze上的ST-ED初始化提供了约7%和4%的相对改进我们还在表3中示出了注视估计任务的结果,给出了约5的相对改善。哥伦比亚数据集上的5%,而MPIIGaze上的ST-ED基线表现相似。我们假设这是因为GazeCapture的注视和头部姿势标签分布比Columbia更接近MPIIGaze分布[5],因此,对于ST-ED和CUDA-GHR两者都表现得很接近。这表明域自适应对于Columbia数据集更有利。因此,它显示了我们的方法在基线上的有效性,当在具有显著分布偏移的数据集上执行域自适应时。5. 结论我们提出了一个无监督的域自适应框架-使用跨域数据集进行凝视和头部重定向任务训练该方法利用有监督的源域和无监督的目标域来学习变化的分解因子实验结果表明,我们的模型在多个域中生成照片般逼真的图像,同时真正适应所需的注视方向和头部姿势取向的有效性由于消除了对目标域中的注释的要求,我们的工作的适用性增加了新的数据集,手动注释是很难收集。我们的框架是相关的各种应用程序,如视频会议,照片校正,和电影编辑重定向凝视,建立与观众的目光接触它也可以扩展到提高性能的下游任务的凝视和头部姿态估计。477引用[1] 盖伊·托马斯·巴斯威尔。人们如何看待图片:研究艺术中的心理学和知觉的学科。1935. 1[2] Jingjing Chen , Jichao Zhang , Enver Sangineto , TaoChen,Jiayuan Fan,and Nicu Sebe.通过数字和图像引导实现从粗到精的凝视在IEEE/CVF计算机视觉应用冬季会议论文集,第3665-3674页2[3] 李雪晨,陈天勤,罗杰·格罗斯,大卫·杜维诺.变分自动编 码 器 中 解 纠 缠 的 分 离 源 。 arXiv 预 印 本 arXiv :1802.04942,2018。2[4] Xi Chen,Yan Duan,Rein Houthooft,John Schulman,Ilya Sutskever,and Pieter Abbeel. Infogan:通过信息最大化生成对抗网络进行可解释的表示学习。arXiv预印本arXiv:1606.03657,2016。2[5] Yihua Cheng,Haofei Wang,Yiwei Bao,and Feng Lu.使用深度学习进行基于外观的凝视估计:审查和基准。arXiv预印本arXiv:2104.12668,2021。8[6] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第8789-8797页,2018年。2[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。8[8] 雅罗斯拉夫·甘宁,丹尼尔·科诺年科,戴安娜·桑加图利娜,维克多·伦皮茨基。Deepwarp:用于凝视操作的真实感图像欧洲计算机视觉会议,第311-326页。施普林格,2016年。2[9] Ian J Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu , David Warde-Farley , Sherjil Ozair , AaronCourville,and Yoshua Bengio.生成对抗网络。arXiv预印本arXiv:1406.2661,2014。一、五[10] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。五、八[11] Zhe He , Adrian Spurr , Xucong Zhang , and OtmarHilliges.使用生成对抗网络的照片般逼真的单眼注视重定向。在IEEE/CVF国际计算机视觉会议论文集,第69323[12] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae:使用受约束的变分框架学习基本视觉概念。2016. 2[13] Geoffrey E Hinton,Alex Krizhevsky,and Sida D Wang.转换自动编码器。国际人工神经网络,第44Springer,2011.三、六[14] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第172-189页,2018年。2[15] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上,第448-456页。PMLR,2015. 8[16] 石井亮,大冢和弘,熊野四郎,阴人顺二.预测谁将是下一个发言者,以及何时在多方会议中使用凝视行为。ACM Trans- actions on Interactive Intelligent Systems(TIIS),6(1):1-31,2016. 1[17] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集,第1125-1134页,2017年。5[18] 罗伯特·J·K·雅各布和基思·S·卡恩。人机交互和可用性研究中的眼动跟踪:准备兑现承诺.《心灵Elsevier,2003年。1[19] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694施普林格,2016年。4[20] Harsimran Kaur和Roberto Manduchi。应用于凝视重定向的受试者引导的眼睛图像合成在IEEE/CVF计算机视觉应用冬季会议上,第11-20页,2021年第1、3条[21] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[22] 丹尼尔·科诺年科和维克多·伦皮茨基。学习仰望:使用机器学习的实时单眼凝视校正。在IEEE计算机视觉和模式识别会议论文集,第4667-4675页,2015年。2[23] 放大图片作者:Marek Kowalski,Stephan J. Garbin,VirginiaEstellers , TadasBaltrusˇaitis ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功