基于对比回归的视线估计领域自适应算法

86 浏览量更新于2023-10-25 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

19376D→ D基于对比回归的视线估计领域自适应算法Yaoming Wang1，2<$，Yangzhou Jiang1，2<$，Jin Li1，Bingbing Ni1，Wenrui Dai1，Chenglin Li1，Hongkai Xiong1，and Teng Li2，3*1上海交通大学2华为公司3安徽大学{王耀明，江洋洲，值得lj，倪冰冰，戴文瑞，lcl 1985，熊洪凯}@sjtu.edu.cn;tenglwy@gmail.com摘要基于外观的注视估计利用深度神经网络从单目图像回归注视方向，并实现令人印象深刻的性能。然而，它的成功依赖于昂贵而繁琐的注释捕获。当缺乏精确的注释时，大的域间隙阻碍了训练模型在新域上的性能。在本文中，我们提出了一种新的视线自适应方法，即对比回归视线自适应（CRGA），在目标域上的视线估计推广在一个无监督的方式。CRGA利用对比域泛化（CDG）模块从源域学习稳定表示，并利用对比自训练自适应（CSA）模块从目标域上的伪标签学习。CDG和CSA的核心是对比回归（CR）损失，这是一种新颖的回归对比损失，通过将具有较近注视方向的特征拉得更近，同时将具有较远注视方向的特征推得更远。实验上，我们选择ETH-XGAZE和Gaze-360作为源域，分别在 MPIIGAZE 、 RT-GENE 、 Gaze-Capture、EyeDiap上测试了域泛化和自适应性能。实验结果表明，与基线模型相比，CRGA算法的性能有了显著的提高，并且在注视适应任务上的表现也优于最先进的领域适应方法1. 介绍随着深度学习的发展，凝视估计技术已经广泛应用于人机交互系统中，例如智能公鸡坑[11]，VR/AR游戏[2，21，38]，医学分析[4]等。最近，基于外观的方法[23，37]吸引了越来越多的注意力，因为它们回归了凝视差异。* 通讯作者：藤厉。†：同等贡献。图1.从主适应任务G D（具有近注视方向共享相似颜色）学习的特征分布的图示表明，原始对比分类损失函数对回归问题没有表现出任何影响，而我们导出的对比回归损失将具有近注视标签的特征拉在一起，并将具有远注视标签的特征推开。仅从单眼图像进行重建，并且摆脱了昂贵且有限的眼睛模型设备。尽管基于外观的注视估计已经取得了一定的成功，但昂贵且繁琐的注释捕获限制了其在日常生活中的应用。已经提出了大规模凝视数据集[9，10，19，23，35，39这些方法在数据集内测试（训练和测试数据来自同一数据集）中产生有希望的性能，但在跨数据集测试（训练和测试数据来自不同数据集）中由于不同域之间的差距（诸如主体、背景环境和光照的差异）而急剧下降最近，协作模型集成[25]和附加注释[22]被用来缩小跨数据集的差距。它们需要额外的模型或注释来进行域适配，并导致19377学习管道对于同一数据集，人与人之间的差距（即，个人校准）可以通过使用对抗训练[28，33]和少量拍摄学习[27，34]来学习视轴和光轴之间的个人误差来减轻。然而，仍然缺乏一种自我监督的方法来解决跨数据集的差距，而不引入额外的标签或模型。对比学习是自我监督学习的最新进展[24]，并已转移到各种下游任务，包括分类，分割和检测[16]。然而，在ImageNet和CIFAR等数据集上进行分类任务的现有方法[3，13，16]不能直接扩展到回归任务。图图1示出了用于分类任务的标准对比学习未能学习用于注视回归任务的有用表示的示例事实上，现有的无监督和有监督的分类学习不能适应凝视回归任务。• 无监督对比学习将图像的不同视图视为积极的，而将其他图像的视图视为消极的。它倾向于提取有利于分类任务的全局语义信息，例如，用于人脸识别的信息然而，全局语义信息可能会误导回归任务，特别是基于外观的视线方向回归，并损害视线估计的准确性。• 监督对比学习[20]将具有相同标签的图像视为阳性，并在给定连续凝视注释的情况下退化为无监督对比学习（标签在一批中彼此不同）。此外，在分类任务中，不同的标签表示不同的类别，并没有揭示有意义的信息。相反，标签之间的关系揭示了回归任务中特征之间的关系在本文中，我们提出了一种新的视线自适应方法，即对比回归视线自适应，用于以无监督的方式在目标域上推广视线估计。我们首先推导出一个新的对比回归损失的回归任务，假设标签之间的相似性是成比例的比例的相关功能。随后，我们开发了两个模块，即，对比领域泛化（CDG）和对比自我训练适应（CSA），基于对比回归凝视适应的对比回归损失。CDG在域泛化任务中引入对比回归损失以从源域学习稳定表示，而CSA结合从源域模型生成的伪标签和CDG损失以进一步提高目标域的自适应性能。本文的贡献归纳如下。• 我们开发了一种新的凝视自适应方法，即对比回归凝视自适应（CRGA），用于自监督跨域凝视估计，而无需引入额外的模型或标签。• 我们提出了一种新的对比回归框架的基础上派生的对比回归（CR）损失学习鲁棒域不变表示回归任务。据我们所知，我们是第一个将对比学习引入回归任务的人，以显着提高领域泛化和自适应性能。实验结果表明，CRGA实现了显着的性能改善与基线模型相比，并优于最先进的领域自适应方法的凝视适应任务。具体来说，CRGA实现了超过40的基线性能改进。 4% ， 34. 7% ， 55. 8% ， 34. 3% ，从源域 ETH-XGAZE 到 MPIIGaze 、 RT-GENE 、 GazeCapture 和EyeDiap。此外，CRGA在基线31的基础上实现了改进。百分之七，三十。5%，32. 9%，23。8%从源域Gaze 360 到 MPII ， RT-GENE ， GazeCapture 和EyeDiap。2. 相关作品2.1. 域自适应注视估计虽然深度神经网络可以有效地学习图像到凝视的映射，但在新领域的性能会严重下降许多努力致力于缓解这一问题。从数据的角度来看，收集大规模和多样化的凝视数据集以满足真实世界的设置，例如GazeCapture [23] ， ETH-XGaze [35] 和 Gaze 360 [19]等。为了对齐跨域的输入数据分布，提出了标准数据预处理方法以将输入数据映射到归一化空间[30，36]。特别地，工作[36]使用虚拟相机根据3D头部姿势来扭曲面部此外，利用多种GAN方法来对齐不同域之间的输入数据分布[28，32]。从学习的角度来看，一些方法试图学习更一般的凝视表示或对齐两个域之间的特征分布Work [27]通过Meta学习学习凝视的旋转感知潜在表示。对抗训练通常用于对齐特征分布[19，33]和纯化凝视特征[7]。例如，Kellnhofer等人。 [19]微调标记的Gaze360图像和未标记图像的混合物，以及识别域的方法。此外，Liuet al. . [25]建议使用一个网络集合，在离群值的指导下进行协作学习。19378Σjjj·i，kkKK·L≥ −LJ J J大于近似值jfj(yj,x), negative values mayJ|Si，j|·fj（yj，x）哪里SS 表示所述nn伊克·kkn=12.2. 对比学习最近，对比学习显示出优越的性能，1.提案我们推导出回归任务的新的对比损失函数为在自监督和半监督学习中，甚至在迁移时超过监督方法跨域和下游任务表示-日志S[p（g）;p（g）]f（y，x）f（y，x）（二）[3、16、18]。对比学习的思想是通过将样本的多个视图作为阳性对与其他阴性样本进行对比来学习表示[5，15]。它也可以被解释为最大化潜在表示[1，17，26]之间的互信息，并且可以利用噪声对比估计[14He等人 [16]将小批量的负样本扩展到大动量更新样本库。 Chen等人 [5，6]然后找一个非线性投影头的事项，大批量也有帮助。[29]建议使用对比损失，以捕获关于其中fi（yi，x）是密度比。证据请参阅补充材料。为了简单起见，本文将相似函数S[p （ gi ） ;p（gk）]表示为Si，k。这一损失在实践中还存在一些问题具体地说，尽管损失函数e nkSi，k·fk（yk，x）得到涉及3D头部姿态估计中的几何变换。Grill等人 [12]甚至设法去除阴性样本没错对比学习也可以扩展到一开始就出现了，结果是NAN在亏损中，截肢然后，我们引入Eq的变体。2为：监督场景Khosla等人。 [20]建议使用数据增强和注释标签构建阳性对。注意，上述方法被设计为σ（S）f（y，x）-logf（y，x）（三）对于一般的分类数据集，这很难适用于凝视回归场景。3. 方法其中，σ（）是relu函数，用于将负值归价值观此外，这个损失函数将不会有界，如果Si，k趋于无穷大。因此，我们进一步介绍了正规化和重写方程。3为：3.1. 初步：域适应给定源域数据为DS、={（xS，gS）}Ns-logkσ（Si，k）·fk（yk，x）（四）（xn，gn）第n对观测值，哪里|Si，j|是我们相似性S的绝对值。NS是对应注视方向类似地，目标域数据被表示为DT=由于fj（yj，x）总是服从指数分布且大于零，因此损失函数的下限为：{（xTn，gnT）}NT，其中（xTn，gnT）表示第n对和n=1NT是对数。对于域适应，我们的log1 = 0。我们将损失函数命名为Eq。4作为对比回归（CR）损失。目标是学习源域S上的预测函数f：x→g，以实现目标域T上的最小误差，如下：第二个提案。两种形式的损失函数方程。2和Eq。4具有相同的效果，即，他们把特征拉近minE（xT，yT）[（f（xTF3.2. 对比回归），gT）]（1）注视方向更靠近在一起，同时将具有更远注视方向的特征推得更远。证据请参阅补充材料。近年来，对比学习在学习领域适应的稳定表示方面表现出强大的能力。然而，没有精心设计的对比方法，提出了领域适应回归任务。因此，我们提出了一种新的对比回归框架来学习鲁棒和不变的表示，相似度函数考虑到注视方向主要集中在人脸前方，余弦相似度的零附近梯度太小，我们推导出一个-log KL函数作为相似度：回归任务。对于回归模型，不同S=−log|gi−gj|=log0。07（五）从分类任务中，标签之间的关系揭示了特征之间的关系然后我们可以i、j0的情况。0719379|||gi−gj|假设预测分布p（ylx）和p（ykx）之间的比率与标签分布p（gi）和p（gj）之间的相似性成比例。推导该相似函数的具体过程以及相似函数的性质可在柔性材料中参考。19380ΣΣ−̸·n=1分段算子是从同一增广族A中采样的，如AA，AA。数据的细节··1 j =i|Si，j|·eτ（zi，zj）2N我·一·D{}图2.我们提出的CRGA的总体框架（最好用彩色显示（a）对比域泛化（CDG）模块：输入图像首先被增强到两个不同的视图中，然后被馈送到用于凝视和CR特征的网络中，其可以用于计算LCDG。（b）对比自训练适应（CSA）模块：为目标域中的未标记图像生成伪标记，并类似地用于计算LCSA。LCSA和LCDG作为调节量构成最终损失LCRGA。(c) Visualization of theCRnormalizedfeaturespace. 带有蓝色箭头的功能将被拉到一起，而带有橙色箭头的功能将被推开。3.3. 对比回归凝视适应在本节中，我们将详细介绍所提出的对比回归凝视适应（CRGA）。图2显示了CRGA的总体框架，包括两个sim（zk，zj）= 1。为了进一步鼓励简化和快速收敛，我们遵循[5]并引入指示函数1j =i以省略ith样本。最后，CR损失定义在方程。4可以转换为：模块。第一个模块是对比域一般化（CDG），它利用CDG损失从源域学习稳定的表示。随后logk1k =iσ（Si，k）·exp（sim（zi，zk）/τ）j1j=i|Si，j|·exp（si m（zi，zj）/τ）（六）对比自训练自适应（CSA）模块利用伪标记的对比自训练来提高目标域上的自适应性能。3.3.1对比域泛化给定源域数据，我们遵循对比学习中的惯例，利用两个单独的数据扩充算子A，A*来获得输入图像的两个视图，其中，指示器函数1j=i，如果j = i则评估为1，而当j = i时评估为0。用非参数预测头部替换参数预测头部将丢失来自注视标签的监督信息。因此，我们将额外的100%损失用于我们的CR损失。为了清楚起见，我们将exp（sim（zi，zk）/τ）简化为eτ（zi，zk）。然后，我们将最终损失函数L_CDG推导为：I=A（输入），I=A（输入）。这两个单独的数据8月--logk1k=iσ（Si，k）·eτ（zi，zk）+γΣ|y我-g|（七）增强家族可以在第二节中提及四点二。然后，I和I被馈送到模型f（）以得到特征V =f（I ）和V=f（I）。对于y，采用参数注视预测头h（）来预测注视分布为y = h（v）。考虑一小批N个例子我们得到了一对来自minibatch，得到2N个数据点。在[5]之后，使用投影头r（），通常是多层感知器（mlp），将特征映射到应用对比度损失的空间，并得到z =r（v）。我们遵循[5]，并进一步引入了具有温度参数τ的归一化z的余弦相似性。因此，我们可以将fk（uk，x）转化为exp（sim（zi，zk）/τ）。当k=j时，我们有其中gi是凝视标签，γ是超参数，相关消融研究可参见Sec.四点五分。3.3.2对比自我训练适应在本节中，我们详细介绍了对比自我训练适应（CSA）。首先，我们考虑无源自适应（SFDA），其中源数据不可用，只能访问预训练的源模型获取域数据T=（xTn，gnT）NT、目标模型f T（）和目标注视预测头部rT（）（由预训练的源模型和头部初始化）。然后所述目标模型生成所述伪注视方向，gT=rT（fT（xT））. 我们将伪视线方向gθTJ我19381DD{} DTD dd..D dd算法1域自适应（CRGA）输入：源数据DS={（xSn，gnS）}1：NS，目标数据DT=xTn1：N，以及预训练的网络M其中M包含特征提取器f、注视预测头部h和CR投影头R。输出：自适应网络M。第1部分：M列车CDG缺失7例。（CDG）2：不收敛时3：来自D S的样品批次数据（xS，gS）。4：随机扩增数据：IS=A（xS）和IS=A（xS）5：将xS1和xS2馈送到模型M，并获得gS=h（f（IS，NIS））和CR特征r（f（IS，NIS））。6：计算注视预测和CR特征的CDG损失根据等式7，并优化M（θ）。7：结束while8：第2部分：在公式中使用CRGA损失将M调整为T 9和伪标号gnT. （CSA）9：不收敛时，10：在每个时期的开始中：利用网络M为目标数据生成伪标签g_nT。11：来自DT的样品批次数据（xT，gT）12：随机扩增数据：IT=A（xT）和IT=A（xT）图13：将IT和IT_T馈送到模型M，并且通过在等式13中降低CRGA损失来更新M（θ）。9 .第九条。14：结束while作为目标数据的标签，并利用我们的CR损失与等式中提出的L1损失相结合。7来学习目标数据的稳定表示和更精确的预测图3.六个注视数据集的注视方向分布的图示（最佳彩色视图最上面的两行是图像相关损失函数LCSA 是：来自六个凝视数据集的样本下面两行是凝视方向分布统计k1kϵΣ（八）-logΣ. .+2N|yi−gi|在MPI上测试泛化和自适应性能j1j =iSi，j·eτ（zi，zj）i其中Si，k=S[p（gi）;p（gk）]，k是超参数（消融研究在中给出）。然后源数据可以在开始自我训练。在退火温度γ（从1逐渐降低到0）的情况下，我们将最终源数据可用域自适应损失推导为：LCRGA=LCSA+γ·LCDG（9）关于是否可以访问源数据的消融研究见第4.44. 实验4.1. 数据集我们采用六个凝视数据集作为六个不同的领域：ETH-XGaze（2019 - 03 - 2300：00：00（2016年10月24日，中国人民解放军（M），RT-GENE（R）、GazeCapture（C）和EyeDiap（D）。我们选择ETH-XGaze和Gaze 360作为源域，分别是IGaze、RT-GENE、GazeCapture和EyeDiap我们遵循[8，25]对凝视数据集进行预处理，并通过旋转虚拟相机和包裹图像来消除不同头部姿势的影响。六个数据集的详细信息见补充材料。不同数据集的可视化如图所示。3 .第三章。4.2. 实验细节请参阅补充材料。4.3. 领域泛化对于域泛化，目标图像在训练期间不可用。我们只使用源域数据训练基线模型和CDG模型结果见表1。1.一、当我们将ETH-XGAZE作为源域时，我们训练基线模型，[35]的管道，并达到4。47个样本的评价误差与4. [35]第五节。当我们用Gaze360作为源域，我们按照[ 19 ]的管道训练我们的基线模型，并达到10。9.评估错误19382DD→D×5.37 × 41。6% 14.06美元22. 9% 8.25美元38. 6%6.77美元21.5%CRGA-5.48± 40。4% 11.91美元34. 7% 5.94美元55美分。8%5.66美元34. 百分之三方法来源CDGCSAG→MDG→ DRDG→ DCDG→ DD基线.orig [35]十一点一- -10.3 26.6 12.9 11.3基线。我们的实施十点九分- -8.63 23.36 9.23 8.52CDG 11.0✓×18年7月3日百分之五20.79美元11美分。0%的百分比8.28分10秒百分之三七点二十七分十四秒。7% CSA-×✓七点半十五分。百分之四21点32分占6%7.99美元13美分百分之四七点七三分九秒。3% CRGA-5.89±31。7%16.23美元30美分。5%6.19美元32. 9%6.49美元23. 百分之八表1.域适应结果与基线比较。角凝视误差（〇）用作评估度量。与11一致。[19 ]第19话。我们利用CDG损失在源数据集中训练我们的CDG模块，我们的CDG模块实现了显着的性能提升-方法来源 → DM→ DR→ DC→ DD基准线CGE9.19 18.23 13.43 8.62[33] 2016年10月 15日与基准模型相比。具体而言，CDG实现了超过26的基线的性能改进。7%，9. 8%，31. 2%，7. 8%，从源域ETH-XGAZE到MPIIGaze，RT-GENE，GazeCapture和Eye-[7]第七届全国人大代表[25]第二十五话[25]第二十五话公司简介七点零八分--七点四十八分5.53--5.87六点--六点十七分5.48 11.91Diap分别。此外，CDG也在18的基线上取得了改善。5%，11. 百分之十百分之三，十四。从源域Gaze 360到MPII，RT-GENE，Gaze- Capture和EyeDiap的分别为7%4.4. 域适应正如我们在第二节中所阐述的那样，我们用两种场景进行了域适配的实验。3.3.2：无源域适配（SFDA）和普通域适配。在无源域自适应场景中，源域数据不可用，我们从预训练的注视估计模型开始，并使用对比自训练自适应（CSA ）将其适应到目标域。在vanilla do- main自适应场景中，源域数据是可用的，因此我们使用在源域上用CDG预训练的模型在目标域上执行CSA，并且我们将整个两阶段跨域自适应框架表示为对比回归凝视自适应（CRGA）。对于CRGA，我们首先使用具有退火的DE基线平均值G8.63 23.36 12.55 8.52[33]第33话：我的世界[19]DG9.9 21.9--[7]第一届中国国际航空航天博览会表2.跨数据集凝视估计性能与最新方法的比较。†表示该模型采用ResNet-18作为主干，而表示该模型采用ResNet-50作为主干。角凝视误差（Angular gaze error，θ）被用作评估度量。GENE、GazeCapture和EyeDiap。CRGA算法使误差进一步减小了40. 4%，34. 7%，55. 8%，34. 百分之三。当我们将Gaze360作为源域时，CSA在15的基线上提高了性能。4%，9. 百分之六，十三。4%，9。百分之三温度γCDG正如我们在第二节中所描述的那样3.3.2.分别和CRGA进一步提高性能，31岁百分之七，三十。5%，32. 9%，23。8%，与基线相比然后，我们用我们的自适应模型更新伪标签，并使用新的伪标签进行几次迭代的自训练，γ=0（每次迭代一个epoch），最终实现我们的域自适应结果。迭代次数的消融研究见第2节。四点五分。选项卡中的结果。1证明我们的CSA和CRGA的有效性。具体来说，与基线相比，CSA将注视估计误差减少了41。6%，22. 9%，38. 6%和21. 从ETH-GAZE转换为MPIIGaze时，5%，RT-为了证明我们的方法CRGA的优越性，我们还比较了其他国家的最先进的方法对非监督的凝视域估计，结果是在表中。二、我们的CRGA在七个域自适应任务上优于所有最先进的方法，除了GM ，与PnP-GA[ 25 ]相比略差，PnP-GA [25]采用集成网络，需要额外的计算资源和内存消耗。方法源CDGCSAE→MDE →DRDE → DCE→ DD基线.orig [35]4.50--7.531.210.511.0基线。我们的实施4.47--9.1918.2313.438.62[25]第二十五话G6.18--7.92[25]第二十五话G5.74--7.04公司简介G5.8916.236.196.4919383DDD→D4.5. 扩展实验我们进行了几个扩展实验，以进一步测试我们所提出的方法的有效性，包括超参数，骨干，不同的损失函数和迭代的自训练的消融研究。为了简单起见，并不是所有的实验都是在两个源域到四个目标域的八个任务上进行的，并且在每个扩展实验中分别示出了细节。4.5.1超参数的消融研究我们评估了CDG性能如何随超参数γ的变化而变化。γ控制CRvanilla损失作为目标函数，这实际上是我们的基线模型。然后，我们使用监督对比损失（SupCon）[20]，它用于分类对比学习任务，结合使用我们导出的最佳超参数γ=1的R1损失。最后，我们使用我们的CDG损失作为目标函数，该目标函数由CR损失和最优超参数γ=1组成。Tab中的结果。4证明了我们的CR损失适用于回归任务，并且优于分类任务中通常采用的顺便说一下，SupCon损失甚至在四个任务中的三个任务上比我们的基线模型表现得更差，因为对比损失从分类任务中分离出来，注意全局语义信息，这反而在凝视回归任务中混淆了模型。4.5.3自我训练迭代的消融研究表3.CDG和CRGA的不同超参数γ的消融研究角凝视误差（Angulargaze error，θ）被用作评估度量。在这里，较低的错误率代表较好的性能。在推导的CDG 损失中，为了提供简单直观的演示，我们选择M和G作为目标域[25]。我们测试了统计分析中常用的三个比率超参数，0.1，1和10。结果见表1-3行3，其中我们发现最好的系统性能发生在超参数γ = 1处。此外，我们保持最佳超参数γ = 1，并对不同的选择进行了检验。我们选择0。一，一，十结果见表4-6行。3 .第三章。我们发现最好的性能也出现在ε = 1时。我们在剩下的实验中设置γ= 1和λ = 1。4.5.2损失函数为了进一步证明我们提出的CR损失的有效性，我们对从源DG到目标DM，DR，DC，DD的领域泛化任务进行了实验。我们采用方法来源→ DM→ DR→ DG→ DDDG8.63 23.3 9.23 8.52捷克共和国+斯洛伐克共和国1DG7.03 20.798.28 7.27SupCon+G1 [20]DG7.37 23.71 9.94 8.65表4.不同损失函数的烧蚀研究如前所述，CR+0.01角凝视误差（Angular gaze error，θ）被用作评估度量。三种不同的损失函数进行比较。首先，我们使用图4. DG→ DM使用ResNet50正如我们在第4.4节中所阐述的那样，我们执行了几次单时期自我训练的迭代，并在每次迭代后不断更新伪标签为了找到单时期自训练迭代的最佳数量（即，I），我们评估了CRGA在不同自训练迭代次数下的性能。我们使用ResNet-50作为主干对域适应任务GM进行实验。此外，还添加了对照试验来证明没有CRGA损失的自我训练是否可以带来至关重要的性能改善。详细地说，我们进行3个管道进行比较，其中一个是我们为不同的迭代I执行CRGA，另一个是我们为不同的迭代I执行CSA，第三个是我们在基线模型上使用不同的迭代I执行自训练，而结果如图所示。4、CSA和CRGA都是随着自我训练次数的增加而逐渐提高的。当与没有CSA损失的基线模型相比时，其在原始性能上振荡，我们的CSA损失被证明是有效的。4.5.4对100个样品进行扩展实验。在PnP-GA之后，我们进一步在4个主要自适应任务上执行100个图像实验，如表1所示。五、实验设置与全源图像上的实验相同具体而言，除了基线模型之外，CDG仅使用100个源图像，CSA仅使用100个目标图像，CRGA使用100个源图像+100个目标图像。CDGDE→ DMDE→ DDDG→ DMDG→ DDγ = 0。17.727.867.467.50γ=16.737.957.037.27γ=107.927.507.378.07CRGADE→ DMDE→ DDDG→ DMDG→ DD= 0。15.846.166.487.0015.485.665.896.49=106.156.006.316.7219384D → DD →DDDD → D方法DE→ DMDE→ DDDG→ DMDG→ DDPnP-GA6.006.175.747.04CDG7.057.887.627.47CSA5.875.956.126.81CRGA5.685.726.096.68表5.使用ResNet50对100张图像进行实验。像PnP-GA这样的目标图像。我们所有的方法都只使用了一个ResNet 50模型，而PnP-GA使用了10多个模型的集合。此外，我们的CSA优于那些视线方向遥远的人正在被推开。4.5.6头部姿态估计的扩展实验。为了证明我们的CR损失在其他回归任务中效果良好，我们选择头部姿势回归域自适应，ER作为广泛的实验。图为Tab。6，在第一行中，我们使用100个像Tab这样的样本进行实验。五、最后一行说明了我们在原始论文中使用所有图像进行的实验。PnP-GA在3个任务中没有源图像。方法基线ST段抬高CDG CSA CRGA4.5.5特征可视化图5.特征分布的图示，不同的颜色表示不同的真实注视方向。(best以颜色观看）。为了以直观的方式揭示学习良好表示的有效性，我们使用t-SNE [31]可视化了域适应任务GD上的特征V的分布从四个不同的模型生成的功能，在图。5，其中具有近注视方向的特征点共享相似的颜色。对于基线模型，特征与注视方向没有明显的关系而对于CDG，模型是在G上进行预训练的，然后它可以将具有相同注视方向的特征以一定的强度拉在一起。CSA直接学习D上的特征，而不受源域的约束。尽管与CDG相比表现更好，但在图的左下角的蓝色和紫色区域中突然出现了绿色区域与其他三种模型相比，CRGA表现出最好的性能，即，从左到右，显示出从紫色到绿色的渐变色这意味着具有近距离注视方向的特征被拉在一起，DE→ DR21.3426.1518.43十七点二七十六点五方法CDG-Sup† CDG CSA-Sup< $CSA CRGADE→ DR25.7619.5424.4517.4116.12表6.头部姿态域自适应在ER. PRARST表示没有对比损失的自我训练。†-Sup表示使用监督对比分类损失。在不同的骨干上进行了更多的实验，比较了头部姿态估计的对比回归损失和对比分类损失，对Eq.5和其他广泛的实验中阐述的补充材料，以进一步证明我们提出的方法的有效性。5. 结论在本文中，我们提出了一种新的视线自适应方法，即CRGA，用于在目标域上以无监督的方式推广视线估计。CRGA利用CDG模块从源域学习稳定表示，并利用CSA模块从目标域上的伪标签学习。CDG和CSA的核心是CR损失，这是一种新的回归对比损失，通过将具有较近注视方向的特征拉得更近，同时将具有较远注视方向的特征推得更远。我们的方法在基线上证明了八个凝视域适应任务的显着性能改善，并且在凝视适应任务上也优于最先进的域适应方法确认这项工作得到了国家自然科学基金 61932022 、61720106001 、 61971285 、 61831018 、 61831019 、618311019、6183101111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111上海市科技创新工程项目资助号20511100100。19385引用[1] Philip Bachman ， R Devon Hjelm ， and WilliamBuchwalter.通过最大化跨视图的互信息来学习表示神经信息处理系统进展，32：15535[2] AlisaBurov a ， JohnMa¨k ela¨ ， Jaakk oHakulinen ，TuuliKeski-nen，Hanna Heinonen，Sanni Siltanen，andMarkku Turunen.利用虚拟现实和视线追踪技术为工业维护开发增强现实解决方案。在2020年CHI计算机系统人为因素会议的会议记录中，第1- 13页，2020年。1[3] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.通过对比聚类分配的视觉特征的无监督学习。在第三十四届神经信息处理系统会议（NeurIPS），第33卷，第9912-9924页，2020年。二、三[4] Nora Castner、Thomas C Kuebler、Katharina Scheiter、Ju-lianeRichter 、 The´re´ seEder 、 FabianHu¨ttig 、 ConstanzeKeu-tel和Enkelejda Kasneci。在opt观看期间用于专业分类的深度语义凝视嵌入和扫描路径比较。在ACM眼动跟踪研究和应用上，第1-10页，2020年。1[5] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。PMLR，2020年。三、四[6] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey Hinton.大的自监督模型是强半监督学习器。 arXiv 预印本 arXiv ：2006.10029，2020。3[7] 程毅华，鲍义伟，卢峰。Puregaze：用于可推广的凝视估计的纯化凝视特征。 arXiv 预印本 arXiv ：2103.13173，2021。二、六[8] Yihua Cheng，Haofei Wang，Yiwei Bao，and Feng Lu.使用深度学习进行基于外观的凝视估计：审查和基准。arXiv预印本arXiv：2104.12668，2021。5[9] Tobias Fischer，Hyung Jin Chang，and Yiannis Demiris.Rt-gene：在自然环境中的实时眼睛注视估计在欧洲计算机视觉会议（ECCV）的会议记录中，第334-352页1[10] 肯尼思·阿尔贝托·富内斯·莫拉，弗洛朗·莫奈，让-马克·奥多贝兹. Eyediap：一个用于开发和评估rgb和rgb-d相机凝视估计算法的在眼动追踪研究和应用研讨会论文集，第255-258页，2014年。1[11] 迈克尔·A·格伯、罗纳德·施罗特、李小萌和莫·哈默德·埃尔赫纳维。自动驾驶车辆中非驾驶相关任务的自我中断：移动与平视显示器。在2020年CHI计算机系统人为因素会议论文集，第1-9页，2020年。1[12] Jean-BastienGrill ， FlorianStrub ， FlorentAltche' ，CorentinTallec，PierreHRichemond，ElenaBuchatskaya ， Carl Do- ersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo，Moham- mad Gheshlaghi Azar，etal. Bootstrap your own latent：一自我监督学习的新方法。 arXiv 预印本 arXiv ：2006.07733，2020。3[13] Jean-BastienGrill ， FlorianStrub ， FlorentAltche' ，CorentinTallec，PierreH.Richemond，ElenaBuchatskaya ， Carl Doersch ， Bernardo Avila Pires ，Zhaohan Daniel Guo ， Moham-madGheshlaghiAzar ，BilalPiot，KorayKavukcuoglu，Re'miMunos，and MichalValko.Bootstrap Your Own Latent：A New Approach toSelf-Supervised Learning（引导你自己的潜意识：一种神经信息处理系统进展，第33卷，第21271- 21284页，2020年。2[14] 我的迈克尔 · 古特曼和阿波 · 海弗亚里宁。 Noise-Contrastiveestimation ： A new estimation principle forunnormalized statistical models. 第十三届国际人工智能与统计会议论文集，第297-304页。JMLR研讨会和会议记录，2010年。3[15] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习不变映射进行降维在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2006年。3[16] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比2020年IEEE/CVF计算机视觉和模式识别会议（CVPR），第9729- 9738页，2020年。二、三[17] R Devon Hjelm 、 Alex Fedorov 、 Samuel Lavoie-Marchildon 、 Karan Grewal 、 Phil Bachman 、 AdamTrischler和Yoshua Bengio。通过互信息估计和最大化学习深度表示。在2018年国际学习表征会议上。3[18] Ashish Jaiswal、Ashwin Ramesh Babu、Mohammad ZakiZadeh、Debapriya Banerjee和Fillia Makedon。对比自监督学习研究综述技术，9（1）：2，2021.3[19] Petr Kellnhofer 、 Adria Recasens 、 Simon Stent 、Wojciech Matusik和Antonio Torralba。在野外进行身体非约束的凝视估计。在IEEE/CVF计算机视觉国际会议论文集，第6912-6921页，2019年。一、二、五、六[20] Prannay Khosla ， Piotr Teterwak ， Chen Wang ， AaronSarna ， YonglongTian ， PhillipIso

下载后可阅读完整内容，剩余1页未读，立即下载