没有合适的资源?快使用搜索试试~ 我知道了~
4207具有旋转一致性的广义视线估计Yiwei Bao1 Yunfei Liu1 Haofei Wang2 Feng Lu1,2*1北京航空航天大学计算机工程学院虚拟现实技术与系统国家重点实验室2鹏程实验室,深圳,中国@ buaa.edu.cnwanghf@pcl.ac.cn摘要基于深度学习的方法的最新进展已经在基于外观的注视估计方面取得了显著的性能。然而,由于目标域数据的缺乏和目标标签的缺失,将视线估计算法推广到不可见环境仍然具有挑战性。在本文中,我们发现的旋转一致性性质的视线估计,并介绍了“子标签”的无监督域自适应。因此,我们提出了旋转增强的无监督域自适应(RUDA)的视线估计。首先,我们将原始图像旋转不同的角度进行训练。然后在旋转一致性约束下进行域自适应。目标域图像被分配有从相对旋转角度而不是不可触摸的真实标签导出的子标签有了这样的子标签,我们提出了一种新的分布损失,促进域适应。我们评估了四个跨域的凝视估计任务的RUDA框架。实验结果表明,它提高了性能的基线与增益范围从12。2%到30。百分之五我们的框架有可能被用于其他计算机视觉任务的物理限制。1. 介绍凝视是人类预测意图的重要线索之一它已被用于各种应用,如虚拟/增强现实[21,30],人机交互[18,35,37]和医学分析[3,20]。为了获得准确的注视估计,已经开发了各种系统。基于外观的视线估计是最有前途的方法之一,因为它具有最低的硬件要求。随着深度学习技术的进步,卷积神经网络(CNN)在许多计算机视觉领域取得了显著的性能提升*通讯作者。本工作得到国家自然科学基金项目61972012的资助图1.提出的旋转增强的无监督域自适应(RUDA)框架的整体结构的凝视估计。RUDA使预训练模型适应目标域,而不需要目标域中的任何注视标签。任务注视估计任务也不例外,在过去几十年中已经提出了各种基于CNN的注视估计方法[8]。这些系统通常具有不同的输入:眼睛图像[9,24,29,39,42],面部图像[19,22,43]或面部/眼睛图像[1,7,23]。然而,现有方法在适应新的域时遭受严重的性能下降,这主要是由域之间的差异引起的,例如,对象外观、图像质量、拍摄角度和照明。凝视域自适应的主要挑战之一是我们通常无法访问现实世界场景中的目标域标签为了解决这个问题,非监督域自适应方法旨在找到一个凝视相关的约束,将模型推广到没有标签的目标域。凯尔恩霍夫等建议通过对抗学习来监督具有域的凝视估计模型[19]。类似地,Wanget al.使用一个应用程序和一个头部姿势分类器进行调整[39]。最近,Liuet al.建议用离群值指导模型[25]。虽然已经提出了一些用于视线估计的无监督自适应方法,但它仍然是一个具有挑战性的任务。输出图像旋转一致性注视方向标签用户源域RUDA框架(拟议)预训练模型UDA之前UDA之后子标签适应视线偏差4208为了建立一个凝视相关的约束来监督模型,而不需要地面真值标签,我们深入研究凝视的物理本质。我们发现,人类的目光,作为一个3D方向矢量,是旋转一致的。旋转人脸图像导致注视方向的相同旋转角度,我们称之为旋转一致性属性。我们将相对旋转角度定义为子标签,这意味着它不是绝对角度,而是旋转前后的相对差角。该旋转约束可以用作期望的注视相关约束,而无需地面实况。虽然在源域中使用旋转图像进行训练不会提高注视估计准确度,因为用户面部已经通过归一化对齐[42],但我们认为旋转一致性属性为适应提供了注视相关的优化目标。鉴于此,我们提出了旋转增强的非监督域自适应(RUDA)框架的凝视估计。我们的方法在原始图像和随机旋转图像之间创建子标签。该估计器通过估计结果的旋转一致性推广到目标域,不需要目标域标号,计算代价低。本工作的贡献如下:• 我 们 提 出 了 旋 转 增 强 的 无 监 督 Do- main 适 应(RUDA)框架的凝视估计。RUDA首先在源域中训练旋转增强模型,然后使用具有物理约束的注视方向的合成图像将模型适应目标• 我们发现了旋转一致性属性,该属性可用于为无监督注视自适应任务生成子标签为了便于适应,我们设计了一种新的分布损失,监督模型的旋转一致性和子标签。• 实验结果表明,RUDA框架在四个跨域凝视估计任务上取得了一致的改进,范围从12。2%到30。百分之五它取得了令人惊讶的好结果,甚至优于一些在具有标签的目标域上训练的最先进的方法。2. 相关工作凝视估计。早期的研究通过重建3D眼球模型并从解剖学眼睛结构计算凝视来估计凝视。这些方法通常提供准确的凝视估计,同时它们需要个人校准和专用设备,例如深度相机[34,38,40],红外相机[28]和红外光[15]。在过去的几十年里,基于单摄像头的免校准外观凝视估计受到研究人员的青睐。2015年,Zhanget al.首先提出使用CNN从眼睛图像估计凝视[42]。在此之后工作,已经发布了许多凝视估计数据集[10,19,23,31,33,41,43]。基于它们,已经提出了使用不同输入的各种基于深度学习的方法:使用眼睛图像[9,24,29,39,42],使用面部图像[19,22,43]或使用两者[1,7,23]。近年来,跨域注视估计任务越来越受到人们的关注.Park等人提出通过元学习来学习具有少量样本的个人特定凝视估计网络[29]。Guo等通过确保预测一致性消除了人际差异[16]。Cheng等人提出通过消除凝视无关特征来提高没有目标域数据的交叉数据集准确性[6]。Liu等[25]提出了一种具有离群值指导的即插即用跨域凝视估计框架虽然它的性能明显优于现有的方法,但他们的方法需要多达20个模型来进行协作学习。Zheng等[45]提出通过嵌入包括旋转的变换以自我监督的方式重定向头部和凝视,这有助于像凝视估计这样的下游任务。在其他任务中,如3D手部姿势估计,旋转也被用作自监督学习的约束[32]。无监督域自适应。无监督域自适应(UDA)是计算机视觉领域的一个常见问题,长期以来一直受到广泛的研究。早期的UDA方法使用测地线距离作为子空间距离来学习域不变表示[12,14]。受此启发,一些研究人员提出通过匹配源域和目标域的统计量来减少域差距[2,26]。Chen等人提出了一个表示子空间距离(RSD),专门用于回归任务[4]。受生成对抗网络[13]的启发,对抗学习已被用于UDA任务。例如,建立特征提取器和域识别器之间的最小-最大博弈以缩小域差距[27,36,44]。虽然上述方法取得了相当大的改进,但它们中的大多数都是为分类任务而设计的,而不是回归任务。Chen等提出的RSD。[4]是专门为回归任务设计的,然而,我们发现他们的方法在凝视估计任务上表现不佳。因此,用于注视估计的UDA仍有待探索。3. 视线估计在无监督注视自适应任务中存在两个主要挑战:1)用于自适应的目标域样本的短缺,以及2)目标域中缺乏地面真实标签。已经提出了各种数据增强方法来在源域中生成训练数据,例如,颜色抖动、引入噪声、抖动、平移和旋转。然而,现有的数据增强4209∈ΣΣ−我DDD我 我i=1我i=1D{}2原始图像归一化图像旋转的图像yz123旋转一致性子标签R1R2R3z用户面旋转面图2.凝视估计中的旋转一致性属性的图示。当我们以角度θ旋转人脸图像时,注视方向相应地以Rθ旋转,其中Rθ是具有角度θ的3D旋转矩阵。如果在无监督的注视适应任务中直接采用这些方法,则仅带来有限的性能改进为了解决UDA任务中缺乏地面真实标签的问题,我们定义了一个子标签,它是一个相对角度,可以用作凝视适应任务中的约束。 由于注视估计任务的性质,在这里我们旋转具有不同角度的原始图像以合成更多的图像。由于地面实况标签通常是不存在的,我们旋转图像不同的角度,并根据旋转一致性属性为每个图像分配子标签。注意,子标签不是绝对角度,而是原始图像和旋转图像之间的相对角度。例如,注视方向是图中的g原始图像,我们以θ1,θ2的角度旋转图像,通过旋转和缩放虚拟相机,用户因此,旋转操作有助于相机以统一的方式查看不同的面孔(图左上角)。2)。另一方面,我们提出的基于一致性的轮换策略扮演着不同的角色。该算法旨在解决跨域凝视估计中目标域数据不足和目标标签缺失的问题,并在一定程度上提高了算法的性能。图2说明了旋转一致性的概念。它桥接图像和3D凝视之间的相对旋转角度。以这种方式,对于非监督域自适应,尽管真实注视方向是未知的,但相对旋转角度可以用作子标签来训练网络。此外,如果我们以不同的角度旋转图像,我们可以生成我们想要的具有不同子标签的尽可能多的目标图像图像和注视旋转角度之间的转换。给定一个归一化的图像I,我们使用图像的中心作为旋转中心O,并以θ(顺时针)旋转图像,旋转矩阵R可以定义如下:R= cos θsin θ(二)sinθcosθ对于每个像素位置I i,I,旋转后的像素位置是RIT。凝视是在相机坐标系中定义的3D方向向量g。因此,针对注视方向的对应旋转矩阵为ΣR0Σ01Rθ3。旋转一致性的核心思想可以在Eq. (一):(Rg)−1<$(F(RI))=F(I),(1)其中I是输入面部图像,F是注视映射函数。其中,R是从图像到注视方向的旋转矩阵,R是输入图像的旋转矩阵,并且Rg是注视方向的旋转矩阵。R1表示旋转的图像,并且F(RI)指示旋转图像的估计注视方向。在实际应用中,不能直接用旋转矩阵对图像像素进行旋转.为了简单起见,我们用这种方式来表达它们。旋转一致性公式表明,理想地,图像的旋转角度等于估计的注视的旋转角度。为什么要保持旋转一致性?旋转是计算机视觉中常用的数据增强方法。然而,在凝视估计任务中,使用旋转图像进行训练在数据集内和跨数据集任务中几乎没有带来性能增益。事实上,它更常用于数据规范化:因此,旋转的注视方向是RggT。在实际训练中,注视方向被表示为2D欧拉角g=[y,p],其中y是偏航角并且p是俯仰角。因此,2D欧拉角和3D方向之间的转换在旋转之前和之后需要矢量4. 方法4.1. 任务定义对于UDA任务,我们给出了一个完全标记的源域和少量来自目标域的未标记样本设Ds={Is,gs}Ns表示源域中具有注视标签gs的Ns幅图像,t=ItNt表示目标域中没有注视标签的Nt幅图像。我们的目标是推广一个具有参数θ的注视估计网络Fθ,该网络在t中表现良好。只有一小部分未标记的目标域样本t′用于自适应。在此之前,Fθ是在s上预训练的。在下面,我们将介绍我们提出的方法的细节Rg=.(三)和θ3,旋转图像的子标签是Rθ1,Rθ和4210LSsθ--L LL我我我我我用反向传播无反向传播*实现旋转一致性SRM子标签引导回转模块图3.所提出的RUDA框架的概述,其包括两个阶段:1)旋转增强训练(RAT)阶段和2)一致性引导的域自适应(CGDA)阶段。我们首先训练一个旋转增强模型来预测旋转图像上的注视。然后,基于旋转一致性,由图像旋转产生的子标签被用来指导SRM模块和计算建议的分布损失的无监督域自适应。4.2. 旋转增强的无监督域自适应注视估计图图3示出了所提出的RUDA框架的概述,其由两个步骤组成:1)旋转增强训练(RAT)阶段,以及2)一致性引导的域自适应(CGDA)阶段。为了估计来自旋转图像的凝视,我们在RAT阶段的源域中使用旋转图像训练模型Fθ在CGDA阶段,通过子标记(由旋转产生)和伪标记(由时间平均模型产生)的指导,使Fθ适应于我们进一步提出了一个离散损失(D)来监督模型的平均值(凝视标签或伪标签)和标准差(旋转一致性和子标签)在RAT和CGDA阶段。4.2.1旋转强化训练为了使模型适应旋转一致性指导的目标域,模型应该能够估计旋转图像上的注视因此,在RAT中,我们在源域中训练视线估计器通常使用标记源进行具有L1损失函数的域数据{Is,gs}K次以获得新的集合Is:I={RI|k= 1,2,…K}。(五)这里,我们将旋转矩阵R记录为旋转图像集s的子标签。旋转图像s的一组估计结果表示为gθs=Fθ(s)。在不同的旋转中保持稳定的估计角度,我们用我们提出的分布损失函数D和1损失来训练模型。在D中,估计结果的平均值由注视标签g监督,并且g的STD由子标签监督。我们将详细解释D在SEC。4.2.3.简而言之,RAT阶段可以形式化为:argmin(L1(gs,gs) +LD({R},{gs},gs)).(六)4.2.2一致性引导的域自适应在RAT阶段,基于旋转一致性的性质,在子标签的指导下,将旋转增广模型Fθ推广到目标域我们还引入了时间平均模型F¯,它产生伪标签以防止估计崩溃。首先,我们通过随机旋转我我未标记样本It∈ Dt乘以K:argminL1(gs,gs),(4)t tθi i I={RI|k= 1,2,…K}。(七)其中gθs=Fθ(Is)是估计结果。 为了从旋转图像中预测凝视,我们还使用旋转增强的源域样本来训练模型F θ。对于源域训练集中的每一幅图像,我们随机旋转{R}{g^i}图像Is旋转增强凝视估计器凝视估计注视方向gs预培训标签适应RAT阶段(第4.2.1)子标签{g^i}{R}时间平均图像It{RY}SRM*的凝视回转投资者关系假凝视CGDA阶段(第 4.2.2)子标签子标签配电损失配电损失子标签{RSRM*{g^i}*我是说…GL D = L平均值+ L标准公式配电损失(第二节)4.2.3)目标域源域LSTDLθ4211我它理想地,t的估计与原始图像的估计It之间的旋转角应等于标签{R}根据方程。 (一). F θ由子标号{R}而不是真标号的旋转一致性监督。4212DD DθθθL ←L← {}{}θ1θLLLL{ } LL← {} {}LLL LLΣK122θg−1<$t2{}←我←{}我←我我{}{ }←如果旋转一致性是应用于Fθ的唯一约束,则估计结果折叠到相机坐标系的z轴,因为其是旋转轴。启发在[11]中,我们引入了一个时间平均模型F′,θ算法1用于凝视估计的旋转增强无监督域自适应算法。输入:s、 t′t和Fθ输出:F引入稳定的伪标签以避免崩溃。θ在CGD A阶段开始时,将F′初始化为a一曰: #旋转强化训练2:对于i←1到Ns,Fθ的副本。在T次迭代训练之后,时间平均模型θ<$的参数通过Exponen从θ更新3:通过用等式3的增广获得Is,{R}。(五)4:{gs} ←F(Is)移动平均(EMA)算法:sθsθ<$T=αθ<$T−1+ ( 1−α )θT ,(8)其中α是动量系数。首先,F′rst估计来自一组旋转图像的注视。然后,我们设计了一个子标签引导的旋转返回模块(SRM)来恢复与原始图像相对应的估计根据旋转一致性的性质,利用子标号的逆矩阵对旋转图像的估计结果进行伪标签g'被定义为恢复的注视估计的平均方向:g′t=Mean({(Rg)−1}F(It))。(九)从F′′的估计,即, 伪标签在适应过程中比Fθ稳定得多[11],同时仍然可以进行精细调整。如果由于崩溃而使估计偏离伪标号很远,则惩罚Fθ在CGDA阶段,模型也由D监督,而凝视标签由伪标签代替调整过程总结如下:argmin(LD({R},{gt},g′t),5:1g/kg,g6:DR,gs,gs,等式(十一)7:用方程组训练F θ。 (六)第八章: 端9:#旋转一致域自适应10:F<$Fθ11:对于i 1到Nt′do第12章:得到t,t由R1,R2与等式 (七)13:gtFθ(t)14:g′tMean((R) F<$()),等式(九)15:DR1,gt,g′t,等式(十一)图16:通过D训练F θ,(十)17:用等式更新θ<$ (八)18:结束表示g′的平均方向。D将一组恢复的注视估计视为分布。平均值通过要求分布的每个样本等于期望的平均值g来监督模型。std要求分布的标准差为0,这是公式中提出的旋转一致性 (一). 整个亲-θθ<$T= αθ<$T−1+(1−α)θ。4.2.3分布损失函数(十)算法1中总结了RUDA框架的计算。4.3. 实现细节我们的方法使用PyTorch框架实现。为了监督具有旋转一致性和子标签的模型,我们提出了分布损失D,它由两项mean和std组成。 在RAT阶段,均值stdcon-通过子标签R使估计值彼此一致。LD的定义如下:LD({R},{g},g)=Lmean+Lstd,KResNet18用作骨干网。K在RAT阶段被设置为5,并且在CGDA阶段被设置为20。EMA算法中的动量系数α设置为0。九十九。批量大小设置为80和10在源域训练和域adapta-灰阶段分别。我们从目标域随机选择100幅未标记的图像进行自适应。该模型在源域中训练10个时期,并用于适应。我们使用Adam优化器,学习率为10−4,β=(0. 5,0。(第95段)。5. 实验我是说({R},{g},g)=1L1(g′,g),k=1(十一)5.1. 数据准备. ΣK (g′−{g′})2为了验证RUDA框架的有效性,我们Lstd({R},{g})=k=1,K对四种常用的凝视估计进行了实验,信息数据集: ETH-XGaze(DE)[41],Gaze360(DG){g′}={(Rg)−1}{g},[19],MPIIFaceGaze(DM)[43]和EyeDiap(D DD)[10]。其中{g′}表示SRM模块基于旋转一致性的一组恢复估计结果,{g′}• ETH-XGaze:ETH-XGaze数据集在实验室环境下使用高分辨率相机收集我们4213DLD → DD → DD → D D → D D → D表1.无监督域适应的结果,我们提出的RUDA框架与不同的骨干模型。结果是以度为单位的角度误差。方法DE→ DMDE→ DDDG→ DMDG→ DD北京赛车pk10开奖结果ResNet18+RAT7.927.447.607.10ResNet18+RUDA5.706.296.205.86ResNet507.156.438.357.86ResNet50+RAT7.406.917.697.08ResNet50+RUDA5.785.106.886.73按照原论文的方法,从80个参与者中选取750,000个面部作物作为训练集。• Gaze360:Gaze360数据集由360°摄像机在任意环境中收集。它在凝视的水平轴上具有广泛的分布。我们只使用了84900张正面的照片。• MPIIFaceGaze:MPIIFaceGaze是在笔记本电脑的日常使用过程中收集的我们选择了3000图像分别为15名受试者作为标准协议建议。• EyeDiap:EyeDiap数据集是在实验室环境下收集的,具有屏幕和移动目标。请注意,由于时间轴未对齐,某些标签不可靠。我们选择了6400张由原作者手动检查的样本图像我们对除G之外的所有数据集执行[ 42 ]提出的凝视归一化,因为它不提供头部姿势标签。在注视归一化之后执行旋转面部图像被裁剪并调整为224x224。我们进一步将图像像素归一化为[0,1]作为最终输入。更多的细节可以在[8]中找到。5.2. RUDA框架的性能为了测试RUDA框架的性能,我们基于两个最先进的骨干网络实现了它:ResNet18和ResNet50 [17]。我们在源域上以1个损失作为基线来训练骨干网络。如Tab.所示 1、RUDA框架大幅度提高了两个骨干网的性能。对于ResNet18,RUDA框架将性能提高了30。5%,12. 2%,19. 9%,23。四个跨领域任务的3%,重新分配。 对于ResNet50,RUDA框架带来了19.2%,20。百分之七,十七。6%和14。4%的性能提升。由于RUDA框架的合理设计和ETH-XGaze数据集的广泛数据分布,ResNet 50 +RUDA模型在ED任务上的性能甚至超过了数据集注视估计方法中的最先进水平,例如, [5、7]。结果表明,RAT策略本身并不能像预期的那样提高跨域性能从旋转图像估计注视的能力不会提高具有直立取向的归一化面部图像上的估计精度。旋转后一致性指导表2.与最先进的无监督域自适应方法的比较。结果是以度为单位的角度误差。方法DE→ DME→ DDG→MDG→ DD北京赛车pk10开奖结果微调5.12 5.50 5.36ADDA [36]8.5510.638.5916.68达根[16]7.538.469.3112.05[39]第三十九话8.487.709.1511.15[19]第十九话7.156.877.459.73RSD [4]8.747.469.1710.61RUDA(我们的)5.706.296.205.86表3.对源域训练中不同损失函数、域适应阶段不同预训练模型和域适应阶段不同损失函数进行结果是角度误差度。方法DE→ DME→ DDG→MDG→ DD1 ResNet18 8.20 7.16 7.74 7.642 ResNet18+RL17.46 7.17 9.11 7.603 ResNet18+RL28.10 8.09 7.69 7.084 ResNet18+RLD7.92 7.44 7.60 7.105 ResNet18+DALD5.73 6.58 7.55 7.276 ResNet18+RL1 +DALD6.016.038.67 5.937 ResNet18+RL2+DALD6.89 7.10 6.58 6.038 ResNet18+RLD +DAL16.96 6.686.066.339 ResNet18+RLD+DAL26.38 6.74 6.20 6.4810ResNet18+RLD+DALD5.706.29 6.205.86适应性强,性能显著提高。这证明了我们在SEC的观点。3,旋转一致性包含更重要的关系,与凝视的物理模型比数据增强,如旋转。5.3. 与SOTA UDA方法的比较为了展示RUDA框架的性能,我们将其与最先进的无监督域自适应方法在四个跨域任务上进行了比较:E M,ED, GM, GD. 我们选择了四种典型的方法进行比较:• ADDA [36]:通过对抗学习减少源和目标域特征之间的域间隙引入了一个将特征分类为源域或目标域的判别器。500个目标域图像用于我们的实现,以获得更好的性能。• DAGEN [16]:通过嵌入表示设计进行凝视估计的SOTA无监督域自在我们的实现中使用了500个目标域图像,以获得更好的性能。• GazeAdv [39]:一种通过对抗学习进行凝视估计的SOTA无监督域自适应方法。外观分类和头部姿势分类被设计为对抗性任务。• Gaze360 [19]:SOTA无监督域自适应4214LLD → D D → DL−D → DD → DDD → D D → DL表4.针对不同图像旋转角度的以度为单位的注视估计误差对于给定的度数r,我们在[−r,r]的范围内随机旋转图像。源域训练和目标域自适应中的旋转角度保持不变。旋转E→M大鼠DE → DDDG → DMDG →DDE→M大鼠+CGDADE → DDDG →DMDG →DD15◦8.447.318.458.118.186.658.248.1840◦8.226.628.717.677.636.937.527.1165◦7.938.598.097.736.686.816.727.6290◦7.927.447.607.105.706.296.205.86一种结合对抗学习、图像抖动和弹球丢失的凝视估计方法• RSD [4]:专门为回归任务设计的SOTA无监督域自适应方法。该算法在不改变特征尺度的情况下,通过表示空间的正交基来封闭域间隙.为了进行公平的比较,我们用ResNet18替换了所有方法的主干。结果显示在选项卡中。二、我们的方法比SOTA方法有很大的差距。RUDA框架显著提高了所有任务的性能。请注意,一般的无监督域自适应方法不会带来任何性能改进,这表明跨域凝视估计任务的困难设计用于注视估计的方法可能在某些跨领域任务上带来我们的RUDA框架运行稳定,并提高了所有四个任务的性能。5.4. 消融研究为了证明RUDA框架中每个组件的有效性,我们对所有四个跨领域任务进行了消融研究在选项卡中。3、给出了源域训练策略、域自适应策略和损失函数的不同组合的结果• RL1,RL2:分别在旋转增广源域上进行损失为1,2的训练.• RLD:提出的具有LD损失函数的RAT策略• DAL1、DAL2:拟议的CGDA战略,其中LD损失分别用L1、L2损失函数代替• DALD:提出的带有LD损失的CGDA策略在其他任务中基线ResNet18([行5,GM],[行6,GM],[第7行,ED])。 没有在源域训练中,第5行到第7行的组合在不同的交叉任务上表现出明显的性能差距。这对于无监督域自适应任务来说是一个致命的问题,因为我们没有目标域标签来验证性能是提高还是下降。与第8行到第10行相比,使用RAT策略的方法在所有四个任务中都显示出明显的稳定性并提高了准确性在第8行和第9行中,我们测试了所提出的CGDA策略与域自适应中不同损失函数的组合位置。 与第10行相比,LD比L1和L2损失函数获得了更好的整体性能增益.实验验证了RAT和CGDA策略的有效性。在RAT和CGDA的帮助下,建议的RUDA框架实现了最稳定和满意的所有四个任务的改进。5.5. 超参数和进一步分析5.5.1超参数在本节中,我们进行了实验以研究超参数的影响当我们通过旋转创建子标签时,旋转度是最重要的在选项卡中。4,我们给出了不同旋转范围的结果。对于给定的度数r,我们在范围[r,r]中随机旋转图像。在RAT阶段,模型在不同旋转角度下表现相似。经CGDA自适应后,精度随旋转幅度的增加而提高在自适应过程中,该模型由旋转图像的估计结果的旋转一致性来监督,其对应于分配损失中的L标准项因此,我们测试模型在选项卡中。3,第1-4行显示,在源域上使用旋转图像进行训练不会提高跨域AC。牧师但是,由于L标准项的存在,建议的LD训练似乎比L1,L2更稳定。第5-7行的结果证明了DALD的有效性,即,建议的CGDA战略。CGDA结合使用可提高准确性在所有跨域任务中,使用第1行到第3行的模型在第5行至第7行中,尽管一些组合达到兼容性([第5行,EM],[第6行,GD])或甚至更好([行6,ED])的性能比RUDA在某些任务,他们执行类似或甚至更差的比在没有CGDA的情况下,对靶结构域的子集t′和计数STD。如图4所示,STD随着旋转范围的缩小而下降。因此,旋转D越小,模型在自适应期间学习的不确定性信号越少。我们还评估了CGDA阶段每个图像的旋转次数的影响在自适应过程中,我们分别将旋转次数设置为10,15,20,25,而在RAT阶段保持旋转次数为5。旋转次数改变时,结果会抖动。但与旋转范围相比,整体扰动相对较小。4215E →DG →MG →DE →M不确定性w.r.t.不同旋转范围原始增强32.521.515°40°65°90°10.50跨域注视估计任务图4.在RAT阶段中获得的注视误差的标准偏差(STD),对于用于稍后适配的100个目标域图像。较大的旋转范围产生较大的STD,这为域适应提供了足够的不确定性。表5.在域自适应阶段,不同图像旋转数的注视估计误差以转数D → DD → DD → DD→D图5.表中比较了不同的图像增强六、表6.与其他数据增强方法的比较。结果是角度误差度。方法DE→ DME→ DDG→MDG→ DDE ME10D G M GD北京赛车pk10开奖结果6.18 6.71 6.3115 6.406.236.245.605.5.2轮换一致性我们围绕旋转概念设计了RUDA框架,因为它与凝视的物理本质有着深刻的联系。为了证明旋转一致性的重要性,我们在RUDA框架中用其他数据增强方法代替旋转一致性。具体来说,我们选择两种常用的图像增强:1)几何增强,对归一化的人脸图像进行随机缩放和随机平移; 2)噪声增强,对图像随机施加四种不同的噪声,包括随机噪声、高斯噪声和泊松噪声。三种操作的示例五、结果见表。六、尽管几何增强和噪声增强在其他计算机视觉任务中被证明是有效的,例如分类和对象检测,但它们在跨域注视估计任务中没有带来任何改进。我们认为,这可能是因为几何一致性和噪声一致性更容易实现,因为这两个增强只会扰乱图像的外观,而不会触及凝视的物理本质。旋转带来了更多的不确定性信息,即,它不仅改变外观,而且改变注视方向。5.5.3系统限制建议的RUDA框架成功地解决了无监督领域的关键问题之一几何图形+RAT 9.75 8.50 7.88 7.41几何+鲁达9.71 10.17 7.40 7.33适应,即,训练数据的短缺和目标标签的另一方面,基于外观的注视域自适应任务的另一个常见挑战是源域和目标域的数据分布可能不同。当源域的范围明显更小时,自适应能力降低。现有的方法还没有很好地解决这样的问题。在未来,我们可以尝试处理这个问题,并结合产生的技术到我们的RUDA框架工作,以进一步提高系统的鲁棒性。6. 结论在本文中,我们提出了旋转增强的非监督域自适应框架的凝视估计任务。 基于旋转一致性属性,所提出的RUDA框架使模型适应于未标记的目标域。该算法首先在源域用RAT策略训练一个旋转增强模型,然后通过子标签的引导将其泛化到目标域, 即,CGDA阶段不同旋转角度的估计一致性。实验结果表明,RUDA框架在四个不同的跨领域任务中取得了稳定和显著的旋转一致性的思想可以应用于其他物理相关的回归任务,例如姿态估计。3.232.862.822.792.622.72.522.192.241.91.651.481.551DE→DMDE →DDDG →DMDG →DD1.731.2注视估计误差的STD旋转几何体噪声噪声+RAT8.708.127.807.65噪音+RUDA9.027.436.948.40旋转+RAT7.927.447.607.10Rotation+RUDA(我们的)5.706.296.205.86205.706.296.205.86256.216.496.245.984216引用[1] Yiwei Bao,Yihua Cheng,Yunfei Liu,and Feng Lu.自适应特征融合网络用于移动平板电脑中的视线跟踪2020年第25届国际模式识别会议(ICPR),第9936-9943页。IEEE,2021。一、二[2] Fabio Maria Carlucci,Lorenzo Porzi,Barbara Caputo,Elisa Ricci,and Samuel Rota Bulo.自动拨号:自动域对齐图层。2017年IEEE国际计算机视觉会议(ICCV),第5077-5085页。IEEE,2017年。2[3] Nora Castner,Thomas C Kuebler,Katharina Scheiter,Ju-lianeRichter , The're'seEder , FabianHu'ttig ,ConstanzeKeu-tel,and Enkelejda Kasneci.深度语义凝视嵌入和扫描路径比较,用于opt查看期间的专业分类。在ACM眼动跟踪研究和应用上,第1-10页,2020年。1[4] 陈信阳,王思南,王建民,龙明生。域自适应回归的表示子空间距离。国际机器学习会议,第1749-1759页。PMLR,2021年。二六七[5] 陈兆康和Bertram E Shi.使用扩张卷积的基于外观的注视估计。亚洲计算机视觉会议,第309-324页。Springer,2018. 6[6] 程毅华,鲍义伟,卢峰。Puregaze:用于可推广的凝视估 计 的 纯 化 凝 视 特 征 。 arXiv 预 印 本 arXiv :2103.13173,2021。2[7] Yihua Cheng,Shiyao Huang,Fei Wang,Chen Qian,and Feng Lu.用于基于外观的凝视估计的粗到细自适应网络。在AAAI人工智能会议论文集,第34卷,第10623-10630页,2020年。一、二、六[8] Yihua Cheng,Haofei Wang,Yiwei Bao,and Feng Lu.基于外观的凝视估计与深度学习:评论和基准。arXiv预印本arXiv:2104.12668,2021。1、6[9] Yihua Cheng , Xucong Zhang , Feng Lu , and YoichiSato. 通 过 探 索 双 眼 不对 称 性 进 行 注 视 估 计 。 IEEETransactions on Image Processing , 29 : 5259-5272 ,2020。一、二[10] 肯尼思·阿尔贝托·富内斯·莫拉,弗洛朗·莫奈,让-马克·奥多贝兹. Eyediap:一个用于开发和评估rgb和rgb-d相机凝视估计算法的在眼动追踪研究和应用研讨会论文集,第255-258页,2014年。二、五[11] Yixiao Ge,Dapeng Chen,and Hongsheng Li.相互的意思教学:伪标签细化,用于对人的重新识别进行无监督的主适应。arXiv预印本arXiv:2001.01526,2020。5[12] 龚伯清,袁氏,费莎,克里斯汀·格劳曼。用于无监督域自适应的测地线流内核。2012年IEEE计算机视觉和模式识别会议,第2066-2073页。IEEE,2012。2[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》,2014年第27期。2[14] Raghuraman Gopalan,Ruonan Li,and Rama Chellappa.用于对象识别的Do- main自适应:一种无监督的AP,接近2011年国际计算机视觉会议,第999-1006页。IEEE,2011年。 2[15] Elias Daniel Guestrin和Moshe Eizenman。利用瞳孔中心和角膜反射进行远距离凝视估计的一般理论IEEE生物医学工程学报,53(6):1124-1133,2006年。2[16] Zidong Guo , Zejian Yuan , Chong Zhang , WanchaoChi,Yongen Ling,and Shenghao Zhang.通过具有预测一致性的嵌入的域自适应注视估计。2020年亚洲计算机视觉会议论文集二、六[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页,2016中。6[18] 克里斯蒂娜·卡西尼,亚斯明·阿布德拉布,乔治·E·拉普蒂斯,莫·哈米德·哈米斯和弗洛里安·阿尔特。眼睛注视在安全和隐私应用中的作用:调查和未来的hci研究方向。在2020年CHI计算机系统人为因素会议论文集,第1-21页,2020年。1[19] Petr Kellnhofer 、 Adria Recasens 、 Simon Stent 、Wojciech Matusik和Antonio Torralba。在野外进行身体非约束的凝视估计。在IEEE/CVF计算机视觉国际会议论文集,第6912-6921页,2019年。一、二、五、六[20] Jess Kerr-Gaffney,Amy Harrison,and Kate Tchanturia.进食障碍的眼动追踪研究:一项系统性综述. 国际饮食失调杂志,52(1):31[21] 罗伯特·康拉德,阿纳斯塔西奥斯·安杰洛普洛斯,还有戈登·韦茨坦.面向虚拟现实的视在视觉视差绘制。ACMTransactions on Graphics(TOG),39(2):1-12,2020。1[22] Rakshit Kothari 、 Shalini De Mello 、 Umar Iqbal 、Wonmin Byeon、Seonwook Park和Jan Kautz。弱监督物理无约束注视估计。在IEEE/CVF计算机视觉和模式识别会议论文集,第9980-9989页一、二[23] Kyle Krafka , Aditya Khosla , Petr K
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ReactPics:我正在努力的小型React项目,以建立我对所有React功能的知识和熟悉度
- STLINK V2_ST-LinkV2固件_PCB样板打板_STLINK_STLINK下载器_pcb
- payment-profile-tokenizer
- perlin-numpy:使用numpy的快速简单的Perlin噪声发生器
- sthephmaldonado.github.io
- CheckResourceConflict:Android自动检测资源冲突的gradle插件(用于检查冲突资源的Android Gradle插件)
- Untitled_GWJ32_Game
- Excel模板岗位安全教育培训记录.zip
- MEDAPulse:用于 MEDA SF 的 ClientCoach 通信应用程序
- PBXC18_SetUp_国威时代交换机管理软件C18安装包.zip
- 2020_WN
- feixin
- octopus-ml:方便的机器学习和数据可视化以及验证工具的集合
- Excel模板高校XX年考试招生情况分析.zip
- 练习:练习R编码
- minotaur:pythonic,异步,inotify接口
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功