多分辨率融合Transformer神经网络用于高效注视估计

92 浏览量更新于2023-10-15 收藏 889KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

890⋄◦△基于多分辨率融合Transformer的有效神经网络结构搜索本田汽车有限公司公司日本东京nagpure@jp.honda本田汽车公司，公司日本东京Kenjiokuma@jp.honda摘要为了瞄准更准确的基于外观的注视估计，最近的一系列工作提出以实现最先进技术的几种方式使用变换器或高分辨率网络，但是这样的工作对于边缘计算设备上的实时应用缺乏效率。在本文中，我们提出了一个紧凑的模型，以精确和有效地解决视线估计。提出的模型包括1）基于神经结构搜索（NAS）的多分辨率特征提取器，用于提取具有全局和局部信息的特征图，这对于该任务是必不可少的;以及2）新颖的多分辨率融合Transformer作为注视估计头，用于通过融合所提取的特征图来有效地估计注视我们在ETH-XGaze数据集上搜索我们提出的模型，称为GazeNAS-ETH我们通过实验证实， GazeNAS-ETH 在 Gaze 360 、MPIIFaceGaze、RTGENE和EYEDIAP数据集上达到了最先进的水平，同时只有大约1 M个参数，仅使用0.28GFLOP，与之前的最先进的模型相比明显更少，更容易部署实时应用。1. 介绍人类注视是人类注意力的重要指标。从单目图像中进行视线估计有着广泛的应用，这吸引了计算机视觉领域对理解人类认知[33]人的行为[15]。它也常用于驾驶员疲劳估计[42，21]，人机交互[46，32]和虚拟现实[31，40]。传统的基于模型的方法通过构建几何眼睛模型来估计人类注视[19]。近年来，直接学习从人脸表情到人类视线的映射函数的基于外观的视线估计由于面部外观变化很大，由于每个-1311975310 2 5 10 20 30GFLOPS图1.不同凝视估计数据集上最先进方法的角度误差和FLOP的比较这里蓝色代表MPIIFazeGaze，红色代表EYEDIAP，紫色代表 RTGENE ，绿色代表 Gaze360 ，是我们的GazeNAS，□是GazeTR，是对于凝视360，为CADSE，为RTGENE。最优模型应接近原点，具有低误差和小浮点数诸如头部姿势和照明之类的自然或环境因素，基于外观的注视估计的问题具有不可避免的复杂性[7]。因此，学习的映射函数应该是高度非线性的，以参与整个外观和基于catpure外观的复杂性。基于卷积神经网络（CNN）的方法的最新发展显示出令人信服的结果[49，8]。同时，准备了几个大规模数据集并公开提供，以促进凝视估计研究[45，48，23，18，27]。最近，最初由[37]提出用于自然语言处理任务的变换器被用于凝视估计任务。由于transformers具有全局捕获能力，因此在计算机视觉任务中的应用表现出了优异的性能。GazeTR[9]使用混合ViT [17]进行基于外观的凝视估计任务，并在多个数据集中实现了最先进的结果。在[3]中，作者展示了几种基于HR-Net [38]的凝视估计任务方法的有效性。角度误差（度）891基于HR-Net和变压器的工作在计算上是昂贵的，因此在实践中对于实时应用另一方面，基于NAS的方法由于其在诸如对象检测[1]、分割[5]和人类姿态估计[12]的其他任务中的效率而非常流行。最近，在HR-NAS [16]中，他们使用基于HR-Net[38]的搜索空间和轻量级变换器，并以合理的计算成本在几个任务中实现了最先进的结果。对于视线估计的实时应用，我们需要一个高效和准确的神经结构。随着近年来NAS在其他主要任务中的发展，将其适用性扩展到凝视估计问题是我们工作的主要主题。在本文中，我们提出了解决这个问题，使用NAS为基础的高效特征提取器与强大的凝视估计头。所提出的模型包括：1）基于NAS的多分辨率特征提取器，用于提取具有全局和局部信息的特征图，这对于该任务是必不可少的;以及2）新颖的多分辨率融合Transformer，作为注视估计头，用于通过融合所提取的特征图来有效地估计注视值与在凝视估计任务的每个数据集上搜索模型不同，我们建议只在一个数据集上搜索模型，然后在其他数据集上验证它。这大大缩短了训练时间。我们搜索的神经架构称为GazeNAS-ETH，在ETH-XGaze上搜索[45]，该架构具有广泛的凝视值和头部姿势以及大规模的数据集。实验表明，GazeNAS-ETH在几个凝视估计基准上以最少的计算预算优于最先进的方法。事实上，我们的GazeNAS-ETH只需要1。027 M参数和0.28GFLOPs使其能够用于实时应用。我们的主要贡献是：（1）首次将NAS用于视线估计任务。 (2) 我们提出了一种新的多分辨率融合Transformer为基础的凝视回归头，这是有效的，以及准确地预测凝视值的多分辨率功能。(3)我们建议使用ETH-XGaze [45]作为数据集，用于搜索凝视估计任务的神经架构。(4)广泛的实验表明，我们的GazeNAS-ETH实现了最先进的结果，同时具有实时应用程序的计算效率架构。2. 相关工作2.1. 视线估计最近，提出了几种基于CNN的方法，其性能得到了显着改善[47]。在[10]中，作者探索了两只眼睛之间的不对称性，并提出了四流CNN上的不对称回归，以估计来自眼睛图像的凝视。[29]中的工作建议图2.该方法被称为GazeNAS。通过NAS搜索多分辨率特征提取器，从人脸图像中提取多分辨率特征。这些多分辨率特征然后被融合以使用我们的多分辨率融合Transformer来估计注视值。根据眼睛图像的图形表示来估计注视。在[6]中提出了一种用于捕获眼睛图像中细微变化的扩张卷积网络。在[39]中，基于CNN的方法用于将提取的特征与对抗学习进行对齐，并结合baidu推理以提高预测准确性。在[8]中提出了一种由粗到细的网络来集成面部和眼睛图像，其中从面部图像估计基本注视最近使用HR-Net [38]在[3]中实现了具有竞争力的准确性。最近[28]引入了具有卷积和去卷积的自注意，以解决凝视估计的低泛化问题然而，所有这些方法对于实时应用来说都不够有效。因此，实时应用仍然需要更2.2. 变压器Transformer最初由[37]引入，用于自然语言处理（NLP）任务。Transformer架构仅包含自注意层、层归一化和多层感知器层。与递归网络相比，自注意层具有全局计算和完美记忆，使变压器更适合长序列任务。基于transformer的方法是当前NLP任务的最先进方法[14]。变压器最近在计算机视觉任务中也很受欢迎。最近的工作将CNN与transformer集成在一起，以在对象检测和实例分割任务中实现更好的性能[4] [11] [50]。视觉Transformer（ViT）由[17]提出，其中他们将图像划分为非重叠的块，并将传统的Transformer架构应用于这些块中以进行图像分类。对于凝视估计任务，在GazeTR [9]中应用了变换器，其中它们在来自CNN的特征图上应用ViT，并在各种凝视估计基准中有效地实现了最先进的结果892× ××××××××××××× ××××图 3. 搜索块的架构包含由深灰色区域表示的轻量级Transformer路径、具有3个三、五 5和7 由浅灰色区域表示的7个核，以及剩余连接2.3. 搜索高效模型对于有效的神经结构搜索，早期的方法主要使用强化学习[51]和进化算法[34，25]。通常，这些方法在计算上是昂贵的。为了提高搜索过程的效率，Darts[24，22，41]和ProxylessNAS [2]等著作提出了可微搜索方法在这里，他们将搜索空间公式化为一个超图，其中运算符的采用取决于由连续重要性权重表示的概率，允许使用梯度下降进行架构的有效搜索。由于混合卷积的多尺度特征建模能力最近，提出了基于模型扩展的方法，以将搜索空间从算子扩展到其他超参数，例如输入分辨率、通道编号和层数[1，43]。为了寻找有效的模型，现有的方法通常从手动设计的网络中借用有效的算子，例如深度卷积和逆残差块[35]。最近，HR- NAS [16]将Transformer纳入搜索空间，以拥有更强大的运算符并在各种任务中实现最先进的性能。3. 方法为了准确有效地解决视线估计问题，我们提出使用一种基于NAS的高效特征提取器，该提取器具有强大的视线估计头，如图所示2.受[3]中高分辨率网络[38]用于凝视估计的成功应用的启发，我们的特征提取器是HR-NAS的修改版本为了从多分辨率特征图中有效地预测注视值，我们提出了一种多分辨率融合Transformer架构作为注视估计头。在本节中，首先，我们简要介绍了基于NAS的特征提取器。然后，我们介绍了我们的多分辨率融合Transformer，它作为回归头。最后，我们总结了整个管道以及资源感知搜索策略。3.1. 基于NAS的特征提取器在本节中，我们简要介绍我们的NAS基于特征提取器。我们修改并调整了HR-NAS[16]中提出的用于凝视估计任务的特征提取器。在这里，我们描述了搜索块和超网架构中使用的3.1.1搜索块如图3，搜索块包含三条路径：一个MixConv[36]、一个残差路径和一个轻量级的Transformer[16]，用于提取更多的全局上下文。MixConv中的卷积通道数和轻量级Transformer中的令牌数是可搜索的参数。为了简单起见，我们在这里定义了一个搜索块，3、55，77粒。在本文的其余部分中，我们将深度卷积的通道或轻量级transformers中的令牌称为搜索单元。设搜索块的输入为c个特征通道。一个挤压和激励（SE）[20]块应用于输入，以增强其特征表示。在MixConv路径中，输入通道通过逐点11卷积扩展到（r3+r5+r7）c维，其中ri是i i卷积的扩展比。输出相应地被分割，然后分别被馈送到具有内核大小3 3，5 5，7 7的深度卷积中。然后，来自所有卷积的输出被级联，其之后是另一个11卷积层以将通道减少到期望的输出通道c’。在轻量级Transformer路径中，通过投影大小为c的输入要素，将用于降低计算成本的投影器应用于输入要素 Hw到减小的大小n SS. 这里，n表示查询的数量，并且s是减小的空间大小。现在，将Transformer应用于投影输入。然后在Transformer的输出上应用逆投影器以将其逆投影到期望的输出大小。更重要的是，在搜索块中存在剩余连接，以处理在搜索期间搜索块的所有搜索单元变为零的情况。残差连接具有逐点11卷积以获得期望的输出大小。来自MixConv路径和轻量级Transformer的输出与剩余连接一起添加，以获得输出893×∈∈我我2图4.我们的多分辨率融合Transformer的架构这里，MHSA是多头自注意层，FFN是前馈网络，GAP是全局平均池化层，MLP是多层感知器搜索块。受MixConv[36]的启发，作者在网络的不同阶段使用不同的内核集类似地通过应用逐点11卷积层来减少多分支特征的维数，以减少估计头的计算，然后将输出连接到我们的多分辨率融合Transformer。3.2. 多分辨率融合Transformer在获得多分支特征后，一个直观的解决方案是调整特征的大小并聚合特征，然后将其直接连接到Transformer编码器。Transformer体系结构利用其自注意机制来捕获跨补丁的异常。虽然Transformer编码器可以固有地在某种程度上利用简单的级联来联合地对多分辨率特征进行建模，但是由于特征被级联在一起，所以普通Transformer为了解决这个问题，我们介绍了我们的多分辨率融合Transformer，简称为MRFT。所提出的MRFT结构如图4所示。对于网络中的3个分支，MRFT具有X i作为输入，其中i[1，3]。这里X iRhi×wi×ci，其中（h i，w i）是第i个输入特征图的分辨率，c i是通道数。与ViT[17]中一样，我们将每个输入特征图X i重塑为一系列平坦的2D面片x∈Rni×（pi·ci），其中（p，p）是每个我们还通过使用不同的组合-i ii来调整搜索块在网络的不同阶段的内核的国家。我们将在3.4中详细说明这些修改。3.1.2超网架构受[3，38，16]的启发，我们设计了一个多分支搜索空间，它包含多尺度特征和全局上下文，同时在整个网络中保持高分辨率表示。超网架构如图所示。5.该网络由两个模块组成：并行模块和融合模块。这两个模块都是用我们的搜索块构造的。并行模块通过在每个分支中堆叠搜索块来获得更大的感受野和多尺度特征。在并行模块之后使用融合模块来跨多个分支交换信息。额外的较低分辨率分支也从先前的最低分辨率分支生成。为特征块，并且ni=hi wi/pi2是所得到的特征块的数目。补丁，这也作为有效的输入序列长度的Transformer编码器。通过线性变换将每个展平的2D面片序列映射到三个矩阵：特征查询矩阵q i、键矩阵 ki和值矩阵 vi。Transformer查询矩阵定义为：Q1=T1 （ q2++q3 ）， Q2=T2 （ q1++q3 ）， Q3=T3（q1++q2）其中++是逐通道级联操作，Ti是将输入变换为与ki相同大小的变换函数。通过这样做，高分辨率特征由主要包括局部特征的其他低分辨率特征授权。另一方面，为低分辨率特征提供来自其他高分辨率特征的全局信息。输出X_out表示如下：每个输出分支及其所有相邻输入分支通过使用搜索块来融合以统一它们的特征图。x′i= LN（MHSA（Qi，ki，vi）+xi）X输出= LN（FFN（ x′）+ x′）（一）例如，1/8输出分支集成以下信息1/4、1/8和1/16输入分支。如图5、经过两次卷积，将特征分辨率降低到输入图像尺寸的1/4，然后从高分辨率分支开始，通过融合模块逐渐增加从高到低的分辨率分支，并通过并行模块将多分辨率分支并行连接起来。最后，我们减少了通道我我我其中MHSA（. ）表示多头自吸块FFN（. ）表示前馈网络，LN（. ）是层归一化运算符。在这里我们只使用一层Transformer编码器来降低计算开销。通过在输出X_out上应用全局平均池化（GAP）层和MLP层来预测最终注视值。我们的MRFT和894×× ××× ××× ××阿维尼翁Σ图5.我们的超级网络架构这里ConvBNReLU是一个带有Batch-Normalization和ReLU激活的3 3在并行模块中使用不同的搜索块。我们在图中显示了搜索块架构。3和图中的MRFT。4ViT[17]在于GAP层的使用，而不是额外的可学习分类标记和比简单级联更好的融合策略3.3. 基线为了分析用于注视估计任务的NAS方法，我们提出了在超网体系结构中具有不同数目的分支的两个基线模型。作为我们的单分支基线模型，我们使用Atom-NAS的特征提取器和香草Transformer编码器作为估计头。作为我们的多分支基线架构，我们使用HR-NAS[16]特征提取器与香草变换器编码器[17]耦合作为估计头。香草变换器的灵感来自GazeTR[9]的工作。HR-NAS中的多分辨率功能在连接到普通Transformer之前会调整大小并进行协调。3.4. GazeNAS首先，我们描述了我们的GazeNAS及其与HR-NAS的区别。然后，我们简要介绍了搜索策略。HR-NAS的拖拉机[16]和我们的GazeNAS在于1）搜索块中的不同内核选项，这取决于特征图大小2）网络3)在搜索块中使用挤压和激励（SE）[20]块检索策略：对于搜索策略，我们采用了渐进式收缩NAS范式，该范式通过在训练期间丢弃一些卷积通道和 Transformer 查询来生成轻量级模型。根据Darts[24]，我们引入了一个重要性因子α >0，可以与搜索块的每个搜索单元的网络权重联合学习。然后，我们逐步丢弃那些重要性较低的，同时保持整体性能。受[44，26，16]的启发，我们在α上添加了一个资源感知的L1惩罚，它有效地将高计算成本的重要性因子推到零。具体地，搜索单元的L1惩罚通过计算成本的减少量ω>0（即，在这种情况下为FLOP）来加权如果i是一个3×3连续v，最后，我们描述了用于搜索模型的损失函数。如图5所示，我们的GazeNAS具有3分支结构，因为我们没有观察到显著的性能∆i=5×5×h×w，如果i是5×5conv如果i是一个7×7卷积，则为<×7×h×w不（n′−1）如果i是一个Transformer令牌从使用像HR-NAS这样的4分支结构中获益[16]。在MixConv[36]搜索块中的卷积选项因特征图的大小而异。基本上，较低的分辨率，灰功能提供了更好的精度和高分辨率的功能，只有小内核，以节省计算成本的大内核选项受此启发，在我们的并行模块中，第一分支的搜索块只有3个3、第二支有3支三、五第五和第三分公司有3三、五五、七7粒。在融合模块中，搜索块包含3 3，5 5，7 7个内核，用于跨分支更好地融合特征。所有搜索块都包含轻型变压器。总而言之，功能前之间的主要区别其中 OT 是 HR- NAS[16] 中定义的 Transformer 的FLOP，n'是剩余令牌的数量注意卷积的搜索单元的k是固定的，而在Transformer中，k是剩余令牌数量的函数。值得一提的是，尽管FLOPs并不总是延迟的最佳度量，但我们还是使用它，因为它是最广泛和最容易使用的度量。这可以容易地适用于使用其他度量，例如，延迟和能量成本。在添加了资源感知惩罚项的情况下，总体训练损失为：L=L1（gt，gp）+λi|αi|i∈A895×其中L1表示标准L1损失，gt表示地面实况注视值，gp表示预测注视值，λ表示L1惩罚项的系数，并且A表示网络中所有可用搜索单元的集合在训练过程中，每隔几个时期，我们逐步删除重要性因子低于预定义阈值的搜索单元，并重新校准批量归一化（BN）层的运行统计数据。注意，如果搜索块的所有标记都被移除，则搜索块将退化为残留路径，如图12所示。3.第三章。当搜索结束时，剩余的结构不仅代表最佳的精度-效率权衡，而且具有用于注视估计任务的最佳低级/高级和局部/全局4. 实验4.1. 实现细节4.1.1NAS预训练为了搜索用于凝视估计任务的有效神经架构，我们使用ETH-XGaze[45]数据集。它总共包含110个主题的110万张图像我们使用ETH-XGaze中的训练集进行预训练，其中包含80个主题的765 K图像。评估集分为数据集内和个人特定的评估，每个包括15人。我们使用内部数据集作为预训练验证的测试集。数据集提供了归一化的数据，我们直接将其输入模型。4.1.2评价数据集为了对所搜索的神经元进行综合评价，使用GazeNAS的ral架构，我们选择以下数据集进行评估：[23][24][25][26][27][28][29][2为了与这些数据集上的最先进的方法进行直接比较，我们保持数据集与以前的作品相似。更具体地说，我们按照[9]处理所有数据集以及评估方案。经过数据预处理后，MPI-IFaceGaze包含15个受试者的45 K图像我们对它进行了留一人评价。EYEDIAP包含14个主题的16K图像。我们对它执行四文件夹交叉验证。Gaze360包含用于训练的54个子对象的84K图像和用于测试的15个对象的16K图像。RT-GENE包含13个受试者的92 K图像。在RT-GENE中进行三文件夹交叉验证EYEDIAP和MPIIFaceGaze数据集具有相对有限的头部姿势和注视范围，因此被假定为受控环境中的基准。Gaze 360和RT-GENE已经建立了4.1.3培训我们通过在ETH-XGaze（GazeNAS-ETH ）上使用GazeNAS来寻找有效的神经架构。整个代码结构使用PyTorch[30]1实现，并在NVIDIA Tesla A100 GPU上训练。输入大小设置为224 224。初始学习率设置为0.001，在3个Tesla A100 GPU上批量大小为369，持续50个epoch，每5个epoch衰减0.97。我们采用亚当优化器，动量为0.9，权重衰减为1 e-5。我们还采用衰减为0.9999的指数移动平均（EMA）通过将L1惩罚项λ的系数设置为1.0e-5，我们得到了GazeNAS-ETH模型。至于GazeNAS-ETH在评估数据集上的评估，我们冻结了模型架构并在评估数据集上进行训练。我们使用ETH-XGaze上的预训练权重作为参数的初始值。λ被设置为0，因为不需要进一步的修剪对于所有四个评估数据集，学习率设置为 0.0005 ，并使用RMSprop优化器来训练模型。所有其他超参数与以前相同。4.1.4评价对于注视估计任务，最常见的评估度量是角度注视误差。我们用它来与其他凝视估计方法进行比较，其中较小的误差表示更好的模型。4.2. 与最新技术水平的我们比较了我们提出的模型GazeNAS-ETH和最先进的方法的性能，这些方法在注视估计方面表现出竞争力，与 MPIIFaceGaze ， Gaze 360 ， EYEDIAP 和 RT-GENE数据集。结果示于表1中。在表中，对应于类别A的方法是基于 CNN 或RNN 的凝视估计模型，即FullFace[48] 、 RT-GENE [18] 、 Dilated-Net[6] 、 CA-Net[8]和Gaze 360 [23]。B类中的方法是那些使用变压器的方法.类别A和B模型之间还有一个区别，类别A中的模型是ImageNet[13]预训练的，而类别B中的模型是ETH-Xgaze [45]预训练的。表 2 显示了每种方法的参数数量结果表明，GazeNAS-ETH在所有评估数据集上都具有比现有技术更好的凝视值估计，同时仅具有约1. 027 M参数，仅使用0. 28GFLOPs。因此，GazeNAS-ETH以最少的计算预算实现了最先进的性能。更具体地说，当与主动宽的头部姿势和凝视范围，因此代表在不受限制的环境中的表现。1为了确保可重复性，我们将发布代码。896表1.与最先进的方法进行比较。我们提出的GazeNAS-ETH在所有四个数据集上都取得了最先进的结果。∗表示模型主干在ImageNet数据集上进行了预训练，†表示模型在ETH-XGaze数据集上进行了预训练类别方法[48]第四十八话[23]第23话RT-GENE[18][27]第二十七话一美国[48][18]第十八话[23]第一届中国国际汽车工业展览会[24]4.第一章93○4.第一章66○4.第一章42○4.第一章27○4.第一章06○十四岁99○12个。26○十三岁73○11个国家。20○11个国家。04○10个。00○8. 60○8. 38○8. 27○7 .第一次会议。06○六、53○六、02○六、19○五、27○五、36○BCADSE[28]†[9]第九话我们的GazeNAS-ETH†4.第一章04○4.第一章00○3 .第三章。96○10个。70○10个。62○10个。52○7 .第一次会议。00○六、55○六、40○五、25○五、17○五、00○表2.最先进型号的规格。与其他最先进的模型相比，我们提出的GazeNAS-ETH需要的计算预算非常少，因此更容易部署实时应用程序方法#参数FLOP数量运行时间（ms）RT-GENE[18]82岁0m的三十81G467[23]第23话十四岁6M12个。78G276CADSE[28]74岁8M19号。75G379[9]第十九话11个国家。4M1 .一、84GN/A我们的GazeNAS-ETH1 .一、027M0的情况。28G22最先进的模型GazeTR[9]，MPI-IFaceGaze数据集的性能提高了0. 04○，在Gaze360数据集由0。1○，在RT-GENE数据集中为0。15○和EYEDIAP数据集0。十七○。拟议模型6.它可视化的一些定性结果的凝视估计各种人脸图像从不同的数据集。4.3. 与基线模型的如第3.3节所述，我们用两个基线模型进行实验，以观察单分支和多分支NAS方法在注视估计任务上的性能。我们更喜欢使用AtomNAS[26]而不是单分支HR-NAS[16]，因为它在其他任务中的性能更好。两种型号均在ETH-XGaze上检索。我们在四个数据集上进行了评估实验。结果如表 3 所示。单分支基线（AtomNAS+ViT）使用较少数量的参数和FLOP，但多分支基线（HR-NAS+ViT）的性能更好，证明了多分支网络对凝视估计任务的影响，由于这两种基线都将ViT作为估计头，因此由于变压器具有更好的代表能力，因此其性能与其他最先进的方法相当。HR-NAS+ViT比我们的GazeNAS使用更多的参数和FLOP。可能的原因是搜索块中的分支数量以及卷积选项的差异。即使在使用较少的计算之后，我们的GazeNAS 在所有评估数据集上的性能也优于 HR-NAS+ViT，这表明了我们基于MRFT的凝视估计的影响897×头与HR-NAS+ViT相比，HR-NAS+ViT具有更好的全局和局部特征融合和表示能力，特征提取器所需的参数数量4.4. 消融研究为了确认我们的搜索块设计的有效性，我们通过从整个管道中删除一些组件来进行以下消融研究：1）没有MixConv和2）没有轻量级Transformer。(See表3）。a) w/o MixConv为了研究Mix-Conv层在我们搜索块中的效果，我们在所有搜索块中将MixConv层替换为3 3卷积层。我们在四个数据集上进行实验以确保一致性，结果如表3所示。当在搜索块中应用MixConv层时，per-coverage从0提高。20比0。70○，这表明了MixConv在所提出的方法中的重要性。这似乎是因为MixConv层更有效地提取全局和局部信息，这对于凝视估计任务是重要的。b) w/o轻量级转换为了检查轻量级转换器在我们的搜索块中的效果，我们在所有搜索块中将轻量级转换器层替换为跳过连接如前所述，我们在四个数据集上进行了实验，结果如表3所示。结果清楚地显示了轻量级Transformer对GazeNAS-ETH性能的影响。更具体地说，性能提高了0。25○到0。七十五○。由于轻量级Transformer增强了搜索块内的全局上下文，因此在我们的搜索块中用于凝视估计任务是重要的。898表3.消融研究和基线模型方法ParamsFLOPsMPII [48][23]第23话[27]第二十七话RT-GENE[18]AtomNAS + ViT（单个分支）0的情况。9M250米4.第一章35○10个。90○五、29○7 .第一次会议。50○HR-NAS + ViT（多分支机构）1 .一、1M320米4.第一章25○10个。65○五、20○六、83○GazeNAS（MRFT）1 .一、027M280M3 .第三章。96○10个。53○五、00○六、40○无混合转换1 .一、024M275海里4.第一章31○10个。71○五、21○7 .第一次会议。10○不带轻型Transformer0的情况。4M233米4.第一章28○10个。88○五、25○7 .第一次会议。15○5. 讨论5.1. 用于搜索模型的以前的NAS工作的其他任务总是使用相同的数据集搜索模型和测试性能。对于凝视估计的情况，我们认为在每个数据集上搜索模型在计算上是由于凝视估计中的大多数数据集都很小，并且具有有限的凝视值和头部姿势范围。我们建议使用ETH-XGaze搜索神经架构，因为它具有高范围的凝视值和大数据集大小。我们在其他数据集上验证了搜索到的网络架构GazeNAS-ETH。GazeNAS-ETH能够在其他数据集上实现最先进的技术。这表明，对于凝视估计，ETH-XGaze上搜索的模型很容易推广到其他数据集，节省了在任务的每个数据集上搜索模型的时间和资源5.2. 凝视估计本文借鉴流行的AtomNAS和HR-NAS设计基线模型的特征提取器。我们使用流行的ViT作为凝视估计头。这两种模型都能够实现与先进模型相比具有竞争力的结果这表明基于NAS的方法适合于注视估计。为了进一步提高性能，我们在 GazeNAS 中提出了我们的MRFT凝视估计头。通过我们的实验，我们验证了GazeNAS-ETH优于以前的最先进的方法。这表明基于NAS的方法不仅需要非常少的计算预算，而且还可以实现最先进的性能。这使得视线估计任务的实时应用成为可能。5.3. 限制使用我们的GazeNAS方法在ETH-XGaze上搜索的模型基于NAS的方法的主要限制之一是低的跨数据集性能。我们进行实验以查看交叉数据集性能，其与最先进的方法[28]竞争不够。这表明，我们可能需要增加计算预算，以便在此任务中更好地进行跨数据集数据集 GT 结果汇总 MPIIFaceGaze360EYEDIAPRTGENE图6.提出的方法GazeNAS-ETH在各种数据集上的人脸图像。第一行图像是凝视的地面实况，第二行是所提出的网络的估计结果，第三行一起示出6. 结论对于凝视估计，我们是第一个探索使用基于NAS的方法的有效性。提出了一种基于多分辨率融合Transformer的视线估计头，有效地融合了全局背景和局部特征，实现了准确的视线估计。我们提出了一种改进的HR-NAS为基础的特征提取器的任务的凝视估计。我们建议只使用一个数据集来搜索神经结构，而不是在所有数据集上单独搜索模型。我们选择ETH-XGaze [45]作为在凝视估计任务中搜索神经架构的数据集，并在其他数据集上对其进行验证。通过对四个899公共数据集的严格实验[49，23，18，27]，我们验证了我们提出的GazeNAS-ETH在准确性和计算成本方面优于其他基于CNN或基于transformer的最先进方法。更具体地说，我们的GazeNAS-ETH仅使用1M参数，0的情况。28个GFLOPs，比以前的国家少得多最先进的模型，因此可以很容易地部署在边缘的嵌入式设备上的实时应用程序。900引用[1] 韩才、闯乾、宋涵。一劳永逸：训练一个网络并使其专业化以实现高效部署。ArXiv，abs/1908.09791，2020。[2] 韩才、朱立庚、宋涵。Proxylessnas：目标任务和硬件上的直接神经结构搜索。 ArXiv ， abs/1812.00332 ，2019。[3] Xin Cai ， Boyu Chen ， Jiabei Zeng ， Jiajun Zhang ，Yunjia Sun，Xiao Wang，Zhilong Ji，Xiao Liu，XilinChen，and Shiguang Shan.四种体系结构组合的凝视估计。arXiv，abs/2107.01980，2021。[4] Nicolas Carion、 Francisco Massa 、 Gabriel Synnaeve 、Nico-lasUsunier 、 AlexanderKirillov 和 SergeyZagoruyko。使用变压器进行端到端对象检测。ArXiv，abs/2005.12872，2020。[5] 放大图片作者：Chen Liang-jieh，Maxwell D. Collins，Yukun Zhu，G.帕潘德里欧，巴雷特·佐夫，弗洛里安·施罗夫，哈特维希·亚当，乔纳森·施伦斯.寻找用于密集图像预测的有效多尺度架构。NeurIPS，2018。[6] 陈兆康和Bertram E.石使用扩张卷积的基于外观的在ACCV，2018年。[7] 程毅华，鲍义伟，卢峰。Puregaze：净化凝视特征，用于可概括的凝视估计。2021年3月[8] Yihua Cheng，Shiyao Huang，Fei Wang，Chen Qian，and Feng Lu.用于基于外观的注视估计的从粗到细的自适应网络。AAAI人工智能会议，34：10623[9] 程毅华和冯璐。使用变换器的注视估计。arXiv预印本arXiv：2105.14424，05 2021。[10] Yihua Cheng，Feng Lu，and Xucong Zhang.通过评估引导的非对称回归的基于外观的注视估计。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。[11] 程驰，魏方云，韩虎。Relationnet++：通过变换器解码器桥接用于对象检测的视觉表示。在NeurIPS，2020年。[12] 戴西洋，陈东东，刘梦辰，陈银鹏，陆远。Da-nas：用于高效神经架构搜索的数据自适应修剪。在ECCV，2020年。[13] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[14] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向变换器的预训练。在Jill Burstein，Christy Doran和Thamar Solorio，编辑，2019年计算语言学协会北美分会会议论文集：人类语言技术，NAACL-HLT 2019，明尼阿波利斯，MN，美国，2019年6月2日至7日，第1卷（长论文和短论文），第4171- 4186页计算语言学协会，2019年。[15] Philipe Dias ， Damiano Malafronte ， Henry Medeiros，and Francesca Odone.辅助生活设施的注视估计。第279-288页[16] 丁明宇，连晓晨，杨林杰，王鹏，金晓杰，卢志武，罗平.Hr-nas：使用轻量级变压器搜索高效的高分辨率神经架构。 IEEE/CVF 计算机视觉和模式识别会议（CVPR），2021年。[17] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在学习代表国际会议上，2021年。[18] Tobias Fischer，Hyung Jin Chang，and Yiannis Demiris.Rt-gene：在自然环境中的实时眼睛注视估计在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。[19] E.D. Guestrin和M.艾森曼利用瞳孔中心和角膜反射进行远距离注视估计的一般理论。IEEE Transactions onBiomedical Engineering，53（6）：1124[20] 杰虎，李申，孙刚。挤压-激发网络。2018年IEEE/CVF计算机视觉和模式识别会议，第7132-7141页[21] 季强和杨晓杰。实时眼睛、凝视和面部姿态跟踪，用于监控驾驶员的警惕性。实时成像，8：357[22] X. Jin ， Jiang Wang ， Joshua Slocum ， Ming-HsuanYang，Shengyang Dai，Shuicheng Yan，and Jiashi Feng.Rc-darts ：资源受限的可微架构搜索。 ArXiv ，abs/1912.12814，2019。[23] 放大图片作者：Peter Kellnhofer ， Adria` Recasens ，Simon Stent，W. Matusik和A.托拉尔巴Gaze360：在野外身体不受约束的凝视2019 IEEE/CVF国际计算机视觉会议（ICCV），第6911

下载后可阅读完整内容，剩余1页未读，立即下载