基于合成图像和部分对抗域自适应的连续标记空间头部姿态估计

26 浏览量更新于2023-10-12 收藏 3.33MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10164基于合成图像和部分对抗域自适应的连续标记空间头部深度姿态估计FelixKuhnk e，德国汉诺威莱布尼茨大学Jo？ rnOstermann信息研究所kuhnke@tnt.uni-hannover.de摘要头部姿态估计的目的是从图像中预测准确的姿态。目前的方法依赖于监督式深度学习，这通常需要大量的标记数据。头部姿势的手动或基于传感器的注释容易出错。一种解决方案是通过渲染3D人脸模型来生成合成训练数据然而，渲染（源域）和真实世界（目标域）图像之间的差异（域间隙）可能导致低性能。视觉域自适应的进展允许使用对抗神经网络来减少域差异的影响，该对抗神经网络通过强制域不变特征来匹配域之间的特征空间。虽然以前的视觉域自适应工作一般假设离散和共享标签空间，这些假设都是无效的姿态估计任务。我们是第一个提出域适应头部姿态估计，重点是部分共享和连续的标签空间。更确切地说，我们通过在训练期间应用源域的加权恢复来适应连续标签空间的主要加权方法。为了评估我们的方法，我们修改和扩展现有的数据集，从而产生一个新的基准视觉域适应。我们的实验表明，我们的方法提高了头部姿态估计的准确性，尽管只使用标签从合成图像的真实世界的图像1. 介绍在人机交互中，了解图像中人头部的姿态是非常重要的信息。头部姿态估计（HPE）可用于估计注意力的焦点，这是人类行为的关键指标。估计注意力在驾驶辅助系统或分析社会互动中可能是有用的。头部姿态信息也可以用来产生更好的面部对齐姿态不变的面部或表情识别。图1.两个头部姿势数据集的示例性连续标签空间[15，10]：合成渲染（红色）和真实世界（蓝色）。注意分布形状和密度的差异。来自源域和目标域的图像分别显示在左侧和我们的目标是以无监督的方式将知识从源域转移到HPE通常被公式化为回归问题，其中任务是预测3D空间中的连续取向（例如，欧拉角）。深度学习方法已经成为头部姿势估计的最新技术，表现优于大多数传统方法。生成深度学习所需的足够准确标记的训练数据是一项非常具有挑战性的任务。使用姿势测量记录真实世界的头部图像面临许多挑战。测量可以基于传感器数据，如深度图像[10]或惯性测量单元（IMU）传感器[3]，这两者都容易受到传感器噪声的影响。Biwi数据集[10]是HPE的常见基准，平均误差为1度[15]。另一种基于人工标记的关键点的方法由于未知的3D模型和相机参数而产生类似的不准确结果。渲染合成人脸图像提供了廉价的和几乎无限数量的准确标记的数据。然而，仅在合成数据（源）上进行训练可能会导致在真实世界数据（目标）上进行测试时性能不佳，因为10165底层数据分布的不匹配或偏移（域间隙）。最近，人们对深度学习的视觉域自适应（DA）产生了极大的兴趣[33]，它试图通过学习域不变特征来缩小域差距典型的DA场景是具有离散和共享标签空间的分类任务，即.目标和源数据共享相同的类标签集。对于具有连续标签空间的回归问题，完全共享（相同）标签集的假设不成立。如图1所示，标签分布不一定相同，并且目标标签仅形成源标签集的子集。因此，不可能将当前的DA方法直接应用于HPE。部分域自适应（PDA）试图通过估计标签集分布之间的差异来解决离散标签空间的这些问题[6]。然而，可用的PDA方法不能直接应用于HPE，因为它们不考虑连续标签空间。据我们所知，DA和PDA都没有应用于头部姿态估计或回归任务。我们的目标是使用来自合成源域的标记数据和来自真实目标域的未标记数据来提高真实HPE的性能。为了利用HPE任务的合成图像数据的优势，我们将部分对抗域自适应的概念[6]扩展到回归问题和连续标签空间。我们的方法考虑了域之间标签分布的密度和形状，以抵消标签空间的错位。此外，我们能够简化流行的加权损失函数，通过使用加权随机采样器，它提供了一个简单的和更有效的解决方案，部分域适应。最后，我们引入了一个新的基准PDA连续标签空间，通过修改和扩展现有的数据集。虽然我们的研究是出于准确的头部姿势估计，但我们的贡献有三个方面：• 我们将头部姿势估计和对抗域自适应这两个互不相关的主题结合在一起，并在合成数据和域自适应的背景下比较当前的深度HPE方法。• 使用我们的新方法进行部分对抗域自适应的最先进HPE结果。• PDA的基准与连续的标签空间作为一个新的挑战，视觉领域的适应社区。2. 相关工作在下文中，我们将首先回顾最近基于深度学习的HPE方法以及HPE合成数据的使用，随后回顾视觉域自适应方法的相关工作，重点关注（部分）adversarDA方法。2.1. 基于深度学习的头部姿态估计基于视觉的头部姿态估计可以分为两种方法。一种方法是检测几何面部特征（例如，地标），并使用参考3D头部模型来根据这些特征估计姿势。另一种方法是使用完整的面部外观来估计姿势，或者通过面部外观模型或者直接学习从图像到姿势的关系。在[23]中给出了对经典方法的综述。在本文中，我们将专注于直接从单个单目RGB图像中进行基于深度学习的头部姿势估计。Anh等人[1]是首批为慧与提出基于深度学习方法的公司之一。使用卷积神经网络（CNN），他们直接回归头部姿势信息。Patacchiola和Cangelosi [25]评估了不同的CNN架构和用于头部姿势估计的自适应梯度方法。已经提出了几个网络，可以执行多个面部分析任务[20，27，28，7]，如地标定位，姿势估计，性别识别和其他任务。例如，Changet al. [7]使用ResNet架构联合预测面部关键点和头部姿势[16]。然而，多分析方法只能粗略地评估姿态估计性能。Ruiz等人研究了使用面部标志进行姿态估计和直接回归之间的性能差异。[29]第10段。他们为深度HPE引入了一种新的损失函数。在他们的实验中，他们的表现超过了基于地标的姿态估计方法。与我们的工作相反，上述工作不使用合成训练数据。Ruiz等人还通过利用300 W-LP数据集在综合扩展的数据集上进行训练[35]。然而，300W-LP包括真实照片的增强（这些照片的变形版本），但不包含渲染的3D人脸模型的图像。使用渲染的3D人脸模型的图像提供了获得大量准确标记的数据的解决方案。合成人脸姿态数据集SynHead由Gu等人引入。[15]第10段。在他们的工作中，他们专注于通过使用递归神经网络来提高时间序列的头部姿势预测性能。他们在SynHead数据集上训练和评估了他们的方法。此外，他们还报告了用合成数据训练的网络在真实世界数据上进行微调时的性能相比之下，我们不使用任何时间信息并执行单帧预测。此外，我们的目标不是对真实世界的数据进行微调，而是使用一种无监督的方法，不需要目标域的任何标签。由于SynHead数据集的特定特征，很难用于HPE和DA基准测试（参见第4节）。Liu等[22]创建了一个合成头部姿势数据集来为HPE训练CNN。他们评估了他们的模型，该模型仅在真实世界数据集的合成数据上训练。假设他们的合成数据足够接近真实世界10166数据，他们没有应用任何域适应。迄今为止，他们的合成数据集尚未公开。虽然这两项工作[15，22]都使用合成训练数据，但没有或仅使用监督迁移学习（微调）来克服域失配。这与我们的方法不同，在我们的方法中，我们使用部分对抗域自适应来显式地解决域失配。2.2. 部分对抗域自适应在我们的综述中，我们将重点介绍对抗域自适应，并更详细地介绍部分对抗技术，因为这些技术构成了我们方法的基础。感兴趣的读者可以参考最近的两项调查[9，33]，这两项调查广泛总结了（深度）视觉域自适应的当前技术状态。Ganinet al.[12 ， 13] 引入了域对抗神经网络（DANN）的概念。DANN的工作原理是匹配特征的分布，HPE在所有。尽管最近在PDA上进行了一些工作，但目前还不清楚如何将这些方法转移到HPE。此外，我们无法找到任何回归任务或数据集相关的视觉域适应。在这项工作中，我们展示了将PDA应用于HPE的第一种方法，并将连续标签空间（回归）的新问题范式引入视觉域适应。3. 方法在本节中，我们将介绍我们的新方法，用于连续标签空间的局部域自适应。我们的解决方案和实验是专门为解决我们的头部姿势估计任务而开发的，但也可能适用于其他回归任务。我们的方法受到以前的（部分）域对抗方法的启发，这些方法基于对抗方法，我们从重新引入所需的符号和概念开始。在典型的域自适应场景中，数据可从源域获得从不同的领域，使他们indistin-Ds={（xs，ys）}ns，其中ns是数据sam的数量。i i i=1对于判别式分类器（也称为域plesxs∈Xs和相关标签ys∈Ys。针对目标对手）。必须注意的是，非常相似的概念是，我定义域Dt={（xt）}nt我，只有数据可用。在古典我i =1交互对抗网络（GANs），由Goodfel描述low等。[14]第10段。此外，这两种方法的应用是完全不同的。许多工作建立在DANN的方法域适应[31，32]。然而，这些作品假设相同的标签空间，这意味着对于源数据的每个样本，都存在具有相同标签的目标数据。在一个真实的场景中，大量的源数据和只有未标记的目标数据是可用的，这个假设是不适当的。对准源和目标特征分布（例如，使用DANN）也将对齐标签空间，导致负传递，因为目标特征与不相等的源标签匹配。为了克服这个问题，Caoet al.[6]提出了一种局部对抗域自适应（PADA）网络。PADA通过降低目标标签中不期望的源类数据的权重来减轻标签空间之间不匹配的影响。PADA在后续工作中得到改进[5，26]，其中为源标签空间中的每个类别Zhang等人提出了类似的概念。[34]其中，将附加的域分类器添加到网络以从离群值类中识别源Chen等人提出了另一种方法。[8]的一项建议。他们建议学习一个类权重比来匹配标签分布。虽然这些方法考虑部分共享的标签空间，但它们都假设离散的标签空间。任务始终是分类，其中某些类在目标域中不存在。在我们的例子中，DA，假设源域标签空间Cs和目标域标记空间Ct是共享。与DA相反，在PDA中，Ct只是Cs的一个子集（Ct <$Cs）。标签为Cs\ Ct的源数据称为源离群值。3.1. 部分域对抗网络在最简单的形式中，DANN由三个子网组成。该设计如图2所示。在我们的例子中，训练一个域ARID来区分源域和目标域样本。特征提取器F被训练以提取同时最小化任务损失并进一步最大化任务损失的特征，以便创建对D不可区分的特征。姿势回归器R被训练以完成实际任务（头部姿势估计），从而得到以下函数[12]：E（θD，θF，θR）=Ly（R（F（Xs）），Ys）（一）- λLd（D（F（Xs<$Xt）），Ls<$Lt），其中Ly是任务损失（姿态预测误差），Ld是由λ加权的域分类损失。在训练期间，λ通常从0增加到λmaxθ表示D、F和R的参数。LS和LT是描述域原点的标签。Ld是交叉熵损失，分别为→1和→0。下面的极大极小优化将提供方程的鞍点。(1)学习满足域自适应目标的网络我们不能与固定的类别标签相关，但具有头部姿势的连续标签，这也不允许分类（θF，θR）=argminE（θθF，θRF，θR，θD）扩展[5，26]。有趣的是，领域适应还没有被用于θD=argmaxE（θF，θR，θDθD（二））的情况。10167Ws于特我WRsXsRy我我LyFXt 我DLd我我我我不y∈YtiiXsXt图2.提出的用于域自适应头部姿态估计的架构：特征提取网络F被训练为使用领域对抗训练从源和目标领域样本（xs，xs）提取领域不变特征。域反馈由域鉴别器D.姿态回归器R估计来自两个域的样本的头部姿态。反馈来自目标样本的姿态估计y，t以生成采样权重W，s。加权随机采样器（WRS）不是直接从源数据Xs中采样，而是选择具有与估计的目标标签相似的标签的源样本。这在训练期间强制源和目标域样本的类似标签分布。极小极大优化可以类似于GAN [14]或使用梯度反转层[12]迭代求解不同的可能表现是统一的，并提出了一个一般框架的Tzeng等人。[32]第32段。原始的DANN框架不考虑部分域自适应。在PDA中，一般目标是减少训练过程中源离群值的负面影响这通常使用加权方案来完成，以降低源离群值对损失函数的贡献。标签预测Y的平均值不超过所有的平均值样本通常用于产生类维权重向量[5，6，26]。然后，这些类权重用于对使用源数据计算的所有损失的贡献也就是说，源样本的任务损失和域分类损失对于很少为目标样本预测的类被加权。同样，Zhanget al.[34]使用域的输出他们假设高似然性表明样本来自源离群值，因为没有目标样本应该具有相似的特征。随后，他们使用域预测来生成在源样本训练期间使用的权重。我曾试图用一个小工具来制作砝码[34]。从源离群值中，我们需要在训练过程中控制源离群值的影响。我们建议使用它们来生成源样本权重，而不是使用目标标签预测来生成源类别权重[5，6，26]。首先，我们将描述一个简单的自适应PADA类[6]方法从类加权到样本加权。其次，我们将花一些时间来修改加权损失方案，使之成为一个更有效的回收过程，使用加权随机抽样器。第三，我们将介绍一种新的加权方案，用于源数据的平衡重排序：连续标签空间的部分对抗域适应（ Partial Adversarial DomainAdaptation for Continuous Label Spaces，PADACO）PADA类：要为源样本创建权重，我们建议测量目标预测与标签空间中的源标签。在我们的设置中，标签空间是由三个旋转角度pitch，yaw和roll组成的R3我们用均方误差计算旋转之间的距离，这也是我们的任务损失函数Ly。为了获得每个源样本的权重ws∈Ws，我们将每个y s的最小距离调整为Yt。我们用一个距离阈值t，以排除离目标预测太远的样本权重计算如下：.0，如果m i n t Ly（yws=yi∈Ytii（三）然而，我们发现，在我们的情况下，域歧视-tor输出不足以表明源异常值。另外，我们不能使用类权重，因为我们的标签空间是连续的。3.2. 连续标号空间的扩展目前还没有用于连续标签空间的部分域自适应技术。为了避免负面的反-it−mint 否则，返回y（y_t，y_s）。我等同于Caoet al. [6]，我们通过除以max（Ws）来归一化权重。这些权重应用于损失函数，以降低源异常值的损失[5，6，26，34]。我们将进一步将我们对PADA等加权方法对连续标签空间的适应称为PADA类。10168加权随机采样器：PDA的当前方法在训练期间将每个处理的数据样本的权重应用于多个损失函数[5，6，26，34]。一般来说，Cs大于Ct，导致许多（接近）零加权源样本通过网络推送，而没有任何好处。源异常值空间越大，浪费的时间和能量就越多。因此，我们建议不使用权重进行加权后的正向通过，但样本选择前的正向通过。使用图2所示的加权随机采样器（WRS），我们可以从Xs中选择合适的样本，从而得到更简单、更有效的训练方案。WRS使用源权重Ws作为多项式概率分布的概率来重新采样数据。与加权损失函数相比，重新排序的另一个好处是与批量归一化（批量范数）的相互作用[18]。批量规范已被发现有利于域适应[11，21]。在初步实验中，我们发现域批量范数[11]提供了可观的性能提升。然而，使用加权损失函数不会改变小批量统计，因为即使零加权样本也用于批量范数计算。虽然批次均值和标准差也可以用权重计算，但这些必须显式地转移到所有批次范数层。此外，加权批处理范数在任何现代深度学习框架中都不可用。使用加权的reservestrat-egy，我们可以使用默认的批处理范数方法，而无需任何更改。最后，这种简单而有效的改变加权抽样策略可以很容易地应用到其他的基于经验加权的PDA方法。PADACO：使用权重或基于权重的重新排序减少了训练过程中源离群值的影响。然而，尽管它们的形状不同，我们发现，源和目标标签分布密度也不同换句话说，具有相同或相似标签的样本的比率可能在源数据和目标数据之间不平衡为了避免标签空间的错位，我们需要在训练过程中平衡源样本的贡献因此，我们在PADACO方法中结合样本权重并考虑标签空间分布密度使用WRS方法，可以对源数据进行重新采样以说明数据不平衡，而无需太多工作，但是与PADA类似相比，需要调整加权（Ws的计算）。我们建议将固定数量的源样本分配给每个目标样本，而不是为每个源样本计算权重。对源标签上的每个目标标签预测采用最近邻搜索，可以选择Nn个最近的源样本进行训练。当使用这种最近邻方法时，已经给出了平衡。结果，每个目标样本被分配给固定数目的源样本，并且来自源和目标的相同比例（1：Nn）的相似标签被提供给目标样本。在训练中看到的。为了计算每个源样本的采样权重Ws我们对目标数据集进行评估，以获得当前的目标标签预测。然后为每个目标找到Nn个最近的源样本预测.源样本的权重每次被分配给目标标签预测时递增1。换句话说，为了说明对相同源样本的多次分配，我们对源样本被发现为目标样本的邻居的次数进行计数以形成Ws。为了创建采样器的采样概率，我们将权重Ws除以所有权重之和。对于即使具有许多数据点的有效最近邻搜索，空间划分（例如，k-d树[2]）。随着搜索策略的改变，我们不像等式中那样将所有源标签与所有目标预测进行比较。(3)，但只搜索所有目标预测的邻居。该策略还将提高效率，因为目标样本的量nt通常远小于ns。在开发过程中，我们还研究了其他想法。我们试图应用额外的阈值来消除离目标标签太远的邻居。然而，我们发现，这并没有改善结果，只是增加了一个额外的参数的方法。我们还尝试在训练过程中迭代更新权重，以允许权重在对抗训练过程中发生变化。虽然这种方法在某些情况下可以收敛，但我们发现它非常不稳定。尽管有这些发现，我们认为稳定迭代权重更新是未来工作的一个有希望的方向。我们的最终训练过程在算法1中描述算法一：训练程序输入：标记的源样本Xs，Ys未标记目标样本Xt参数λmax，Nn输出：θF，θR第一阶段：θ<$F，θ<$R←在Xs上预训练F和R，Ysθ<$D←随机初始化第二阶段：Yt←evaluate tar get dataR（F（Xt））Ws←使用Nn、Ys和Yt计算权重而λ λmaxbs←带加权抽样的从Xs使用Wsbt<$从Xtθ<$F，θ<$R中采样目标批次<$trainF和RwithbsθF，θD←使用bs和bt训练F和D，对抗训练[12]λ←根据时间表更新λ101694. SynHead++、SynBiwi+、Biwi+为了验证我们的方法，由于我们将在本节中讨论的原因，不可能直接利用现有的基准。因此，我们对现有数据集引入三个扩展1[10，15]。我们的目标是为具有连续标签空间的视觉域自适应任务提供源和目标数据集（例如，姿态估计）。作为一个真实世界的目标域数据集，我们选择了Biwi Kinect头部姿势数据库（Biwi）[10]，其中包含20个不同受试者（14名男性，6名女性，4名戴眼镜的人）的24个序列。我们的源域数据集基于SynHead[15]，这是一个由10个渲染的3D头部模型组成的合成头部姿势数据集各种姿势。原始的SynHead已经包括所有24 个Biwi 序列的平滑头部运动轨迹。然而，SynHead是使用Biwi提供的欧拉角渲染的，但旋转轴的顺序不同。此旋转顺序（与Biwi顺序不同）导致具有相同标签的多个SynHead图像和Biwi图像显示不同的头部旋转。在极端的情况下，SynHead图像根本不会显示面部的任何部分。当前HPE研究中的一个问题是面部作物不一致。作为必要的预处理步骤，用于进一步处理的原始图像裁剪（基于面部边界框）在HPE性能中起着重要作用。通常情况下，比较这一步骤在HPE社区中被忽略，并且在整个实验中使用不同的人脸检测器。为了克服这些问题并评估和比较部分和非部分域适应的任务，我们扩展并修改了Biwi [10]和SynHead[15]：• SynBiwi+：共享标签空间数据集（Ct=Cs）• SynHead++：子集标签空间数据集（CtCs）• Biwi+：用于HPE和使用SynBiwi+和SynHead++对于所有具有可见面部的SynHead图像，我们建议使用预期的Biwi角度表示法，以获得SynHead+。我们旋转可用的SynHead+图像，以产生尽可能接近Biwi数据集的旋转图像，从而生成SynBiwi+。对于Biwi数据集中的每个图像，SynBiwi+有10个对应的图像，其中包含10个SynHead的合成头部模型。由于我们只是通过旋转原始图像来生成图像，因此我们无法获得完美的对齐。Biwi和SynBiwi+之间的平均欧拉角误差为0.15°，我们认为这对于设想的实验是足够的。最后，对于源数据集应该是目标数据集的适当超集的部分域自适应实验，我们创建了1重新创建数据集的标签和代码可在http：//www.tnt.uni-hannover.de/project/headposeplus网站。SynHead++是SynHead+和Syn-Biwi+的结合。为了进一步提高再现性，我们为新数据集和原始Biwi数据集提供了边界框，然后我们用加号（Biwi+）表示我们评估了三个可用的人脸检测器[4，17，19]以生成绑定框。然而，对于两个数据集上的极端头部旋转，所有探测器均失败。此外，有时在背景中的耳朵或人上产生多个检测。基于[19]的检测，我们手动校正了所有边界框，并手动将缺失框添加到数据集中。数据集的示例性图像如图1所示。5. 实验在下文中，我们将分析用于头部姿态估计的不同级别的领域知识转移我们比较了传统的监督方法，我们的新的DA和PDA的实验，并进一步分析了不同的加权方案PDA的效果5.1. 实现细节对于我们所有的实验，特征提取器F是PyTorch提供的ResNet18 [24]。域判别器D是具有两层（每层512个神经元）的全连接（fc）层网络，所述两层连接为输入 -fcLayer- BatchNorm-LeakyReLU-fcLayer- 输出。回归网络R是具有512个神经元和用于估计欧拉角的3个输出值的fc层。我们使用原始数据集的backgrounds文件夹中随机裁剪的图像我们不使用常见的数据增强，如随机裁剪，翻转或颜色调整。所有图像都被裁剪到第4节中描述的边界框，并重新缩放以匹配特征提取器F的输入。受[11，21]的启发，我们分别处理源数据和目标数据的小批量.这迫使批量归一化在训练期间为每个域使用不同的归一化对于所有实验，我们使用动量为0.9的随机梯度下降，Nesterov，批量大小为200，以及D，F和R的基本学习率为0.03的学习率计划。在训练的前三分之一之后，学习率我们将PADA类的阈值设置为t=3。PADACO的最近邻数为Nn=10。为了只分析权重计算方法的影响，PADA类实验也使用了WRS。要创建基线模型（Stage-1，请参见Alg. 1），我们稍后将在训练的第2阶段使用，我们使用预训练的ResNet18作为F，并使用以下域自适应实验（SynBiwi+或 SynHead++ ）所需的数据集进一步训练 F 20 个epoch。为了验证，保留了3%的数据。最后，我们选择epoch10170实验方法网络训练集测试集Mae间距偏航辊[1]定制CNN比维 *比维 *2.933.42.82.6[22]第二十二话定制CNN比维河比维河5.936.06.15.7鲁伊斯[29]ResNet50比维河比维河3.233.393.293.00古[15]VGG 16 [30]比维河比维河3.664.033.913.03[29]第二十九话ResNet50300W-LP [35]比维河4.906.614.813.27[22]第二十二话定制CNN不可用Biwi3.734.34.52.4域间基线DAResNet18公司简介Biwi+4.584.994.853.89域适应DANN[12]ResNet18公司简介Biwi+3.343.563.433.03PADACO（拟议）ResNet18公司简介Biwi+4.044.474.113.56域间基线PDAResNet18公司简介Biwi+4.534.974.613.97DANN [12]ResNet18公司简介Biwi+6.058.086.173.91部分DA PADA样ResNet18公司简介Biwi+6.418.146.864.22PADACO（拟议）ResNet18公司简介Biwi+4.134.514.113.78表1. Biwi数据集变体上的头部姿势估计结果。Biwi变体：* 随机分割（86%和14%图像），†按序列分割（16和8个序列），†按受试者分割（18和2个受试者）。SynHead++、SynBiwi+和Biwi+是我们用于头部姿态估计和领域自适应的新型基准实验结果被分组在块中，描述来自不同的数据的使用。在训练和测试中我们提出的方法实现了最好的结果，部分域适应的挑战性任务以最低验证误差作为以下域适应实验的基线起始点（参见表1）对于DA和PDA实验，在训练的前三分之一期间，λ被设置为0以训练λ。然后λ被调度为从0到λmax=0。二、在达到λmax时，在SynHead++（PDA实验）上5个时期或在SynBiwi+（DA实验）上16个时期后停止训练。5.2. 概述和结果我们使用所提出的数据集在域自适应和部分域自适应的设置下对HPE进行了实验。所有结果按实验类型分类实验类型描述了在训练和测试期间使用来自不同领域的数据。在域内设置中，仅使用来自一个域的数据。域间描述了训练和测试数据来自不同域的设置，但没有应用域自适应技术。这些技术在域适应和部分DA实验中进行了评估。域自适应实验是我们的控制实验，其中我们综合地强制源和目标域共享几乎相同的标签空间。首先，部分DA实验不假设这些约束，可以被看作是一个现实的情况下，现实世界的应用程序。在部分DA的评估中，我们将说明使用不同的源加权方案的效果我们报告内和域间的结果，从文献中作为一个比较的新的非部分和部分DA的结果。此外，我们在提议的数据集上训练了两个域间基线模型。头部姿态估计的性能通常用平均绝对误差（MAE）来衡量欧拉角。我们以度为单位报告每个旋转角度（俯仰、偏航和滚转）的MAE和绝对误差。域内域内结果显示了在Biwi数据集上训练和评估的单目深度HPE方法的最新技术水平。由于不同的训练和测试集分割，结果不应相互比较，而是作为可能的域内结果的概述域间和基线域间结果与域适应任务的关系更大。将Ruiz等人的域间结果与域内结果进行比较。[29]，我们可以得出结论，在源（训练）和目标（测试）数据集之间存在域不匹配。一个例外是由刘等。[22]因为它们的表现优于其域内结果。其中一个原因可能是Biwi数据集与其合成训练集之间的统计数据相似，后者与Biwi共享相同的头部姿势范围[22]。我们的域间基线优于Ruiz等人的域间方法。[29]使用较小的网络架构。由于实验设置的差异，应谨慎处理方法的直接比较为了比较部分共享和相同标签空间上的方法性能之间的差异，我们在我们的共享标签空间数据集SynBiwi+上评估了DANN [12]和PADACO。基于BaselineDA模型，我们应用DANN和PADACO方法，参数如第5.1节所述DANN产生令人印象深刻的结果头部姿态估计相比10171不不不S不SDANN Ground truth图3.使用不同加权方案训练后的标签空间可视化：除了地面实况标签，对于每个PDA在实验中，我们显示源标签Ys（红色）和预测目标标签Ys（蓝色）。旋转的3D标签空间由2D可视化在偏航/俯仰和偏航/滚转上的投影（角度以度为单位）。不同的分布揭示了应用不同权重阴谋DANN[12]e将Y扩展为Y，PAD A-样将Y折叠到Y的更高密度区域，PADA CO（建议）保持Y的总体形状与地面实况相似。到在域间数据上训练的方法，甚至直接在Biwi（域内）上训练的方法。如表 1 所示，平均绝对误差（MAE）的改善超过1°。这一结果鼓励寻找类似的PDA方法，并进一步验证了我们的假设，即DA是HPE的可行方法。虽然与基线相比，PADACO将结果改善了12%（0.54°），但它没有达到DANN的性能。然而，与PADACO相反，DANN需要对标签分布进行先验假设。部分域自适应的结果将表明，如果这个假设不成立，DANN失败对于 PDA ，我们评估了 DANN ， PADA 样和PADACO。结果表明，预期的，DANN无法工作的情况下，不同的标签空间。相反，MAE增加了近1.5°。图3显示了训练后标签预测的分布我们可以清楚地看到，DANN通过对齐标签空间产生负在我们的框架中，DANN等同于将所有权重Ws设置为1。尽管使用了加权过程，但与DANN相比，PADA类与图3中的地面实况相比，我们可以看到一个对比。我们认为这是由于加权的源和目标样本的不平衡造成的，因为源标签空间在训练期间吸引目标样本与其他方法相比，我们的新方法PADACO不发散，甚至减少了近10%的目标域上的错误。源样本的平衡重新分配似乎通过避免靶与不同源标签空间分布的匹配来避免负转移。6. 结论我们提出了一种新的无监督域自适应技术，以提高深度头部姿态估计性能。我们将最近的部分域自适应工作扩展到以前被忽视的回归任务，其中标签不是离散类，而是驻留在连续的标签空间中。使用源数据的平衡恢复和部分对抗域自适应，我们将头部姿态估计误差降低了近10%。我们的方法可以应用于其他回归任务，如手或身体姿势估计，以改善在来自另一个领域的数据上训练时的结果（例如，合成数据）。结合部分域自适应的研究结果，为今后的研究指明了方向.我们将努力在进一步的研究中扩展我们的工作。在这方面，我们期待其他人使用本文介绍的新领域自适应基准1类PADAPADACO10172引用[1] 安秉泰朴载植仁素坤使用深度神经网络从单目摄像机进行实时头部定位计算机视觉亚洲会议，第82-96页。Springer，2014.[2] 乔恩·路易斯·本特利。用于关联搜索的多维二叉搜索树Communications of the ACM，18（9）：509[3] Guido Borghi，Marco Venturelli，Roberto Vezzani，andRita Cucchiara.Poseidon：用于驾驶员姿势估计的深度面部。在IEEE计算机视觉和模式识别会议上，第5494-5503页[4] 加里·布拉德斯基OpenCV库。Dobb博士[5] Zhangjie Cao ， Mingsheng Long ， Jianmin Wang ， andMichael I.约旦. 选择性对抗网络的部分迁移学习在IEEE计算机视觉和模式识别会议上，第2724-2732页[6] Zhangjie Cao，Lijia Ma，Mingsheng Long，and JianminWang.部分对抗域自适应。在IEEE Proc. European Conf.计算机视觉，第135-150页，2018年。[7] Feng-Ju Chang，Anh Tuan Tran，Tal Hassner，IacopoMasi，Ram Nevatia，and Gerard Medioni. Faceposenet：为无标志的面部对齐做一个案例。在IEEE国际Conf. 计算机视觉，第1599-1608页，2017年。[8] Qingchao Chen ， Yang Liu ， Zhaowen Wang ， IanWassell，and Kevin Chetty.用于无监督域自适应的重加权对抗自适应网络。正在进行IEEE会议计算机视觉和模式识别，第7976- 7985页，2018年。[9] 加布里埃拉·楚卡视觉应用程序的域适应：全面调查。arXiv预印本arXiv：1702.05374，2017。[10] Gabriele Fanelli ， Matthias Dantone ， Juergen Gall ，Andrea Fossati，and Luc Van Gool.用于实时3d人脸分析的随机森林。 Int. Journal of Computer Vision ， 101（3）：437[11] Geoffrey French，Michal Mackiewicz和Mark Fisher。用于域适应的自组装。arXiv预印本arXiv：1706.05208，2017。[12] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督域自适应。arXiv 预印本arXiv ： 1409.7495 ，2014。[13] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗 Journal of Machine Learning Research ， 17 （ 1 ）：2096[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[15] Jinwei Gu，Xiaodong Yang，Shalini De Mello，and JanKautz.动态面部分析：从贝叶斯滤波到递归神经网络。在IEEE会议计算机视觉和模式识别，第1531-1540页，2017年。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE计算机视觉和模式识别会议，第770-778页，2016年。[17] Peiyun Hu和Deva Ramanan寻找小脸正在进行IEEE会议计算机视觉和模式识别，第951-959页，2017年7月。[18] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。[19] 戴维斯E.王Dlib-ml：一个机器学习工具包。Journal ofMachine Learning Research，10（Jul）：1755[20] 阿米特·库马尔、阿扎德·阿拉维和拉玛·切拉帕。开普勒：通过学习有效的h-cnn回归器对无约束人脸的关键点和姿态估计第12届IEEE Int. Conf. on Automatic Face&Gesture Recognition，pages 258-265，2017.[21] Yanghao Li，Naiyan Wang，Jianping Shi，Jiaying Liu，and Xiaodi Hou.重新审视批处理规范化以实现实际的域适应.arXiv预印本arXiv：1603.04779，2016。[22] Xiabing Liu，Wei Liang，Yumeng Wang，Shuyang Li，and Mingtao Pei.使用在合成图像上训练的卷积神经网络进行3D头部姿态估计。在IEEE国际会议上图像处理，第1289-1293页，2016年。[23] Erik Murphy-Chutorian和Mohan Manubhai Trivedi。计算机视觉中的头部姿态估计：一个调查。 IEEETransactionsonPatternAnalysisandMachineIntelligence，31（4）：607[24] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS研讨会，2017年。[25] Massimilian

下载后可阅读完整内容，剩余1页未读，立即下载