无监督关键点检测方法中的回归域自适应

69 浏览量更新于2024-01-22 收藏 1.52MB PDF 举报

清华大学

计算机视觉

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6780基于回归域自适应的无监督关键点检测姜俊光1，季亦飞1，王喜梅1，刘玉峰2，王建民1，龙明生1（男）1清华大学软件学院2Y-tech、快手科技{jjg20，jiyf17，wxm17}@ mails.tsinghua.edu.cn，{jimwang，mingsheng}@tsinghua.edu.cn摘要领域自适应的目的是将知识从一个有标记的源领域转移到一个无标记的目标领域.虽然已经提出了许多DA理论和算法，但大多数都是针对分类设置的，并且可能在回归任务中失败，特别是在实际的关键点检测任务中。为了解决这个困难但重要的任务，我们提出了一种回归域自适应（RegDA）的方法来进行无监督的关键点检测。受最新理论工作的启发，我们首先使用一个对抗性回归器来最大化目标域上的差异，并训练一个特征生成器来最小化这种差异。然而，由于输出空间的高维度，该回归器无法检测偏离源的支持的为了克服这个问题，我们提出了两个重要的想法。首先，基于我们观察到输出空间的概率密度是稀疏的，我们引入了一个空间概率分布来描述这种稀疏性，然后用它来指导对抗回归器的学习。其次，为了缓解高维空间中的优化困难，我们创新性地将对抗训练中的极大极小博弈转化为两个相反目标的最小化大量的实验表明，我们的方法带来了8%至11%的改善，在不同的数据集上的PCK。1. 介绍近年来，随着深度神经网络的出现，许多计算机视觉任务取得了巨大然而，深度网络的成功依赖于大量的标记数据[14]，这通常是昂贵和耗时的收集。域自适应（DA）[21]旨在将知识从标记的源域转移到未标记的目标域，是比注释足够的目标样本更经济和实用的选择，特别是在关键点检测任务中。计算机视觉应用的快速发展导致对关键点检测的需求大幅增加，但改编前改编后图1. 在未标记的目标域上调整之前和之后的可视化。（左）适应前的错误预测通常位于其他关键点。（右）适应模型的预测看起来更像手或身体。该任务的标记比分类任务更复杂，特别是当对象被部分遮挡时，需要更多的劳动工作。相反，可以通过计算机图形处理以低成本获得大量准确标记的合成图像[27，23]。因此，在回归设置中启用域自适应以用于非监督关键点检测具有很好的前景。有许多有效的DA分类方法[17，6，22，30]，但我们根据经验发现，很少有方法适用于回归。一个可能的原因是，在分类中，类之间存在明确的特定于任务的边界通过应用域对齐，目标域上不同类之间的边界的边缘被扩大，从而帮助模型推广到未标记的目标域。然而，回归空间通常是相反连续的，即。没有明确的决策界限。同时，尽管图像具有有限的像素，但由于不同轴的组合，关键点仍然处于大的离散空间中，这对大多数DA方法构成了另一个巨大的挑战。为了解决由大输出空间引起的问题，我们深入研究了仅源关键点检测模型的预测。我们观察到，当未标记域上的预测是错误的，它们在图像上的分布并不相等例如，如果右脚踝的位置是错误的（图1），错误的预测最有可能是在左脚踝或其他关键点的位置，而不是像我们预期的那样在背景中的某个地方。这个意想不到的观察揭示了输出空间在概率意义上是稀疏的考虑一个极端6781i=1^我我 i=1我i=1稀疏的情况下，预测的位置总是位于一个关键点，那么一个特定的脚踝检测问题是一个K-路分类问题，我们可以通过扩大关键点之间的决策边界来减少域间隙这种极端的情况给了我们一个强烈的暗示，如果我们可以将整个图像空间的输出空间限制为一个只有K个关键点的较小空间，那么就有可能弥合回归和分类之间的差距。本文旨在启用回归域自适应（RegDA）。受最新的域适应理论-视差差异（DD）[30]的启发，我们首先使用一个adversarial回归器来最大化目标域上的视差，并训练一个特征生成器来最小化该视差。基于上述观察和分析，我们引入了一个空间概率分布来描述稀疏性，并使用它来指导对抗回归变量的优化该方法在一定程度上避免了输出空间过大带来的问题，并减少了自适应领域中关键点检测与分类之间的差距此外，我们还发现，最大化两个回归变量的差异是难以置信的困难（见第5.2.4节）。为此，我们将DD [30]中的极大极小博弈转化为两个相反目标的最小化。这种转换有效地克服了RegDA中对抗训练的优化困难。我们的贡献概述如下：• 我们发现了回归输出空间在概率意义下的稀疏性，这为弥合回归和分类之间的鸿沟提供了一个线索。• 提出了一种有效的回归方法RegDA，它将两个回归者之间的极大极小博弈转化为两个相反目标的最小化。• 我们对各种关键点检测任务进行了丰富的实验，并验证了我们的方法可以在PCK方面带来8%到11%的2. 相关工作域适应。大多数深度神经网络由于域转移而遭受性能下降[20]。领域自适应是将知识从源领域转移到目标领域的一种方法DAN [17]采用自适应层来最小化最优MK-MMD[7]在不同的领域。DANN [6]首先将对抗训练引入领域适应。MCD [22]使用两个特定于任务的分类器来近似HH-距离[2]在源和目标之间，并按特征将其适应MDD [30]将领域自适应理论扩展到多类分类，并提出了一种新的领域差异度量这些方法在分类问题上是有见地和有效但是很少有人研究回归问题。在我们的工作中，我们提出了一种新的训练方法，用于关键点检测中的域自适应，这是一个典型的回归问题。关键点检测。二维关键点检测技术在计算机视觉中的应用越来越广泛，成为近年来的研究热点。Tompson等人。[25]提出了一种多分辨率框架，该框架生成表示关键点的每像素可能性的热图。沙漏[18]开发了一个重复的自下而上，自上而下的架构，并通过在中间热图上应用损失来实施中间监督。Xiao等人。[29]提出了一个简单有效的模型，在ResNet上添加了一些解卷积层[9]。HRNet [24]在整个网络中保持高分辨率，并取得了显着的改善。请注意，我们的方法不是为了进一步完善网络架构，而是为了解决2D关键点检测中的域自适应问题因此，我们的方法与任何基于热图的网络兼容。以前的一些工作已经探索了DA在关键点检测，但大多数在3D关键点检测。Cai等人。[3]提出了一种借助深度图像和Zhou等人的弱监督方法。[32]利用3D几何约束引起的损失进行弱监督这些方法假设目标域上可用的2D地面实况，并使用完全监督的方法来获得2D热图。Zhou等人。[33]利用视图一致性在3D关键点检测中对来自未标记目标域的预测进行规则化，但目标域上需要来自不同视图的我们的问题设置与上述工作完全不同，因为我们在目标域上只有未标记的2D数据。热图回归的损失函数。热图回归被广泛用于关键点检测问题，其计算预测热图和地面实况热图之间的均方误差[25，28，4，5，16、24]。此外，Mask R-CNN [8]采用了交叉熵损失，其中地面实况是一个热点热图。其他一些作品[10，19]将问题视为每个像素的二进制分类随后，我们提出了一个新的基于KL-散度的损失函数，它适用于RegDA。3. 预赛3.1. 学习设置在有监督的2D关键点检测中，我们有来自X × YK的n个标记样本{（xi，yi）}n，其中X ∈RH×W×3是输入空间，Y ∈R2是输出空间，K是每个输入的关键点的数量。山姆-从分布D中独立抽取的样本记为D。目标是找到一个回归函数f∈F，它在D上具有最低的错误率err D= E（x，y）<$DL（f（x），y），其中L是我们将在4.1节讨论的损失函数。在无监督域自适应中，存在标记源域P^={（xs，ys）}n以及未标记的ta r得到域Qt={xt}m。目标是最小化errQ。6782Σ中国^K′3.2. 差异定义1（差异[30]）。给定两个假设f，f ′∈ F，我们将它们之间的差异定义为dispD（f ′，f），EDL（f ′，f）.（一）定义2（差异差异，DD [30]）。给定一个假设空间F和一个特定的回归量f ∈ F，双奇偶离散（DD）定义为：df，F（P，Q），sup（dispQ（f′，f）−dispP（f′，f））.（二）f′∈F证明了当L满足-预测热图f（xs）和地面实况H（ys）。最后的预测是在预测图hk中具有最大概率的点，即J（hk）= argmaxy∈Yhk（y）。热图学习在超级固定设置。然而，当我们将其应用到极小极大博弈的域适应，我们经验发现，它会导致一个数字爆炸。原因是f（xt）没有边界，最大化会增加预测热图上所有位置的值。为了克服这个问题，我们首先定义空间概率分布PT（yk），其在空间维度上对热图H（yk）进行归一化H（yk）h，w等式，目标域上的预期误差errQ（f）为严格有界的四项之和：经验误差PT（yk）h，w= H′h′=1′w′=1H（yk）h′，w′.（六）在源域errP^（f）上，得到源和目标之间的经验视差差f，F（P^，Q^），理想误差用σ表示空间softmax函数，exp（zλ和复杂度项[30]。因此，我们的任务变成了σ（z）h，w=H′W′（h，w）.（七）最小误差P^（f）+df，F（P^，Q^）.（三）h′=1w′=1exp（zh′，w′）f∈F然后我们可以使用KL-散度来测量差异，S我们训练了一个特征生成器网络f（见图2），它接受输入x，以及回归器网络f和f′，它们接受来自f的特征。我们通过最大化视差差异（DD）来近似等式（2）中的预测的空间概率p=（σ_f）（x_s）∈R_K×H×W和地面真值标签y_s，L（ps，ys），1KL（P（ys）||ps）。（八）maxD（P^，Q^）=ExtQ^ L（（f′）（xt），（f）（xt））TKTk kKF-ExsP^L（（f ′∞）（xs），（f∞）（xs））.（四）在监督设置中，使用KL发散训练的模型与使用当回归量f′接近上确界时，最小化下列项将有效地降低errQL2 损失，因为这两种模式都提供了像素级超pervision。由于σ（z）在空间维度上的和为1，因此LT（ps，ys）的最大化将不会导致数值最小Ea，f（xs，ys）P^L（（f）（xs），ys）+ηD（P^，Q^），（五）卡尔爆炸。在我们接下来的讨论中，默认情况下使用KL4.2.空间密度其中η >0是权衡系数。y！y！Y图2. 关键点检测设置下的DD架构。来源风险errP！DDdf，n（P，））ƒƒƒY67834. 方法4.1. 监督关键点检测关键点检测的大多数最佳性能方法[29，′ ′24，18]生成似然热图H（yk）∈RH×W对于每个关键点yk。热图通常具有以地面实况位置yk为中心的2D高斯斑点。然后，我们可以使用L2距离来测量与分类模型相比，关键点检测模型的输出空间要大得多，通常为64×64。注意，对抗性回归量f′的优化目标是最大化f′和f在目标域上的预测，并最小化源域上的视差换句话说，我们正在寻找一个对抗性回归因子f′，它在源域上正确预测，同时在目标域上尽可能多地犯。然而，在dSprites上的实验中（详见5.1节），我们发现增加对抗回归器f′的输出空间会使目标域上的最终性能因此，输出空间的维数对对抗性回归有很大的影响当输出空间太大时，很难找到只在目标域上表现不佳的对抗回归变量f ′。因此，如何减小对抗性回归的输出空间的大小成为一个迫切需要解决的问题。作为6784′^^^^）h，w=FW′kh，w我们前面提到过（见图1），当模型在未标记的目标域上出错时，不同位置的概率是不一样的。例如，当模型错误地预测右脚踝的位置时（见图3），最有可能预测的是左脚踝的位置，偶尔预测其他关键点，很少预测背景上的位置。因此，当输入给定时，输出空间在概率意义上是不均匀的。这种空间密度是稀疏的，即，某些位置具有较大的概率，而大多数位置具有接近于零的概率。为了更有效地探索这个空间，f′应该更多地关注具有高概率的位置。由于错误的预测通常位于其他关键点，我们总结了它们的热图，Σ分布是明确的。随着空间中每个位置的概率变得更接近，两个概率分布也将变得更接近。但KL-散度的最大化将导致结果的不确定性。因为在许多情况下，两个分布是不同的，例如，方差不同或均值不同。在关键点检测中，我们通常使用PCK（详见5.2.3节）来衡量模型的质量。只要模型的输出接近地面实况，它就被认为是正确的预测。因此，我们更关注预测值与真实值相差甚远的目标样本。换句话说，我们希望在最大化目标视差之后，预测分布的平均值之间存在很大差异（y应不同于图4中的y）。然而，实验表明，′HF（y^k）h，w=H（y^k′）h，w，（9）在广告训练期间，y^和y^几乎相同k′/=k其中yk是主回归量f的预测。然后将映射HF（yk）正规化为广义伪分布，（见第5.2.4节）。换句话说，最大化KL主要改变输出分布的方差。原因是KL是在空间中逐点计算的。当我们最大化KL时，峰值点的概率值′H（y^）KH′（图4中的y^）减小，并且其他p-.（十）位置将均匀增加。最终，方差h′=1w′=1HF（y^k）h′，w′输出分布增加，但分布的平均值它不会发生显著变化，这完全是我们用PF（yk）来近似空间概率分布，假设模型在不同的位置会出错我们将用它来指导4.3节中对f′的探索。在期望的意义对抗性回归量的输出空间的大小减小。本质上，我们是利用空间密度的稀疏性来缓解高维输出空间中的极大极小博弈S与我们预期的行为不一致由于f′和f的最终预测值几乎相同，f′很难检测出偏离源域支持度的目标样本。因此，极大极小博弈的效果很小*：predictionsoff$*+′：pre dictionsoff$ &图3.任务是预测右脚踝的位置在源域上的f和f′的预测（黄色）在右脚踝附近。f在目标域（蓝色）上的预测有时是错误的，位于左脚踝或其他关键点。 f ′在目标域上的预测（橙色）为鼓励在其他关键点定位，以便检测样本远离右脚踝的支撑4.3. 目标差异的极大极小除了上面讨论的问题，还有一个问题，在目标差距的极大极小博弈。理论上，最小化两个之间的KL-散度图4.当我们最大化f ′和f（固定）预测之间的KL-散度时，我们期望最大化均值差，但实际变化的往往只是方差。既然最小化不能得到我们期望的行为，我们能不能避免使用它，而只在对抗训练中使用最小化？答案是肯定的。我们之前必须最大化的原因是我们只有一个优化目标。如果我们有两个物理意义相反的目标，那么这两个目标的最小化可以起到极大极小博弈的作用。我们现在的任务是为对抗性回归器和特征生成器设计两个相反的目标。特征生成器的目标是最小化目标视差或最小化f′和f的预测之间的KL发散。对抗回归器的目标是最大化目标差异，我们通过最小化预测之间的KL分歧来实现这一目标。安全目标目标ƒƒY观察到的行为预期行为ƒYƒƒYƒy$y$′y$y$′PF（y^6785ƒxQtf′和f的地面错误预测，K目标2：M_ax_ imize_d是在ta_ get上的奇偶校验（F_ix_max_and_max_，update_max_Y）地面伪距预测L（p′，p），1KL（P（J（p））||p′），（11）FKFkkK其中p′=（σ）（xt）是f′的预测，p是f的预测。与直接最大化与f的地面实况预测的距离相比，最小化LF可以利用空间稀疏性并有效地改变输出分布的均值现在我们用图3来解释公式（11）。假设我们在输出空间中为每个关键点提供K个支持。标记的源域（黄色）上的输出将落入正确的支持。但是对于目标域上的输出，左脚踝的位置可能会与右脚踝混淆。这些是远离支撑物的样品。通过最小化LF，我们误导f′预测右脚踝等其他关键点，这鼓励对抗回归器f′检测远离右脚踝支撑的目标样本然后，我们训练特征生成器网络，通过在目标域上最小化LT来欺骗对抗回归器f′这鼓励在右脚踝的支撑附近生成目标特征。重复这种对抗性学习步骤，最终目标特征将与源特征的支持对齐。4.4. 总体目标最后的培训目标总结如下。虽然在不同的步骤中描述，这些损失函数在一个统一的框架中同时优化。目的1.首先，我们训练生成器f和回归器f来正确检测源样本。此外，我们训练对抗回归器f′，以最小化其与源域上f的差异目标如下：KL阿勒特目标3：在最小化d中的M是在目标上的奇偶校验（Fix_get ，Fix_Y，update_time）地面实况预测KL图5.对抗性训练目标。我们的网络有三个部分：特征生成器f，回归器f和对抗回归器f′。目标2：f′学习最大化目标视差，最小化它的KL与地面错误预测的f。目的3：学习通过最小化f′的预测与f的地面实况预测之间的KL来最小化目标差异。5. 实验首先，我们在一个名为dSprites的玩具数据集上进行实验，以说明高维对极大极小博弈的影响然后我们在现实世界包括手部数据集（ RHD→H3D ）和人类数据集（SURREAL→Human3.6M，SURREAL→LSP），以验证我们的RegDA方法的有效性。我们设η=1、所有数据集代码可以在https：//github上找到。com/thuml/Transfer-Learning-Library。最小En，f，f′（xs，ys）P^（LT（（σf）（xs），ys）（十二）5.1. 玩具数据集+ηLT（（σ）（xs），（J）（xs）.目标2. 此外，我们需要对抗回归器f ′通过最小化LF来增加其与目标域上f的差异。通过最大化目标域上的视差，f′可以检测出偏离源支持度很远的目标样本这对应于图5中的目标2，其可以形式化如下，数据集DSprites是一个2D合成数据集（见图6）。它由三个领域组成：颜色（ C ），噪音（ N ）和尖叫（S），每个领域有737， 280张图像。有四个回归因子，我们将重点关注其中两个：位置X和Y。我们为关键点生成一个64×64的热图。实验在C→N、C→S、N→C、N→S、S→C和S→N六个迁移任务上进行。最小ηEf′^LF（（σ f ′）（xt），（f）（xt））.（十三）颜色目标3. 最后，生成器需要最小化目标域上当前回归量f和f′之间的差异这对应于图5中的目标3，嘈杂+FJƒƒY更新一+$100美元ƒƒ最新消息ƒY一6786xQt尖叫最小ηEψ^ηLT（（σ）（xt），（J）（xt））.（十四）图6. dSpirtes数据集中的一些示例图像。6787^^Σ中国实现细节我们微调了ResNet18 [9]在ImageNet上进行的预训练。Simple Baseline [29]被用作我们的探测器头，并且从头开始训练，学习率是较低层的10倍我们采用小批量SGD，动量为0。9，批量为36。学习率由η p= η0（1 + αp）−β调整，其中p是训练步数，η0= 0。1，α = 0。0001且β = 0。七十五。所有模型都经过20 k次迭代的训练，我们只报告它们在目标域上的最终MAE。我们主要将我们的方法与DD [30]进行比较，后者是为分类而设计的。我们将其扩展到关键点检测，用L T代替交叉熵损失。DD和我们的方法中的主回归器f和对抗回归器f ′都是具有256个通道的2层卷积神经网络。由于每个图像在dSprites中只有一个关键点，因此我们不能根据等式（10）生成PF（y）。然而，我们发现对于dSprites中的每个图像，关键点只出现在中间区域A ={（h，w）|16 ≤h≤47，16≤w≤47}。因此，我们只分配A内的正概率位置，利用这种基本假分布比最大化与基本真值的距离更有效。5.2. 手部关键点检测实验5.2.1数据集RHD渲染手部姿势数据集（RHD）[34]是一个合成数据集，包含41，258张训练图像和2，728张测试图像，为21个手部关键点提供精确注释。它涵盖了各种各样的视点和困难的手部姿势，但该数据集中的手部与现实中的手部具有非常不同的外观（参见图7）。图7. RHD数据集中的一些注释图像。H3 DHand-3D-Studio（H3 D）[31]是一个真实世界的手部彩色图像数据集，包含10个不同性别和肤色的人，总共22k帧我们随机选择3。2k帧作为测试集，剩余部分作为HF（y）h，w=a∈A，a=/H（a）h，wy^（十五）训练集。由于H3D中的图像是从视频中采样的，因此许多图像在外观上具有很高的相似性。因此，模型在H3D（Oracle）的训练集上训练P（y^）=HF（y^）h，w.在测试集上实现高精度。这种取样策略-Fh，wH′h′=1′w′=1HF（y^）h′，w′EGY在域自适应设置中是合理的，因为我们不能访问目标域上的标签。然后，我们最小化LF以最大化目标视差。注意等式（15）将原始空间从64×64缩小到32×32。然而，这种从最大化到最小化的转换已经实现了显著的性能增益在dSprites上。表1表明，这种转换在相对意义上将误差减少了63%表1. 不同源和目标域的dSprites上的MAE最后一行（oracle）对应于在目标域上使用监督数据（下限）进行训练。方法C→N C→S N→C N→S S→C S→NAvg[29]第二十九话0.495 0.256 0.371 0.639 0.030 0.090 0.314DD [30]0.037 0.078 0.054 0.239 0.020 0.044 0.079RegDA0.020 0.028 0.019 0.069 0.014 0.022 0.029Oracle0.016 0.022 0.014 0.022 0.014 0.016 0.017从这个实验中我们可以得出几个结论1. 输出空间的维数对对抗性回归变量f′的极大极小博弈有着巨大的影响。随着输出空间的扩大，f′的最大化将越来越困难。2. 当f′输出的概率分布不均匀，我们的目标是最大化目标域上的差异，最小化距离5.2.2培训详细信息我们评估了 Simple Baseline [29] 的性能，其中ResNet101 [9]作为骨干。只有源模型是用L2训练的。所有参数都是监督设置下的最佳参数。基本学习率为1 e-3。它在45个时期下降到1 e-4，在60个时期下降到1 e-5。总共有70个时期小批量尺寸是32。每个纪元有500步请注意，70个epoch完全足以让模型在源域和目标域上收敛。Adam [13] opti-mizer被使用（我们发现SGD [1] optimizer在与L2结合时将达到非常低的精度）。在我们的方法中，简单基线首先使用LT进行训练，仅使用与源相同的学习率调度。然后采用该模型作为特征生成器进行训练在另外30个时期内进行极大极小博弈。主回归量f和对抗回归量f′都是宽度为256的2层卷积网络。根据[6]，回归器的学习速率设置为特征生成器的学习速率的10倍为了优化，我们使用Nesterov 动量为0的小批量SGD。9 .第九条。我们将我们的方法与几种特征级域自适应方法进行了比较，包括DAN[17]，DANN[6]，MCD[22][23][24][25]所有方法都是在源上训练的6788DD（minimaxonLT）MinimaxonL F我们DD（minimaxonLT）Minimax onLF我们提供的信息差异||y′y||′f′的精度^ ^您的位置：域70个时期，然后与目标域上的未标记数据微调30个时期。我们报告所有方法的最终PCK以进行公平比较。5.2.3结果正确关键点百分比（PCK）用于评估。如果一个估计与地面真实值的距离小于α= 0的分数，则该估计被认为是正确的。图像尺寸的5倍。我们报告所有21个关键点的平均PCK。我们还报告了手的不同部位的PCK，例如如掌指（MCP）、近端指间（PIP）、远端指间（DIP）和指尖。结果见表2。在我们的实验中，大多数现有的域自适应方法在真正的关键点检测任务上表现不佳它们的准确度比仅源代码低，并且它们在测试集上的准确度在训练过程中变化很大。相比之下，我们的方法具有信号-显著提高了手部各位置的准确度，平均准确度提高了10.7%。表2. 任务RHD→H3D上的PCK。最后一行（oracle）对应于使用监督数据在H3D上进行训练（域自适应性能的上限）。对于所有类型的关键点，我们的方法仅在相当程度上优于源代码。方法MCPPIP烫指尖Avg5.2.4消融研究我们还进行了消融研究，以说明如何最小化和最大化影响域适应。表3显示了结果。第一行是DD，它在L T上进行极大极小博弈。第二排在L F上玩最小-最大游戏。最后一行是我们的方法，它分别缩小了两个相反的目标。我们提出的方法优于前两种方法的一个很大的保证金。表3.靶视差极大极小的烧蚀研究方法f′ψMCPPIP烫指尖AvgDD [30] 最大LT 最小LT72.769.6 66.254.465.2最小LF 最大LF74.471.1 66.956.466.5RegDA最小LF 最小LT79.674.4 71.262.972.5图9显示了训练过程。对于DD，预测的差异||y−y||在整个训练过程中都很小，这意味着最大化LT将使对抗回归因子f ′变弱。对于在LF上取极小极大的方法，预测的差异不断扩大，f′的性能逐渐下降。因此，使LF最大化将使生成器k太弱。相比之下，我们的方法的预测差异首先增加，然后逐渐增加。在对抗训练期间，ually收敛到零随着训练的进行，f和f′的精度在目标域上稳步提高因此，使用两个最小化是在大的离散输出空间中实现对抗训练的最有效方法0.70.700.60.680.660.50.64 0.4我们在图8中可视化了调整前后的结果。正如我们在介绍中提到的，仅源的错误预测通常位于其他关键点的位置，导致预测的骨架看起来不像人手。令我们惊讶的是，尽管我们没有对模型的输出施加约束（例如骨质流失[32]），但自适应模型（RegDA）的输出自动看起来更像人手。0.620.6000.400.350.300.250.200.152000 4000 6000 8000步骤(a) F的准确性0.30.214121086DD（minimaxonLT）Minimax onLF我们0 2000 4000 6000 8000步骤(b) f的精度0.104源仅0.050.000 2000 4000 6000 8000步骤(c) 精度差分200 2000 4000 6000 8000步骤(d) 预测差值我们地面实况图8.H3D数据集中某些图像的定性结果图9. 培训过程中的经验统计。5.3. 人体关键点检测实验我们进一步评估我们的方法对人体关键点检测任务。培训内容同5.2.2。f′的准确度DD（minimaxonLT）Minimax onLF我们F的准确度[29]第二十九话67.464.263.354.861.8丹麦[17]59.057.056.348.455.1DANN [6]67.362.660.951.260.6[22]第二十二话59.156.154.746.954.6DD [30]72.769.666.254.465.2RegDA79.674.471.262.972.5Oracle97.797.295.792.595.867895.3.1数据集SURREALSURREAL[26]是一个合成数据集，由室内背景下运动中的人的单目视频组成（见图10）。SUREAL中有超过600万帧。表4. 任务SURREAL→Human3.6M上的PCK。Sld：肩，Elb：肘。方法SLDELB手腕髋膝脚踝AvgOracle95.3 91.886.995.6 94.193.692.9图10. SURREAL数据集中的一些注释图像。Human3.6MHuman3.6M是一个大规模的现实世界表5.任务SUREAL→LSP上的PCK。Sld：肩，Elb：肘。视频数据集捕获在室内环境中，与3。6总计100万帧。它包含人类角色执行动作的视频。我们将视频从50fps降采样到10fps以减少冗余。按照[15]中的标准，我们使用5名受试者（S1，S5，S6，S7，S8）进行训练，其余2名受试者（S9，S11）进行测试。LSPLeeds Sports Pose（LSP）[12]是一个真实世界的数据集，包含从体育活动中收集的带有注释的人体关节位置的2k图像。LSP中的图像是在野外拍摄的，看起来与那些室内合成图像5.3.2结果为了进行评估，我们还使用5.2.3中定义的PCK。由于不同数据集定义的关键点不同，我们选择共享的关键点（如肩、肘、腕、髋、膝）并报告其PCK。如表4和表5所示，我们的RegDA方法仅在身体的所有位置处显著优于在Human3.6M和LSP上，平均准确率分别提高了8.3%和10.7%。图11和12显示了可视化结果。适应前的模型往往无法区分左右，甚至手和脚。我们的RegDA方法有效地帮助模型区分未标记域上的不同关键点。6. 结论在本文中，我们提出了一种新的方法来实现关键点检测中的回归域自适应，该方法利用回归输出空间的稀疏性来帮助在高维空间中进行对抗训练。我们使用空间概率分布来指导对抗回归的优化，并执行两个相反目标的最小化来解决优化困难。在手部关键点检测和人体关键点检测数据集上进行了大量的实验。我们的方法超越了源只有模型的一个很大的利润率和执行国家的最先进的域自适应方法。源仅我们地面实况图11. Human3.6M数据集中某些图像的定性结果。请注意，蓝线上的关键点在不同的数据集之间不共享。源仅我们地面实况图12.LSP数据集中某些图像的定性结果致谢本课题得到了国家重点研发计划（ 2020AAA0109201 ）、国家自然科学基金资助（62022050）、62021002、61772299、71690231）、北京新星计划（Z201100006820041）、中国MoE创新计划、快手科技基金。[29]第二十九话69.4 75.466.437.977.377.767.3丹麦[17]68.1 77.562.330.478.479.466.0DANN [6]66.2 73.161.835.475.073.864.2[22]第二十二话60.3 63.645.028.763.765.454.5DD [30]71.6 83.375.142.176.276.170.7方法SLDELB手腕髋膝脚踝Avg[29]第二十九话51.5 65.062.968.068.767.463.9丹麦[17]52.2 62.958.971.068.165.163.0DANN [6]50.2 62.458.867.766.365.261.8[22]第二十二话46.2 53.446.157.753.952.151.6DD [30]28.4 65.956.875.074.373.962.46790引用[1] 甘利反向传播和随机梯度下降法。神经计算，第185- 196页[2] Shai Ben-David ， John Blitzer，Koby Crammer ，AlexKulesza，Fernando Pereira，and Jennifer WortmanVaughan. 从不同领域学习的理论 Machinelearning，79（1-2）：151[3] 蔡玉君，刘浩哥，蔡剑飞，关于Junsong元基于单目rgb图像的弱监督三维手势估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第666-682页[4] 陈宇，沈春华，魏秀申，凌巧刘，杨健。对抗posenet：一个结构感知的卷积网络，用于人体姿势估计。在IEEE计算机视觉集，第1212[5] 萧楚，魏扬，欧阳万里，马成，Alan L Yuille和Xiaogang Wang。用于人体姿态估计的多上下文在IEEE计算机视觉和模式识别会议论文集，第1831-1840页[6] YaroslavGanin ， EvgeniyaUstinova ， HanaAjakan，帕斯卡尔·热尔曼，雨果·拉罗谢尔，弗朗索瓦·拉维奥莱特，马里奥·马尚，维克多·伦皮茨基。神经网络的领域对抗训练。机器学习研究杂志，17（1）：2096[7] 亚瑟·格雷顿，迪诺·赛迪诺维奇，海科·斯特拉斯曼，Sivaraman Balakrishnan ， Massimiliano Pontil ，Kenji Mamizu，and Bharath K Sriperumbudur.大规模两样本检验的最优核选择。神经信息处理系统的进展，第1205-1213页，2012年[8] Kaiming He，Geor gia Gkioxari，Piotr Dolla'r，andRoss女孩面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，andJian太阳用于图像识别的深度残差学习。 IEEE计算机视觉和模式识别，第770-778页，2016年[10] Eldar Insafutdinov ， Leonid Pishchulin ， BjoernAndres，Mykhaylo Andriluka和Bernt Schiele Deepercut：更深、更强、更快的多人姿势估计模型。欧洲计算机视觉会议，第34-50页。Springer，2016.[11] Catalin Ionescu ， Dragos Papava ， Vlad Olaru 和Cris-斯明奇塞斯库。人类3。6m：大规模数据集和预测方法，用于自然环境中的3D人体感知。IEEEtransactionsonpatternanalysisandmachineintelligence，36（7）：1325[12] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的非线性姿态和非线性外观模型。在bmvc，第2卷，第5页。Citeseer，2010.[13] 迪德里克·P·金马和吉米·巴。亚当：一种方法用于随机优化。 In Yoonge Bengio and YannLeCun，editors，ICLR，2015.[14] 亚历克斯·克里热夫斯基，伊利亚·苏茨科沃杰弗里·E辛顿用深度卷积神经网络进行图像网分类。Communications of the ACM，60（6）：84[15] Sijin Li和Antoni B.陈三维人体姿态估计用深度卷积神经网络从单目图像中提取图像。InACCV，2014.[16] 李文博，王志成，尹斌义，彭启祥，Yuming Du ， Tianzi Xiao ， Gang Yu ， HongtaoLu，Yichen Wei，and Jian Sun.重新思考多阶段网路的人体姿势估测。 arXiv 预印本 arXiv ：1901.00148，2019。[17] 龙明生，曹悦，王建民，迈克尔·乔丹使用深度适应网络学习可转移特征。国际机器学习会议，第97-105页。PMLR，2015年。[18]Alejandro Newell，Kaiyu Yang，and Jia Deng.堆叠沙漏网络用于人体姿态估计。在欧洲计算机视觉会议，第483499. Springer，2016.[19] 乔治·帕潘德里欧，泰勒·朱，金泽诺里，亚历山大·托舍夫，乔纳森·汤普森，克里斯·布雷格勒和凯文·墨菲。在野外实现多人姿态的精确估计。在IEEE计算机视觉和模式识别会议论文集，第4903-4911页[20] JoaquinQuinBogonero-Canadian，MasashiSugiyama，An-唐·施瓦伊格尔和N·劳伦斯。协变量移动和分布匹配的局部学习，2008年。[21] Kate Saenko，Brian Kulis，Mario Fritz和Trevor达雷尔使视觉类别模型适应新的领域。欧洲计算机视觉会议，第213-226页。Springer，2010.[22] 斋藤邦昭、渡边康平、牛久义孝、原田达也无监督域自适应的最大分类器在IEEE计算机视觉和模式识别集，第3723-3732页[23] Baochen Sun和Kate Saenko。从虚拟到现实-ity：虚拟对象检测器对真实域的快速适应。在BMVC，第1卷，第3页，2014中。[24] 孙克，肖斌，刘东，王敬东。用于人类姿势估计的深度高分辨率表示学习。在IEEE计算机视觉和模式识别会议论文集，第5693-5703页[25]Jonathan J Tomp

下载后可阅读完整内容，剩余1页未读，立即下载