合成动物关键点解析

67 浏览量更新于2023-10-25 收藏 13.84MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1123860从合成动物中学习0Jiteng Mu�，Weichao Qiu�，Gregory Hager，AlanYuille约翰霍普金斯大学0jitengmu@jhu.edu，hager@cs.jhu.edu，{qiuwch，alan.l.yuille}@gmail.com0摘要0尽管在人体解析方面取得了巨大成功，但解析其他可变形关节对象（如动物）的进展仍受到缺乏标注数据的限制。在本文中，我们使用合成图像和从CAD动物模型生成的真实标注来解决这一挑战。为了弥合真实图像和合成图像之间的领域差距，我们提出了一种新颖的一致性约束半监督学习方法（CC-SSL）。我们的方法利用空间和时间一致性来利用未标注的真实图像对在合成数据上训练的弱模型进行引导。我们在高度可变形的动物（如马和老虎）上展示了我们方法的有效性。在不使用任何真实图像标签的情况下，我们的方法可以在真实图像上准确预测关键点。此外，我们定量地证明了使用合成数据的模型在Visual Domain AdaptationChallenge数据集的不同领域中比在真实图像上训练的模型具有更好的泛化性能。我们的合成数据集包含10多种动物，姿势多样且具有丰富的真实标注，这使我们能够使用多任务学习策略进一步提升模型的性能。01. 引言0由于存在大规模注释数据集和强大的卷积神经网络（CNNs），人体解析的状态已经迅速发展。相比之下，对动物解析的先前工作很少。解析动物对于许多任务都很重要，包括但不限于监测野生动物行为、开发仿生机器人、构建动作捕捉系统等。解析动物的一个主要问题是数据集的限制。虽然许多包含动物的数据集用于分类、边界框检测和实例分割，但只有少数数据集用于解析动物关键点和部位。为动物注释大规模数据集的成本非常高昂。因此，0�表示相等的贡献。0大多数现有的人体解析方法通常需要大量的标注数据[1,32]，不太适用于动物解析。0在这项工作中，我们使用合成数据来解决这一挑战。许多研究[34,29]表明，通过同时使用合成图像和真实图像，模型可以取得优秀的结果。此外，与真实世界数据集相比，合成数据还具有许多独特的优势。首先，与捕捉和注释真实世界图像相比，以规模为基础生成具有丰富真实标注的合成数据更加容易和廉价。其次，合成数据还可以为在自然图像中难以获取的情况提供准确的真实标注，例如标注光流[11]或遮挡和低分辨率。第三，真实世界数据集通常存在长尾问题，即罕见情况的表示较少。生成的合成数据集可以通过采样渲染参数来避免这个问题。0然而，合成图像和真实图像之间存在着较大的领域差距[7,38,14]，这阻碍了在合成数据上训练的模型在真实世界图像上的泛化能力。此外，合成数据也受到物体多样性的限制。ShapeNet [6]已经包含了多样化的3D模型，SMPL[24]则用于人体。然而，创建如此多样化的合成模型是一项困难的任务，需要捕捉外观并将骨架附加到物体上。此外，考虑到世界上动物类别的数量，为每种动物创建多样化的合成模型以及逼真的纹理几乎是不可行的。0在本文中，我们提出了一种使用合成CAD模型进行训练的方法。我们的方法可以仅使用一个单一的CAD动物模型实现高性能。我们在无标签真实图像上生成伪标签进行半监督学习。为了处理噪声伪标签，我们设计了三个一致性检查准则来评估预测标签的质量，我们将其称为一致性约束的半监督学习（CC-SSL）。通过大量实验证明，我们的模型在不使用任何真实图像的注释的情况下，可以达到与在真实数据上训练的模型相似的性能。它也优于其他域自适应方法。123870输入输出02D姿势0泛化0部分分割0CAD模型0无标签真实图像0渲染器0真实标签0渲染的合成图像0图1.概述。我们通过随机采样渲染参数，包括相机视角、光照、纹理和姿势，生成一个合成动物数据集。该数据集包含10多种动物，以及密集的2D关键点、部分分割和深度图等丰富的真实标签。通过合成数据集，我们提出了一种有效的方法，可以在不同领域中准确预测关键点。除了2D姿势估计，我们还展示了模型可以准确预测部分分割。0通过大幅度提供真实图像注释，性能可以进一步提高。此外，我们证明了使用合成数据训练的模型在多个视觉领域中表现出更好的域泛化性能，与在真实数据上训练的模型相比。代码可在https://github.com/JitengMu/Learning-from-Synthetic-Animals找到。我们总结了本文的贡献如下。首先，我们提出了一种一致性约束的半监督学习框架（CC-SSL），用于学习一个单一的CAD对象模型。我们展示了使用合成数据和无标签真实图像训练的模型可以在真实图像上准确地预测关键点。其次，当使用真实图像标签时，我们展示了在合成和真实图像上联合训练的模型相比仅在真实图像上训练的模型取得更好的结果。第三，我们在Visual DomainAdaptationChallenge数据集中评估了我们学习到的模型在不同视觉领域中的泛化能力，并定量证明了使用合成数据训练的模型比在真实图像上训练的模型具有更好的泛化性能。最后，我们生成了一个包含10多种不同动物CAD模型的动物数据集，并展示了该数据可以有效用于2D姿势估计、部分分割和多任务学习。02. 相关工作02.1. 动物解析0虽然存在大规模的动物数据集，用于分类、检测和实例分割，但仅有少数数据集用于姿势估计。0估计[28, 39, 5, 27,20]和动物部分分割[8]。此外，标注关键点或部位是耗时的，并且这些数据集只覆盖了世界上很小一部分动物物种。由于缺乏注释，合成数据已被广泛用于解决这个问题[43, 3,44,45]。类似于人类的SMPL模型[24]，[45]提出了一种学习动物关节SMAL形状模型的方法。后来，[44]提取了更多的3D形状细节，并能够建模新物种。不幸的是，这些方法都是建立在手动提取的轮廓和关键点注释的基础上的。最近，[43]提出了一种方法，可以从真实动物中复制纹理，并以端到端的方式预测动物的3D网格。与[3]最相关的是，作者提出了一种在真实图像上使用合成轮廓估计动物姿势的方法。与[3]不同的是，在推理过程中，[3]需要一个额外的鲁棒分割模型来处理真实图像，而我们的策略不需要任何额外的模型。02.2. 无监督领域自适应0无监督领域自适应侧重于学习一个模型，当提供带标签的源样本和无标签的目标样本时，在目标领域上能够良好工作。一些图像到图像转换方法[22, 40,15]被提出来将图像从不同的领域进行转换。另一方面，研究如何明确地最小化某些特征差异度量，例如最大均值差异[37, 23]或相关距离[33,35]。[4]提出了将特征明确地分为共享空间和私有空间的方法。最近，对抗损失[36,14]被用来学习领域不变的特征，其中一个领域分类器被训练来区分源领域和目标分布。123880[36]提出了一个通用框架来使不同领域的特征更加接近。[14,25]通过循环一致性扩展了这个想法以改进结果。最近的研究还探讨了如何使用这些技术来推动可变形物体解析。[7]研究了使用合成人体图像结合领域自适应来改进人体三维姿态估计。[38]渲染了145个逼真的合成人体模型来减小领域差距。与以前需要大量逼真的合成模型的工作不同，我们展示了在一个CAD模型上训练的模型可以学习到领域不变的特征。02.3. 自训练0自训练在半监督学习中被证明是有效的。早期的工作[19]将深度自训练与熵正则化联系起来。然而，由于生成的伪标签是有噪声的，一些方法[17, 10, 41, 42, 18, 12, 21, 9, 30,31]被提出来解决这个问题。[41,42]将自训练形式化为一种通用的EM算法，并提出了一种置信度正则化的自训练框架。[18]提出了一种自集成框架，使用无标签数据引导模型。[12]将之前的工作扩展到无监督领域自适应，并证明了其在弥合领域差距方面的有效性。与我们关于2D姿态估计的工作密切相关的是[30]，其中作者提出了一种简单的方法，用于从无标签数据中提取知识，并展示了其在检测和姿态估计上的有效性。然而，在存在较大领域差异的情况下，教师模型分配高置信度伪标签的假设并不保证成立。为了解决这个问题，我们引入了一种课程学习策略[2, 13,16]，逐渐增加伪标签并在迭代中训练模型。我们还通过利用空间和时间一致性扩展了[30]。03. 方法0我们首先在第3.1节中基于低维流形假设制定了一个统一的图像生成过程。在第3.2节中，我们定义了三个一致性，并讨论了如何在伪标签生成过程中利用这些一致性。然后在第3.3节中，我们提出了一种使用一致性检查的伪标签生成算法。接下来，在第3.4节中，我们提出了一种一致性约束的半监督学习算法，并讨论了迭代训练流程。最后，在第3.5节中，我们解释了我们如何生成合成数据集。我们考虑在无监督领域自适应框架下的两个数据集的问题。我们将合成数据集命名为源数据集(Xs，Ys)，将真实图像命名为目标数据集Xt。目标是学习一个0使用模型f来预测目标数据Xt的标签。我们简单地使用配对数据(Xs，Ys)完全监督地学习源模型fs。然后，我们使用具有一致性约束的半监督学习方法对源模型进行引导。流程概述如图2所示。03.1. 形式化图像生成过程0为了学习使用合成数据的模型能够很好地推广到真实数据，需要假设这两个领域之间存在一些共享的基本知识。以动物2D姿态估计为例，虽然合成和自然图像在纹理和背景上看起来不同，但在姿势和形状方面非常相似。实际上，这正是我们希望在合成数据上训练的模型能够学到的。因此，理想的模型应该能够捕捉这些基本因素，并忽略那些不太相关的因素，如光照和背景。形式上，我们引入一个生成器G，将姿势、形状、视点、纹理等转化为图像。数学上，我们将所有这些因素分为两个类别，与任务相关的因素α，这是模型关心的内容，和其他因素β，与手头任务无关。因此，我们将图像生成过程参数化如下。0X = G(α, β) (1)0其中X是生成的图像，G表示生成器。具体来说，对于2D姿态估计，α表示与2D关键点相关的因素，如姿势和形状；β表示与α无关的因素，可以是纹理、光照和背景等。03.2. 一致性0根据第3.1节中的公式，我们定义了三个一致性，并讨论了如何利用这些一致性来进行伪标签生成过程。由于目标数据集上模型生成的标签是有噪声的，需要告诉模型哪些预测是正确的，哪些是错误的。直观地说，理想的2D关键点检测器应该在一个图像上生成一致的预测，无论背景如何扰动。此外，如果旋转图像，预测也应相应地改变。基于这些直觉，我们提出使用一致性检查来减少误报。在下面的段落中，我们将介绍不变性一致性、等变性一致性和时间一致性。我们将讨论如何使用一致性检查生成伪标签，这是提出的半监督学习方法的基础。应用于图像的变换可以被视为直接转换方程1中的潜在因素。我们定义一个通用的张量算子T：123890合成数据集0伪标签生成（PL-Ge）0PL-Ge0训练0PL-Ge0训练0无标签真实数据集0自学习集成0图2.一致性约束的半监督学习流程。Tβ表示不变性一致性，Tα表示等变性一致性，T∆表示时间一致性。训练过程可以描述如下：首先，我们使用提出的伪标签生成算法1生成标签ˆY(n)t。接下来，我们使用(Xs, Ys)和(Xt, ˆY(n)t)共同训练模型，进行第n次迭代。0RH × W → RH ×W。此外，我们引入τα对应于会影响α的操作，τβ表示与α无关的操作。然后方程1可以表示为以下形式。0T(X) = G(τα(α), τβ(β)) (2)0我们使用 f: RH × W → RH × W来表示完美的2D姿态估计模型。当将 f应用于方程2时，很明显，f[T(X)] = f[G(τα(α),τβ(β))]。不变性一致性：如果变换T不改变与任务相关的因素，模型的预测应该是相同的。这里的想法是，一个良好行为的模型应该对β的操作具有不变性。例如，在2D姿态估计中，向图像添加噪声或扰动颜色不应影响模型的预测。我们将这些变换命名为不变性变换Tβ，如方程3所示。0f[Tβ(X)] = f(X) (3)0如果我们对同一图像应用多个不变性变换，那么对这些变换后的图像的预测应该是一致的。这种一致性可以用来验证预测是否正确，我们称之为不变性一致性。等变性一致性：除了不变性变换，还有其他情况下任务相关因素发生变化。我们用Tα表示与操作τα相关的变换。有一些特殊情况下，我们可以很容易地得到相应的Tα。一个简单的情况是，有时候τα的效果只会导致2D图像中的几何变换，我们称之为等变性变换Tα。0实际上，这与[30]提出的方法本质上是相似的。因此，我们有如方程4所示的等变性一致性。0f[Tα(X)] = Tα[f(X)] (4)0我们还可以很容易地证明f(X) =T-1α[f[Tα(X)]]，这意味着，在应用逆变换T-1α后，一个好的模型应该能够恢复原始的预测结果。时间一致性：对于建模视频帧之间的变换是困难的。这种变换T∆不满足上述的不变性和等变性特性。然而，T∆仍然是由底层因素α和β的变化引起的。合理地假设，在真实世界的视频中，这些因素在相邻帧之间不会发生剧烈变化。0f[T∆(X)] = f(X) + ∆ (5)0因此，我们假设两帧之间的关键点移动相对较小，如方程5所示。直观地说，这意味着连续帧中相同关节的关键点预测不应该相差太远，否则很可能是不正确的。对于2D关键点估计，我们观察到可以通过光流来近似T∆以获得∆，这使得我们可以使用光流将伪标签从可信帧传播到不太可信的帧上。尽管我们为2D姿势估计定义了这三个一致性原则，但它们可以很容易地扩展到其他问题。例如，在3D姿势估计中，α可以是与3D姿势相关的因素。然后，不变性一致性仍然相同，但等变性一致性不再成立。L(n) =�iLMSE(f (n)(Xis), Y is )+ γ�jLMSE(f (n)(Xjt ), ˆY (n−1),jt)(6)123900由于3D姿势到2D姿势的映射不是一对一的映射，并且深度维度存在歧义。然而，人们仍然可以将其作为其他两个维度的约束条件，这意味着投影的姿势仍然应满足相同的一致性。因此，很容易看出，尽管相应的一致性可能因不同的任务而改变，但它们都遵循相同的原则。0算法1 伪标签生成算法0输入：目标数据集Xt；模型f(n-1)；衰减因子λdecay。中间结果：Pβ，Pα是应用不变性和等变性变换后的预测结果。输出：伪标签ˆY(n)t；置信度分数C(n)t。01: 对于Xit中的每个Xit do 2: � 不变性一致性 3: Pβ =f(n-1)(Tβ(Xit)) 4: � 等变性一致性 5: Pα =T-1α[f(n-1)(Tα(Xit))]07: 将Pβ和Pα进行集成，得到(ˆY(n),it，C(n),it)09: 如果C(n),it/C(n),i-1t < λdecay，则010: ˆY(n),it = (ˆY(n),i-1t) + ∆011: C(n),it = λdecay * C(n),i-1t 12: end if 13: end for 14:根据固定的课程学习策略对C(n)t进行排序，得到Cthresh。015: 设置C(n),it = 1 (C(n),it ≥ Cthresh)，�i03.3. 伪标签生成0在本节中，我们详细解释了如何在实践中应用这些一致性原则来生成伪标签，并提出了伪标签生成方法，如算法1所示。我们通过两种方式解决了噪声标签的问题。首先，我们开发了一种算法，使用一致性检查生成伪标签，以消除假阳性，假设使用正确信息生成的标签始终满足这些一致性原则。其次，我们应用课程学习的思想，逐步增加训练样本的数量，并以迭代的方式学习模型。对于第n次迭代，使用从第(n-1)次迭代得到的先前模型f(n-1)，我们遍历目标数据集Xt中的每个图像Xit。在此过程中，f(n-1)不会被更新。首先，对于每个图像，我们对Xit应用多个不变性变换Tβ、等变性变换Tα，并将所有预测Pβ和Pα进行集成，以获得一对估计标签和置信度分数（ˆY(n),it，C(n),it）。0其次，我们使用时间一致性来更新弱预测。对于每个关键点，我们检查当前的置信度得分 C ( n ) ,i t是否与前一帧的置信度得分 C ( n ) ,i − 1 t相比较强，相对于衰减因子 λ decay。如果当前帧的预测是自信的，我们保留它；否则，我们用流预测 ∆ 加上前一帧的预测替换预测 ˆ Y ( n ) ,i t，并用前一帧的置信度乘以衰减因子 λ decay替换置信度得分 C ( n ) ,i t。时间一致性是可选的，如果有视频可用则可以使用。到此为止，算法已经为所有图像生成了标签和置信度得分。最后一步是再次迭代目标数据集，使用课程学习策略选择 Cthresh，确定用于训练的标签的百分比。这里的想法是先使用高置信度的关键点，然后逐渐在迭代后包括更多的关键点。在实践中，我们使用一个策略，在开始时包括排名前20%的关键点，第二次迭代时为40%，直到达到80%。03.4. 一致性约束的半监督学习（CC-SSL）0对于第 n 次迭代，损失函数 L ( n )的定义是源数据和目标数据的热图的均方误差，如公式 6所示。 γ 用于平衡源数据和目标数据之间的损失。0为此，我们提出了一种一致性约束的半监督学习（CC-SSL）方法，具体如下：我们首先使用合成数据训练一个只使用合成数据的模型，并获得一个初始弱模型 f (0) = f s。然后我们迭代以下过程。对于第 n次迭代，我们首先使用算法 1 生成标签 ˆ Y ( n ) t。使用生成的标签，我们使用 L ( n ) 同时训练模型使用 ( Xs , Y s ) 和 ( X t , ˆ Y ( n ) t )。03.5. 合成数据集生成0为了创建多样化的动物外观和姿势组合，我们收集了一个包含10+种动物的合成动物数据集。每个动物都有几个动画序列。我们使用虚幻引擎收集丰富的真实数据并实现干扰因素控制。实现的因素控制包括随机化光照、纹理、改变视角和动物姿势。生成合成数据的流程如下。给定一个CAD模型和几个动画序列，从随机视角为一些随机光照渲染一个具有随机姿势和随机纹理的动物。1https://www.unrealengine.com/marketplace/en-US/product/animal-pack-ultra-01123910以及一个随机的背景图像。我们还生成了地面真实深度图、部分分割和密集关节位置（2D和3D）。请参见图 1中合成数据集的样本。04. 实验0首先，我们在第 4.2节中在Tig-Dog数据集[28]上定量测试了我们的方法。我们将我们的方法与其他流行的无监督领域自适应方法进行比较，如CycleGAN [40]、BDL [21]和CyCADA[14]。我们还在没有标记的真实图像可用的情况下，对其他动物的关键点检测进行了定性展示，如大象、绵羊和狗。其次，为了展示领域泛化能力，我们对来自Visual DomainAdaptationChallenge数据集（VisDA2019）的动物关键点进行了注释。在第 4.3节中，我们评估了我们的模型在这些来自不同视觉领域的图像上的表现。第三，合成数据中丰富的真实数据使我们能够在2D姿势估计之外做更多的任务，因此我们还在第 4.4节中对马和老虎的部分分割进行了可视化，并展示了多任务学习的有效性。04.1. 实验设置0网络架构。我们在所有实验中使用堆叠的Hourglass[26]作为我们的骨干。架构设计不是我们的主要关注点，我们严格遵循原始论文中的参数。每个模型使用RMSProp进行100个epochs的训练。学习率从2.5e-4开始，并在第60和第90个epochs时分别衰减两次。输入图像被裁剪为256×256大小，并进行了缩放、旋转、翻转和颜色扰动增强。合成数据集。我们以下面的方式解释我们的数据生成参数的细节。虚拟相机的分辨率为640×480，视场为90度。我们使用Cocoval2017数据集随机生成合成动物纹理和背景。我们没有使用cocoval2017的任何分割注释。对于每个动物，我们生成了5000张具有随机纹理的图像和5000张具有CAD模型附带纹理的图像，我们将其称为原始纹理。我们以4:1的比例划分训练集和验证集，训练集有8000张图像，验证集有2000张图像。我们还生成了丰富的地面真实值，包括部分分割、深度图和密集的2D和3D关键点。对于部分分割，我们为每个动物定义了九个部分，包括眼睛、头部、耳朵、躯干、左前腿、左后腿、右前腿、右后腿和尾巴。部分定义遵循[8]，只是我们区分前腿和后腿。本文使用的CAD模型是从UE4市场购买的。0CC-SSL在我们的实验中，我们从Tα中选择缩放和旋转，并使用光流得到∆。λ衰减设置为0.9，我们训练一个模型进行10个epochs，并使用新模型重新生成伪标签。模型训练60个epochs，γ设置为10.0。TigDog数据集TigDog数据集是一个包含79个马的视频和96个老虎的视频的大型数据集。总共，对于马，我们有8380帧用于训练和1772帧用于测试。对于老虎，我们有6523帧用于训练和1765帧用于测试。每一帧都附带19个关键点注释，包括眼睛(2)、下巴(1)、肩膀(2)、腿(12)、臀部(1)和脖子(1)。由于左右不明显区分，我们在所有实验中都不考虑脖子关键点。04.2. 2D姿势估计0结果分析。我们的主要结果总结在表1中。我们以两种不同的设置呈现我们的结果：第一种是在无监督域自适应设置下，真实图像的注释不可用；第二种是当有标记的真实图像可用时。当真实图像的注释不可用时，我们提出的CC-SSL方法在准确率上明显优于其他方法。马的PCK@0.05准确率达到70.77，接近直接在真实图像上训练的模型。对于老虎，该方法达到了64.14的准确率。值得注意的是，这些结果是在没有访问任何真实图像注释的情况下实现的，这证明了我们提出方法的有效性。我们还在图3中可视化了预测的关键点。即使对于一些极端姿势，如骑马和躺在地上，该方法仍然能够生成准确的预测。老虎的观察结果也类似。当有标记的真实图像可用时，我们提出的CC-SSL-R方法在马和老虎方面分别达到了82.43和84.00的准确率，明显优于仅在真实图像上训练的模型。CC-SSL-R只是通过使用真实图像标签进一步微调CC-SSL模型来实现的。除了马和老虎，我们还将该方法应用于其他动物。该方法可以轻松地转移到其他动物类别，并在图4中定性展示了其他动物的关键点预测结果。请注意，我们的方法还可以检测到大象的象鼻。我们经验证明，CycleGAN对性能的提升不大。我们推测一个原因是CycleGAN通常需要大量的真实图像才能发挥良好的作用。然而，在我们的情况下，真实图像的多样性有限。另一个原因是转换后的图像的动物形状没有得到很好地保持。我们还尝试了不同的对抗训练策略。尽管BDL在语义分割方面效果很好，但我们发现对关键点检测的改进很小。CyCADA也受到了限制。123920马准确率老虎准确率0眼睛下巴肩膀臀部肘部膝盖蹄子平均眼睛下巴肩膀臀部肘部膝盖蹄子平均0合成+真实0真实 79.04 89.71 71.38 91.78 82.85 80.80 72.76 78.98 96.77 93.68 65.90 94.99 67.64 80.25 81.72 81.99 CC-SSL-R 89.39 92.01 69.05 92.28 86.3983.72 76.89 82.43 95.72 96.32 74.41 91.64 71.25 82.37 82.73 84.000仅合成0Syn 46.08 53.86 20.46 32.53 20.20 24.20 17.45 25.33 23.45 27.88 14.26 52.99 17.32 16.27 19.29 21.17 CycleGAN [40] 70.73 84.46 56.97 69.3052.94 49.91 35.95 51.86 71.80 62.49 29.77 61.22 36.16 37.48 40.59 46.47 BDL [21] 74.37 86.53 64.43 75.65 63.04 60.18 51.96 62.33 77.46 65.2836.23 62.33 35.81 45.95 54.39 52.26 CyCADA [14] 67.57 84.77 56.92 76.75 55.47 48.72 43.08 55.57 75.17 69.64 35.04 65.41 38.40 42.89 48.9051.48 CC-SSL 84.60 90.26 69.69 85.89 68.58 68.73 61.33 70.77 96.75 90.46 44.84 77.61 55.82 42.85 64.55 64.140表1.马和老虎2D姿势估计准确率PCK@0.05。合成数据具有随机化的背景和纹理。当没有真实图像标签可用时，只显示合成结果，当有真实图像标签可用时，显示合成+真实的结果。在这两种情况下，我们提出的基于CC-SSL的方法取得了最佳性能。0图3.马和老虎2D姿势估计和部分分割预测的可视化。2D姿势估计使用第4.2节中描述的CC-SSL进行预测，部分分割预测使用第4.4节中描述的多任务学习生成。最佳观看效果为彩色。0与CycleGAN相比，CC-SSL不会遇到相同的问题。即使在真实数据的多样性有限的情况下，它也可以很好地工作。我们使用与[26]中基线Real和Syn相同的增强集。我们对其他实验使用了不同的增强集，我们称之为强增强。除了[26]使用的增强方法外，强增强还包括仿射变换、高斯噪声和高斯模糊。04.3. 在VisDA2019上的泛化测试0在本节中，我们在Visual Domain AdaptationChallenge数据集（VisDA2019）的图像上测试模型的泛化能力。该数据集包含六个领域：真实、素描、剪贴画、绘画、信息图和快速绘图。我们选择了素描、绘画和剪贴画进行实验，因为信息图和快速绘图不适合2D姿势估计。对于这三个领域中的每一个，我们手动为马和老虎的图像进行注释。评估结果总结在表2中。与之前一样，我们将真实图像作为基准。CC-SSL和CC-SSL-R用于比较。对于两种动物，我们观察到使用0在所有设置中，合成数据在所有设置中都取得了最佳性能。我们在两个设置下呈现了我们的结果。可见关键点准确率仅计算直接可见的关键点，而完整关键点准确率显示了自遮挡关键点的结果。在所有设置下，CC-SSL-R优于真实数据。更有趣的是，即使在没有使用真实图像标签的情况下，我们的CC-SSL方法在几乎所有领域中的性能都优于真实数据。唯一的例外是老虎的绘画领域。我们推测这是因为绘画中的纹理信息（黄色和黑色条纹）仍然被很好地保留，因此在真实图像上训练的模型仍然可以“泛化”。对于素描和剪贴画，外观与真实图像更不相似，因此在合成数据上训练的模型显示出更好的结果。04.4. 部分分割0由于合成动物数据集具有丰富的真实标签，我们的任务不仅限于2D姿势估计。我们还在多任务学习的设置中进行了部分分割的实验。所有模型都是在带有强增强的合成图像上进行训练，并直接在TigDog数据集上进行测试。123930图4. 其他动物的2D姿势估计可视化。我们的方法可以轻松推广到大象的鼻子。最佳观看效果为彩色。0马老虎0可见关键点准确率完整关键点准确率可见关键点准确率完整关键点准确率0素描绘画卡通素描绘画卡通素描绘画卡通素描绘画0真实图像 65.37 64.45 64.43 61.28 58.19 60.49 48.10 61.48 53.36 46.23 53.14 50.92 CC-SSL 72.29 73.71 73.47 70.3171.56 72.24 53.34 55.78 59.34 52.64 48.42 54.66 CC-SSL-R 73.25 74.56 71.78 67.82 65.15 65.87 54.94 68.12 63.4753.43 58.66 59.290表2.VisDA2019上马和老虎2D姿势估计准确率PCK@0.05。我们在两种设置下展示了我们的结果：可见关键点准确率仅考虑可见关键点；完整关键点准确率还包括自遮挡关键点。在所有设置下，我们提出的方法的性能优于基准模型Real。0如表3所示，我们观察到联合训练关键点和部分分割的模型在真实图像上对于两种动物的泛化能力更好，相比仅使用关键点进行训练的基准模型。由于我们无法定量评估部分分割预测，我们在TigDog数据集上可视化了部分分割结果，如图3所示。在多任务学习设置中，我们只对原始StackedHourglass架构进行了轻微的修改，添加了一个与原始关键点预测并行的分支用于部分分割。0模型马老虎0基准 60.84 50.26 +部分分割 62.2551.690表3.使用多任务学习的马和老虎2D姿势估计PCK@0.05。我们展示了使用2D关键点和部分分割联合训练的模型在真实图像上可以更好地泛化。05. 结论0在本文中，我们提出了一种简单而高效的方法，使用合成图像来解析动物。为了弥合领域差距，我们提出了一种新颖的一致性约束半监督学习（CC-SSL）方法，该方法利用了空间和时间约束。我们在马上展示了所提出方法的有效性。0在TigDog数据集中，我们的模型可以在真实图像上可靠地检测关键点，而不需要任何真实图像标签。当使用真实图像标签时，我们展示了与仅在真实图像上训练的模型相比，联合训练合成图像和真实图像的模型在性能上取得了更好的结果。我们进一步证明了使用合成数据训练的模型在VisualDomain AdaptationChallenge数据集的不同领域中具有更好的泛化性能。我们构建了一个包含10+种动物的合成数据集，具有多样的姿势和丰富的真实标签，并展示了多任务学习的有效性。0致谢0由情报高级研究计划局（IARPA）通过内政部/内政部商业中心（DOI/IBC）合同号D17PC00342支持。尽管有任何版权注释，美国政府有权复制和分发重印件以供政府目的使用。免责声明：本文所包含的观点和结论仅代表作者本人，不应被解释为必然代表IARPA、DOI/IBC或美国政府的官方政策或认可，无论是明示还是暗示。作者要感谢ChunyuWang、Qingfu Wan和Yi Zhang的有益讨论。[2] Yoshua Bengio, J´erˆome Louradour, Ronan Collobert, and Ja-son Weston. Curriculum learning. In ICML, pages 41–48,2009. 3123940参考文献0[1] Mykhaylo Andriluka, Leonid Pishchulin, Peter V. Gehler,and Bernt Schiele.2D人体姿势估计：新的基准和最新技术分析。在CVPR中，第3686-3693页，2014年。10[3] Benjamin Biggs, Thomas Roddick, Andrew W. Fitzgibbon,and Roberto Cipolla.从视频中恢复动物的形状和运动。CoRR，abs/1811.05804，2018年。20[4] Konstantinos Bousmalis, George Trigeorgis, NathanSilberman, Dilip Krishnan, and Dumitru Erhan.领域分离网络。在NeurIPS，页码343-351，2016年。20[5] Jinkun Cao, Hongyang Tang, Haoshu Fang, Xiaoyong Shen,Cewu Lu, and Yu-Wing Tai.动物姿态估计的跨领域适应。CoRR，abs/1908.05806，2019年。20[6] Angel X. Chang, Thomas A. Funkhouser, Leonidas J. Guibas,Pat Hanrahan, Qi-Xing Huang, Zimo Li, Silvio Savarese, ManolisSavva, Shuran Song, Hao Su, Jianxiong Xiao, Li Yi, and Fisher Yu.ShapeNet：一个信息丰富的3D模型库。CoRR，abs/1512.03012，2015年。10[7] Wenzheng Chen, Huan Wang, Yangyan Li, Hao Su,Zhenhua Wang, Changhe Tu, Dani Lischinski, DanielCohen-Or, and Baoquan Chen.为提升人体3D姿态估计而合成训练图像。在3DV，页码479-488，2016年。1, 30[8] Xianjie Chen, Roozbeh Mottaghi, Xiaobai Liu, Sanja Fidler,Raquel Urtasun, and Alan L. Yuille.检测你能检测到的：使用整体模型和身体部分检测和表示对象。在CVPR，页码1979-1986，2014年。2, 60[9] Jaehoon Choi, Taekyung Kim, and Changick Kim.基于GAN的数据增强的自集成方法用于语义分割中的领域自适应。CoRR，abs/1909.00589，2019年。30[10] Yifan Ding, Liqiang Wang, Deliang Fan, and BoqingGong. 一种半监督的两阶段学习方法用于噪声标签。在2018IEEE冬季计算机视觉应用会议WACV2018上，页码1215-1224，2018年。30[11] Alexey Dosovitskiy, Philipp Fischer, Eddy Ilg, PhilipH¨ausser, Caner Hazirbas, Vladimir Golkov, Patrick van derSmagt, Daniel Cremers, and Thomas Brox.FlowNet：使用卷积网络学习光流。在ICCV，页码2758-2766，2015年。10[12] Geoffrey French, Michal Mackiewicz, and Mark H. Fisher.自集成用于视觉领域自适应。在ICLR，2018年。30[13] Sheng Guo, Weilin Huang, Haozhi Zhang, Chenfan Zhuang,Dengke Dong, Matthew R. Scott, and Dinglong Huang.CurriculumNet：从大规模网络图像中进行弱监督学习。在ECCV，页码139-154，2018年。30[14] Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu,Phillip Isola, Kate Saenko, Alexei A. Efros, and Trevor Darrell.Cycada：循环一致的对抗领域自适应。在ICML，页码1994-2003，2018年。1, 2, 3, 6, 70[15] Xun Huang, Ming-Yu Liu, Serge J. Belongie, and Jan Kautz.多模态无监督图像到图像的转换。在ECCV，页码179-196，2018年。20[16] Lu Jiang, Deyu Meng, Qian Zhao, Shiguang Shan, andAlexander G. Hauptmann.自定进度课程学习。在AAAI，页码2694-2700，2015年。30[17] Youngdong Kim, Junho Yim, Juseung Yun, and Junmo Kim.NLNL：用于噪声标签的负学习。CoRR，abs/1908.07387，2019年。30[18] Samuli Laine and Timo Aila.用于半监督学

下载后可阅读完整内容，剩余1页未读，立即下载