动物姿态估计的多尺度域自适应模块及在线伪标签更新策略

102 浏览量更新于2024-01-22 收藏 989KB PDF 举报

合成数据

模型泛化能力

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1482从合成到真实：用于动物姿态估计的陈莉金熙李新加坡国立大学计算机科学系{lic，gimhee.lee}@ comp.nus.edu.sg摘要动物姿态估计是近年来受到广泛关注的一个重要领域这项任务的主要挑战是缺乏标记数据。现有的作品规避这个问题与伪标签生成的其他容易访问的域，如合成数据的数据。然而，这些伪标签是嘈杂的，即使与一致性检查或基于置信度的过滤，由于数据中的域移位。为了解决这个问题，我们设计了一个多尺度域自适应模块（MDAM），以减少合成数据和真实数据之间的域差距。我们进一步介绍了一个在线的粗到精的伪标签更新策略。具体来说，我们提出了一个自蒸馏模块在内部粗更新循环和一个平均教师在外部细更新循环，以产生新的伪标签，逐渐取代旧的。因此，我们的模型能够在早期阶段从旧的伪标签中学习，并在后期阶段逐渐切换到新的伪标签以防止过拟合。我们在TigDog和VisDA 2019数据集上评估了我们的方法，在这些数据集上，我们的性能大大优于现有方法我们还通过对看不见的域和看不见的动物类别进行广泛的测试来证明我们的模型的泛化能力。我们的代码可在项目网站1.1. 介绍动物姿态估计在动物学、生物学和水产养殖等领域有着广泛的应用前景，近年来受到了越来越多的尽管将深度神经网络应用于人类姿势估计取得了巨大成功，但缺乏标记良好的动物姿势数据使得直接利用强大的深度学习方法变得不可行现有的工作克服了这个问题，从其他更容易获得的领域，如合成动物数据转移知识[23，5，46，47，48]或人类第1https://github.com/chaneyddtt/UDA-Animal-Pose图1.我们的方法采用噪声伪标签（例如，左图像上的后蹄），并在真实图像上输出正确的动物姿势。数据[6]。合成数据的优点是成本低，并且可以方便地生成具有精确地面实况的大规模数据。此外，合成动物和真实动物之间的域差距比人类和动物等其他域之间的域差距更容易管理。这从[6]的结果中可以明显看出，尽管使用了复杂的域适应技术，但网络仍需要真实动物域中的足够标记数据才能工作。合成动物与真实动物之间的领域差距主要来自纹理和背景的差异以及合成数据有限的姿态变化。为了解决域偏移问题，现有的工作首先用在合成数据上训练的模型生成伪标签，然后根据置信度得分逐渐将更多的伪标签并入训练中。然而，即使使用诸如基于置信度的过滤[6]或基于几何的一致性检查[23]等细化技术，这些伪标签也是不准确的。图1显示了一个例子，其中在合成动物上训练的模型给出了错误的预测（例如，后蹄）具有高置信度（在热图中以黄色圆圈这种噪声伪标签不能基于置信度分数过滤掉，并且在使用时会导致性能下降1483天真的训练。在本文中，我们提出了一种新的方法来学习合成动物数据。我们设计了一个多尺度域自适应模块（MDAM），以减少域间隙。我们的MDAM包括一个姿态估计模块和一个域分类器。我们首先使用合成数据[23]训练姿态估计模块，以生成真实动物图像的然后，我们在合成标签和伪标签上训练我们然而，MDAM的准确性受到伪标签中存在噪声的限制。为了缓解这个问题，我们引入了一个在线的粗到精的伪标签更新策略。具体来说，我们在内部粗更新循环中提出了一个自蒸馏模块，在外部细更新循环中提出了一个均值教师[31]，以生成更好的伪标签，逐渐取代旧的噪声标签。我们根据深度网络的记忆效应[3，42]设计了我们的伪标签更新策略，即深度网络在最终记忆之前的早期阶段从干净的样本中学习（即，过度适合于）吵闹的人。为了避免记忆效应，我们更多地依赖于初始的伪标签在早期阶段，当自蒸馏模块和平均教师仍然处于训练的初级阶段。当自蒸馏模块和平均值教师获得足够的能力来生成更可靠的伪标签时，我们的由粗到细的伪标签更新策略逐渐替换有噪声的初始标签。因此，我们能够用更准确的伪标签来监督我们的网络，同时防止过度拟合。如图1所示，我们的模型可以成功地定位关节（右图中的后蹄），尽管初始伪标签并不准确。我们在TigDog数据集[10]上验证了我们的方法，其中我们的性能大大优于现有的无监督域自适应技术。我们还通过直接在视觉领域适应挑战数据集（VisDA2019），Zebra数据集[46]和Animal-Pose数据集[6]上进行测试来证明我们方法的泛化能力实验结果表明，我们的方法可以很好地推广到看不见的领域和看不见的一个类别。我们的主要贡献如下：• 我们设计了一个用于动物姿态估计的无监督域自适应流水线，它由多尺度域自适应模块、自蒸馏模块和均值-教师网络组成。• 我们提出了一个在线的由粗到细的伪标签更新策略，以减轻不可靠的伪标签的负面影响。• 我们的方法在TigDog数据集和VisDA2019数据集上实现了最先进的结果，并且还可以很好地推广到未知领域和未知类别。2. 相关工作人体姿态估计。人体姿态估计几十年来一直是一个活跃的研究领域。最流行的早期方法之一是图像结构[9，2，29]，它使用树结构来模拟身体部位之间的空间关系。由于表示能力有限，这些方法在复杂场景中表现不佳。最近，基于深度学习的方法[28，24，8，39，35，7，38，26]由于大规模训练数据（例如MPII数据集[1]和COCO关键点检测数据集[21]）的可用性，已经取得了现有工程可分为两类。第一类[7，38，26]采用单级骨干网络（通常为ResNet [15]）来生成深度特征，然后应用上采样或去卷积来生成具有更高空间分辨率的热图第二类[24，8，39，35]基于多级架构，其中前一级生成的结果被逐步细化。在本文中，我们采用单阶段的方法作为我们的基本结构，使我们可以直接应用域自适应骨干网络的输出。动物姿势估计。与人类姿态估计相比，动物姿态估计相对未被充分探索，这为了解决这个问题，Muetal.[23]使用从CAD模型生成的合成动物数据来训练它们的模型，然后将其用于为未标记的真实动物图像生成伪标签。随后，基于三个一致性检查标准将生成的伪标签逐渐Cao等人[6]提出了一种跨域自适应方案，以学习人类和动物图像之间的共享特征空间，使其网络可以从以前的人类姿势数据集学习。他们还根据置信度得分选择伪标签到训练中。与不需要对真实动物图像进行任何标记的[23]相比，[6]需要在其数据集中标记部分真实动物图像以促进成功转移。与[23]类似，我们专注于从合成动物数据中进行无监督域适应。我们不是逐渐将伪标签纳入训练，而是进行在线粗到细的伪标签更新，以减轻噪声伪标签的负面影响。此外，也有几个作品侧重于3D动物姿态和形状估计[48，47，46，5，18，4，？].[48]通过学习从玩具动物的扫描中。为了恢复动物更详细的3D形状，[47]规则化SMAL的网格变形以约束最终形状。[46]在数字生成的数据集上训练神经网络，以预测SMAL模型的3D姿态，形状和纹理。1484Σ无监督域自适应。无监督域自适应的目的是从一个标记的源域中学习一个模型一种主流方法是基于对抗学习[11，16，33，36]，其中特征提取器试图学习域不变特征以欺骗域不变特征。与对抗学习的对齐可以促进标签从源域到目标域的转移。除了特征级对齐之外，其他工作也试图减少输入[16]或输出的域偏移。3.1. 多尺度域自适应模块我们的MDAM包括一个姿态估计模块和一个领域分类器D。姿态估计模块遵循编码器-解码器架构，其中编码器是特征提取器G，并且解码器是姿态估计。托尔山口给定来自源域和目标域的一对图像（IS，IT）∈RH×W×3估计模块得到相应的特征图（FS，FT）和热图（HS，HT）：放平[32，40]。在这项工作中，我们应用领域分类器FS=G（IS），HS=P（FS），到多尺度的特征图，并且可以对准局部特征。FT=G（IT），HT=P（FT（一））的。从噪声数据中学习从噪声标签中学习是一个重要的研究课题，特别是对于深度学习社区。这是因为深度学习算法严重依赖于大规模标记的训练数据，这是昂贵的类似于人体姿态估计[24]，我们将源域中的姿态估计损失定义为估计的热图和地面实况热图之间的均方误差（MSE）为了减少噪声标签的负面影响，一些方法专注于通过设计鲁棒损失[12，34，44]或通过校正损失来1LS=NΣ美国i、j、c（i，j，c）−HS（i，j，c）（i，j，c）转换矩阵[27，13，37]。基于样本选择的方法[22，17，14，41]试图在每次迭代中选择可能干净的样本进行训练。最具代表性的方法之一是Co-Teaching [14，41]，它在开始时对所有样本进行训练，并逐渐丢弃具有大损失值的这种基于深度网络的记忆效应[3，42]的小损失技巧也被其他作品[17，30]采用，以选择更可靠的标签。考虑到噪声伪标签，我们还进行了类似于Co-Teaching的样本选择此外，我们逐步更新的伪标签的知识，从自蒸馏模块和教师网络。3. 我们的方法我们提出了一种无监督的域自适应动物姿态估计方法。标记的源区域S由合成动物图像IS和从CAD模型生成的对应姿势标记YS组成而未标记的目标域T由没有姿态标记的野生动物图像IT我们的目标是学习一个姿态估计模型，可以很好地适应未标记的目标域。为此，我们设计了一个如图所示的师生网络二、学生网络和教师网络共享相同的架构：基本姿态估计模块（PEM）、自蒸馏模块（SDM）和域分类器（DC）。我们首先在IS上预训练PEM，并使用它为IT生成伪标签。然而，由于合成图像和真实图像之间的域间隙，这些伪标签是有噪声的，并且当在训练中天真地使用时会损害性能为了减轻这种负面影响，我们提出了一个在线的粗到精的伪标签更新策略，自蒸馏模块和教师网络。其中N=h o×w o× K，HS表示分辨率为h o×w o的真实热图，K表示关节总数。我们使用伪标签H_T作为目标域，因为目标域的地面实况不可用：LT=1<$H<$T（i，j，c）−H<$T（i，j，c）<$2. （三）N i、j、c请注意，这些伪标签HT 并且它们对应的置信度得分CT是根据我们的姿态估计模块生成的，该姿态估计模块按照来自[ 23 ]的训练过程在源域数据上进行预训练。为了弥合源域和目标域之间的域间隙，我们将域分类器D[11，16，33]应用于特征提取器G的输出。域分类器尝试从合成目标数据中分类真实目标数据。使用交叉熵损失Ld的源数据：Ld=−log（1−D（FT））−log（D（FS）），（4）而特征提取器试图通过最大化Ld，即，最小化：Ladv=−Ld.（五）我们使用梯度反转层[11]进行优化。我们将域分类器应用于多个尺度的特征图，因为两个局部（例如，围绕关节的小批量）和全局信息（例如，不同关节之间的具体地说，我们将姿态估计器的中间输出二、1485不1CD：域分类器C：连接P：扰动学生网络MDAM外循环：精细更新图2.我们的网络是一个学生-教师架构，其中学生网络由多尺度域自适应模块（MDAM），细化块（RB）和自反馈回路组成。我们分别通过内循环和外循环进行在线粗到精的伪标签更新3.2. 粗略到精细伪标签更新我们在Eq中使用的伪标签3是有噪声的，尽管我们根据[23]中描述的一致性检查标准过滤样本。为了避免这个问题，我们提出了由粗到细的伪标签更新策略，以逐步取代噪声伪标签更准确的。如图2所示，我们的从粗到细的伪标签更新策略由两个嵌套循环组成。内部粗更新循环：如图2所示，内部循环由自蒸馏模块组成：块（RB）和自反馈回路。精化块的输入是MD AMHT的输出，我们将其输出表示为RT。MDAM的输出通过自反馈回路由细化模块的输出自蒸馏损失：伪标签，并逐渐丢弃那些具有大损失值的标签。直觉是，在网络事件之前，干净的样本往往比有噪声的样本表现出更小的损失[32]《易·系辞上》：“以物易物，以物易物。另一方面，我们在总损失中为Lsd这导致在训练的后期阶段用由细化块RT产生的更好的外部精细更新循环：如图2所示，外部循环是学生-教师架构。学生网络由多尺度领域自适应模块和自升华模块组成。教师网络具有与学生网络相同的架构，除了自蒸馏模块中的自反馈回路。此外，我们遵循平均教师[31]范式，用指数更新教师模型θ′1ΣL=10H（i，j，c）− R（i，j，c）（六）学生模型θ的平均移动平均线（EMA）：sdN T T′ ′i、j、c我们还监督MD AMHHT的产量与噪声伪标记H_∞T同时，即，θt=α×θt−1+（1−α）×θt，（8）其中t表示训练步骤，α表示平滑系数。教师网络的输出用于监督学生网络，即。的输出，ΣL=Lc，其中C={c|Lc

下载后可阅读完整内容，剩余1页未读，立即下载