基于主动学习和自训练的多视图姿态估计方法及其性能提升

137 浏览量更新于2023-10-16 收藏 762KB PDF 举报

主动学习

多视图几何

身份认证购VIP最低享 7 折!

30元优惠券

5695基于主动学习和自训练Qi Feng，Kun He，He Wen，Cem Keskin，Yuting Ye MetaReality Labs{fung，kunhe，hewen，cemkeskin，yuting.ye} @ meta.com摘要人体和手的姿态估计是计算机视觉中的一个基本问题，基于学习的解决方案需要大量的注释数据。在这项工作中，我们提高了效率的数据注释过程中的3D姿态估计问题与主动学习（AL）在多视图设置。AL在有限的注释预算（时间和成本）下选择具有最高值的示例进行注释我们提出了一个框架，有效地扩展现有的单视图AL策略。然后，我们提出了两个新的AL策略，充分利用多视图几何。此外，我们通过将AL过程中计算的伪标签（这是一种自我训练的形式）结合起来，展示了额外的性能增益。我们的系统明显优于54.第一章543 .第三章。53二、50 5 10 1520 25 30 35 40 45 50小时在两个大规模基准上的3D身体和手部姿势估计中的模拟注释基线：CMU Panoptic Studio和InterHand2.6M。值得注意的是，在CMU Panoptic Stu- dio上，与传统的注释过程相比，我们能够减少60%的周转时间和80%的注释成本。1. 介绍位姿估计是计算机视觉中的一个基本问题人体/手的准确姿势估计允许自动化系统执行无标记运动捕获[9，37]，识别动作[6，43]，理解社交互动[18]和手语[16]等。虽然使用深度神经网络的监督学习方法在姿态估计方面取得了相当大的成功[27，38，39，40]，但姿态数据的注释是耗时且昂贵的。例如，MPII [1]（一种流行的身体姿势估计基准）的创建者报告说，注释器平均需要一分钟来注释图像上的所有人类标签也可以有反作用-我们基于AL的注释常规注释3D MKPE（mm）5696图1：模型测试准确度与注释周转率时间我们使用每帧1分钟的估计来进行注释，并使用1小时来训练模型。传统注释在注释期间不需要训练。我们基于AL的注释系统为PoseResNet节省了45%的总周转时间，测试性能为3.5 mm，测试性能为2.7 mm，节省了60%以上。稳定的质量，特别是对于困难的闭塞病例。另一方面，多视图相机系统[18，45，47]越来越多地用于自动生成姿势标签，这是我们工作的主要动机。然而，训练底层的标签模型仍然需要大量的前期注释。在本文中，我们提出了一种基于主动学习（AL）的注释过程[7，33]，以使用于学习深度姿态估计模型的数据注释过程更快，更具成本效益。我们基于AL的方法将注释预算（时间和成本）集中在最有价值的样本上。我们研究AL配方的背景下，姿态估计;特别地，我们考虑了从多视图RGB图像中进行3D身体和手部姿态估计。通过利用5697未标记样本池使用训练模型进行推理收集的原始数据伪标签训练模型AL：不好伪标签从未标记池添加到地面实况标签标记合并液姿势估计模型注释数据伪标签图2：所提出的用于多视图3D姿态估计的主动学习（AL）系统的概述虽然先前的作品只考虑了AL的单视图姿态估计，我们的系统是第一个工作在多视图设置（第二。3.3），我们提出了两个有效的策略，充分利用多视图几何。此外，通过在建议的自训练过程中加入伪标签（Sec.3.4），我们在没有额外的注释或计算成本的情况下进一步提高了注释效率提出了两种新的基于几何启发的、易于计算的人工智能算法。据我们所知，用于姿态估计的其他现有AL系统[5，21，44]不考虑多视图输入，并且其中提出的单视图策略不能很好地推广到多视图设置。除了主要的AL公式之外，我们还探索了通过自训练进一步提高注释效率，这是图像分类的成功策略[28，41，48]。为此，在每次AL迭代期间，我们使用从模型的预测计算的伪标签来增强人类注释的标签我们的实验表明，通过仔细选择，伪标签可以进一步提高姿态估计性能，而无需额外的注释或计算成本。我们对两个大规模基准进行注释模拟、实验和消融研究， CMU Panop- tic [18] 用于身体姿势估计，InterHand2.6M [25]用于手部姿势估计。我们提出的多视角AL策略，加上自我训练策略，consistently优于基线策略的显着利润率。值得注意的是，如图1、在CMUPanoptic上，与现有的数据注释流程相比，我们的完整系统将注释周转时间减少了60%，注释劳动力成本减少了80%总之，我们在本文中的贡献有三个方面：• 我们提出了一种基于主动学习的数据标注过程，用于从多视图RGB图像进行3D姿态估计，并提出了利用多视图几何结构来减少标注时间和成本的AL策略。• 我们探索自我训练的姿态估计在拟议的AL框架，并表明，进一步的收益可以实现包括伪标签。• 我们表明，所提出的AL和自训练策略显着提高了基线的注释效率，并建立了最先进的AL多视图姿态估计。2. 相关工作3D姿态估计：姿态估计是计算机视觉中的基本任务之一。为了对可以进行关节连接和变形的人体进行建模，早期的方法大多从经典的象形结构中获得灵感[2，10]。在深度神经网络取得成功之后，并在Hu- man3.6M [15]和MPII [1]等基准的推动下，深度CNN已广泛应用于身体和手部姿势估计。代表性的方法包括卷积姿态机[39]，堆叠沙漏网络[27]，PoseResNet [40]，HRNet[38]等。这些方法通常通过预测身体/手部关键点的位置来工作，被公式化为热图回归问题。另一方面，单视图3D姿态估计方法[19，20，23，47]直接将2D图像证据提升到3D关键点或网格表示中，但需要更多高质量的训练数据以解决固有的2D-3D模糊性。随着多相机设置的可用性的增加，多视图姿态估计已经聚集了增加的兴趣[12，17，29]。一个关键的动机是，这些系统可用于自动或半自动生成用于单视图3D姿态估计的“地面实况”，并显著降低标记成本。事实上，这样的过程已经在诸如CMU Panoptic [18]和HUMBI [45]的基准中被采用用于身体姿势估计，以及Frei-Hand [47]和InterHand2.6M [25]用于手。然而，训练多视图模型仍然需要大量的注释的3D姿态数据，这强烈地激励了诸如主动学习之类的节省成本的策略。主动学习：主动学习（AL）[7，33]考虑了一个动态环境，其中ML系统选择未标记的示例来获取标签，并使用新标记的数据迭代地这在注释预算受限的大量的AL文献用于分类，包括基于不确定性的采样[30]，多样性最大化[42]，贝叶斯方法[32]等。尽管取得了多年的进步，但在实践中，最好的人工智能策略往往是问题依赖的，随机抽样等策略仍然是强有力的基础。人类注释主动学习（AL）自我训练（ST）列车位姿估计模型数据增强5698LUM联系我们≥联系我们DLL· ··D行[24，34]。在计算机视觉中，AL也被广泛研究用于语义分割[22，35]和对象检测[31]等问题。Siddiqui等人[35]证明了引入多视图几何可以提高AL用于语义分割的有效性。然而，语义分割中的像素分类公式使得更容易适应为分类设计的AL方法，而对于关键点定位任务，多视图适应不那么简单。对于姿态估计，Yooet al.[44]应用任务不可知的损失预测作为AL策略，但与随机抽样相比具有边际收益。Liu和Ferrari [21]提出了多峰熵度量来指导单视图图像的采样以进行注释。正如我们稍后所展示的那样，将此度量扩展到多视图是一项重要的任务。最近，Carlauauetal. [5]将核心集[32] AL算法扩展到具有贝叶斯公式的手部姿势估计。虽然我们还提出了一个扩展的核心集在本文中，我们的AL策略依赖于几何- ric直觉，不需要昂贵的贝叶斯推理。此外，[5]从单个深度相机估计3D姿态，而我们从多个校准的RGB图像中获取RGB图像。相机作为输入。自我训练和伪标签：除了主动学习之外，自我训练[3，28，41，48]是提高注释效率的另一种重要方法。基于知识蒸馏的原理[13]，这些方法使用未标记的数据执行迭代伪标记和重新训练对于图像分类，这种范例已被证明可以提高模型的泛化能力和鲁棒性，而不会增加人工标注标签的数量。对于姿态估计中的关键点定位任务，已经以半监督学习和伪标记的形式探索了类似的想法[4，14，26]。在本文中，受多视图自举的开创性工作[36]的启发，我们还开发了一种伪标记方法。当与我们的AL框架结合使用时，它会带来更大的效率提升。3. 方法我们提出的主动学习与自我训练系统的概述如图所示。二、整个迭代系统由两个主要分支组成：主动学习分支选择未标记的帧用于人工标记，而自训练分支用于对未标记的帧进行伪标记。在本节中，我们首先正式定义了我们正在解决的多视图姿态估计问题第3.1节）。接下来，我们扩展先前的工作AL单视图姿态估计（节。3.2）。然后，提出了在多视图设置中充分利用多视图几何的两个有效策略（第二节）。3.3）。此外，通过在建议的自训练过程（第二节）3.4），我们在没有额外的注释或计算成本的情况下进一步提高了注释效率。3.1. 姿态估计问题公式化我们假设具有N个同步和校准的相机的多视图捕获设置，并且我们使用术语帧F来表示在特定时刻t来自所有相机（视图）V的图像的集合，即，F（t）=V1（t），V2（t），，VN（t）.在下文中，除非必要，否则我们从符号中删除t。整个数据集是一组帧（可能是无限的），表示为=F（1），F（2），.3D姿态估计的任务是从输入帧估计人体/手上的一组关键点的3D位置在这项工作中，我们专注于一种成熟的方法，其中3D关键点是通过使用鲁棒的三角测量技术[11]对每个相机视图进行三角测量来获得的。RANSAC特别地，2D关键点预测问题被公式化为热图回归，其中通常通过将2D各向同性高斯放置在地面实况位置处来构造地面实况热图。我们使用K来表示关键点的数量注意，与基于熵的AL方法[21]不同，我们的AL和自训练系统不限制姿态估计模型来预测2D关键点的热图相反，任何执行2D关键点定位的姿态估计模型都然后，三角测量就足够了。3.2. 扩展单视图AL用于位姿估计主动学习从初始标记集0开始，并训练初始姿态估计器。之后，在每次迭代i1中，AL策略从剩余的未标记集合中采样一组帧i遵循AL度量，查询人类注释者，并为他们获得标签这将标记集合Li扩大为Li+1，利用该标记集合L i +1重新训练姿态估计模型。注意，i，LiUi=D，并且1 2人工智能的一个直观方法是对接收最不确定预测的示例进行采样，而不确定性的定义Liuet al.[21]属于这一类。据我们所知，没有先前的工作将AL应用于多视图姿态估计，并且最接近的工作是Liu和Fer-rari [21]，他们专注于单视图情况。因此，我们将BSB和MPE扩展到多视图，并将它们用作基线。我们扩展这些单视图策略聚合的每视图的不确定性度量，而不考虑几何形状。特别是，我们关注的是平均值1：如果每个视图的预测平均具有更高的不确定性，那么，从理论上讲，帧将具有更高的不确定性。1我们还试验了其他聚合函数，如variance，发现它们的性能更差。.5699MM| |F∈UUPU ← U\{}F;重复←−NV∈F我们将上述基于熵的度量定义为算法一：输入：标记集合L，未标记集合U，AL度量M，1ΣMBSB（F）=MBSB（V），（1）注释预算B;采样数据S← {};1MMPE（F）=NV∈F MMPE（V），（2）对于F∈ U，HF={HV|<$V∈F}←模型推理;PF，εF←triangulate（HF）;其中BSB（V）和MPE（V）是由Liu等人介绍的每视图度量。[21 ]第20段。这些指标的可视化显示在补充材料中。3.3. 用于位姿估计的我们现在讨论多视图设置下的AL策略。然而，除了简单的聚合，多视图设置提供额外的信息来定义几何启发的AL策略。回想一下，任何关键点k的3D预测（表示为Pk）都是通过鲁棒三角测量获得的;我们将在此基础上定义新的AL策略。下面，我们提出两个AL策略：CoreSet-Poses是基于姿态多样性的，多视图一致性是基于3D预测不确定性的。[32]这是一个很好的例子。重复Fgreedy←arg maxM（F）;nMCS，MMC，etc.S<$S<${Fgreedy};L <$L<${Fgreedy};贪婪直到S=B;返回S算法二：AL+ self-training w/pseudo-labels输入：未标记集，先前伪标签集合，目标量M;输出：新的伪标签集P′;P′ ←{}，U′ ← U;复制U。EGY的基础上，选择不同的代表性的例子从未标记的集合，制定为解决组合集合覆盖问题。CoreSet有效性的关键是Fminarg minF∈U\（P<$P′）如果U是←U\{Fmin};εF;无重新标记。对未标记样本之间的距离进行建模;在图像分类的情况下，Sener et al. [32]使用预训练卷积特征之间的Eu-clidean距离。Carlauau等人[5]介绍了一种基于CoreSet的AL策略，仅适用于贝叶斯姿态估计模型。与之前的工作不同，我们提出的CoreSet-Poses策略可以用于任何姿态估计模型。我们的第一个策略， CoreSet-Poses ，建立在CoreSet上，为它提供了一个为姿态估计量身定制的距离度量。具体地，给定一对帧（F，F ′），我们将它们的距离定义为3D关键点预测（PF，PF′）与当前模型之间的平均欧几里得距离。虽然可以相对于2D热图预测的底层集合定义更复杂的距离度量，但是3D预测已经通过鲁棒的三角测量进行了过滤，并且具有低得多的维度，因此距离计算可以是高效的。在实践中，我们通过将根关键点移动到原点来对齐P，例如。如果根关键点为0，则对齐的姿势将Be：P=P均p0.给定距离度量，CoreSet-Poses解决集合覆盖问题，以便最大化姿态空间中的覆盖。虽然这个问题是NP难的，但先前的工作[5，32]表明它可以通过贪婪k-中心算法近似求解。具体来说，对于每个未标记的框架F∈ U，我们将CoreSet-Poses AL度量定义为CS（F）=min（P<$F，P<$F′），（3）F′∈LM5700|U|M|U|cFmin =N则所有视图都是内点。P′ ← P′n {Fmin};直到|P′|=M或|U|= 0;U=U′\P′;返回P′其测量然后，贪婪算法采样具有最大CS值的帧。尽管提高了效率，但CoreSet-Poses仍然需要O（2）时间来计算成对的分布。这使得它对于大型数据集可能不切实际。多视图一致性：我们现在提出了一个不确定性度量，它是3D姿势预测所固有的。我们的理由是，给定具有多个视图的帧，如果每个视图的2D预测彼此一致，则帧级预测出错的可能性较小。这种一致性是几何意义上的，例如：对于两个视图，如果它们的核线距离是0.相应的AL策略则是对具有最大分歧的帧进行采样。此外，我们希望在O（）时间内计算它，使其适用于大型数据集。我们称之为多视图一致性策略。具体地，我们将三角测量误差或2D关键点预测与重新投影的3D三角测量之间的平均欧几里得距离作为AL度量。注意，由于这正是Trian的最小化目标5701VVPMPP LPN K1VVV∈F k=1因此，高误差直接表明2D预测之间的强烈形式上，假设视图V中的第k个关键点的预测2D位置为lk，并且其从三角测量的Pk重新投影的位置为lk。三角测量误差度量可以写为：K在三角测量中。然后，我们采用在先前AL迭代中尚未选择的具有最小三角测量误差ε F的候选帧来形成伪标签集。我们发现后者的启发式是至关重要的，在防止-ING漂移的伪标签。我们的自训练算法总结在Alg.二、1 1K2MMC（F）=1--（四）为了简单起见，我们使用εF表示MC（女）。Alg. 1给出了用于多视点姿态估计的AL的统一视图，其中通过选择相应的度量M来实现不同的采样策略。3.4. 通过自我训练AL被证明受益于数据增强和半监督学习等技术的增加[24]。在这项工作中，我们希望探索一个新的方向，以进一步改善我们利用了这样一个事实，即我们对几何不一致性的测量也可以帮助我们识别具有良好伪标签的可靠帧，这些帧可以直接注入到训练集中。事实上，这是一种自我训练的形式，最近在图像分类任务中取得了巨大的成功[28，41，48]。这些方法使用软伪标签直接作为未标记的帧，并表明预测的丰富性（与独热编码相比）是至关重要的。在姿态估计任务中，热图可以起到类似的作用，如Zhang等人所证明的。[46]在他们的工作中，将热图从8层沙漏模型提炼为4层模型。然而，这种方法并不适合最好地利用多视图预测，这是我们探索的方向为了充分利用多视图预测，我们将通过三角测量形成的3D关键点投影回每个相机视图，并将伪热图分配给具有最多内点和最小三角测量误差的一组帧（等式4）。这些预测最有可能接近实际的地面真相，因此它们是用于自我训练的优秀候选者。我们称之为伪标签集，我们在每次AL迭代中增加训练集。类似于多视图自举[36]，我们的动机是通过添加对于训练集，模型暴露于更多样化的数据，并且可以学习更好地泛化。然而，所提出的自训练算法能够使用完全自动化的策略来避免迭代训练中的“模型漂移”，如图所示。7.第一次会议。这与多视图bootstrap- ping [36]相反，后者需要在循环中进行人工验证。与AL相反，自我训练要求伪标签自信且准确，谨慎选择是关键。Si- mon等。[36]使用特定于手部解剖结构的解剖学来过滤候选帧，并进行额外的人体验证。相反，我们的方法是完全自动化的。具体4.1. 数据集和评估为了模拟数据注释过程，我们在实验中使用两个大规模多视图基准测试：CMU Panoptic [18]用于身体姿势估计问题，以及InterHand2.6M [25]用于手部姿势估计问题。CMU Panoptic数据集有9个序列，每个序列有31个相机视图，总共超过160，000帧。我们将它们分成7个序列用于训练，1个序列用于验证，1个序列用于测试。我们使用8个眼位相机进行训练和验证，使用30个相机2进行测试，包括在训练和验证期间使用的8个眼位相机。序列以每秒1帧的速度进行时间子采样，最终得到5，008个训练帧（40，064个图像），891个验证帧（7，128个图像）和771个测试帧（23，130个图像）。我们使用5fps版本的InterHand2.6M，并将数据集子采样为10个用于训练的捕获，1个用于验证的捕获和另一个用于测试的捕获。对于每次捕获，我们使用16个摄像头，这些摄像头在训练和验证期间位于远处。此外，我们在测试过程中使用了32个摄像头。我们最终得到12，123个训练帧（193，968张图像），1，900个验证帧（30，400张图像）和1，762个测试帧（56，384个图像）。对于每个实验，我们进行3次随机试验，并以毫米（mm）为单位报告3D平均关键点误差（MKPE）的平均值和方差。由于我们的骨干模型预测每个视图的2D热图，为了获得3D预测Pk，我们使用2D关键点预测Ik（热图的argmax）执行RANSAC三角测量。4.2. 注释模拟详细信息我们在实验中使用了两种骨干模型：PoseResNet-50[40]和HRNet [38]。对于身体姿势估计，两个主干都在MPII [1]数据集上进行了预训练。由于MPII和CMUPanoptic定义了不同的关键点集，因此我们初始化了PoseResNet-50中除输出层之外的所有层的权重。对于HRNet，我们使用前4层的预训练权重，并随机初始化其余层。对于手部姿势估计，由于没有针对我们的设置的预训练模型可用，因此我们从正态分布随机初始化所有参数。每个AL迭代中的注释量设置为CMU Panoptic为100帧，InterHand2.6M为1，000帧。不管AL策略如何，对于要考虑用于选择的伪标记帧，因此，我们要求所有关键点的所有视图都是内点CMU网站上缺少来自1台测试摄像机的2段视频。4. 实验5702L5.04.03.0Panoptic /PoseResNet-505% 10% 15% 20%注释成本43 .第三章。53二、5Panoptic /HRNet5% 10% 15% 20%注释成本43 .第三章。53二、5InterHand /PoseResNet-5020%30%40%50%注释成本R和BSB MPE OURS-CS OURS-MC图3：CMU Panoptic和InterHand2.6M上的AL策略比较。X轴：标记数据集的百分比。BSB和MPE [21]是为单视图姿态估计而开发的，当扩展到多视图时，其性能并不比RAND更好。我们提出的策略（OURS-CS和OURS-MC）显著优于随机抽样.最好用彩色观看。初始标记集0（CMU Panoptic为200帧，InterHand2.6M为2000帧）总是随机采样，以提供合理的起始点。此外，为了可再现性，所有策略都从相同的随机采样帧集合开始。对于自训练，伪标签量被设置为注释量的10%-20%。在每次AL迭代中，我们在当前标记数据集以及伪标记数据集（如果可用）上从头开始训练模型。两个主干都是以每个GPU 32个图像的批量大小进行训练的，总共有5000个优化步骤。我们使用Adam优化器，学习率从0.001开始，在中点衰减1/10所有的实验都是用这个训练程序进行的，所有报告的结果都是在同一个保持集上进行评估的。继Mittalet al.[24]我们还尝试了数据增强。我们使用RandAugment [8]来增强CMU Panoptic的训练图像。另一方面，Ran- dAugment并没有在包含更多样化姿势的Inter- Hand2.6M上产生更好的性能。4.3. 结果我们在CMU Panoptic上使用PoseResNet-50和HRNet进行了实验，而对于更大的InterHand2.6M，我们报告了PoseResNet-50的结果。下面，我们将随机采样称为RAND，多峰熵策略[21]称为MPE，最佳与第二最佳策略[21]作为BSB，我们提出的CoreSet-Poses策略作为OURS-CS，多视图一致性策略作为O URS-MC。4.3.1主动学习PoseResNet-50和HRNet在CMU Panoptic上的结果以及PoseResNet-50在InterHand2.6M上的结果见图。3 .第三章。在这个实验中，我们没有使用数据增强，以突出采样策略的差异。正如我们前面提到的，RAND策略可以成为姿势估计等困难任务的非常强大的基线。尽管据报道MPE在单视图姿态估计中优于RAND[21]，但我们观察到通过聚合每帧不确定性度量将MPE或BSB扩展到多视图未能击败RAND。此外，简单形式的聚合也无法解释问题中的几何结构：所有2D预测都可能是高度可信的，但在几何上不一致。在这种情况下，该帧将无法通过三角测量，但仍具有足够低的MPE和BSB分数以逃避选择。接下来，我们提出的策略OURS-MC和OURS-CS在所有情况下都以较大幅度持续优于RANDOURS-MC与使用PoseResNet-50主干的O URS-CS不相上下，但优于使用HRNet主干的OURS-CS，尽管只占一小部分在无标签集合上的计算成本（O（|U|）与O（|U|2））。与RAND相比，InterHand2.6M上的O URS-MC的改进小于CMU Panoptic上的OURS-MC的改进，因为此外，我们从Inter-Hand 2. 6 M中采样的帧比CMU Panoptic更稀疏如上所述，InterHand2.6M比CMU Panoptic大得多，包含更多的不同姿态，即。当未标记集合是多样的时，可以通过随机采样来获得多样的样本。因此，我们主要在CMU Panoptic上进行消融研究。4.3.2AL +自我培训对于这个实验，我们专注于构建一个完整的系统：我们在AL迭代中使用伪标签来增加训练集，并且我们添加数据增加（除了前面提到的InterHand2.6M）。为了清楚起见，我们3D MKPE（mm）3D MKPE（mm）3D MKPE（mm）5703PU U \P4.第一章543 .第三章。53二、5Panoptic / PoseResNet-50 /RandAug5% 10% 15%注释成本3 .第三章。53二、5Panoptic / HRNet / RandAug5% 10% 15%注释成本3 .第三章。53二、5InterHand /PoseResNet-5020%30%40%50%注释成本RANDRAND+ST OURS-MC OURS-MC+ ST图4：在CMU Panoptic和InterHand2.6M上进行AL +自我训练（ST）。X轴：标记数据集的百分比。当与AL相结合时，我们的自动化自我训练策略可以在没有额外计算成本的情况下实现额外的标签效率增益，特别是在训练的早期阶段。最好用彩色观看。54.第一章543 .第三章。5Panoptic / PoseResNet-50 /R和54.第一章543 .第三章。5Panoptic / PoseResNet-50 /OURS-MC43 .第三章。53Panoptic / HRNet /RAND43 .第三章。53Panoptic / HRNet /OURS-MC3二、55% 10% 15% 20%3二、55% 10% 15% 20%二、55%10%15%20%二、55% 10% 15% 20%注释成本注释成本注释成本注释成本AL AL+ ST AL+ RANDAUGAL+ ST+ RANDAUG图5：AL、AL+自我训练（ST）、AL+ RAND AUG和AL+ ST+ RAND AUG在CMU Panoptic上的比较。X轴：标记数据集的百分比。我们的自我训练策略通过RAND AL策略对PoseResNet进行了很大的改进。尽管RandAug进一步改进了RAND和OURS-MC AL策略的PoseResNet和HRNet的泛化，但我们的自训练策略仍然显示出比仅AL基线的微小改进。从前面的实验中选择总体上最好的方法OURS-MC，并将其与RAND进行比较。结果示于图4中。与多视图自举[36]中的发现类似，额外的自我训练过程为主动学习提供了一致的改进。在我们的问题设置中，我们也观察到在早期阶段的好处更加明显：例如，在具有10%注释数据的CMU Panoptic上，伪标签利用PoseResNet- 50主干将10%和20%注释数据量之间的差距减小了20%，并且对于HRNet减小了大约50%。我们发现，如果伪标签帧是从采样的，而不是在每次迭代中。本质上，相同的帧将不断重新进入，并且它们的标签在每次AL迭代中变得更糟。要包括的帧的数量M也是关键参数。我们在补充材料中介绍了更多关于这些设计选择的消融研究。综上所述，上述结果表明，我们提出的AL对于身体和手部姿势估计，策略稳定地超过基线很大幅度。此外，通过精心调整的自我训练过程，我们可以进一步提高注释效率，而无需额外成本。4.3.3数据增强、自我训练和AL对于不同主链和AL策略，AL、AL+ ST、AL+ RANDAUG和AL+ ST+ RAND AUG之间的比较如图所示五、数据扩充将提高我们基于AL的注释过程的效率，特别是在早期阶段。在基于RAND和PoseResNet-50的AL系统上可以观察到更大的性能增益自我训练显示，对于具有不同AL策略和数据增强的所有实验变量，可能会有额外的收益。然而，自我训练带来的性能改善在更高性能的模型中饱和，即。在AL过程的后期阶段。尽管如此，自我训练可以提供额外的收益3D MKPE（mm）3D MKPE（mm）3D MKPE（mm）3D MKPE（mm）3D MKPE（mm）3D MKPE（mm）3D MKPE（mm）5704群集1群集2群集3群集4群集5群集6群集7群集8群集9群集1012010010的情况。912010010的情况。912010010的情况。98008800的情况。8800的情况。860 600的情况。740 400的情况。620 200600的情况。7400的情况。6200的情况。70的情况。60的情况。5(a) R和(b) MPE(c) OURS-MC图6：在CMU Panoptic上，对于三种AL策略，我们可视化采样帧的姿态分布。颜色代表不同的聚类，红色曲线跟踪姿势的熵（wrt。簇ID）。OURS-MC产生不同的样本（更高的熵），并更多地关注代表性不足的集群，从而获得始终如一的卓越性能。随着熵计算从离散分布，二、2二、01 .一、81 .一、61 .一、41 .一、21 .一、01 2 3 4AL迭代bitions。姿态分布的长尾性质可以从图中看出。图6（a）：来自R AND的样本分布不均匀，并且特别是由聚类1和8主导，这是常见的站立姿势。与RAND相比，MPE策略实际上更重地对常见姿势聚类进行采样，并且几乎从不对来自少数聚类（5、7、9）的帧进行采样。相比之下，所提出的OURS-MC基于不确定性度量，获得了更好的姿态多样性（更高的熵），特别是在早期迭代中。这是因为OURS-MC在预测中寻找几何不一致，这在很大程度上是解耦的图7：自我训练（Alg. 2）：在CMU Panoptic的MKPE中测量的采样伪标签与对应的地面真实值之间的偏差。我们的选择策略确保伪标签是准确的，并防止随着时间的推移符号过程，因为它不产生额外的计算或注释成本。最后，在标签效率方面，人工智能策略的选择要优于数据我们提出的OURS-MC和OURS-CS在所有不同的设置下都优于其他比较的AL。4.4. 消融研究样本的多样性：我们在 CMU Panoptic 上使用PoseResNet-50进行了一次实验，其中每次迭代的注释量为50直观地，采样更多样化的姿势（同时仍然遵循数据分布）应该有助于性别化。地面实况3D姿态被移位以在原点处具有关键点2（腰部），并且使用K均值聚类成10个聚类。我们在图1B中基于该聚类可视化由每个AL策略采样的帧的分布六、帧数MKPE（mm）熵wrt。姿态分布24 68100 的情况。50246 8100的情况。50246 810AL迭代AL迭代AL迭代5705预测目标及其分布。自训练伪标签的准确性：伪标签的主要挑战是确保其准确性并避免漂移。在图7中，我们在几次AL迭代中可视化了伪标记帧与其实际地面实况之间的MKPE分布。我们的选择策略保持了很高的准确性（<1. 平均5mm MKPE），在AL过程中持续改善。5. 结论在本文中，我们提出了一个主动学习框架的数据标注过程的多视图姿态估计。我们首先扩展现有的基于熵的单视图AL策略到多视图，然后提出了两个AL策略，利用3D关键点三角剖分。所提出的CoreSet-Poses和多视图一致性策略始终优于所有AL和常规注释基线，用于身体和手部姿势估计问题。此外，我们还引入了一个使用伪标签的自训练过程，并以最小的代价进一步提高了标注效率我们的完整系统在 CMUPanoptic和InterHand2.6M上实现了最先进的数据注释效率，同时使用了一小部分注释成本和周转时间。5706引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在Proc. IEEE会议计算机视觉和模式识别（CVPR），第3686-3693页，2014年。一、二、五[2] Mykhaylo Andriluka Stefan Roth和Bernt Schiele 图片-重新审视的序列结构：人物检测和关节姿态估计。在Proc. IEEE计算机视觉和模式识别会议（CVPR），第1014-1021页中。IEEE，2009年。2[3] Javad Zolfaghari Bengar，Joost van de Weijer，BartlomiejTwardowski和Bogdan Raducanu。减少标签工作：自我监督满足主动学习。在IEEE国际计算机视觉会议（ICCV）研讨会上，第1631-1639页，2021年。3[4] 曹金坤，唐宏阳，方浩树，沈晓勇卢策武和戴玉荣用于动物姿态估计的跨域自适应在Proc.IEEE计算机视觉国际会议（ICCV），2019年10月。3[5] Razvan Caramalau、Binod Bhattarai和Tae-Kyun Kim。Ac-主动学习用于基本3D手部姿态估计。IEEE/CVF计算机视觉应用冬季会议（WACV），第3419-3428页，2021年。二、三、四[6] GuilhemChe'ron，I v anLapt ev，andCordeliaSchmid. P-cnn：基于姿态的cnn特征用于动作识别。在proc IEEE国际计算机视觉会议（ICCV），第3218-3226页，2015年。1[7] David Cohn，Les Atlas，and Richard Ladner.改善gener-主动学习的方法。Machine learning，15（2）：201-221，1994. 一、二[8] Ekin D Cubuk，Barret Zoph，Jonathon Shlens，and QuocV Le.随机扩增：实用的自动化数据扩充，减少搜索空间。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，第7026[9] Ahmed Elhayek，Edilson de Aguiar，Arjun Jain，JonathanTompson ， Leonid Pishchulin ， Micha Andriluka ， ChrisBregler，Bernt Schiele，and Christian Theobalt.在一般场景中使用少量摄像机进行高效的基于convnet的无标记运动捕捉IEEE计算机视觉和模式识别会议（CVPR），2015年6月。1[10] Pedro F Felzenszwalb和Daniel P Huttenlocher。图片报用于对象识别的结构。国际计算机视觉杂志，61（1）：55-79，2005。2[11] Richard Hartley和Andrew Zisserman。多视图几何计算机视觉中的测量。剑桥大学出版社，2003年。3[12] Yihui He，Rui Yan，Katerina Fragkiadaki，and Shoou-IYu.对极变压器。IEEE计算机视觉和模式识别会议（CVPR），2020年6月。2[13] Geoffrey Hinton Oriol Vinyals和Jeffrey Dean 蒸馏神经网络中的知识。神经信息处理系统进展（NeurIPS）研讨会，2015年。3[14] S. Honari，P. Molchanov，S. Tyree，P. Vincent，C.和J.考茨用半监督学习改进地标定位IEEE计算机视觉会议模式识别（CVPR），第1546-1555页。IEEE计算机协会，2018年。3[15] Catalin Ionescu、Dragos Papava、Vlad Olaru和Cristian斯明奇塞斯库人类3。6m：大规模数据集和预测方法，用于自然环境中的三维人体感知。IEEE Transactions onPattern Analysis and Machine Intelligence ， 36 （ 7 ）：1325-1339，2013。2[16] 杰森·艾萨克和西蒙·福手姿态估计，ican手语识别。第36届东南系统理论研讨会论文集。第132IEEE，2004年。1[17] Karim Iskakov、Egor Burkov、Victor Lempitsky和YuryMalkov人体姿势的可学习三角测量。在Proc. IEEE国际计算机视觉会议（ICCV），第7718-7727页，2019年。2[18] Hanbyul Joo，Tomas Simon ，Xulong Li ，Hao Liu ，LeiTan，LinGui，Sean Banerjee，Timothy God

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于主动学习和自训练的多视图姿态估计方法及其性能提升

多姿态估计

基于深度学习的多视图三维视图重建

基于单目视觉的深度估计方法

基于视图的三维深度学习方法

基于启发式的多视图聚类(HMVC)方法和基于神经网络的多视图聚类(NNMVC)方法

基于深度学习的三维视图重建

请写一篇综述：多视图学习

基于神经辐射场的视图重建研究的国内外研究现状概述

python中多视图学习聚类

深度学习中点云投影为多个视图后，怎么可学习选取最佳视图

深度学习多视图三维重建程序

自监督单目深度估计方法

基于融合表征学习与k-means的缺失多视图聚类算法在疾病分类上的市场分析

详细分析基于多视图聚类的疾病分类方法的劣势

多视图分类主要包括四种学习范式：多核学习、子空间学习、稀疏学习和加权学习

不是，是多视图学习里的多核学习

多视图数据融合有哪些方法

写一个pycharm基于深度学习的多视图三维重建的代码

多视图聚类的国内外研究现状

最新资源