主动学习位姿估计的MetaAgent合作

50 浏览量更新于2023-10-26 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11079基于Meta Agent合作的主动学习位姿估计贾巩1范志鹏2柯秋红3侯赛因·拉赫马尼4 刘俊1刘1新加坡科技与设计大学，新加坡;2美国纽约大学3澳大利亚墨尔本大学;4英国兰卡斯特大学jiagong@mymail.sutd.edu.sgwww.example.com，zf606@nyu.edu，www.example.comqiuhong.ke @unimelb.edu.auh. lancaster.ac.uk， junliu@sutd.edu.sg摘要现有的姿态估计方法往往需要大量的注释图像，以获得良好的估计性能，这是费力的获取。为了减少人类的努力构成注释，我们提出了一种新的Meta代理团队主动学习（MATAL）框架，积极选择和标签信息的图像进行有效的学习。我们的MATAL将图像选择过程制定为马尔可夫决策过程，并学习最佳采样策略，该策略基于奖励直接最大化姿态估计器的性能我们的框架包括一个新的状态动作表示，以及一个多代理团队，使批量抽样的主动学习过程。该框架可以通过元优化进行有效的优化，以加速部署过程中逐渐扩展的标记数据的适应最后，我们展示了在人手和身体姿态估计基准数据集上的实验结果，并证明我们的方法在相同的注释预算下连续显著优于所有基线。此外，为了获得类似的姿态估计精度，我们的MATAL框架可以节省约40%的标记工作平均相比，国家的最先进的主动学习框架。1. 介绍人手（或身体）姿态估计旨在将图像中特定关键点的位置定位，是一项重要任务，具有广泛的应用，例如增强现实[11]，手语翻译[21]和人机交互[40]。尽管现有的基于深度学习的姿态估计方法[63，2，15，59，19，10，56]非常成功，但它们是众所周知的数据饥渴。此外，获取姿势注释通常* 通讯作者非常昂贵和耗时，例如，在MPII数据集[1]中注释单个图像需要大约40秒，这限制了大规模数据集的开发。因此，由于数据集的规模有限，必须开发算法以更有效地使用数据。主动学习（AL），主动选择信息量最大的未标记图像进行注释，是解决这个问题的一个很有前途的解决方案。最近基于主动学习的姿态估计框架[38，58，4，5，22]可以分为基于不确定性或基于分布的方法。基于不确定性的方法[22，58，38]查询具有最低置信度分数的样本的注释。然而，如[24]所示，神经网络往往对不熟悉的样本过于自信，导致高估模型性能，从而降低标记效率。同时，基于分布的方法[35，4]旨在从未标记的数据集中查询代表性图像的注释然而，最具代表性的图像w.r.t.由于估计器可能已经从较早的样本中学习了类似的知识，所以未标记的集合可能不总是对姿态估计器最有启发性的集合因此，对于这两种类型的方法，它们的图像选择策略并不直接与姿态估计器的改进相关，从而导致次优性能。此外，这些方法在批量设置中受到影响，其中主动学习算法在一轮中选择多现有的传统方法[22，58]依赖于选择信息量最大或最具代表性的图像来构建批次，而忽略了所形成批次中最近，一些作品[4，35]探索了使用基于距离的聚类来识别独特的图像，同时保持数据集的良好覆盖。然而，所采用的聚类算法在高维空间中往往不太有效，导致AL迭代期间的样本选择过程不太有效[34]。因此，重要的是以智能方式构造一批用于注释的样本，同时兼顾每个单独图像的信息量和批次的整体多样性11080为了解决上述问题，在一个单一的端到端的学习框架，我们提出了一种新的Meta代理团队主动学习（MATAL）模型的人手（或身体）的姿态估计，它利用代理团队从数据中学习一个团队的采样策略。我们的主要观点是，选择一批信息丰富但多样的图像进行注释可以被视为一组代理的团队合作，其中团队中的每个代理根据其他代理的决策共同选择一个图像然后，这种主动学习过程可以被公式化为马尔可夫决策过程（MDP）[45]，可以用强化学习（RL）来解决。代理团队接收表征数据集中图像分布的状态信号，并协作生成一批动作来决定哪些图像应该被标记。为了帮助智能体团队识别用于注释的信息样本，我们引入了一种新的状态-动作表示，通过对动力学链空间（KCS）进行编码来编码手（或身体）姿势的拓扑信息。最后，由于标记的数据集将随着新的注释数据而扩展，因此我们通过元学习来训练我们的模型，以便于快速适应迭代扩大的标记数据集。本文的主要工作如下：1）将姿态估计主动学习过程建模为马尔可夫决策过程（MDP），并提出了一种基于强化学习（RL）的有效样本选择框架。2）为了帮助智能体的学习，我们提出了一种状态-动作表示来表征样本的信息性和代表性。3）我们在人手和身体姿势基准上验证了所提出的MATAL框架的有效性。2. 相关工作姿态估计。下面我们简要回顾一下最近的姿态估计方法。更多的作品可以在[7，18]中找到。几种方法[55，61，32，41，30，42，20，62，8]已经研究了深度学习的使用，以从深度或RGB-D图像预测这些方法采用热图[52]，姿势结构信息[44]或手部最近的作品[63，29，17，64]从RGB输入导出了手关节类似地，最近的人体姿势估计方法[49，61，27，43，31，10]更多地关注从RGB图像中导出身体关节最先进的Stacked Hourglass [56]采用编码器-解码器结构来预测关节我们的框架不假设一个特定的架构的姿态估计器，可以与各种现有的模型，以提高其注释效率。为了减少对标记数据的需求，采用了监督信号较少的学习方法，如弱监督学习方法，学习[28，23，8]、半监督学习[39，3，54]和自监督学习[9，51]最近引起了广泛的关注。这些方法利用未标记的数据来提高性能。然而，大多数方法仍然依赖于标记数据的帮助，从未标记的图像中提取有用的信息这意味着标记数据的质量和信息量在他们的方法中仍然至关重要。我们的主动学习方法与这些方法并行，可以集成到标记数据收集过程中，以显着降低注释成本。主动学习的姿态估计。主动学习是一个重要的机器学习问题，已经受到了很多关注[35，58，6，22]。近年来，一些工作探索了主动学习在姿态估计中的应用。Liu等人。[22]介绍了一种基于不确定性的估计器，利用预测热图的熵来选择信息图像。Yoo等人。[58]提出了一个损失预测模块，该模块与目标模型一起学习，以预测未标记样本的损失。选择具有高预测损失值的未标记样本的子集Shukla等人[38]扩展了[58]，以改善预测损失值和真实损失值之间的相关性。[4]中的工作使用贝叶斯不确定性来估计姿态估计器预测的置信度，并将其与核心集采样[ 35 ]相Carlauau等人。[5]采用图卷积网络（GCN）来建模标记和未标记数据之间的关系。然后，他们提出了两种基于GCN的采样方法，分别基于不确定性和尽管这些方法已经实现了对图像的不确定性或不一致性的越来越精确的测量，但是它们的采样策略并不直接与姿态估计器的性能相关，从而导致有限的性能改进。我们通过学习由奖励驱动的采样策略来解决这个问题，该奖励直接与姿势估计器的性能相关。据我们所知，我们是第一个基于主动学习的多智能体框架，学习一个批量采样政策，促进学习的姿态估计。强化学习在姿态估计中的应用强化学习（RL）是解决MDP问题的一种学习范式，旨在学习采取行动以最大化MDP中的累积奖励的策略[25，45，57，50]。最近，一些作品[33，13]探索了RL在姿态估计任务中的不同Jianzhun等人。[36]使用RL学习操纵3D对象以进行匹配真相面具另一项工作[14]考虑了人体姿态估计任务中的多相机设置，并利用RL模型来选择适当的视点（或相机）以提高姿态估计器的性能。然而，他们都将RL纳入姿态估计过程，与我们的公式完全不同。而不是使用RL直接11081标记合并液“不外观特征联系国家统计局⊕MMD重新训未标记的合并液不拓扑特征�� ，，.��*0*1*#⊖全球当地行动空间简体不奖励设置N中国：：Reward，rt+1 = Acct+1-Acct添加图片删除：删除图像R{A}，{P}0， ...，{P} 6 } +预算信息}的分配差异��不电话+1电话+1电话+1不电话+1不不 m=1电话+1t t+1t+1Pose Estimate艾美奖特征空间代理团队{登录}N图1.概述了我们的MATAL手部姿势估计框架（用于人体姿势估计的MATAL具有类似的结构）。实线描述了第t主动学习迭代的数据流，虚线是第（t+ 1）次迭代的数据流。给定一个标记的样本池DL和一个未标记的样本池DU，我们的主动学习框架的工作原理如下：1）我们首先投影两个t t用姿态估计器gt将DU和DL映射到特征空间，然后由特征空间构造状态空间St和动作空间Att t状态st记录了特征空间中DU和DL之间的差异，以及注释预算的消耗的行动t t空间At包含D U在特征空间中的投影。每个动作at ∈ At对应于D U中的唯一图像，并描述图像的新颖性、代表性和外观2）代理团队遵循Q-学习[45]框架，并评估状态-动作对（st，at），以确定升高对应图像以进行注释的动作集合{ a m } N。3）然后更新DU和DL之间的关系。在DL上重新训练姿态估计器得到gt+1。4）奖励rt+1，t+1t t t +1它衡量姿态估计器在D re上的预测精度的提高，解决姿势/相机参数，我们解决主动学习的任务，在特定的注释预算下注释选择性的信息样本，并设计一个状态-动作表示，（1）评价每幅图像在DU中的信息量;（2）选择一批信息量大的图像进行查询标注;（3）将选定的图像从DU移动到DL，然后重新训练t t用新的Meta代理分组框架向更新的标记数据集DL上的姿态估计器gt表示实现有效的批量取样。3. 方法给定具有有限注释预算的未标记人手（或身体）数据集，主动学习（AL）的目标是迭代地注释信息量最大的图像，以最大化目标姿态估计器的性能我们介绍了一种新的人工智能框架，用于人手（或身体）姿势估计，它利用代理团队在每次主动学习迭代中提出一批信息图像1.一、得到gt+1。在本文中，我们的目标是学习一种最佳采样策略，该策略在固定的注释预算下直接最大化目标姿态估计器的性能为了便于理解，我们假设在本节中有一个代理提出一个用于注释的单个图像。节中3.2，进一步讨论了多Agent图像批量选择问题我们将AL步骤表示为MDP：（st，at，rt+1，st+1），并将关键AL步骤转换为：（1）估计状态st，其表征未标记集合DU和标记集合DL在第t次迭代时的分布差异。在本节中，我们首先展示了用于姿态估计的AL如何可以被公式化为马尔可夫决策过程（MDP）。第3.1节）。然后，我们提出了我们的合作多智能体（2）评估每个状态-动作对（st，at）以确定要注释的图像。(3)将DL，DU更新为DL，DU通过将新注释的图像从DU移动到DL。再-框架来执行有效的批量选择和引入引入一个紧凑的表示，以促进代理之间的合作（节。3.2）。最后，我们介绍了训练和部署管道以及元优化算法，这有助于代理在部署期间快速适应AL过程中的扩大标记集（第二3.3）。3.1. 主动姿态估计作为MDP现有的AL算法[38，58，4，5，22]落入迭代地选择一批图像进行标记直到注释预算B用完的范例。在第t次迭代中，给定未标记集合DU、标记集合DL和姿态在更新的DL上训练gt以获得gt+1，并基于DL和DU将状态更新为st+1。(4)根据分别对a求值的gt+1和gt计算报酬r t+1保留的奖励集合Dre用于更新代理。我们采用Q-学习算法[45]来解决这个MDP问题，其中智能体对每个状态-动作表示对（st，at）进行评分，并采取得分最高的动作at（即，Q值）。通过直接从姿态估计器的改进中获得奖励，我们可以优化代理以学习最大化奖励以及姿态估计器的性能的策略下面我们详细介绍状态t、动作t和t t估计器gt，这些AL算法采取以下步骤：11082不2n×不不不不----不不不不2UnLnU不不01不601S6ΣΣn·tt--联系我们状态直观地说，状态s t应该捕获标记数据集D L和未标记数据集D L之间的分布间隙。其中S ∈ {F A，F P0，F P1，.，F P6}，通过MMD作为：nnL nL数据集DU，它帮助代理挑选出可以补偿分布偏移的最具信息性的图像在DL和DU之间。一个无偏的训练集，K=MMD（SL，SU）=k（pi，pj）+i=1j=1L（一）ttnU nUnLnU因此，姿态估计器更有可能概括看不见的案例。具体而言，在姿态估计中，我们ΣΣk(qi,qj)−ΣΣ2∗k(pi,qj),i=1j=1i=1j=1考虑两个关键属性来表征分布漂移：外观变化和姿态拓扑变化，这也是收集姿态估计数据集时的关键考虑因素[60]。基于这些直觉，我们提出了收集两种线索，包括外观信息和拓扑信息来表征D L和D U之间的分布差异。请注意，差异是dy-其中SL和SU分别是S在DL和DU上的分布，KS是表示SL和SU之间的分布差的标量。我们将SL和SU中的样本分别表示为p和q。nL和nU是DL和DU中的样本数，k（）对应于径向核[47]，用于测量两个样本之间的距离。此外，可用预算是另一个不确定因素-t t t重要信息，以便代理执行有效的因为它取决于姿态估计器Gt。状态的设计帮助代理在主动学习过程期间为姿态估计器gt选择适当的样本对于样本x的外观信息fA，我们从姿态估计器gt的中间层收集平均池化特征，如图1所示。该特征描绘了图像样本x的一般外观。对于拓扑信息，我们通过动力学链空间（KCS）[53，16]对骨骼长度和骨骼旋转等拓扑特征进行编码更准确地说，我们从估计的姿态y=gt（x）中得出M个骨骼向量，并将它们连接起来以形成M n矩阵，其中n是关节坐标的维度。然后将KCS计算为矩阵及其转置的内积我们将整个手（或整个身体）的所有骨向量的KCS表示为全局拓扑特征fP0。此外，姿态估计器的性能随每个关节而变化[56]，导致手部（或身体）的各种局部关节上的姿态估计质量不同。为了帮助姿态估计器在每个关节上实现良好的性能，我们还跟踪了手（或身体）局部的属性我们将整个手（或整个身体）分解为六个局部部分，包括手掌和五个手指（躯干，头部，左/右臂和左/右腿）。我们然后计算这些部分的KCS作为局部拓扑特征{fP1，fP2，...，f P6}的图像x。通过这种方式，我们提取了外观特征f A和拓扑特征 f P0，f P1，.，f图像为P6X.然后分析了该系统中所有数据的表观特征，带标记和未标记的数据集形成外观特征空间FA。类似地，我们可以建立拓扑特征空间FP0，FP1，.，F P6.为了对标记数据集DL和未标记数据集DU之间的分布漂移进行建模，我们将标记数据集和未标记数据集视为两个域，并测量它们之间的域间隙。具体来说，我们采用最大平均离散度（MMD）[47]并计算每个特征空间的间隙选择.在这里，我们使用预算消耗率b来表示这种状态。最后，状态s t被定义为：K FA，K FP，K FP，.，K FP，b，其编码标记和未标记集合之间的分布漂移以及可用预算。它指导代理确定哪种图像最有利于姿态估计器。行动上当将特定未标记样本添加到标记集合DL时，该动作应该理想地捕获该特定未标记样本的潜在贡献。直觉上，结合状态和动作表示，智能体应该有足够的信息来对每个未标记的样本进行评分，并从未标记的集合D U中选择一个有信息的图像来查询注释。为此，我们将动作空间At中的每个动作at与未标记池DU中的唯一图像x相关联。为了帮助选择信息样本，我们从每个未标记图像x计算三种特征：1）图像x中姿势的新颖性; 2）图像对于未标记池的代表性; 3）图像的一般外观信息。直观地说，这三个特征表征了姿势的信息性、代表性以及未标记图像x.我们在下面详细介绍每一个代表图像的新颖性有助于估计添加准确注释带来的潜在性能增益然而，如果没有实际的地面实况姿态，则难以测量因此，我们建议利用标记集DL的拓扑特征对其进行近似评价。直观地，全局/局部拓扑信息的接近度指示估计姿态的整体/局部部分与地面实况姿态之间的相似性新颖姿态将可能具有与来自标记集合DL的任何姿态的低相似性。因此，我们在每个拓扑特征空间FP，FP，.上分别计算未标记图像x和标记集合DL之间的最大余弦相似度，F P作为s0，s1，...，s6，并将其视为姿势新颖性的代理。然后，我们介绍我们的参数化的代表性的样本。标记集合DL和非-11083不不不不--不m−1不∈m=1不m−1不ti=1qm（st，am，hm;θm）−rt+1联系我们ti=1--tt--标记集合DU共同描述数据的分布。因此，对代表性图像进行采样也很重要。未标记的集合DU，它可以是字符，普雷特普雷特阿姆cn-值其特征在于相似性分数的分布。我们引入了一个基于直方图的表示d来记录co-每个拓扑上x和DU之间的正弦相似性分布Mt16128 128图2.团队中第m代理的体系结构。注意逻辑特征空间作为不{d0，d1，...，d6}。结合每个代理共享相似的模型架构，但有自己的参数 at和hm首先被馈送到具有ReLU参数{s0，s1，...，s6}表示x的相似性不m16m对于DL，代理可以避免重复采样代表，激活以生成特征z tE ∈R. zt，at和st是不我们的姿势估计器已经学习的感觉图像从而提高采样效率。最后，我们提取未标记图像x的图像外观特征fA作为其外观属性（例如，衣服纹理、肤色、背景等）。对应于未标记图像x的最终动作表示at是这些特征的组合连接并通过三个线性层，其间具有ReLU激活以输出Q值。冰冷的网络作为qm，并且由它执行的动作作为m。然后，为了模拟智能体之间的顺序合作，我们可以额外地为第m个智能体提供前m1个智能体的动作aim-1然而，它将需要一个越来越深和广泛的神经网络来提供。用一个大的m来计算{ai}m−1的信息，导致不i=1s0，s1，. s6，d0，d1，.， d6，f A，使代理能够执行-有效地识别未标记图像X的信息量并执行选择。奖励奖励是评估所选择的未标记图像可以使目标姿态模型gt受益多少的度量。在开始主动学习过程之前，我们保留一个特定的子集Dre 然后，我们测量姿态估计器在这个奖励集D上，而奖励rt+1被定义为re不希望的高计算复杂度。为了解决这个问题我们使用im-1的期望，一个固定长度的前一个代理动作的紧凑表示从数学上讲，先前代理hm=1ai，（2）i=1gt+1和gt之间的精度差，如Fig.1.注意Dre仅用于评估，而不用于姿态估计器的任何训练过程。通过奖励rt+1，我们可以优化代理以选择最具信息性的图像以最大化奖励，从而在每次AL迭代期间提高姿态估计精度。3.2. 分组抽样策略学习在每个主动学习迭代中对单个未标记图像进行采样以查询注释是低效的，这有两个主要原因[35]：（1）单个样本带来的性能增益通常难以衡量;（2）由于涉及更多迭代，姿势估计器需要更频繁地重新训练为了解决这些问题，最新的方法[38，4，5，22]通常在每次主动学习迭代时查询一批样本的注释。那么第m个代理所做的动作就变成：am=argmax qm（st，at，hm;θm），（3）at∈A t其中am是由第m个智能体qm选择的动作，它由θm参数化，at At是候选动作，它形成要由智能体qm评估的状态-动作对（st，at）。第m种试剂的结构如图11所示。二、最后，我们将我们的代理团队模块构建为qmN，其中N是团队中的代理数量为了训练代理团队，我们遵循Double DQN公式[50]，通过最小化时间差异（TD）误差来优化我们的代理团队：. ΣN然而，在我们提出的框架中执行批量采样是不那么微不足道的。使用单个代理生成t tm=1Σ电话+1，h（四）Σ2一批样本，通过提高图像与高预测分数（Q值）忽略了批次，导致性能较差，如第四点三。-γm=1 qm（st+1，amM电话+1 ;θm），因此，我们进一步引入合作代理团队模块，由一组代理组成，协同工作，粘附地选择图像批有效和高效。具体来说，团队中的代理顺序地选择样本进行注释，并且每个代理可以观察到协作代理的动作以合作地对于N-agent团队中的第m个agent，我们将其表示为pol-ℎNTD（θ，θ）=11084ˆ其中θm是第m代理的策略网络的参数功，θ={θ1，θ2，. . .θ N}是团队中所有智能体的参数集，θ表示离线智能体的参数，策略网络，用于保持学习到的 Q 值，并在设置DoubleDQN [50]后使用θ定期更新自身通过这种合作机制，代理团队在每次迭代中有效地执行批量抽样11085−m=1m=1m=1m=1联系我们initinit\m=1×m=1联系我们init0m=1init0init0m=1不 m=1电话+1不m=1电话+1不m=1电话+1←−←−←−----算法1：分组采样策略学习输入：代理团队{qm}N，初始姿态估计器ginit，Alg. 1.一、受MAML [12]的启发，我们将每个再训练过程视为一项任务，并利用元学习[12]初始集Dm=1初始化注释和图像批量大小N学习策略网络参数的良好初始化-LinitUinit，Dre←−RandomPartition（Dinit）能够迅速适应新的再培训2 whilenot donedo//epperiment training3DL DL，DU DU，g0UPDATE（ginit，DL）t=0至T1do//AL手术4 例5建立状态空间和动作空间At（第二节）。第3.1节）6使用代理团队{qm}N选择映像在放大的数据集上我们在训练阶段采用了这种基于元学习的四点三。下式3：{xm}N{a m}N7注释数据：{（xm，ym）}N ← {xm}N4. 实验8更新DU、DL和gt：t t910端部DL←DL<${（xm，ym）}N，DU←DU\{xm}N，gt+1<$−UPDA TE（gt，DL）计算Dre上的奖励：rt+1=Acc（gt+1）−Acc（gt）我们在人手和身体姿势数据集上进行了广泛的实验，以评估我们提出的MATAL框架的有效性对于人手姿态估计，我们遵循前-[5]的实验设置并评估性能1112端部更新{qm}N下式4MATAL在三个广泛使用的数据集ICVL [46]，NYU [48]和BigHand2.2M [60]上的应用。ICVL是基于深度的手部图像数据集，NYU是更大的RGB-D数据集，3.3.基于Meta优化的在第二节中引入了AL配方的RL。3.1节中的代理团队框架。3.2，我们在本节中介绍培训和部署管道。给定一个未标记的数据集Dfull和一个注释bud-getB，我们的MATAL管道工作如下。我们首先对初始子集Dinit进行随机采样以请求注释。利用标记的初始子集Dinit，我们进一步对其进行划分，以模拟AL过程并训练我们的代理团队由多个摄像头拍摄。此外，为了评估我们的方法在大规模数据集上的有效性，我们在BigHand2.2M [60]上进行了实验，其中包含约从10个不同的主题收集了220万张图像对于人体姿势估计，我们使用MPII [60]，这是一个在最近的作品中广泛使用的RGB数据集。4.1. MATAL在人手位姿估计中的基线。我们比较了我们的MATAL的手姿态估计任务的性能与随机抽样，以及m Nm=1. 具体来说，我们划分标记的初始集合，作为现有的最先进的方法，包括Coreset [35]，D初始化到标记集合DL中，无标号集合DU得双曲正弦值.MCD CKE [4]、UncertrainGCN [5]和CoreGCN [5]，奖励集Dre，然后让我们的代理团队在Sec之后玩第3.1节和第3.2.详细过程在Alg. 1.一、我们将在初始标记集上训练代理团队的这一阶段表示为训练阶段。此外，一旦我们的代理团队在D init上进行了训练，它就可以被部署来对剩余的未标记池执行真正的主动学习过程D U=D full D init，直到预算B用完。我们把这个阶段称为De-雇佣阶段，在此阶段，代理团队在每次迭代时从DU 中提出批量样本xmN用于注释，并扩展标记池DL=DL xmN以更新姿态估计器G。我们设置DL=Dinit，在部署阶段开始并扩展它。有了扩大的标记集合DL，我们可以在上面重新训练我们的代理团队，以提高RL代理团队的性能，再次遵循Alg。1.一、注意，我们设置Dinit基于他们在每个数据集上报告的结果。实施详情。在[5]之后，我们使用Deep-Prior [32]作为姿态估计器的支柱。我们从DeepPrior的最后一个卷积层中提取特征图，并通过步长为3的5 5内核执行平均池化，然后进行平坦化以生成128-D的apperimeter特征向量。我们使用DeepPrior估计的21个关节，并计算275维拓扑特征向量。在NYU和BigHand2.2M上，我们使用40个代理来构建图像批量选择的代理团队，而在ICVL上使用4个代理，因为它比其他数据集小得多。对于每个数据集，我们首先从数据集的训练集中随机抽取少量图像，以构建初始集合D init，其余图像形成未标记集合D U。在ICVL、NYU和Big-Hand 2. 2 m数据集中，D init的大小分别为80、800和800 。然后我们通过Alg在 Dinit 上训练我们的MATAL。1，其中Dinit在Alg.1到最新的DL每次当我们被分成三个不相交的集合D环，DULinit 与在此部署阶段执行再培训。然而，由于DL的大小不断增长，在扩展的标记集合DL1个D得双曲余切值.和D11086上训练代理团队q mN可能是耗时的。为了降低时间复杂度，我们进一步提出了一个基于元学习的扩展，比例为3 ： 6 ： 1 。稍后，我们部署经过训练的MATAL来从DU中采样图像，并将DL初始化为Dinit。在部署阶段，代理团队被冻结以迭代地对信息图像批次进行采样，而姿态估计器在每次新注释的批次到达时更新1108701.8h2小时51小(d)MPII [1](e)纽约大学[48]1.5h37小时1.5小时1小时0(a) [46][48][49]图3.（a）-（d）：四个数据集上的姿态估计的主动学习结果。（a）ICVL（b）NYU（c）BigHand的结果用于手部姿势估计，并且这些图中的曲线示出了在不同数量的注释帧上关节姿势的平均均方误差在子图（d）中呈现了对MPII数据集的人体姿态估计的结果，其中度量是PCKh@0.5（越高越好）。（e）-（f）：代理团队对人手和身体基准的消融研究。每次标记数据集DL的大小与先前训练代理团队的时间相比加倍时，我们回到训练阶段以通过使用Alg的有效Meta优化来重新训练我们的代理团队模块。 1，其中我们将D init设置为最新的标记集合DL。随着代理团队的更新，我们恢复了DU的AL程序。重复这些步骤，直到注释预算B耗尽。我们将策略网络的学习率设置为1 e-4，并在等式中设置折扣因子γ4到0.9我们使用平均联合误差来衡量姿态估计器在每个数据集的测试集上的性能。为了显示我们的方法的鲁棒性，我们运行了5次实验，并报告了平均性能及其偏差。ICVL结果。图3（a）显示了我们提出的MATAL在ICVL数据集上的性能。我们的方法在每次主动学习迭代中都以明显的优势不断优于最先进的方法。Uncertainly GCN在初始状态下的性能优于其他现有方法，但后来CoreGCN实现了更好的性能，这可能是由于基于不确定性或代表性的固定标准在整个AL过程中不能始终识别相反，我们的MATAL选择的图像，可以最有利于姿态估计与建议的学习框架，适应在不同阶段的姿态估计的需要。如图3（a），我们的MATAL只需要600个标记图像，以减少平均联合误差小于12.5mm，而不确定GCN [5]和MCD CKE [4]需要超过900个标记图像。在1000幅标记图像的AL过程结束时，我们模型中的平均联合误差降低到11.89 mm，这远低于其他方法获得的最小值。纽约大学的结果。该数据集由多个相机采集，导致多个图像共享几乎相同的拓扑信息。虽然这些图像具有不同的外观特征，但冗余的拓扑信息显著降低了姿态估计器的学习效率。如图3（b）所示，Coreset [35]的性能接近随机采样的误差由于Coreset主要依赖于外观特征信息，而忽略了拓扑信息。MCD CKE [4]通过利用姿态估计器的不确定性获得更好的性能。我们的方法，受益于直接从数据中学习的采样政策，显着优于形式的MCD CKE基线。在这个数据集上，我们的方法只需要5K图像就可以实现几乎相同的性能（23.5 mm），而其他方法需要大约10K标记图像。关于 BigHand2.2M 我们使用大规模的 Big-Hand2.2M [60]数据集来展示我们方法的可扩展性。它包含大约220万张不同手形的图像，包含有计划的，随机的和以自我为中心的姿势。因此，该数据集更加多样化和具有挑战性。图3（c）显示了不同AL算法的性能。我们的方法仍然优于其他方法。它表明，我们的MATAL可以学习选择信息丰富的图像，即使在这个不同的数据集。4.2. 人体姿态估计的MATAL算法基线。我们将我们的MATAL框架与SOTA主动学习框架进行基准测试，用于人体姿势估计，包括Coreset[35] ， LearningLoss [58] ， LearningLoss ++ [38] 和EGL++[37]。实作详细数据。根据以前的工作[38，37]，我们使用堆叠沙漏[32]作为我们的姿势估计器的骨干我们从最后一个沙漏块的瓶颈CNN层收集特征图，并对其执行全局平均以构建图像外观特征，并使用预测的16个关节来构建拓扑特征。一个由40个代理组成的团队被设置用于批量选择，并随机抽取800个图像以构建初始数据集Dinit。此外，我们遵循以前的工作[38，37]并使用PCKh@0.5[31]来测量per-k。其他设置遵循手部姿势估计。MPII的结果。图3（d）展示了MATAL在人体姿势11088估计任务上的性能。所有现有的方法都比随机抽样获得更好的结果，但它们的PCKh@0.5得分彼此接近。[37]第37话：一个人的幸福11089i=0时--表1.消融研究的状态和动作表征的设计。我们通过比较模型的准确性来消除状态/动作表示，其中单个组件针对状态t和动作at被移除。方法标记样品2000400060008000国家，无KFP0国家w/o{KF}6P ii=1国家，不含KFA国家无b28.4425.2123.4723.0128.3025.2423.6623.2329.0025.6524.4923.5528.6225.2224.1023.85不含{si}6的行动i=0时不含{di}的行动6i=0时不含A的行动30.4726.7725.3625.1327.6024.8224.5124.1229.1825.8424.4423.69马塔尔二十六岁08二十四岁11二十二岁97二十二岁53ing方法，并有一个狭窄的偏差。我们的MATAL通过学习直接最大化姿态估计器性能的采样策略来实现显著更高的所提出的MATAL使用约25%的标签来获得85的 PCKh@0.5 。 1% ，而使用完整的注释数据得出PCKh@0.5的90。百分之五此外，与需要6K图像的其他方法相比，所提出的MATAL仅需要4K图像来实现类似的性能，从而节省了大约2K图像的标记工作。4.3. 消融研究状态和动作表征的影响我们对纽约大学数据集进行了消融研究，以评估我们提出的状态和动作表征中每个组件的一致性。由于团队代理依赖于状态来决定采样策略，因此我们首先通过从完整模型中单独删除其组件来研究状态信息的同样，我们还讨论了动作向量中信息的作用如表1所示，完整的MATAL在所有主动学习迭代中给出了最低的平均联合误差。移除状态中的全局或局部拓扑信息将降低我们的方法的性能当去除动作表示中的最大相似性得分si6时，平均联合误差的增加最大进一步验证了利用全局和局部拓扑特征的差异来估计恢复姿态的新颖性的有效性代理团队策略学习的效果我们进一步验证了所提出的多代理采样策略在NYU和MPII数据集上的性能。我们首先考虑使用年龄只有一个代理选择一个单一的图像在每个主动学习迭代。然后，我们构建第二基线作为一个代理选择一批图像在一个镜头。这里，对具有N个最高Q值的图像进行采样。最后，我们提出了使用N代理选择N图像在两种不同的设置：有或没有团队合作的性能。图. 3（e）和（f）报告了这些抽样策略的绩效。如图3（e）和（f）所示，由单个代理或非合作的多个代理选择多个图像给出了最差的结果。我们认为这是表2. Meta优化的消融研究。我们比较了有或没有元优化的MATAL，并展示了元优化显著加快了再培训过程。方法MSE（mm）时间成本（h）MATAL不含Meta23.684.5MATAL w Meta23.742因为这些方法倾向于选择Q值高但彼此接近的相似图像，导致批量图像选择设置中的几个低效。引入独立代理之间的合作有助于解决这个问题，因为先前行动的预期提供了有关其他代理使用一个代理在每次迭代中选择一个图像也提供了一个有竞争力的性能，但仍然往往不如我们的代理团队的方法。主要原因是姿势估计器的微小改进导致小的和嘈杂的奖励，使得代理难以学习良好的采样策略。此外，使用一个代理只选择一个图像的方法的时间成本远远高于我们的代理团队方法。元学习的效果我们使用元优化来更有效地更新代理团队模块。在这个实验中，我们比较了我们的模型在表2中的NYU数据集上收集5 K信息图像的时间成本，其中有/没有元学习。请注意，采样的时间成本对于两个模型几乎是相同的，但真正有区别的是对代理团队进行再培训的时间消耗。如表2所示，使用我们的元优化方案，我们的模型获得了具有竞争力的性能，同时将时间消耗显著减少了一半以上。5. 结论本文提出了一种基于RL的批量选择主动学习的位姿估计框架MATAL。MATAL直接学习一组代理的合作采样策略，以实现有效的图像批量选择。此外，引入元优化，以显着加快我们的团队代理在主动学习过程的部署阶段的再培训。我们进行了广泛的消融研究，以验证我们的框架的设计。此外，我们比较了我们的模型与现有的SOTA作品在四个广泛使用的数据集上的性能，并在所有实验中获得了更好的准确性。致谢。该项目由新加坡AI（资助号AISG-100 E-2020-065）、新加坡国家研究基金会（National ResearchFoundation Singapore）和SUTD Startup Research Grant提供支持。这项工作也得到了TAILOR的部分支持，TAILOR是一个由欧盟地平线2020研究和创新计划资助的项目，GA No 952215。11090引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿势估计：新基准和最新分析。在Proceedings of the IEEE Conference on computerVision and Pattern Recognition，第3686-3693页[2] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。在IEEE/CVF计算机视觉和模式识别会议上，第10843-10852页，2019年[3] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第666-682页[4] Razvan Caramalau、Binod Bhattarai和Tae-Kyun Kim。基于主动学习的人体3d手部姿态估计。在IEEE/CVF计算机视觉应用冬季会议论文集，第3419-3428页[5] Razvan Caramalau、Binod Bhattarai和Tae-Kyun Kim。用于主动学习的序列图卷积网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第9583-9592页[6] ArantxaCasanova ， PedroOPinheiro ， NegarRostamzadeh，and Christopher J.增强主动学习

下载后可阅读完整内容，剩余1页未读，立即下载