无监督学习的三维位姿估计方法及其在人体姿态估计中的应用

85 浏览量更新于2023-10-19 收藏 2.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于几何自监督的无监督三维位姿估计1AmbrishTyagi 1 AmitAgrawal 1DylanDrover 1Rohith MV 1StefanStojanov 1，2James M. 图1，21亚马逊实验室126，2佐治亚理工{chinghc，ambrisht，aaagrawa，droverd，kurohith}@ amazon.com{sstojanov，brig}@ gatech.edu摘要我们提出了一种无监督学习的方法来重新覆盖三维人体姿态从二维骨骼关节提取从一个单一的图像。我们的方法不需要任何多视图图像数据，3D骨架，2D-3D点之间的对应关系，或在训练期间使用先前学习的3D先验。提升网络接受2D地标作为输入，并生成相应的3D骨架估计。在训练期间，恢复的3D骨架被重新投影到随机相机视点上以生成新的“合成”2D姿势。通过将合成的2D姿势提升回3D并将它们重新投影到原始相机视图中，我们可以定义3D和2D中的自一致性损失因此，训练可以通过利用提升-重新投影-提升过程的几何自一致性来自我监督我们表明，自我一致性本身是不足以生成逼真的骨架，但添加一个2D的姿态调整使升降机输出有效的3D姿态。此外，为了从“野外”的2D姿势中学习，我们训练了一个无监督的2D域适配器网络，以允许扩展2D数据。这改善了结果，并证明了2D姿态数据对于无监督3D提升的有用性。在Human3.6M数据集上进行3D人体姿态估计的结果表明，我们的方法比以前的无监督方法提高了30%，并且优于许多显式使用3D数据的弱监督方法。1. 介绍从图像和视频中估计3D人体姿势是计算机视觉中的经典不适定逆问题，在人体跟踪、动作理解、人机交互、增强现实、视频游戏等方面有许多应用[12，17，28，31]。当前基于深度学习的系统尝试经由某种形式的监督来学习从RGB图像或2D关键点到3D骨架关节的映射，所述监督需要具有已知3D姿态的数据集。然而，获得3D运动捕捉数据是耗时的、困难的并且昂贵的，并且因此，当前仅可获得有限量的3D数据另一方面，2D图像并且人类的视频数据是丰富的。然而，仅从2D姿势无监督学习3D关节位置仍然是该领域的圣杯在本文中，我们朝着实现这一目标迈出了第一步，并提出了一种无监督学习算法，从2D姿势地标/关键点估计3D人体我们的方法不使用任何形式的3D输入，并且不需要2D-3D对应或明确的3D先验。由于透视投影模糊性，存在对应于给定2D姿态的无限数量的3D骨架。然而，考虑到人体关节的拟人约束和关节角度限制，所有这些解决方案在物理上通常，使用具有2D姿态和对应的3D姿态的监督学习来限制解空间。此外，3D结构也可以通过使用从3D数据中学习的先验（诸如对称性、各种骨架元素的长度比和运动学约束）以弱监督的方式进行正则化相比之下，本文解决了将2D图像坐标提升到3D空间的基本问题，而无需使用任何额外的线索，如视频[43，54]，多视图相机[1，16]或深度图像。年龄[35，40，52]。我们认为2D-3D姿态映射的以下属性使得无监督提升成为可能：1）闭合：如果2D骨架被准确地提升到3D，然后随机旋转和重新投影，则所得到的2D骨架将位于有效2D姿势的分布内。因此，随机重新投影落在该分布之外的提升的3D骨架可能是不准确的。2)不变性：从不同视点对同一3D骨架进行2D投影，当抬起时，应产生相同的3D输出。换句话说，提升应该不随视点的变化而变化。我们在设计深神经网络时使用上述属性，称为提升网络，如图1所示。我们引入了一个新的几何一致性损失项，允许网络在自我监督模式。这种自洽性损失依赖于不变性的性质：基因的任何2D投影571457155716C存在于二维和三维的对应关系中。Wang等人[46]使用3D地面实况来训练中间排名网络，以从单个RGB图像中提取成对人体关节的深度排序。Sun等人[41]使用基于从关节位置导出的骨段的3D回归，而不是直接使用关节位置。由于这些方法从给定的数据集对2D到3D映射进行建模，因此它们隐含地包含特定于骨架的参数，例如相机投影矩阵、骨架与相机的距离以及骨架的这使得这些模型能够在类似的数据集上预测3D中关节的度量位置，但是需要难以获得的成对的2D-3D对应弱监督：诸如[3，10，44，53，54，55]的方法没有明确使用成对的2D-3D对应关系，而是使用未配对的3D数据来学习形状（3D基础）或姿势（关节连接先验）的先验。例如，Zhouet al. [54]使用3D姿势字典来学习姿势先验，Brau等人[3]采用独立训练的网络，学习3D姿态的先验分布（运动学和自相交先验）。Tome等人[44]，Wuet al. [48]和Tunget al. [11]预训练来自3D注释的低维表示，以获得合理3D姿态的先验。另一种形式的弱监督是由Ronchi等人使用的。[39]，他们使用关节的相对深度排序来训练网络，以从图像中Dabral等人[8]结合基于关节角度限制和肢体对称性的解剖学损失使用3D骨架的监督。Rhodin等人[37]通过2D数据进行训练，除了在可用时使用3D数据的监督之外，还使用单个姿势的多个图像。对抗性训练范例由Yanget al. [50]改进现有的3D姿态估计框架，提升没有3D地面真实的野外图像并将它们与现有的3D骨架进行比较。与我们的工作类似，Drover等人的弱监督方法。[9]还利用2D投影来学习人体姿势的3D先验。然而，Droveret al.利用地面实况3D点生成大量（12M）合成2D关节用于训练，从而将Human3.6M中的原始1.5M2D姿势增强近10倍。这允许他们对相机变化/角度的空间进行合成过采样，以从这些姿势中学习3D先验。相反，我们不使用任何形式的地面真实3D投影或3D数据。我们可以使用多个2D数据集而无需任何3D监督的事实使我们与这些先前的方法区分开来，并且使我们的方法能够利用大量可用的2D姿态数据。无人监管：最近，Rhodin et al. [36]提出了一种无监督的方法来学习几何感知的身体表示。他们的方法将人类的一个视图映射到来自一组给定多视图图像的另一个视图。它依赖于同步的多视图图像的主题学习场景几何形状和姿态的编码。它还使用视频序列在多个时刻观察同一对象以学习外观。相比之下，我们不需要多视图图像或在多个时刻捕获相同姿势的能力我们只从2D投影中学习3D姿势。Kudo等人[23]提供了与[9]中报告的微小基线（127.3 mm）相当的3D误差结果使用对抗性损失学习：生成对抗学习已经成为一个强大的框架，用于建模复杂的数据分布，一些人使用它来学习生成模型[13，15，56]，[45]利用它来合成硬示例等。先前的方法已经通过使用一个识别器来区分真实/假2D姿态[6]和真实/假3D姿态[11，21]，将对抗性损失用于人类姿态估计。为了估计3D，这些技术仍然需要3D数据或使用先前的3D姿态模型。相比之下，我们的方法对生成的3D电子邮件的随机投影的2D姿态应用对抗性损失。先前关于图像到图像转换的工作，如CycleGAN [56]或CyCADA [15]，也依赖于图像域中的循环一致性损失，以实现无监督训练。然而，我们使用几何自一致性，并利用3D和2D关节位置的一致性损失，从而产生一种新的提升方法。3. 无监督2D-3D提升在本节中，我们将描述将2D姿势提升到3D骨架的无监督学习方法。设xi=（xi，yi），i=1。. .N，表示骨骼的N个2D姿势界标，其中根关节（髋关节之间的中点）位于原点。令Xi表示每个2D关节的对应3D关节我们假设一个相机的单位焦距中心在原点（0，0，0）。请注意，由于基本的透视模糊性，无法从单个视图获得绝对度量深度因此，我们将骨架到相机的距离固定为常数c单位。此外，我们对2D骨架进行归一化，使得从头部关节到根部的平均距离关节在2D中为 1 个这可确保生成的3D骨架的比例为1001单位（头到根关节距离）。3.1. 提升网络提升网络G（x）是为每个2D关节输出3D关节的神经网络GθG（x）=X，（1）其中θG是在训练期间学习的举重运动员的参数。在内部，提升器以c个单位估计每个关节相对于固定平面的深度偏移di 的3D5717真赝品关节计算为Xi=（xizi，yizi，zi），其中zi= max（1，c + di）。（二）3.2. 随机投影G（x）Q（X）P（Y）D（y）x X Y y /使用随机相机取向将生成的3D骨架投影到2D，并且将这些2D姿势发送到xXYP（X<$）Q−1（Y<$）G（y）升降机和升降机。设R为随机旋转矩阵，通过对[-π，π]之间的方位角和[-π/9，π/9]之间的仰角进行均匀采样而创建，Xr为生成的骨架的根关节的位置。旋转的3D骨架Yi被获得为Yi=Q（Xi）=R（Xi−Xr）+T，（3）其中T=[0，0，c]。Q表示Y和X之间的刚性变换。然后投影旋转的3D骨架Yi以创建2D骨架yi=P（Yi），其中P表示透视投影。3.3. 通过闭环进行自我监督我们现在描述对合成的2D姿态yi执行的对称提升和投影步骤。如图2所示，我们提升随机投影的姿态yi以获得余氏Y_i=G θG（y_i）。（四）通过应用在从Xi生成随机投影yi时所使用的刚性变换Q的逆，将Y i变换为Xii。最终将3Ds k eletonXxmi投影到2Ds k eletonxxmi。请注意，提升网工作G（·）在以下情况下保持相同：循环的前进和后退部分如图所示。在图2中显示。如果升降网能准确地侦察-图2.自我监督通过闭合生成的骨架Y，它的随机投影y。通过提升y，得到恢复的三维s元素Y_（？）在恢复几何变换时，可以通过比较x和x以及Y和Y来自我监督训练。机器人向举重运动员提供反馈，使其能够学习3D骨骼的先验知识，例如仅使用随机2D投影的肢体长度和关节角度的比例，从而使其能够避免如第11节所示的不足之处四点三。3.5. 时间一致性请注意，我们的方法不需要视频数据进行训练。然而，当可用时，时间2D姿态序列（例如，视频动作序列）可以提高单帧提升网络的精度。我们利用时间平滑度通过附加的损失函数来细化提升网络工作G（·），如图3所示。我们训练额外的判别器T（·），其将在时间上相邻的2D姿态的差异作为输入真实数据该训练来自训练期间可用的真实 2D 姿势序列，rt−rt+1。更新区分器T（·）以优化可以区分真实2D姿态差异与伪2D（顺序）投影yt-yt+1的差异的损失。具体地说，maxLT =E（log（T（rt− rt+1）））+θT从2D输入构造3D姿态，然后3D投影Yi和Yxii以及对应的2D投影xiE（log（1−T.Σ（6）y t− y t+1））。和x∈i应该是相似的。本文所述的组合物为起重机的自我监督发出了强烈的信号网络，其损失项可以通过添加两个¨ ¨2附加组件，即y，L3D=“Y−Y”，3.6. 从2D姿势在野外学习为了提高感兴趣的目标域（例如，人类3.6M，x），我们希望增加2DL2D =x−x2.不训练来自野外的数据（例如，OpenPose联合估计3.4. 2D姿势2D姿态是一个神经网络（参数为θD），它将2D姿态作为输入，并输出0到1之间的概率。它在真实2D姿态r（目标概率为1）和假（投影）2D姿态y（目标概率为0）之间进行分类。请注意，对于lifter的任何训练样本x，我们不要求r与x或其任何多视图对应关系相同在学习过程中，我们使用标准的GAN损失[13]，定义为minmax Ladv= E（log（D（r）+E（log（1 − D（y）。（五）5718在Kinetics数据集上，xs）。根据2D姿态提取算法的选择[4，30，47]，2D关键点的位置和语义可能与目标域采用的表示有很大不同（例如，面中心与头顶或臀部侧面与骨盆）。我们训练一个2D域适配器神经网络C，将源域2D关节映射到目标域2D关节（见图4）。令xsc表示校正的源域2D节点，使得xsc=xs+C（xs）。注意我们不假设2D关节之间的任何对应关系，源域和目标域。因此，我们不能使用任何形式的监督损失来训练C。在没有任何监督的情况下，θGθD571957204.1. 数据集和指标人类3.6M数据集：Human3.6M是最大的3D人体姿势数据集之一，由3个。600万个3D真人造型.该数据集包含来自5名女性和6名男性受试者的视频和动作捕捉（MoCap）数据。数据是从4个不同的角度捕获的，而受试者进行典型的活动，如讲电话，走路，吃饭等。MPI-INF-3DHP：MPI-INF-3DHP [27]是一个大的hu。人体姿势数据集，包含来自不同地区的>130万帧诗的观点。该数据集有4名男性和4名女性参与者，执行一系列类似于但比Human3.6M数据集更多样化的动作。动力学数据集：Kinetics数据集包含400个视频剪辑，每个视频剪辑涉及一个或多个人的400个活动。视频剪辑来源于Youtube，大约持续10秒。我们没有使用监控算法误差（mm）GTIMG充分Chen等人[五]《中国日报》57.582.7Martinez等人[26日]37.152.1弱3D翻译器[48]88.698.4AIGN [11]79.097.2Drover等人[9]第一章38.264.6无监督Rhodin等人[36个]-98.2我们5168表1.与Rhodin等人的最先进的无监督方法进行比较。[36]关于Human3.6M。包括完全/弱监督方法的可比度量以供参考。我们的方法优于[36]和几种弱监督方法[11，48]。GT和IMG分别表示使用真实2D姿态和SH/CPM估计的2D姿态的结果[30，47]。我们的训练数据集中的任何类注释ing.相反，我们使用Open- Pose [4]在来自该数据集的采样帧上提取2D姿势地标。我们只保留那些帧，其中一个人的所有地标估计有足够的信心。在此过滤之后，获得了大约900万个2D骨架。评价指标：我们报告的平均每关节姿势-缩放后的测量误差（MPJPE），单位为毫米，我们的H36M64.3 31.6与地面实况骨架对齐类似的还有：我们的工作[9，11，24，26，36，43，54]，我们报告了受试者S9和S11的结果。此外，按照[26，36]中的惯例，我们仅使用受试者S1，S5，S6，S7和S8的数据进行训练。我们不训练特定于类的模型或在推理过程中利用任何运动信息来改善结果。所报告的指标取自相应的论文以进行比较。我们还将我们的方法与[27，53]进行了比较，后者使用了调整后的正确关键点百分比（PCK）和相应的曲线下面积（AUC）指标。4.2. 定量结果我们分别在表1和表2中总结了Human3.6M和MPI-INF-3DHP的结果。除了与Rhodin等人的最先进的无监督3D姿态估计方法进行比较之外。[36]，我们还展示了来自顶级全监督和弱监督方法的结果。[36]的结果使用图像作为输入，因此与我们的（SH）结果相当，我们的结果使用SH检测器[30]从相同的输入图像中提取2D关节。与[36]相比，我们的方法将误差减少了30%（68 mm与98.2mm）。表3显示了使用地面真实2D点对具有各种算法组件的升降器进行消融研究的结果。 SS表示自我一致性（节。3.3），Adv添加2D姿态角（Sect.3.4），DA垫块通过调整来自Kinetics的2D姿势来训练数据表2.我们的结果（14联合）MPI-INF-3DHP与指标如在Mehta等人中，[27]第10段。所提出的无监督方法实现了与[27]和[53]相似的性能。类型消融误差（mm）建筑/SS162损耗变化SS + Symm168Adv61Adv+DA59高级+SS58高级+SS+DA55高级+SS+DA+TD51监督微调0%的百分比55与3D数据百分之五37表3.消融研究。架构/损失消融显示了各种组件对无监督训练的影响。与[26]的完全监督结果相比，仅使用5%随机采样的Hu- man3.6M 3D数据的监督微调给出了类似的性能（第3.6节），TD在训练过程中利用时间线索（第3.6节）。3.5），如果可用的话。正如进一步分析在节。4.3，仅仅使用自我一致性损失可以导致不切实际的错误，而不需要额外的错误。使用从Ki- netics数据集获得的额外2D姿势增强我们的方法（我们的：Adv + SS+ DA）进一步将误差降低到55 mm。最后，我们利用时间信息-监督算法车组PCKAUC充分梅塔[27]MPI72.536.9梅塔[27]H36M64.731.7弱周[53]H36M69.232.5无监督我们MPI71.136.35721在培训期间（我们的：Adv + SS + DA + TD），以在Human3.6M上获得51 mm的误差。应该注意的是，TD实验的推断仍然是在单个帧上进行的，并且可以通过对视频序列应用时间平滑技术来进一步改进结果。4.3. 几何自我监督乍一看，似乎自我监督就足以学习一个好的举重运动员，而不需要一个辨别者。然而，我们发现，在没有2D姿态估计的情况下，网络可以产生几何自洽但不现实的输出（参见图7）。我们提出了一个分析的三维输出，提升网络可以产生只有自我监督。具体来说，我们检查了人体左侧和右侧的上臂与下肢的比率（4个比率）。图6（左）显示了4个比率的分布，对于单独使用自我一致性损失训练的举重运动员。注意，举重运动员身体的左右两侧产生不同的肢体长度比。因此，在没有任何3D先验的情况下，单独的自一致性损失可能不会产生对称的（真实的）骨架。图6（中间）显示，在施加对称性约束后，左右肢的分布更好地对齐。然而，分布更平坦，因为对左侧和右侧实施相同的比率并不能确保这些比率是现实的（符合人体）。换句话说，举重运动员可以为不同的训练示例选择不同的比率。图6（右）示出了当使用使用真实2D姿势向升降机提供反馈的请注意，比率分布变得更尖锐，更接近训练集中真实比率的分布。这就是在我们的消融研究中单独使用自我监督丧失（SS）表现较差的原因，如表 1 所示。然而，自一致性结合 2D 姿态调整（Adv+SS）进一步提高了请注意，当有对称性时，我们的提升网络可以学习高阶3D骨架统计（超越对称性）的基础上，从几何自洽性和2D姿态的反馈。4.4. 半监督3D姿态估计当少量的3D数据用于监督微调时，其他方法已经显示出精度的提高。我们使用Human3.6M数据集中可用的5%随机采样3D数据来微调我们的基线模型（来自未监督的训练）。这样，我们的方法可以实现与完全监督方法（37 mm）相当的性能，如表3所示。4.5. 定性结果图8显示了使用我们的提升网络在Human3.6M数据集上的一些3D姿态重建结果。地面实况3D骨架以灰色描绘。图9中显示了一些故障。其中大部分可以归因于自遮挡或翻转模糊的观察方向（更多详情请参见附录。材料）。为了证明泛化，我们分别在图10和图11中显示了MPII [2]和Leeds Sports Pose（LSP）[20]数据集上估计的3D骨架的一些MPII有从YouTube短视频中提取的图像LSP数据集由从Flickr中采样的体育活动图像组成。我们的无监督方法成功地在这些数据集上恢复了3D姿势，而无需对它们进行训练。4.6. 讨论以前的无监督和弱监督方法在训练数据上使用额外的约束来代替3D标注。例如，[9，51]利用从已知3D骨架获得的合成2D姿势来改进结果。类似地，Rhodinetal. [36]通过从时间序列和涉及相同个体的多视图图像中选择不同帧来导出外观和几何度量模型。然而，在理论上，如果来自同步相机的多视图图像可用，则可以对检测到的2D关节进行三角测量以获得3D关节并训练监督网络。相比之下，我们的方法将每个2D骨架视为单独的训练示例，而不需要任何多视图对应。因此，对2D输入姿态起源的位置没有限制;它可以从单个图像、视频或多视图序列中获得。我们的工作探索了人类姿势本身的先天几何学，而[36]则利用了相机几何学和特定个体外观的一致性。如第4.2，我们的方法能够从其他数据集（例如，动力学）与2D骨架捕获在野外。我们目前的方法无法在训练或测试阶段处理闭塞/缺失的关节。这限制了可用于训练的外部域数据的量。例如，在Kinetics数据集上使用OpenPose会产生至少10个关节的17M骨架，但只有9M完整骨架（14个关节）。虽然这不是本文的重点，但我们做了一个小实验来填充缺失的关节，以进一步增加我们的训练数据。我们训练了一个两层全连接神经网络，该网络将Human3.6M图像上完整的OpenPose 2D姿态估计作为输入，并输出完整的 14 个关节。该网络使用来自Human3.6M的相应2D地面真实关节以监督的方式进行训练。使用来自Kinetic数据集的完整姿势（17M骨架），我们的方法在Human3.6M测试数据上实现了48mm的MPJPE。这个实验进一步强调了57225723引用[1] Sikandar Amin 、 Mykhaylo Andriluka 、 MarcusRohrbach和Bernt Schiele。用于3d人体姿态估计的多视图图像结构。InBMVC，2013. 1[2] Mykhaylo Andriluka ， Leonid Pishchulin ， PeterGehler，and Bernt Schiele. 2D人体姿势估计：新的基准和最先进的分析。CVPR，2014。五、七[3] Ernesto Brau和Hao Jiang。通过深度学习从2D注释估计3D人体姿势。2016年第四届3D视觉国际会议。3[4] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。在CVPR，2017年。二、四、六[5] C.- H. Chen和D. Ramanan 3D人体姿态估计= 2D姿态估计+匹配。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年。二、六[6] Yu Chen ， Chunhua Shen ， Xiu-Shen Wei ，Lingqiao Liu，and Jian Yang.对抗性posenet：一种用于人体姿态估计的结构感知卷积网络。IEEEInternational Conference on Computer Vision（ICCV），2017年10月。3[7] 小楚和艾伦·尤耶。Orinet：A fully convolutionalnetwork for 3D human pose estimation.在BMVC，2018年。2[8] RishabhDabral 、 AnuragMundhada 、 UdayKusupati 、 Safeer Afaque 、 Abhishek Sharma 和Arjun Jain。从结构和运动学习三维人体姿态。在欧洲计算机视觉会议（ECCV）的会议记录中，第668-683页，2018年。3[9] Dylan Drover，Rohith MV，Ching-Hang Chen ，Amit Agrawal，Ambrish Tyagi，and Cong DauocHuynh. 3D姿势可以单独从2D投影中学习在2018年欧洲计算机视觉研讨会上。二三六七[10] Hao-Shu Fang ， Yuanlu Xu ， Wenguan Wang ，Xiaobao Liu，and Song-Chun Zhu.学习姿势语法编码人体配置三维姿势估计。2018年AAAI人工智能会议。3[11] Hsiao-Yu Fish Tung，Adam W.哈利，威廉·濑户和卡特琳娜·弗拉基亚达基。对抗逆图- ICS网络：从非配对监督学习2d到3d提升和图像到图像的翻译。在IEEE国际计算机视觉会议（ICCV）上，2017年10月。二、三、六[12] David A Forsyth ， Okan Arikan ， and LeslieIkemoto. 人体运动的计算研究：跟踪和运动合成。Now Publishers Inc，2006. 1[13] I Goodfellow ， J Pouget-Abadie ， M Mirza ， BXu ， D Warde-Farley ， and S Ozair.生成性对抗网。在NIPS，第2672-2680页，2014中。三、四、五[14] KaimingHe ， Geor giaGkioxari ， PiotrDolla'r ，andRossGirshick. 面具 R-CNN 。在计算机视觉（ ICCV ）， 2017 年 IEEE 国际会议上，第2980IEEE，2017年。2[15] Judy Hoffman，Eric Tzeng，Taesung Park，Jun-Yan Zhu，Phillip Isola，Kate Saenko，Alexei A.埃弗罗斯和特雷弗·达雷尔。CyCADA：周期一致的对侧结构域适应。国际机器学习会议（ICML），2018年。3[16] Michael Hofmann和Dariu M Gavrila。复杂环境下多视角三维人体姿态估计IJCV，2012年。1[17] 大卫·霍格。基于模型的视觉：一个能看到行走的人的节目。图像和视觉计算，1983年。1[18] Catalin Ionescu，Dragos Papava，Vlad Olaru，andCristian Sminchisescu.Human3.6M：自然环境中3D人体感知的大规模数据集和预测方法。IEEETrans. Pattern Analysis and Machine Intelligence，36（7）：1325-1339，2014年7月。5[19] 姜浩。使用数百万个样本进行三维人体姿态重建。模式识别（ICPR），2010年第20届国际会议，2010年。2[20] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型英国机器视觉会议论文集，第12.1-12.11页。BMVA Press，2010.doi：10.5244/C.24.12。五、七[21] AngjooKanazawa ， MichaelBlack ， DavidJacobs，and Jitendra Malik.端到端恢复人体形状和姿势。在计算机视觉和模式识别（CVPR），2018年。3[22] WillKay ， Joa RocoCarreira ， KarenSimon yan ，BrianZhang，ChloeHillier，SudheendraVijayanarasimhan ， Fabio Viola ， Tim Green ，TrevorBack ， ApostolNat-sev ， MustafaSuleyman，and Andrew Zisserman.人体动作视频数据集。CoRR，abs/1705.06950，2017。5[23] 工藤康纪，大垣圭介，松井雄介，小田切由里。从2d关节位置进行3d人体姿势的无监督对抗学习arXiv预印本arXiv：1803.08244，2018。3[24] Sijin Li和Antoni B Chan.基于深度卷积神经网络的单目图像三维人体姿态估计。InACCV，2014. 6[25] Sijin Li，Weichen Zhang，and Antoni B.陈用于3d5724人体姿势估计的深度网络的最大间隔结构化学习。在IEEE Inter-5725国家计算机视觉会议（ICCV），2015年12月。2[26] Julieta Martinez，Rayat Hossain，Javier Romero，and James Little.一种简单而有效的三维人体姿态估计基线。InICCV，2017. 二、五、六[27] Dushyant Mehta ， Helge Rhodin ， Dan Casas ，Pascal Fua ， Oleksandr Sotnychenko ， WeipengXu，and Chris-tian Theobalt.使用改进的cnn监督进行野外单目三维人体姿态估计在 3D 视觉（3DV），2017年第五届国际会议上。IEEE，2017年。二、六[28] Thomas B Moeslund和Erik Granum。基于计算机视觉的人体运动捕捉研究综述。计算机视觉与图像理解，2001. 1[29] 弗朗切斯克·莫雷诺·诺格尔通过距离矩阵回归从单个图像估计3D人体姿态。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。2[30] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络在欧洲计算机视觉会议上，第483- 499页施普林格，2016年。二、四、六[31] Joseph O'Rourke和Norman I Badler基于模型的约束传播人体运动图像分析。IEEE Transactions onPattern Analysis and Machine Intelligence，1980。1[32] Sungheon Park，Jihye Hwang，and Nojun Kwak.使用卷积神经网络的3D人体姿态估计-与2D姿态信息一起工作。在欧洲计算机视觉会议上，第156-169页施普林格，2016年。2[33] Sunheon Park和Nojun Kwak。基于关系网络的三维人体姿态估计。在BMVC，2018年。2[34] Georgios Pavlakos ， Xiaowei Zhou ， KonstantinosG. Derpanis和Kostas Daniilidis。单图像三维人体姿态的粗到细体积预测在CVPR，2017年7月。2[35] Umer Rafi，Juergen Gall，and Bastian Leibe.一种基于语义遮挡的单深度图像人体姿态估计模型在2015年IEEE CVPR研讨会会议记录中。1[36] Helge Rhodin，Mathieu Salzmann，and Pascal Fua.用于3D人体姿态估计的无监督几何感知表示。在2018年欧洲计算机视觉会议上。三六七[37] HelgeRhodin，Jo？ rgSp？ rri，IsinsuKatircioglu，Vic ？ torConstantin ， Fre？de？ricMe yer ，ErichMu？ ller，MathieuSalzmann，and Pascal Fua.从多视角影像学习单目三维在IEEE计算机视觉和模式识别上，第8437-8446页，2018年3[38] Gregory Rogez ， Philippe Weinzaepfel 和 CordeliaSchmid。Lcr-net：人体姿势的定位-分类-回归。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。2[39] Matteo Ruggero Ronchi ， Oisin Mac Aodha ，Robert Eng，and Pietro Perona.这在BMVC，2018年。3[40] Jamie Shotton ， Toby Sharp ， Alex Kipman ，Andrew Fitzgiant ， Mark Finocchio ， AndrewBlake，Mat Cook，and Richard Moore.从单个深度图像中实时人体姿态识别。ACM的通信，2013年。1[41] 小孙、尚嘉祥、双亮、卫奕辰。合成人体姿势回归。在IEEE计算机视觉国际会议的Proceedings中，第2602-2611页，2017年。3[42] Bugra Tekin，Pablo Marquez-Neila，Mathieu Salz-mann，and Pascal Fua.学习融合2d和3d图像线索进行单目身体姿态估计。在IEEE国际计算机视觉会议（ICCV）上，2017年10月。2[43] Bugra Tekin，Artem Rozantsev，Vincent Lepetit，and Pascal Fua.从运动补偿序列直接预测3d身体姿势。在IEEE计算机视觉和模式识别会议论文集，第991-1000页，2016年。1、6[44] 丹尼斯·托姆克里斯·拉塞尔和卢尔德·阿加皮托从深处升起：卷积三维姿态估计从一个单一的图像。在 IEEE会议计算机视觉与模式识别（CVPR）2017年7月。3[45] 放大图片作者： Shashank Tripathi ， SiddharthaChandra，Amit Agrawal，Ambrish Tyagi，JamesM.和Visesh Chari。学习通过合成生成合成数据。在IEEE计算机视觉和模式识别集，2019。3[46] Min Wang ， Xipeng Chen ， Wentao Liu ， ChenQian，Liang Lin，and Lizhuang Ma. Drpose3d：3D人体姿势估计中的深度排名。在2018年7月13日至19日举行的第二十七届人工智能国际联合会议瑞典斯德哥尔摩。，第978-984页，2018年。3[47] Shih-EnWei ， VarunRamakrishna ， TakeoKanade ， and Yaser Sheikh. 卷积姿势机器。在CVPR，第4724-4732页，2016年。二、四、六[48] J. Wu ， T. 薛， J.J. 林， Y 。 Tian ， J.B.Tenenbaum，A.Torralba和W. T.弗里曼。单幅图像三维解译网络。在ECCV，第365-382页，2016中。三、六5726[49] Bruce Xiaohan Nie ， Ping Wei ， and Song-ChunZhu.基于关节深度预测的单目三维人体姿态估计。 IEEEInternational Conference on ComputerVision（ICCV），2017年10月。2[50] Wei Yang，Wanli Ouyang，Xiaolong Wang，JimmyS. J. Ren，Hongsheng Li，and Xiaogang Wang.通过对抗学习进行野外3D在IEEE计算机视觉和模式识别会议上，2018年7月。3[51] Hashim Yasin ， Umar Iqbal ， Bjorn Kruger ，Andreas Weber，and Juergen Gall.从单幅图像估计三维姿态在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。二、七[52] Ho Yub Jung，Soochahn Lee，Yong Seok Heo，and Il Dong Yun.面向瞬时三维人体姿态估计的随机树行走。CVPR，2015。1[53] Xingyi Zhou ， Qixing Huang ， Xiao Sun ，Xiangyang Xue，and Yichen Wei.在野外进行3D人体姿态估计：一种监管不力的方法。IEEEInternationalConferenceonComputerVision，2017。三、六[54] 周晓伟，朱梦龙，斯皮里顿·莱昂纳尔-多斯，康斯坦丁诺斯·G.Derpanis和Kostas Daniilidis。稀疏与深邃：从单目视频估计三维人体姿态。在CVPR，2016年。一、三、六[55] XiaoweiZhou ， MenglongZhu ， GeorgiosPavlakos ， Spyridon Leonardos ， Kostantinos GDerpanis，and Kostas Daniilibrium. Monocap：使用cnn结合几何先验的单目人体运动捕捉。IEEETransactions on Pattern Analysis and MachineIntelligence，2018。3[56

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

无监督学习的三维位姿估计方法及其在人体姿态估计中的应用

基于深度学习的位姿估计方法研究背景

6d位姿估计学习路线

帮我介绍一下基于手工特征的6D位姿估计方法

matlabpnp位姿估计在哪里打开

bop 位姿估计 下载

有没有光度误差估计相机位姿的方法呢

6D位姿估计国内外研究现状

opencv位姿估计

python 人脸位姿估计 pnp

6d位姿估计算法介绍

RGBD 三维人体姿态估计

请提供位姿估计领域的研究背景

opencv 相对位姿估计

基于三维点云的位姿推估模型

RGB-D 三维人体姿态估计

maskrcnn可以实现位姿估计吗

多物体6d位姿估计算法流程

双目视觉位姿估计算法

ros机器人仿真位姿估计uwb

注册会计师会计第十五章 债务重组.doc

最新资源

bop 位姿估计下载

注册会计师会计第十五章债务重组.doc