PoseTriplet：自我监督下的3D姿势估计、模仿和幻觉

31 浏览量更新于2023-10-25 收藏 13.15MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

110170PoseTriplet：自我监督下的3D人体姿势估计，模仿和幻觉0Kehong Gong 1 , 3 * Bingbing Li 2 * Jianfeng Zhang 1 * Tao Wang 1 * Jing Huang 3 Michael Bi Mi 3 Jiashi Feng 1Xinchao Wang 1 †01 新加坡国立大学 2 南洋理工大学 3 华为国际私人有限公司0https://github.com/Garfield-kh/PoseTriplet .0摘要0现有的自我监督3D人体姿势估计方案主要依赖于一致性损失等弱监督来指导学习，这不可避免地导致在具有未知姿势的实际场景中结果较差。在本文中，我们提出了一种新颖的自我监督方法，通过自我增强的双循环学习框架，允许我们明确生成2D-3D姿势对以增强监督。这通过引入基于强化学习的模仿者实现，该模仿者与姿势估计器和姿势幻觉器一起进行联合学习；在训练过程中，这三个组件形成两个循环，相互补充和加强。具体而言，姿势估计器将输入的2D姿势序列转换为低保真度的3D输出，然后通过模仿者增强，强制执行物理约束。然后，将经过改进的3D姿势输入到幻觉器中，以生成更多样化的数据，然后再次通过模仿者加强并进一步用于训练姿势估计器。这种协同进化方案在实践中使得能够在不依赖任何给定的3D数据的情况下训练姿势估计器。在各种基准测试中进行了大量实验，结果表明我们的方法取得了令人鼓舞的结果，明显优于现有技术水平，并且在某些情况下甚至与全监督方法的结果相当。值得注意的是，在自我监督的跨数据集评估设置下，它在MPI-INF-3DHP上实现了89.1%的3D PCK，比之前最好的自我监督方法 [ 16 , 26 ]提高了8.6%。01. 引言0基于视频的3D人体姿势估计旨在从视频中推断出3D姿势序列，因此在许多应用中起着关键作用，例如动作识别 [ 47 ,0* 相等的贡献。电子邮件：{ gongkehong，zhangjianfeng，taowang }@u.nus.edu，l.libingbing@gmail.com †通讯作者。电子邮件：xinchao@nus.edu.sg0图1.我们PoseTriplet框架的概述。姿势估计器，模仿者，幻觉器在双循环策略中进行联合训练。在第一个循环中，估计器提供不合理的运动信息，然后通过模仿者通过强制物理约束生成合理的运动。在第二个循环中，幻觉器根据前一个循环的运动序列生成更多样化的运动模式，并再次发送给模仿者进行进一步改进。这种双循环范式促进了三个组件的紧密协同进化，并使得估计器能够通过生成多样化和合理的运动数据进行迭代自我改进训练。058 ], 虚拟试穿 [ 31 ], 和混合现实 [ 5 , 20 , 34]。现有的方法 [ 22 , 33 , 37 , 38 , 48 ]主要依赖于全监督范式，其中真实的3D数据作为输入。然而，捕捉3D姿势数据成本高昂且耗时，通常需要多视角设置或动作捕捉系统 [ 17 , 34]，在野外场景下是不可行的。为此，已经引入了两类方法来缓解3D数据可用性问题。第一类方法探索半监督设置，其中只提供少量的3D注释 [ 30 , 36 , 68]。另一类方法则假设根本没有可用的3D数据，只提供2D姿势。在这种设置下，最先进的方法主要集中在施加弱监督信号来指导训练，例如将推断的3D姿势的投影与2D姿势对齐 [4 , 16 , 61]。由于缺乏3D数据，因此缺少2D-3D对，这些方法在自然环境中的挑战性场景（如野外任务中的未知姿势）中本质上是脆弱的。110180在本文中，我们提出了一种新颖的自监督方法，称为PoseTriplet，它允许明确生成具有物理和语义合理性的2D-3D姿态对，从而可以施加全面的监督，并进一步显著加强自学习过程。这是通过引入基于强化学习的模仿器来实现的，该模仿器与姿态估计器和姿态幻觉器一起进行联合优化。具体而言，模仿器采用非可微动力学的物理模拟器的形式，以确保物理合理性。幻觉器通过生成性的运动补全来产生更多样化的运动。这三个关键组件被集成到一个自包含的框架中，并通过双循环策略在训练过程中共同进化。仅使用2D姿态数据作为输入，PoseTriplet逐步生成、细化和幻觉化3D数据，从而加强循环中的所有组件。训练完成后，PoseTriplet的每个组件都可以轻松取出，并作为其专用任务的现成工具，例如姿态估计或模仿。姿态估计器、模仿器和幻觉器共同进化的关键动机在于它们的互补性质。特别是，姿态估计器以2D姿态作为输入，并生成具有合理语义（例如自然行为）但不合理动力学的3D姿态；这些派生的3D姿态然后通过基于物理的模仿器进行细化，以强制执行物理约束。相反，基于强化学习的模仿器可能会生成不自然的行为（例如过于活跃的动作），这可以通过姿态估计器进行修正，以确保语义合理性。另一方面，姿态幻觉器通过在语义和物理指导下产生逼真的3D姿态序列来增强数据多样性，从而进一步增强数据合成，从而提高泛化性能。我们在图1中展示了PoseTriplet的整体工作流程，这与前面的动机相一致。与依赖于自一致性的监督或以3D序列作为输入的先前努力不同，通过双循环方案，PoseTriplet将输入的2D姿态转化为具有逼真语义和动力学的可靠3D姿态，从而提供更强的监督，进而实现姿态估计器、模仿器和幻觉器的共同进化。在H36M、3DHP和3DPW数据集上的实验结果表明，PoseTriplet相对于最先进的自监督方法显著提高了姿态估计结果，有时甚至与完全监督方法的结果相当。值得注意的是，在自监督跨数据集评估设置下，它在MPI-INF-3DHP上实现了89.1%的3DPCK，比之前最好的自监督方法[16,26]提高了8.6%。因此，我们的贡献是一种新颖的方案，专注于0用于自监督3D姿态估计，通过姿态估计器、模仿器和幻觉器的共同进化实现。这三个组件相互补充和受益，共同构成一个自包含的系统，能够产生逼真的3D姿态序列，并进一步增强2D-3D的增强监督。通过仅使用2D姿态作为输入，PoseTriplet在各种基准测试中取得了真正令人鼓舞的结果，大大优于现有技术水平，甚至接近完全监督的结果。02. 相关工作03D姿态估计3D姿态估计已经在完全监督、半监督和自监督下得到广泛探索。在完全监督设置下已经探索了各种方法[22, 33, 34, 37,38, 48, 52, 53, 59, 60,66]。尽管这些方法给出了令人印象深刻的结果，但它们高度依赖于难以收集的准确动作捕捉数据。为了解决数据收集成本高的问题，提出了半监督方法[30, 36,68]来利用未标记数据的信息。除了半监督方法，还提出了基于增强的方法[9,29]来通过进化策略[29]或可学习方法[9]扩大数据量。不同于上述方案，自监督方法利用多视图数据探索模型训练的内在监督，而不需要地面真实的3D姿态[18, 23,51]。例如，Kocabas等人[23]利用极线几何生成伪标签，[18,51]利用不同视图之间的3D姿态一致性。尽管这些方法有效，但它们需要同步多个摄像头，这在实际场景中并不常见。其他方法[4, 7, 16,61]探索了更具挑战性的单视图设置。例如，Drover等人[7]利用一个合理的3D姿态估计的随机投影在2D姿态分布中也是合理的这一先验知识通过对抗训练。Chen等人[4]通过添加循环一致性改进了这个想法。Yu等人[61]进一步引入了2D姿态的尺度步骤来解决模糊问题。Zhang等人[65]将自监督学习应用于测试数据，以使模型适应新的场景。我们的方法属于单视图设置下的自监督方法。与以前的自监督方法通过一致性[4]或对抗性[7,61]实现弱监督信号不同，我们的方法直接使用来自自动生成数据的强监督信号，从而获得更准确和稳定的模型性能。半监督类别下的伪标签策略[30]与我们的方法接近。然而，我们的方法不需要模型预训练的地面真实数据，而且我们的方法引入了物理合理性细化和多样性增强以实现更好的性能，这在[30]中是不存在的。基于物理的姿态估计上述方法都是�X′1:T = T (Pθn(x1:T ))(3)θn+1 ← minθLP(Pθ(x′1:T ), X′1:T )(4)110190基于运动学。虽然提供了令人印象深刻的结果，但它们没有考虑物理约束，因此会出现物理不合理的伪影（例如，脚滑和地面穿透）。为了确保物理合理性，最近的研究探索了物理约束。Rempe等人[43]引入了脚接触和人体动力学的物理定律，但其迭代优化的时间成本很高（例如，对于2秒的片段需要30分钟）。后来，[45, 46,57]提出了可微分的物理约束来减少时间成本。但它们只考虑脚接触，使它们在其他重要接触场景（例如，躺下，坐在椅子上）中效果较差。与基于优化的方法不同，基于物理模拟的方法使用物理模拟器提供逼真的物理约束。DeepMimic[40]尝试通过强化学习在物理引擎中模仿参考动作捕捉数据的各种动作。SFV[41]通过模仿学习改进基于视频的姿势估计的低保真度运动数据。然而，它们采用的模仿学习需要数天的训练才能完成一个片段。后来，SimPoe[64]通过引入RFC[63]来解决这个问题，通过为所有动作片段训练一个策略来有效减少时间消耗。我们的方法基于SimPoe[64]进行改进，以实现更好的泛化和更低的时间成本。然而，与那些仅用于后处理的方法不同，我们的方法提议将其纳入学习循环中。因此，不需要动作捕捉数据进行姿势估计训练和模仿学习。运动合成运动合成包括基于非学习和基于学习的方法。在基于非学习的方法中，运动图方法[25]首先根据它们的相似性在不同的运动点之间建立转换边，然后通过遍历图生成新的运动数据。运动匹配[35]根据实时运动状态在运动数据中搜索合适的未来帧。在基于学习的方法中，基于运动预测的方法[1, 10, 28, 32, 39, 62,67]旨在根据先前的姿势预测未来的姿势。动作生成[2, 3,55]旨在根据动作标签生成姿势序列。运动完成[8, 11-14,21]在关键帧之间生成逼真的过渡，这与我们的工作目标最相关。我们框架中的姿势幻觉也旨在生成新的运动序列，其中运动图和运动匹配方法不适用于由于其生成数据的严格限制。因此，我们选择运动完成，考虑到它可以生成具有连续输入关键帧的更长序列。03. 方法论0给定长度为 T 的2D姿势序列 x 1:T = (x 1, ..., x T)，其中 x t∈ R J × 2 是 J 个身体关节的2D空间坐标0对于时间 t 的关节，我们的目标是估计3D姿势序列 X 1:T =(X 1, ..., X T)，其中 X t ∈ R J × 3是相应的相机坐标系下的3D关节位置。传统上，使用参数 θ的姿势估计器 P: x 1:T → X 1:T通过大量配对的2D和3D姿势数据{x 1:T, X1:T}进行全监督学习[22, 33, 34, 38, 48]进行训练：0min θ L P ( P θ ( x 1:T ) , X 1:T ) . (1)0在这里，L P表示损失函数，通常定义为预测的3D姿势序列与真实姿势序列之间的均方误差（MSE）。然而，获取真实的3D姿势数据非常昂贵，这限制了这些方法的适用性。为了避免使用3D数据，先前的自监督方法通常应用弱2D重投影损失[4, 7, 16,61]来学习估计器：0min θ L P (Π( P θ ( x 1:T )) , x 1:T ) , (2)0其中 Π是透视投影函数。重投影损失只提供了弱监督，容易导致不稳定或不自然的估计结果。在这项工作中，我们旨在设计一个自监督学习框架，其核心是一个迭代的自我改进范式。具体而言，我们提出使用一些特别设计的转换 T来增强当前估计结果（例如，产生更平滑和多样化的动作）:0然后将增强的估计结果投影到2D姿势，以获得配对的训练数据 { x ′ 1: T , X ′ 1: T } ，用于改进姿势估计器:0这里的 θ n 和 θ n +1分别表示当前估计器和改进估计器的参数。然后可以利用改进的估计器开始新的数据增强和训练迭代。基于这个自我改进的范式，我们可以从仅有一组2D姿势序列 { x 1: T }开始训练一个优秀的姿势估计器。0为构建一个有效的自我改进框架，我们确定了增强3D动作序列的两个具有挑战性的方面：1）由于忽略了力、质量和接触建模，估计器的姿势估计可能不具有物理合理性；2）现有的2D动作可能在多样性上受限，因此学习模型无法很好地推广。为了解决这些挑战，我们引入了一个基于强化学习辅助人体动作建模的姿势模仿器和一个基于生成式动作插值的姿势幻象器，以此来改进和多样化3D动作。前者有助于纠正物理伪影，而后者生成新的姿势序列¯X1:T =(x1:T )(5)110200图2. PoseTriplet框架的详细信息。给定可用的2D姿势序列x 1: T，姿势估计器P将其转换为低保真度的3D姿势序列¯ X 1: T。¯ X 1:T然后作为语义引导信号（即参考动作）提供给模仿器I，以获得物理上合理的运动˜ X 1: T。然后，幻象器H从˜ X 1:T生成新颖且多样化的运动` X 1: T，然后由模仿器I进行改进，以获得最终增强的多样且合理的运动ˆ X 1: T。ˆ X 1:T然后投影到2D-3D对来训练估计器。改进的估计器接受可用的2D姿势序列x 1: T，并开始另一轮双环路优化。0基于现有的估计结果，我们发现动作中的这两个方面是互补的，因此将它们结合在一起。得到的流程有助于获得具有显著改进的物理合理性和动作多样性的3D动作数据 { x ′ 1: T ,X ′ 1: T }。然而，我们发现简单地将这两种方法组合起来生成质量较差的3D姿势序列。原因是先进行动作多样化可能由于不合理的估计而无效，而后进行动作多样化可能引入物理伪影。因此，我们进一步引入了一个双环路方案，并将姿势估计器的两个组件统一到一个名为PoseTriplet的新型自监督框架中。双环路架构具体而言，如图2所示，我们的PoseTriplet引入了一个双环路架构来集成三个模块：姿势估计器P，姿势模仿器I和姿势幻象器H。给定可用的2D姿势序列x 1:T，姿势估计器首先将它们转换为低保真度的3D姿势序列:0{ ¯ X 1: T }被转换为低保真度的参考动作，并作为语义引导信号提供给姿势模仿器，该模仿器施加了物理人体动作动态建模，并获得了物理上合理的动作序列:0˜X1:T = I(¯X1:T) (6)0通过学习生成性运动完成模型，姿势幻觉器基于模仿器改进的可信运动生成新颖且多样的运动序列{`X1:T}：0`X1:T = H(˜X1:T) (7)0然后，我们通过将{`X1:T}反馈给模仿器来关闭循环，以纠正引起的物理伪影，并获得最终预期的可信和多样的运动序列：0ˆX1:T = I(`X1:T) (8)0然后将{ˆX1:T}投影到2D平面上，以获得配对数据{ˆx1:T,ˆX1:T}用于训练姿势估计器。通过共同优化这种双循环架构，这三个组件形成了一个紧密的共同进化范式：1）估计器从多样且可信的增强数据中受益，学习更准确的估计。2）模仿器基于改进的估计和来自幻觉器生成的多样数据学习更稳健和物理自然的运动。3）幻觉器基于来自模仿器的改进数据生成更多样的高质量姿势序列。循环开始这种自我改进的学习范式的另一个挑战是循环开始。在不将{`X1:T}视为估计器的增强数据来关闭循环的情况下，我们引入了另一个循环。我们将{`X1:T}反馈给模仿器，以纠正引起的物理伪影，并获得最终预期的可信和多样的运动序列：110210由于没有3D运动数据的访问权限，整个框架无法开始学习。回想一下，我们的姿势模仿器采用基于物理的人体运动模型，因此我们开发了一种零数据生成策略，用于生成初始的3D姿势序列以开始双循环学习。具体而言，我们在水平平面上生成具有随机方向和适当速度的根轨迹信号。然后，将此轨迹用作强化学习代理的引导信号。通过控制代理按照生成的轨迹运动，我们可以生成物理上合理的运动序列。然后，将这些运动序列投影以获得2D-3D姿势对，并用于训练初始姿势估计器。通过这种方式，整个双循环学习可以开始。03.2. 模块详细信息03.2.1 姿势估计器0姿势估计器从输入序列x1:T中估计3D姿势序列X1:T。具体而言，我们采用了与VideoPose[38]类似的估计器架构，该架构预测根轨迹和根相对关节位置。轨迹可以作为附加的运动信号用于姿势模仿器。同时，根运动中的噪声可以通过姿势模仿器进行校正，反过来又可以帮助姿势估计器。我们使用均方误差（MSE）损失进行根相关姿势估计和加权L1损失进行轨迹估计，参考[38]。训练估计器的投影给定生成的运动序列数据{ˆX1:T}，我们将它们投影到2D平面上以获得配对的训练数据。我们考虑两种投影策略：1）启发式随机投影。我们设置虚拟摄像机的仰角、方位角范围、高度和距离范围，以匹配室内捕捉环境。这类似于Chen等人[6]对3D姿势数据合成的投影策略；2）基于生成对抗学习的投影[9]。我们使用生成器为每个运动序列回归相机的方向和位置。通过鉴别器通过区分真实的和投影的2D姿势序列来学习回归。通过这种方式，可以从真实的2D姿势数据中提取合理的相机视点分布，提高生成的2D-3D配对数据的可信度。这两种策略在我们的框架中结合起来，以确保相机视点的多样性。3.2.2 姿势模仿器0由于缺乏物理约束，从姿势估计器P预测的3D姿势序列{¯X1:T}会出现不自然的伪影，如脚滑动、浮动、穿地板等。这些伪影阻止它直接用于估计器P或幻觉器H的训练数据。为了解决这个问题，受[40, 41,64]的启发，我们引入了基于强化学习的姿势模仿器I来模仿姿势估计器P生成的低保真3D姿势序列{¯X1:T}。0为了生成更加物理合理的动作序列 { ˜ X 1: T }，我们使用姿势模仿器生成更多的物理合理的动作序列。背景模仿过程可以看作是一个马尔可夫决策过程。给定参考动作和当前状态 s t ∈ S ，代理与模拟环境进行交互，采取行动a t ∈ A 并获得奖励 r t 。行动是根据状态 s t ∈ S条件下的策略 π ( a t | s t )决定的；奖励是根据代理行为与参考动作的相似程度确定的。当采取行动时，当前状态 s t 通过转移函数 T ( s t +1 | st , a t ) 变为下一个状态 s t +1。目标是学习一个最大化平均累积奖励 � ∞ i =1 γ i r t的策略（即在物理模拟器中执行与参考动作相似的行为），其中 γ是折扣因子。状态、行动和奖励的详细信息如下。状态包括当前姿势 q t 、当前速度 ˙ q t 和来自参考动作的目标姿势� q t +1。为了处理来自姿势估计器的嘈杂参考动作，我们通过连接和融合过去和未来的动作信息引入了额外的编码特征 ϕ。通过这种方式，控制策略能够了解过去和未来的参考动作，从而对噪声更加鲁棒。行动包括两种力：内部力和外部力。内部力是由作用器施加在非根关节上（例如肘部、膝盖）。我们使用PD（比例-导数）控制来控制内部力。外部力 ηt 是施加在根关节上（即髋部）的虚拟力 [ 63]，用于额外的交互（例如坐在椅子上），并由策略网络回归。奖励衡量代理与参考动作之间的动作差异。这些差异捕捉了姿势相关（姿势、速度）、根相关（根高度、根速度）和身体末端因素（位置、速度）。此外，还应用了对虚拟力的规范损失，以避免不必要的外部力 [ 63]。由于发现代理很难根据上述设置移动，我们进一步引入了相对于脚的位置的运动特征，以增强脚部运动。03.2.3 姿势幻觉器0姿势幻觉器旨在基于姿势模仿器的改进数据生成新颖且多样的动作序列。在这项工作中，我们选择运动插值技术来生成新颖的姿势动作。具体而言，我们从改进的姿势序列中采样关键帧，并通过神经网络插值缺失的帧以生成新的动作数据。具体而言，姿势幻觉器由一个循环神经网络（RNN）结构构建。输入是采样的时间关键帧（我们以一定的帧间隔采样关键帧）。在这些采样的关键帧的条件下，模型预测中间帧。110220以顺序方式生成。我们使用重构损失和对抗损失来训练该模型。重构损失衡量了真实姿势和预测姿势之间的 L 2距离。对抗损失提供了时间上的监督，以避免RNN崩溃（即预测平均动作）。在推理阶段，我们从不同的动作剪辑中随机选择帧，并基于这些采样的关键帧生成新的动作序列。04. 实验0我们在实验中研究了三个问题。1）PoseTriplet能否改善视频姿势估计器在数据集内和跨数据集场景下的性能？2）随着协同进化过程的轮数增加，性能如何提高？3）训练数据量如何影响模型性能？我们使用H36M（源数据集）和3DHP/3DPW（用于跨数据集评估）进行实验。在整个实验中，我们采用Video-Pose [ 38]（T=27）作为我们的姿势估计器。我们报告了估计器的结果以进行比较。更多实现细节请参阅补充材料。04.1. 数据集0H36M [ 17]是最流行的基于标记的运动捕捉系统的3D姿势基准。它包含11个主体和15个场景的360万帧视频。我们使用主体S1、S5、S6、S7、S8的2D姿势作为训练集，并在S9和S11上评估性能，这是根据之前的工作[ 4 , 61]进行的。评估使用了两个标准指标：关节位置误差的平均值（MPJPE）（以毫米为单位）和Procrustes对齐的关节位置误差的平均值（PA-MPJPE）。3DHP [ 34]是一个大型的3D姿势数据集，包含室内和室外场景。根据之前的工作[ 4 , 24]，我们报告了MPJPE、正确关键点的百分比（PCK）和经过缩放和刚性对齐后的曲线下面积（AUC）等指标进行评估。我们只使用其测试集来评估模型的泛化性能。3DPW [ 50]是一个更具挑战性的野外数据集，包含更复杂的活动和场景。与3DHP一样，我们只使用其测试集来评估模型的泛化性能。根据之前的工作[ 24]，我们报告了3DPW的MPJPE和PA-MPJPE。04.2. 定量结果0H36M的结果我们将我们的PoseTriplet与其他最先进的自监督方法[ 4 ,16 , 26 , 44 , 61]在GT（真实2D姿势）和Det（检测到的2D姿势）设置下进行比较，如表1所示。其中，[ 4 , 26 , 44]采用弱监督（即一致性监督），[ 16 , 61 ]通过对抗学习[61 ]和平滑约束[ 16 ]利用时间信息。0我们的方法在MPJPE方面的表现优于它们中最好的方法，无论是在GT（85.3 vs. 68.2）还是Det（82.1 vs.78.0）设置下。该结果验证了我们的方法在共同进化策略和增强监督方面的优势，相比之前的方法表现更好。此外，我们的方法还优于一些弱监督方法[ 15 , 18 , 30 , 56]，这些方法在训练过程中使用了真实数据。特别是与Li等人[ 30]相比，他们使用低秩表示和时间平滑来生成伪3D标签，我们的方法利用物理模拟器的优势，在MPJPE方面进行了更好的细化，并且在MPJPE（88.8 vs. 78.8）方面大幅优于[ 30]，即使它使用了真实数据（即主体1）。这验证了我们的共同进化策略在减少对3D数据依赖方面的有效性。0模式方法 GT Det0P1（↓）P2（↓）P1（↓）P2（↓）0完整 Martinez等 [ 33 ] 45.5 37.1 62.9 47.7 完整Pavllo等 [ 38 ] 37.2 27.2 46.8 36.50弱3DInterpreter [ 56 ] - 88.6 - 98.4 弱AIGN [ 15 ] -79.0 - 97.4 弱Drover等 [ 7 ] - 38.2 - 64.6 弱Li等 [ 30 ] -- 88.8 66.5 弱Umar等 [ 18 ] - - - 55.90自监督 Rhodin等 [ 44 ] - - 131.7 98.2 自监督 Chen等 [ 4] - 51.0 - 68.0 自监督 Kundu等 [ 26 ] - - - 62.4 自监督Kundu等 [ 27 ] - - - 63.8 自监督 Yu等 [ 61 ] 85.3 42.092.4 52.3 自监督 Hu等 [ 16 ] - - 82.1 - 自监督 Wandt等[ 51 ] � - - 81.9 53.0 自监督我们的方法 68.2 45.1 78.051.80表1.H36M数据集上的MPJPE（P1）和PA-MPJPE（P2）结果。�使用多视角设置。最佳结果以粗体显示，自监督设置下。03DHP的结果接下来，我们在跨数据集3DHP上评估我们的方法的泛化性能。我们将我们的PoseTriplet与最先进的方法进行比较，包括完全监督、弱监督和自监督方法[ 4 , 24 , 26 , 27 , 34 , 49, 61]。如表2所示，在跨数据评估下，我们的方法在PCK（82.2vs. 89.1）和MPJPE（103.8 vs.79.5）方面显著超过了之前的自监督方法[ 4 , 26 , 61]。这表明我们的PoseTriplet生成的多样且合理的动作改善了泛化性能。值得注意的是，Kundu等人[ 26]使用了额外的数据和非配对的3D姿势进行模型训练，因此在AUC（56.3 vs.53.1）方面略微优于我们的方法。我们的方法还优于直接在3DHP数据集上训练的自监督方法[ 4 , 26 , 27 , 61]。此外，我们的方法在所有指标上都优于弱监督方法[ 24 ,49 ]，即使它们使用了非配对的3D姿势。110230在训练过程中，我们的方法依赖于弱监督信号（例如一致性损失）来训练姿势估计器，并使用自动生成的数据进行增强监督，从而得到更稳定、合理和可靠的结果，甚至与完全监督的方法 [ 24 , 34 , 49 ]相当。总之，我们的自我监督框架PoseTriplet在跨数据集上的性能与完全/半监督的数据集内结果相当。这表明我们的PoseTriplet具有良好的泛化性能。0模式方法 CE PCK ( ↑ ) AUC ( ↑ ) MPJPE ( ↓ )0全 VNect [ 34 ] 83.9 47.3 98.0 全 HMR [ 49 ] 86.3 47.889.8 全 SPIN [ 24 ] 92.5 55.6 67.50弱监督 HMR [ 49 ] 77.1 40.7 113.2 弱监督 SPIN [ 24 ] 87.048.5 80.40自己 Chen 等人 [ 4 ] 71.1 36.3 - 自己 Kundu 等人 [ 27 ]80.2 44.8 97.1 自己 Kundu 等人 [ 26 ] 84.6 60.8 93.9 自己Yu 等人 [ 61 ] 86.2 51.7 -0自己 Chen 等人 [ 4 ] � 64.3 31.6 - 自己 Kundu 等人 [ 26 ] � �82.1 56.3 103.8 自己 Yu 等人 [ 61 ] � 82.2 46.6 - 自己我们 �89.1 53.1 79.50表 2.以PCK、AUC和MPJPE为指标的3DHP结果。CE表示跨数据评估。�使用额外的未配对的2D/3D数据集进行训练。最佳结果以粗体显示。03DPW结果我们进一步评估我们的方法在野外3DPW数据集上的泛化性能。请注意，在自我监督的跨数据集设置下，很少有研究在3DPW上进行评估。因此，我们直接与监督方法 [ 24 , 38 ,49 , 54 ] 进行比较。从表 3中，我们可以观察到我们的方法在不依赖任何3D数据的情况下，与完全监督的基线方法取得了可比较的结果。这表明我们的方法在复杂和具有挑战性的野外场景中表现良好。0模式方法 CE MPJPE ( ↓ ) P-MPJPE ( ↓ )0全 Wang 等人 [ 54 ] � 124.2 - 全 DSD-SATN [ 49 ] �- 69.5 全 CRMH [ 19 ] � 105.3 62.3 全 BMP [ 66 ] �104.1 63.8 全 VideoPose [ 38 ] � 101.8 63.00自己我们 � 115.0 69.50表 3.以MPJPE和PA-MPJPE为指标的3DPW结果。CE表示跨数据评估。04.3. 定性结果0之前的自我监督方法依赖于弱监督信号（例如一致性损失），而我们的方法通过从自动生成的数据中引入增强监督来训练姿势估计器，从而得到更稳定、合理和可靠的结果。0图 3. 与 Hu 等人 [ 16 ] 的 UID比较结果。图中包括：输入（左）、我们的结果（中）、Hu 等人 [16 ] 的结果（右）。0图 4. 与 Yu 等人 [ 61 ]的H36M比较结果。图中包括：输入（左）、我们的结果（中）、Yu 等人 [61 ] 的结果（右）。红色骨架是预测结果，绿色骨架是真实结果。0准确估计 1 . 如图 3 所示，虽然 Hu 等人 [ 16 ]在训练过程中引入了时间平滑先验，但抖动效应仍然明显。而我们的结果，通过协同进化方法学习得到，更加平滑。Yu等人 [ 61 ]引入了一个2D姿势的尺度估计策略，以减少尺度的模糊性。通过骨骼长度一致性和尺度分布的弱监督，他的结果仍然存在尺度模糊性（即，身体大小变化），如图 4所示。与之相比，我们的结果在身体大小方面保持稳定和准确。我们进一步展示了来自3DHP（图 5 ）和3DPW（图6）的结果。这些结果表明我们的方法在野外场景中的未见姿势上表现良好。更多野外示例可以在补充材料的视频格式中查看。04.4. 消融研究04.4.1 协同进化轮次的消融实验0然后我们分析协同进化轮次如何提高每个组件（估计器 P，模仿器 I ，幻觉器 H）的性能。为了展示改进效果，我们选择了每个组件的三个评估指标。对于估计器，我们评估在H36M测试集上训练的模型 P，并报告MPJPE作为评估指标。对于模仿器，我们评估在GT 3D参考动作（H36M）上训练的策略 I，以测量终止次数（例如，摔倒）作为评估指标。对于幻觉器，我们评估在GT 3D数据（H36M中的行走场景 [ 12]）上训练的模型 H ，以进行中间姿势补全。我们测量01 Fig.3-8是arxiv版本中的视频图，最好在AdobeReader中查看（点击播放），视频在补充材料中。0193.6---1112.2928--277.828071.462.6368.213267.354.0110240图5.与真实值相比的3DHP结果。图中包括：输入（左），我们的结果（中），真实值（右）。0图6.与真实值相比的3DPW结果。图中包括：输入（左），我们的结果（中），真实值（右）。0图7.针对模仿者I的共同进化结果。图中包括：视频源（左），我们的共同进化结果（中），使用真实数据训练的神经网络（右）。0将姿势和根位置的MPJPE作为评估指标。我们通过直接使用GT数据训练每个模型来引入一个神经网络，如表4的最后一行所示。通过迭代共同进化，估计器P、模仿者I和幻觉制造者H的性能得到了改善，并且越来越接近使用GT数据训练的结果。我们进一步为模仿者I（图7）和幻觉制造者H（图8）提供可视化结果。这个结果表明，使用我们的PoseTriplet在不使用3D数据的情况下共同进化的模仿者I和幻觉制造者H的性能与使用GT 3D数据训练的神经网络相当。0Round P I H Num. P1（姿势）终止 Num.P1（姿势）P1（根）0神经网络37.2 81 53.0 33.70表4.针对估计器P、模仿者I和幻觉制造者H的共同进化结果。请注意，第0轮是循环开始，我们在第一轮之后引入幻觉制造者H，以确保初始姿势估计的质量。0图8.针对幻觉制造者H的结果。图中包括：真实值（左），我们的共同进化结果（中），使用真实数据训练的神经网络（右）。04.4.2 数据使用量的消融实验0为了研究数据量对性能的影响，我们构建了一个有限的2D姿势数据消融实验。如表5所示，我们逐渐在我们的方法中引入更多的数据（即S1，S1+S5，S1+S5+S6+S7+S8）。结果表明，在数据集内和跨数据集的情况下，通过添加更多的2D姿势数据，PoseTriplet的性能可以逐渐提高。0模式子H36M 3DHP 3DPW0自我S1 89.2 94.0 135.8 自我S1，S5 81.9 83.5128.6 自我S1，S5，S6，S7，S8 68.2 79.5115.00表5. 根据MPJPE消融实验中数据使用量的结果。05. 结论0在这项工作中，我们提出了一种新颖的自我监督3D姿势估计框架PoseTriplet，通过姿势估计器、模仿者和幻觉制造者的共同进化策略实现。这三个组件通过训练过程中的双循环策略相互补充和增强。该框架能够生成多样且合理的运动数据，有助于训练出更优秀的姿势估计器。在各种基准测试中的实验证明，PoseTriplet取得了令人鼓舞的结果。它超越了最先进的自我监督方法，甚至与完全监督的方法相媲美。局限性主要表现在我们的流程训练效率较低，例如，在具有IntelXeon Gold 6278C CPU和Tesla T4GPU的机器上，训练3轮需要7天的时间。原因是模仿者（I）采用基于CPU的强化学习（RL）实现，幻觉制造者（H）采用RNN架构。未来，我们将探索基于GPU的RL实现和更高效的幻觉制造者架构（例如，变压器）以加快训练过程。致谢：本项目得到新加坡国立大学教职员研究委员会资助（WBS：A-0009440-00-00）和新加坡国立大学高级研究与技术创新中心（项目参考ECT-RP2）的支持。Kehong感谢Ye Yuan的讨论。110250参考文献0[1] Emad Barsoum, John Kender, and Zicheng Liu. Hp-gan:通过GAN进行概率性的3D人体运动预测. In CVPRw , 2018. 30[2] Neeraj Battan, Yudhik Agrawal, Sai Soorya Rao, AmanGoel, and Avinash Sharma. Glocalnet:长期人体运动综合的类别感知. In WACV , 2021. 30[3] Judith Butepage, Michael J Black, Danica Kragic, andHed- vig Kjellstrom. 用于人体运动预测和分类的深度表示学习.In CVPR , 2017. 30[4] Ching-Hang Chen, Ambrish Tyagi, Amit Agrawal, Dy- lanDrover, Rohith MV, Stefan Stojanov, and James M Rehg.基于几何自监督的无监督3D姿势估计. In CVPR , 2019. 1 , 2 , 3, 6 , 70[5] Mingfei Chen, Jianfeng Zhang, Xiangyu Xu, Lijuan Liu, Ji-ashi Feng, and Shuicheng Yan.基于几何引导的渐进神经元渲染用于通用且高效的神经人体渲染.arXiv , 2021. 10[6] Wenzheng Chen, Huan Wang, Yangyan Li, Hao Su,Zhenhua Wang, Changhe Tu, Dani Lischinski, DanielCohen-Or, and Baoquan Chen.为提升人体3D姿势估计而合成训练图像. In 3DV , 2016. 50[7] Dylan Drover, Rohith MV, Ching-Hang Chen, AmitAgrawal, Ambrish Tyagi, and Cong Phuoc Huynh.仅通过2D投影学习3D姿势可能吗？ In ECCVw , 2018. 2 , 3 , 60[8] Yinglin Duan, Tianyang Shi, Zhengxia Zou, Yenan Lin,Zhe- hui Qian, Bohan Zhang, and Yi Yuan.基于Transformer的单帧运动补全. arXiv , 2021. 30[9] Kehong G

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

PoseTriplet：自我监督下的3D姿势估计、模仿和幻觉

大模型幻觉和大模型谣言的区别

大模型幻觉偏差的量化

预训练神经网络的幻觉

什么是大模型幻觉?大模型幻觉产生感很本原因是什么?

目前世界上有哪些软件或者硬件体现了创造力？

GPT在NER上的表现

写一款用于心理治疗的虚拟现实游戏，玩家可以通过和主人公一起探险的过程中治好心理疾病

请问我思故我在是什么意思

图像风格迁移的国内外现状

AI绘图 github

threejs天空盒实现

人工智能做图片的ai网站

1、请写出你所了解的数据库管理系统中的安全性保护措施。 2、简述事务的四个特征，解释丢失更新、污读、不可重读和幻读。

免费ai生成图像的软件有哪些

有什么ai绘画生成软件吗

幻读和不可重复读的区别

给我推荐20个比较流行的AI作画模型

m ysql中幻读和脏读

神经系统药物的作用机制

最新资源