稀疏多视角摄像机的轻量级整体运动捕捉方法及其应用

119 浏览量更新于2023-10-15 收藏 2.96MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5560基于稀疏多视角摄像机张宇翔，李哲，安良，李梦成，余涛 *，刘业斌* 清华大学摘要当涉及到处理严重的遮挡、从身体到面部和手部的不同重建粒度、急剧变化的观察尺度和快速的身体运动时，多人整体运动捕捉是极其具有挑战性的。为了克服上述这些挑战，我们贡献了一个轻量级的整体运动捕捉系统，用于仅使用稀疏多视图相机的多人交互场景。通过贡献一个新的手和脸引导算法，我们的方法是能够有效的本地化和准确的手和脸的关联，即使在严重闭塞的场合。我们利用姿态回归和关键点检测方法，并进一步提出了一个统一的两阶段参数拟合方法，实现像素对齐的精度。此外，对于极端的自遮挡姿势和紧密的相互作用，提出了一种新的反馈机制，以将像素对齐的重建传播到下一帧中，以实现更准确的关联。总体而言，我们提出了第一个轻量级的总捕捉系统，并实现了快速，鲁棒性和准确的多人总运动捕捉性能。结果和实验表明，我们的方法实现了更准确的结果比现有的方法在稀疏视图设置。1. 介绍无标记运动捕捉技术由于其在行为理解、运动分析、人体动画、视频编辑和虚拟现实等方面的巨大潜力，几十年来一直是计算机视觉和图形学领域的热门研究课题在该研究领域中，由[22]使用极其密集的视图设置（数百个摄像头）开创的全动作捕捉显示了同时捕捉多人全交互行为（包括面部表情，身体和手部姿势）的令人印象深刻的结果，并引起了计算机视觉社区的广泛兴趣。然而，这项工作[22]遭受昂贵和复杂的硬件设置和低运行时效率。近年来，为了降低捕获复杂度，越来越多的研究尝试从全局角度进行运动捕获* 通讯作者图1.我们的轻量级的总捕获系统产生具有稀疏的多视角相机表现力的人体模型。仅单个图像或视频[41，55，13，45，35，64]。通过优化SMPL-X [41]和Adam [22]（[55]）等参数模型或直接从输入图像[13]回归模型参数，这些方法甚至可以实现单人的实时整体运动捕捉性能[45，64]。然而，单目方法仍然难以处理多人交互场景下的严重遮挡和挑战姿势。为了保证轻量级的设置和强大的性能，曼斯，我们提出了第一个轻量级的总捕获系统，只使用稀疏的多视角相机。然而，将现有的单目总捕获方法扩展到稀疏视图的多人总捕获并不是微不足道的。虽然多视角观测的引入可以解决单目方法的深度模糊性，但是由复杂姿势和多人交互引起的严重遮挡将显著恶化当前总捕获方法的性能。具体而言，主要挑战包括：i）在急剧变化的观察尺度和不稳定的检测结果下跨多个视图的手/面部关联，ii）重建的3D模型和输入图像之间的像素对准拟合，以及iii）即使对于紧密交互，在严重遮挡下的鲁棒且为了解决上述所有的挑战，我们提出，据我们所知，第一种方法来实现快速，鲁棒性和准确的多人全运动捕捉，只使用轻量级稀疏视图相机。首先，与单中心单人全夺获病例中相对固定的身体部位尺度和令人满意的无遮挡视点相比[41，55，13，45，64]，5561稀疏的多视图设置由于严重的遮挡而遭受手/面部碎片、由于快速肢体运动而导致的手甚至手指上的模糊、以及不同相机之间的变化的手/面部比例。此外，当不同的手非常接近地位于图像上时，正确地关联手仍然是一个挑战。为了解决这些挑战，我们提出了一种新的手和脸的bootstrap- ping算法提取准确的身体部位的特征有效地从稀疏和多尺度的图像进行准确的关联。受益于多人骨架姿势捕获[62]的最新进展，使用了机器人级别的结果来指导以下对象检测网络进行更稳健和准确的检测。此外，我们引入跨模态一致性和跨尺度一致性来过滤由遮挡或不当视点引起的意外碎片检测结果。其次，仅使用姿态回归方法或关键点检测方法还不能保证精确的参数模型拟合。首先，姿势回归方法[13，45，64]能够重建得体的手势在自遮挡的情况下，但是这些一次性方法不能保证与图像上的2D关节位置的像素级对准。另一方面，关键点检测方法[41，55]能够为可见关节提供像素对齐的几何特征，但可能需要大量的后处理优化，这对初始化非常敏感，并且通常由于自遮挡而为了充分利用这两类方法的优点，避免它们的缺点，提出了一种新的统一的两阶段参数拟合方法，该方法利用姿态回归结果作为初始值，加速基于检测到的关键点的参数模型拟合的收敛，最终在不损失效率的情况下达到像素对齐的拟合精度。最后但并非最不重要的是，对于极其复杂的姿势和紧密的交互，即使是4D关联[62]也可能在身体关联步骤中失败，这是稀疏多视图设置的固有和自然限制。为此，我们提出了一种反馈机制，在该机制中，重建像素对齐的人体参数模型在前一帧中传播到当前帧中，以增强软可见性信息，并最终实现准确的关联结果。受益于这种新的反馈机制，我们的方法能够捕捉准确的人类行为，即使在严重闭塞和密切的互动的情况下。我们的贡献可以总结为：• 一种新的手和脸自举方法，其涉及用于更准确的身体部位定位的身体级骨架引导和自验证的一致性分数，以通过非预期的视点或遮挡观察来过滤掉碎片化检测结果的噪声（Sec.4）.• 一种新的统一的两阶段参数拟合方法，充分利用姿态回归和关键点检测方法来产生精确的像素对齐的3D人体模型与表达运动（第2节）。（五）。• 一种新的反馈机制，将准确的重建传播到下一帧中，以进一步提高关联准确性，特别是在严重遮挡的情况下（Sec. （六）。2. 相关工作2.1. 全动作捕捉针对无标记多尺度人类行为捕获（包括身体运动、面部表情和手势）的总运动捕获方法已经在人类4D重建和高保真神经渲染中显示出巨大的潜力[42，49，28，63]。作为全运动捕捉的开创性方法，[22]在数百个摄像机的设置下取得了有希望的人类行为捕捉结果，然而，该方法依赖于昂贵且复杂的硬件，因此难以应用。在光谱的另一端，为了实现轻量级和方便的捕获，许多作品[41，55，13，45，35，64]专注于从单目设置的总捕获。单目总捕获[55]和SMPLify-X [41]优化了参数化人体模型（ SMPL-X [41] 和 Adam[22]），以拟合2D检测到的关键点。Choutas等人 [13]直接回归SMPL-X的参数[41]并随后细化头部和手部的捕获结果。Pose2Pose [35]结合了全局和局部图像特征，以实现更准确的预测。FrankMocap [45]分别回归手和身体姿势的参数，并最终将两个部分集成为统一的全身输出。Zhou等人 [64]利用身体和手之间的运动关系来设计网络，并实现了实时单目捕获。总的来说，虽然当前的单目方法可以实现合理的人类总捕获性能，但它们仍然遭受深度模糊和遮挡。2.2. 基于骨架的姿态重建单视图2D和3D姿态估计方法[54，43，19，16，9，12，26，58，1，34，23，39，33，60]已经被实现。然而，近年来被广泛研究的这些方法存在严重的遮挡和模糊性，不能产生高置信度的结果。为了减轻遮挡并产生更准确的重建，许多工作旨在从多视图输入重建人体姿势。在这个方向的第一个分支，一些方法[17，50，32，57，31，27，25，40]针对每个帧执行基于时间骨架的跟踪，但是这些方法遭受不完美的初始化和累积误差。在另一个分支上，交叉视图匹配方法关联对应关系（例如，人类实例和关键点），并最终为每个表演者重建3D姿势一些作品利用3DPS模型通过骨骼约束[3，4]或身体部位隐式地5562DGαEEβE----βα检测[15]。Joo等人。 [21]利用密集多视图的2D检测来投票选择可能的3D关节位置。Dong等人。 [14]提出了一种多路匹配算法来保证所有视图的周期一致性Zhang等人。 [62]将时间跟踪和跨视图匹配共同制定为4D关联图，并实现了实时性能。Tu等人。 [51]提出直接在3D空间中操作，同时避免每个视点中的错误决策。Lin等人 [30]提出了一种基于平面扫描的方法来执行多视图多人3D姿态估计，而无需显式交叉视图匹配。即使这些方法能够使用骨架捕获3D人体姿势，它们也不能重建全身行为，即，面部表情手部动作和身体表面2.3. 3D手部重建三维手部重建是全捕获中的一个重要子问题。已经提出了许多作品[47，8，48，56，65，20，37]，其专注于从单个RGB图像进行 3D手部姿势估计最近，越来越多的工作旨在恢复3D手部网格[18，24，10]或直接回归参数手部模型的姿势和形状参数（MANO [44]）[2，6，61，66，11]。然而，这些方法只关注单手的重建，而忽略了手与手之间的相互作用。Moon等人。[36]提出了InterHand2.6M，这是一个大规模的双手交互数据集。一些研究人员已经探索了双手交互场景下的姿态估计问题[38，52，29，59]，但是涉及更多手的多人交互场景下的手部姿态估计问题仍然没有解决。3. 概述3.1. 主管道如图2、给定多个同步和校准的RGB视频作为输入，我们的流水线以逐帧的方式工作，并通过以下步骤输出一系列自然结合身体姿势、手势和面部表情的参数化人体模型1. 4D Body Association （ 4D Body Association ）3.2）：给定多视图输入，我们关联2D关键点并使用4D关联对3D身体骨架进行三角测量[62]。2. 手部和面部引导（第4）：利用身体骨架，我们执行手部和面部引导以有效地提取它们的2D边界框，并且还将它们与不同视图中的不同主体相3. 两阶段参数拟合（第5）：然后我们以两阶段的方式将参数化人体模型SMPL-X [41]拟合到这些姿势，手势和表情特征，以实现高效和准确的像素级对齐。4. 反馈机制（第6）：最后，将跟踪的人类模型传播到4D关联步骤中以进一步提高关联准确度，尤其是在严重遮挡的情况下。3.2. 4D身体关联作为我们方法的构建块，4D关联[62]贡献了具有稀疏多视图视频输入的实时多人骨架跟踪框架4D关联算法将前一帧中跟踪到的3D关节和当前帧中检测到的2D关键点作为图节点j，引入一系列连接边：单视图解析边P、跨视图匹配边V和时间跟踪边T，最终形成统一的关联图4D，有效地优化了多视图人体关联问题。4. 手和脸引导我们引入了一种手和脸的自举方法，(i)提取局部身体部位感兴趣区域（RoI）和检测从全身输入和（ii）消除不正确的相关匹配使用建议的非最大抑制（NMS）方法。身体级别的语义特征，手部姿势回归和关键点检测集成到我们的管道。注意，所提出的用于手和面部的引导方法非常相似，但是交互式手行为在实际的多人场景下更加频繁所以在这一节中，我们主要介绍比较有代表性的手自举方法，对于人脸的方法也是类似的。具体地，给定在帧t处的稀疏多视图图像输入，我们首先利用4D关联算法（Sec. 3.2）以获得每个视图中的相关联的2D身体关键点和三角测量的3D身体骨架。其次，我们通过身体骨架语义信息指示初步筛选的RoIsRoIc，然后利用轻量级对象检测网络在这些初步筛选的区域中进一步定位紧密且可靠的RoIsRoIc，然而，由于紧密的交互和不良的观看方向，在单个RoI c中可能存在对应于不同手的若干RoI c，如图1B所示。第4（b）段。这将导致稍后的手关联步骤中的严重模糊。为了消除这些模糊的ROI，我们提出了一种双重检查非最大抑制（NMS）方法，以保证跨模态（关键点检测和手的参数回归之间）和跨尺度（身体重建和手重建之间）的一致性。接下来，我们将详细介绍2D手部定位和关联。4.1. 2D手部定位我们以从粗到精的方式进行2D手部定位：首先根据重建的三维人体骨架和语义信息为每只手生成初始边界框，然后细化初始边界5563k，α--p··k1，αCβ--k，βKK∩2̸图2. 方法概述。最初，我们将多视图RGB序列和身体估计结果作为我们的输入。每个个体的骨架通过4D关联（Sect.3.2）。之后，我们利用我们的肢体自举框架本地化（节。 4.1）和协理（第四节）4.2）身体部位。在此之后，我们从所有这些输出优化参数SMPL-X模型（Sect.（五）。最后，我们的反馈机制（节。6），以提高下一帧中与重建人体模型的身体关联性能使用迭代手检测器的框[53]。请注意，这种策略有助于我们过滤掉无关紧要的地区，在粗略的水平，从而减少不必要的计算和加速手定位过程。为了生成手的初始包围盒，我们利用重建的3D身体骨架来插值手的中心并构造具有恒定半径，以处理由透视投影引起的2D图像上的手的尺寸变化然后，我们根据每个视图中3D边界球的投影中心和半径生成具体-因此，我们估计{RoI c}的人k在每个视图c中图3.手定位和检测的图示（a）关于-预先使用[62]构建身体骨架，这将引导我们专注于关键区域RoIc（蓝色虚线矩形）。（b）之后，利用轻量网络回归更精确和紧密的边界框{RoIc}（红色实线Ck，α在重建的人体骨架的指导下：oc=P（O），rc=fc·R，矩形）。然后我们剪了RoIk，β从全身图像然后将它们馈送到姿态回归网络和关键点检测网络。（c）适当但像素对准不够准确的回归手势（d）2D关键点是准确的，但遭受深度模糊。pc ppC c cdc（Op）C（一）{RoIk，α}={Rect（op，rp）|zp = 1，p = 1，2，.， P}，其中Op和R是球心和半径。〇p可以简单地从腕部和肘部的3D位置外推，并且R是根据真实物理尺度定义的恒定参数oc和rc是投影圆心4.2. 手会由于在前面的步骤中已经关联了2D身体关节，并且已经对不同主体的3D身体骨架进行了三角测量，因此在本节中，我们主要关注如何将正确的手部边界框分配给3D手腕每个视图中的p p和半径。fc是相机c的焦距，Pc（）是透视投影函数，并且dc（）是到相机的图像平面的距离。针对人p的腕关节是否已经被分配视图c中的2D关键点检测，引入指示变量zc。由于当前的手部关键点检测和回归方法仍然依赖于紧密和准确的边界框来实现良好的性能，因此我们进一步细化了初始我们利用经典的非最大抑制（NMS）[5]算法，但提出了两个新的一致性得分，以有效地过滤出模糊的ROI。具体地，提出了跨模态一致性得分ζ。和跨尺度一致性得分ξ。来判断最终将保留哪个匹配。在实际操作中，在某些侧视图中，手通常会靠近甚至重叠，并且参与者之间的相互作用会导致更多的歧义。具体来说，康边界框使用迭代手检测器[53]。如图3、利用单通道手部检测网络-考虑到RoIc如示于图4，RoI cRoIk，α=，k1=k2，（深蓝色）和RoIc致力于进一步提取更精确的RoI{RoIc{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}我们k1，β2k2，βk，β证明我们的两步定位方法形成轻质检测器（例如，[46]第四十六话（红色）共享相同的子区域，这导致关联模糊。在传统NMS目标检测算法的基础上，提出了一种自验证的FrankMocap [45]）的速度和准确性（图。第11段）。过滤冗余RoIc的关联算法并重新-5564wrt检测，jw√）。（三）Ck1，αk1，αk2，αk1，β1k1，β2k2，βk1，αk2，αk1，β1k1，β2KKregrDECT体估计量将Sb∈R2表示为相关的2D来自全身检测的手腕位置，Sh作为手腕通过局部手部关键点检测器进行关节定位最后，ξ被定义为2Sb−Sh2ξ=max（0，1 -1）wrtdect，jww2+h2图4. 手关联算法的说明。(a)[62]身体骨骼获得（b）关联模糊可能发生-最后，我们将这两个分数相加作为置信度度量，以应用NMS算法来保留具有最高分数的一个。我们证明，我们的双重检查NMS方法有助于提高在混乱的情况下的关联精度。5. 两阶段参数拟合我们观察到以前的方法通常利用参数姿态回归[45]或基于热图的关键点[41]这是一个完整的动作捕捉。然而，他们有他们的当RoIc∩RoIk，α2=蓝色和红色点缀自己的局限性。一方面，虽然姿势回归直线矩形是RoI c和RoI c分别表示。然后3个紧边界框RoI c（浅蓝色），RoI c从两个初始直角中进一步提取R 〇 Ic（深蓝色）和R 〇Ic（红色）。我们可以观察到，右手位于RoIc和RoIc的重叠区域，导致冗余的建议和混乱的划分。（c）和（d）表明，姿态回归网络对于一个手征输入是特定的（e）是基于热图的检测器的结果(f)显示在我们的双重检查NMS过程之后，正确的分布式RoIc而假的一个RoI c被丢弃。虽然网络即使在遮挡下也可以产生合理的结果，但是它们不能保证与输入图像的准确2D对准。另一方面，基于热图的网络为可见关节提供准确的2D检测，但它们仍然遭受深度模糊性，并且在优化期间易受局部最小值的影响。在本文中，我们将它们统一在一个两阶段的参数拟合方案，其中包括局部初始化和总优化，以提高整体的运动捕捉性能。为了加速收敛和防止保持正确的匹配。首先，对于每个视图c，我们通过从总的个人的手提议计算交集（IoU）来定位其次，我们计算每个RoI建议的跨模态一致性得分ζc和跨尺度一致性得分ξc第一度量，跨模态一致性得分ζ，用于惩罚不同检测模态之间的不一致性。如图在图4（c）、（d）和（e）中，基于热图的特征相对于翻转平移是不变的，但是姿态回归网络需要正确的手性保证以实现合理的结果。这种分歧可以帮助我们区分左或右asso。引文歧义。记Jh=21为手关节数，Sh∈R2× Jh为从姿势回归网络得到的2D手关节位置，Sh∈R2× Jh 作为输出优化偏差时，必须将身体各部位的运动初始化到合理的状态。具体地，对于手部姿势初始化，我们根据手部关联得分ζ（等式2）从语义姿势回归手势2）和ξ（Eqn. （3）第三章。此外，对于身体/头部姿势初始化，我们通过直接最小化以下能量函数来求解SMPL-X身体姿势，以保证更准确的初始化：E体=λb3dEb 3d+λpriEpri+λβEβ（4）这里，Eb3d是从参数化模型的关节到对应的重建的3D身体骨架的距离如SMPLify-X [41]中，Epri和Eβ全面优化在此阶段，我们利用准确关键点检测网络，w，h为RoIβ的大小。则ζ被公式化为2D指针关键点和面部地标，以进一步优化初始SMPL-X模型，实现准确的总体捕获：jhh hζ=1Σmax（0，1−2Sre√gr，j−Sdect，j2）。（二）HEtotal=Edata+Ereg，Jj=1w2+h2E数据=λb3dEb3d+λh2dEh2d+λf2dEf2dEreg=λ priE pri+λ βE β+λ θ，hE θ，h+λεE ε，（五）另一方面，第二个指标，跨尺度一致性得分，制定惩罚不合理的手腕错位之间的局部手估计和全球其中，Eh2d和Ef2d是2D数据项，用于最小化SMPL-X关节的2D投影之间5565EG^^Σ∈图5.两阶段参数拟合的图示。(a)阶段1：我们求解身体姿势以及手臂运动学，并且分配具有最高关联得分ζ和ξ的姿势回归的姿势。(b)阶段2：然后我们执行总体优化以实现准确的总体运动捕捉。以及在所有有效视点中检测到的2D关键点。Eθ、h和Eε是L-2范数，以将优化的手势和表情保持在合理的范围内。注意，我们可以额外地利用一致性得分ζ和ξ（等式1）。2和3）平衡不同视图中的检测结果，因此图6. 说明我们的反馈机制。(a)和（b）是对齐的参数模型。(c)通过渲染分割结果。(d)是通过距离变换生成的软化掩模，以增强快速运动期间关联的鲁棒性。7. 结果图7、通过实例验证了系统的有效性与稀疏多视图设置，我们的方法产生的多人交互场景下的表达人体参数模型。7.1. 实现细节实现了我们的轻型全捕获系统E=Σζc+ξc·ec，其中c是视图索引。h2dc2H2d配备6个同步RGB摄像头（分辨率2048×2048）6.反馈机制最后，针对严重遮挡和近距离交互的情况，提出了一种反馈机制来提高关联算法的跟踪性能。一方面，详细的肢体检测器有助于以更高的精度重建肢体，这是杠杆式的，以改善身体骨架的结果。另一方面，我们重新渲染人体模型的下一帧的每个视图，以扩展跟踪边缘T的4D与额外的可见性信息。如图6，通过将优化后的参数模型渲染回输入图像，得到初始分割。同时，为了增强对人体运动的鲁棒性，我们采用了距离变换来平滑渲染蒙版的边界对于给定的2D关键点检测候选者c，我们使用[62]中的相同符号zk（c）来指代可能性将该候选人与人k联系起来。受益于我们的反馈模块，4D关联中的跟踪边缘[62]（Sec.3.2）用可见性先验进行扩展。我们将增强的跟踪边缘zk（c）定义为：在单台PC（i5-6600K CPU，NVIDIA RTX 3090 GPU）上。我们使用Openpose [9]作为我们的身体姿势估计器，SRHand- Net [53]作为我们的手部实例检测器和关键点检测器。我们利用Frankmocap [45]手势回归器的手部姿势回归网络。FaceAlignment [7]用于面部关键点提取。此外，我们通过在NVIDIA TensorRT平台上实现半精度算法来CNN性能如表所示1.一、此外，我们的身体关联骨干需要近10ms来恢复人体骨骼，肢体定位和关联方法的速度快到可以忽略不计。我们的参数拟合工作流程对于阶段一花费150 ms并且对于阶段二花费350 ms（20次高斯-牛顿迭代并且对于每个人是并行的总的来说，我们的系统运行时间取决于捕获的个体数量和视图数量。根据经验，我们的流水线对于2人6个视图运行约1 fps，对于7人8个视图，处理速度减慢到0.3 fps。对于超参数，手部定位中的球体半径R被设置为0。15m，关联NMS阈值为0.5。在两阶段参数拟合中，我们设置λb3d=10，λh2d=0。0001，λ f2d=0. 0003，λ pri=λ θ，h=0. 01，并且λβ=λ ε= 0。01.kτk（c） k（六）z（c）=Ki=1zτi（c）（c）、网络输入批量速度（FPS）Openpose [9]368×3686 43.1其中τi（c）[0，1]表示人i的连续占用。如图在图6（d）中，τ i（c）与到其二元掩模的距离负相关，τ k（c）= 1是指完全包含的情况。因此，我们的反馈机制增强了骨架跟踪性能，并减少了投影重合情况下的抖动。FaceAlignment [7]256×2564 109.5SRAndNet [53]256×2568 50.0手动HMR [45]224×2248 202.1表1.我们系统中使用的CNN网络的推理速度5566图7. 我们系统的结果。从左到右分别是输入参考图像、参数模型对准、面部和手部对准以及来自新视图的3D可视化（a）来自我们使用6个视图捕获的数据的手-物体交互情况的结果(b)使用6个视图的多人交互场景的结果，（c）使用8个视图的CMU数据集[22]的结果。7.2. 比较由于我们的方法是第一个能够从稀疏多视图进行轻量级总捕获的方法，因此我们将我们的方法与SOTA单视图方法FrankMocap [45]进行了比较。图11和来自图9中的总捕获[22]的地面实况。更重要的二、7.3. 评价：手动引导我们将我们的手动自举方法与SOTA单眼总捕获方法Frankmocap [45]进行了比较。为了确保公平尽可能多，我们减少我们的系统，以2关闭前视图摄像头.图11（a）显示了FrankMocap [45]的重建失败，这是由于将左手和右手混合到同一区域提议而导致的。由于所提出的NMS方法的手关联，我们的方法可以鲁棒地重建更准确的手图。第11条（b）款。7.4. 评估：两阶段参数拟合我们对CMU数据集[55]进行了两阶段拟合度量的消融研究，并证明我们的方法使不同的模态检测器相互受益一方面，如图所示。在图8（a）（d）中，我们仅利用姿态回归结果执行我们的两阶段拟合算法，即，我们利用来自姿态回归网络的正交投影关节来接管第二阶段中的基于热图的2D对应性。由于姿态回归检测器无法保证像素对齐精度，因此详细显示了未对齐伪影。另一方面，仅关键点检测的结果在图1中示出。8（b）（e）.如果没有姿态回归网络来初始化具有合理手势的手部姿态，则优化容易陷入局部最小值。7.5. 评价：反馈机制我们在Shelf数据集[3]中评估我们的反馈模块。如图10（a）、鲑鱼人的左肘被分配给背景绿色人而没有饲料-5567图8. 两阶段参数拟合的定性评价(a)和（d）是仅参数回归度量的结果（蓝色）。（b）和（e）是具有仅关键点检测度量（salmon）的结果(c)和（f）是我们的两阶段拟合策略结合两个度量的结果（粉红色）。同时，我们分别在（a）和（b）的右侧可视化姿态回归网络输出和基于热图的网络输出（d）右侧的红点(e)（f）参考地面实况3D手工注释。图9. 我们的稀疏视图方法（使用8个视图）与Total Capture数据集的地面实况的比较[22]。网格是指我们重建的参数模型（SMPL-X），红色关键点是来自Total Capture数据集的地面实况。图10. 反馈机制的定性评价。(a)显示了[62]的原始关联结果。(b)是我们最后一帧的重建模型。(c)表明，我们的反馈机制，nism提高身体联想性能与能见度优先。图11. 根据SOTA单眼方法对手动自举计算机进行定性评价，FrankMocap [45]。(a)Frankmocap [45]的结果，每个视图仅提取单个ROI(b)我们的方法的结果，所有的手提取和关联正确。型号机身头部L手RHand MPJPE（mm）33.4 21. 7 22. 6 19. 3表2.Total Capture数据集的定量评价我们计算了一个视频片段（750帧），其中涉及大变化的运动和mesticulous手势（注意，手的注释是很少的挑战姿态）与5个摄像机的综合评价的身体头部关节的MPJPE。回来了我们在图 1 中示出了增强的关联结果。 10（c），并证明重建的人体模型提供的可见性信息有助于消除这种歧义。架A1A2A3Avg无反馈九十九。0九十六。2九十七6九十七6带反馈99. 5九十七0九十七8九十八1表3. Shelf数据集上反馈机制的消融研究。数字是正确零件的百分比（PCP）。8. 讨论结论在本文中，我们提出，据我们所知，第一个多人的整体运动捕捉框架，只有一个稀疏的多视图设置。基于提出的手和脸的自举，两阶段的参数拟合和反馈机制，我们的方法可以实现轻量级，快速，鲁棒和准确的捕捉身体姿势，手部的- ture和面部表情的每个字符，即使在场景严重闭塞和密切的互动。局限性和未来的工作我们主要可以恢复的面部表情的颌关节，并不能重建微妙的面部表情，由于低分辨率的面部图像输入，我们留给未来的研究。鸣谢本工作得到国家重点研究发展计划项目2018YFB2100500 和国家自然科学基金资助项目62125107的支持。第61827805号、第62171255号、水木清华奖学金。5568引用[1] RızaAlpGuüler、Nat a liaN ev er ov a和IasonasKokkinos。密度：野外密集的人体姿势估计。在CVPR，2018年。2[2] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim. 通过神经渲染推进基于rgb的密集3d手部姿态估计的包络在CVPR中，第1067-1076页，2019年。3[3] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.用于多个人体姿势估计的3D图像结构。CVPR，2014。二、七[4] Vasileios Belagiannis ， Sikandar Amin ， MykhayloAndriluka，Bernt Schiele，Nassir Navab，and SlobodanIlic.3D图像结构再访：多人姿态估计。TPAMI，2016. 2[5] N. 博德拉湾辛格河，巴西-地Chellappa和L.S. 戴维斯软NMS- 用一行代码改进对象检测。在3DV，2017年。4[6] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。在CVPR中，第10843-10852页，2019年。3[7] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。InICCV，2017. 6[8] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。参见ECCV，第666-682页，2018年。3[9] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose：使用部分亲和性字段的实时多人2D姿势估计。TPAMI，2019。二、六[10] Xingyu Chen ， Yufeng Liu ， Chongyang Ma ， JianlongChang ， Huayan Wang ， Tian Chen ， Xiaoyan Guo ，Pengfei Wan，and Wen Zheng.通过语义聚合和自适应2d-1d配准的相机空间手部网格恢复在CVPR中，第132743[11] Yujin Chen，Zhigang Tu，Di Kang，Linchao Bao，YingZhang，Xuefei Zhe，Ruizhi Chen，and Junsong Yuan.基于模型的自监督学习三维手部重建在CVPR中，第10451-10460页，2021年。3[12] Yilun Chen，Zhicheng Wang，Yuxiang Peng，ZhiqiangZhang，Gang Yu，and Jian Sun.用于多人姿态估计的级联金字塔网络。在CVPR，2018年。2[13] Vasileios Choutas、Georgios Pavlakos、Timo Bolkart、Dimitrios Tzionas和Michael J.黑色.通过身体驱动注意力的单眼表达性身体回归。在ECCV，2020年。一、二[14] Junting Dong，Wen Jiang，Qixing Huang，Hujun Bao，and Xiaowei Zhou.从多个视图快速和鲁棒的多人3d姿态估计在CVPR，2019年。3[15] Sara Ershadi-Nasab、Erfan Noury、Shohreh Kasaei和Es-maeil Sanaei。从多视点图像估计多个人的三维姿态多媒体工具和应用，2018年。3[16] 方浩树，谢淑琴，戴玉荣，陆策武。RMPE：区域多人姿势估计。InICCV，2017. 2[17] Juergen Gall ， Carsten Stoll ， Edilson De Aguiar ，Christian Theobalt ， Bodo Rosenhahn ， and Hans-PeterSeidel.使用关节骨架跟踪和表面估计的运动捕获。在CVPR，第1746-1753页中。IEEE，2009年。25569[18] Liuhao Ge，Zhou Ren，Yuncheng Li，Zehao Xue，Yingying Wang，Jianfei Cai，and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计。在CVPR中，第10833-10842页，2019年。3[19] Kaimi ngHe ， Geor giaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 2[20] Umar Iqbal ， Pavlo Molchanov ， Thomas BreuelJuergen Gall，and Jan Kautz.基于潜在2.5维热图回归的手部姿态估计在ECCV，第118-134页，2018年。3[21] Hanbyul Joo ， Tomas Simon ， Xulong Li ， HaoLiu，Lei Tan，LinGui，Sean Banerjee，TimothyGodisart ， Bart Nabbe ， Iain Matthews ， et al.Panoptic Studio：一种用于社交互动捕捉的大规模多视图系统。TPAMI，2017。3[22] Hanbyul Joo Tomas Simon 和 Yaser Sheikh 总捕获量：用于跟踪面部、手部和身体的3d变形模型。在CVPR，2018年。一、二、七、八[23] Angjoo Kanazawa 、 Michael J Black 、 David WJacobs和Jitendra Malik。端到端恢复人体形状和姿势。在CVPR，2018年。2[24] DominikKulon 、 RizaAlpGuler 、 IasonasKokkinos 、 MichaelMBronstein 和 StefanosZafeiriou。弱监督网格卷积手重建在野外。在CVPR，第4990-5000页，2020年。3[25] Oh-Hun Kwon，Julian Tanke，Juergen Gall.递归贝叶斯滤波在多摄像机多人体姿态跟踪中的应用。在ACCV，2020。2[26] Jiefeng Li，Can Wang，Hao Zhu，Yihuan Mao，Hao-Shu Fang，and Cewu Lu. Crowdpose：高效的拥挤场景姿态估计和新的基准。在CVPR，2019年。2[27] Kun Li ， Nianhong Jiao ， Yebin Liu ， YanangWang，and Jingyu Yang.使用多视图图像的紧密交互的人的形状和姿态估计。在CGF，2018。2[28] Zhe Li，Tao Yu，Zerong Zheng，Kaiwen Guo，andYebin Liu.Posefusion：用于单视图人体体积捕获的姿势引导选择性融合在CVPR，2021年。2[29] Fanqing Lin，Connor Wilhelm，and Tony Martinez.基于单目 rgb 的双手全局三维位姿估计。在WACV，第2373-2381页，2021年1月。3[30] Jiahao Lin and Gim Hee Lee.平面扫掠立体多视角多人三维位姿估计。在CVPR中，第11886-11895页，2021年。3[31] Yebin Liu，Juergen Gall，Carsten Stoll，QionghaiDai，Hans- Peter Seidel，and Christian Theobalt.使用多视图图像分割的多个字符的无标记运动捕获。TPAMI，2013年。2[32] Yebin Liu，Carsten Stoll，Juergen Gall，Hans-PeterSeidel，and Christian Theobalt.使用多视图图像分割的交互角色的无标记运动捕获。CVPR，2011。2[33] DushyantMehta ， OleksandrSotnychenko ，FranziskaMueller ， WeipengXu ， MohamedElgharib ， Pascal Fua ， Hans-Peter Seidel ， HelgeRhodin，Gerard Pons-Moll，and Christian Theobalt.Xnect：用一个rgb摄像头实时捕捉ACM Transactions onGraphics（TOG），39（4）：82-1，2020。2[34] Dushyant Mehta ， Oleksandr Sotnychenko ， FranziskaMueller ，Weipeng Xu ， Srinath Sridhar， Gerard Pons-Moll，and Christian Theobalt.基于单目rgb的单镜头多人三维姿态估计。在3DV，2018年。25570[35] 文敬植和李敬武。 Pose2pose ： 3d posi- tional pose-guided 3

下载后可阅读完整内容，剩余1页未读，立即下载