多镜头图像处理及其在3D人体网格恢复中的应用

116 浏览量更新于2023-10-25 收藏 20.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14850从多个镜头恢复人体网格0Georgios Pavlakos, Jitendra Malik, AngjooKanazawa加利福尼亚大学伯克利分校0规范帧0输入视频0相机帧0∥Θ i − Θ i+1 ∥0镜头变化0镜头变化0跨镜头平滑性：0图1.从多个镜头恢复人体网格。来自编辑媒体（如电影）的视频包括导致帧之间不连续的突然镜头变化（顶部），这将丰富的电影潜力减少为一系列独立的短时序列。然而，在同一场景中，场景的基础4D结构平滑变化。我们利用这一洞察力，将不同的镜头视为提供关于这些镜头边界下潜在的3D人体的互补信息的多视图线索。这既可以实现更准确的3D重建（中间，底部），也可以实现更长的3D姿势序列。这些作为训练深度学习模型的数据的重要性和提出的模型通过大量实验证明。我们开发的工具为处理和分析来自大型编辑媒体库的3D内容打开了大门，这对于许多下游应用可能是有帮助的。0摘要0来自编辑媒体（如电影）的视频是一种有用但未被充分利用的信息来源，具有丰富的外观和人类之间的互动，涵盖了大范围的时间背景。然而，数据的丰富性以牺牲了一些基本挑战为代价，例如突然的镜头变化和对演员的特写镜头，这限制了现有3D人体理解方法的适用性。在本文中，我们通过以下洞察力解决了这些限制，即虽然相同场景的镜头变化在帧之间产生不连续性，但场景的3D结构仍然平滑变化。这使得我们能够将镜头变化前后的帧处理为提供有关潜在动态的多视图信号0演员状态。我们提出了一个多镜头优化框架，实现了这一洞察力，从而改进了3D重建和通过伪地面真实3D人体网格挖掘序列。我们将这些数据视为对模型的有价值的监督，这些模型能够从电影中恢复人体网格；无论是从单个图像还是从视频中，我们提出了一种基于变换器的时间编码器，可以自然地处理由于输入帧中的镜头变化而导致的观察缺失。通过大量实验证明了我们的洞察力和提出的模型的重要性。我们开发的工具为处理和分析来自大型编辑媒体库的3D内容打开了大门，这对于许多下游应用可能是有帮助的。代码、模型和数据可在以下网址找到：https://geopavlakos.github.io/multishot/14860输入帧单帧03D人体重建相机视角相对相机视角0多镜头03D人体重建0图2.多镜头推理。镜头变化前后的帧描绘了相同的3D场景，并提供了帮助重建人体潜在3D姿势的多视图信号，特别是在特写、被大幅截断的人物图像的情况下。蓝色三角形对应于场景中估计的相机位置。每个人都是独立重建的。01. 简介0电影是人类“行为片段”的宝库[4]。它们在许多不同的国家以多种类型制作，给我们带来了巨大的文化多样性和范围。已经出现了一些数据集，最突出的是AVA[14]，它们提供了电影中的时空本地化人类行为的丰富注释。这似乎是训练视频理解系统的理想数据，并进一步利用它作为从多样化人类行为观察中获取“常识”的基石。这种“视觉”路径可以补充“语言”路径来捕捉常识，而且可能更为基础。但在我们的一厢情愿之前，我们必须面对从电影中得到的视频数据的一个基本挑战-“镜头”的复杂性。电影有一种语法[2]。故事通过从不同的摄像机角度观看同一场景的镜头并置来传达。阿尔弗雷德∙希区柯克的《绳子》和山姆∙门德斯的《1917》之所以引人注目，正是因为它们被呈现为一次拍摄，没有任何可辨认的与镜头边界相对应的中断。这些镜头变化在视频中表现为突然的不连续性，如图1所示。当前的时间3D人体网格和运动恢复方法，以及大多数动作分类算法，将这些镜头视为独立的场景，这将丰富的潜力减少为一系列独立的短时序列。此外，镜头变化经常在演员的特写镜头中表现出来，而大多数最先进的人体网格恢复模型难以处理这种被大幅截断的人物图像，如图7所示。这两个问题阻止了将这些模型应用于分析电影中的3D人体行为。在这项工作中，我们提出了一个解决方案，解决了这两个挑战。首先，我们认识到镜头变化通常描绘了一个连贯的底层4D场景，从不同的视角观看，尽管在帧级别存在时间上的不连续性。因此，当正确处理时，镜头变化可以用作底层动态的多视图信号0场景。这可以是在消除人的3D姿势和动作的歧义方面的一个强大线索，特别对于近距离、被大幅截断的人物图像非常有帮助（图2）。具体而言，我们在这个新颖且未被探索的想法基础上提出了一种多镜头优化方法，可以在镜头变化中恢复一致的3D人体运动序列，同时解决时间片段化和部分人体的两个挑战。0所提出的多镜头优化方法可以从电影中恢复出长且可靠的3D人体运动序列。这些数据可以被视为伪地面真值，并且可以用于训练回归模型，以便直接从像素中预测人体网格，无需反复迭代，从图像[ 22 ]或视频[ 23]中进行。这个工作流程如图3所示。我们展示了来自我们的多镜头优化的高质量输出对于提高这些模型的性能至关重要，因为多镜头推理提供了更长和更准确的3D伪地面真值。值得注意的是，与许多以前的工作不同，由此得到的直接预测模型足够稳健，可以在电影数据上进行人体网格恢复。此外，为了进一步推动在电影上的应用，我们提出了一种基于Transformer的架构（t-HMMR）用于我们的时间编码器。在编辑媒体中的一个常见挑战是，一个人可能不连续地出现在场景中，因为镜头切换到另一个角色或背景，通常称为B卷（例如，图3的序列）。Transformer可以通过明确地不关注不包含感兴趣人物的帧并忽略它们的方式轻松解决这个问题，同时仍然处理前后与不相关输入帧之间的更大时间上下文。0我们在AVA [ 14]上进行实验，这是一个具有原子动作注释的大规模电影数据集。将我们的多镜头优化应用于AVA，可以得到超过350k帧的伪地面真值3D。我们将其作为训练数据，用于监督从单张图像或视频中恢复人体网格的回归模型。同时，我们筛选AVA的一个子集用于评估。通过广泛的实验，我们证明了我们的多镜头优化的重要性以及对下游模型的益处。HMR ,�14870多镜头优化0（离线）0Transformer HMMR0训练数据 +0监督0图3. 我们工作流程的概述。我们使用我们的多镜头优化从电影中重建3D人体网格序列。得到的重建结果可以用作单视图人体网格恢复和时间人体网格运动恢复的训练数据。0在AVA和常见基准上的结果。总之，我们的贡献是：0•我们提出了从多个镜头中恢复人体网格的问题，并提出了一种适用于多镜头序列的优化方法。这产生了高质量的3D伪地面真值，对于监督人体网格恢复的直接回归模型特别有效。0•我们证明了得到的回归模型可以成功应用于电影，并且我们验证了多镜头推理在获得更准确和更长的伪地面真值用0•为了进一步推动回归模型在电影数据上的适用性，我们提出了一种纯Transformer-based的时间模型，更适合在多镜头序列上进行推理。02. 背景0本节提供了先前工作的参考，并作为我们方法的背景。相关文献非常丰富，因此我们在这里考虑最相关的方法。02.1. 人体建模0最近的3D人体重建工作受到强大的人体模型的影响。SMPL模型[ 35 ]是最流行的选择之一，它使得重建[ 22 ]、预测[70 ]以及模仿[ 46]等工作成为可能。从高层次来看，可以将SMPL视为一个函数M(θ, β)，它以姿势参数θ和形状参数β（集合Θ={θ,β}）作为输入，并返回3D人体网格M和关节X。其他人体模型也遵循类似的公式，只是在建模方面有所不同[ 42 , 62 ,64 ]，或者模型的表达能力不同[ 1 , 21 , 43 ]。02.2. 从单个图像中恢复3D姿势和形状0优化：从单个图像中恢复3D姿势和形状通常在优化设置中解决。0在这些方法中[6, 15, 17, 30, 43,68]，在图像上检测到一组特征（通常是2D关键点），然后恢复出与这些特征一致的身体模型配置。这需要一个重投影目标Eproj，惩罚投影模型与检测到的特征之间的偏差，以及一组先验目标Eprior，表达先验并鼓励重建有效。在测试时，这些目标的总和以迭代的方式最小化。SMPLify[6,43]方法是这种类型方法的典型示例，但也考虑了其他设置，例如多视图[10, 17]或单目视频[3, 24, 46,50]。在这项工作中，我们将优化方法调整为适用于多镜头的设置。0直接预测：由于深度学习的进展，直接回归SMPL参数最近取得了许多成功。一个典型的例子是HMR[22]，它学习了从原始RGB图像到SMPL参数的直接映射，并采用了许多后续工作[3, 13, 27, 44,52]采用的设计原则。具体而言，HMR由特征编码器fim：I→ϕ和迭代反馈回归器组成，将中间特征映射到模型参数ˆΘ和相机参数ˆΠ。使用预测的相机参数，可以将重建的网格投影到图像中，从而通过重投影损失进行监督，给定2D注释。与HMR同时进行的是其他工作对解耦回归方法进行了研究[9,38, 41, 45, 56, 59,65]，其中中间特征表示被硬编码，例如2D关键点、轮廓、语义部分或密集对应。最近的工作对HMR设计进行了改进，提出了相机估计[26]、概率建模[29, 53,54]、基于变换器的架构[33, 34]或其他改进的设计[25, 67,69]。在这项工作中，我们采用HMR架构进行单帧网格恢复，并遵循常见的惯例，即使模型权重与[22]不同，我们也广泛地称之为HMR模型。�14880限制：先前的研究[5, 20, 25,51]已经确定了相关重建方法在人体严重截断时的限制。Joo等人[20]提出了使用合成裁剪示例进行增强，Rockwell和Fouhey[51]通过对其模型进行有信心的重建进行重新训练，而Kocabas等人[25]则提出了一种更强大的架构。在我们的工作中，我们利用相邻镜头的补充信息来改善3D重建，并收集改善单帧模型鲁棒性的训练样本。先前的工作还确定了联合重建独立3D实例（例如人和人[19, 40, 57]或人和物体[63,71]）的挑战和好处。虽然我们没有涉及这些主题，但我们认为多镜头内容可能有助于感知这些交互作用。02.3. 从视频中恢复3D姿势和形状0对于视频方法，目标是在给定长度为T的视频序列V={It}Tt=1的情况下进行3D重建。在HMR之后，例如[8, 23, 24,36]的视频方法采用类似的工作流程，增加了一个时间编码器函数f_movie，将每帧特征ϕt映射到每帧序列特征Φt，通过3D回归器f3D预测每帧的模型和相机参数：Φt → {ˆΘt,ˆΠt}。这些方法在时间编码器f_movie的架构选择上有所不同。Kanazawa等人[23]使用卷积模型，Kocabas等人[24]，Choi等人[8]和Luo等人[36]使用循环模型，而Sun等人[58]则使用将卷积与自注意力相结合的混合模型。最近，Rajasegaran等人使用变换器架构进行时空跟踪[47]和时间姿势预测[48]。在这项工作中，我们还研究了一种纯变换器编码器，这是一种更适合处理电影中经常出现的身份缺失的架构。02.4. 使用伪地面真实值进行训练0使用优化方法生成人体网格回归模型的伪地面真实值的策略已经在不同的背景下使用过。对于单个图像，Lassner等人[30]使用SMPLify [6]并手动丢弃失败来筛选训练数据。SPIN[27]和EFT[20]基于这个想法，并使用回归器提供的估计值初始化优化，从而实现更准确的拟合，无需人工干预。M¨uller等人[39]使用与SPIN类似的过程，但专注于具有自接触的情况。Arnab等人[3]在单目视频上运行时间优化，可以改善单帧结果。Fang等人[12]使用镜像反射作为解决深度模糊的附加视图。Leroy等人[31]专注于Mannequin Challenge[32]的视频，该视频提供了静态场景中的多个注册视点。与上述方法不同，本文研究了视频0从编辑的媒体（如电影）中获取的数据，许多先前的方法通常失败，我们利用多镜头连续性的洞察力来提高3D伪地面真实值的质量和相应序列的长度。03. 多镜头优化0这里我们介绍基于多镜头优化的工作流程的第一步。首先，我们描述必要的预处理步骤和我们用于生成伪地面真实值的多镜头优化例程。然后，我们提供关于在AVA数据集上应用我们的多镜头优化的更多细节。0预处理为了在一般视频上应用我们的多镜头优化，我们需要一个场景中的个体序列。首先，我们使用像OpenPose[7]或AlphaPose[11]这样的现成2D姿势跟踪器检测2D身体关节。虽然这些方法获得了相当可靠的2D关节轨迹，但它们在镜头边界上失败。为了延长轨迹持续时间，我们运行一个镜头检测算法[49，55]，并使用在电影数据上训练的人物再识别网络[16]来链接跨镜头的身份。结果是更长的2D关节轨迹，延伸到镜头边界之外，这些轨迹被用作多镜头优化的输入。03.1. 多镜头优化0依靠输入镜头描绘的单一底层4D场景的洞察力，我们调整优化方法以适应多镜头环境，并在镜头变化中恢复一致的3D人体网格。为了更具体地说明，让我们考虑我们在镜头边界之前和之后分别访问两个连续帧t和t+1的情况。与SMPLify[6]一样，我们可以为每个帧设置数据项E t proj和先验项E tprior。为了融入新的多镜头洞察力，我们引入了一个鼓励这些帧中身体姿势一致的项。请注意，先前的研究[3，24，46]已经使用了时间平滑项，但我们不能像以前那样简单地应用这些损失，因为这些方法在相机坐标系中定义了平滑正则化。这是因为由于镜头变化，相机帧中存在较大的镜头变化。因此，为了融入多镜头洞察力，我们必须在规范坐标系中应用平滑正则化。具体而言，我们明确地将姿势参数θ分解为全局方向R gl 和身体姿势参数θ b。通过撤销全局方向，我们可以计算规范空间中的身体关节X can = R T glX。这种公式允许分解相机运动，这可能是突然的，并施加平滑性Etsm joint = ||Xtcan − Xt+1can ||22(1)Etsm param = ||θtb − θt+1b||22.(2)14890仅在规范坐标系中的项：0目标函数的总和在整个长度为T的序列上进行优化：0E=0t=1(Etproj+Etprior)+0t=1(Etsm joint+Et smparam)，(3)0返回每帧t的模型参数Θt。为了更快地收敛到更准确的解，我们使用回归网络[27]提供的姿势和形状估计初始化重建过程。03.2. 在AVA中重建人物0尽管上述工作流适用于许多来自电视剧或电影的视频，但在本文中，我们主要关注AVA数据集[14]。AVA包含300部电影，其中包含人体边界框和原子动作的注释。边界框注释以1fps的速度提供，并以短轨迹的形式组织。我们也以1fps处理数据，并应用我们的预处理步骤来扩展镜头变化的轨迹持续时间（即链接相同身份的短轨迹）。每个轨迹使用我们的多镜头优化（第3.1节）进行3D重建。重建序列的两个重要特征是多样且具有挑战性的视觉条件（例如截断）以及包含的序列的长度和数量。通过在镜头之间重新识别轨迹，我们可以将较小的、潜在过度分段的子序列连接成更长的多镜头序列，用于训练时间模型。我们的重建序列被视为伪地面真值。与依赖伪GT数据源的相关方法[3, 23,27]一样，2D关键点检测、轨迹重新识别或3D重建可能存在错误。无论如何，伪地面真值的质量都可以从其对下游任务的影响中得到证明，即用于人体网格恢复的深度学习模型的训练。03.3. 在AVA上评估3D准确性0最后，我们的新颖观点是，姿势在镜头边界上平滑变化，为我们提供了在没有地面真实3D数据的情况下通过新颖视角评估概念来评估电影序列中恢复的人体网格的3D姿势准确性的机会。具体而言，对于从帧t到t+1的镜头变化，我们将帧t的网格投影到帧t+1，反之亦然。详见图4和SupMat。这使我们能够使用2D重投影度量（例如PCK[66]）评估预测的姿势。我们将此度量称为跨镜头PCK，并用它来评估AVA中3D姿势的质量，其中没有3D地面真值。0为了在AVA上进行更具体的评估，我们手动策划了AVA的测试集。这个策划包括对轨迹重新识别、镜头变化帧和2D关键点位置进行人工验证，丢弃这些步骤失败的示例。在AVA上报告的所有结果都是针对这个干净的子集，我们可以可靠地计算跨镜头PCK。0输入图像形状预测0形状在镜头之间的投影0镜头0基于评估0关键点重投影0图4.使用跨镜头PCK进行新颖视角评估。给定镜头变化前帧t的形状预测，我们将其投影到镜头变化后的帧t+1，反之亦然。我们通过在这个新颖视角上计算2D重投影度量来评估估计姿势的3D质量。04. 直接人体网格恢复0我们通过离线多镜头优化步骤恢复的3D运动序列为人体网格提供了丰富的伪地面真值数据。在这里，我们演示了如何在单张图像或视频的人体网格恢复的直接预测模型的训练中，不依赖于关键点检测。04.1. 单帧模型0第一步是训练一个更新的单帧模型。一般来说，设置与原始HMR[22]类似。让我们的图像编码器对帧I预测模型参数ˆΘ和相机参数ˆΠ。模型关节被投影到2D位置ˆx。我们对网络的监督来自于相应帧的多镜头优化的输出，Θgt和检测到的2D关节xgt。0L2D = ||ˆx - xgt||1 (4)0Lsmpl = ||ˆΘ - Θgt||2 2. (5)0我们的实验表明，使用我们的多镜头3D伪地面真实数据集训练AVA数据集可以提高单帧模型对多样性和具有挑战性的视觉条件（例如截断）的鲁棒性。04.2. 时间模型0使用更新的稳健单帧模型，我们继续学习时间编码函数ΦtϕtPositionalEncodingΦtf3DHMRHMRHMRϕtHMRHMR14900基于ID的注意力t-HMMR0Δϕt0变压器0编码器0图5.t-HMMR的架构：为了最有效地利用从我们的数据中恢复的大量3D姿势序列，我们提出了t-HMMR，这是一种基于变压器架构的人体网格和运动恢复模型。即使感兴趣的身份在某些帧中不存在，我们也从大的时间上下文中受益，通过将注意力设置为无效帧为零，同时从相关的输入图像中聚合信息。0电影。在过去，这个功能一直由卷积[23]，循环[24]或混合编码器[58]来表示。然而，所有的方法都假设有一个经过策划的干净视频集合，其中包含连续的人物跟踪[18, 37,72]。相比之下，在更一般的使用情况下，包括编辑的媒体，视频数据可能更具挑战性，存在着镜头切换或B-rolls的问题，这些问题在镜头之间交错着背景帧。这些情况不容易被卷积或循环编码器处理，这需要用零填充输入或将所有有效帧连接在一起，这忽略了连接帧之间的时间戳差异。为了解决这些限制，我们提出了t-HMMR，这是一种基于纯变压器架构[60]的时间模型。变压器包括一个注意机制，允许我们明确选择它们将关注的输入序列的元素。这是一个方便的特性，特别是对于来自电影的不连续序列。我们的变压器编码器将帧序列的中间特征嵌入{ϕt}作为输入。该序列带有每帧的标量值{vt}，表示该帧中是否存在人物（vt =1）或不存在（vt =0）。固定的位置编码pt被添加到输入特征中，以指示每个输入元素的时间实例t。然后，更新后的特征通过一个变压器编码器层进行处理。这遵循原始变压器模型的架构，包括自注意机制和浅层前馈网络。值vt用于确保无效的输入帧不会在自注意计算中起作用。该层的输出是通过残差连接添加到特征ϕt的残差值Δϕt。最终输出是视频特征表示Φt。这在图5中有所说明。为了训练变压器编码器，遵循先前的工作[23,24]，我们固定图像编码器fim的权重，只更新时间编码器fmovie和参数回归器f3D。与单帧模型类似，监督来自于相应帧的多镜头优化结果，其中对于每个帧t分别有与方程4和5的相应损失，L t 2D和L tsmpl。此外，为了进一步鼓励时间一致性，还对3D关节L tsm joint和3D模型参数L t smjoint应用平滑损失（相当于方程1和2）。0工作[23,24]中，我们固定图像编码器fim的权重，只更新时间编码器fmovie和参数回归器f3D。类似于单帧模型，监督由多镜头优化结果提供，其中对于每个帧t分别有与方程4和5的相应损失，Lt2D和Ltsmpl。此外，为了进一步鼓励时间一致性，还对3D关节Ltsmjoint和3D模型参数Ltsmjoint应用平滑损失（相当于方程1和2）。05. 实验0我们的定量评估侧重于我们的多镜头连续性洞察力在多个方面的影响。首先，我们评估多镜头优化的功效；然后，通过在训练单帧人体网格恢复模型时将离线多镜头重建提供的伪地面真实性用作监督来验证其质量；最后，我们还解决了时间姿势回归，并强调在训练时使用多镜头序列的重要性，以及在处理电影数据时使用基于Transformer的架构。05.1. 实验设置0对于单帧回归，我们使用HMR架构[22]并采用文献中的最佳实践来建立一个强大的基线：我们使用来自SPIN[27]的标准数据集的伪地面真实SMPL参数进行训练，并使用最近提出的裁剪增强方案[21,51]。我们将此基线称为HMR +。0并将其用于我们的多镜头优化的初始化和消融实验。在离线多镜头优化之后，我们的最终单帧模型使用相同的策略进行训练，但增加了来自我们的多镜头优化的AVA数据集和伪地面真实性。我们还与现成的基线[22, 25, 27-29,51]进行比较。对于时间模型，我们冻结单帧模型的编码器，如[23,24]中所做的那样，以提高计算效率，并训练时间编码器和3D回归器。05.2. 多镜头优化0提出的多镜头优化将镜头边界的信息整合到3D姿势重建中以提高性能。为了评估其成功，我们首先在Human3.6M[18]上进行了一个概念验证实验，该实验提供了3D地面真实姿势。通过在输入序列中交替使用摄像机视图，可以模拟镜头变化。我们在AVA上报告了结果，其中我们使用了提出的跨镜头PCK度量（第3.2节）。通过这个评估，我们研究了在实际感兴趣的领域（电影）上的性能，同时还提供了额外的定量验证与准确性有关。14910优化 H3.6M（PA-MPJPE）↓ AVA（跨镜头PCK）↑0单帧 68.5 38.0 单镜头 62.7 42.3 多镜头 59.2 55.20表1.在Human3.6M和AVA上进行的多镜头优化评估。我们显示了PA-MPJPE（Human3.6M）和α=0.1（AVA）的跨镜头PCK。我们的多镜头优化优于应用于单帧或单镜头的优化基线（不跨镜头的时间推理）0我们在Human3.6M上进行了一个概念验证实验，该实验评估了我们的多镜头优化的成功，其中提供了3D地面真实姿势。鉴于多个视点的可用性，可以通过在输入序列中交替使用摄像机视图来模拟镜头变化。我们在表1中与两个基于优化的基线进行了比较，一个基线在单帧上操作[6]，另一个基线在没有镜头变化的情况下操作[3, 24,46]。在这两种情况下，多镜头优化优于这两个基线，这表明它可以成功地整合多个镜头的信息。这种行为的定性示例在图6和SupMat中呈现。05.3. 单帧直接预测0如上所述，我们通过多镜头优化生成的3D姿势序列用于监督我们的直接回归模型。由于伪地面真实性的质量影响回归模型，我们可以通过研究它对下游模型的影响来隐式评估我们的多镜头推理的重要性。为了实现这一点，我们在AVA、Partial-Humans [51]和3DPW[61]上展示了结果。我们提供了我们方法的消融研究和与最相关的最先进模型[22, 27, 28,51]的比较。为了参考，我们还报告了最近方法[25,29]的结果，尽管它们可能与我们不直接可比（例如，[25]具有更强的骨干和专门的架构）。结果报告在表2中，得出了一些有见地的结论。首先，在电影图像上，许多最先进的模型表现不佳，而我们的流程使我们能够改善与先前方法相比在电影数据上的性能。其次，我们表明多镜头优化是获得最佳性能的关键组成部分，仅在AVA上进行简单的训练并不能带来太多改进。具体而言，我们进行了消融研究，使用各种AVA监督训练基础HMR+模型：2D关键点和来自单帧优化的伪地面真实性。我们发现使用多镜头推理的监督获得了最佳结果。第三，我们从多镜头优化的监督中获得的改进不仅仅适用于电影数据。相反，我们还在其他具有挑战性的基准测试中看到了改进；Partial-Humans [51]和3DPW[61]。最后，我们在图7中与最相关的基线进行了定性比较，并在SupMat中讨论了失败案例。0输入帧单帧重建0多镜头0重建0图6.我们的多镜头优化的定性效果。虽然单帧基线在具有严重截断的更具挑战性的帧上失败（中间），但我们的多镜头优化利用了镜头边界上不太模糊的帧的信息，得到了更准确的3D重建（右侧）。0方法 AVA ↑ PartialHumans ↑ 3DPW ↓0HMR [22] 28.0 88.6 81.3 GraphCMR [28] 23.9 75.7 70.2 SPIN [27]24.0 82.4 59.2 Partial Humans � [51] - 83.3 -0ProHMR [29] 41.7 94.1 59.8 PARE [25] 40.8 94.4 50.90HMR + 37.6 93.1 59.2 + AVA（2D关键点）32.0 93.9 58.5 +AVA（单帧优化）41.1 93.9 59.3 + AVA（多镜头优化）43.1 95.4 57.80表2.在训练单帧网格恢复模型时使用多镜头优化的伪地面真实性的重要性。我们以 α =0.1（AVA）的交叉镜头PCK，PCKh（PartialHumans）和PA-MPJPE（3DPW）进行比较。我们将我们的模型与使用其他形式的伪地面真实性进行训练的模型进行比较（第三个块），以及不同的最新技术模型（我们与第一个块中的模型设计类似；第二个块中的方法与此不同）。多镜头优化的伪地面真实性的可用性在各个方面都带来了改进。05.4. 时间模型0所提出的多镜头优化不仅提供了更好的3D伪地面真实性，还有利于挖掘长序列进行时间回归模型的训练，因为它可以在镜头变化之间链接序列。在这里，我们验证了这一点，并在电影数据上评估了所提出的变压器时间模型t-HMMR的适用性。我们在AVA上进行的分析总结在表3中。再次指出三个有趣的事实。首先，我们确认当前最先进的时间模型HMMR [23]，VIBE [24]和TCMR[8]在电影序列上的准确性非常低。其次，在多镜头电影序列的情况下，所提出的变压器模型优于其他选择的编码器架构，即卷积[23]和循环[24]。如前所述，变压器可以更好地处理缺失的身份（例如由于B卷），这也转化为性能改进。最后，我们评估了将个别镜头的序列合并为单个序列所带来的性能提升。为此，我们使用完全相同的来自多镜头的伪地面真实性，但将序列分割为个别镜头（使用单镜头AVA）并与训练在合并序列上的完整模型（使用多镜头AVA）进行比较。请注意，唯一的区别是用于训练的序列长度。最终，我们确定当将个别镜头合并为多镜头序列时，模型的性能有所提升，这验证了我们在挖掘超出单个镜头的更长序列方面的多镜头见解的重要性。在图8中，我们提供了我们的t-HMMR模型的示例重建，与单帧模型进行了比较，两者都在AVA上进行了训练。虽然单帧模型获得了合理的结果，但由于更大的时间上下文，t-HMMR的输出更加一致。14920输入图像HMR GraphCMR SPIN 我们的0输入图像HMR GraphCMR SPIN 我们的0图7. 在存在截断的情况下的定性评估。与AVA[14]（前三行）和PartialHumans数据集[51]（后两行）上最相关的最新技术进行比较。我们的模型在存在截断的图像中更加稳健。0我们确认当前最先进的时间模型HMMR [23]，VIBE[24]和TCMR[8]在电影序列上的准确性非常低。其次，在多镜头电影序列的情况下，所提出的变压器模型优于其他选择的编码器架构，即卷积[23]和循环[24]。如前所述，变压器可以更好地处理缺失的身份（例如由于B卷），这也转化为性能改进。最后，我们评估了将个别镜头的序列合并为单个序列所带来的性能提升。为此，我们使用完全相同的来自多镜头的伪地面真实性，但将序列分割为个别镜头（使用单镜头AVA）并与训练在合并序列上的完整模型（使用多镜头AVA）进行比较。请注意，唯一的区别是用于训练的序列长度。最终，我们确定当将个别镜头合并为多镜头序列时，模型的性能有所提升，这验证了我们在挖掘超出单个镜头的更长序列方面的多镜头见解的重要性。在图8中，我们提供了我们的t-HMMR模型的示例重建，与单帧模型进行了比较，两者都在AVA上进行了训练。虽然单帧模型获得了合理的结果，但由于更大的时间上下文，t-HMMR的输出更加一致。0模型同框PCK跨镜头PCK0HMMR（Conv）[23] 46.1 28.5 VIBE（RNN）[24] 40.1 25.0TCMR（RNN）[8] 30.0 21.40Conv（带多镜头AVA）79.6 53.6 RNN（带多镜头AVA）78.3 52.6t-HMMR（带单镜头AVA）80.9 51.7t-HMMR（带多镜头AVA）82.1 54.60表3.在AVA上的多帧评估。这些数字是同帧和跨镜头的PCK值。前三行对应于未使用AVA数据训练的最先进模型。使用a）变压器架构和b）我们的多镜头洞察力来连接跨越多个镜头的序列对于提高电影序列的性能非常重要。0帧1 帧20形状0对帧1的预测0在帧2上的形状投影0帧1 帧20单帧0模型0时间0模型0形状0对帧1的预测0在帧2上的形状投影0图8.时间模型的效果。虽然帧1的单帧预测可能与帧2不一致，但我们的时间模型在时间窗口内整合信息，并估计出与帧2一致的帧1的身体姿势。结论。0我们引入了一种从多个镜头重建3D人体的新任务。我们提出了一种优化方法，从而有助于改进从单帧和视频中进行直接回归的方法。多镜头推理的局限性在于它目前依赖于Re-ID来识别哪些镜头对应于相同的场景，这可能会产生噪声。尽管我们的实验表明，即使存在这种噪声，这些方法也会受益于多镜头推理，但使用最新的跟踪系统[47,48]来执行此重新识别将是有趣的。我们相信我们的工作为分析电影数据打开了一扇新的大门。特别是，我们的多镜头推理提供了不同镜头之间的相对外部相机估计。将来使用这些信息不仅可以重建人体，还可以重建环境的其他部分将是令人兴奋的。电影数据还展示了涉及更高级推理的“常识”人类行为。在未来的工作中，分析这一点将是有趣的。致谢：本研究得到了BAIR赞助商的支持。14930参考文献0[1] Dragomir Anguelov, Praveen Srinivasan, Daphne Koller, SebastianThrun, Jim Rodgers, and James Davis. 一篇名为“SCAPE: shapecompletion and animation of people”的论文，发表于2005年的ACMTransactions on Graphics (TOG)期刊，第24卷第3期，页码为408-416。0[2] Daniel Arijon. 一本名为《Grammar of the filmlanguage》的书，出版于1976年，由Hastings House出版。0[3] Anurag Arnab, Carl Doersch, and Andrew Zisserman.2019年CVPR会议上的一篇论文，标题为“利用时间上下文进行野外3D人体姿势估计”。0[4] Roger G Barker和Herbert F Wright. 一本名为《Midwestand its children: The psychological ecology of an americantown》的书，出版于1955年。0[5] Benjamin Biggs, David Novotny, Sebastien Ehrhardt, Hanbyul Joo,Ben Graham, and Andrea Vedaldi.2020年NeurIPS会议上的一篇论文，标题为“3D Multi-bodies: Fittingsets of plausible 3D human models to ambiguous image data”。0[6] Federica Bogo, Angjoo Kanazawa, Christoph Lassner,Peter Gehler, Javier Romero, and Michael J Black.2016年ECCV会议上的一篇论文，标题为“保持SMPL：从单张图像自动估计3D人体姿势和形状”。0[7] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and YaserSheikh. 2019年PAMI期刊上的一篇论文，标题为“OpenPose: realtimemulti-person 2D pose estimation using part affinity fields”。0[8] Hongsuk Choi, Gyeongsik Moon, Ju Yong Chang, and Ky-oung Mu Lee.2021年CVPR会议上的一篇论文，标题为“超越静态特征的视频中一致的3D人体姿势和形状”。0[9] Hongsuk Choi, Gyeongsik Moon, and Kyoung Mu Lee.Pose2Mesh:通过2D人体姿势恢复进行3D人体姿势和网格恢复的图卷积网络.在ECCV, 2020. 30[10] Junting Dong, Qing Shuai, Yuanqing Zhang, Xian Liu, Xi-aowei Zhou, and Hujun Bao. 从互联网视频中捕捉动作. 在ECCV,2020. 30[11] Hao-Shu Fang, Shuqin Xie, Yu-Wing Tai, and Cewu Lu.RMPE: 区域多人姿势估计. 在ICCV, 2017. 40[12] Qi Fang, Qing Shuai, Junting Dong, Hujun Bao, andXiaowei Zhou. 通过观察镜中人重建3D人体姿势. 在CVPR, 2021. 40[13] Georgios Georgakis, Ren Li, Srikrishna Karanam, TerrenceChen, Jana Kosecka, and Ziyan Wu. 分层运动学人体网格恢复.在ECCV, 2020. 30[14] Chunhui Gu, Chen Sun, David A Ross, Carl Von- drick,Caroline Pantofaru, Yeqing Li, Sudheendra Vijaya-narasimhan, George Toderici, Susanna Ricco, Rahul Suk-thankar, Cordelia Schmid, and Jitendra Malik. AVA:一个用于时空定位原子视觉动作的视频数据集. 在CVPR, 2018. 2, 5,80[15] Peng Guan, Alexander Weiss, Alexandru O Balan, andMichael J Black. 通过单张图像估计人体形状和姿势. 在ICCV,2009. 30[16] Qingqiu Huang, Wentao Liu, and Dahua Lin.通过视觉和时间链接在视频中搜索人物. 在ECCV, 2018. 40[17] Yinghao Huang, Federica Bogo, Christoph Lassner,Angjoo Kanazawa, Peter V Gehler, Javier Romero, Ijaz Akhter,and Michael J Black. 实现准确的无标记人体形状和姿势估计.在3DV, 2017. 30[18] Catalin Ionescu, Dragos Papava, Vlad Olaru, and CristianSminchisescu. Human3.6m:用于自然环境中3D人体感知的大规模数据集和预测方法. PAMI,36(7):1325–1339, 2013. 60[19] Wen Jiang, N

下载后可阅读完整内容，剩余1页未读，立即下载