关闭3D和2D人类代表之间的循环：高质量的多人体三维模型和标志性位置的预测

35 浏览量更新于2023-10-16 收藏 913KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6050团结人民：关闭3D和2D人类代表之间的循环Christoph Lassner1，2classner@tue.mpg.deFederica Bogo4，*febogo@microsoft.comJavier Romero3，*javier. bodylabs.comMichael J. 黑2black@tue.mpg.de马丁·基费尔2mkiefel@tue.mpg.de彼得五世Gehler5，*pgehler@tue.mpg.de1Bernstein Center for Computational Neuroscience，Tubingen，German y2MPI for Intelligent Systems，德国图宾根3Body Labs Inc.，美国纽约4Microsoft，Cambridge，UK图5维尔茨堡大学，德国摘要3D模型为人体的不同表示提供了共同基础反过来，强大的2D估计已被证明是一个强大的工具，以获得3D适合“在野外”。然而，根据细节的水平，很难甚至不可能获得用于大规模训练2D估计器的标记数据。我们提出了一个混合的方法来解决这个问题：通过对SMPLify方法的扩展，我们得到了适合多个人体姿态数据集的高质量三维人体模型。人类注释者只对好的和坏的匹配进行分类。该过程导致具有丰富注释的初始数据集UP-3D。通过一组全面的实验，我们展示了如何使用这些数据来训练判别模型，这些模型可以产生前所未有的细节水平的结果：我们的模型预测了身体上的31个片段和91个标志性位置。使用91个地标姿态估计器，我们提出了最先进的3D人体姿态和形状估计的结果，使用一个数量级的训练数据少，没有假设的性别或姿态的拟合过程。我们表明，UP-3D可以增强这些改进的适合增长的数量和质量，这使得系统可大规模部署。数据、代码和模型可用于研究目的。1. 介绍教计算机识别和理解图像和视频中的人是计算机视觉的一项基本任务。不同的应用需要在表示的保真度和推理复杂度之间进行不同的权衡.这导致了广泛的人体参数化和相应的预测方法，从边界框到详细的3D模型。* 这项工作是在J. Romero和F. Bogo与MPI-IS2; P. V. Gehler与BCCN1和MPI-IS2。标签生成31部分91地标 3D贴合Direct 3D3D拟合改善Leeds Sports Pose / extended MPII HPDB FashionPose联合人民数据集图1：下面一行：验证的3D身体模型适合于形成我们的初始数据集UP-3D的各种数据集，并为多个任务提供顶行：我们进行了语义身体部分分割，姿势估计和3D拟合的实验。改进的3D拟合可以扩展初始数据集。基于学习的算法，特别是卷积神经网络（CNN），是应对人类外观复杂性的主要方法。它们的代表性能力导致边界框检测[10]、关键点检测[19，32，42]和身体部位分割[7，15，43]的算法越来越强大。然而，它们通常被孤立地应用于单独的数据集，并且独立于精确的3D身体估计的目标。在本文中，我们的目标是克服这种分离，并为不同的数据集和多个任务“团结起来”。通过这种策略，我们解决了复杂身体表征的基于学习的方法的主要问题：缺乏数据。虽然注释图像中的少量关键点是可行的（例如，在MPII- HumanPose数据集[1]的情况下，缩放到更大的数字很快变得不切实际，并且容易出现注释不一致。语义分割标注也是如此：大多数数据集仅为几个身体部位提供标签。6051在本文中，我们的目标是开发一种自我改进的、可缩放的方法，该方法获得适合2D图像的高质量3D身体模型（见图1）。1为例）。为了形成3D身体拟合的初始数据集，我们使用最近开发的SMPLify方法[4]的改进版本，该方法将2D关键点提升为姿势和形状的全身模型。更强大的初始化和额外的拟合目标使我们能够将其应用于标准人类姿势数据集的地面实况关键点;人类注释器仅对好的和坏的拟合进行排序。这种半自动方案有几个优点。所需的注释时间大大减少（Sec. 3.3）。通过投影表面（第4.1）或关键点（第4.2）从对原始图像的拟合中，我们获得了一致的标签，同时保持了泛化性能。丰富的表示和灵活的拟合过程使其易于集成具有不同标签集的数据集，例如，关键点位置的我们的91个关键点模型的预测改进了3D模型拟合方法，该方法首先生成用于训练关键点模型的注释。我们报告了HumanEva和Human3.6M数据集的最新结果（第二节）。4.3）。此外，使用3D身体拟合，我们开发了一种用于3D姿态估计的随机森林方法，其运行速度比SMPLify快几个数量级（第二节）。4.4）。当与使用14个关键点地面实况位置的拟合相比时，来自91个地标模型的改进的预测将LSP数据集上的高质量3D拟合的比率增加了9.3%（第二节）。（五）。这种自我改进的能力以及将新数据轻松集成到池中的可能性研究所需的数据、代码和模型可在项目主页上查阅，网址为http：//up.is.tuebingen.mpg.de/网站。2. 相关工作获取3D中的人类姿势注释是一个长期存在的问题，计算机视觉以及3D人类姿势社区进行了多次尝试。人类的经典2D表示是2D关键点[1，6，23，38，39]。虽然2D关键点预测在过去几年中取得了相当大的进展，并且可以被认为接近解决[19，32，42]，但从单个图像进行3D姿态估计仍然是一个挑战[4，36，44]。Bourdev和Malik [5]增强了H3D数据集，为1，240人提供20个2D关键点注释，包含相关3D信息以及11个注释的身体部位片段。相比之下，HumanEva [41]和Human3.6M [21]数据集提供了非常准确的3D标签：它们都是在动作捕捉环境中记录的。这两个数据集都具有高保真度，但只包含非常有限的背景和个人外观的多样性。我们评估了3D人体姿态估计性能。最近的方法针对来自自然场景的3D姿势地面实况，但要么依赖于容易失败的视觉系统[11]，要么依赖于修改身体外观并容易发生运动漂移的惯性套装[44]。超越3D骨架的身体表示在计算机视觉领域有着悠久的历史[17，30，31，35]。最近，这些表示在将身体模型的详细表面拟合到图像的方法中获得了新的流行[4，14，16，25，44]。这些表征与人类身体的物理现实和图像形成过程更紧密地联系在一起。与身体范围表示相关的经典问题之一是身体部位分割。Chen等人已将细粒度部分分割添加到VOC数据集的公共部分[12]。[8]的一项建议。24个人体部位的注释以及所有VOC对象类的部分段（如适用）都可用。尽管很难比较，但我们提供了数据集上的结果。Freiburg Sitting People 数据集 [33] 由 200 个图像组成Shotton等人的想法。[40] 2.5D数据启发了我们的身体部位表示。相对简单的方法已被证明在具有“简单”背景（如Human80k，Human3.6M的子集[ 20 ]）的分割任务继之前对纸板人[24]和轮廓人[13]的工作之后，JHMDB数据集和相关的标签工具[22]试图实现中间级别的人表示。它依赖于统一人体表示的尝试主要是在人体运动学的背景下进行的[2，29]。在他们的工作中，三维运动捕获标记集的丰富表示用于将捕获转移到不同的目标。Loper等人已经探索了标记的设置，以不仅捕获人的运动，而且捕获形状。[28]第28话游戏中的角色虽然他们优化了12个摄像机设置的标记位置，但我们必须确保标记从单个视图中消除姿势和形状的歧义。因此，我们使用一组更密集的标记。3. 构建初始数据集我们使用通用3D表示的动机是（1）将来自各种数据集的许多可能的表示映射到它，以及（2）从中生成用于监督模型训练的详细且一致的标签。我们认为，使用一个完整的人体模型与先验的形状和姿势是必要的：没有可视化的可能性和正则化，它可能是不可能创建足够准确的注释小的身体部位。然而，到目前为止，没有数据集可用于提供人体模型拟合各种各样的图像。6052为了填补这一空白，我们构建了一组带有注释关键点的人类姿势SMPLify [4]提出了自动将这些转换为3D身体模型拟合的预期结果。这有助于我们将人类的参与降到最低。随着日益复杂的任务的工作时间和标签噪声水平的大幅增加3.1. 改进的身体形状估计在[4]中，作者通过最小化由数据项和几个表示姿势和形状先验的惩罚项组成的目标函数，将SMPL [26然而，两个关键点之间的连接长度是可用于估计身体形状的唯一指标。我们的目标是尽可能准确地将人体模型的形状与图像匹配，因此我们必须在拟合中加入形状目标。投影在2D图像上的3D身体的范围的最佳证据由其轮廓编码。我们将轮廓定义为属于身体的所有像素的集合数据集前景6身体部位记录的AMT小时数LSP [23]1000火车，1000个测试1000火车，1000个测试361小时前台，131h零件[23]第二十三话万列0MPII-HPDB [1]13030次列车，2622试验0729小时表1：记录的AMT标记时间。在LSP和MPII数据集上分别在108秒和168秒内完成了平均前期标记任务。注释六个身体部位的分割平均花费的时间是注释前景分割的两倍多：236秒。图2：六部分分割基础事实的示例。白色区域标记与前景分割的不一致，并被忽略。节中四是评价。我们在Opensurfaces包[3]的基础上构建了一个交互式注释工具投影因此，我们在原始SMPLify目的是优选解决方案，S和模特的轮廓S吻合。令M（θ→，β→，→γ）是由具有姿势θ→、形状β→和全局平移γ的SMPL身体模型生成的3D网格。设S（·，K）是一个函数，它采用3D网格并将其投影到给定相机参数K的图像平面中，使得S（θ→，β→，→γ）=S（M（θ→，β→，→γ））表示图像中模型的轮廓像素我们计算S和S之间的双向距离ΣES（θ→，β→，→γ;S，K） =dist（→x，S）2→x∈S<$（θ→，β→，→γ）Σ+dist（→x，S<$（θ→，β→，→γ）），（1）→x∈S其中dist（→x，S）表示到点的绝对距离→x到属于轮廓S的最近点。第一项在Eq。（1）计算从投影模型的点到给定轮廓的距离，而第二项计算从轮廓中的点到模型的距离。我们发现第二项噪声更大，并使用普通的L1距离来衡量其对能量函数的贡献，而我们使用平方L2距离来衡量第一项的贡献。我们使用OpenDR [27]优化了包括此附加项的总体目标，就像[4]中一样。虽然可以使用自动分割方法来提供前景轮廓，但为了可靠性，我们决定使用人工注释。我们还要求六个身体部位分割，我们将使用Amazon Mechanical Turk（AMT）为了获得图像一致的轮廓边界，我们使用交互式抓取切割算法[37]。工作人员花了超过1,200个小时为LSP [23]数据集以及MPII-HumanPose [1]数据集的单人部分创建标签（见表1）。①的人。有一个增加的平均注释时间超过两个因素比较注释的前地面标签和六个身体部位标签。这提供了关于31个身体部位表示的注释可能需要多长时间的提示。六个部分分割标签的示例在图1中提供。二、3.2. 处理噪声地面实况关键点SMPLify方法特别容易丢失四个躯干关节的注释：它使用它们的位置进行初始深度猜测，如果这个猜测质量很差，收敛性就会恶化。由于透视投影的透视缩短效应，找到一个好的深度初始化特别困难。然而，由于我们知道只有缩短而没有延长效应，我们可以找到更可靠的人的大小估计θ的骨架模型与k连接，选择：θi=xi·arg maxfi（y），i= arg maxxj，（2）yj =1，...，K其中fi是个体大小与连接长度xi之比的分布。由于这是一个偏态分布，我们使用校正后的平均值来找到argmax函数的解，并获得一个人的大小估计。这是一个简单但稳健的估计器。6053LSP [23]LSP扩展[23]MPII-HP [1]时尚Pose [9]百分之四十五百分之十二百分之二十五百分之二十三表2：每个数据集的可接受拟合的平均值。FashionPose数据集的添加将在第二节中讨论。四点二。3.3. 探索数据利用前面部分中描述的前景分割数据和补充，我们将SMPL模型拟合到LSP、LSP扩展和MPII-HumanPose数据集的总共 27 ， 652个图像。我们只使用 MPII-HumanPose中标记有“单人”标志的人，以避免实例分割问题。我们尊重数据集的训练/测试分割，并将其测试集的图像保留在我们新的联合测试集中。在下一步中，人类注释者1选择身体部位的旋转和位置与图像证据基本匹配的拟合。为了完成这项任务，我们提供了原始图像，以及身体的四个透视图。注释器可以覆盖渲染和图像。这些可视化有助于快速识别拟合错误，并将每张图像的标记时间缩短至12秒。该过程发现了许多错误标记的关键点，其中3D拟合中的错误很明显，但在2D表示中并不明显。我们排除了头部和脚部旋转作为分类过程的标准。在原始的14个关键点中通常没有足够的信息来正确地估计它们。可接受配合的结果比率可在表1中找到。二、即使使用所提出的更鲁棒的初始化项，LSP扩展数据集上的可接受拟合的比率仍然是最低的。它在四个数据集中缺失的关键点数量最多，同时也是最极端的视点和姿势。另一方面，LSP数据集上相当高的可用拟合率可以用干净和完整的注释来经过验证的拟合形成了我们的初始数据集，其中包含5，569张训练图像（我们在实验中使用了1，112张图像的验证集）和1，208张测试图像。我们将此数据集表示为UPI-3D（3D中的未编辑的People，其中为“初始”添加了为了能够清楚地引用以下部分中的不同标签类型，当引用来自人类标注器的标签时，我们在数据集名称中添加人类标签的一致性这组策划的3D拟合允许我们通过将人类提供的标签投影到UPI-3D身体来评估它们的分布。我们对关键点和身体部分片段都这样做了可视化可以在图中找到。3 .第三章。1在这项任务中，我们并不依赖于AMT工作人员，而是依靠少数专家密切合作来保持一致性。虽然图中的关键点位置。3a在身体的完全非匹配区域中的位置变化可以通过自遮挡来解释，关节周围的关键点位置存在高变化。必须考虑的是，关键点被投影到身体表面，并且根据人的形状和身体部位取向，可以预期一些变化。然而，即使对于具有非常好的3D拟合的这组缩减的图像，髋关节周围，表示标记噪声。图2中的可视化。图3b示出了针对具有头部、躯干、左臂和右臂以及左腿和右腿分段的六个部分分割的部分类型的密度。虽然四肢的头部和下部类似于不同的颜色，但会聚为棕色的区域表示零件注释的混合。躯干上的棕色色调是手臂频繁咬合的明确指示。臀部周围的区域显示了从躯干到腿部颜色的平滑过渡，再次暗示了不同的注释样式。4. 标签生成和学习在一系列全面的实验中，我们分析了从UPI-3D生成的标签的质量我们专注于为成熟的任务提供标签，但强调生成的可能性并不限于它们：可以从身体模型提取的所有类型的数据都可以用作监督训练的标签。在我们的实验中，我们从2D到3D姿态和形状估计的表面（分割）预测移动到直接从2D地标位置预测3D身体姿态和形状的方法。4.1. 语义人体部位分割我们将SMPL网格分割成31个区域，然后分割成[40]中介绍的语义部分（对于可视化，请参见图2）。第3d段）。我们注意到Kinect追踪器处理2.5D数据，而我们的探测器只接收2D数据作为输入。我们故意没有使我们的任何数据收集或预测方法依赖于2.5D数据，以保持通用性。这样，我们就可以在户外图像和常规2D照片数据集上使用它分割数据集UPI-S31是通过将分割的3D网格投影到6，777张UPI-3D图像上获得的。在[7]之后，我们在像素交叉熵损失上优化了多尺度ResNet 101。我们在尺寸归一化的剪切图像上训练网络，这些图像可以在生产系统中由人检测器提供。遵循CNN训练的最佳实践，我们使用验证集来确定最佳的训练迭代次数和人物大小，大约为500像素。这种高分辨率使CNN能够可靠地预测小的身体部位。在这个具有挑战性的设置中，我们实现了 0.4432 的交集（IoU）得分和0.9331的准确度。五个数据集的定性结果如图所示4a.6054(a)（b）（c）（d）图3：高质量身体模型上的人类注释密度适合（a）关键点和（b）前视图和后视图中的六部分分割。身体的区域用（1）根据部分标签的色调和（2）根据标签的频率的饱和度着色。关键点在完全“错误”的身体部位是由于自遮挡。鼻子区域中“头部”标签的高度集中源自FashionPose数据集，其中“头部”关键点放置在鼻子上。分割数据仅源自LSP数据集上的六个部分分割标签（必须以彩色显示（c）放置91个标志（左：前，右：背面）。（d）用于生成31个部分标签的分割。整体表现令人信服：甚至可以可靠地恢复接头周围的小段。受试者的左侧和右侧被正确识别，并且头部的四个部分提供头部定向的估计。平均IoU分数主要由小部分，如手腕。VOC部分数据集是我们预测器的硬匹配：它不是提供人的实例，而是由整个场景组成，并且许多人在小尺度上是可见的。为了提供比较，我们使用来自VOC-Part数据集的实例注释，剪切样本并降低分割的复杂性以匹配广泛使用的六部分表示。由于许多显示人物的分辨率较低，只有一张脸是可见的，预测器通常只预测与我们的训练方案不匹配的图像的背景类。尽管如此，我们在没有微调的情况下在整个数据集上实现了0.3185和0.7208的IoU得分。LSP、MPII-HumanPose、FashionPose、Fashionista、VOC、HumanEva和Hu-man 3. 6 M数据集的其他示例见项目主页2上的补充材料。该模型没有在后四个中的任何一个上进行训练，但结果表明具有良好的泛化行为。我们包括一个视频来可视化连续帧的稳定性。4.2. 人体姿态估计通过3D人体拟合，我们不仅可以在人体骨架上生成一致的关键点，还可以在人体表面生成一致的关键点。对于本文其余部分中的实验，我们设计了91个界标3集来分析密集关键点集。2http://up.is.tuebingen.mpg.de/3我们使用术语我们根据两个标准分配地标：消除身体部位构型的歧义和估计身体形状。前者需要在关节周围放置标记，以获得对其配置的良好估计为了满足后者，我们在身体周围以规则的间隔放置地标，以获得独立于视点的空间范围的估计我们将我们的选择形象化在Fig.3c和图中的示例预测。4b.在预测的可视化中，我们显示了91个地标的一个子集，并仅部分连接显示的地标，以获得更好的可解释性。描述人体骨架的核心14个关键点是我们选择的一部分，用于描述基本姿势并保持与现有方法的可比性。我们使用最先进的DeeperCut CNN [19]进行姿势相关实验，但相信使用其他模型，如卷积姿势机器[42]或堆叠沙漏网络[32]会导致类似的发现。为了评估我们的数据质量的影响以及91和14个关键点的损失函数的差异，我们训练了多个CNN：（1）使用所有人类标记，但在我们的（较小的）数据集上的14个关键点（UPI-P14 h）和（2）在来自SMPL网格投影的密集91个界标（UPI-P91）上。同样，模型是在具有交叉验证参数的尺寸标准化作物上训练的我们包括原始DeeperCut CNN的性能，它已经在完整的LSP，LSP扩展和MPII-HumanPose数据集（总共超过52，000人）上进行了训练，并与我们的数据（总共5，569人）进行了比较结果总结见表。3 .第三章。尽管数据集的大小减少了近一个数量级，但与原始DeeperCutCNN相比，我们仍然保持了高性能。比较在相同数据量上训练的两个模型，我们发现在91个地标上训练的模型6055(a) 31部分语义分割（b）91关键点姿态估计(c)91个地标的3D拟合（d）直接3D姿态和形状预测图4：在UP-3D数据集生成的标签上训练的各种方法的结果。PCK@0.2UPI-P14 hUPI-P14UPI-P91[19]第十九话93.4592.16NA我们的（在UPI-P14 h上培训）89.1187.36NA我们的（在UPI-P91上训练）91.1593.2493.54表3：姿态估计结果。尽管Deep-erCut CNN已经在几乎10个以上的样本上进行了训练，但我们的模型仍然具有竞争力。第三行显示了在人类、14和91个SMPL生成的界标标签上的14个核心关键点上评估的91个界标模型的结果。它优于在人类标记的数据上训练的模型（第2行与第3行）。3、第1栏）由两个以上记分点。公平的比较只能在抵消框内进行。SMPL数据在SMPL标记数据上具有近6个得分点的显著优势（第2行对第3行）。3，第2栏）。即使在对人类标记数据进行评估时，它也保持了两个得分点的优势（第2行与第3行）。3，第1栏）。这表明合成关键点可以推广到人类标签，我们认为这是一个令人鼓舞的结果。我们提供了第三列，以显示额外77个地标的性能。当在评估中包括额外的标志时，与14个核心关键点的评估相比，分数上升，表明其整体表现高于平均水平。与14个关键点值的直接比较是无效的，因为分数是不同“难度”结果的平均值将数据集与不同的标签集集成当前最先进的姿态估计器受益于在具有类似标签集的所有人类姿态估计数据集上进行训练。FashionPose数据集[9]将很好地补充这些，但使用不同的关键点集进行注释：颈部关节丢失，并且顶部头部关键点由鼻子代替。由于这种差异，它通常不包括在姿态估计器训练中。使用我们的框架，我们可以克服这个困难：我们通过将鼻子添加到目标函数并从目标函数中移除顶部头部关键点来调整拟合目标。我们将SMPL模型拟合到FashionPose数据集，并对拟合进行了计算额外的数据将我们的训练集扩大了1，557张图像，将测试集扩大了181张图像。这形成了完整的UP-3D数据集，我们将其用于所有剩余的实验。我们在从完整的UP-3D数据集投影的地标上训练估计器。这个估计器优于普通的DeeperCut CNN，在完整的人类标记的 FashionPose 测试集上具有从0.897PCK@0.2（DeeperCut）到0.9028PCK@0.2（我们的）的小余量4.3. 3D人体姿势估计在本节中，我们分析了使用91个预测关键点而不是SMPLify 3D拟合方法的14个关键点的影响。对于拟合过程，我们仅依赖于91个预测的2D标志，而没有额外的分割或性别信息（与[4]中描述的SMPLify方法相反，其中性别信息用于在3D数据集上由于身体表面上的界标，不再需要分割信息LSP数据集在LSP数据集上，没有可用的3D身体模型拟合的基础事实。为了独立于对特定关键点集的偏差，我们依赖于所获取的六个身体部位分割来获得有意义的每一个分数（参见表1）。4）.由六部分组成的手动分割注释包括头部、躯干、左腿和右腿以及左臂和右臂（见图1）。2）的情况。虽然这种表示是粗略的，但它提供了对拟合的总体质量的良好估计。它考虑了身体形状而不仅仅是关键点，因此它是针对略微不同的关键点位置的姿势估计器的公平判断6056HumanEVAHuman3.6MZhou等人[45个]110.0106.791个地标93.593.9SMPLify在DeepCut CNN lms上。[4]美国79.982.3在我们的CNN lms上SMPLify。，tr.UPI-P14 h81.196.4在我们的CNN lms上SMPLify。，tr. 公司简介79.490.9在我们的CNN lms上SMPLify。，tr.UP-P9174.580.7表5：3D距离中所有关节的平均误差（mm）。表4：拟合的SMPL模型在全LSP测试集上的投影身体部位的评分，六部分人类标签（陆地-陆地）使用在完整的91个关键点数据集UP-P91上训练的姿态估计器进一步改进了SMPLify。与在UPI-P14 h上训练的基线模型相比，在更简单的HumanEva上，每平方米提高了6.6 mm标记缩写为lms）。公平的比较只能在抵消框内进行。“DP”指的是“直接预测”（见第二节）。4.4）。这些实验的标志总是来自我们在UP-P91上训练的CNN的预测。不出所料，当分割项（c.f.秒3.1）添加。由于经过长期训练的姿态估计器，[4]中提出的SM-PLify在LSP数据集上仍然具有整体优势（比较第三和第四行）。对我们生成的14个关节的数据进行训练，然后使用SMPLify提高了分数（比较第四行和第五行），这要归功于更清晰的数据以及关键点和SMPL骨架的更好对应。使用我们的91里程碑模型可以大幅提升3.6个f1分数。我们没有达到在DeepCut CNN [34]预测上执行的拟合的性能，主要是因为我们的姿势估计器错过了一些极端姿势，对最终平均得分产生了很大的影响。HumanEva 和 Human3.6M 数据集我们在 HumanEva 和Human3.6M数据集上评估3D拟合，其中3D地面实况关键点可从运动捕捉系统获得我们遵循SM-PLify [4]的评价方案以保持可比性，但每5帧进行二次采样除外。这仍然给我们留下了10Hz的帧率，这不会影响分数。我们这样做完全是出于实际考虑，因为SMPLify拟合91个标志可能需要的时间是拟合14个关键点的两倍。我们在Tab中提供了结果摘要。五、我们不使用演员或性别特定的身体模型，而是一个混合的人体模型，并依赖于额外的地标形状推断。这使得该方法完全自动化，并可部署到任何序列，而无需先验知识。即使我们的姿态估计器进行了这些简化和数量较少的训练示例，我们在Hu- manEva数据集上平均实现了5.4mm的改进，在Human3.6M数据集上平均实现了1.6mm的改进（第4行与第5行）。在Human3.6M数据集上，15.7mm。即使火车-使用14个关键点的姿态估计器，我们生成的标签的更高一致性有助于解决这个任务，这在比较第四行和第五行时变得很明显。4.4. 直接3D姿态和形状预测2D中的91个地标预测使人类观察者能够轻松推断人的3D形状和姿势：身体表面上的关键点提供了很好的提示来估计人的形状，并且结合骨架取向和姿势通常可以被识别（c.f. 图第4b段）。该观察启发我们探索直接来自2D关键点输入的3D身体模型参数的预测器的限制。为此，我们使用来自UP-3D数据集的3D姿势和形状来对投影地标进行采样，其中SMPL的完整3D参数化作为标签。我们将每个姿势的虚拟“相机”在5个高度上移动到3D模型周围的36个位置，以增强训练集。在这些数据上，我们用多层感知器和决策森林进行了实验。我们更喜欢后者的回归，因为决策森林是不太敏感的噪音。我们训练一个单独的森林来预测24个SMPL关节中每个关节的轴角旋转向量，以及一个预测深度。输入界标位置被归一化为w.r.t.位置和规模，以提高泛化。我们试验了基于距离的特征和来自主骨架连接的点积特征，但这些特征不如普通的2D图像坐标那样鲁棒。事实证明，使用完整的旋转矩阵作为回归目标是至关重要的：轴角表示具有不连续性，会给损失函数增加噪声。一个决策森林预测姿势或形状的时间为0.13秒4。所有森林的预测都是独立的，这意味着可以比SMPLify快一到两个数量级地获得完整姿态和形状预测。这可以允许将3 D姿态和形状估计用于视频应用，动作识别4 对于所有计时，使用了带有 3.2Ghz 六核处理器和 NVIDIAGeForce GTX 970的测试系统。FB分段Acc.，F1P分段，F1GT lms上的SMPLify。0.9176，0.88110.8798，0.6584GT lms上的SMPLify。>隔离区0.9217，0.88230.8882，0.6703SMPLify在DeepCut CNN lms上。[4]美国0.9189，0.88070.8771，0.6398在我们的CNN lms上SMPLify。，tr.UPI-P14 h0.8944，0.84010.8537，0.5762在我们的CNN lms上SMPLify。，tr. 公司简介0.8952，0.84750.8588，0.5798在我们的CNN lms上SMPLify。，tr.UP-P910.9099，0.86190.8732，0.6164来自14个地标的0.8649，0.79150.8223，6057然而，3D模型配置并不总是与图像证据相匹配（参见图11）。4d），其恢复粗略姿势。我们在Tab中提供分数。4和Tab。5.我们还为混合版本添加了分数，为此，我们使用决策森林预测姿势和形状，并采取一些优化步骤，使身体模型的全局旋转与图像证据相匹配（根据初始化的不同，运行时间不同，但我们的数据不到一秒）。对于基于91个界标的方法，在LSP数据集上的f1分数的完全优化之间的差异在3D数据集上，直接预测方法优于除SMPLify7550250-0.50-0.25 0. 00 0.250.50f1评分（一）接受正确错误它的运行时间为几十秒。结合我们基于ResNet101的CNN模型，可以在0.378秒内从图像中预测完整的3D身体模型配置姿势预测CNN是计算瓶颈。因为我们的发现并不特定于CNN模型，所以我们相信通过使用速度优化的CNN，例如SqueezeNet [18]，以及对直接预测器的进一步优化，所提出的方法可以达到实时速度。5. 闭环随着3D拟合的改进结果，这有助于首先创建3D身体模型拟合的数据集，一个自然的问题是，改进的拟合方法是否有助于扩大数据集。我们对来自姿态估计器的 91 个地标预测运行SMPLify，并再次要求人类注释者对所有LSP图像的3D拟合进行在以前未使用的54.75%的数据（1095张图像）中，我们发现308张图像的六个身体部位分割f1得分有所改善（c.f.图5a）。我们在图中示出了f1分数有很大提高的三个示例图像。5，（b）至（d）：由于左右标签噪声、深度模糊性和透视分辨率，与14个地面真实关键点上的拟合相比，改进。Hu-man注释器接受了额外的185个图像，这比接受的初始拟合的数量提高了20%，并且在LSP数据集的接受拟合中绝对提高了9.3%的最共同原因为改进是(1)噪声注释，（2）更好的透视分辨率，(3)关键点与SMPL骨架的更好匹配。对于具有更多注释噪声的数据集，例如 LSP 扩展数据集和 MPII-HumanPose数据集，可以预期甚至更高的改进比率。这个扩大的数据集可以用于再次训练估计器并迭代地继续。(a)(c)（ d ）其他事项图5：LSP数据集未使用部分的身体模型拟合的改进。比较了91个预测关键点与适合14个地面实况关键点。（a）：投影的六个身体部分分割的F1分数变化的绿色表示在使用91个预测关键点执行时，之前未接受的对对于（b）、（c）、（d）中的每个图像三元组：左：SMPLify拟合到14个地面实况关键点，右：拟合到来自我们的预测器的预测的91个地标。6. 讨论与所提出的方法和数据集，我们认为人类相关的预测任务的整体视图通过改进人类的表示，我们可以整合具有不同注释的数据集，并在新的细节水平上处理既定任务所给出的结果包括高保真度的语义身体部位分割成31个部分和91个标志人体姿态估计。这在以前的工作没有达到的细节水平方面设置了一个新的标志。同时，它有助于提高两个标准基准数据集HumanEva和Human3.6M上的3D人体姿态估计的最新水平。我们提出了一个回归树模型，预测直接从2D关键点生成3D身体配置。该方法比基于优化的方法运行快几个数量级。这种直接预测相当好地从简单的2D输入捕获了整体姿态，并且我们乐观地认为，它可以被缩放以达到接近实时的精度。我们表明，改进的3D拟合方法允许更好的拟合，扩大训练集。在这里，我们只进行了一次迭代，但我们相信，在两个生成和判别阶段迭代的系统可以大规模部署，以在非常有限的人类反馈的情况下不断学习和改进。计数6058引用[1] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议（CVPR）的论文集，2014年6月。一、二、三、四[2] P. Azad，T.Asfour和R.迪尔曼在类人机器人上模仿人类运动的统一在proc IEEE机器人与自动化国际会议（ICRA），第2558-2563页，2007年4月。2[3] S. 贝尔山口Upchurch，N.Snavely和K.巴拉OpenSurfaces：表面外观的丰富注释目录。ACM Trans. on Graphics（SIGGRAPH），32（4），2013. 3[4] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M.J.布莱克。保持它smpl：由单一影像自动估计三维人体位姿与形状。在 proc欧洲计算机视觉会议（ECCV），第561-578页。施普林格，2016年。二三六七[5] L. Bourdev和J.马利克Poselets：使用3d人体姿势注释训练的身体部位检测器。 InProc. of the InternationalConference on Computer Vision（ICCV），sep 2009. 2[6] J. Charles，T.Pfister，D.Magee，D.Hogg和A.齐瑟曼。个性化人类视频姿态估计。IEEE计算机视觉与模式识别会议，2016年。2[7] L- C. Chen，Y.杨，J.Wang，W.Xu和A.L. 尤尔。注意比例：尺度感知语义图像分割。2016年IEEE计算机视觉会议（CVPR），2016年。1、4[8] X. 陈河，巴西 - 地 Mottaghi ， X. Liu ， S. 菲德勒河Urtasun，以及A.尤尔。检测您可以：使用整体模型和身体部位检测和表示对象。在 IEEE 计算机视觉和模式识别会议（CVPR）集，2014年。2[9] M. Dantone，J.加尔角Leistner和L.范古尔。基于人体部位的关节回归器在静态图像中的姿态估计译模式分析和机器智能（TPAMI），2014年。四、六[10] P. 多尔角沃杰克湾Schiele和P. 佩洛娜行人检测：对最先进技术的评估。IEEE Trans. on Pattern Analysis andMachine Intelligence（TPAMI），34（4）：743-761，2012. 1[11] A. Elhayek、E.de Aguiar，A.Jain，J.汤普森湖皮舒林M.安德里卢卡角布雷格勒湾Schiele和C.希奥博尔特高效的基于convnet的无标记运动捕捉，在一般场景中使用少量相机。在 IEEE 计算机视觉和模式识别会议（CVPR）的论文集，第3810-3818页。IEEE，2015年。2[12] M. 埃弗灵厄姆湖，澳-地古尔角 K. 威廉斯，J. Winn和A. 齐瑟曼。 pascal 视觉对象类（ voc ）的挑战。International Journal on Computer Vision（IJCV），88（2）：303-338，2010年6月。2[13] O. Freifeld，A. Weiss，S. Zuffi和M. J.布莱克。轮廓人物：一个2D关节型人体的参数化模型。在proc IEEEConference on Computer VI-和模式识别（CVPR），第639-646页。IEEE、2010年6月2[14] P.Guan，A. Weiss，A. Balan和M. J.布莱克。从单个图像估计人体形状和姿势。在Proc. of the InternationalConference on Computer Vision（ICCV），第13812[15] B.哈里哈兰山口阿尔贝莱斯河Girshick和J.马利克用于对象分割和细粒度定位的超列。在IEEE计算机视觉和模式识别会议（CVPR）集，第4471[16

下载后可阅读完整内容，剩余1页未读，立即下载