没有合适的资源?快使用搜索试试~ 我知道了~
11199基于归一化流的概率单目三维人体位姿估计汤姆·韦尔拜因1马可·鲁道夫1博多·罗森哈恩1巴斯蒂安·万特2莱布尼茨大学汉诺威2不列颠哥伦比亚wehrbein@tnt.uni-hannover.de摘要由于深度模糊和遮挡,从单目图像估计3D人体姿态是高度不适定的问题。然而,大多数现有的工作忽略了这些歧义,只估计一个单一的解决方案。相比之下,我们生成了一组不同的假设,代表了可行的3D姿势的完整后验分布。为此,我们提出了一种基于归一化流的方法,该方法利用确定性的3D到2D映射来解决模糊的逆2D到3D问题。此外,不确定的检测和闭塞有效地建模,通过incorpo- rating作为条件的2D检测器的不确定性信息。成功的进一步关键是学习的3D姿态先验和M中最佳损失的泛化我们在两个基准数据集Human3.6M和MPI-INF-3DHP上评估了我们的方法,在大多数指标中优于所有可比方法该实现在GitHub1上可用。1. 介绍从单幅图像估计人的3D姿态它有许多应用,例如在人机交互、动画、医学和监控方面。一种常见的方法是将问题分解为两个阶段。在第一阶段中,使用2D姿态检测器来估计2D关键点,然后在第二阶段中将2D关键点提升到3D关节位置。 通过利用在多样且丰富注释的数据上预训练的2D姿态检测器,3D姿态估计器变得对于在照明、背景和服装方面变化的不同场景不变。然而,由于深度模糊和被遮挡的身体部位,从2D关节检测重建正确的3D姿态是高度不适定的问题。虽然一些模糊性可以通过利用来自图像的信息来解决(例如,由于深度差异引起的阴影差异)或通过利用已知的人体比例,例如关节角度和骨长度约束,在1https://github.com/twehrbein/Probabilistic-Monocul基于归一化流的ar-3D人体姿态估计图1.我们的模型生成不同的3D姿态假设,是一致的输入图像。与[28,40]相比,我们主要在2D检测不确定的情况下实现了更高的多样性,在这种情况下,对于被遮挡的左臂。出于可视化的目的,仅针对高度模糊的左臂示出了三个以上的假设。仍然存在多个似真3D姿态与同一图像一致的图1示出了左臂被上身遮挡并且因此其位置不能被明确地确定的然而,大多数现有的作品忽略了模糊性,假设只有一个单一的解决方案存在。相比之下,我们将单眼3D人体姿态估计建模为具有多个可行解的模糊逆问题。因此,在这项工作中,我们建议估计的条件下,单目图像的合理的3D姿态最近,已经提出了几种方法[20,28,29,35,40],其遵循研究路线以从2D输入明确然而,他们只考虑2D关节坐标,忽略了2D检测器的不确定性。虽然仅基于2D坐标推断深度模糊是合理的,但是直接对遮挡和不确定检测进行建模是没有意义的。幸运的是,大多数2D人体关节检测器11200在预测的热图中编码关于人体关节的位置的不确定性的有价值的信息。而不是丢弃这些信息,我们建议明确提取和利用的不确定性的2D检测器从估计的热图。如图1,这使我们能够有效地建模的2D检测器的不确定性连同固有的深度模糊。在这项工作中,我们提出了一个规范化的流为基础的方法的启发框架,解决模糊的逆问题Ardizzone等人。[3]的文件。归一化流[38,46,47]是允许在两个方向上求值的双射变换序列。我们建议将从单幅图像中估计三维人体姿态看作是一个模糊的逆问题,因为它是一个确定性的向前过程(即:3D姿态到2D的投影)。在3D姿态和2D姿态与潜在向量的组合之间构建双向连接允许在训练期间利用3D到2D映射(前向过程)。直观地,否则在前向过程中丢失的深度信息被编码在潜在向量中。重复地对潜在向量进行采样并且计算归一化流的逆路径生成任意多个3D姿势假设,其近似真实的后验分布。为了结合来自热图的不确定性信息,我们采用了归一化流的条件变体[4,52]。我们通过将2D高斯拟合到热图来提取不确定性信息,然后将热图用于形成条件向量。我们在两个方向上优化模型。前向路径学习3D到2D映射并产生遵循预定义分布的潜在向量。对于反向路径,我们利用[49]的3D姿势鉴别器来惩罚人体测量不可行的姿势。此外,我们应用一个损失强制执行的3D姿态假设,以反映2D检测器的不确定性。受粒子滤波器中常见实践的启发,我们进一步提出了M中最佳损失的一般化[16],该损失最小化k个最佳假设的平均值与相应的地面真实值之间的距离。我们在两个基准数据集Human3.6M [19]和MPI-INF-3DHP [33]上评估了我们的方法,并且在大多数指标中优于所有可比方法。考虑到对模糊示例的关注,我们进一步评估仅包含具有高度2D检测器不确定性的样本的Human3.6M的在这个子集上,我们的方法超过了竞争对手的一个很大的保证金。概括起来,我们的贡献是:• 据我们所知,我们是第一个employ一个规范化的流为基础的方法建模的后验分布的3D构成一个单一的图像。• 来自预测热图的的2D检测器被纳入到我们的方法,使,能够有效地建模闭塞和不确定的检测。• 我们提出了一个泛化的最好的M损失,显着提高预测性能。2. 相关工作在本节中,我们首先概述了最近在3D人体姿态估计中的工作,重点是两阶段方法。然后,讨论了用于多假设3D姿态生成的现有方法,随后概述了关于归一化流的相关工作。虽然最近有兴趣从单目图像估计3D人体形状[5,21,25,26,30,37,53,55],这项工作的重点是预测一组预定义的关节的3D位置提升2D到3D:我们的方法属于从2D姿态检测器的输出估计3D姿态的大量工作[8,9,12,17,18,31,41,49,50,51,54]。这些两阶段方法将3D深度估计的困难问题此外,它允许使用室内和野外数据来训练2D检测器,这有效地减少了对无菌室内场景的偏差。Akhter和Black [1]在限制无效的3D姿势重建之前学习姿势调节的关节角度限制。他们执行3D姿态估计使用过完备字典的姿态。Moreno-Noguer [34]将问题转换为表示为距离矩阵的2D和3D姿势之间的回归。Martinez等人进一步激发了将2D关节提升到3D关节。[32],他们采用一个简单的全连接网络将2D检测提升到3D姿态,令人惊讶地优于过去的方法。由于其简单性和强大的性能,它作为一个流行的基线,许多以下的作品。与上述方法不同,这些方法假设单峰后验分布并且仅预测每个输入的单个3D姿势,我们能够生成一组不同的合理3D姿势。此外,通过利用强大的3D姿势训练来隐式地学习解剖约束。与以前的工作,集成的2D检测器的不确定性信息(例如。[7,50,54]),我们将2D高斯拟合到每个热图,而不是仅使用每个热图的最大值作为置信度得分,从而更好地捕获不确定性分布。多假设3D人体姿势估计:早期的作品[27,42,43,44]广泛分析和讨论了单目3D人体姿势估计的模糊性,并通过启发式方法对多个3D姿势进行采样。最近,Jahangiri和Yuille [20]提出通过从学习的占用矩阵[1]均匀采样来从预测的种子3D姿态生成多个假设。此外,它们施加骨长度限制,并重新11201图2.我们提出的方法的概述。我们采用由仿射耦合块[11]组成的归一化流程来生成多个3D姿势假设。 通过构建3D姿态与2D姿态与潜在向量的级联之间的双射,我们可以在训练期间利用3D到2D映射(前向路径)。模型在两个方向上都进行了优化,而在推理时,只计算从2D到3D的路径(反向路径)。任意多个3D姿态假设可以通过从已知分布重复地对潜在向量进行采样并计算逆路径来生成。通过调节耦合块,以拟合高斯的形式并入2D检测器的不确定性信息。单个耦合块的架构在灰色框中可视化。出于可视化目的,仅示出耦合块的正演计算。使用大于某个阈值2D重投影误差来进行假设Li和Lee[28]采用混合密度网络(MDN)[6]来学习多模态后验分布。然后,每个高斯核的条件均值表示一个3D姿态假设。Oikarinen等人[35]利用[56]的语义图神经网络来改进[28]的MDN方法相反,我们的normalizing流为基础的方法,生成的hypothothes的数量需要指定的先验,是固定的每个输入。此外,当增加生成的假设的数量时,需要显著更多的计算资源Sharma等人[40]采用条件变分自动编码器来合成以2D姿态检测为条件的各种3D姿态假设他们还建议从图像中导出联合顺序深度关系来对3D姿势样本进行排名。与[20]相比,我们的基于归一化流的方法不需要结合计算上的大量拒绝采样或需要先验地定义生成的3D姿势假设的我们的方法更灵活,能够模拟任何后分布,而不需要明确的硬约束。此外,我们是唯一一个将2D检测器的不确定性信息,使我们能够显着改善高度模糊的情况下,并固有地处理任意数量的闭塞关节。标准化流程:归一化流[38,46,47]是一系列双射变换,其变换将简单易处理的分布转化为复杂的目标数据分布。由于双射性,在两个方向上的评估是可能的。也就是说,从建模的分布以及精确的密度估计(即,为每个数据点分配可能性)。大多数常见的最先进的流架构基于自回归模型,其利用贝叶斯链规则来分解密度[10,11,13,23,36,39]。对于更全面的介绍,我们建议读者参考[24]。Ardizonne等[3]扩展了Dinh等人的实值非保体积(Real-NVP)变换。[11]涉及计算模糊逆问题的后验的任务。考虑到这样一个模糊的逆问题,他们建议以监督的方式学习理解良好的因此,它们学习目标数据分布与潜变量和前向过程解决方案的联合分布之间的双射映射由于可逆性,逆是隐式学习的。通过从一个简单易处理的分布中重复采样潜在变量,它们可以近似完整的后验。受他们工作的启发,我们采用并扩展了他们的框架,用于对单目图像条件下的可信3D姿势的完整后验分布进行建模。我们引入了一个条件向量,一个可学习的先验和两个额外的损失函数。据我们所知,只有以前的作品11202⊙∈XyGTGT联系我们∈在人体姿态估计中使用归一化流的是[5,53,55]。然而,他们采用归一化流作为3D姿态先验,而不是直接对以图像为条件的3D姿态的后验分布进行建模。3. 方法我们的目的是学习的全后验分布的plau-sible的3D构成条件的单目图像。我们遵循流行的两阶段方法,首先应用最先进的2D联合检测器[45],随后使用其输出来估计相应的3D姿态假设。其核心思想是,不是仅在2D检测上调节后验分布,我们还以一种新的方式利用从预测热图中提取的不确定性信息这使得能够有效地对2D检测器的不确定性以及固有的深度模糊性进行建模。所提出的方法的概述示于图1中。二、为了学习后验分布,我们采用规范化流来构建3D姿态x∈R3J与2D姿态y∈R2J的级联之间的双射映射,其中其中表示逐元素乘法。指数函数用于防止乘以零,这确保了块的可逆性。注意si和ti表示不需要可逆的函数。唯一的限制是它们产生的输出与耦合块中相应路径上的数据的维度相匹配。我们采用一个完全连接的网络,通过分割其输出来联合预测它们,而不是分别回归尺度和翻译系数。通过构造,耦合块可以在没有任何计算开销的情况下被平凡整个网络由多个链式块组成,每个块后面都有一个预定义的随机排列,该随机排列打乱了变量的路径分配最后一个块的输出被分割以形成2D姿态y和特征向量z。继Ardizzoneet al.[4]中,我们采用了参数化的软夹紧机构,以防止耦合块中的指数函数引起的不稳定性。软箝位定义为2α rσα(r)= arctan,(2)π α本征向量zRJ,其中J是关节数一个姿势。潜在向量z的引入允许在训练期间利用将3D姿态投影到其2D观察的直观地说,z捕获了在从3D到2D的映射中丢失的深度信息我们不是简单地使用热图的argmax,而是通过在拟合到热图的高斯上调节归一化流来并入2D检测器在推断时,通过从潜在变量的分布重复采样z并计算逆路径来近似全后验。如果正向过程被成功模拟,则所有生成的假设重新投影到对应的2D姿态观察。3.1. 条件规范化流程作为归一化流程,我们采用Real-NVP [11]仿射耦合块架构。这种架构可以直接扩展到包含条件输入[4,52]。中的灰色框中显示了单个耦合块并作为S1和S2的最后一层施加。它通过将输出限制在区间(−α,α)来防止缩放幅度爆炸的分量。3.2. 热图条件最近的2D检测器通过在预测的热图和由以联合位置为中心的2D高斯组成的地面实况热图之间应用监督损失来优化。这导致预测的热图是2D检测器的不确定性的有价值的来源。代替仅基于2D关节坐标来估计3D姿态,我们结合了在估计的热图中编码的2D检测器的不确定性。具体来说,我们将2D高斯拟合到每个预测的热图,以最好地捕获不确定性分布。拟合过程使用非线性最小二乘法完成。作为初始参数,我们将振幅设置为1,将每个高斯的平均值设置为对应的回归的2D关节位置,并且将协方差矩阵设置为具有σ2=σ2=σ2的对角矩阵,其中图二、中的输入u被分成两部分在,1和uin,2.σ2是用于训练2D de-1的地面实况方差tector 对于每幅图像,将拟合系数堆叠随后,uin,1和uin,2在两个单独的路径上经历由函数si和ti(i1,2)参数化的尺度和平移变换。输出u_out,1和u_out,2被级联以形成耦合块的总输出。在进一步编码成条件向量c=hθ(cθ)的热图条件cθ中,耦合块的forwarduout,2=uin,2es1(uin,1,c)+t1(uin,1,c)uout, 1=u in, 1≠es2(uout,2,c)+t 2(u out,2,c),以形成单个载体。我们丢弃了髋关节的高斯系数,因为3D姿势的根关节的典型对准极大地减少了这些关节中的可能变化。因此,热图调节向量表示为R6(J−3). 我们使用全连接网络作为编码网络hθ,其进一步将c(编码为c=hθ(c())。 为了最好地反映2D检测器的不确定性的3D姿态假设,我们显式地优化网络以匹配每个关节的3D假设的x和y方向上的2D高斯分布。让(一)11203ΣIj.√√∨m=LL∼LL∼i=1⊆N¨¨i=1i=1LMMD=MMD2(V,V¨)=1φ(v,v).Σ,Σ=m·最大0,ΣΣ2n( n−1)n2-Σ2 +以防止y的预测恶化。反向路径:给定2D姿态y,潜在向量z为--Σ∈R2×2是单个联合es-的协方差矩阵,ypY,zpZ是平方的无偏估计从L中的该关节的位置估计产生的假设。 定义R ∈R2×2为协方差矩阵具有核φ的MMD是n最小化两个协方差矩阵之间的掩蔽下限均方根误差(RMSE):n(n−1)ijn nI j(六).+1Σφ(v,v)−2 Σφ(vi,v(j))..Σ。二,二二,二ΣΣ1一、二一、二在[3]之后,我们对LMMD的梯度进行块化,其中掩蔽标量m被定义为1 ≤1, 1> σt≤2,2>σt0否则.(四)从基本分布pZ中提取并连接以形成逆路径的输入[y,z]。通过重复采样zpZ,可以创建任意多个3D姿态假设。尽管2D和MMD在理论上足以最好地近似真实的后验分布[3],因此,如果2D检测器确定特定关节的位置(由具有小于阈值σt的标准偏差的拟合高斯表示),则损失没有影响。为了避免不必要地限制网络,我们仅在协方差矩阵的对角项小于相应的地面实况值时对其进行惩罚。3.3. 优化优化过程的核心思想是以监督的方式训练3D到2D映射(前向路径),而高度模糊的2D到3D映射(反向路径)由于归一化流的可逆性而被隐式地学习,并且由具有逆过程的附加监督来支持。每个训练迭代包括首先计算前向路径,随后是反向路径的L个计算和两个附加计算,一个用于鉴别器,一个用于确定性3D重建。来自两个方向的梯度在执行参数更新之前被累加。注意,由于Real-NVP耦合块架构,可以有效地计算两个方向。前向路径:在前向过程中,网络预测给定3D姿态的对应2D联合检测这是使用L1距离优化的:L2D=y−y1,(5)其中y是地面真值,y是估计的2D观测值va-我们对反向路径应用附加损耗以改进收敛。为了惩罚几何上不可行的3D姿势假设,我们引入了鉴别器网络并采用了[15]的改进的Wasserstein GAN训练过程。反向路径通过产生使鉴别器的否定输出最小化的这种损失表示为gen。识别器的架构取自[49],包括编码骨骼长度和角度表示的运动链空间层[48此外,我们通过使用在前向路径中产生的对应的潜在向量z det来为每个2D输入生成3D姿态。注意,与对潜在向量z进行采样相反当使用估计的潜在向量z_det时,应用将2D输入链接到单个3D姿态的监督损失det是合理的,因为预测的潜在向量和匹配的2D姿态检测的组合应该对应于模糊逆问题的单个精确解我们最小化地面实况3D姿态x和估计的3D姿态x_det之间的L1Ldet=x−xde t1。(七)为了进一步指导优化过程,我们提出了最佳M损失的推广[16]。 给定一组3D姿态假设H=xL通过从相 同的2D输入生成,我们选择由k个姿态假设组成的子集H_topk_H,其中k个姿态假设具有到对应的地面 实 况 姿 态 X 的 最 低 平 均 每 关 节 位 置 误 差(MPJPE)。然后,我们最小化地面实况姿态X与k个最佳假设的平均值之间的L1距离:第估计的潜变量被优化以遵循零均值各向同性高斯pZ=(0,I)并且独立于2D观测p Y的分布。LMB=¨x−x∈HtopkKx.(八)¨1这两个属性都是通过最小化网络输出q(y,z)的联合 分 布 与 边 际 分 布 的 乘 积 之 间 的 最 大 平 均 差 异(MMD)[14]来总体:总体而言,我们的正常化流程的目标函数为分布p Y和p Z。Giv ensamples={vi}nLNF=L2D+Lgen+λMMDLMMD(九)I.I.D. 从q(y,z)和V ={vi}n其中vi=[y,z]+λdet Ldet +λMB LMB +λHM LHM,对应热图的拟合的2D高斯,我们LHM一,一-Σ 一,一我Ji,j=1+Max0,ΣΣ-Σ22、(uΣ11204L∈·−L^L·NSS{}b+v−v2其中λMMD、λdet、λMB和λHM表示相应损耗的权重。通过最小化WGAN-GP目标函数[15],对WGAN-GP网络进行优化,以区分归一化流产生的3D姿态和来自训练集的3D姿态的编码网络hθ通过将梯度从LNF传播通过hθ而与归一化流联合优化。4. 实验4.1. 数据集和评估指标Human3.6M[19]是用于3D人体姿势估计的最大视频姿势数据集。它有7个专业演员表演15种不同的活动,如坐,走和吸烟。对于每个帧,提供准确的2D和3D关节位置和相机参数。我们遵循标准方案并对受试者9和11的每64帧进行评估。协议1直接计算重建的3D关节坐标与地面实况3D关节坐标之间的平均每关节位置误差(MPJPE)。而方案2首先在两个区域之间应用刚性对准。在Human3.6M上 目标地面实况热图以〇gt=2px创建。数据预处理:我们将每个2D姿势置于其平均值并除以其标准差。3D姿态以米为单位进行处理,并且也意味着单独居中。在评估之前,3D姿势围绕髋关节以零为中心以遵循标准协议。网络详细信息:规范化流程由8个耦合块组成,其具有表示为子网络的全连接网络,作为尺度和平移函数。每个子网络都用一个完全连接的层将其输入放大到1024个维度。然后是ReLU和第二个维度为48的全连接层条件编码网络hθ遵循相同的设计,其中256和56作为全连接层的输出维度。我们将耦合块内的夹紧参数设置为 α=2。0的情况。对于MMD,我们遵循[3]并采用以下混合物:逆多重二次核φim(v,v)=Σb(10)b∈S姿势(PMPJPE)。我们还显示了正确姿势评分(CPS)指标由[50]提出。当且仅当所有关节都具有到低于阈值的地面实况的欧几里得距离。然后将CPS定义为[0mm,300 mm]的曲线下面积。CPS考虑整个姿势,而不是逐个关节评估重建关节。与其他常见度量相比,它更适合于检测可能负面影响下游任务的错误估计的姿势人3.6M不明确(H36MA):为了将评估集中在高度模糊的示例上,我们根据2D检测器的不确定性选择Human3.6M测试分割的子集2。该子集仅包含至少一个拟合高斯具有大于5px的标准偏差的样本,这对于6也成立。所有样本的4%在测试分裂。这些样本极具挑战性因为关节检测器给出不准确或错误的结果。MPI-INF-3DHP(3DHP)[33]是一个3D人体姿势数据集,包含以三种不同设置记录的注释图像:有绿幕的演播室、无绿幕的演播室和室外。我们在不利用训练数据的情况下对测试分割进行评估,以评估我们的网络的泛化能力。根据以前的工作,150 mm以下的正确关键点百分比(PCK)被采用作为3DHP的度量标准。4.2. 实现细节2D检测器:我们使用公开可用的HRNet [45]在MPII[2]上预训练作为我们的2D联合检测器和微调2关于子集的确切组成的信息可以在官方GitHub存储库中找到其中带宽参数=0。0025,0。04,0。81.训练:整个网络使用Adam[22]训练155个epoch,初始学习率为1 10−4,动量值β1=0。5和β2=0。9 .第九条。学习率在150个epoch之后减半,并且使用64的批量大小。为了提高优化稳定性,我们裁剪梯度-在[15,15]的范围内。在训练期间,协方差矩阵根据L=200个3D姿态假设和用于HM的掩蔽的标准偏差阈值来 计算(等式2)。4)被设置为〇 t=l。05σgt=2。1 .一、不同损失的权重被设置为λMMD=10、λdet=λMB=4和λHM=750,并且MB中选择的最佳假设的数量被设置为k=5。由于我们在度量尺度中估计3D姿态,因此需要定义转换因子以在来自姿态假设和来自热图的协方差矩阵之间进行关联。 我们根据经验发现良好的转换因子为lpx = 10mm。4.3. 对Human3.6M我们遵循以前的工作和报告指标,为我们的网络生成的最佳3D姿态假设这对于其中多个不同的3D姿态形成3D姿态重构的正确解决方案的模糊示例尤其合理因此,不是验证预测是否等于特定的解决方案,而是评估该特定的解决方案是否包含在预测集合广告,我们展示了结果的3D构成产生的全零的潜在向量z0。由于我们在训练期间从(0,I)对z进行采样,因此这些姿势近似是最高似然解。 在[40]之后,我们为每个2D输入生成M = 200个假设。 我们的方法和其他最先进方法的结果如表1所示。我们11205表1.在方案1(无刚性对齐)和方案2(刚性对齐)下,在Human3.6M上的MPJPE的详细结果(毫米)我们的模型实现了最先进的结果,在几乎每一个活动中都优于所有其他方法。所有分数均来自参考论文,除了标有 * 的行,其使用公开可用的官方代码和模型计算[40]。由各个方法估计的样本的数量被表示为M。方法MPJPE↓ PMPJPE↓ PCK↑CPS↑Method Studio GS Studio no GS Outdoor全部PCK表2.包含高度模糊示例的子集H36MA的评估结果。对于每个度量,报告最佳假设分数。超越每一个竞争对手,并实现了4. 1%和10。比方案1和方案2下的先前最佳分数高7%注意Liet al.[28]仅显示了M=5的详细结果,但指出当增加M时,其模型性能不会显著改善。我们使用其公开可用的模型、代码和数据生成了方案2下的[40]的数字(标有 * 的行),因为他们仅报告了受试者11的PMPJPE评分。优于[32]的单一预测基线,z0生成姿势(即,M=1)表明,我们的模型还能够给出强有力的单一预测。为了评估性能高度模糊的例子,我们计算的结果具有挑战性的子集H36MA。我们使用来自[40]和[42]的公开可用代码。[28]与他们的方法比较。如表2所示,我们的表现明显优于两个竞争对手,并且比整个测试集的表现更好。这强调了我们的模型能够为高度模糊的例子生成不同的假设。我们认为,CPS是特别有意义的,在这种情况下,因为高的个人关节错误,经常发生的挑战性的姿势不能平均出来,如在例如。MPJPE或PCK。4.4. 转移至MPI-INF-3DHP为了评估我们的模型的泛化能力,我们评估MPI-INF-3DHP。请注意,2D检测器和标准化流程都不是在此数据集上训练的。结果示于表3中。即使[28]使用数据集提供的地面真实2D关节,我们在所有三个设置中都明显优于它们我们还实现了COM-表3. MPI-INF-3DHP的定量结果。我们的性能大大优于[28]的方法,甚至使用了地面真实2D关节位置。请注意,[29]是弱监督训练的,因此专门为迁移学习而构建。然而,我们仍然取得了同样的成绩,甚至在具有挑战性的户外比赛中超越了他们。与[29]中专注于迁移学习的弱监督方法相比,该方法具有更好的性能。我们对户外场景的强大结果进一步强调了不同设置的通用化能力。4.5. 样本多样性热图方差:我们目视检查生成的关节位置的分布,并将其与图11中的相应拟合高斯曲线进行比较。3.第三章。出于可视化目的,除了具有最高不确定性的关节外,所有关节仅显示三个假设可以看出,2D检测器的不确定性反映在3D假设中。深度模糊度:即使深度方向的方差没有明确优化,我们的模型也会学习生成具有不同深度的可行假设。事实上,在Human3.6M的测试集中的所有关节上平均的假设的标准偏差在深度方向上最高,为42。4毫米,相比18。3毫米和17。在x和y方向上的厚度为3mm。踝关节、肘关节和腕关节的方差最大。有意义的深度多样性的视觉4.第一章样本集大小和噪声基线:在图5中,我们绘制了子集H36MA上的MPJPE,其中样本数量增加。我们模型的最佳假设性能继续显著改善,进一步扩大了差距[40]。为了验证我们的方法优于直接方案1(MPJPE)直接.Disc.吃迎接电话照片构成采购坐SitD烟雾等WalkD走步行Avg.Martinez等人[32](男=1)51.856.258.159.069.578.455.258.174.094.662.359.165.149.552.462.9Li等[29](男=10)62.069.764.373.675.184.868.775.081.2104.370.272.075.067.069.073.9Li等[28](男=5)43.848.649.149.857.661.545.948.362.073.454.850.656.043.445.552.7Oikarinen等人[35](男=200)40.043.241.043.450.053.640.141.452.667.348.144. 244. 939.540.246.2Sharma等人[40](男=200)三十七843.243.044.351.157.039岁743.056.364.048.145.450.437.939岁946.8我们的(z0)(M=1)52.460.257.857.465.774.156.259.169.378.061.263.767.050.054.961.8我们的(M=200)38.5四十二539岁941岁7四十六岁。551岁639.9四十8四十九5五十六8四十五346.446.8三十七840.444. 3方案2(PMPJPE)直接.Disc.吃迎接电话照片构成采购坐SitD烟雾等WalkD走步行Avg.Martinez等人[32](男=1)39.543.246.447.051.056.041.440.656.569.449.245.049.538.043.147.7Li等[29](男=10)38.541.739.645.245.846.537.842.752.462.945.340.945.338.638.444.3Li等[28](男=5)35.539.841.342.346.048.936.937.351.060.644.940.244.133.136.942.6Oikarinen等人[35](男=200)30.834.733.634.239.642.231.031.942.953.538.134.138.029.631.136.3Li等[28日]Sharma等人[第四十届]81.178.366.061.185.788.5119.9136.4Li等[29日]Li等[28日]86岁。970.186岁。668.279.366.6八十五067.9我们七十一0五十四2九十三4171. 0我们86.682.882岁584.311206↓ ↓ ↑↑L图3. 2D检测器的不确定性成功地反映在3D姿态假设中。出于可视化目的,我们仅显示拟合的高斯和具有最高不确定性的关节的大量假设。方法MPJPE PMPJPE PCK CPS无条件71.7 57.2 91.2 137.6不含LHM72.4 56.2 92.2 157.3不含L代73.6 58.2 92.5 165.5不带LMB76.0 58.5 91.6 161.4LMB(k=1)71.854.9 92.6 167.4LMB(k = 10) 70。754.9 93.3 168.3LMB(k=50)71.0 55.2 93.1 168.0图4.深度模糊度可以与2D检测器的不确定性一起建模95908580757065电话:020 - 400 - 600 - 800#假设图5. 对子集H36MA的评估结果,假设数量不断增加。我们的模型进一步改进并扩大了[40]和噪声基线的差距。从拟合的高斯采样,我们还绘制了采样基线的结果。通过将从拟合高斯采样的噪声添加到z〇预测的每个联合来假定深度维度的恒定高斯显然,该基线的性能较早饱和并且具有较高的误差。4.6. 消融研究为了量化我们提出的组件和损失函数的影响,我们单独删除它们,并在表4中显示结果。可以看出,每个组件的移除导致性能的降低。当去除热图条件时,可以观察到CPS的大的下降。这示出了在没有2D检测器的不确定性信息的情况下不能重建单独提供条件已经导致CPS的显著改善,表明网络可以自动利用信息。54.第54章我的世界293。4171. 0表4.亚组H36MA的消融研究模型的模糊性。添加HM进一步改进了所有度量。当考虑最坏的假设误差而不是最好的假设误差时,鉴别器的重要性变得特别明显。例如,针对最差假设计算的方案2从86恶化。8mm至284. 1mm,无鉴别器。 因此,敌对的训练过程确保了生成的摆姿势表4还示出了被选择用于计算L_MB的最佳假设k的数量的影响。注意,k=1的L_MB等同于典型的M中最佳损失。5. 结论本文提出了一种基于归一化流的方法,用于从二维输入估计三维人体姿态的模糊反问题。我们通过在训练期间利用已知的3D到2D投影来利用归一化流的双射性。通过结合来自2D姿态检测器的热图的不确定性信息,维持了被先前的方法丢弃的有价值的信息。如所证明的,所生成的假设反映了这些不确定性,并且另外示出了沿着接头的模糊深度的有意义的多样性。此外,3D姿态鉴别器的引入确保了姿态的几何可行性,并且所提出的M中最佳损失的一般化提高了性能。实验结果表明,我们的方法优于所有以前的多假设方法在大多数指标,特别是在一个具有挑战性的子集的Human3.6M包含高度模糊的例子。鸣谢。这项工作得到了德国联邦教育和研究部(BMBF)的支持,在LeibnizKILabor项目下(批准号:01DD20003)、数字创新中心(ZDIN)和德国研究共同体(DFG)在卓越集群PhoenixD(EXC 2122)内的德国卓越战略下。z0+噪声Sharma等人[40]我们的MPJPE(mm)11207引用[1] 作者声明:Michael J.黑色. 三维人体姿态重建的姿态条件关节在IEEE计算机视觉和模式识别会议(CVPR),2015年。2[2] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的 分 析 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2014。6[3] 放大图片作者:Jakob Kruse,Sebastian J.放大图片创作者:Eric W.拉尔夫·佩莱格里尼Klessen,Lena Maier-Hein,CarstenRothe r,andUllrichKothe. 用可逆神经网络分析2019年国际学习表征会议(ICLR)。二三五六[4] LyntonArdizzone , CarstenL üth , Ja k obKruse ,CarstenRothe r,andUllrichKüthe.使用条件可逆神经网络的引导图像生成arXiv预印本arXiv:1907.02392,2019。二、四[5] Benjam inBiggs , Se' bastienEhrhadt , HanbyulJoo ,BenjaminGraham,Andrea Vedaldi和David Novotny。3d多体:将似真的3d人体模型的集合拟合到模糊的图像数据。神经信息处理系统进展,2020年。二、四[6] Christopher M.主教混合密度网络技术报告,阿斯顿大学,1994年。3[7] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL:从单个图像自动估计3D人体姿势和形状。欧洲计算机视觉会议(ECCV),2016。2[8] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+ 匹 配 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2017年。2[9] 海慈、淳于王、马小玄、益州王。三维人体姿态估计的优 化 网 络 结 构 。 IEEE International Conference onComputer Vision(ICCV),2019。2[10] Laurent Dinh , David Krueger , and Yoshua Bengio.NICE:非线性独立分量估计。国际学习表征会议(ICLR),2015年。3[11] Laurent Dinh,Jascha Sohl-Dickstein,and Samy Bengio.使 用 真 实 NVP 进 行 密 度 估 计 。 国 际 学 习 表 征 会 议(ICLR),2017年。三、四[12] 方浩树,徐元路,王文冠,刘晓柏,朱松春。学习位姿文法编码人体构形以进行3d位姿估测。在AAAI人工智能会议上,2018年。2[13] Mathieu Germain , Karol Gregor , Iain Murray , andHugo Larochelle.制造:用于分布估计的掩蔽自动编码器。在2015年国际机器学习会议(ICML)。3[14] Arthur Gretton,Karsten M. Borgwardt,Malte J. Rasch,BernhardScho¨ l k opf,andAl e xanderSmola. Akerneltwo-抽 样 检 验 Journal of Machine Learning Research(JMLR),13(25),2012. 5[15] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展(NeurIPS),2017年。五、六[16] AbnerGuz ma'n-riv era,DhruvBatra和PushmeetKohli。多项选择学习:学习产生多个结构化输出。神经信息处理系统进展(NeurIPS),2012年。二、五[17] Ikhsanul Habibie , Weipeng Xu , Dushyant Mehta ,Gerard Pons-Moll,and Christian Theobalt.在野生人类姿态估计使用显式的2d特征和中间的3d表示。在IEEE计算机视觉和模式识别会议(CVPR),2019年。2[18] 作者:Mir Rayat Imtiaz Hossain和James J.点利用时间资讯 进 行 三 维 位 姿 估 测 。 欧 洲 计 算 机 视 觉 会 议(ECCV),2018年。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功