没有合适的资源?快使用搜索试试~ 我知道了~
2850用于三维人体姿态和形状估计的可学习人体网格三角剖分Sungho Chun1Sungbum Park2Ju Yong Chang11韩国光云大学幼儿教育系2韩国NCSOFT{asw9161,jychang}@ kw.ac.kr,spark0916@ncsoft.com摘要在基于皮肤多人线性模型(SMPL)的多视点人体网格重建中,与关节位置估计相比,关节旋转和形状估计的准确性受到的关注相对较少。这一领域的工作大致可分为两类。第一种方法进行联合估计,然后通过拟合SMPL产生SMPL参数,得到关节。第二种方法通过基于卷积神经网络(CNN)的模型直接从输入图像回归SMPL参数。然而,这些方法的缺点是缺乏用于解决关节旋转和形状重建的模糊性的信息以及网络学习的困难。为了解决上述问题,我们提出了一个两阶段的方法。该方法首先通过基于CNN的模型从输入图像中估计网格顶点的坐标,然后将SMPL模型拟合到估计的顶点,从而获得SMPL参数。估计的网格顶点为确定关节旋转和形状提供了足够的信息在Human3.6M和MPI-INF-3DHP数据集上的实验结果表明,该方法在关节旋转和形状估计方面明显优于已有的方法,在关节位置估计方面也取得了较好的效果1. 介绍从单视点或多视点图像中估计人体姿态是一个长期存在的计算机视觉问题。在许多研究[9,11,30,35]中,人体姿势被简单地表示为身体关节的一组3D坐标。与关节坐标相比,人体关节的旋转和形状估计并没有得到太多的关注。然而,当3D关节坐标以及关节旋转和人体形状信息一起可用时,可以更好地描述人的身体,如图所示。1(a)和(c)。估计的关节和形状信息也可用于人体部位分割[13]和详细的人体网格重建。(一)(b)第(1)款(c)第(1)款图1:(a)关节位置估计,(b)关节拟合和(c)表面拟合的结果可视化。关节拟合和曲面拟合表明SMPL分别拟合到估计的关节集和顶点集。建筑[45,46]。蒙皮多人线性模型(SMPL)[22]经常用于多视图人体网格重建方法[32,33,38,42],其可以获取关节旋转和人体形状以及关节坐标。 之间与我们提出的方法最相似的方法是[42]。该方法首先从多视图图像估计3D关节,然后通过将SMPL-X [28]模型拟合到3D关节来额外计算关节旋转和形状信息然而,这种拟合框架严重依赖于正则化,因为关节坐标不提供足够的信息来解决关节旋转和形状信息的估计中的模糊性。然而,缺乏这样的信息可能会降低关节旋转和人体形状估计性能,如图所示第1段(b)分段。[33]中提出的基于卷积神经网络(CNN)的模型直接从输入多视图图像中回归SMPL姿态和形状参数。然而,从输入图像到SMPL参数的本文提出了一种可学习的人体网格三角化(LMT)方法,用于从稀疏的多视点图像中重建基于SMPL的人体网格所提出的方法可以解决上述两个问题。LMT首先从输入的多视图图像中估计人体表面顶点坐标,而不是人体关节,然后将SMPL模型拟合到所得顶点。这样的曲面顶点共-2851∼坐标提供了对关节旋转和人体形状的强约束,这可以帮助解决模糊性问题。此外,许多先前的工作[3,6,24,34,37,39]验证了基于热图的关键点估计可以通过CNN,特别是完全卷积网络轻松学习。我们的基本思想是将这种基于热图的关键点估计框架扩展到SMPL网格顶点估计,这可以解决直接SMPL参数回归中的非线性问题。为了重建基于SPL的人体网格顶点,我们扩展了人体姿势的可学习三角测量(LT)[11],这是一种基于热图的方法,用于估计稀疏关节到密集顶点。然而,LT的网格顶点的应用第一是计算复杂度高LT生成3D热图以估计身体关节。在稀疏关节的情况下没有观察到问题(例如,对于Human3.6M [10]和MPI-3DHP-INF[26])。相比之下,3D热图的使用可在密集网格顶点(例如,SMPL为6890)。然而,在所提出的方法中用于获得SMPL参数的优化过程相反,估计适当采样的子顶点可以提高模型的性能,同时解决计算问题,这是通过我们的实验证明。第二个问题是多视图特征之间的不一致性。在我们的方法中,多视图特征在未投影到3D空间后被在人体表面上的体素的情况下,聚合到体素中的多视图特征必须是一致的。然而,遮挡会导致聚集的多视图特征之间的不一致,这使得顶点坐标估计困难。为了缓解这个问题,我们建议利用从单视图网格重建方法获得的可见性信息其基本思想是利用可见性信息增加某个体素对可见视图特征的依赖性,降低对不可见视图特征的依赖性。实验结果表明,利用可见性信息可以解决多视图不一致问题,提高网格重建性能。本文的贡献可概括如下:• 我们定量和定性地证明了SMPL模型拟合人体表面顶点,而不是人体关节,导致更好的网格重建结果,关节旋转和人体形状。• 我们表明,计算问题,使其难以扩展基于热图的框架SMPL网格顶点可以通过子顶点估计,这也带来了额外的每-性能增益• 利用逐顶点可见性信息来考虑多视图特征的一致性。此外,跨数据集的实验表明,可见性的使用提高了我们的模型的泛化性能。• 在Human3.6M和MPI-INF-3DHP数据集上的实验证明了子顶点估计和逐顶点可见性的思想是有效的。因此,该框架在关节旋转和人体形状方面优于传统方法,同时在3D关节坐标方面显示出竞争力2. 相关工作2.1. 多视点联合估计已经提出了许多方法[9,11,12,29,30,36,40]在估计单个人的姿势的方法中,与我们的工作最相似的是LT [11]。LT在3D体素空间中聚合从多视图图像提取的2D特征,然后将3D卷积应用于聚合的特征以估计3D姿态。然而,最终LT输出是没有关节旋转信息的3D关节位置。相比之下,在我们的方法中,SMPL参数被估计,这使得能够对人体进行更丰富的重建,包括关节旋转和人体形状。2.2. 多视点联合与形状估计已经进行了许多研究[17,32,33,38,42,43]对于SMPL和SMPL-X参数估计,将模型拟合到[42]中的预测3D关节,并将3D关节馈送到[38]中的前馈网络中。相比之下,我们的方法估计SMPL参数使用3D网格顶点,而不是3D关节。由于人体表面为关节旋转和人体形状估计提供了比关节坐标更丰富的信息,因此我们的方法可以比基于关节的方法更准确地重建旋转和形状[38,42]。在[17]中,Mannequin数据集[18]用于训练一个模型,该模型在野外环境中稳健地预测SMPL参数。该数据集提供由动态相机捕获的静态人类的视频。[17]中的方法通过将运动恢复结构(SfM)算法应用于输入视频来执行3D联合估计。然而,SfM方法通常难以应用于稀疏多视图环境,例如,Human3.6M和MPI-INF-3DHP数据集,这是这项工作的重点。一个穿着衣服的人的几何形状在[43]中重建,2852⊕C∈C∈∈00CCcc=1图2:拟议方法的总体流程。 可见性贴图中的可见顶点以金色显示。表示连接操作。在[32]中使用了从动态相机获得的图像。他们的目标和设置与我们的工作不同。在[33]中,与我们的目标相同的现有工作,SMPL参数通过CNN模型直接从多视图图像回归。然而,由于回归函数的高度非线性,在这种方法中学习网络是困难的[4,13,15,16,19,20,27]。因此,我们的方法基于热图回归而不是参数回归来学习关键点估计网络,然后通过将SMPL拟合到由网络预测的人体网格顶点来获得SMPL参数3. 该方法3.1. 拟定方法我们提出了一种方法(即,LMT)来从由C校准的相机获得的多视图图像估计单个人的图2示出了所提出的方法的整体流水线,其由可见性模块、CNN主干、特征聚合模块、顶点回归模块和拟合模块组成能见度模块估计每个顶点的可见性vc∈RN的子-拟合模块通过将SMPL模型拟合到来自顶点回归模块的3D顶点坐标M来输出最终的关节坐标、旋转和形状信息3.2. 可见性模块可见性模块从单视图图像Ic计算逐顶点可见性图Vc。我们使用I2 L-MeshNet [27](最先进的单视图人体网格重建方法之一)和通用可见性计算算法1实现可见性模块。具体步骤如下。我们首先将单个图像Ic馈送到I2 L-MeshNet中,并获得在以人为中心的坐标系中定义的人体网格,该坐标系的原点被定义为骨盆关节。然而,视觉计算算法需要人体网格的相机坐标。因此,使用代数三角测量方法[11]来估计骨盆关节。估计的骨盆关节的相机坐标用于将I2 L-MeshNet获得的人体网格转换到相机坐标系中。然后使用可见性计算al-出租m来获得全方位的可见性图从每一个图像中采样网格,∈RH×W×3,顶点v满∈R6890。为了防止亲-其中N表示二次采样顶点的数量 CNN主干从输入的多视图图像Ic和每个顶点的可见性vc计算可见性增强图像特征F2DRH×W×K。特征聚合模块将输入图像特征F2D反投影到3D全局体素空间中以生成C体积非投影特征Vunproj∈R64×64×64×K,则聚集未投影的在给定的模型中,我们将额外的网格子采样[31]应用于vfull,并将子顶点的结果逐顶点可见性映射vc用于后续过程。3.3. 骨干CNN主干从输入的多视图图像输出可见性增强的图像特征{F2D}CC项目C{Ic}C和逐顶点可见性{Vc}C。 构建特征{Vc}c=1,以产生体积聚集。c=1c=1门控特性VaggR64×64×64×K。 顶点回归模块生成3D顶点坐标M使用3D卷积和软argmax运算[35],从聚合特征V中提取子采样网格的RN×3的根据[11],我们删除了在COCO [21]和MPII [1]上预训练的ResNet-152 [8]的最后一个分类和池化层,然后添加了三个1https://github.com/MPI-IS/mesh可见性模块1骨干121特征聚集模块骨干顶点回归模块拟合模块2可见性模块…C2853×∈ ××CC×CnCnC∈CC{·}V =(d子ΣCMNnn 1Σ1Σ∈Cc去卷积层和11卷积层到网络的后面。主干的最后一个去卷积层创建中间特征Fdeconv∈体积特征R64×64×64×32。 下一个,111对V应用 3D 卷 积 以 产 生 用 于 子 采 样 顶 点 的 3D 热 图H3D∈R64×64×64×N。细节RH×W×256。 将vc扩展到空间轴后,与中间特征Fdeconv级联。对级联特征应用自适应卷积以生成可见性增强图像特征F2D.的建议编码器解码器提出的补充,补充材料。使用3D软argmax运算来从3D热图H3D获得顶点坐标M:exp(H3D)3Dn(四)3.4. 特征聚合模块在要素聚合模块中,2D要素F2DCHn=Σi,j,kexp(H3D(i,j,k)),从脊椎上没有投射到一个长方体中,在3D世界空间中创建体积未投影特征V_unproj。然后,通过未投影特征的聚合来计算体积聚合特征Vagg。Mn=r·H< $3D(i,j,k),(5)i,j,k其中r=[ri,rj,rk]表示3D热图中具有索引(i,j,k)的体素的世界坐标向量H3D特征{Vunproj}C.在所提出的方法中,c c=1子采样网格的顶点坐标的信息M取决于长方体中未投影的3D特征。因此,长方体的位置和大小应该被设置为使得长方体包含目标人类受试者。对照,创建一个边长为2.0 m的长方体,以目标受试者的骨盆为中心。未投影要素的构造过程V 项目厅c如下所示通过F2D的非投影H3D和M n分别表示3D热图的第n个通道、归一化的3D热图和M的第n个行向量。为了训练所提出的网络,将L1损失应用于顶点回归模块生成的顶点:NL=M-M,(6)n=1我们首先投影长方体体素的3D坐标使用摄像机投影矩阵将V坐标R64×64×64×3投影到每个视 图 的 2D 图 像 平 面 中 ,并 获 得 2D 图 像 坐 标 VprojR64×64×64×2。接下来,使用双线性采样来从F 2D中提取对应于V proj的每个位置的2D特征,并且因此获得V unproj:Vunproj=F2D{Vproj},(1)其中M表示地面实况网格。3.6.拟合模块拟合模块用于获取顶点回归模块生成的顶点坐标M对应的SMPL参数。拟合模块基于根据现有作品的优化[23,25,28,41,42]和优化参数Θ ={z ∈C c cR32,R∈R6,β∈R10,t∈R3}包含VPoser其中表示双线性采样。然后使用3D softmax操作聚合3D世界空间中的C个未投影特征这可以写为:CAGG UNPROJCc=1exp(Vunproj)代码z,连续表示的全局旋转[44]R,形状参数β和全局平移t。根据潜在代码,VPoserV(·)计算SMPL姿态参数。eterθ=V(z)∈R69,其被馈送到SMPL解码器中M(·)与R、β和t一起生成SMPL网格M fit=M(θ,R,β,t)∈R6890×3。将SMPL 网格转化为子顶点Mfit=sub(Mfi t)∈RN×3[31][32][33][34][35][36][37][38][39][3 那个配件d=c,(3)CCc=1 exp(Vunproj)模块迭代地更新Θ以减小差。在拟合的网格M拟合的子顶点和重新拟合的子其中dc∈R64×64×64×K 和表示置信度gressed顶点M.子权重和逐元素乘法。3.5.顶点回归模块顶点回归模块采用3D卷积构成的编解码器结构生成顶点拟合的成本函数定义如下:E拟合=E数据+E调节,(7)2854联系我们2N从输入聚集特征Vagg中提取子采样网格M的坐标。编码器首先计算具有2×2×2分辨率和128通道尺寸的3D特征,1E数据=N接头,nn=1-Mn 第2章(8)从Vagg的信号,它被馈送到解码器输出一个Ereg=λzEz+λβEβ+λwEθw+λαEα,(9)2855sub,nE∈子∈E EEFC∥·∥其中Mfit和θw∈R6表示Mfit的第n行向量和两个腕关节的轴角表示。z、β和θw分别是z、β和θw的L2正则化项。α是指数正则化防止肘部和膝盖不自然弯曲的术语[2,28]。每个λ表示正则化权重。关节坐标J=GM fitR17×3可以使用预训练的关节回归矩阵GR17×6890从拟合的网格M fit获得。利用得到的J值来评价联合坐标估计的性能。4. 实验结果4.1. 实现细节输入图像Ic和2D特征2D的空间尺寸分别被设置为(H0,W0)=(384,384)和(H,W)=(96,96)。数据集中提供的边界框用于从输入图像中裁剪人体区域。随机旋转应用于长方体[11]沿着地面的垂直轴,并且不使用其他增强。 除了拟合模块,我们的网络是端到端训练的。可学习参数包括在主干和顶点回归模块中,并且它们的学习速率分别设置为1 e-4和1 e-3。将特征图K的迷你批量大小、时期数、子顶点数N和通道分别设置为3、15、108和32。 Adam优化器[14]用于训练我们的网络,使用单个RTX 3090 GPU大约需要3.5天。将网格子采样算法[31]应用于地面真实人体网格顶点以获得用于网络训练的子采样顶点。Adam优化器还用于更新拟合模块中的优化参数Θ。 拟合模块学习率、拟合迭代次数、λ w、λ z、λ β和λ α被设置为八个科目。为了公平比较,根据先前的工作[33],S1-S7用于训练,S8用于测试,并且在所有相机中使用视图0、2、7和8。MPI-INF-3DHP提供了地面实况3D人体关节,但不提供地面实况3D人体网格,因此使用伪地面实况网格来训练模型。通过将SMPL模型拟合到地面真实3D接头[28]来获得伪地面真实SMPL参数,但伪参数不用于评估。4.3.评估指标每关节位置误差平均值(MPJPE)是基于预测的身体关节与地面实况身体关节之间的L2距离来对于LMT,可以估计世界坐标系中的关节坐标。因此,在实验[9,11]之后,计算两个关节集之间的L2距离,而不对准预测的和地面真实的骨盆关节[5,13,15,16,19,20,27]。平均每顶点误差(MPVE)是基于预测网格顶点与地面真实网格顶点之间的L2距离来评估人体网格重建的性能的度量所提出的方法是通过MPVE评估,仅为人类3.6M数据集上的地面实况人类网格可用。现有的网格重建方法大多采用MPJPE和MPVE进行评价.然而,因为MPJPE和MPVE测量关节和顶点的位置误差,所以它们不提供关于是否准确估计身体部位的旋转的信息。因此,角距离dang[7]在估计的关节旋转和地面真实关节旋转之间用于评估所提出的方法:R−R6e-2、500、6e-2、2e-6、5e-6和5e-5。所有注册-简单地通过贪婪算法来确定最终化权重。dang= 2 sin−12√2、(10)搜索4.2. 数据集Human3.6M [10]是一个用于3D人体姿势估计的大规模数据集,包括从四个同步相机获取的3.6M视频帧和3D身体关节注释它包括11名人类受试者(5名女性和6名男性),根据以前的工作[11,33],S1,S5,S6,S7和S8用于训练,S9和S11用于测试。通过将MoSh[23]应用于Hu-man 3.6M获得的SMPL网格用于训练和测试,作为地面实况。输入图像在训练和测试之前是不失真的。MPI-INF-3DHP [26]是用于3D人体姿势估计的数据集,并通过多相机无标记MoCap系统获得。由于其测试数据包括单视图图像,因此仅训练由多视图(即,14)图像被用于我们的实验中。列车数据包括其中,R、R′和F表示预测的旋转矩阵、地面真实旋转矩阵和Frobenius范数。关节旋转相对于其父关节定义根关节的旋转(即,骨盆)表示整个身体的全局方向。本文中描述的所有角距离均以度为单位。MPJPE平均所有关节的3D位置误差,因此它不能提供关于仅特定关节具有大误差的情况的信息。因此,使用3DPCK [26]计算误差低于特定阈值的3D关节的比例。还列出了AUC [26],用于阈值非依赖性评价。4.4. 消融实验子顶点的数量。基于3D热图的SMPL网格顶点预测的主要问题是用于3D热图的过多的GPU存储器分配。这个问题-2856××××××××××× × ××× × × × ××数量的顶点MPJPEMPVE↓角度↓689019.8525.2111.9843118.4024.1511.6021618.9725.1011.7510818.1024.8811.545418.3526.4712.00表1:Human3.6M上估计顶点数量的消融结果。具有16 16 16分辨率的3D热图用于该表中的所有实验。���1=0。30���0.14=0.14���0.11=0.11���0.45= 0.45表2:Human3.6M上3D热图分辨率的消融结果。估计108个顶点,���1=0。26���0.00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000���0.10=0.10���0.62美元所有的实验都在这张桌子上。可以通过估计较少的子顶点来求解LEM举例来说,如果使用108个子顶点而非6890个SMPL顶点,那么用于3D热图的GPU存储器的大小减少约6890/108×63。八次。为了研究使用子顶点对网格重建性能的影响,根据表1中的顶点数量提供了MPJPE、MPVE和角距离结果。为了在相同条件下比较全顶点模型和所有子顶点模型,使用1616热图分辨率。 是全顶点模型的最大分辨率我们的计算资源是可以训练的。表1表明,在大多数情况下,使用子顶点比使用全顶点获得更好的定量结果。仅对于54个子顶点,MPVE和角距离性能与全顶点相比恶化。这种性能下降是由于54个子顶点不提供足够的信息关节旋转和形状重建,给定的柔软的材料。我们采用了108顶点模型,该模型显示了最佳的MPJPE和角距离性能,并且需要相对较小的热图大小。热图分辨率。使用不同的热图分辨率进行实验,以研究可以准确估计108个子顶点的模型。表2显示了热图分辨率设置为16 16 16、32 32 32和64 64 64的情况下的性能。该方法在64 64 64热图分辨率下表现出最佳性能。在本例中,热图的内存分配为64 64641084字节=113。2MB,类似于16 16的内存分配16 6890 4字节=112。9MB为全顶点允许根据表1和表2中全顶点模型的性能比较表2中的子顶点模型、108顶点模型热图分辨率MPJPEMPVE↓角度↓16× 16× 1618.1024.8811.5432× 32× 3218.0224.1911.4564× 64× 6417.5923.7011.332857CC×××图3:第一行显示输入的多视图图像。第二行和第三行显示了重建分别从softmax基线和LMT生成的网格。通过对与多视图上的红色像素相对应的置信度权重dc进行平均来获得d<$c沿着通道轴的图像。红色像素是通过将包括地面实况顶点的体素投影到右脚到每个图像平面。因此,d′c表示模型在多大程度上取决于从每个视图C获得的图像特征,以构造包含右脚顶点的体素的聚集特征。对于64 64 64,热图分辨率在没有附加存储器成本的情况下,对于所有评估度量实现了比全顶点模型更好的多视图不一致。 为了证明使用可见性有助于特征聚合,我们实现了不使用可见性的softmax基线,并将其 与 LMT 进 行 了 比 较 。 Softmax 基 线 通 过 直 接 将Fdeconv馈送到11卷积层中而不与可见性vc级联来生成图像特征F2D。当聚合多视图特征时,期望仅使用从其中人体表面可见的视图获得的特征,因为这导致聚合的多视图特征的一致性。然而,在softmax基线中,可能会出现多视图不一致问题,这可以通过使用可见性来缓解。在图1的第一和第四视图中,3、右脚清晰可见。在第三个视图中,右脚不可见,但可以根据上下文推断它在左脚后面。然而,在第二个视图中,严重的闭塞阻止了对右脚的估计。因此,依赖于从剩余视图而不是第二视图获得的特征对于估计右脚的位置是优选的但是,softmax基线显示对第二个视图的依赖性高于对第三个视图的依赖性,这会导致模型错误地估计2858†E模型MPVE†MPJPEMPVE角SoftmaxLMT22.1221.5017.8417.5924.1423.7011.4211.33表3:与Hu-man 3.6M上的softmax基线比较。意味着对来自顶点回归模块的回归顶点M进行评估。模型S1S2S3S4S5S6S7S8AvgMPJPESoftmax85.8364.0363.4282.5565.1871.6866.0270.7470.66LMT81.3261.4960.5078.6262.4771.3965.7766.7868.023DPCK↑Softmax89.1696.6895.0188.6794.3793.4294.0594.0493.32LMT90.2897.8095.8589.8195.2193.5294.9195.2294.07AUC↑Softmax53.0059.9762.1058.0160.1158.0660.4457.5358.91LMT53.9460.4762.5458.6660.3258.1260.5358.3359.30表4:softmax基线和LMT的交叉数据集评价。 这两个模型在Human3.6m上进行训练,并在MPI-INF-3DHP上进行评估。S1-S8表示MPI-INF-3DHP中的受试者。模型MPJPEMPVE↓角度↓LT接头[11,42]16.2135.2015.73LT-接头[11,42](不带reg)16.4042.9922.94LMT17.5923.7011.33LMT(不含注册)17.4825.3013.03表5:与Human3.6M上关节拟合的比较。“w/o reg” means that no regularization term右脚网格。另一方面,LMT使用可见性来减少对第二视图的依赖,并增加对其余视图的依赖。因此,LMT成功重建了右脚网格。使用可见性的效果。我们调查的定量结果,使用每顶点的关节坐标,旋转和形状估计方面的可见性。表3显示了在Human3.6M训练数据上训练softmax基线和LMT并在Human3.6M测试数据上评估的结果。表3中的 第 二 列 显 示 了 顶 点 回 归 模 块 估 计 的 子 顶 点 的MPVE,这证明了使用可见性有助于网络准确地估计人体表面表3的列3-5示出了即使在拟合之后,使用可见性也有助于改善MPJPE、MPVE和角距离结果。概括。所提出的方法利用几何信息(即,可见性)从用于特征聚合的单视图模型获得这种单视图模型可以使用比多视图模型更多的各种数据集进行训练。因此,使用来自单视图模型的几何信息引起通过这样的各种数据集的内隐学习的效果,并且有助于提高所提出的方法的通用化性能。为了定量地证明这一点,我们使用Human3.6M训练数据训练softmax基线和LMT,并针对MPI-INF-3DHP的所有子模块尽管存在差异,图4:与Human3.6M上关节拟合的定性比较。第一列显示输入图像。第二列和第三列分别显示通过LT拟合和LMT重建的网格。两个数据集,表4示出了LMT在评估联合坐标估计性能的所有度量中显著优于softmax基线。与接头配件的比较 我们证明了在人体表面上拟合比在人体关节上拟合带来更多益处[42]。然而,[42]的方法不能直接与LMT进行比较,因为它是用于多人网格重建的。因此,我们使用最先进的多视图联合估计方法LT [11]设计LT拟合基线LT-拟合修改数据以最小化预测和地面真实关节之间的差异,并使用与LMT相同的正则化项。表5显示了在Human3.6M上评价的LT拟合和LMT的MPJPE、MPVE和角距离结果。在LT-拟合和LMT的两种情况下,正则化的使用导致更好的联合旋转和形状估计。LT拟合比LMT更依赖于正则化。然而,LT拟合正则化显示更差的MPVE和角距离的结果比没有正则化的LMT。表6显示了每个关节的LT拟合和LMT的旋转误差。对于大多数关节,LMT的旋转预测性能明显优于LT-拟合。图4示出了通过LT拟合和LMT的人体网格重建。LT拟合不能很好地描述对象另一方面,LMT显示了令人满意的结果。所有这些结果表明,使用人体表面,而不是人体关节是有益的人体姿态和形状估计。4.5. 与Human3.6M的表 7 显 示 了 先 前 多 视 图 人 体 网 格 重 建 方 法 和 在Human3.6M上训练和评估的LMT的结果。相同的输入图像大小和相同的骨干用于与页面进行公平的比较,2859角度↓骨盆L型髋关节R-hip 躯干 L型膝关节右膝脊柱左脚踝右踝 胸部 脖子左旋甲状腺素R-thrx 头L-shld R-shld L-elbw R-elbw L-wrst R-wrstLT接头[11,42]8.18 10.10 9.37 10.759.179.217.817.3116.865.88 12.07 10.7211.64 12.52 11.6514.1820.2416.1443.0043.20LMT4.775.695.796.405.805.385.688.589.854.48 12.329.3910.22 10.69 11.8614.0613.4511.5019.5320.22表6:与Human3.6M上关节拟合的每关节旋转误差比较模型MPJPEMPVE↓角度↓(R50-224)参数回归[33个]46.90--(R50-224)LMT30.5642.2814.61(R152-384)LT接头[11,42]16.2135.2015.73(R152-384)LMT17.5923.7011.33表 7 : 人 3.6M 的 比 较 结 果 。 “R50- 224” means thatResNet-50 backbone and input image of 同样,ResNet-152和384×384分辨率。模型MPJPE3DPCK↑AUC↑(R50-224)参数回归[33个]50.2097.4065.60(R50-224)LMT45.8796.5971.57(R152-384)LT接头[11,42]33.3399.6077.23(R152-384)LMT33.7099.3777.09表8:MPI-INF-3DHP的比较结果。回归分析法[33]。由于[33]未提供MPVE和角距离结果,因此使用MPJPE进行比较,这表明LMT显著优于[33]的方法。这些结果表明,基于热图的顶点回归和随后的SMPL拟合的组合比直接从输入图像回归SMPL参数的方法带来更准确的结果。LT拟合与LMT的不同之处在于SMPL拟合到人体关节而不是人体表面。由于这种差异,LT拟合没有获得足够的信息来解决关节旋转和人体形状确定的模糊性,因此实现了比LMT明显更低的MPVE和角距离性能4.6. MPI-INF-3DHP的比较表8显示了先前多视图人体网格重建方法和在MPI-INF-3DHP上训练和评估的LMT的结果。为了与[33]进行公平的比较,LMT模型在Human3.6M上进行了预训练,然后在MPI-INF-3DHP上进行了微调。对于阈值为150 mm的3DPCK,[33]显示出比LMT更好的结果,但对于阈值无关AUC,LMT显示出更好的结果。此外,与Human3.6M一样,LMT显示出更好的MPJPE性能。LMT模型与LT拟合的联合协方差估计结果具有竞争性。在MPI- INF-3DHP的情况下,未提供地面实况SMPL参数,因此未呈现联合旋转和形状估计结果。然而,LMT给出了比LT拟合更好的网格重建结果,如图所示五、5. 结论本文提出了一种基于可见性的子顶点估计和曲面拟合两阶段方法图5:与MPI-INF-3DHP上接头的定性比较。 第一列显示输入图像。第二列和第三列分别显示通过LT拟合和LMT重建的网格。以从多视图图像重建单个人体网格。子顶点而不是全顶点的估计解决了过度GPU内存使用的问题此外,使用逐顶点可见性通过缓解多视图不一致问题来改善网格顶点估计性能。表面拟合也证明,stated,以帮助估计关节旋转和人体形状相比,联合拟合。实验结果表明,在Human3.6M和MPI-INF-3DHP数据集上,LMT的重建效果明显优于已有的多视点人体网格重建方法.然而,由于使用单视图网格重建模型来获取可见性使所提出的模型复杂化,因此需要额外的研究以获得更有效的方法来获取可见性信息。此外,更多样化的观点和在野外输入图像的调查是另一个未来的工作。确认这项工作部分得到NCSOFT的支持,部分得到三星电子三星研究基金中心SRFCIT-1901-06项目的支持。2860引用[1] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的分析。在CVPR,2014年6月。[2] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL:从单个图像自动估计3D人体姿势和形状。ECCV,第561-578页,2016年[3] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。InIJCV,2017.[4] Hongsuk Choi,Gyeongsik Moon,and Kyoung Mu Lee.Pose2mesh:用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络在ECCV,2020年。[5] Hongsuk Choi,Gyeongsik Moon,and Kyoung Mu Lee.Pose2mesh:用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络在ECCV,2020年。[6] Matteo Fabbri,Fabio Lanzi,Simone Calderara,StefanoAl-letto,and Rita Cucchiara.用于多人3d姿态估计的压缩体积热图。在CVPR,2020年。[7] 理查德岛作者声明:作者声明:旋转平均。IJCV,103(3):267[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[9] Yihui He,Rui Yan,Katerina Fragkiadaki,and Shoou-IYu.对极变压器。在CVPR,第7779-7788页[10] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu. Human3.6m:大规模数据集和预测方法,用于自然环境中的3D人体感知。TPAMI,36(7):1325[11] Karim Iskakov ,Egor Burkov, Victor Lempitsky ,andYury Malkov.人体姿势的可学习三角测量。在ICCV,2019年。[12] Abdolrahim Kadkhodamohammadi和Nicolas Padoy。一种可推广的多视角三维人体姿态回归方法。arXiv预印本arXiv:1804.10462,2018。[13] 作者:Michael J.作者:David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在CVPR,2018年。[14] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议[15] 放大图片作者:Michael J.布莱克和科斯塔斯·丹尼利迪斯学习通过循环中的模型拟合重建3d人体姿势和形状。在ICCV,2019年。[16] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积 网格 回归 用于 单幅 图像的 人体 形状 重建 。在CVPR,2019年。[17] VincentLer oy,PhilippeWeinzaepfel,RomainBr e'gie r,HadrienCombaluzie r,andG re' goryRogez. 在野外对三维人体姿态估计进行了简单的基准测试在3DV,2020。[18] Zhengqi Li , Tali Dekel , Forrester Cole , RichardTucker,Noah Snavely,Ce Liu,and William T Freeman.通过观察冷冻人来学习感动人的深度。在CVPR,2019年。2861[19] Kevin Lin,Lijuan Wang,and Zicheng Liu.端到端的人类姿势和网格重建与变压器。在CVPR,2021年。[20] Kevin Lin , Lijuan Wang , and Zicheng Liu. 网 格graphormer。ICCV,2021。[21] Tsung-Yi Lin,Michael Maire,Serge Belongie,JamesHays,Pietro Perona,Deva Ramanan,Piotr Dollar,and Larry Zitnick. Microsoft coco:上下文中的公共对象InECCV,September 2014.[22] Matthew Loper,Naureen Mahmood,Javier Romero,Gerard Pons-Moll,and Michael J.黑色. SMPL:一个有皮肤的多人线性模型. ACM TOG,34(6):248:1-248:16,Oct. 201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功