没有合适的资源?快使用搜索试试~ 我知道了~
7054稠密对应王增1、欧阳万里2、罗平3、刘文涛4、王晓刚1.41香港中文大学2悉尼大学3香港大学4商汤科技{zengwang@link,xgwang@ee}. cuhk.edu.hk,wanli. sydney.edu.au,pluo@cs.hku.hk,liuwentao@sensetime.com摘要从一幅二维图像中估计人体的三维网格是增强现实和人机交互等应用中的一项重要任务然而,现有的工作从通过使用卷积神经网络(CNN)提取的全局图像特征重建3D网格,其中网格表面和图像像素之间的密集对应丢失,导致子局部特征图UV转印变换特征Locationmap最优解本文提出了一种无模型的三维人体网格估计框架DecoMR,它明确地建立了网格与UV空间中局部图像特征之间的稠密对应关系(即,在UV空间中,局部图像特征与网格之间的稠密对应关系)。用于3D网格的纹理映射的2D空间)。De-coMR首先预测像素到表面的密集对应图(即,IUV图像),我们把局部特征从图像空间转移到UV空间。然后,在UV空间中处理转移的局部图像特征以回归位置图,该位置图与转移的特征很好地对准。最后,利用预先定义的映射函数,从回归后的位置图中重建三维人体网格。我们还观察到,现有的不连续UV映射对网络的学习是不友好的。因此,我们提出了一种新的UV地图,保持了原始网格表面上的大部分相邻关系。实验表明,我们提出的局部特征对齐和连续UV映射在多个公共基准测试中优于现有的基于3D网格的方法代码将在https上提供//github.com/zengwang430521/DecoMR网站。1. 介绍从单目图像中估计完整的人体姿势和形状是各种应用的基本任务,例如人类动作识别[12,35],VR/AR[11]和视频编辑[10]。它具有挑战性,主要是由于固有的深度模糊性和难以图1.现有方法(例如,SPIN [20]和CMR [21])通常从神经网络提取的全局图像特征向量重建人体的3D网格,其中网格表面和图像像素之间的密集对应丢失,导致次优结果(顶部)。我们的DecoMR框架借助一种新颖的连续UV映射在特征空间中明确建立了这种对应关系,从而在网格细节方面获得了更好的结果(底部)。获得地面真实三维人体数据。在文献中有几种流行的3D对象表示,点云、三维体素和三维网格。由于其与现有计算机图形引擎的兼容性以及通过合理的存储来表示物体表面细节的效率,3D网格表示已被广泛用于3D人体表示[18,4,20,8,27,38,11,26,25,37,21,39]。然而,与3D体素表示不同,模板人体网格表面和图像像素之间的密集对应缺失,而输入和输出之间的 由于这种限制,大多数现有的基于3D网格的方法,无论是基于模型的[18,26,25,20]还是无模型的[21],都必须忽略网格表示和像素表示之间的对应关系。他们必须基于全局图像特征[18,21,20]或分层投影和细化[39]来估计人体网格,这是耗时的并且对初始估计敏感。利用3D网格表示而不丢失先前的最先进技术全球特征向量SMPL方法或Graph-CNNCMR自旋IUV图像UV映射7055在此基础上,提出了一种三维人体网格估计框架,该框架明确地建立了输出三维网格和输入图像在UV空间中用新的UV贴图表示输出网格网格曲面上的每个点都由其在连续UV贴图上的坐标表示因此,3D网格可以表示为UV空间中的位置图,其像素值是其在网格表面上的对应点的3D坐标,如图1所示。我们没有使用SMPL默认的UV贴图,而是通过将整个网格表面参数化为UV平面上的单个部分,构建了一个新的连续UV贴图,该贴图保持了原始网格表面的更多相邻关系,如图1所示。将图像特征映射到UV空间:为了将图像特征映射到连续的UV映射空间,我们首先使用一个网络,该网络将单目图像作为输入来预测IUV图像[2],该网络将每个像素分配给特定的身体部位位置。然后,在预测IUV图像的指导下,将来自解码器的局部图像特征转移到UV空间,构造与相应网格区域对齐的转移特征图。在给定局部特征的情况下,我们利用局部特征和全局特征来估计UV空间中的位置映射,进而利用预定义的UV映射函数来重建三维人体网格由于我们的UV贴图是连续的,并且保持了身体部位之间的相邻关系,因此当局部特征被转移时,身体部位之间的细节可以被很好地保留。总之,我们的贡献有两方面:• 我们提出了一种新的UV地图,保持了原始网格表面上的大部分• 我们显式地建立了输出三维网格和输入图像之间的稠密对应关系,通过转移的局部图像特征。我们广泛评估我们的方法在多个广泛使用的基准三维人体重建。我们的方法在三维人体网格重建和三维人体姿态估计上都达到了最先进的性能。2. 相关工作2.1. 优化方法先锋工作通过优化预定义的三维人体网格模型的参数来解决三维人体重建,SCAPE [3]和SMPL [23],相对于地面实况身体标志位置[8],或采用2D关键点估计网络[4]。为了提高精度,在[22]中使用了额外的标志。最近的工作[38]通过结合人类语义部分分割线索、场景和时间约束来实现多人身体重建。2.2. 学习方法基于模型的方法:从单幅图像直接重建三维人体是一个比较困难的问题。因此,许多方法结合参数化的3D人体模型,并将问题转化为模型参数回归。例如,HMR [18]直接从RGB图像回归SMPL参数。为了减轻由野外训练数据的不充分引起的鲁棒性的缺乏,一些方法采用中间表示,例如2D联合热图和轮廓[26]、语义分割图[25]或IUV图像[36]。最近,SPIN [20]通过用优化结果监督网络,将3D人体模型参数优化结合到网络训练过程中,并在基于模型的3D人体估计方法中取得了最先进的结果与基于优化的方法相比,模型参数回归方法计算效率更高。虽然这些方法可以利用嵌入在3D人体模型中的先验知识,并且倾向于与无模型方法重构更生物学上合理的人体,但是这些预定义的人体模型的表示能力也受到参数空间的限制。此外,如[21]所述,三维人体模型参数空间可能对网络的学习不那么友好。相反,我们的框架不回归模型参数。相反,它直接输出每个网格顶点的3D坐标。无模型方法:有些方法不依赖于人体模型,直接从图像中回归3D人体表示。BodyNet [33]使用Voxel-CNN估计3D人体的体积表示。最近的一项工作[6]估计了可见和隐藏的深度图,并将它们组合起来形成人体的点云基于体素和然而,重建表面细节的能力受到存储成本的限制。CMR [21]使用Graph-CNN直接从图像特征回归顶点的3D坐标。Densebody [37]以UV位置图的形式估计顶点位置。最近的工作[28]使用2D几何图像表示3D形状,其可以被视为一种特殊的UV位置图。这些方法不使用任何人-人模型.但是,它们仍然缺乏人体网格与图像之间的对应关系,并且仅仅依靠图像的全局特征来估计整个表面。相反,我们的方法可以利用局部特征进行重建7056IUV图像GTIUV图像相机参数李李洛乔克位置GT位置mapmap局部特征转移功能介绍位置网通信网全局特征向量参考网格3Dmesh网布Tmesh网布UV转移FC层FC层图2.概述我们的框架。给定一幅输入图像,首先通过对应网络预测IUV图。然后将局部图像特征转移到UV空间。定位网络以传递的局部特征、扩展的全局特征和参考定位图为输入,并对定位图进行回归。最后,从位置图重建三维网格。相应的表面积。UV空间表示的有效性已经在最近的工作Tex2Shape[1]中得到了证明,其中3D人体形状是从纹理图中估计的,该纹理图是通过根据由DensePose [2]估计的IUV图像转移图像像素而获得的。我们还使用IUV图像来指导人体网格估计。然而,在[1]中,UV传输用于预处理原始图像并且独立于模型学习,而我们将UV传输合并到我们的网络中以实现端到端学习。我们观察了端到端学习转移特征的有效性,这也已经被先前的工作所证 明 , 空 间 Transformer 网 络 [15]和 可 变 形 ConvNets[5]。最近,HMD [39]通过分层投影和网格变形来细化初始估计的人类网格。PIFu [30]将三维人体重建为隐函数。HMD和PIFu能够利用局部图像特征在重建结果中实现令人印象深刻的细节。然而,HMD计算量大,对初始估计敏感,而隐函数缺乏人体的语义信息相比之下,我们直接从图像中估计像素到表面的密集对应关系,这是计算效率和更强大的,并且位置图保持了人体的语义信息3. 我们的方法概况. 如图2所示,我们的框架De- coMR由两个组件组成,包括在图像空间中执行的密集对应估计网络(CNet)的CNet具有编码器-解码器架构来估计IUV图像。它还提取局部图像特征Fim,然后使用估计的IUV图像将图像特征Fim转换为转换的局部特征FUV 在UV空间。LNet将上述传递的局部特征FUV作为输入,并回归位置图X,其像素值是网格表面上对应点最后,通过使用预定义的UV映射函数从上述位置图重建3D人体网格V结果,位置图和转移的特征图在UV空间中很好地对准,从而导致输出3D网格和输入图像之间的密集对应。虽然SMPL UV地图[23]被广泛用于在文献[37,1,7]中,它失去了不同身体部位之间的相邻关系,如图3(a)所示,这对于[21]中所述的网络学习至关重要。因此,我们设计了一个新的UV贴图,它能够在原始网格表面上保持更多的相邻关系,如图3(b)所示。DecoMR的总体目标函数是L=LIUV +LLoc + λconLcon.(一)它有三个不同目的的损失函数。表示为LIUV的第一损失使预测IUV图像与地面实况IUV图像之间的距离最小化。第二个损失函数表示为LLoc最小化回归的人体网格之间的不相似性(例如,位置地图)和地面实况人类网格。为了增强输出网格与输入图像对齐,我们添加了一个额外的损失函数,表示为Lcon,这是一个一致的损失,以增加回归位置图和地面实况IUV图像之间的一致性。等式1中的λcon是用于平衡7057一致损失我们首先在下面定义新的UV映射,然后详细介绍不同的损失函数。3.1. 连续UV贴图首先,我们定义了一个新的连续的UV地图,保留更多的原始网格的相邻关系比普通的UV地图SMPL。如图3(a)所示,多个网格表面部分分别放置在SMPL默认UV贴图上,这会丢失原始网格表面的相邻关系。代替利用SMPL UV图[1,7,37],我们设计了一个新的连续(一)(b)第(1)款RGB图像IUV图像UV贴图3D网格UV贴图。我们首先小心地将模板网格分割成一个开放的网格,同时保持整个网格表面为 整体然后,我们利用面积保持3D网格平面参数化的算法[14,16],以最小化UV图和原始网格表面之间的面积失真,以获得初始UV图。为了保持UV贴图上每对对称顶点的对称性,我们通过首先将拟合的对称轴与v轴对齐,然后对对称顶点翻转v轴的UV坐标进行平均来比较。在这里,我们定量地表明,连续UV贴图优于SMPL UV贴图,保持网格上顶点之间的连接关系的术语。为此,我们计算距离矩阵,其中每个元素是每个顶点对之间的距离。我们还计算UV贴图上的距离矩阵。图4示出了这样的距离矩阵。该距离矩阵可以通过使用不同类型的数据来计算。对于网格表面,两个顶点之间的距离被定义为从网格构建的图上它们之间的最小路径的长度。对于UV贴图,两个顶点之间的距离直接由它们的UV坐标之间的距离计算。现在我们从两个方面定量评估UV贴图和原始网格的距离矩阵之间的相似性,如表1所示在第一方面,我们计算表示为S1的2D相关系数。我们有图3.UV贴图的比较行(a)显示SMPL默认UV贴图,行(b)显示我们的连续UV贴图。SMPLUV贴图我们的UV贴图原始网格图4.比较SMPL UV贴图、建议的UV贴图和原始网格表面上计算的顶点之间的距离矩阵。与SMPL UV贴图相比,所提出的UV贴图的距离矩阵与原始网格的距离矩阵更相似。UV图2D相关(S1)余弦相似度SMPL [23]0.21320.8306我们0.77580.9458表1.原始网格曲面的顶点距离矩阵与不同类型UV贴图的相似性比较。S1是二维相关系数,S2是归一化余弦相似性。我们看到,所提出的UV图在两个指标上都优于SMPL默认的UV图。UV贴图比SMPL UV贴图保留更多的相邻关系。像素到网格对应。 与提出的UV贴图,网格表面上的每个点都可以用它在UV贴图上的坐标来表示(即,UV坐标)。因此,我们可以预测像素到表面的对应关系,ΣΣΣ。Amn−A<$ΣBmn−B<$通过估计每个像素的UV坐标,渴望人体,导致IUV图像,如图所示S1 =. .M nΣΣΣ。Σ2Σ Σ在图3中,更重要的是,我们还可以表示3D使用UV空间中的位置映射创建 2002网格,其中像素Amn−A<$M nBmn−B<$M n(二)值是网格曲面上相应点的三维坐标。从而使三维网格的重建变得容易其中A和B是原始网格的距离矩阵从具有以下公式的位置地图,和UV地图,请注意。A和B是平均值V =X(u,v),(3)A和B分别。m和n是网格顶点的索引。在第二个方面,我们计算UV映射和原始网格的距离矩阵之间的归一化余弦相似度,记为S2。从表1中,我们可以看到,我们的连续UV图在两个度量值上都比SMPL UV图好得多,这表明我们的.7058我我我其中Vi表示顶点的3D坐标,X是位置图,ui和Vi是顶点的UV坐标3.2. 密集通信网络(CNet)CNet在输入图像的像素和3D网格表面的区域之间建立密集的对应关系作为7059Zi¨¨2¨iJJIUV图像UV图RGB图像转移像素李图像空间坐标IUVImage UVmap图5.原始图像像素的UV转移的图示。在IUV图像的引导下,可以将图像空间中的元素转移到UV空间中。如图2所示,CNet具有编码器-解码器架构,其中编码器采用ResNet 50 [9]作为后端。投影二维坐标传输的3D坐标Location map骨,和解码器由几个上采样和卷积层与编码器跳过连接。特别地,编码器将图像编码为局部特征图和全局特征向量,以及回归用于将3D网格投影到图像平面中的相机参数。解码器首先生成人体的掩模,该掩模区分前像素(即,人的身体,从后面。然后,解码器输出图6.说明我们在位置图和IUV图像之间的一致损失。利用IUV图像将位置图中的三维坐标转换回图像空间,然后投影到图像平面上。投影的2D坐标由图像空间中的图像像素的坐标监督。特征和参考位置图作为输入。直观地,我们在预测位置图X和地面实况位置图X之 间 应 用 加 权 的 l1 损 失 ,即,前像素的精确UV坐标,构成IUV图像如图3所示根据预测的IUVL=1000¨你好。(六)图像,网格表面上的对应点,地图W(u,v)·<$X(u,v)−X(u,v)<$uv1可以确定每个图像像素的损失函数CNet包含两个术语,LIUV =λcLc+λrLr,(4)其中Lc是用于将每个像素分类为“前”或“后”的密集二进制交叉熵损失W是一个权重贴图,用于平衡不同网格区域的贡献,其中远离躯干的区域被分配了更高的权重。我们还从预测的位置图重建3D人体网格然后,我们增加了对关节在图像空间中的3D坐标和投影2D坐标的监督,即,3.3. 顶点坐标回归位置网(LNet)旨在回归3D坐标ΣkL3D=我¨ ¨ Z1 、(7)通过输出一个位置图,可以容易地重建3D网格。如图2所示,LNet首先将图像特征从图像ΣkL2D=我vi(zi−z在预测的IUV图片:FUV(u,v)=Fim(x,y),(5)其中(x,y)是像素在图像空间中的坐标其中,Z i和z i是关节的回归3D和2D坐标,而Zi和zi是指地面实况关节的坐标,并且v i表示关节的可见性。最后,LNet的全部损失为分类为前,并且(u,v)是这些像素在UV空间中的预测坐标Fim是图像Lloc=L地图+L3D+ L2D。(九)空间,FUV是UV空间中的转换特征图。特征图FUV与输出位置图很好地对齐。因此,LNet可以利用相应的局部图像特征来预测位置图。通过这种方式,明确地建立了图像像素与网格表面区域之间图5中示出了原始图像注意我们的框架传输特征而不是像素值。LNet是一个轻型CNN,具有跳过连接,采用传输的局部图像特征,扩展的全局图像特征,(,)(,)投影(,)JJ7060一致性损失:除了上述广泛使用的监督,我们增加了一个额外的监督之间回归本地,图和地面实况IUV图像,以改善3D网格和图像之间的如图6所示,对于IUV图像,我们还可以将位置映射从UV空间传输回图像空间,并获得每个前景像素的3D坐标。然后将3D坐标投影到图像平面以获得2D坐标,该2D坐标应与图像空间中的像素那么一致的70612损失计算如下:ΣLcon=(x,y)<$(x,y)−π(X(u,v),c)<$2,(10)其中,X是预测位置图,π(X,c)表示具有预测相机参数c的投影函数,并且x、y、u、v与等式5中的相同这种一致性损失与Rong等人最近工作中的损失项Ldense相似。[29]第10段。然而,在我们的框架中,不需要像[29]中那样计算网格表面上的对应点,因为网格表面和图像像素之间的对应关系已经建立。3.4. 实现细节我们将λ c、λ r和λ cons设为0。分别为2,1和1,并使用Adam优化器优化框架[19],批量大小为128,学习率为2.5e-4。训练数据通过随机缩放、旋转、翻转和RGB通道噪声来增强。我们首先训练CNet 5个epoch,然后端到端训练整个框架30个epoch。4. 实验4.1. 数据集在实验中,我们在Hu- man3.6M [13],UP-3D [22]和SURREAL [34]数据集上训练我们的模型,同时我们在Human3.6M,SURREAL和LSP数据集的测试集上提供评估[17]。Human3.6M:Human3.6M [13]是一个用于3D人体姿势估计的大规模室内数据集,包括多个执行典型动作的受试者,如行走,坐下和进食。根据常见的设置[18],我们使用主题S1、S5、S6、S7和S8作为训练数据,并使用受试者S9和S11进行评估。对于评价,根据两种流行的方案,使用两种广泛使用的指标(MPJPE和MPJPE-PA)报告结果:P1和P2,如[18]中所定义,UP-3D:UP-3D [22]是一个室外3D人体姿势估计数据集。该方法通过对二维人体姿态基准点图像进行SMPL模型拟合,得到三维人体的地面真实值我们利用训练集和验证集训练SURREAL:SURREAL数据集[34]是一个大型数据集,提供具有地面实况SMPL模型参数的合成图像我们使用标准分割设置[34],但重新移动具有不完整人体的所有图像,并在与BodyNet [33]相同的采样测试集上进行评估。LSP:LSP [17]数据集是一个2D人体姿势估计基准。在我们的工作中,我们评估了每个模型在分割注释上的分割准确性[22]。4.2. 与最新技术在本节中,我们将我们的方法与其他最先进的基于网格的方法进行比较。表2.在Human3.6M测试集上与最先进的基于网格的3D人体估计方法进行这些数字是P2下Procrustes对线的关节误差,单位为mm,越小越好。我们的方法实现了国家的最先进的性能。方法表面误差[22]第二十二话75.3Tung等人[32个]74.5[33]第三十三话73.6我们56.5表3.与SUR- REAL数据集上的最新方法进行比较。数字是平均顶点误差,单位为mm,越小越好。我们的方法以较大的幅度优于基线FB分段零件段acc.F1acc.F1SMPLifyoracle [4]SMPLify [4][26]第二十六话92.1791.8992.170.880.880.8888.8287.7188.240.670.670.64HMR [18]91.670.8787.120.60CMR [21]91.460.8788.690.66[20]第二十话91.830.8789.410.68我们92.100.8889.450.69表4.与LSP测试集上的最新方法进行比较数字是准确性和f1分 数 , 越高 越 好 。 SMPLify [4] 是 基 于 优化 的 , 而 HMR[18],CMR [21],SPIN [20]和我们的方法是基于回归的。我们的框架实现了基于回归的方法中最先进的结果,并与基于优化的方法竞争。表2显示了Human3.6M测试集的结果。我们按照CMR [21]的设置训练我们的模型,并利用Human3.6M和UP-3D作为训练集。我们的方法达到了最先进的性能之间值得注意的是,SPIN [20]和我们的方法侧重于不同的方面,并且是兼容的。SPIN [31]专注于使用具有稀缺3D地面真实数据的数据进行训练,并且网络使用来自2D人体姿势基准的额外数据进行训练而我们专注于网格和图像之间的密集对应关系,并且不包括来自2D人体姿势基准的数据。同样,我们在SURREAL数据集上显示了结果,方法MPJPE-PALassner等。[22日]SMPLify [4]93.982.3帕夫拉科斯等。[26日]75.9HMR[18]56.8NBF[25]59.9CMR[21]50.1[36]第三十六话48.0[20]第二十话41.17062RGB图像表5.不同UV的Human3.6M测试集的比较GT网格网格曲面UV空间倒退locationmap估计网格网格细节地图和位置网的输入数字是以mm为单位的3D关节误差。FG和FL分别指全局特征向量和局部特征图对于这两种UV图,使用局部特征的框架优于使用全局特征的基线,具有较大的裕度。结合全局特征和局部特征进一步提高了性能。然而,转移原始图像像素带来的增益要小得多在相同的输入下,使用我们的UV贴图的框架优于使用SMPL默认UV贴图的框架表3.我们的模型只使用SURREAL数据集的训练数据进行训练,并且比以前的方法有很大的优势。SURREAL数据集上的人体形状变化很大,这验证了该方法的人体形状重建能力。我们还研究了人体形状估计精度通过评估前景背景和部分分割性能的LSP测试集。在评估过程中,我们使用的投影的三维网格作为分割结果。预测的IUV图像不用于评价以进行公平比较。结果如表4所示我们的基于回归的方法优于现有技术的基于回归的方法,并且与基于优化的方法竞争,基于优化的方法倾向于在该度量上优于基于回归的方法,但是具有低得多的推理速度。4.3. 消融研究在本节中,我们提供了所提出的方法的消融研究我们使用来自Human3.6M和UP-3D数据集的训练数据训练所有网络,并在Human3.6M测试集上评估模型。稠密对应:我们首先研究3D网格和图像特征之间的稠密对应我们训练的网络只使用全局特征或转移的局部特征作为LNet的输入。比较结果见表5。对于两种UV图,利用转移的局部特征的框架以较大的裕度优于使用全局特征的基线,这证明了所建立的稠密对应的有效性将全局特征与局部特征相结合进一步提高了性能。我们还训练框架,图7.使用我们的新UV贴图(顶部)和SMPL默认UV贴图(底部)重建的网格示例。SMPL默认UV贴图可能会导致不同零件之间的不连续性以及零件边缘附近某些顶点的错误估计。而我们新的紫外线地图缓解了这些问题。而不是图像特征,并且观察到比转移局部特征少得多的改进。我们把这种现象归因于缺乏人的姿态信息transfered原始像素。对于具有不同姿势的同一个人的图像,特定身体部位的像素将被转移到UV空间中的相同位置,这为LNet生成类似的输入。因此,LNet只能使用传输的像素来细化人体形状的估计,并且只能基于全局特征来预测人体姿势。相反,CNet能够将人体姿势信息嵌入到图像特征中。然后,LNet可以求助于转移的特征来细化人体形状和姿态估计。UV图:对于第二次消融研究,我们研究了不同UV图的影响。我们比较了使用SMPL默认UV映射[23]和我们的连续UV映射的框架的如表5所示,对于相同的LNet输入, 使用我们的连续UV图的框架比使用SMPL默认UV图的这些框架表现得更好。我们将增益归因于新UV贴图的连续性。如图7所示,网格表面上的一些相邻部分在SMPL默认UV贴图上是遥远的,例如手臂和手。这可能导致最终3D网格上 Additionally, some faraway sur- face parts are veryclose on the UV plane, such as hands and foots, whichmight cause erroneous estimation of ver- tices on edges ofthese parts.这些现象都在图7中示出。相反,我们的UV地图保留了更多的原始网格表面的相邻关系,所以这些问题得到缓解。4.4. 定性结果一些定性结果如图8所示,图9包括一些失败案例。典型的失败案例可以归因于具有挑战性的姿势,很少看到的观点UV地图FGFL原像素MPJPEMPJPE-PAP1P2P1P2C72.168.951.949.1SMPLCCC71.965.069.661.747.445.144.842.6CC65.063.246.544.7C69.567.749.447.1我们CCC69.862.768.460.644.642.242.339.3CC63.261.045.542.67063图8.我们方法的定性结果。表1-3:LSP [17]。第4-5章:人类3.6M [13]。(a) 图像(b)结果(c)图像(d)结果图9.我们的方法的错误重建的例子。典型的失败可归因于挑战性姿势、训练集中罕见的观点、严重的自我密切以及多人交互引起的混淆。在训练集中,严重的自我密切,以及由多人之间的交互引起的混乱。5. 结论本文的工作旨在解决图像特征与输出3D之间基于网格的单目3D人体估计中的网格通过IUV图像估计和图像特征转换明确建立了对应关系。我们的框架不是从全局特征重建人体网格,而是能够利用额外的密集的局部特征转移到UV空间。为了方便框架的学习,我们提出了一种新的UV映射,保持了更多的原始网格表面的相邻关系。我们的框架在几个公共基准上实现了基于3D网格的方法中最先进的性能未来的工作可以集中在扩展框架,以重建现有的人体模型以外的表面细节,如衣服的皱纹和发型。确认我们感谢审阅者的有益讨论和评论。欧阳万里获得了澳大利亚研究委员会基金DP200103223的资助.7064引用[1] T. Alldieck , G. 庞 斯 莫 尔 角 Theobalt 和 M. 玛 格 诺Tex2shape:从一个单一的图像详细的完整的人体几何形状。arXiv预印本arXiv:1904.08645,2019。[2] R. AlpGuüler,N. 我也是。 好的密度:野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集,第7297-7306页[3] D. Anguelov , P. 斯 里 尼 瓦 桑 D.Koller , S.Thrun ,J.Rodgers和J.戴维斯景观:人的形体完成与动画。在ACM 图 形 交 易 ( TOG ) , 第 24 卷 , 第 408-416 页 中ACM,2005年。[4] F. Bogo、A.金泽角放大图片,P. Gehler,J. Romero和M.J.布莱克。保持它smpl:由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议,第561-578页。施普林格,2016年。[5] J. Dai,H.Qi,Y.Xiong,Y.Li,G.Zhang,H.Hu和Y.伟.可变形卷积网络。InICCV,2017.[6] V. Gabeur, J. - S. 弗朗哥 X. 马丁 C. 施密特 和G.罗杰塑造人类:从单幅图像进行非参数三维人体形状估计。arXiv预印本arXiv:1908.00439,2019。[7] A. Grigorev,A. Sevastopolsky,A. Vakhitov和V.莱姆-皮茨基。基于坐标的姿态引导人体图像生成的纹理修复。在IEEE计算机视觉和模式识别会议论文集,第12135-12144页[8] P. Guan,广枣A.Weiss,A.O. Balan和M.J. 黑色. 从单个图像估计人体形状和姿势。2009年IEEE第12届计算机视觉国际会议,第1381-1388页。IEEE,2009年。[9] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 770[10] P. Huang,M. Tejera,J. Collomosse和A. Hilton.混合骨骼 表面 运动 图 形的 角 色动 画从 4d 性 能捕 获。 ACMTransactions on Graphics(ToG),34(2):17,2015.[11] Y. Huang,F.博戈角Lassner,A.金泽山口诉盖勒,罗梅罗岛Akhter和M. J.布莱克。随着时间的推移,朝向准确的无标记人体形状和姿势估计。2017年国际3D视觉会议(3DV),第421-430页。IEEE,2017年。[12] M. E.侯赛因M.托尔基湾A. Gowayyed和M.埃尔-萨班。使用三维关节位置的协方差描述符的时间序列的人类动作识别。2013年第23届国际人工智能联合会议[13] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库人类3。6m:大规模数据集和预测方法,用于自然环境中的3D人体感知。IEEE Transactions on Pattern Analysis andMachine Intelligence,36(7):1325[14] A. Jacobson和D.帕诺佐libigl:原型几何-尝试在c++处理研 究 。 在 SIGGRAPH Asia 2017 课 程 中 , 第 11 页 。ACM,2017。[15] M. Jaderberg , K. Simonyan 、 A. Zisserman 等 人 空 间Transformer网络。神经信息处理系统的进展,2017-2025页,2015年[16] Z. Jiang,S. Schaefer和D.帕诺佐双射映射的单纯复增广框 架 。 ACM Transactions on Graphics , 36 ( 6 ) ,2017。[17] S. Johnson和M. Everingham用于人体姿态估计的离散姿态和非线性外观模型。2010年英国机器视觉会议的开幕式上。doi:10.5244/C.24.12。[18] A. Kanazawa,M.J. Black,D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议论文集,第7122-7131页[19] D. P. Kingma和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[20] N.科洛图罗斯湾帕夫拉科斯湾J. Black和K.丹尼尔迪斯学习通过循环中的模型拟合重建三维人体姿态和形状arXiv预印本arXiv:1909.12828,2019。[21] N.科洛图罗斯湾Pavlakos和K.丹尼尔迪斯卷积网格回归用于单图像人体形状重建。在IEEE计算机视觉和模式识别会议论文集,第4501-4510页,2019年。[22] C.放大图片作者:J. Romero,M.基费尔F. Bogo,M. J.Black和P.V.盖勒。团结人民:闭合3d和2d人类表征之间的循环。在IEEE计算机视觉和模式识别会议论文集,第6050-6059页[23] M. 洛珀,N.Mahmood,J.罗梅罗湾Pons-Moll和M.J.布莱 克 。 Smpl : 一 个 皮 肤 的 多 人 线 性 模 型 。 ACMtransactions on graphics ( TOG ) , 34 ( 6 ) : 248 ,2015。[24] A. Newell,K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。欧洲计算机视觉会议,第483-499页。施普林格,2016年。[25] M. 奥姆兰,C. 拉斯纳G. 庞斯-莫尔P. Gehler,以及B.席勒神经身体拟合:统一深度学习和基于模型的人体姿势和形状估计。2018年3D视觉国际会议(3DV),第484IEEE,2018年。[26] G. 帕夫拉科斯湖Zhu,X.Zhou和K.丹尼尔迪斯学习从单色图像估计三维人体姿态和形状在IEEE计算机视觉和模式识别会议论文集,第459-468页[27] L. Pishchulin、E. Insafutdinov,S.唐湾Andres,M. An-driluka,P. V. Gehler和B.席勒Deepcut:联合子集划分和标记用于多人姿态估计。在IEEE计算机视觉和模式识别会议论文集,第4929-4937页[28] A. Pumarola,J. Sanchez-Riera,G. Choi,A. Sanfeliu,以及F.莫雷诺诺格尔3dpeople:模拟穿着衣服的人的几何形状。在IEEE计算机视觉国际会议论文集,第2242-2251页7065[29] Y. Rong,Z.Liu,C.Li,K.Cao和C.C. 洛伊深入研究混合注释,用于野外3d人体恢复。在IEEE计算机视觉国际会议(ICCV),2019年10月。[30] S.斋藤Z.黄先生,R.夏目S. 森岛A. Kanazawa和H.李Pifu:Pixel-aligned implicit functionfor high-resolution clothed human digitalization. 在IEEE计算机视觉国际会议论文集,第2304-2314页[31] B. Tekin,P. M a'rquez-Neila,M。 Salzmann和P. 呸学习融合2d和3d图像线索进行单目身体姿态估计。在IEEE计算机视觉国际会议论文集,第3941-3950页[32] H.- Y.东,H. W. Tung、E. Yumer和K.弗拉基亚达基动作捕捉的自监督学习在重症盖永联合V. Luxburg,S. Bengio,H.瓦拉赫河Fergus,S.Vish-wanathan和R. Garnett,编辑,神经信息处理系统进展30,第5236-5246页。Curran Associates,Inc. 2017年。[33] G. Varol,D.锡兰湾Russell,J.Yang,E.尤默岛Laptev和C.施密特Bodynet:3D人体形状的体积推断在欧洲计算机视觉会议(ECCV)的会议记录中,第20-36页[34] G.作者:J. Romero,X.马丁,N. Mahmood,M. J. 黑人I. Laptev和C.施密特向人造人学习。在CVPR,2017年。[35] L. Xia,C.- C. Chen和J. K.阿加瓦尔 查看Invari-利用三维关节直方图进行人体动作识别。2012年IEEE计算机协会计算机视觉和模式识别研讨会会议,第20-27页。IEEE,2012。[36] Y.徐世文C. Zhu和T.阿东Denserac:通过密集渲染和比较联合3d姿势和形状估计。在IEEE计算机视觉国际会议的Proceedings中,第7760-7770页[37] P. Yao,Z. Fang,F. Wu,Y. Feng和J.李Densebody:直接从单色图像回归密集的3D人体姿势和形状arXiv预印本arXiv:1903.10153,2019。[38] A. Zanfir,E. Marinoiu和C.斯明奇塞斯库 自然场景中多人的单目3d姿态与形状估计-多场景约束的重要性。在IEEE计算机视觉和模式识别会议上,第2148-2157页,2018年[39] H. Zhu,X. Zuo,S. Wang,X. Cao和R.杨通过分层网格变形从单幅图像中估计出详细的人体形状。在IEEE计算机视觉和模式识别会议论文集,第4491- 4500页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功