没有合适的资源?快使用搜索试试~ 我知道了~
1116150关节3D形状的深度虚拟标记0Hyomin Kim Jungeon Kim Jaewon Kam Jaesik Park � Seungyong Lee �0POSTECH0摘要0我们提出了深度虚拟标记,这是一种用于估计各种类型3D数据的密集且准确位置信息的框架。我们设计了一个概念并构建了一个框架,将人类等3D关节模型的3D点映射到虚拟标记标签。为了实现这个框架,我们采用了稀疏卷积神经网络,并将关节模型的3D点分类为虚拟标记标签。我们提出使用软标签来学习基于测地距离的丰富而密集的类间关系。为了测量虚拟标记的定位精度,我们进行了FAUST挑战测试,我们的结果优于最先进的方法。我们还观察到在泛化性测试、未见数据评估和不同的3D数据类型(网格和深度图)上表现出色。我们展示了使用估计的虚拟标记的其他应用,如非刚性配准、纹理转移和从深度图中实时密集标记预测。01. 引言0估计关节对象(如人类和动物)表面点的位置信息对于虚拟/增强现实、电影工业和娱乐等各种应用至关重要[47, 11, 48,13]。捕捉这种信息的一种常见方法是演员穿戴带有被特殊光学系统跟踪的信标的特殊服装。也已经开发了无标记方法[29, 62,30],但它们不如使用标记稳健,并且在快速运动等困难情况下更容易出错。我们引入了深度虚拟标记,这是一个可以即时为关节对象的3D观测(例如由深度相机捕获的对象的深度图或从对象采样的3D点集)生成密集且准确的位置注释的框架。与预测3D骨架[51, 71,66]或参数化模型的姿势参数[8,34]的先前工作不同,我们的方法直接将任何观测到的3D点映射到规范位置,提供更丰富的信息。因此,我们的方法预测了密集且可靠的标记,可以成为各种应用的有用工具,例如3D动作分析、纹理转移和非刚性人体扫描的配准。应用示例如图1所示。我们用基于稀疏卷积神经网络设计了密集标记预测的学习框架[15]。由于神经网络的完全卷积特性,即使在杂乱或遮挡的情况下,也能很好地理解形状。所提出的框架通过神经网络的单次前向传递准确地确定密集标记位置。因此,我们的方法可以实时运行,不涉及启发式模块。为了训练网络,我们提出了一个由模板模型的真实深度渲染组成的新数据集。0� 共同通讯作者。0深度虚拟标记0动作跟踪0纹理转移0非刚性配准0图1.深度虚拟标记可以即时从网格或深度图中生成密集且准确的位置注释。深度虚拟标记的应用包括动作分析/跟踪、纹理转移和非刚性配准。0我们的方法直接将任何观测到的3D点映射到规范位置,提供更丰富的信息。因此,我们的方法预测了密集且可靠的标记,可以成为各种应用的有用工具,例如3D动作分析、纹理转移和非刚性人体扫描的配准。应用示例如图1所示。我们的密集标记预测方法是基于学习的,建立在3D稀疏卷积[15]之上。由于神经网络的完全卷积特性,即使在杂乱或遮挡的情况下,也能很好地理解形状。所提出的框架通过神经网络的单次前向传递准确地确定密集标记位置。因此,我们的方法可以实时运行,不涉及启发式模块。为了训练网络,我们提出了一个由模板模型的真实深度渲染组成的新数据集。 In summary, our key contributions are as follows: • We propose a real-time approach to extract dense markers from 3D shapes regardless of data types, such as full 3D meshes and depth maps. • We propose an effective approach to annotate dense markers for template models for preparing training sets. We also propose a new dataset of dense markers. • Our approach achieves state-of-the-art performance on non-rigid correspondence identification task that re- quires accurate marker localization. • Experiment results show the generalizability of our ap- proach on various datasets and data types. We also demonstrate that our approach can handle various ar- ticulated objects such as humans and cats. 2. Related Work The proposed deep virtual marker is closely related to the prior arts that are built for body part recognition, geo- metric feature descriptor, and non-rigid human body align- ment. We review representative approaches here, and the summary is shown in Table 1. Body part recognition. Several works have been proposed to segment body parts of articulated objects using color im- ages or depth images. Many approaches [68, 53, 37, 71, 1https://github.com/T2Kim/DeepVirtualMarkers. Table 1. Comparison with related work. Our approach is a learning-based real-time method that assigns dense markers. The proposed method can handle a mesh, partial observation (such as depth map), and multiple instances. Our approach does not require heavy pre-processing. In the table, FC Res., GCNN, MLP, AE, and RF indicate fully connected residual net, graph convolutional neural network, multi-layer perceptron, autoencoder, and random forest, respectively. Please see Sec. 2 for the details. Method Network Learning-based Dense prediction Handle mesh Handle partial obs. No topology Multiple objects Real-time No preprocessing Publication SmoothShells [21] - ✓ ✓ ‘20 FARM [43] - ✓ ✓ ‘20 UnsupFMNet [31] AE U ✓ ✓ ‘19 SurFMNet [59] FC Res. U ✓ ✓ ‘19 CyclicFM [26] FC Res. Self ✓ ✓ ‘20 Deep Shells [22] GCNN U ✓ ✓ ‘20 Shotton et al. [63] RF S ✓ ✓ ✓ ✓ ✓ ‘11 GCNN [45] Geo. CNN S ✓ ✓ ‘15 DHBC [70] 2D CNN S ✓ ✓ ✓ ✓ ✓ ✓ ‘16 Nishi et al. [52] 2D CNN S ✓ ✓ ✓ ‘17 FMNet [42] FC Res. S ✓ ✓ ‘17 Fey et al. [23] SplineCNN S ✓ ✓ ✓ ‘18 GCNN S ✓ ✓ ✓ ‘18 FC RNN S ✓ ✓ ‘18 AE S/U ✓ ✓ ✓ ‘18 SpiralCNN S ✓ ✓ ✓ ‘19 GCNN S ✓ ✓ ‘20 3D CNN S ✓ ✓ ‘20 GCN S ✓ ✓ ✓ ‘20 MLP S ✓ ✓ ✓ ✓ ‘20 ✓ ✓ ✓ ✓ ✓ ✓ ✓ 3D CNN S ✓ ✓ ✓ ✓ ✓ ✓ - 116160通过在模板模型上进行稀疏标记注释,我们开始进行密集监督标签的注释,并通过求解热平衡来获得密集注释,其中表面点的注释使用来自稀疏注释点的相对影响表示。注释模型通过来自Mixamo[2]的真实动作和遵循身体关节物理范围的随机姿势进行增强。预测的虚拟标记的位置精度通过提供精确对应关系的几个基准进行评估,例如FAUST [9]和SCAPE[4]。计算两个扫描的虚拟标记等同于构建密集对应关系,因为虚拟标记在共同的规范域上提供位置注释。在评估中,我们的方法在非刚性人体对应关系识别基准中达到了最先进的性能。我们还使用不同的数据集进行交叉验证。与之前的工作[42, 28, 57, 31, 38, 17, 43,26,25]相比,我们的深度虚拟标记适用于各种3D数据类型,如完整的3D网格、点云和深度图。我们的方法也适用于任何关节对象。因此,我们还为动物准备了一个新的数据集,并展示了我们的方法可以处理真实猫的深度图。代码公开可用。10FeaStNet [67]0Lim et al. [41]03D-CODED [28]0SpiralNet++ [27]0MGCN [69]0GeoFMNet [18]0LSA-Conv [25]0Marin et al. [44]0我们的一次性0稀疏0我们的多视角066, 50, 63, 32,52]侧重于人体部分分割,而其他一些则针对动物部分分割[68,50]。由于人体部分分割和人体姿势估计密切相关,一些工作尝试同时解决这两个问题[71, 66,50]。由于这些工作通常采用数据驱动的方法,它们需要用于训练的标注身体部位。Shotton等人的工作[63]和Nishi等人的工作[52]与我们的方法接近。他们的方法使用深度图像并学习分类器将人体部位标签分配给深度像素。然而,这些方法得到的部位标签过于稀疏,无法精确对齐不同形状的两个人体模型。相比之下,我们的方法生成足够密集的标签以进行人体对齐。0几何特征。传统方法已经开发了手工制作的几何特征[33,24, 60, 61, 64,5]。最近的方法使用深度神经网络(DNNs),GCNN[45],ACNN [10]和Monet[49]在非欧几里德流形上定义卷积。其他方法采用图卷积网络(GCN)来利用输入几何的信息连接性[23, 67, 41, 27,69, 25]。FCGF[16]采用3D稀疏卷积网络[15]来计算密集几何特征。我们的方法在很大程度上受到FCGF [16]的启发。 116170FCGF[16]在部分观测上表现出很高的性能,但它是为点云的刚性配准而设计的。我们的方法将其适用性扩展到非刚性关节对象,如人类和猫。0非刚性形状匹配。理解人体形状和一致的几何描述是为了3D人体匹配而积极研究的。Stitched Puppet[75]设计了一个基于部分的人体模型,并优化每个部分的参数以适应目标网格。3D-CODED[28]使用自编码器架构来变形模板网格。LoopReg[7]提出了一个端到端的框架,利用参数模型。参数在3D空间中隐式扩散,并且该方法利用参数模型来找到形状对应关系。因此,模型的表示能力可以限制最终的准确性。在引入形状匹配后,功能映射[54]引领了许多后续研究。FMNet[42]提取了SHOT描述符[61]并通过全连接网络进行转换。CyclicFM[26]提出了一种自监督学习方法,减少了循环失真。大多数基于功能映射的方法使用Laplace-Beltrami算子[55]构建基础,而Marin等人[44]则使用数据驱动的方法学习探针函数。GeoFMNet [18]使用KPConv[65]使网络能够直接从输入的3D形状中提取特征。FARM[43]利用非刚性ICP算法来优化功能映射。Smooth Shells[21]和Deep Shells[22]通过减少谱基来简化形状,并以粗到细的方式逐渐对齐生成的多尺度形状。基于功能映射的方法通常进行预处理以构建基础并需要网格拓扑。相比之下,我们的方法在推理时不需要网格拓扑,并且可以处理各种3D数据类型。03. 方法0我们的框架为关节模型分配了密集的虚拟标记。虚拟标记表示规范三维形状上的一个位置。我们的方法采用基于学习的方法,因此我们为训练准备了一个新的数据集。对于这个过程,我们在规范三维模型上注释稀疏标记,并将其密集化以覆盖整个表面。03.1. 虚拟标记0虚拟标记是分布在关节模型的规范三维形状表面上的位置标签。预测这样的位置标签的方法可以帮助我们理解三维几何。例如,它可以用于两个三维扫描之间的直接纹理映射转换。0在没有表面参数化和找到对应关系的情况下,我们使用人体的三维扫描来定义虚拟标记,如图1所示。我们定义虚拟标记的思路是利用关节对象形状的内在结构。例如,人类有四肢、一个头部和相同工作的关节。通过这种方式,即使人的外观不同,我们也可以考虑放置在人体上的连贯标记。与我们类似,将标记分配到人体模型表面并解决标签分类问题是先前工作中常用的过程[63,52]。然而,最显著的区别是先前的方法使用标记的硬标签来指示不同的人体部位,如图2(c)所示。而我们的虚拟标记可以根据测地线距离(图2(d))平滑地指示人体模型表面上的每个点作为软标签。03.2. 注释0为了建立密集的虚拟标记以制作训练数据集,我们首先使用3D人体骨骼的关节位置在3D网格模型上注释稀疏标记(图2(b))。然后,通过解决热平衡方程,将稀疏标记密集地传播到模型的整个表面(图2(d))。请注意,此过程是为了制作训练数据集。在测试时,只使用一个前馈网络直接从任何类型的3D输入数据(深度图像、点集或网格)预测密集的虚拟标记。0稀疏虚拟标记。我们在网格模型上的几个感兴趣点上进行注释,使用一个静止姿势(如T形姿势)。利用这些注释点,我们构建模板网格模型的骨架,并定义稀疏虚拟标记。考虑一个位于骨骼第i个骨头上的局部柱坐标系( ρ, φ, z)(图2(a))。坐标系的原点是骨头的一个端点,其纵轴对应骨头的方向。考虑从纵轴垂直发射的射线,可以使用两个坐标( φ i , z i)来指定。我们使用这些坐标均匀采样一组射线,然后采样射线与模板网格模型的交点成为第i个骨头的稀疏虚拟标记。由于与每个骨头相关的部分的表面积不同,我们改变每个骨头的样本数量。因此,我们为我们的人体模型定义了99个标记(图2(b))。对于猫模型,我们使用相同的方法定义了57个稀疏标记。稀疏标记的详细位置在补充材料中提供。为了获取这些标记,可以使用自动绑定方法来检测模型的骨架[6,72]。然而,我们实验发现,这些自动方法在处理具有挑战性的形状时经常失败。𝜑𝓏 (b) (c) (d) (e) 116180第i个骨头0稀疏虚拟标记0(a)0图2. 虚拟标记。 (a)骨架的局部柱坐标系中的稀疏虚拟标记。红色箭头是用于采样标记的射线。 (b) 人体模型表面上的稀疏标记。 (c) 和 (d)分别是带有硬标签和软标签的彩色人体模型。 (e)我们的颜色编码方案用于可视化软标记。0相反,我们聘请经验丰富的3D注释员通过用户交互来分配精确的骨骼结构。用户注释包括关节位置和骨骼方向(局部柱坐标系的极坐标轴)。0密集虚拟标记。给定稀疏标记,我们可以通过为表面点分配one-hot向量(或硬标签)来对表面点进行分类。这个过程将得到一个传统的部分分割[63,52]数据集,如图2(c)所示。然而,这样的区域标签不会考虑与多个稀疏标记的细粒度关系。相反,我们使用软标签方案。给定S个稀疏标记,任意表面点的标签表示为一个S维向量,其中第i个元素表示与第i个稀疏标记的亲和性。也就是说,软标签可以有多个非零条目,与硬标签不同。我们通过解决热平衡方程来为表面上的每个点获取软标签[6]。设S = {s| 1 ≤ s ≤ S}表示稀疏标记的索引集,D = {d | 1 ≤ d ≤D}表示模板网格上的表面点索引集。我们定义L∈RS×D,其中ls,d表示网格上的第d个点与第s个稀疏标记之间的亲和性。L的列向量被归一化,使得...0s l s,d = 1。如果我们定义L� = W,使得l s,d := wd,s,那么对于每个表面点的稀疏标记s的权重向量w s = [w1,s, w 2,s, ..., w D,s]T可以通过解决以下稀疏线性系统来计算:0−∆w s + Hw s = Hp s,(1)0其中−∆是网格的拉普拉斯算子,ps是二进制指示向量,H∈RD×D是对稀疏标记s对顶点d 2的热贡献的对角矩阵。如果稀疏标记s最接近顶点d,则将ps,d设置为1,并且矩阵H的第d个对角分量H d,d定义为c0D(d,s)2,其中c是一个常数(我们使用c = 1),D(d,s)是从顶点d到稀疏标记s的测地距离。如果k个虚拟标记与顶点d等距离,那么p s,d = 10D(d,s)2。否则,ps,d变为0。我们为每个稀疏标记解决方程(1)中的热平衡条件。结果,我们得到权重矩阵W = [w 1, w 2, ..., wS]。矩阵W的第d行成为顶点d的所有稀疏标记的权重。我们将矩阵W的第d行设置为顶点d的软标签l :,d。计算得到的软标签在图2(e)中可视化。这种方法与Baran等人的工作[6]相关。他们计算用于网格蒙皮的顶点和骨骼之间的权重。我们扩展了这个想法,用于计算模板网格上顶点的软标签。此外,我们使用顶点d和软标记s之间的测地距离来获取ls,d,而不是[6]中使用的欧氏距离。计算软标签每个模型需要约150秒,但只需要在训练数据准备阶段完成。03.3. 数据集0通过提出的方法来定义稀疏和密集标记,我们构建了两个数据集来训练神经网络。0人类数据集。该数据集由33个完整的人体网格模型组成。其中6个模型是使用Doublefusion[74]捕获的,17个模型来自Renderpeople[3],10个模型来自FAUST[9]。我们对人体模型的网格进行子采样,使其具有6万个顶点进行注释。手动注释由经验丰富的注释员进行,以提供33个一致的关节位置。为了处理各种非刚性变形,我们使用各种动作来扩充每个模板网格模型。我们从Mixamo[2]获得了15000个动作。请注意,我们对已注释的网格进行了变形,因此不需要再次注释变形模型。我们使用线性混合蒙皮(LBS)[35]来为模板模型添加动画效果。除了姿势扩充之外,我们还对身体的关节进行随机运动。随机运动受到关节的物理范围限制。通过这种方式,我们可以获得具有不同人物和姿势的多样化数据集。除了姿势扩充之外,我们还扩展了数据集以包含部分几何观测,例如深度图。我们通过从任意视角渲染密集注释的网格模型来生成合成深度图。由于渲染的深度像素知道其在注释网格中的原始位置,每个深度像素都获得了适当的软性标签。02 我们用s表示第s个稀疏标记,用d表示第d个顶点,以方便表示。 L = − 116190标签。我们在渲染时使用了40个视角。请注意,在训练阶段,我们使用Mixamo和随机姿势即时增强了密集注释的网格模型。对于深度图生成的情况,通过使用随机视角,数据集的增强更加丰富。这种方案为我们的训练数据集引入了很大的多样性。0猫数据集。为了证明我们的方法适用于其他类别的关节对象,我们为动物形状准备了另一个数据集。我们从SMAL[76]中选择了两个猫模型,并使用相同的过程对模型进行了密集注释。03.4. 训练0我们采用基于稀疏张量的ResUNet架构[15]来对关节模型的3D点进行分类。网络架构的详细信息在补充材料中提供。分类器直接使用第3.2节中描述的软标签进行监督。我们的网络采用了多类交叉熵损失,定义如下:0D÷0S0s l s,d log ( l ′ s,d ÷ S j e l ′ j,d ) ,(2)0其中l s,d表示软标签l的第s个元素:d,l ′s,d表示推断得到的软标签l′的第s个元素:d。D是顶点的数量,S是稀疏标记的数量。如图2(e)所示,软标签对模板网格模型上相邻表面点的平滑几何关系进行编码。因此,我们训练的网络在不使用任何对预测的平滑性进行正则化的情况下,能够预测出平滑变化的虚拟标记。0两种方法。我们提出使用两种不同的配置来训练和测试我们的网络。(1)Ours-oneshot。在第一种设置中,为了训练网络,我们使用完整网格模型的注释以及部分观测(深度)。在这种情况下,网络可以即时推断出任何输入数据(部分或完整)的密集虚拟标记,而无需每个视图进行预测和合并。这种方法在为完整网格模型推断虚拟标记时节省了大量计算时间。(2)Ours-multiview。在第二种设置中,我们只使用部分观测(深度图的3D点云)来训练网络。然后,为了处理完整的3D模型,我们使用来自72个不同视角的模型渲染的深度图。我们将每个渲染的深度输入到我们的网络中,并获得72个视图的密集虚拟标记。最后,我们将它们聚合起来获得整个3D模型的密集虚拟标记。对于聚合,我们将72个渲染的深度图转换并组合成一个单一的点集,3D模型的每个顶点的虚拟标记被确定为0(a)(b)(c)图3.软标签的效果。(a)参考3D模型。(b)和(c)分别是使用硬(one-hot)标签和软标签作为监督进行训练的网络得到的稀疏标记权重的可视化。红色和蓝色条纹在[0.2到1]的范围内以0.2的间隔显示交替的权重区间。软标签引导平滑各向同性的权重分布。0通过对点集中k个最近邻的虚拟标记进行加权平均来实现。这种方法比Ours-oneshot慢,但由于多视图一致性,它产生的结果更可靠。03.5. 时间复杂度0我们使用一台配备有Intel i7-7700K 4.2GHz CPU、64GBRAM和NVIDIA Titan RTX、Quadro 8000GPU的工作站来训练和测试我们的网络。网络参数的数量约为3800万。使用部分观测(深度)和完整网格模型进行训练时,每次迭代需要大约3到4秒和8到10秒。在测试时间,推理时间约为0.05到0.07秒每个深度图或3D点集,几乎达到每秒20帧的速度。04. 结果04.1. 软标签的有效性0为了分析软标签的效果,我们使用硬标签和软标签训练了两个网络。图3可视化了使用这两个网络获得的稀疏标记的权重。我们可以发现,使用软标签训练的网络输出平滑变化的虚拟标记。04.2. 形状对应关系0为了验证虚拟标记的准确性,我们在形状对应关系挑战中进行了广泛评估。这个实验的动机如下:(1)没有大规模公开数据集来衡量密集3D标记的准确性。(2)相反,用于找到形状对应关系的数据集已经得到了很好的建立,并且这些数据集是使用高端3D捕捉系统捕获的。(3)在找到对应关系方面的良好性能表明了不同姿势下一致且连贯的标记位置。0FAUST挑战基准是衡量从两个高质量人体网格模型中找到对应关系准确性的标准基准[9]。这个挑战是- SP [75] 1.568 3.126 FMNet [42] 2.436 4.826 3D-CODED [28] 1.985 2.769 LBS-AE [38] 2.161 4.079 AtlasNetV2 [17] 1.626 2.578 LSA-Conv [25] - 2.501 RobustCovex [14] 4.49 10.96 5.95 14.18 DHBC [70] 2.00 9.98 2.35 10.12 1162006误差(cm):00(a) (b) [57] (c) [28] (d) [17] (e) [75] (f) 我们的结果 图4.FAUST对应关系查找挑战的示例。我们将我们的结果与BPS[57]、3D-CODED [28]、Atlas-NetV2 [17]、SP[75]进行比较。左侧两个网格之间的匹配是通过使用彩色映射可视化其准确性获得的。这是一个主体内测试集的示例,其中两个网格是从同一个人的不同姿势中捕获的。0验证提出的深度虚拟标记的准确性非常适合,因为准确的标记应该定位在非刚性模型之间的精确匹配位置。总数据集包括10个人,每个人展示任意30个姿势。其真实对应关系不公开,因此我们提交了我们的结果并获得了评估结果。基准测试集提供了两个完整的3D扫描对。每对显示了来自同一人的极端姿势变化(称为主体内挑战)或不同人之间的变化(称为主体间挑战)。由于我们的方法不限于人的身份或姿势变化,我们报告了我们在两个任务上的性能。FAUST实验也是检查对姿势和身份变化的泛化性能的好方法。为了比较,我们参考了公开FAUST基准排行榜上的数字。排行榜包括需要手动注释的方法的结果。因此,我们只与不需要手动输入的方法进行比较。结果如表2所示。与之前的方法相比,我们的方法在主体间和主体内挑战上都显示出最准确的结果。误差的可视化结果如图4所示。0与DHBC[70]的比较。原始的FAUST挑战只处理两个完整网格之间的对应关系,称为完整对完整的对应关系识别。然而,处理部分观测数据,如深度图,对于实际应用也很重要。因此,我们还将我们的方法与可以处理完整对完整、完整对部分和部分对部分的密集对应关系的DHBC[70]进行比较。由于DHBC没有出现在FAUST排行榜上[9],我们按照Chen等人[14]建议的评估协议进行比较。该协议使用FAUST训练集中的一些3D扫描对执行主体间和主体内挑战。该协议报告了所有对的平均误差(AE)和最差对的平均误差(WE)。表3显示了完整对完整情况下实验的结果。我们还添加了重新-0表2.FAUST挑战结果(误差以厘米为单位)。我们在测试时间中省略了需要手动注释的方法的结果。方法分为基于学习的方法(前三行)和非基于学习的方法(其余行)。0挑战类型0方法0同一主体0不同主体08.304 平滑外壳 [ 21 ]03.020 无监督FMNet [ 31 ]04.123 循环FM [ 26 ]02.495 我们的多视角0表3. 使用FAUST训练数据集与DHBC [ 70 ]和RobustCovex [ 14]进行额外比较(误差以厘米为单位)。0同一AE 同一WE 不同AE 不同WE04.56 我们的多视角0来自RobuxtCovex [ 14]的结果。我们的方法在所有情况下都优于其他基线。特别是,我们的结果显示出比其他基线小约三倍的同一主体和不同主体WE。此外,在我们的情况下,WE与AE相似。这证明了我们的方法可靠且对不同人的身份和不同姿势具有鲁棒性。除了全对全的比较,我们还使用全对部分和部分对部分的3D模型对与DHBC [ 70]进行定量比较。新的对是通过从特定视点渲染3D扫描获得的,我们使用FAUST [ 9 ]和SCAPE [ 4]数据集进行渲染。结果显示在表4中。我们的方法在这些情况下也优于DHBC [ 70 ]。0各种训练和测试集。我们通过更改训练和测试集来验证我们方法的泛化能力。对于这个实验,我们使用Ren等人提供的数据集[ 58 ]。该数据集包含FAUST [ 9 ]和SCAPE [ 4]数据集的重新网格化版本。表5显示了结果,其中评估基于Kim等人提出的协议[ 36]。SCAPE数据集包含一个具有不同姿势的人体模型,而FAUST包含几个具有不同姿势的模型。因此,对于在SCAPE上进行测试并在FAUST上进行训练(F /S)的情况,某些方法[ 59 , 42 , 28]的匹配准确性要低于其他组合,因为训练模型形状的多样性不足。 FAUST [9] F2P 6.52 14.61 6.75 11.79 2.39 3.52 2.63 4.62 2.41 4.40 2.58 4.52 P2P 9.51 22.46 9.81 32.27 3.40 11.06 3.45 11.166 3.96 20.24 3.74 16.06 SCAPE [4] F2P 4.33 11.76 - - 3.11 4.92 - - 3.23 7.29 - - P2P 17.19 38.21 - - 8.32 27.76 - - 8.99 36.94 - - F / F S / S F / S S / F 116210表4.使用全对部分(F2P)和部分对部分(P2P)数据集找到对应关系。我们将结果与DHBC [ 70 ]在FAUST [ 9 ]和SCAPE [ 4]数据集上进行比较。对于每三个数字,第一个是DHBC的误差,第二个和第三个是我们的多视角和我们的单次拍摄的误差,分别(误差以厘米为单位)。0数据0类型0方法(DHBC [ 70],我们的多视角,我们的单次拍摄)0同一AE 同一WE 不同AE 不同WE0表5. 使用Ren等人的数据集[ 58]进行归一化平均测地误差(以%表示)。此实验验证了具有不同训练和测试集的情况。其中F和S分别表示FAUST和SCAPE。从上到下,本表中比较的先前方法分为三类:公理(无训练),无监督学习和监督学习。除了我们之外的数字是由[ 22 ]提供的。0测试 / 训练数据集0方法0- 缩小 [ 46 ]0- Smooth Shells [21]019.0 Unsup FMNet+pmf [31]012.0 Deep Shells [22]011.0 3D-CODED [28]031.0 GeoFMNet+zo [18]03.1 Ours-multiview0请注意,表5中的一些方法[42,28,18]在训练时使用了地面实况对应关系。相反,我们只使用经过蒙皮的合成形状进行训练,并使用Mixamo姿势扩充训练集。利用可用的人体动作是明显有益的,因为动画模型很容易获得。04.3. 其他结果0未见数据。我们在两种不同类型的未见数据集上展示了我们方法的视觉结果-我们使用Azure KinectDK[1]捕获的真实深度序列和SHREC14[56]数据集。对于这个实验,我们使用第3.3节中描述的训练数据集。图5的上半部分展示了在未见深度数据上的结果。深度序列捕捉了单个或多个人的各种动作。尽管真实深度图像存在噪声,但结果表明我们的方法是可靠和鲁棒的。图5的下半部分展示了使用我们推断的虚拟标记对颜色编码模型的结果。结果表明我们的方法在未见的各种动态模型上表现良好。0图5.在各种未见数据集上估计的虚拟标记。(上半部分)从左到右,子图显示了普通到具有挑战性的情况。结果表明我们的方法对遮挡、多样的姿势和多个实例具有鲁棒性。(下半部分)SHREC14[56]数据集上估计的虚拟标记。表面上的黑点表示估计的稀疏虚拟标记。为了确定稀疏虚拟标记,我们选择每个标签的置信度最高的顶点。结果与各种形状和动作一致。请注意,我们使用了第3.3节中描述的训练数据集,这些示例没有用于训练。0图6.猫模型的例子。我们使用SMAL[76]获取的3D猫模型和适当的随机姿势数据训练网络。然后我们在TOSCA[12]中的猫模型(左侧四个结果)和真实猫的深度图(右侧)上测试网络。可靠的结果表明我们的深度虚拟标记的广泛应用。0真实深度图像存在噪声,但结果表明我们的方法是可靠和鲁棒的。图5的下半部分展示了使用我们推断的虚拟标记对颜色编码模型的结果。结果表明我们的方法在未见的各种动态模型上表现良好。0猫。图6展示了一个猫的例子。它展示了对TOSCA[12]中的模型和真实深度图像的合理预测。04.4. 应用0非刚性配准。我们的方法预测密集标记,因此对应关系可以帮助解决非刚性配准问题。图7展示了一个例子。对于非刚性表面配准,我们将我们的方法与Li等人的方法[39]进行了比较,后者是性能评估的流行基准。 ture approaches [40, 20, 19, 40, 73]. Li et al.’s approach [39] progressively deforms a source mesh model to fit to the target one. If pose difference between two mesh models is large, it tends to get stuck at local minima since the method uses neighbor search for constructing vertex corre- spondences, as shown in Figure 7 (a). The misalignment is- sue can be alleviated by using dense vertex correspondences estimated by our approach, as shown in Figure 7 (b). 116220(a)(b)图7.非刚性配准。(a)由于快速运动导致的腿部周围大的错位无法通过基于局部对齐的方法[39]恢复。(b)我们方法的对应关系可以成功纠正这样的大的错位。0图8.从一个纹理网格到另一个网格(第一行和第二行)或深度图(第三行)的纹理转移。在网格到网格的情况下,我们传输纹理坐标并将纹理映射应用于网格。在网格到深度图的情况下,我们直接传输纹理颜色。结果显示,我们的深度虚拟标记即使在穿着衣物的人、显著的形状差异或深度噪声下,也能产生足够充分的对应关系。0纹理转移。作为另一个应用,我们提出纹理转移。通过使用我们的深度虚拟标记获得的密集对应关系,在源网格模型中进行纹理转移0图9.我们方法的失败案例。从左到右显示了宽松的衣服、身体与物体的交互和身体内部的近距离交互。0可以立即映射到目标网格模型。同样,纹理转移可以在完整网格和深度图之间进行,因为我们的深度虚拟标记可以以一致的方式处理各种3D输入。图8显示了示例。04.5. 限制0尽管我们的方法已经验证了来自FAUST [9]、SCAPE[4]和SHREC14[56]的许多标准3D人体模型,但我们的虚拟标记可能无法处理穿着高度宽松的衣服,如长裙和外套。此外,我们的方法在身体与物体和身体内部的近距离交互的情况下不太准确,如图9所示。我们可以考虑一个数据驱动的解决方案,但我们当前的数据集准备流程需要人工注释,这对于穿着具有挑战性的衣服的人来说不是直接适用的。人体模型与物体的交互也没有经过测试。未来的工作将是解决这些问题。05. 结论0在本文中,我们提出了深度虚拟标记,一种推断关节3D物体密集虚拟标记标签的方法。我们的方法可以处理各种类型的输入,包括网格、点云和深度图像。我们提出了一种在3D网格上注释密集虚拟标记的有效方法,以构建训练数据集。我们的框架利用全卷积神经网络作为软标签分类器,我们的一次性模型通过单次前向操作即可快速分配密集标记(0.05�0.07秒)。与最先进的方法相比,我们在寻找对应关系方面表现出了良好的性能。最后,我们展示了纹理转移和非刚性表面配准等实际应用。我们未来的工作包括处理穿着高度宽松的衣服的人,如长裙和外套。0致谢本工作得到了IITP资助(SW Star Lab:2015-0-00174和人工智能研究生院项目(POSTECH):2019-0-01906),科学与信息通信部(MSIT)的NRF资助(NRF-2020R1C1C1015260),以及文化、体育和旅游部(MCST)的KOCCA资助(R2021040136)。 [1] Azure kinect dk. https://azure.microsoft.com/ en-us/services/kine
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功