基于生成式HKS描述子和跨模态神经网络的人体形状估计方法

68 浏览量更新于2023-10-15 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于生成式HKS描述子和跨模态神经网络的Endri Dibra1，Himanshu Jain1，Cengiz Oüztireli1，Remo Zie gler2，MarkusGros11计算机科学系，苏黎世联邦理工学院，2Vizrt{edibra，cengizo，grossm}@ inf.ethz.ch，jainh@student.ethz.ch，rziegler@vizrt.com摘要在这项工作中，我们提出了一种新的方法来捕捉人体形状从一个单一的规模剪影。我们将捕获不同2D视图的深度相关特征与基于3D线索的嵌入空间结合在一种基于卷积神经网络（CNN）的新型架构中。我们首先训练CNN从姿势不变的3D人体形状描述符中找到更丰富的身体形状表示空间然后，我们学习从轮廓到这个表示空间的映射，借助一种新的架构，该架构在训练时利用多视图数据的相关性，以提高测试时的预测我们广泛验证了我们的合成和真实数据的结果，展示了显着的精度相比，国家的最先进的改进，并提供了一个实用的系统，从一个单一的图像详细的人体测量。1. 介绍人体形状估计最近受到了很多关注。这在一定程度上与应用需求的增长有关，例如远程呈现、虚拟和增强现实、虚拟试穿和身体健康监测。对于这样的应用，具有估计3D人体形状的准确且实用的它需要是准确的，使得自动身体测量与真实身体测量一致，并且需要是实用的，使得它是快速的并且利用尽可能少的传感器。关于所使用的传感器，按照简单性的递增顺序，我们可以区分多个相机[10，46]，RGB和深度[25]或单个图像[20，67，29，23，5，17]。在这项工作中，我们解决了从人体的单个或多个轮廓进行形状估计的问题，其姿势符合两个主要应用：虚拟服装拟合假设一个中立的姿态[13，6，16]，和形状从单独拍摄的照片或“自拍”（例如，通过镜子或长自拍杆），假设姿势，轻度自闭塞[17]。与该领域的最新技术相比，我们在重建的身体形状上实现了显着更高的准确性，并且如果考虑GPU实现（或在CPU上获得与以前的作品类似的运行时间[17]这要归功于一种新颖的神经网络架构（图1）。1）由各种组件组成，这些组件（a）能够从3D形状描述符学习身体形状表示并将该表示映射到3D形状，（b）可以从一个或两个给定的身体轮廓中自动重建3D身体网格，以及（c）可以在训练时利用多视图数据，以通过跨模态学习在测试时提高对单个视图的预测。先前的方法试图找到从剪影到统计体形模型[2]的参数的映射，利用手工特征[17]、可能具有局部微调[6]的剪影PCA表示[13]或CNN [16]。基于所获得的参数，最小二乘系统求解以获得最终网格。我们还使用CNN-s来学习轮廓特征，但与[16]不同的是，我们首先将它们映射到一个形状表示空间，该空间是从3D形状描述符（Heat Kernel Signature（HKS）[57]）生成的，对等距变形不变，并最大化人类类内变化，然后将它们解码为完整的身体顶点位置。回归到这个空间，提高了预测和计算速度。最近，Dibra et al.[17]演示了如何在测试时间内提升来自一个视图（缩放的正面）的特征，在训练时间内利用来自两个视图（正面和侧面）的信息，通过典型相关分析（CCA）[26]投影回归任务的特征。CCA也有缺点，因为（1）它计算线性投影，（2）在实践中很难将其扩展到两个以上的视图，以及（3）缺乏对大型数据集的可扩展性，因为它必须作为这项工作的一部分，我们提出了一个架构（我们称之为跨模态神经网络（CMNN）），它能够克服上述挑战，首先从不同的视图分别生成功能，然后通过共享层将它们组合起来。这导致改进，48264827学习嵌入空间LVert1HKS全局描述符重建3D网格LSFL双视图2前视图前视图，缩放剪影权重共享LUF3最大合并操作权重共享5前视图原始轮廓重量分担LSS4侧视图侧视图缩放轮廓全连接层全连接层全连接层卷积层块卷积层块卷积层块卷积层块全连接层卷积层块全连接层卷积层块单视图案例-跨模态学习双视图案例图1. 我们的体型估计方法。(1)HKS-Net：HKS投影特征作为输入，生成映射到3D网格的嵌入空间。(2)、（3）和（4）跨模态神经网络（CMNN）的三种模式（在测试时仅使用（2））。(5)在测试时需要这两种视图的架构该方法使用CMNN或（5），这取决于可用输入视图的数量关于单峰情况的预测能力。从轮廓中抽象出来，这个网络可以用于其他任务，其中存在数据的多个视图，例如图像和文本检索，或音频和图像匹配。总之，本文的贡献是：（1）一种用于根据轮廓进行3D体形估计的新型神经网络架构，其包括三个主要组件，（a）生成组件，其可以反转姿态不变的3D形状描述符以重建其中性形状，（b）预测组件，其组合2D和3D线索以将轮廓映射到人体体形，（c）利用多视图信息来增强单视图预测的交叉模态组件;以及（2）与现有方法相比显著提高准确性的用于人体形状估计的现有技术系统。2. 相关工作从图像中提取人体形状。在估计3D身体形状的早期工作中，假设视图的数量[33]或简单的几何模型[30，41]达到基本几何的粗略近似。随着对各种姿势和形状的大量人的扫描成为可能[47]，更完整的参数化人体形状模型被学习[2，24，42，36]，其捕获由于形状和姿势而引起的变形。这些模型对人类初级阶段的有效性或，引起了试图从单个[20，67，29，23，12，46]或多个估计人体形状通过将3D形状的投影轮廓与提取的图像轮廓进行对应匹配，通过估计模型的参数，对输入图像[4，10，23，46]进行拼接。在存在遮挡和遮挡姿态[67，29，12]的情况下，通过剪影匹配估计姿态和形状所需的视图、校准、误差度量[10，20，29]以及特别是速度和手动交互的假设是这些方法的常见限制，尽管有希望实现匹配过程的自动化[52，53，32]。一个非常近期的工作由Bogo等人。[5]尝试从具有给定2D关节的单个2D图像估计3D姿态和形状，利用基于蒙皮权重的3D形状模型[36]。它利用人体先验作为正则化器，对于不常见的肢体长度或身体穿插，在3D姿态估计上取得了优异的结果，然而，缺乏对所生成的身体形状的准确性分析。虽然上述工作通过迭代地最小化能量函数来解决形状估计问题，但另一个工作主体通过首先构建2D轮廓特征和3D身体的统计模型，然后定义每个模型的参数之间的映射来估计3D身体形状[62，55，13，15，14，6，17]。在轮廓表示方面，它们从PCA学习的sil-houette描述符[13，6]到手工制作的特征，如径向距离函数和形状上下文[55]或4828加权法向深度和曲率[17]。通过对来自平均人体形状的三角形变形应用PCA来学习统计3D身体模型[2]。关于身体参数估计，Xi et al. [62 ][63] Uti-Brachia linearmapping，Sigal et al.[55]一个混合的内核回归，陈等人。 [13]共享高斯过程潜变量模型，Dibra等人。[17]在相关空间和随机森林回归和Boisvert等人的投影的组合。[6]使用[ 13 ]的方法的初始映射，其通过具有局部拟合的优化过程进一步细化。上述方法的目标应用与我们的类似，但是除了[17]，由于其运行时间，它们缺乏交互式应用的实用性，并且已经在关于相机校准、姿势和所需视图量的更严格假设下进行了评估在类似的设置下，最近的一项工作[16]试图通过训练端到端卷积神经网络回归到体型参数来直接从图像中找到与这些方法相比，我们首先通过训练CNN直接回归到3D体形顶点，从对等距变形不变的3D形状描述符中学习嵌入空间。然后，我们学习从2D剪影图像到这个新的嵌入空间的映射。我们证明了在这种设置下，在限制性假设（两个视图和已知的相机校准）下工作的先前方法[16，6]最后，通过从多个视图中整合跨模态学习，我们的表现也优于Dibra等人。[17]在更一般的设置下（一个视图和未知的相机校准）。CNN-s在3D形状上。利用卷积神经网络进行二维图像相关任务在精度和性能上的提高目前在社会上得到了广泛的认可。一旦进入3D，使用的主要范例之一是将数据表示为低分辨率体素化网格[61，56，48]。这种表示主要用于形状分类和检索任务[61，56，51]或从这些形状的2D视图表示中找到映射[48]，并且已经适合刚性对象（如椅子，桌子，汽车等）。表示3D形状的另一种可能性，更多地源于计算机图形学社区，是3D形状描述器，其已经被广泛研究用于形状匹配和检索[28，58，59]。已经提出了各种形状描述符，最近的方法是基于扩散的方法[57，9，49]。基于可以鲁棒地表征网格化表面上的点的Laplace-Beltrami算子，所提出的一些描述符是全局点签名（GPS）[49]、热核签名（HKS）[57]和波核签名（WKS）[3]。进一步的工作建立在这些和相关的描述符，并学习更好的描述符，主要是通过在形状检索中使用的CNN-s分类，特别是形状匹配[44，7，8，38，39、60、63、35、18]。他们的主要目标是最大化类间方差或设计发现类内相似性的特征。另一方面，我们希望找到合适的描述符，最大化类内方差（这里是人体形状），并通过回归学习到3D身体形状的映射，据我们所知，这还没有被探索过。由于HKS的不变性等性质，对于等距变形和对表面上的小扰动的不敏感性，为了在变化的非刚性变形下一致地解释相同的人体形状，这是非常期望的，我们从HKS开始并将其编码到新的形状嵌入空间中，从该空间我们可以解码整个身体网格或我们可以回归到该空间的身体的可能视图通过这种方式，我们的方法可以被认为是一种生成技术，它可以学习从描述符空间到形状空间的逆映射。跨模态学习。在存在表示相同数据的多个视图或模态的情况下，已经提出了在训练期间利用这种模态的非监督学习技术存在一些依赖于学习公共表示的应用，包括1）迁移学习，2)缺失视图的重建，3）跨视图匹配，并且与我们的工作直接相关，4）利用来自其他视图的数据或其他称为跨模态学习的数据来提高单视图性能。早期的工作，如典型相关分析（CCA）[26]及其已经提出了融合学习的特征以更好地预测[50]，从单个视图[40]中产生多个模态以及用于分类和检索任务的CCA [54除了少数作品[17，40]，利用跨通道学习来改善回归很少受到关注。为了解决CCA无法很好地扩展到大型数据集的问题，最近有人尝试利用神经网络，如Deep CCA [1]及其GPU计数器[64]，多模态自动编码器[43]和相关神经网络[11]，但这些方法并不专注于提高单视图预测。与这些技术不同的是，我们提出了一种执行跨模态学习的方法，首先通过CNN-s学习代表性特征，然后通过共享编码层传递它们我们证明了显着提高性能的单峰预测，和可扩展性更高的维度大规模的数据。48293. 生成估计和跨模态估计我们的方法的主要目标是从采用符合两个应用-虚拟试衣和自我形状监测的姿势的人的轮廓（或两个）准确地估计3D身体形状。与相关工作相同，我们考虑缩放到固定尺寸的单个正面silhouette（没有相机校准信息），其姿势表现出轻度自遮挡，或者同时考虑处于中性姿势的人的两个视图（正面和侧面，缩放或未缩放）我们建议用深度网络架构来解决这个问题（图1）。①的人。我们的网络由三个核心部分组成：一个生成组件，可以反转姿态不变的3D形状描述符，从大量的3D网格获得（第二节）。3.1）到它们相应的3D形状，通过学习嵌入空间（Sec. 3.2）;一个跨模态组件，利用多合成新的网格时，我们从20维多元正态分布中采样，由通过PCA获得的前20个分量给出，捕获95%的能量。在普遍的假设下，形状不会因姿势变化而显著变化[2]，我们将姿势与形状变形解耦。因此，对于A′在中立位我们有eij = Si（β）eij。添加姿势变化对于网格合成过程，我们使用线性混合蒙皮（ LBS ） [34] ，而不是由 alpha 参数化的变换 Ri（α），如在以前的作品[29，19，65]中那样，它计算每个静止顶点v1，...，vn∈R4，其中骨骼变换矩阵T1，.，嵌入式骨架控制Tm∈R4×4网格和蒙皮权重Wi，1，...，w i，m∈R，对于a顶点Vi和第m个骨骼变换，如下所示：在训练时查看信息，以提高测试时的单视图预测（第3.3）;和损失的组合，在整个网络上进行联合训练（第3.3节）。第3.4段）。′vi=Σmj=1wi，jTjvi=Σmj=1wi，jTj 五岛（二）3.1. 形状模型和数据生成为了正确地训练我们的网络，我们像以前的作品一样使用合成数据，因为它们最接近我们的真实输入要求。我们需要获得大量的网格，从中我们可以提取各种姿势的3D描述符和2D轮廓。我们利用现有的数据集[66，45]，这些数据集由拟合到包含3D人体扫描的商用CAESAR [47]数据集的从这些数据集开始，我们可以通过学习统计模型来生成数十万个人体我们与[62，13，6，16，17]进行比较的方法利用低维参数人体模型（SCAPE [2]），该模型基于从各种形状和姿势的人的3D范围扫描中学习的三角形变形。尽管有最近的身体模型[42，36]，为了公平的比较和评估，我们还使用SCAPE，SCAPE被定义为应用于由6449个顶点组成的参考模板3D网格的一组12894个三角形变形，参数α和β表示姿势和内在身体形状变形。根据这些参数，模板网格的第i个三角形的每条边ei1和ei2（定义为三角形顶点之间的差向量）可以转换为结合上面生成的各种内在形状和姿势，我们创建了一个由50万个网格组成的合成数据集，从中提取HKS描述符和轮廓进行训练。3.2. 从HKS生成3D图形（HKS Net）我们的架构的第一部分旨在通过形状嵌入空间学习从3D形状描述符到3D网格的映射。我们首先提取热核特征（HKS），然后将其投影到Laplace-Beltrami算子的特征向量上，得到一个全局描述子。这用于学习嵌入空间，以及可以在给定相应描述符的中性姿势中生成3D形状的逆映射Heat Kernel Signatures（HKS）. 设一个3D形状表示为一个图G=（V，E，W），其中V，E和W分别表示顶点、边和边上的一些权重的集合。权重对形状的底层几何结构进行编码，并且可以通过网格处理文献[57]中的标准技术进行计算。给定这样一个图，该图是通过连接具有加权边的表面上的顶点对来构造的，热核Ht（x，y）被定义为在时间t从顶点x传递到顶点y的热量，给定单位热源为′eij = Ri（α）Si（β）Qi（Ri（α））eij，（1）x[57]：H（x，y）=Σ e−λitφ（x）φ（y），（3）其中j∈{1，2}。矩阵Ri（α）、Qi（Ri（α））和Si（β）分别对应于关节旋转、姿势引起的非刚性变形和内在形状变化。类似到[16，17]，我们通过将PCA应用于数据集中所有网格的变形集合来学习变形空间，相对于模板网格，所有网格都处于相同的姿势。到t i i我其中Ht表示热核，t是扩散时间，λ i和φ i分别表示Laplace-Beltrami算子的第i个特征值和相应的特征向量，x和y表示两个顶点。热核具有各种良好的性质，是理想的代表人体4830我Xt我不同姿势下的形状特别地，它在形状的等距变形下是不变的，捕获形状的不同细节水平和全局属性，并且在扰动下是稳定的[57]。顶点x和时间t处的热核可以用于定义该顶点的热核签名HKSx（t）HKS（t）= H（x，x）= He−λi tφ2（x）.（四）我因此，对于每个顶点x，我们有一个对应的函数HKSx（t），它为x提供了一个多尺度描述符。作为规模（即，t）的增加，我们捕捉到越来越多的内在形状的全局属性。实际上，对时间t进行采样以获得向量HKSx（tj），j≤J对于每个顶点x。在我们的技术中，我们使用J=100时间采样那么对于每个tj，我们可以形成向量h_j：=[HKS×1（t_j），HKS×2（t_j）···]T.预测HKS矩阵。为了学习嵌入空间，将给定时间tj处的所有顶点的HKS投影到Laplace-Beltrami算子的特征向量，以便获得捕获全局固有形状的2D图像具体来说，我们计算矩阵M，其中Mij=φ Thj，即拉普拉斯的第i个特征向量的点积Beltrami算子和定义在时间tj的顶点上的热核向量。由于我们使用300个特征向量φi，因此我们得到300×100矩阵M。然后将其用作网络(that我们称之为HKS网络菲格1（1））学习约4000维的嵌入空间，通过最小化每顶点平方范数损失LVert。一个简单的表示，这种嵌入，计算利用T-SNE [37]，也呈现在图。1，其中阴性补片用绿点表示，阳性补片用红色表示。HKS-网的一个重要特性是，当HKS-网与计算的M.因此，HKS-Net可以反转HKS描述符。虽然我们在这项工作的范围内没有利用这一特性，但我们相信这可能是通用电气公司的一个有价值的工具几何处理应用。但相反，我们使用4000维的嵌入空间作为目标空间，用于我们网络的基于交叉模态轮廓的训练，我们将在下面解释。3.3. 交叉模态神经网络（CMNN）因此，第二部分包括找到从轮廓到新学习的嵌入空间的映射。我们生成五种类型的轮廓，可以被称为模式：正面视图缩放在各种姿势与轻微的自我遮挡，正面视图缩放在一个中立的姿势，侧视图缩放在一个中立的姿势和正面和侧面视图未缩放在一个中立的姿势（图。①的人。1这里，未缩放的im-1请注意，在整个文本中，模式和视图可互换地使用，以强调表示相同3D网格的不同方式4831plies已知的相机校准，缩放意味着我们调整轮廓，使它们具有相同的高度。正向表示形成躯干的骨骼平面与摄影机平面平行，侧面是正向视图的90在测试时，我们的结果不受这些视图的轻微偏差的影响。因此，我们将剪影居中，并将其调整为分辨率的图像在将它们输入到CMNN之前，将它们转换为264×192当然，我们并不期望在一次使用所有的模式/视图，测试，但我们的目的是在训练时利用来自各种模式的大量数据，以便在测试时进行稳健的预测。我们首先训练一个大小与之前的作品类似的网络[16]（5个卷积层和3个密集层），使用AdaMax优化器[31]，学习率为e-4，通过最小化4000个嵌入空间参数的平方损失将每个模式单独映射到嵌入空间（图1）。1（2）、（3）和（4），具有相应的损失LSF、LUF和LSS）。如Tab.所示。2，我们已经取得了更好的结果，为一个视图的情况下相比，相关的作品。这种预训练用作跨模态神经网络（CMNN）的卷积权重的初始化。通过从预训练给出的权重开始，并优化具有组合损失的全连接层的共享权重来执行最终的跨模态训练，例如，对于按比例缩放的前和按比例缩放的侧，我们最小化LSF+LSS，或者对于三种模式，损耗为LSF+LUF+LSS。这个想法是让每个卷积网络首先分别计算轮廓特征，然后在后期将这些高级特征关联起来。我们观察到，当在训练过程中对2种模式和3种模式的各种组合2）与单峰结果相比。与CCA相比，CMNN提供了几个优点。首先，我们得到一个高层次的功能之间的非线性相关性。第二，我们可以添加任意多的模式，而将两个以上的空间与CCA关联起来并不容易。最后，我们不需要像CCA那样将所有训练数据存储在内存中本文的主要焦点之一是估计缩放正面情况下的3D形状，与以前的作品[17]中类似的应用场景。因此，我们需要的测试时间模式，即测试时的期望输入是来自具有未知相机参数的正面视图的在不失一般性的情况下，我们考虑的非标度的正面和标度侧作为其他额外的模式。请注意，这可以通过更多视图和进一步的变化来扩展。3.4. 联合训练最后，我们希望联合训练HKS-Net和CMNN，以获得最终的生成网络。这是通过同时使用所有损失来完成的-4832表1. 各种实验的名义。有关以颜色和数字突出显示的架构组件，请参见图。1.一、名称培训输入测试输入架构21.519.517.515.513.511.59.57.55.53.5将它们传播到架构的所有部分因此，我们通过最小化L SF+L UF+L SS+L Vert与HKS-Net进行联合训练。这种训练不仅改善了从2D轮廓到3D网格的映射，而且还通过学习更好的嵌入空间来提高HKS-Net的生成能力（Tab. 2、Tab。（3）第三章。双视图案例。我们还考虑了两个互补的输入轮廓图像（正面和侧面）被随机给出的情况，这进一步允许与一些相关作品进行比较[62，13，6，16]。在这种情况下，我们主要考虑中性姿势。作为架构，我们使用HKS-Net以及与最近工作中使用的网络类似的网络[16]（图1）。其中，与CMNN不同，权重共享在卷积期间的早期阶段执行然后，如前所述，在嵌入空间和网格顶点位置上使用损失平方和LTwo−View+LVert进行训练。类似地，到嵌入空间的映射通过在HKS网络的密集层中的前向传递被解码到3D网格空间由于新学习的嵌入（Tab.（3）第三章。4. 实验和结果我们进行了大量的实验以确保我们技术的可靠性在本节中，我们报告了定性和定量测试的结果，并与最新技术进行了全面比较为了定量评估我们的方法，我们对合成数据进行了实验，类似于以前的工作[6，17，16]，通过计算在剪裁中广泛使用的相同16个身体测量的误差，如图所示。二、由于我们比较的所有方法以及我们的方法都使用相同的形状模型[2]，因此通过对完全对应的估计网格进行这些测量，比较变得更加可靠。从拟合到真实身体扫描的网格的组合数据集[66，45]中，确保重复删除[16，17]，我们设置1000个网格用于测试，并利用其余的用于生成人体模型和训练数据（第二节）。第3.1节）。对于这些遗漏的网格，我们然后提取HKS描述符和轮廓在各种视图和姿势。图2.对于表1中的方法，网格上显示的所有身体测量值的平均误差图2abd Tab.3 .第三章。我们应用LBS [34]将网格变形为符合我们应用程序的所需姿势（见补充）。我们在从这些网格中提取的轮廓上运行了之前两项工作[17，16]中的方法，而对于其他人[62，13，6]，我们报告了在类似但更少的网格（约300）上进行的实验的数字。除了与最先进的技术进行比较外，我们还全面评估了网络中每个组件的附加值最后，我们得出了定性的结果和运行时的评价。定量实验。16个测量值计算如下：直线测量值由两个极端顶点之间的欧几里德距离计算，而对于椭圆形的，我们计算体表周长。对于每次测量，我们报告了所有估计网格相对于地面真实网格的误差的平均值和标准差。我们报告错误时，只有正面视图轮廓是利用在测试时，在选项卡。2，并且如果在测试时在Tab.3 .第三章。对于这两个表，我们区分两种情况：已知的相机距离（未缩放）和未知的相机距离（在随后的分析中称为缩放，因为在这种情况下我们缩放剪影以具有相同的高度，如在第2节中详细描述的。3.3）。我们实验的命名法是-在Tab. 1.一、请注意，对于表中的所有方法，误差都是针对中性姿势的，除了SF−1−P，我们在使用不同姿势进行训练和测试时显示了误差测量。所有身体的平均误差-我们考虑的方法的保证如图所示二、对于单视图跨模态情况，我们的最佳平均误差为4.第一章01 mm，对于双视图情况为3. 77mm，显示出我们所考虑的任务的非常高的精度这些都是显着优于平均误差与19以前的作品。19毫米[17]，10. 8 mm[16]、11 mm [6]和10mm。1mm [25]，即使这些方法中的一些在更严格的假设下操作我们最好的结果，达到国家的最先进的，突出显示在粗体。对于一个视图情况（选项卡。2），人们可以看到，随着我们走O一BPDJHCIEGFLKMNSF-1比例正视图（SFV），中立位 SFV2SF-1-P SFV，各种姿势SFV2SFU-1 SFV，未缩放正视图（UFV）SFV23SFS-1 SFV，比例侧视图（SSV）SFV24SFUS-1 SFV，UFV，SSV SFV234SFUS-HKS-1 SFV、UFV、SSV、预计HKS（PHKS）SFV 123SF-SS-2 SFV、SSV SFV、SSV5UF-US-2 UFV，未缩放侧视图（USV）UFV，USV5UF-US-HKS-2UFV，USV，PHKS UFV，USV 15平均误差（mm）4833表2.从一个比例的正面轮廓重建形状的身体测量误差比较命名见表1。1.一、最后两列显示了最先进方法的结果。测量结果如图所示。2（右上）。误差表示为平均值±标准差。Dev（毫米）。重点介绍了我们的最佳实现方法SFUS-HKS-1。测量SF-1-PSF-1SFS-1SFU-1SFUS-1SFUS-HKS-1HS-Net-1-S [1]CCA-RF[17]A. 头围4.3± 3.53.9± 3.13.7± 2.93.7± 2.93.9± 2.93.1± 2.64± 48± 8B.颈围2.2± 1.82.3± 1.82.3± 1.82.3± 1.82.2± 1.72.1± 1.78± 57± 7C. 肩胛骨/胯部长度6.2± 4.96.1± 4.85.3± 4.25.3± 4.15.4± 4.14.9± 3.820± 1518± 17D. 胸围6.7± 5.46.7± 5.35.9± 4.95.9± 4.75.8± 4.85.8± 4.813± 725± 24E. 腰围8.1± 6.17.8± 6.27.5± 5.97.5± 5.97.5± 5.76.4± 5.219± 1324± 24F. 骨盆周长9.3± 7.58.8± 7.28.4± 6.78.2± 6.68.1± 6.57.1± 5.919± 1426± 25G.手腕周长2.1± 1.72.1± 1.71.9± 1.61.9± 1.61.9± 1.61.7± 1.55± 35± 5H.二头肌围3.9± 3.13.3± 2.62.9± 2.42.9± 2.42.9± 2.52.9± 2.58± 411± 11I. 前臂围3.1± 2.42.9± 2.33.1± 2.32.7± 2.32.9± 2.32.6± 2.27± 49± 8J.臂长4.1± 3.13.8± 2.93.3± 2.53.3± 2.53.2± 2.52.9± 2.412± 813± 12K.裤腿长7.3± 5.16.8± 5.26.2± 4.86.5± 4.95.7± 4.55.4± 4.320± 1420± 19L.大腿围6.3± 4.96.3± 5.55.8± 4.95.7± 4.75.8± 4.85.8± 4.913± 818± 17M.小腿围3.6± 2.93.5± 3.13.3± 2.73.3± 2.63.5± 2.82.9± 2.512± 712± 12N. 踝围2.1± 1.52.1± 1.71.9± 1.51.8± 1.42.1± 1.51.6± 1.36± 36± 6O.总高度12.6± 9.912.4± 9.911.2± 8.610.9± 8.410.4± 8.19.8± 7.750± 3943± 41P. 肩宽2.3± 1.92.3± 1.82.2± 1.22.2± 1.92.1± 1.71.9± 1.74± 46± 6表3.与Tab相同2，但是具有同时从两个视图重建的形状最后四列显示了同一任务的其他最先进方法的结果重点介绍了我们的最佳实现方法UF-US-HKS-2测量SF-SS-2UF-2UF-US-HKS-2HS-2-Net-MM [16]Boisvert等人[6]美国Chen等人[第十五条]Xi等人[六十二]A. 头围3.9± 3.23.3± 2.63.2± 2.67.4± 5.810± 1223± 2750± 60B.颈围1.9± 1.72.0± 1.61.9± 1.55.3± 3.111± 1327± 3459± 72C. 肩胛骨/胯部长度5.1± 4.14.3± 3.54.2± 3.49.9± 7.04± 552± 65119± 150D. 胸围5.4± 4.85.8± 4.35.6± 4.719.1± 12.510± 1218± 2236± 45E. 腰围7.5± 5.77.6± 5.97.1± 5.818.4± 13.222± 2337± 3955± 62F.骨盆周长8.0± 6.48.0± 6.46.9± 5.614.9± 11.311± 1215± 1923± 28G.手腕周长1.9± 1.61.6± 1.41.6± 1.33.8± 2.79± 1224± 3056± 70H.二头肌围3.0± 2.62.6± 2.12.6± 2.16.5± 4.917± 2259± 76146± 177I.前臂围3.0± 2.42.9± 2.12.2± 1.95.5± 4.216± 2076± 100182± 230J.臂长3.3± 2.62.4± 1.92.3± 1.98.1± 6.415± 2153± 73109± 141K.裤腿长5.6± 5.14.3± 3.84.3± 3.815.6± 12.46± 79± 1219± 24L.大腿围5.8± 5.15.1± 4.35.1± 4.313.7± 10.89± 1219± 2535± 44M.小腿围3.9± 3.23.1± 2.12.7± 1.98.5± 6.56± 716± 2133± 42N.踝围2.1± 1.51.6± 1.11.4± 1.14.6± 3.214± 1628± 3561± 78O.总高度10.6± 8.67.2± 6.17.1± 5.525.9± 20.49± 1221± 2749± 62P.肩宽2.2± 1.82.1± 1.82.1± 1.85.6± 3.96± 712± 1524± 31通过在训练时使用多个视图并在完全连接的层中共享权重，从单模态训练到跨模态训练，误差不断减小。我们展示了只添加侧面缩放视图（SFS-1），非比例缩放视图（SFS-1），仅缩放前视图（SFU-1），并结合所有三个（ SFUS-1 ）。通过 CMNN 和 HKS-Net 的联合训练（SFUS-HKS-1）实现了最低的误差（第二节）。第3.4段）。在这种情况下，不仅预测与单独训练时相比，HKS网络本身的准确性也得到了提高，将所有网格的平均误差从4. 74比3 77mm。我们进一步报告了在测试网格（SF-1-P）上应用不同姿势时的结果，与所有其他方法相比。即使在这种情况下，与中性姿势情况（SF-1）没有太大区别，意味着对我们考虑的姿势空间的变化具有鲁棒性对于两个视图的情况，我们比较了在测试时需要两个视图的作品的结果[6，62，13，16]。我们使用相同的相机校准假设，由于与预测网络联合训练的新形状嵌入空间，再次实现了准确性的显着提高（UF-US-HKS-2 两在视图情况下，我们不对多个姿势进行测试，因为我们所比较的先前作品也针对该特定应用对中性姿势进行了测试。这里一个有趣的观察是，单视图跨模态情况（表中的SFUS-1。2）与双视图网络（表2中的SF-SS-2）相当，在某些测量中甚至更好。（3）第三章。由于两种情况下都没有进行联合训练，两种情况下的损失都在形状嵌入空间，这证明了共享的全连接层和跨模态训练对于在测试时提高预测性能的重要性。定性实验。我们对来自先前工作的三个测试对象[17]以中性和自拍姿势评估了我们的方法，以及其他姿势的四个新对象。如图所示。3、我们的重建更接近真实的个体，与Dibra的重建相比，4834图3. Dibra等人的测试图像预测结果。[17 ]第10段。从左至右：在休息和自拍姿势下的两个输入图像，相应的轮廓，通过我们的方法SF-1-P和Dibra等人的方法估计的网格。[17 ]第10段。图4.四个测试对象在不同的姿势和衣服的预测结果从左至右：输入图像，对应的轮廓，通过我们的方法SF−1−P估计的网格。[17]（最后一栏），特别是第二个主题。我们还显示网格覆盖在输入图像，也适用于从Bogo等人的方法。[5]在补充。结果表明，该方法是可行的。图4示出了较难的情况，其中由于服装、姿势和遮挡，轮廓与训练数据的轮廓差异更大。我们的结果仍然解释了所有情况下的轮廓。速度我们的网络的训练是在Intel（R）Core（TM）i7 CPU 4770 3.4 GHz和NVIDIA GTX 1080（8G）GPU上进行的。每一个时期大约需要50分钟，一个时期大约包含50000个样本。在实验中考虑的各种架构的总训练时间从15-30个时期变化。我们在英特尔（R）酷睿（TM）i7 CPU 950上进行了测试时间实验3.0 NVIDIA GTX 940（2GB）GPU。由于我们的方法直接输出网格的顶点，并且不需要求解最小二乘系统（等式2）。1），它快得多（0. 15秒）。即使使用CPU，我们的方法大约需要0。3秒，类似于最快的方法[17]，而不到6秒[6]和0。45秒[16]，如在其他以前的作品报告。因此，我们的方法可以扩展到更高的网格分辨率，并且可以直接用作端到端管道，输出完整的3D网格。随着压缩深度网络（例如，[21，27]），这可能会被移植到移动设备上，这符合我们对自拍形状的目标应用。最后，我们进行了进一步的实验，将噪声添加到轮廓中，就像以前的作品[17，16]一样。该方法对轮廓噪声具有较好的鲁棒性，平均误差增加4. 1mm用于高噪音。我们提出了进一步的结果构成，轮廓噪声，故障情况下，在补充材料中，与应用CCA而不是我们的跨模态网络进行比较。5. 结论与讨论提出了一种在摄像机参数未知的情况下从单个轮廓线中获取三维人体形状的新方法。这是通过将捕获不同2D视图的深度相关特征与基于3D形状描述符的嵌入空间结合在一个新的基于CNN的架构中来实现的。我们在合成数据和真实数据上广泛验证了我们的结果，证明与最先进的方法相比，准确性有显著提高。我们说明了架构的每个组件对于实现这些改进的结果都很重要。结合最低的运行时间在所有国家的最先进的，我们因此提供了一个实用的系统，详细的人体测量与毫米精度。所提出的跨模态神经网络通过在训练时合并来自不同模态的信息来增强这种相关网络的思想可以扩展到许多其他问题，其中特权数据是可用的，或者不同数据类型（例如图像，文本，音频）之间的相关性将被利用。HKS-网类架构可以用于反转形状描述符，其可以具有用于理解和生成形状的各种应用。从2D投影推断3D形状是一个不适定问题。与之前的作品一样，我们在轻度遮挡和一定程度的轮廓噪声下操作，这是包括我们在内的许多场景的现实假设然而，特别是对于严重的遮挡，我们需要更强的先验知识来推断正确的3D形状。我们相信，将我们的技术扩展到具有阴影线索的图像，即使在这种情况下也可以提供准确的估计。在这种情况下，有必要进行涵盖不同环境和纹理的培训。谢谢。这项工作是由KTI-赠款15599.1资助。我们要感谢Wan-Chun Alex Ma对数据集的帮助，以及BrianMcWilliams对CCA的宝贵讨论4835引用[1] G.安德鲁河Arora，J. A. Bilmes和K. Livescu深度典型相关分析。在 Proceedings of the 30th InternationalConferenceonMachine Learning ， ICML2013 ，Atlanta，GA，USA，16-21 June 2013，pages 12473[2] D. Anguelov ， P. 斯里尼瓦桑 D.Koller ， S.Thrun ，J.Rodgers和J.戴维斯Scape：人物的形状完成和动画。在ACM SIGGRAPH 2005 Papers，SIGGRAPHACM。一二三四六[3] M. 奥布里，美国Schlickewei和D.克莱姆斯 wave内核签名：形状分析的量子力学方法。在计算机视觉研讨会（ ICCV 研讨会）， 2011 年 IEEE 国际会议上，第1626IEEE，2011年。3[4] A. O. 巴兰湖 Sigal ，M. J. Black ， J. E. Davis 和 H. W.Haussecker从图像中获得详细的人体形状和姿势。2007年IEEE计算机协会计算机视觉和模式识别会议（CVPR2007），20

下载后可阅读完整内容，剩余1页未读，立即下载