TetraTSDF：从单个图像中重建穿着宽松衣服的人的3D形状

23 浏览量更新于2023-10-25 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6011拉利泽TetraTSDF：从具有四面体外壳的单个图像进行3D人体重建鬼冢速人九州大学mound028810@gmail.com杉本昭弘慕尼黑工业大学zehrahayirci@gmail.com内山秀明九州大学thomas@ait.kyushu-u.ac.jp谷口林一郎国立信息学sugimoto@nii.ac.jp九州大学uchiyama@limu.ait.kyushu-u.ac.jp九州大学rin@kyudai.jp图1：我们提出了人体的四面体体积表示和一种称为TetraTSDF的方法，该方法能够从单个2D图像中检索穿着宽松衣服的人的详细3D形状。摘要从其2D外观恢复人的3D形状由于模糊性而不适定然而，在卷积神经网络（CNN）和关于3D人体的先验知识的帮助下，有可能克服这种模糊性，以从单个图像恢复人体的详细3D形状然而，目前的解决方案无法重建一个穿着宽松衣服的人的所有细节。这是因为（a）即使在现代GPU上也无法保持的巨大的复杂性要求，或者（b）无法对所有细节进行编码的紧凑的3D表示本文提出了人体的四面体外壳体截断符号距离函数（ TetraTSDF ）模型及其相应的部位连接网络（PCN），用于三维人体形状的回归。我们提出的模型是紧凑的，密集的，准确的，但非常适合基于CNN的回归任务。我们提出的PCN允许我们学习的四面体体积中的TSDF从一个单一的图像在一个端到端的方式的discovery。结果表明，我们所提出的方法可以重建穿着宽松的衣服从单一的RGB图像的人的详细形状。60121. 介绍人体的详细3D形状揭示了标准2D图片无法捕捉的个人特征。这些信息对于娱乐行业（3D视频）、商业（虚拟试穿）或医疗用途（自我意识或康复）中的许多应用至关重要。构建人体3D模型的第一个系统被设计为使用激光扫描仪、多视图校准相机阵列或标记在受控环境中工作。这些系统很难安装，价格昂贵，应用领域有限。在过去的十年中，消费级深度相机已成功用于构建人体的3D模型[45]。然而，大部分消费者仍然无法获得高质量的深度相机此外，消费级深度相机在户外环境中无法正常工作。因此，需要能够在不受约束的环境中有效地重建详细的3D人体形状的方法在这项工作中，我们专注于详细的三维人体重建的任务，在一个单一的镜头与标准的RGB相机。在文献中，有两种策略来生成3D6013从一个单一的彩色图像模型：（1）参数模型拟合;（2）三维模型回归。属于第一种策略的方法将参数化人体模板3D模型（例如SMPL模型[19]）拟合到输入彩色图像。为了拟合模板模型，已经提出了考虑轮廓、骨架和特征点的各种成本函数（[4]）。后一种策略利用了卷积神经网络（CNN）的最新进展。因此，深度图像回归之后是体积融合[33]，或者已经提出了端到端RGB到3D模型技术[1，30，36基于CNN的方法很有希望从单色图像重建3D人体，因为它们有可能捕获详细和复杂的特征（如衣服褶皱）。然而，存在一些限制主要问题源于体积TSDF表示，这是用来回归的三维形状。体积表示的分辨率必须满足人体的精细细节，这意味着需要可考虑的存储量。然而，即使在现代GPU上也难以维持这种在3D人体形状重建中实现更高精度的关键挑战是在存储器中定义更紧凑的3D人体表示，其仍然允许将问题转换为适应良好的回归任务。一种解决方案可能是位移映射[1]。然而，这种紧凑的表示不可避免地丢失了一些形状上的细节，例如，非凸区域或衣服（如鞋或手套）中的遮挡部分无法使用位移映射重建。在本文中，我们提出了一种新的体积三维身体表示的端到端的三维身体形状回归从一个单一的彩色图像。我们提出的3D身体表示是基于嵌入到人类特定外壳的四面体TSDF场。外壳是从SMPL模型的粗略版本[19]构建的，并且可以使用SMPL姿势和形状参数来拟合人体。四面体TSDF场建立在由外壳限定的四面体体积网格的顶点处。我们还提出了一个新的网络来估计四面体TSDF场从一个单一的彩色图像，结合CNN和我们提出的部分连接网络（PCN）。我们的贡献有三个方面：（1）新的3D身体体积表示，其紧凑、密集、准确并且还非常适合于基于CNN的回归任务;（2）一种从地面实况（GT）3D人体扫描生成高质量TSDF场的方法;以及（3）一种新的基于CNN-PCN的沙漏网络，用于从单色图像进行3D人体形状的端到端回归。2. 相关工作将参数化3D模型拟合到输入的2D彩色图像已经是从单个2D图像重建3D形状的标准方式很长时间。最近，使用CNN已被证明是一种强大的替代方案。在这里，我们回顾了使用这两种策略的相关作品，特别关注人体形状重建问题。2.1. 模板模型拟合从单色图像估计物体的3D形状的经典方法是拟合模板3D模型，使得其匹配其2D投影，同时满足一些约束（例如，，[4，5，19]）。3D模板到2D或2.5D输入的地标引导非刚性配准已经被广泛研究。例如，Lu等人[21]提出使用面部标志来将可变形面部模型拟合到2.5D数据。Cashman等人 [5]提出用细分曲面的线性组合来表示3D可变形模型。这种模型可以通过手动提供一些关键点和待重建对象的轮廓来拟合到2D图像的集合。从一幅RGB图像中恢复三维人体形状是该领域的一个开放性问题。只有少数提出的技术，处理复杂的姿势和变形。大多数技术依赖于受试者的预扫描模型[8，13，18，32，38]或模板模型[2，3]。在[13]中，作者提出首先使用多视图重建系统扫描人的3D模型然后，重建的3D模型实时地与RGB视频非刚性地对准。类似地，在[12]中，Bogo等人。 [4]提出通过使用许多线索（如轮廓重叠，高度约束和平滑阴影）来优化给定输入图像和姿势的参数化模板模型作者使用SMPL模型[19]从单个RGB图像中恢复各种参数，如姿势和形状。最近，Kolotouros等人。 [17]提出了一种通过开发结合CNN和优化方法的自改进循环然而，基于模板的方法无法捕捉宽松的衣服，因此只能重建裸露的人体。2.2. 卷积神经网络回归最近，CNN为计算机视觉的许多领域带来了新的可能性。从单个图像重建3D形状是随着新的CNN工具的可用性而得到大力发展的领域之一受到CNN在分割任务中的非凡性能的启发，已经提出了几种将3D形状表示为二进制占用图的方法[6、11、35、40、41]。如果将估计3D表面的任务表示为分割问题，则CNN6014可以预测外部和内部体素。例如，Wu等人[42]提出了2D CNN的扩展，用于体积输出的情况。在[44]和[46]中提出了进一步的优化改进。在3D面部回归的情况下，Jackson等人。[15]提出了一种使用CNN直接回归面部体积表示的方法。通过概率赋值，可以得到光滑的曲面。Varol等人 [36]将该方法扩展到全身形状回归。所有这些方法都共享扩张硬化SMPL模型四面体化图2：我们的人体四面体外壳是从SMPL模板模型的粗糙版本构建的。存储器消耗与形状分辨率成立方比例的共同限制即使使用现代GPU，体积回归网络也只能用于低分辨率网格。然后，只能生成粗略的3D模型。Riegler等人 [28]提出使用八叉树来减少内存使用，并调整CNN来预测高分辨率占用图，前提是树结构是预先已知的。但该方法不能应用于不同姿态的三维人体重建，因为树结构会随着输入的变化而变化。在四面体体素（分辨率1cm）262745体素峰会矩形体素（分辨率1cm）200x200x200=8000000体素矩形体素（分辨率3cm）64x64x64=262144体素[34]，Tararchenko等人提出了一种通过预测树结构来克服这个问题的技术。然而，训练网络学习八叉树的稀疏结构是很费力的。最近，Saito等人 [30]提出了一种通过单独处理每个3D点来提高内存效率的方法。他们报告了在使用合理内存量的情况下在私有数据集上获得的高精度 3D 重建结果。 However, this methodjointly estimates the 3D shape and body pose while 3Dbody pose estimators have made significant progressrecently and achieved high accu- racy results (e.g., [14]报告了3D关节位置的平均误差小于2我们认为，这些任务应该分开：一个任务用于身体姿势估计，一个任务专用于3D形状估计。最近，Alldieck等人 [1]提出在模板人体模型上使用位移映射来表示穿着宽松衣服的3D人体。这不仅非常适合CNN公式，而且还需要低内存。但是，它有一个严重的局限性，它不能重建像内部的布皱纹凸部。此外，因为模板人体模型是裸露的，手和脚中有手指，并且偏差映射只能编码法向量方向上的位移，所以重建例如鞋或手套是不可能的。与此同时，Gabeur等人。 [10]提出了一种方法，通过使用GAN来“塑造”3D人体，从可见和隐藏侧预测深度图我们的理由是，当重建人体宽松的衣服，隐式体积TSDF是最好的我们观察到，在规则网格中，人周围的3D边界框中的许多体素实际上是不必要的。因此，我们提出了一种新的四面体3D形状表示，能够大大减少内存消耗，同时图3：我们的表示允许我们重建de-尾3D形状，同时使用少量的体素。允许重建高分辨率的3D形状。3. 提出的四面体表示法截断符号距离函数由Curless和Levoy在[7]中首次引入，用于表示3D表面，并已广泛用于现代RGB-D同步定位和映射（SLAM）系统[23，24，27，29]。在3D空间中的任何点处，TSDF函数将到3D曲面的有符号距离作为值。出于实际实现的原因，这些值在-1和1之间截断。通常，TSDF在（矩形）体素的规则网格中采样，并且可以使用成熟的算法（例如Marching Cubes[20]或光线跟踪）提取表面的3D网格我们的目标是减少人体周围的无关场我们建议修改众所周知的SMPL模型[19]来创建这个外壳。SMPL模型具有定义良好的姿势和形状参数，可以拟合任何3D人体数据集，骨架甚至RGB图像（例如使用CNN）。3.1. 粗糙的人体外壳我们建议对SMPL中性身体模型进行膨胀，以便一旦适合输入，它就覆盖整个身体以及宽松的衣服。我们还建议删除SMPL模型的形状细节（如鼻子，嘴等）。我们的管道如图所示。二、我们认为我们不需要外壳表面的细节，因为细节将被编码到TSDF字段中。因此我们6015重叠变形计算TSDFτ2地面实况星形图4：在安装粗覆盖网格SMPL模型首先创建一个地面实况数据集来监督学习过程。在我们的情况下，训练数据集由一个2D图像和一个对应的致密四面体TSDF场（即，每个体素顶点的TSDF值的集合）。为了从一组公开可用的地面真实人体3D扫描中构建大量密集的TSDF字段，我们需要一种有效的算法。在本节中，我们详细介绍了我们提出的生成这种地面真实训练数据集的算法首先，我们通过优化SMPL姿态和形状参数，在给定GT 3D骨架的情况下，将粗略模型拟合到GT 3D扫描。然后，我们计算外层的每个体素的TSDF值。这里出现两个问题：（1）GT 3D网格是稀疏的，因此体素顶点与其最近点之间的标准有符号距离与到表面的有符号距离显著不同。（2）在一些姿势中，粗略模型的部分可以重叠，这可以3D扫描我们从星形姿势扭曲的地面真实3D网格计算TSDF值。下采样SMPL模型，然后上采样以生成具有高密度顶点1的粗糙外壳。我们提出的外壳允许我们在人周围定义一个紧凑的3D空间。然而，外壳的形状是高度不规则的，并且在矩形体素中的3D空间的标准均匀因此，我们建议使用四面体离散化的三维空间，而不是标准的矩形体素。图2展示了创建的四面体网格导致重影效果（例如，躯干的一部分可以被编码到对应于手臂的体素中）。为了解决第一个问题，我们将TSDF值计算为体素顶点与最近点的切平面之间的点到平面的距离当体素接近表面时，这是点到表面有符号距离的合理近似（并且可以快速计算）。然而，当体素远离表面时，近似可能变得完全错误。为了克服这一点，我们截断TSDF值的基础上的欧几里德点到点之间的距离的体素顶点和它的最近点的阈值。从外壳上。请注意，外壳只制造一次，然后安装到任何人。因此，相同的四面体网格可以用于任何人。图3显示了我们提出的四合物的优点.TSDF（v）=n<$·（v−v<$）如果<$v−v<$$> ≤τσ（n<$·（v−v<$））如果v−v2>τ、（1）在人体三维表示的标准均匀网格上进行三维表示。我们提出的表示需要显着更少的体素来表示3D表面，同时保持提取的表面中的点的密度相同。注意，体素的数量与CNN网络中的参数数量直接相关实际上，与标准矩形TSDF表示有两个主要区别：（1）标准体积表示中的TSDF值存储在每个体素的中心，而在本例中，该值存储在每个四面体的顶点。（2）自然地，我们更喜欢 Marching Tetrahedra 算法 [31] 而不是 MarchingCubes来提取3D表面。3.2. 四面体内部的TSDF计算为了训练CNN从给定的2D图像回归我们提出的外壳内的TSDF值，我们必须1我们使用Blender软件（https://www.blender.org）进行膨胀、下采样和上采样过程其中v是vox el顶点，vo是v在GT3D网格，并且n是v处的法向量。在实验中，阈值τ被设置为3cm，并且函数σ（·）返回其自变量的符号。为了解决第二个问题，我们从扭曲成星形姿势的3D扫描计算TSDF值，其中外壳的身体部分不相互穿透（见图10）。4）. 为此，我们首先将GT 3D网格的每个顶点连接到具有适当权重的相应骨架节点然后，通过混合所附骨骼关节的3D变换，将3D顶点坐标扭曲为T形。一旦所有顶点都被扭曲，我们就计算外层的稠密TSDF场，如上面所解释的。4. 详细的3D形状回归我们提出了一个端到端的回归网络来估计TSDF值的四面体体积从一个单一的图像。我们提出的网络将单个2D60161.3D扫描计算TSDF地面实况尽量减少MSE损失TSDF输入沙漏网络CNNPCN输出图5：我们提出的网络是CNN和PCN的组合。给定3D姿势数据，它允许我们以端到端的方式回归穿着衣服的人的3D形状。图像并输出密集TSDF字段。通过使用行进四面体算法，可以从该TSDF字段提取人体的详细3D表面。估计的3D网格可以使用通过任何现有技术的3D姿态估计方法获得的SMPL姿态参数来重构。在体积数据中回归TSDF的标准方法是使用堆叠的沙漏网络[25]。以这种方式，输入图像被编码成特征向量，该特征向量完全连接的网络）。相反，我们提出了一个部分连接的网络与部分连接的层，其中连续层之间的连接只在相同的身体部位之间完成（这只消耗0。025GB内存）。对于每个层l，我们使用以下稀疏邻接矩阵定义部分连接。然后解码成体积网格。为此，CNN被用于在良好组织的数据的帮助下将网络构建成像素和体素的均匀网格在我们的例子中，体数据被嵌入到四面体网格中，四面体网格不具有均匀的网格组织。因此，不能直接使用最先进的CNN沙漏Al=（1）l（2）lA（nout）l。（二）我们提出了一个新的沙漏结构，a11a12···a1nina21a22···a2nin四面体体素模型中每个顶点的TSDF值。我们提出的网络结合CNN来编码输入A（n）l=0.. -是的-是的（3）.图像和一个新的零件连接网络（PCN）来解码特征向量（图5说明了我们提出的am1am2···amnin.网络）。我们网络的独创性在于后面的部分。我们建议通过对全分辨率外壳体积进行下采样模型（见图5），然后我们将特征传播到其中ij=1 ifj=adj（n）[i]0否则。上层输出TSDF字段。注意四面体模型中的体素数量太大，无法直接使用Al=1 ···10· ··00· ··00 ···01· ··10· ··0、（四）一个完全连接的网络（参数的数量接近2英里。. -是的-是的.变形..6017最后一层消耗大约90GB内存，0 ···00· ··01· ··1601812其中n是输入和输出节点的数目，m是第n个输出节点的相邻节点的数目，并且adj（n）是连接到第n个输出节点的输入节点的索引的列表（并且adj（n）[i]是列表中的第i个元素）。不能保证所有输出节点具有相同数量的相邻节点，因此我们通过使用矩阵Al来平坦化输入特征，并通过使用Al将其重新整形为输出特征的形状。利用这些矩阵，来自两个连续层（l，l+1）的特征如下传输。fl+1=σ（Al（Al fl<$Wl）），（5）表1：在SURREAL[37][38][39倒角（cm）超现实铰接SMPLify-xN.A.9.61BodyNet6.387.22Tex2ShapeN.A.0.72我们5.140.43这使我们能够测试我们提出的普遍性。2 1法在Articulated中，我们在80%的其中，fl、fl+1是图层的输入和输出要素W1是所有边的可变权重矩阵还有，◦ 表示两个矩阵的元素乘积，表示激活函数。为了定义邻接矩阵A1和A1，我们需要：然后对剩下的20%进行测试。我们的方法在训练数据集中没有出现的姿势（以及变形）上进行了测试。这使我们能够测试我们提出的方法重建详细的3D形状（如衣服褶皱）的能力。在培训中，我们采用了平均1 2标识连接输入节点的邻接列表L以及所有层的输出节点为了创建这些邻接列表，我们关注四面体模型中节点的位置具体地说，第l层中的每个节点都连接到第l+1层中的k个最近邻居（我们在实验中使用k = 5）。我们推断四面体素模型具有人体形状的图形结构，并且我们可以认为远距离节点彼此之间的关系较弱因此，通过仅将近节点连接到下一层而不连接远节点，学习参数的数量大大减少，而不会丢失来自前一层的特征的大量信息。我们设计的网络结构，以便不丢失功能，同时减少了可变参数的数量，通过连接只有相邻的节点。然而，当将网络前半部分的最后一个CNN层连接到后半部分的第一个PCN层时，没有邻接的概念，因为CNN层的节点不具有人体的形状因此，我们在CNN和PCN网络之间使用全连接层。5. 实验我们定性和定量地评估我们提出的方法的能力，从一个单一的图像重建人体的三维形状在我们所有的实验中，我们使用体积分辨率（即，四面体体积中相邻顶点之间的平均距离）为约1cm（其对应于约2. 6×105体素顶点）。我们在SURREAL [37]和Articulated [38]数据集上评估了我们的网络。在使用SURREAL进行的评价中，我们严格遵循了作者在[37]中解释的方案。我们的网络在训练数据集中没有出现的主题上进行了测试。在最后一层中使用平方误差损失函数，在隐藏层中使用reLU作为激活函数。训练关节数据集的网络大约需要3-4个小时，使用的批量大小为5，使用单个GTX1080 GPU。我们比较了我们提出的方法与其他最近作品已经公开了他们的代码（[1，26，36]）。请注意，对于Tex2Shape [1]，只有用于测试的代码可用，因此我们参考他们的论文构建了一个用于训练Tex2Shape的神经网络。5.1. SURREAL数据集的比较评估我们将我们提出的方法与BodyNet [36]进行比较，以确认使用我们提出的四面体体积表示优于经典的均匀矩形表示的优势。输入地面实况我们的BodyNet图6：使用我们的方法和BodyNet在SURREAL数据集上获得的3D网格的示例。6019输入地面实况我们Tex2Shape SMPLify-X BodyNet图7：用我们提出的方法和其他相关工作获得的比较重建结果从左到右：输入图像，地面实况，我们的方法，Tex2Shape [1]，SMPLiFy-X [26]，BodyNet [36]栅格。我们在[36]中使用的SUR- REAL数据集[37]上训练和测试了我们的图 6 显示了我们提出的方法和BodyNet获得的定性比较结果。正如我们所看到的，我们提出的CNN-PCN网络能够成功地从一个单一的图像重建请注意，BodyNet估计姿势和形状，而我们的方法只估计3D形状。我们使用HMR[16]姿态估计结果作为姿态参数，以与输入图像相同的姿态显示我们的结果。表1显示了定量比较。对于度量，我们使用了地面实况3D扫描和重建的3D网格之间的倒角距离。从这些结果中我们可以看出，我们提出的方法能够仅从一张图像中重建人体的精确密集3D形状。我们得到了比Bo- dyNet更好的结果，因为我们提出的四面体表示允许以更高的分辨率重建。5.2. 对关节式数据集的比较评价为了确认我们提出的方法在从单个图像重建穿着宽松衣服的人的详细3D形状方面的优势，我们将我们的方法与最新的最先进的方法Tex2Shape [1]进行了比较。对于定性和定量评估，我们使用了名为Articulated[38]的公开数据集，该数据集包含人类以多种姿势穿着宽松衣服的序列，并具有地面真实3D扫描。不幸的是，[1]中使用的数据集不是公开的，所以我们不能直接将我们提出的方法与[1]在他们自己的数据集上进行比较。我们参考他们的论文[1]建立了一个用于训练Tex 2Shape的判别式网络，并使用与我们提出的方法完全相同的训练/测试分割图7和表1所示的比较结果显示了我们提出的方法与Tex2Shape相比的优势。请注意，与[1]中一样，我们显示了与地面真实3D姿态重新定位的结果。然而，也可以使用任何第三方3D姿态估计来估计来自输入图像的3D姿态（[22，39]）。图6020输入地面实况我们Tex2Shape SMPLify-X BodyNet3.02.01.00（cm）图8：重建的3D网格顶点与GT扫描中最近点之间的欧几里得距离的可视化。这些误差用热图表示，并映射到每种方法的重建3D网格上。图7显示了测试数据集的一些代表性结果。我们还比较了我们的方法与其他密切相关的作品所获得的结果。如图7和图8所示，我们提出的方法优于所有其他以前的工作。图8显示了热图的误差的三维重建模型所获得的方法和其他相关工作。正如我们所看到的，我们提出的网络可以成功地恢复的细节，0.20.150.10.050列车试验0 25 50 75 100时代0.10.080.060.040.020宽松的衣服，即使在闭塞的地区。正如我们在表1中看到的，我们观察到平均误差在0左右。5cm的三维网格重建与我们提出的方法。正如我们在图7的圆圈区域中所看到的，我们所提出的方法相对于相关工作的最强和更清晰的优点是，我们所提出的方法可以重新获取手部细节，例如处于正确位置的手指（使用BodyNet无法获得细节）或反向重建足部周围的鞋（手指仍然保留Tex2Shape，给穿鞋的人带来不愉快的影响）。此外，使用我们提出的方法，我们不需要估计手指姿势。如我们在图7中可以看到的，尽管手的姿势是未知的（这就是为什么在用Tex2Shape获得的结果中手总是张开的原因），但是我们提出的方法可以成功地以正确的姿势重建5.3. 网络分析我们通过改变参数来分析网络的性能。图9（a）显示了我们的网络在训练过程中的收敛速度。图9（b）显示了我们的网络在改变PCN中的连接数时的性能正如所期望的，在连接的数量（即，存储器消耗）和准确性。图9：左侧：我们在ARTIC上的网络学习曲线-ULATED数据集。右：我们将节点的连接从原来的（n=9）减少到n=3，n=6。6. 结论提出了一种从单幅图像中重建宽松人体三维形状提出了一种基于四面体TSDF场嵌入粗糙人体外壳的三维人体表示方法。我们还设计了CNN-PCN网络，以端到端的方式回归四面体TSDF场。我们使用公共数据集的定性和定量比较实验证实了我们提出的方法能够用宽松的衣服重建详细的形状。结果表明，我们的方法在这些数据集上的性能优于当前最先进的方法。几个可能的改进留给未来的工作，例如将我们的PCN与图卷积网络结合起来[9][43]。确认这项工作的一部分得到了 JSPS KAKENHI GrantNumber JP19K20297 和 Microsoft CORE 16 Grant 的支持。MSE损失RMSE6021引用[1] ThiemoAlldieck ， GerardPons-Moll ， ChristianTheobalt，and Marcus Magnor. Tex2shape：从单个图像中获得详细的完整人体几何形状。在IEEE计算机视觉国际会议（ICCV），2019年10月二三六七[2] Al e xandruOBalan和MichaelJBlack。赤裸裸的事实：估计衣服下的身体形状。在欧洲计算机视觉会议上，第15-29页。Springer，2008. 2[3] Alexandru O Balan ， Leonid Sigal ， Michael J Black ，James E Davis，and Horst W Haussecker.从图像中获得详细的人体形状和姿势。2007年IEEE计算机视觉和模式识别会议，第1-8页。IEEE，2007年。2[4] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Pe ter Gehler、Javier Romero和Michael J.黑色.保持它SMPL：从单个图像自动估计3D人体姿势和形状。在计算机视觉Springer International Publishing，Oct. 2016. 2[5] Thomas J Cashman和Andrew W Fitzgibbon。海豚是什么形状的？从 2D 图像建立 3D 可变形模型。 IEEEtransactionsonpatternanalysisandmachineintelligence，35（1）：232-244，2012。2[6] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议上，第628-644页施普林格，2016年。2[7] Brian Curless和Marc Levoy。从距离图像建立复杂模型的体积法。1996. 3[8] Edilson De Aguiar，Carsten Stoll，Christian Theobalt，Naveed Ahmed，Hans-Peter Seidel，and Sebastian Thrun.从稀疏多视图视频性能捕获，卷27。ACM，2008年。2[9] MichaeülDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。第30届神经信息处理系统集，NIPS，第3844-3852页，美国，2016年柯伦联合公司8[10] 瓦勒恩廷·加布、让-塞巴斯蒂安·佛朗哥、Xa vierMar-廷、科迪莉亚·施密德和格雷戈里·罗杰斯。塑造人类：从单幅图像中进行非参数三维人体形状估计。在IEEE/CVF计算机视觉国际会议，2019年。3[11] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示在欧洲计算机视觉会议上，第484-499页施普林格，2016年。2[12] Peng Guan，Alexander Weiss，Alexandru O Balan，andMichael J Black. 从人体模型估计人体形状和姿态一个单一的形象。2009年IEEE第12届计算机视觉国际会议，第1381-1388页IEEE，2009年。2[13] Marc Habermann ， Weipeng Xu， Michael Zollhoefer，Ger- ard Pons-Moll，and Christian Theobalt. Livecap：从单目视频中实时捕捉人类行为。ACM Transactions onGraphics（TOG），38（2）：14，2019。2[14] Karim Iskakov ，Egor Burkov ，Victor Lempitsky ，andYury Malkov.人体姿势的可学习三角测量。在2019年国际计算机视觉会议（ICCV）上。3[15] 亚伦·S杰克逊、阿德里安·布拉特、瓦西里奥斯·阿吉里乌和乔治奥斯·齐米罗普洛斯。通过直接体积cnn回归从单个图像中重建大姿态3d人脸。2017年IEEE国际计算机视觉会议（ICCV），第1031-1039页，2017年。3[16] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在计算机视觉和模式识别（CVPR），2018年。7[17] Nikos Kolotouros ， Georgios Pavlakos ， Michael JBlack，and Kostas Daniilidis.学习通过循环中的模型拟合重建3d人体姿势和形状在IEEE计算机视觉国际会议论文集，第2252-2261页2[18] Vladislav Kraevoy ， Alla Sheffer ， and Michiel van dePanne.从轮廓图建模。第六届欧洲图形学研讨会关于基于草图的界面和建模，第37-44页。ACM，2009年。2[19] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J.黑色. SMPL：一个多人皮肤线性模型。ACM Trans. Graphics（Proc.SIGGRAPH Asia），34（6）：248：1-248：16，Oct.2015. 二、三[20] 威廉·E·洛伦森和哈维·E·克莱恩。移动立方体：一种高分辨率三维表面构造算法。在ACM siggraph计算机图形，第21卷，第163ACM，1987年。3[21] Xiaoguang Lu和Anil Jain。鲁棒三维人脸匹配的变形建模。IEEE Transactions on Pattern Analysis and MachineIntelligence，30（8）：1346-1357，2008。2[22] 弗朗切斯克·莫雷诺·诺格尔通过距离矩阵回归从单个图像估计3D人体姿态。在IEEE计算机视觉和模式识别会议论文集，第2823-2832页，2017年。7[23] Richard A Newcombe，Dieter Fox，and Steven M Seitz.动态融合：非刚性场景的实时重建与跟踪。在IEEE计算机视觉和模式识别集，第3433[24] 理查德A纽科姆，沙赫拉姆伊扎迪，奥特马尔希利格斯，大卫莫利诺，大卫金，安德鲁J戴维森，推满足科利，杰米肖顿，史蒂夫霍奇斯，和安德鲁W菲茨吉奇。运动融合：实时密集表面映射和跟踪。在ISMAR，第11卷，第127-136页，2011中。3[25] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。5[26] Georgios Pavlakos，Vasileios Choutas，Nima Ghorbani，Timo Bolkart ， Ahmed A.A. Osman ， DimitriosTzionas，and Michael J.黑色.表现性身体捕捉：从单个图像获得3D手、脸和身体。IEEE Conf.计算机视觉和模式识别（CVPR），2019年。六、七[27] VictorAdri anPr isacariu ， OlafKaühler ， Stua rtGolodetz ， Michael Sapienza ， Tommaso Cavallari ， PhilipHS Torr，and6022大卫·W·默里。Infinitam v3：一个具有循环闭合的大规模三维重建框架。arXiv预印本arXiv：1708.00783，2017。3[28] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger。Octnet：以高分辨率学习深度3D表示在IEEE计算机视觉和模式识别会议论文集，第3577-3586页3[29] 亨利 · 罗斯和马塞特· 沃纳移动体积运动融合。在BMVC，第20卷，第1-11页，2012中。3[30] Shunsuke Saito、Zeng Huang、Ryota Natsume、ShigeoMor-ishima、Angjoo Kanazawa和Hao Li。Pifu：Pixel-aligned implicit function for high-resolution clothed humandigitiza- tion.在IEEE计算机视觉国际会议（ICCV），2019年10月。二、三[31] 彼得·雪莉和艾伦·塔奇曼直接标量体绘制的多边形近似。1990年体积可视化研讨会论文集，VVS'90，第63-70页，美国纽约州纽约市，1990年ACM。4[32] Guang-hua Tan，Wei Chen，and Li-gang Liu.使用样式的图像驱动形状变形浙江大学学报（自然科学版），11（1）：27，2010. 2[33] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。用卷积网络从单幅图像建立多视图3d模型。在European Conference on Computer Vi-sion，第322-337页中。施普林格，2016年。2[34] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。八叉树生成网络：用于高分辨率3d输出的高效卷积架构。在IEEE计算机视觉国际会议论文集，第2088-2096页3[35] Shubham Tulsiani，Tinghui Zhou，Alexei A Efros，andJi-tendra Malik.通过可微光线一致性进行单视图重建的多视图监督。在Proceedings of the IEEE conference oncomputer vision and pattern recognition ， pages 2626-2634，2017中。2[36] Gu¨lVarol ， DuyguCeylan ， BryanRussell ， JimeiYang ，ErsinYumer，IvanLaptev，andCordeliaSchmid.BodyNet ：三维人体形状的体积推断。在ECCV，2018。二三六七[37] 作者： Gu¨lVarol ， J a vierRomero ， X a vierMartin ，NaureenMah-mood，Michael J. Black，Ivan Laptev，andCordelia Schmid.向人造人学习。在CVPR，2017年。六、七[38] Daniel Vlasic，Ilya Baran，Wojciech Matusik，and JovanPop o vi c'. 从多视图的网格动画。在 ACM图形学报（TOG），第27卷，第97页中。ACM，2008年。二六七[39] Chunyu Wang，Yizhou Wang，Zhouchen Lin，and AlanL Yuille. 基于单幅图像或视频序列的鲁棒三维人体姿态估计 IEEE transactions on pattern analysis and machineintelligence，41：1227-1241，2018。7[40] Jiajun Wu，Yifan Wang，Tianfan Xue，Xingyuan Sun，Bill Freeman，a

下载后可阅读完整内容，剩余1页未读，立即下载