基于稀疏多视图的深度体积视频的性能捕获方法

113 浏览量更新于2023-10-13 收藏 1.41MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

从非常稀疏的多视图性能捕获的深度体积视频黄增1、2，李天烨1、2，陈伟凯2，赵亚杰2，邢军2，ChloeLeGendre1、2，罗林杰3，马重阳3，李昊1、2、41南加州USC Institute for Creative Technologies南加州大学创意技术学院3Snap Inc.4针屏抽象。我们提出了一种基于深度学习的体积方法，用于使用被动和高度稀疏的多视图捕获系统进行性能捕获。现有技术的表演捕捉系统需要预扫描的演员、大量相机或有源传感器。在这项工作中，我们专注于任务的无模板，每帧的3D表面重建少至三个RGB传感器，传统的视觉外壳或多视图立体方法无法产生合理的结果。我们介绍了一种新的多视图卷积神经网络（CNN），将2D图像映射到3D体积场，我们使用这个字段来编码捕获的主题的表面点的概率分布。通过查询结果字段，我们可以以任意分辨率实例化穿着衣服的人体我们的方法扩展到不同数量的输入图像，从而提高重建质量时，使用更多的意见虽然只对合成数据进行了训练，但我们的网络可以概括处理来自身体表现捕捉的真实镜头我们的方法适用于高质量低成本的全身体积捕获解决方案，这些解决方案在VR和AR内容创建中越来越受欢迎实验结果表明，我们的方法是显着更强大的和准确的比现有的技术时，只有非常稀疏的意见。关键词：人的表演捕捉，多视角立体神经网络，宽基线重建1介绍性能捕获对于从游戏、视觉效果到自由视点视频的各种应用程序至关重要VR/AR技术的日益普及进一步引发了对体积捕获系统的需求，该体积捕获系统实现了用于捕获动态穿着数字人的端到端解决方案。高端捕获解决方案使用大量摄像机和活动投影[1更轻量级的系统通常使用预扫描的主题特定2Z. huang等人模板[6-8]，但可能会产生不自然的烘烤细节，例如衣服可以折叠。经典的从轮廓恢复形状的方法[9]和立体变体[10]使用视觉外壳来近似目标几何形状，并且不依赖于模板网格。然而，具有凹面的表面难以建模，并且当使用非常稀疏数量的相机时，所得到的几何形状通常是粗糙的。在大多数情况下，至少需要八个摄像头来确保合理的结果。为了使最终用户更容易获得高质量的性能捕获，我们提出了一种被动运动捕获技术，而不需要预处理或专门的捕获硬件。特别是，我们的方法是能够忠实地捕捉详细的人体形状从高度稀疏，例如。三个或四个摄像机视图，而不需要手动图像处理、标记跟踪、纹理提示或预扫描网格模板。从高度稀疏的视图重建是具有挑战性的，因为身体的大区域通常被遮挡或未被多个相机观察到。我们通过使用一种新的多视图卷积神经网络来解决这一挑战从剪影的形状的方法，通过融合从2D剪影的多视图射线投影重建目标表面的启发，我们建议学习一个类似的3D概率场，描绘了人体的表面边界，使用多视图投影约束。然而，我们没有直接计算轮廓，手动提取或通过自动分割计算容易出错，而是使用2D深度神经网络来学习区分特征，这些特征可以判断3D样本点是在轮廓内部还是外部。特别是，我们将对象占据的空间中的每个3D点与使用我们的卷积神经网络从其在多视图图像平面上的投影中提取的特征相关联。然后将每点特征馈送到分类网络中，以推断其位于人体内部和外部的可能性通过密集采样的近表面区域，我们得到一个高分辨率的体积概率场，可用于重建身体的几何形状在任意分辨率。由于我们提出的网络隐式学习3D体积和2D投影之间的关系，我们的方法能够重建无纹理表面和看不见的区域，这是不可能与现有的多视图立体技术。对于不同的输入视图，例如不同的观看距离和捕获的图像的数量，我们提出了一种新的规模不变的对称池层聚合功能因此，我们的方法可以很好地扩展到不同数量的输入视图，并产生更好的重建时，更多的意见。我们使用不同数量的视图来评估我们的网络的性能。我们的网络仅在使用标准3D渲染软件生成的合成数据上进行训练，其中包含动画CG角色。我们的方法可以忠实地捕捉快速和复杂的运动与广泛的闭塞，背景和服装。此外，我们比较我们的技术与国家的最先进的性能捕获方法，并证明我们的方法是显着更强大和准确的，只有非常稀疏的意见时。我们的主要贡献是：深度稀疏体积捕获3– 一种新的性能捕获技术，能够从高度稀疏的相机视图中鲁棒地重建穿着衣服的人体，这是不可能使用现有技术的。– 一个轻量级的性能捕获框架，不需要背景分割，标记跟踪，纹理线索，或预扫描模板模型。– 一种新颖的多视图2D CNN网络，将多视图图像映射到密集的3D概率场，从而实现了无纹理表面的高分辨率重建和鲁棒运动捕获。– 在多个视图上渲染的穿着衣服的人体动画的大型合成数据集，每个主题包含50个角色和13个动画序列2相关工作基于轮廓的多视点重建。从多视图剪影图像创建的视觉外壳被广泛用于多视图重建，[6，11 -14，10，15]，因为它们快速且易于计算并且很好地近似底层3D几何形状。基于视觉外壳的观看体验[9]，用更少的相机平滑几何[16]和实时性能[17]已经取得了进一步的进展。还出现了使用多视图约束[18-20]和光度立体[4，21]来恢复几何细节的方法。最近，Collet et al.[1]介绍了一种通过融合多视图RGB、IR和轮廓输入的高质量自由视点视频系统。尽管基于轮廓的重建方法的速度和鲁棒性，但它们对视觉外壳的依赖意味着对表面凹陷的偏见以及对不可见空间中的伪影的敏感性。人体性能捕获。可以引入特定于演员的形状先验，以提高人体性能捕获的重建质量[22-24，7，25]。已经提出了使用运动骨架[26，27]、运动对象的分割[28-为了获得甚至更高的准确性和鲁棒性，积极探索基于多视图深度的方法[45-48]。Orts-Escolano等人[2]采用有源立体摄像机和高度专业化的采集设备进行实时高质量捕获。Wang等人。[49]使用稀疏深度传感器和RGB输入来捕获具有纹理的移动主体。相比之下，我们的方法不需要任何有源传感器，更容易为普通用户所用。进一步的努力集中在捕捉动态细节，如使用形状从阴影[50]，光度立体[51，52]或可变形网格的隐式建模[53]的衣服为了减少这些方法中的许多方法中的逆渲染问题的计算成本，Pons-Moll等人。[54]提出了一种多布料3D模型，以从4D扫描序列重建身体和衣服，使用[55，56]估计未穿衣服的身体形状并跟踪4Z. huang等人服装随着时间的推移最近，Xu et al.[8]穿着普通服装重建人体然而，这种方法需要预先扫描每个演员以获得模板网格和骨架。相比之下，我们的方法重建网格在一个完全自动的方式，而不需要任何模板模型。多视图3D深度学习。已经引入了多视图卷积神经网络（CNN）来学习各种3D任务的深度特征，包括形状分割[57]，对象识别和分类[58-60]，对应匹配[61]和新视图合成[62-64]。更密切相关的是，许多以前的工作将多视图CNN应用于无监督[65]和监督方法中的3D重建问题，以直接[66，67]或间接通过法线映射[68]，轮廓[69]或彩色图像[70]获得最终几何形状。受多视图立体约束的启发，其他人[71，72]已经以可微的方式制定了光线一致性和特征投影，将该制定纳入端到端网络以预测的体积表示。3D对象。Hartmann等人[73]提出了一种基于深度学习的方法来预测跨多个视图的图像块之间的相似性，这使得能够使用立体视觉进行3D重建。相比之下，我们的方法的目标是一个不同的和更具挑战性的任务，预测每点的可能性，躺在重建的表面上，并直接连接3D体积和其2D投影的图像平面上。更接近我们的工作，Ji et al.[74]提出了一种学习的度量，以推断在体积形状表示中的重建表面上的每体素可能性然而，由于依赖于多视图立体视觉，这些方法[74，73]无法忠实地重建无纹理表面并从稀疏视图生成密集重建。此外，由于输入图像和输出表面都需要被转换成体积表示，现有方法仍然难以产生高分辨率的结果。另一方面，我们的方法可以在无纹理表面上工作，并通过利用隐式表示产生此外，Dibra et al.[75]提出了一种跨模态神经网络，它可以从单个剪影图像中捕获参数化的身体形状。然而，这种方法只能预测裸体的形状在中性姿势，而我们的方法推广到动态的衣服机构在极端的姿势。3概述给定多个视图及其相应的相机校准参数作为输入，我们的方法的目的是预测一个密集的3D字段编码的概率分布的重建表面。我们制定的概率预测作为一个分类问题。在高层次上，我们的方法类似于从轮廓塑造方法的精神：根据来自停留在所述重建对象内部的任何3D点上的多视图图像的一致性来重建所述表面。然而，我们没有直接使用只包含有限信息的轮廓，而是利用了从多视图卷积神经网络中学习到的深层特征深度稀疏体积捕获5如图1所示，对于3D空间中的每个查询点，我们使用输入相机参数将其投影到多视图图像平面上。然后，我们收集在每个投影位置学习的多尺度CNN特征，并通过池化层将其聚合，以获得查询点的最终全局特征。每点特征随后被馈送到分类网络中，以推断其分别位于重建对象内部和外部的可能性。由于我们的方法输出一个密集的概率场，表面几何形状可以忠实地重建从外地使用行进立方体重建。我们在第4节中介绍了基于多视图的概率推理网络和在第5节中，我们将详细介绍曲面重建。图1：网络架构。4基于多视图的概率推理网络4.1网络架构我们的网络由两部分组成：一个特征提取网络，其学习3D空间中的每个查询点的区别特征，以及一个分类网络，其消耗前一网络的输出并预测位于重建身体内部和外部的每个点的可能性。这两个网络都是以端到端的方式训练的。特征提取。特征提取网络将多视图图像连同其对应的相机校准参数和3D查询点作为输入。多视图图像首先被传递到共享权重全卷积网络，其构建块包括卷积层、Relu激活层和池化层。在每个卷积层中使用批量归一化[76]然后，我们通过将每个查询点P1投影到多个视图图像平面上来将其与其特征相关联。该qijdentepis p r o j e t i n t o j en 如图1所示，我们在每个级别的整个特征图中跟踪每个qij6Z. huang等人的卷积层。从投影位置处的每一层检索的特征被级联以获得单视图特征向量Fi，j。由于视图投影具有浮点精度，因此如果投影点位于两个相邻像素之间的边界上，则可能出现特征提取的模糊性。为了解决这个问题，在特征图的每个级别，我们根据投影位置的局部坐标对最近的四个像素执行双线性插值。值得一提的是，通过应用双线性插值，我们的方法进一步增加了每层特征向量的感受野，并使网络对轮廓周围的边界点更具鲁棒性如果查询点的投影超出了输入图像的范围，我们将其特征向量填充为零，并且不将其包含在反向传播中。尺度不变对称池化。在从每个视图j获得特征向量Fij之后，一个密钥模块必须有效地聚合这些视图相关签名。然而，对于每个相机，观看距离和焦距可以不同，并且因此相同3D体积的投影的尺度可以从视点到视点显著变化。因此，相同层级的卷积层上的特征可以跨不同视图具有不同的因此，对视图相关特征的直接逐元素池化可能不是有效的，因为它可能在不匹配的尺度上操作。为了解决这个问题，我们在池化操作之前引入共享权重MLP层，使得多尺度特征将更均匀地分布到所有元素条目，从而使后续池化模块具有特征尺度不变性。然后，我们将置换不变池化模块应用于MLP层的输出特征向量。池化模块的输出是与每个查询点相关联的最终特征向量。分类网络。在获得查询点的特征向量后，我们采用分类网络来推断其在重建表面上的概率。由多个完全连接的层组成的简单结构用于此分类任务。特别地，我们为每个点预测两个标签（Pin，Pout），其中Pin和Pout分别代表3D点在重建对象内部和外部的可能性对于查询点p和地面实况网格M，如果p在M内，则将其标签标记为（1， 0）;如果p位于表面上，则将其标记为（1， 1）;否则，将p标记为（0，1）。实际上，只有很少的采样点正好位于在出来ττ表面边界图2：分类边界。面为了更好地捕捉表面，我们放宽了确定内部/外部标签的标准。如图2所示，除了表面内部的点之外，我们还包括到表面的距离低于阈值τ（τ被设置为Icm）的那些外部点，并将它们的P在标签中标记为1。类似地，我们应用相同的阈值来标记P。因此，近表面区域中的点被标记为（1， 1）两者。我们独立地预测两个标签，并训练深度稀疏体积捕获7网络使用sigmoid交叉熵损失。因此，P_in和P_out的预测值的范围从0到1，其中较大的值指示较高的概率。补充资料中提供了网络设计的更多详细信息。4.2网络训练由于我们的方法旨在预测密集的概率场，因此对于每个3D网格，有必要生成大量的查询点来训练网络。然而，均匀地对3D空间进行采样在计算成本方面将是禁止的。事实上，我们只关心最终重建曲面附近的点。因此，我们采用自适应采样策略，强调我们的采样点。对于每个地面实况网格M，我们首先生成具有分辨率256 3的规则点网格，填充放大的（1. 5倍）的M的边界框。我们用[77]给出的方法计算网格点的符号距离。然后，我们计算从第一个梯度点到M的下式的最大距离l：|minidist（ti，M）|.为了选择更集中在M的表面周围的点，我们利用Mont eCarlos正在执行以下操作，以将这些关键点保存在这些磁盘中 |dist（ti，M）|满足高斯分布：norm（μ = 0，σ = l）。对于将在训练中出现的多视图图像及其相机矩阵的组合中的每一个，我们通过首先从输入视图重建视觉外壳来增强数据;然后在视觉外壳内随机采样更多点，但确保新添加的点在地面实况网格M内部和外部实现相等分布。当每个M的查询点总数达到100，000时，我们停止添加样本我们使用相机视图的各种组合来训练网络。对于一定数量的视图（3、4或8），我们训练一个单独的模型。我们使用相应数量的视图来测试每个模型。视图的组合被选择为使得它们中的每相邻两个具有宽基线，并且所有视图一起覆盖环中的整个对象。每个网格的查询点和它们的标签是预先计算的，以节省训练时间。在训练过程中，我们从预先计算的集合中为每个样本随机抽取10，000个查询点我们直接将每个视图的彩色图像作为原始分辨率的输入，其分辨率从1600× 1200到1920× 1080不等对于每个批次，由于GPU内存有限，我们仅从一个多视图场景加载图像。该网络使用Adam优化器进行优化。我们从学习率为0开始。00001，并以0的因子每100，000批按指数方式逐渐衰减。7.我们在单个NVIDIA GTX 1080Ti GPU上训练网络20个epoch。5曲面重构在测试时，我们首先使用我们的网络从输入图像中生成一个密集的概率场。由于近表面区域与其包围的空间相比仅占据很小的体积，因此在近表面区域上应用均匀采样是非常低效的。8Z. huang等人在空间因此，我们采用基于八叉树的方法来实现具有低计算成本的特别地，我们首先根据摄像机位置及其校准参数计算场景的中心。每边长度为3米的边界框放置在场景中心。然后我们用一个规则的3D网格填充边界框通过遍历网格中的每个立方体，我们细分那些立方体的中心是表面点，或其顶点包括内部和外部点，由我们的网络识别由于我们的网络预测每个点的两个概率（Pin，Pout），我们建议以将两个概率聚集成一个带符号距离，用于表面点预测和随后的整个表面的重建。如4.2节所讨论和图2所示，Pin和Pout分别表示在对象内部和外部的放松概率。由于Pin和Pout是独立的事件，所以一个点在表面附近的概率可以简单地计算为：Psurf=Pin×Pout。通过排除近地表区域（上面定义的），我们定义了可靠的P ′= Pin×（1 − Pout）。同样，概率位于外部区域中但具有大于τ的点到网格距离，P′=Pout×（1 −Pin）。我们计算所有三个概率′ ′out{P冲浪，P入，P出}用于每个网格点。然后我们确定有符号距离通过选择最大概率为每个点选择值。特别地，我们只分配三个离散的有符号距离值：{-1，0，1}，分别表示内部、表面和外部点。例如，对于一个查询点，如果它的P表面大于其他概率，则它将被分配0并被视为表面点。应用类似的策略来确定内部点和外部点，并分配它们对应的有符号距离。然后，我们以粗到细的方式生成密集的有符号距离场如前所述，我们细分由网络标记的那些立方体，进一步推断所有八分圆立方体的有符号距离，并迭代直到达到目标分辨率。最后，在获得有符号距离场之后，我们使用行进立方体算法来重建有符号距离等于0的表面。6结果6.1数据集足够大的良好训练集是成功的深度学习模型的关键。然而，现有的多视角服装人体捕捉数据集通常只包含少数几个主题，这使得它们不适合训练深度神经网络。SURREAL数据集[78]有大量的合成人，但它不包含衣服的几何细节，因此不适合我们的任务。因此，我们通过从多个视图中看到的Mixamo [79]渲染操纵和动画人物模型来生成合成数据集。角色共享相同的装备，因此可以快速合成穿着许多服装类型和穿着不同服装的不同人物的各种动画和人类姿势。深度稀疏体积捕获9风格. 我们总共渲染图像50个字符和13个动画，8个摄像机的观点与已知的投影矩阵。我们使用43个字符和10个动画进行训练。其余7个角色和3个动画用于验证和测试。6.2评价在本节中，我们在各种数据集上评估我们的模型，包括[6]，[4]，[18]以及我们自己的合成数据。对于原始背景被移除的真实世界数据集，我们根据所提供的分割合成绿色背景。定性结果。我们首先重建这些结果从四个视图上的网格分辨率为1024 3，如图3所示。所有的结果都是直接从我们的管道中生成的，除了边缘折叠以减少文件大小之外，没有任何后处理所有结果都是从测试用例中生成的。为了验证重建的几何体的准确性，我们用可见的摄像机用简单的余弦权重混合对每个顶点着色。我们的渲染结果可以通过最近的实时[80]或离线[81]纹理方法进一步改善。图6显示了结果的相机设置仅从四个视图输入，每个视图之间的重叠有限图 6 ：用于报告的四视图结果的相机设置。因此，我们的网络结构可以很好地反映所述对象的几何形状，并恢复合理的局部细节。即使对于没有摄像头视线的模糊区域，我们的网络仍然可以预测出合理的形状。我们还提出了一系列具有挑战性的运动性能从Vlasic等人的结果。[6]在图4中。即使对于具有挑战性的姿势和极端遮挡，我们的网络也可以鲁棒地恢复合理的形状。由于我们的网络不受视图数量的限制，我们使用不同数量的视图来训练和测试我们的模型。我们用三视图、四视图和八视图设置来测试我们的模型如图5所示，有了更多的视图，我们的网络可以预测更多的细节，例如：脸型和发型。对于本文中所示的大多数结果，我们使用四视图设置，这实现了视图稀疏性和重建质量之间的最佳平衡定量结果。我们通过测量从重建表面顶点到参考扫描的欧氏距离来对于真实世界的数据，我们使用[6]和[18]给出的结果作为参考，这些结果使用更先进的捕获设置来近似地面实况表面。我们显示可视化的网格扫描距离和评估的距离统计。如图3所示，给定来自各种测试集的输入，我们的网络预测准确的表面，所有示例的中值网格到扫描距离小于10Z. huang等人图3：从四个视图重建的结果。从上到下一行：输入多视图图像、重建网格、纹理网格和误差可视化。从左到右，网格到扫描距离中位数：0.90cm、0.66cm、0.85cm、0.54cm、0.59cm;平均网格到扫描距离：1.18cm、0.88cm、1.10cm、0.65cm、0.76cm。深度稀疏体积捕获11图4：序列结果。从上到下一行：多视图图像、重建网格、纹理网格和误差可视化。从左到右，网格到扫描距离中位数：0.94cm、0.86cm、0.82cm、0.76cm、0.85cm;平均网格到扫描距离：1.31cm、1.27cm、1.21cm、1.06cm、1.25cm12Z. huang等人图5：不同视图的重建。从上到下一行：重建网格、纹理网格和误差可视化。从左到右列：三视图结果、四视图结果和八视图结果，分别用于两个测试用例。网格到扫描距离中位数：左主题：0的情况。84cm（三视图），0.77cm（四视图），0. 45 cm（八视图）;右受试者：1. 38cm（三视图），1.06cm（四视图），0. 59厘米（八视图）。0的情况。9厘米。如图4所示，我们的网络还预测了具有挑战性的输入图像序列的准确重建，中值网格到扫描距离低于0。95厘米。在图5中，我们观察到距离误差随着网络训练期间更多视图可用而减小8视图的中值距离下降到三视图训练设置的距离的一半以下。6.3比较在本节中，我们将我们的方法与图7中使用四视图输入的现有方法进行虽然传统的多视图立体PMVS [82]能够重建准确的点云，但它通常无法产生具有大基线（在这种情况下，四个视图覆盖360度）和无纹理输入的完整几何形状。作为一种基于学习的方法，SurfaceNet [74]重建了一个更完整的点云，但由于基线较大，在对应关系较少的区域仍然失败从稀疏的点云重建完整的表面仍然是困难的深度稀疏体积捕获13图7：比较。从上到下一行：输入4视图图像、PMVS、SurfaceNet、可视化外壳和我们的。PMVS和SurfaceNet的结果。虽然基于视觉外壳[17]的方法可以重建完整的形状，但由于其无法捕获凹陷，重建显着偏离真实形状。相反，我们的方法是能够重建一个完整的模型，以及造型的衣服的人的形状，只要四个视图。在运行时间方面，PMVS需要3. 2秒，12个线程，使用四个视图。由于SurfaceNet不是设计用于360度重建对象，因此我们在相邻视图上运行四次，然后将它们融合以获得完整的重建。使用一个Titan X GPU，此过程需要15分钟。对于可视化外壳，在TitanXGPU上以5123的分辨率使用八叉树需要30ms14Z. huang等人实施.我们的多视图网络需要4. 4秒用于2563分辨率，18秒用于5123分辨率，在GTX 1080 Ti上使用八叉树实现由于图像特征提取、池化、点查询、八叉树遍历和行进立方体的操作都可以并行分布式完成，因此我们的方法的性能可能会进一步提高。7讨论和结论在这项工作中，我们提出了一个全自动的轻量级解决方案，动态人体性能捕捉的挑战性问题，而不需要主动照明，明确的前景分割，专门的跟踪硬件，或人体模板。仅使用稀疏视图RGB图像作为输入，我们的新型多视图CNN对位于捕获对象表面上的点的概率进行编码，从而实现后续的高分辨率表面重建。我们的网络架构，包括规模不变的对称池，确保我们的方法的鲁棒性，即使在少至三个输入视图。由于仅在所有训练对象都在虚拟绿屏房间中渲染的合成数据上进行训练，因此我们当前的实现不能推广到处理具有任意复杂背景的输入图像我们已经尝试使用与一小组随机背景合成的数据来训练我们的网络。然而，结果并不令人满意（图8）。此外，使用与我们的训练数据显著不同的不可见相机视图的可能不太理想。这将是一个未来的途径图8：故障情况。训练数据的更大变化包括复杂背景、从其采样的附加相机视点以及各种照明条件。探索无约束重建的问题也是有趣的，即，如何从高度稀疏的视点忠实地捕捉人体运动，即使当相机校准参数不可用时。确认我们要感谢[74]的作者，他们帮助测试了他们的系统。这项工作得到了ONR YIP资助N 00014 -17-S-FO 14的部分支持，CONIX研究中心是JUMP的六个中心之一，JUMP是由DARPA赞助的半导体研究公司（SRC）计划，Andrew和Erna Viterbi早期职业主席，美国陆军研究实验室（ARL），合同号W 911 NF-14-D-0005，Adobe和索尼。资料的内容并不一定反映政府的立场或政策，亦不应推断政府对此表示认可。深度稀疏体积捕获15引用1. Collet ， A. ， Chuang ， M. ， Sweeney ， P. Gillett ， D. ， Evseev ， D. ，Calabrese，D. Hoppe，H.，Kirk，A.，沙利文，S.：高质量的可流式传输的自由视点视频。ACM Transactions on Graphics（TOG）34（4）（2015）692. Orts-Escolano，S.，Rhemann，C.，Fanello，S.，Chang，W.，Kowdle，A.，Degtyarev，Y.，Kim，D.，Davidson，P.L.，Khamis，S.，Dou，M.，等：全移植：虚拟3d实时传送。In：Proceedings of the 29th AnnualSymposium onUserInterfaceSoftare andTec chlogy，ACM（2016）7413. Joo，H.，刘洪，谭湖Gui，L.，Nabbe，B.，马修斯岛Kanade，T.，Nobuhara，S.，Sheikh，Y.：Panoptic Studio：用于社交运动捕捉的大规模多视图系统。 IEEE International Conference on Computer Vision（ICCV）（2015年）4. V lasic ， D. ， Peers ， P. ，巴兰岛， De bevec ， P. ， Popovi´c ， J. ，Rusinkiewicz，S.， M atusik，W.：动态形状捕捉使用多视图光度立体。ACM Transactions on Graphics（TOG）28（5）（2009）1745. Li、H. Luo，L.， Vlasic，D. ，Peers，P.， Popovi´c，J.，帕尤利，M.，Rusinkiewicz 、 S. ：动态形状的时间连贯完成。 ACM Transactions onGraphics（TOG）31（1）（2012）26. Vlasi c，D. ，Baran，I.， MATUSIK，W.， J. ：一种从多视图轮廓中提取图像的方法。 ACM Transactions on Graphics （ TOG ）第 27 卷 ACM（2008）977. De Aguiar，E.，斯托尔角Theobalt，C.艾哈迈德，N.，Seidel，H.P.，Thrun ， S. ：从稀疏多视图视频中捕获性能。 ACM Transactions onGraphics（TOG）第27卷ACM（2008）988. Xu，W.，A.， Zollhofer，M.， Rhodin，H.， M ehta，D. ，Seidel，H. P. B.C.：Monoperfcap：从单目视频中捕获人类表演arXiv预印本arXiv：1708.02136（2017）9. Matusik，W.，比勒角拉斯卡尔河Gortler，S.J.，McMillan，L.：基于图像的可视外壳。第27届计算机图形与交互技术年会论文集，ACMPress/Addison-Wesley Publishing Co.（2000年）369-37410. Furukawa，Y.，Ponce，J.：用于基于图像的建模的雕刻可视外壳In：EuropeanC〇nferenceonC〇mputerVision，Springger（2006）56411. Esteban，C.H.，Schmitt，F.：三维物体建模中的轮廓与立体融合。C〇mputerVisi n andImageU n der st andi ng96（3）（2004）36712. Cheung，G.K.，Baker，S.，Kanade，T.：随时间变化的可视化船体对齐和细化：一种结合立体视觉与侧影形状的三维重建算法。计算机视觉与模式识别，2003年。诉讼2003年IEEE ComputerrS ocietyConferenceon. 第2卷，03TheDog（2003）13. 宋D Tong，R.，Chang，J.，杨，X.，唐，M.， Zhang，J.J.：基于着装人体轮廓的三维体型估计。在：计算机图形论坛. 第35卷，WileyOnlineLibrry（2016）14714. Zuo，X.，杜，C.，王，S.，郑杰，Yang，R.：用于镜面和透明物体表面重建的交互式视觉外壳在：Proceedings of theIEEEInternatal ConferenceonComputterVisio n.（2015）223715. Liu，Y.，Dai，Q.，徐伟：一种基于点云的自由视点视频多视点立体算法。 IEEE Transactions on Visualization and Computer Graphics16 （ 3 ）（2010）40716Z. huang等人16. Franco，J.S.，Lapierre，M.，Boyer，E.：剪影集的视觉形状在：3D数据处理、可视化和传输，第三届国际研讨会，IEEE（2006）39717. 卢普角张，C.，张志：实时高分辨率稀疏体素化应用于基于图像的建模。 In ： Proceedings ofthe5th High-PerformanceGraphicC〇nfere，ACM（2013）7318. Starck，J.，Hilton，A.：基于性能的动画的曲面捕捉。 IEEE计算机图形学与应用27（3）（2007）19. Zitnick，C.L.，Kang，S.B.，Uyttendaele，M.，Winder，S.，Szeliski，R. ：使用分层表示的高质量视频视图内插见： ACM TransactionsonGraphics（TOG）。第23卷，ACM（2004）60020. M.， Wuürmlin，S.， C〇tting，D. ，Sadlo，F.， Gross，M. ：Scalable3dvideoDynamicsenes. 《中华人民共和国专利法》21（8）（2005）62921. 吴，C.，Varanasi，K. Liu，Y.，Seidel，H.P.，Theobalt，C.：一般光照下多视点视频的基于阴影的动态形状细化。In：ComputerVision（IC CV），2011IEEEInternatinalConferenceon，IEEE（2011）110822. 艾哈迈德，N.，Theobalt，C. Dobrev，P.，Seidel，H.P.，Thrun，S.：的鲁棒融合动态形状和法线捕获，用于时变几何的高质量重建。在：计算机视觉和模式识别，2008。CVPR 2008。IEEEConferenceon，IEEE（20 08）123. 斯托尔角Gall，J.，De Aguiar，E.，Thrun，S.，Theobalt，C.：视频重建可动画化的人类角色ACM Transactions on Graphics（TOG）29（6）（2010）13924. Bradley，D.Popa，T.，Sheffer，A.，Heidrich，W.，Boubekeur，T.：无标记服装捕获. ACM Transactions on Graphics（TOG）第27卷ACM（2008）9925. 吴，C.，Varanasi，K. Theobalt，C.：在不受控制和变化的照明下的全身性能捕获：基于阴影的方法。计算机Visin26. Gall，J.，斯托尔角De Aguiar，E.，Theobalt，C. Rosenhahn，B.，Seidel，H.P.：运动使用关节骨架跟踪和表面估计来捕获在：计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，IEEE（2009）174627. Liu，Y.，斯托尔角Gall，J.，Seidel，H.P.，Theobalt，C.：无标记动作捕捉的交互字符使用多视图图像分割。在：计算机视觉和模式识别（CVPR），2011 IEEE会议，IEEE（2011）124928. 布雷，M.，Kohli，P.，Torr，P.H.：Posecut：同时分割和3D姿态使用动态图形切割的人类估计。In：European conference oncommputervisi sion，Springger（20 06）64229. Brox，T.，Rosenhahn，B.，Cremers，D. Seidel，H.P.：高精度光流提供3-D姿态跟踪：利用基于轮廓和流动的约束。计算机Vision30. Brox，T.，Rosenhahn，B.，Gall，J.，Cremers，D.：基于区域和运动的组合刚性和铰接对象的3D跟踪。IEEE Transactions on PatternAnalysisandMachineIntellige32（3）（2010）40231. Mustafa，A.， Kim，H. Guillemaut，J.Y.， Hilton，A.：通用动态场景从多视图视频重建。In：Proceedings of the IEEE InternationalConferenceonComputerVision. （2015）90032. 吴，C.，斯托尔角瓦尔加湖，Theobalt，C.：的启动性能捕获多个演员和立体摄像机。ACM Transactions on Graphics（TOG）32（6）（2013）161深度稀疏体积捕获1733. Loper，M.，Mahmood，N.，Romero，J.Pons-Moll，G.，布莱克，M.J.：Smpl ：一个皮肤的多人线性模型。 ACM Transactions on Graphics（TOG）34（6）（2015）24834. Loper，M.，Mahmood，N.，布莱克，M.J.： Mosh：运动和形状捕捉稀疏的标记。ACM Transactions on Graphics（TOG）33（6）（2014）22035. H asler，N.， A ckermann，H.， Rosenhahn，B.，T.， Seidel，H. P. ：根据图像集对着装对象的姿势和体形估计的多分辨率。In：Computer Vision andPattern Recognition（CVPR），2010 IEEE Conference on，IEEE（2010）1823-183036. Anguelov，D.，Srinivasan，P.科勒D.Thrun，S.，Rodgers，J.，Davis，J.：场景：形状的完成和人的动画。 ACM Transactions on Graphics （英语： ACMTransactions on Graphics）第24卷，ACM（2005）40837. Balan，A.O.，锡加尔湖布莱克，MJ戴维斯，J.E.，Haussecker，H.W.：详细的人工形状和姿势从图像。计算机视觉与模式识别，2007年。CVPR' 07。IEEEC〇nference〇n，IEEE（2007）138. Plaünkers，R.， Fua，P. ：测试和改进操作，以避免重复操作。ComputerrVisinandImage Un der standing81（3）（2001）28539. Sminchisescu，C.，Triggs，B.：用协方差尺度采样估计关节式人体运动。国际机器人研究杂志22（6）（2003）37140. 谭J.K.V.布德维蒂斯岛Cipolla，R.：用于3D的间接深度结构化学习人体形态和姿态预测41. Bogo，F.，Kanazawa，A.，Lassner，C. Gehler，P. Romero，J.布莱克，M.J.：保持它smpl：由单一影像自动估计三维人体位姿与形状。In：EuropeanConferenceonComputerVision，Springger（2016）56142. Kanazawa，A.，布莱克，MJ Jacobs，D.W. Malik，J.：人力资源的端到端恢复形状和姿势。 arXiv预印本arXiv：1712.06584（2017）43. Lassner，C.Romero，J.Kiefel ，M.，Bogo ，F.，布莱克，MJGehler，P.V

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于稀疏多视图的深度体积视频的性能捕获方法

基于稀疏自动编码深度神经网络的感应电动机故障诊断.pdf

基于稀疏表示和深度学习的图像识别算法研究.pdf

人工智能-深度学习-基于稀疏表示和深度学习的SAR图像目标识别研究.pdf

基于稀疏表示的图像增强方法

基于稀疏表示的方法和基于滤波器的方法是相同的吗

详细分析基于多视图聚类的疾病分类方法的劣势

基于稀疏表示的去噪方法适用于一维信号吗

基于稀疏表示算法的图像融合 国内外研究现状

基于稀疏表示的特征融合

基于稀疏表示的人脸识别matlab

基于稀疏表示的图像分割

多视图分类主要包括四种学习范式：多核学习、子空间学习、稀疏学习和加权学习

写一个基于深度学习的多视图三维重建的代码

稀疏 capon 深度学习

基于深度学习的人脸表情识别方法研究

基于稀疏编码的超分辨率算法c++代码

matlab视频低秩稀疏分解

基于稀疏表示算法的图像融合

深度强化学习的稀疏奖励

基于稀疏表示的去噪方法的缺点

最新资源

基于稀疏表示算法的图像融合国内外研究现状