多视图学习光一致性的三维形状重建

60 浏览量更新于2023-10-13 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于体扫描和学习光一致性的VincentLeroy，Jean-S´ebastienFranco，anddEdmondBoyer∗Univ. Grenoble Alpes，Inria，CNRS，Grenoble INP，LJK，38000 Grenoble，France∗工程学院格勒诺布尔- 阿尔卑斯{firstname.lastname}@ inria.fr抽象。虚拟现实和增强现实的兴起推动了对适合于这些新技术的内容（包括从真实场景获得的3D内容）的增加的需求本文研究了多视点RGB图像的三维形状重建问题。我们研究了基于学习的策略的能力，以有效地受益于重建任意形状的精度和鲁棒性的提高。我们特别针对现实生活中的性能捕获，包含复杂的表面细节，难以恢复与现有的方法。多视图重建流水线中的关键步骤在于搜索视点之间的匹配特征以便推断深度信息。我们建议将匹配投射到沿视线的3D感受野上，并为此目的学习多视图光一致性测量直觉是，深度网络具有以广泛的方式学习局部光度配置的能力，即使是关于沿着相同表面点的各种观察线的不同取向我们的研究结果证明了这种能力，表明在标准静态数据集上训练的CNN可以帮助恢复传统的基于2D特征的方法无法感知的动态场景上的表面细节我们的评估还表明，我们的解决方案与标准评估数据集上的最先进的重建管道相比，同时产生更好的结果和泛化与现实的性能捕获数据。关键词：多视图·立体重建·学习光致密度·性能捕获·体积扫描1介绍在本文中，我们研究了现实生活中的表现序列的多视图形状重建的问题，换句话说，与现实的服装，运动，和相应的捕获集的假设。3D重建是一个流行且成熟的领域，其具有与记录和重放3D动态场景的能力相关的许多应用，例如虚拟和增强现实的增长领域。在这个问题上，特别是在性能捕获设置中，一个重要且仍然可以改进的方面是恢复的形状的保真度和质量，这是我们在这项工作中的目标。2诉Leroy，J.S.Franco和E.博耶图1.一、使用被动RGB多相机设置捕获具有挑战性的场景[1]。（左）一个输入图像，（中）用经典2D特征[22]获得的重建，（右）提出的解决方案。我们的研究结果验证了CNN学习的差异MVS的性能捕获场景的关键改进结果在噪声、非常低的对比度和低纹理区域（例如手臂、腿或甚至黑色裙褶）中特别改善，这可以在图8中的图片的增亮版本中更好地看到。基于多视图立体（MVS）的方法已经利用通常包括特征提取、匹配阶段和3D形状推断的流水线获得了良好的质量水平有趣的是，最近的研究通过引入使用深度学习自动推断的特征和相似性函数来重新研究立体声和MVS这种类型的方法的主要承诺是包括更好的数据驱动先验，无论是在2D [40，24，41，39]中作为对经典2D特征的改进这些新的MVS方法已在静态场景基准测试中进行了测试，结果令人鼓舞，由于这些数据感知特征措施，提供了优于标准特征管道的前景我们的主要目标是研究这些改进是否转移到更一般和复杂的情况下，现场表演捕捉，其中出现了一组不同的额外的困难。这些捕获情形的典型挑战包括由于用于捕获运动的更宽的必要视场而引起的感兴趣对象的更小的视觉投影区域;相互作用的多个对象的遮挡和自遮挡;缺乏真实生活对象外观和服装的典型纹理内容;或运动模糊与快速移动的主题，如体育动作场景（见图7）。据我们所知，现有的基于学习的MVS方案报告了静态数据集（如DTU [16]或ShapeNet [4]）的结果，但尚未在具有上述典型问题的性能捕获数据上得到证明。为了推广到这种类型的数据，我们提出了一种新的框架，该框架利用了最近的学习方法，同时保持了每视图深度图提取的精度优势，如在许多成功的MVS算法中所应用的那样我们的方法执行多视图匹配内的本地卷-体积扫描和学习光一致性3推理的度量单位。与以前的方法相反，我们的体积单位是在给定视图的当前分辨率中确定的，以便在3D依赖性中捕获特定的分辨率，特别是用于逐视图决策的目的。而不是推断占用率，我们推断差异分数，以减轻训练，并将方法更多地集中在光度配置比局部形状模式。我们用这个体积感受野扫描观察光线，这是我们硬币体积扫描的过程，并将算法嵌入到多视图深度图提取和融合管道中，然后进行几何表面重建。通过这种策略，我们能够验证基于CNN的MVS在动态性能场景中优于经典的MVS方法。我们获得了高精度的几何复杂序列的结果，优于现有的CNN为基础的和经典的非学习方法。我们验证了这一改进与静态对象可用的基准点。不同数据情况下的这些结果仅使用DTU子集作为训练数据获得，这证明了我们的网络的泛化能力。2相关工作多视图立体重建是一个长期存在的主动视觉问题[32]。最初应用于静态场景，扩展到动态场景的性能捕获已经变得越来越流行。立体声和基于MVS的方法是高保真度捕获应用[12，34，13，29，16，27，31]的选择模态，可能通过解决包括有限范围，对高对比度照明的敏感性，以及增加视点数量时的干扰。虽然考虑各种形状表示，例如点云[12]，融合深度图[25]，网格[33，21]或体积离散化[20，8，38]，但大多数MVS方法通过依赖于观察相同场景点的光线应传达类似光度信息的光致一致性原理来推断3D形状信息。在其最简单的形式中，这种相似性可以通过考虑视图之间的投影颜色变化来测量，如在具有有限鲁棒性的早期作品[20]中所使用的。在立体和短基线情况下，2D窗口相关性的简单归一化形式足以使用例如ZNCC、SSD、SHD来表征在简单照明和对比度变化下的相似性对于更广泛的几何和光度弹性，已经设计了基于尺度不变梯度特征的各种特征[23，2，26]，一些专门用于MVS问题所需的密集匹配[36]。最近，图像特征已经成功地应用于例如以下中的移动序列：[ 27、22]。通常，MVS方法用对称的、视点不可知的、所有成对相似性的组合[30]或用通过扫描策略的每图像深度图确定来表征光一致性[7，25]。我们的方法还采用了一个全面的战略，这证明一般更简单，仍然显着4诉Leroy，J.S.Franco和E.博耶比视图不可知方法对遮挡更鲁棒，这是在实践中经常发生的多个移动形状或通过肢体自遮挡的问题。虽然经典的MVS方法已经普遍成功，最近的工作，旨在学习立体光一致性强调，额外的先验和更微妙的变化的相互依赖性仍然是在现实世界的数据中发现。一些作品通过学习如何匹配短基线立体声的2D补丁对来利用这一点，让深度网络推断哪些特征是相关的[40，24，41，39]。最近的工作将该原理扩展到宽基线MVS，具有2D学习特征的对称组合[14]。具有2D感受野的这种方法的共同限制是难以正确地捕获3D相关性，因此具有由2D投影引起的假阳性和假阴性相关性因此，许多学习的MVS方法转而求助于全体积3D感受野虽然也在3D中铸造相关性，但我们的方法提出了几个关键区别：我们的体积感受野是反向投影的图像区域，类似于一些双目立体[19]或基于图像的绘制[11]的工作，其中后者仅使用网格作为代理，而不明确地提取3D信息。这使得能够实现沿着观看光线的扫描搜索策略，这证明了作为立体重建中的平面扫描的鲁棒搜索策略。该方案还避免了将相机分辨率和3D感受野分辨率解相关，如例如体素，体积感受野被定义为沿着像素射线的反投影。此外，该体积感受野学习局部成对相关性，这是比学习占用网格模式更低水平和更容易的任务我们对实际性能捕获场景的评估，超越了传统的静态数据集，验证了这种学习策略优于传统方法的好处。3方法概述对于许多最近的多视图立体重建方法，我们估计每个相机的深度图，然后进行深度融合，因此允许每个相机利用局部估计提供所观察表面上的局部细节。我们采取这种策略更进一步，取代传统的photoconsistency措施，用于估计深度与学习的版本。该版本基于CNN，并利用其学习从多个视点观察到的表面附近的局部光度配置的能力。如图2所示，我们的方法将一组校准图像作为输入，并输出通过融合深度图获得的3D网格。使用体积扫描策略来获得沿着像素观看射线的深度，该体积扫描策略沿着射线对多视图光致一致性进行采样并识别最大值。对于沿着视线的点，使用该点周围的离散化3D体积块来估计光致一致性。在这样的3D补片中，在该补片内的每个点处，来自入射到该点的主相机光线的颜色信息与另一相机的入射光线的颜色信息配对。我们为每一个其他的摄像机收集这些成对的颜色体积体积扫描和学习光一致性5i=1i=1图二、方法管道和符号。比主要的。使用经训练的CNN来识别3D补丁内的给定颜色样本对这一战略的主要方面是：– 如图8所示，每相机方法通过构造对– 用于光一致性评价的3D感受野，其解决了阻碍基于2D的策略的一些2D投影模糊性。– 基于学习的策略使用卷积神经网络，当评估动态捕获场景中的光感时，其优于传统的光度特征，如我们的实验所示。以下部分重点介绍了我们的主要贡献，即3D体积采样和基于学习的光一致性评估方法。请注意，对于最后一步，不失一般性，我们使用TSDF融合深度信息，并[22]从融合的深度获得3D网格。4基于体扫描的深度图估计我们的重建方法将N个图像{Ii}N，以及他们的投影算子{πi}N并计算深度图，对于输入图像，它们随后融合成3D隐式形式。本节说明如何这些地图是估计的。给定输入图像i中的像素p，因此问题是找到沿着其与观察表面相交的其视线的深度d。沿着深度d处的像素p的射线的点被标记为ri（p，d）。我们的方法搜索沿视线使用的一个点的似然函数在表面上给定的输入颜色对的评价体积。与考虑手工制作的照片一致性措施的传统方法相比，我们从具有地面实况表面的多视图数据集学习该函数。为此，我们构建了一个卷积神经网络，给定参考相机i和查询点x∈R3，将周围的颜色对样本的局部体积映射到6诉Leroy，J.S.Franco和E.博耶x到标量光一致性得分ρi（x）∈ [0. 1]中。光致一致性分数实际上考虑了来自相机i的原始分辨率的颜色信息，以及其他相机颜色及其在体积颜色对构造中隐式编码的相对取向。这些重要的功能，使我们的方法，以适应特定的射线入射。其有意不对称性质还允许后续推断自动构建可见性决策，例如，决定是否使用原始相机的颜色或不被任何可见性的颜色所限定这对于像[14]这样的对称函数是不可能的因此，相对于参考图像i和其他图像，我们将光致一致性估计投射为来自X在下文中，我们首先提供关于3D采样区域的细节然后，我们解释随后应用于沿光线查找深度。4.1容取样为了估计沿着观察光线的光一致性，3D采样区域沿着该光线以规则距离移动。在该区域内，对从图像反投影的颜色对进行采样。每一对包含来自参考图像的颜色3D区域内的样本沿着参考图像中的观察光线在规则深度处获取（参见图3）。对应的体积是投影到参考图像中的恒定和给定尺寸的2D区域这允许3D采样适应相机感知属性，例如分辨率和焦距。更精确地，考虑在像素p的深度d处从参考图像i的反投影ri（p，d）。用于比较来自图像s{i，j}j/=i的颜色或颜色对的k3输入样本网格是在以p为中心的k2窗口中的ba ck-projedpixel的集合，从深度d − kλ/2到d + kλ/2定期采样，其中λ选择s.t. 深度方向上的间距等于在该深度处距参考相机的像素间距离每个样本包含图像i中的原始像素的参考颜色和投影在相机j上的点的颜色。体积采样始终以相对于参考相机的相同方向和顺序执行因此，卷积相对于相机深度方向一致地体积大小在我们的实验中，不失一般性，k= 8。我们的策略是学习成对photoconsistent配置沿射线，以检测表面的存在。这与试图直接推断规则体素网格内的形状的先前工作形成对比，例如。[17] 323或643网格。通过单独考虑表面检测问题，并让融合的后续步骤以稳健和一致的方式整合深度，我们简化了问题，并需要很少的空间相干性，因此允许小网格。体积扫描和学习光一致性7图三.用于估计沿着来自参考图像i的射线的光一致性的3D体积。该体积内的k-3个样本沿着观察光线规则地分布，并且包含从图像i和j反向投影的颜色对。在给定深度沿见图4。CNN架构。每个立方体是一个成对的比较体积与k3个样本，包含6个值的矢量的RGB对，并在其上应用3D卷积。输出得分ρi（ri（p，d））∈ [0. 1]编码沿着射线的深度d处的光致一致性来自i的射线每个图像ji定义a从图像i中的像素p。成对比较体积。4.2多视图神经网络如前一节所述，在沿着视线的给定点x处，我们被赋予N-1个由视图对着色的体积，即（N-1）×k3对颜色，我们想要检测表面是否通过x。为此，我们构建了类似于[14]的连体编码器，但是使用3D体积而不是2D贴片。每个编码器在给定成对体积的情况下构建特征。这些特征然后被平均并被馈送到最终决策层。选择权重共享和平均以实现相机顺序不变性。网络如图4所示。输入是大小为k3×6的N−在RGB对的6值向量上以3D执行卷积。网络的第一层（编码器）并行处理每个卷，共享权重。每个编码器都是两个卷积的序列，后面是非线性，以及具有步幅的最大池化。两个卷积层都由分别为16个和32个内核为4× 4× 4的过滤器，然后是一个整流线性单元（ReLU）和一个最大池化，内核为2× 2× 2，步长为2。然后，我们对获得的2× 2× 2×32个特征进行平均，并将结果馈送到128过滤器1×1×1卷积层，然后是ReLU和最终的1×1×1决策层，总共72K个参数。网络提供得分ρi（ri（p，d））∈ [0. 1]，用于沿着来自图像i中的像素p的射线在深度d处的光致一致性。我们使用不同的配置对该网络进行了实验。特别是，我们尝试了最大池化，而不是平均成对比较8诉Leroy，J.S.Franco和E.博耶我我这没有产生更好的结果。与[17]提出的体积解决方案相比，参数的数量要少一个数量级。如前所述，我们认为，光一致性是一个本地的属性，需要较少的空间相干性比形状属性。4.3网络训练该网络使用TensorFlow实现，并使用DTU机器人图像数据集[16]从头开始训练，该数据集提供配备地面实况表面的多视图数据，其精度高达0。5毫米。从这个数据集中生成了1100万k3样本量，我们从中随机选择80%进行训练，剩下的部分进行评估。阳性和阴性样本均通过距离地面真值点20cm的随机采样体积生成，其中当体积至少包含µ地面真值点时，该体积被视为阳性理论上，网络可以用任意数量的摄像头对进行训练，但实际上，我们可以从1对到40对中随机选择。训练是用二进制交叉熵函数作为损失来进行的。通过执行随机梯度下降，使用自适应矩估计对560，000次迭代进行优化，批量大小为50次比较，并具有随机数量的比较摄像机（从2到40）。由于我们的采样网格相对较小，并且依赖于相机，因此我们能够生成足够的样本变异性用于训练，而不需要数据增强。4.4卷扫描为了估计沿着观察光线的深度，我们的体积解决方案被集成在现有的标准平面扫描算法中，用体积代替平面，并使用我们的网络计算N向光一致性得分。对于每一个相机，我们采样，因此沿着观看光线，测试可能的深度值，并选择最photoconsistent候选人相对于网络得分。在实践中，参考视图i仅在cos（θi，j）>0时与凸轮比较。如图5所示，其中θij是相机i和j的光轴之间的角度。然后，我们通过每个像素p对来自相机i的光线进行采样，并在每个候选深度处构建彩色体积。我们将估计深度dP定义为：dp= argmax（ρi（ri（p，d），（1）d∈[dmin，dmax]其中pi（ri（p，d））是如由网络估计的沿着来自图像i中的p的射线的一致性度量，并且[dmin，dmax]定义了可以使用例如可视外壳（当可用时）来限制的搜索范围。使用体积截断符号距离函数[9]进一步融合所有像素和所有图像体积扫描和学习光一致性95结果我们进行各种评估，以验证和量化我们学到的多视图相似性的好处首先，我们研究了不同的分类器的性能，重点是比较平面或体积的感受野。接下来，我们使用[16]基准在静态情况下应用我们的方法，并将其与最先进的MVS方法（经典和基于学习最后，我们建立实验来测试的主要索赔的改善与现实生活中的性能数据。为了实现这一目标，我们使用了几个捕获的动态序列，这些序列表现出此类数据的典型困难，与最先进的方法[17]和[22]相比，具有非常显着的定性改进。5.1表面检测图五. DTU数据集上三种不同分类器（ZNCC、平面和体积接收野）的ROC曲线[16]。圆圈表示用值0优化灵敏度+特异性的阈值。2，0。5和0。5的比例。沿着视线的表面检测可以被公式化为二元分类问题。为了评估我们的体积策略的好处，我们比较了基于各种感受野的分类器的性能1. 确定性零均值归一化互相关（ZNCC）：将ZNCC应用于体积感受野内的样品。2. 具有平面感受野的学习（CNN）：我们的体积解决方案的平面等效物，具有相同的架构和重量数量，以面向前方的平面扫掠方式。10诉Leroy，J.S.Franco和E.博耶3. 具有体积感受野的CNN学习：我们的解决方案在前面的部分中描述为了加快计算速度，我们将沿着视线的搜索限制在基于图像描述符的粗略深度估计周围5mm。深度每隔0. 5毫米。作为后处理步骤，我们简单地添加了一个软双边滤波器，类似于[14]，考虑了颜色、空间邻域和检测的概率。如图5所示，利用视神经的ROC曲线，利用体积感受野和学习获得最准确的结果。直观地，体积采样区域比平面采样区域更好地考虑表面的局部非平面几何形状该图还强调了与确定性相关性相比，学习相关性的显著更高的辨别能力我们还评估了基线变异的鲁棒性，通过测试分类与更进一步的相机。表2示出了具有不同数量的相机并且针对图5中的最佳阈值的分类器的准确度。正如在文献中已经注意到的，例如。[ 12，29]，平面感受野在窄基线的情况下给出更好的结果，并且当相机间空间随着额外的相机而增长时，准确度一致地降低。相比之下这似乎是大型多相机设置的优点，因为它使更多的相机能够做出贡献，从而减少遮挡问题。5.2定量评价在本节中，我们使用DTU机器人图像数据集[16]将我们的解决方案与各种最先进的方法进行我们使用标准的精度和完整性度量来量化估计表面的质量。我们比较Furukawa等人。[12]，Campbell et al.[3]和Tola etal.[36]，以及Ji等人的其他基于学习的结果。[17] Hartmann et al.[14]第10段。为了与[14]进行公平的比较，[14]是一种基于补丁的方法，使用与我们相当的网络构建深度图，我们仅在一个深度图上使用体积扫描方法的结果。重建结果示于表1中。我们获得的质量与其他方法相当，具有中位数的准确性和完整性的范围我们测量到的地面真实准确度约为0。5毫米。应该注意的是，最好的准确度是由Tola等人获得的。[37]这往往有利于准确性超过完整性，而坎贝尔等人。[3]以对称的方式，倾向于完整性而不是准确性。我们得到更平衡的结果2个标准，类似于广泛使用的方法由古川[12]但也有更好的表现。在本实验中，我们在大多数指标上的表现也优于最近基于学习的方法Surfacenet [17]。与Hartmann et al.[14]，并且在类似的实验条件下，我们的方法用少2个数量级的参数获得了更好的结果，从而证实了体积感受野优于体积扫描和学习光一致性11平面的。与Surfacenet [17]（立方体尺寸64 × 64 × 64，样本步长0.4mm），我们获得了质量稍好的重建，参数少了一个数量级。表1.重建精度和完整性（mm）。表2.分类器准确度（%）。摄像机编号52049ZNCC64.98 65.46 65.58我们的计划。80.67 77.87 75.92我们的卷 82.95 84.84 83.45见图6。图1中臂部区域的特写视图。（左）来自[22]的结果，（右）我们的重建5.3定性评价与概括我们的主要目标之一是验证基于学习的策略是否适用于性能捕获场景，以及在这种情况下，它与最先进的确定性方法相比如何为此目的，我们执行由与训练设置大不相同的设置捕获的动态RGB序列的重建，即具有各种焦距的4M分辨率的68个相机的半球形设置在这种情况下，标准MVS假设经常被违反，例如镜面反射表面、运动模糊和遮挡，因此对重建方法提出了挑战。测量Acc.投诉是说 Med. 是说 Med.Tola等人[37]第三十七届0.448 0.205 0.754 0.425Furukawa等人[12个]0.678 0.325 0.597 0.375Campbell等人[3]第一章1.286 0.532 0.279 0.155Ji等人[17个]0.530 0.260 0.892 0.254我们的（融合）0.490 0.220 0.532 0.29612诉Leroy，J.S.Franco和E.博耶图7.第一次会议。（上）输入图像，（中）结果与[22]，（下）结果与我们的方法。运动模糊和低对比度在输入图像中可见。最好放大观看。体积扫描和学习光一致性13我们调整了我们的体积扫描算法，以限制深度搜索，沿着视线，在视觉外壳。没有应用其他修改，特别是先前训练的网络保持原样而没有任何微调。图1示出了使用我们的方法与[22]相比的重建，[22]是使用传统图像特征并且专门针对这种情况设计的基于补丁的尽管[22]在对比区域中表现良好，但基于补丁的描述符在具有低对比度或低分辨率的图像区域中达到其极限。图6和图7给出了这样的示例。他们表明，我们的解决方案有助于恢复更精细的表面细节，同时大大降低了低对比度区域的噪声所获得的结果也表现出强大的改善表面的细节，如衣服褶皱，未检测到的确定性方法。此外，它们表现出较低的噪声水平，特别是在自遮挡区域中，并且对运动模糊具有更强的鲁棒性，如图7底部中出现的脚趾或见图8。与[17]的定性比较。（左）输入图像的水平部分为红色，（中）点云为[17]，（右上）点云水平部分为[17]（右下）点云水平截面与我们的方法。我们还使用在线可用的代码与最近的基于学习的方法[17]进行了比较（见图8）。用这种方法重建被限制在一个紧密的边界框和不同的值的体积采样步骤进行了测试。以2mm的步长获得最佳结果为了与我们的方法进行公平的比较，所有落在视觉外壳之外的点都从重建中删除。在这种情况下，使用[17]获得的点云看起来非常嘈杂且不完整（参见图8-中间），困扰着后续的表面提取步骤。图8-左还示出了在衣服的对比度差的图像区域中的模特的水平截面[17]中使用的全局相比之下，我们的方法（下图）通过最大化沿观察光线的学习相关性来正确识别表面点。14诉Leroy，J.S.Franco和E.博耶图9.第九条。（左）3个输入图像，（中）基于平面的分类器，（右）体积分类器。当使用平面感受野时，面部被高度遮挡（左），产生噪声和不太准确的重建，而体积对应物产生更平滑和更准确的细节。最后的定性实验研究了体积接收场与等效平面场相比的影响（见第2节）。5.1)图9中的该体积允许对带的更精细细节的清晰重建，其中平面不能处理更精细的几何细节。演示动态序列结果的视频可在线获得：https://hal.archives-ouvertes.fr/hal-01849286。6结论提出了一种被动多视角场景下曲面重建的学习框架.我们的解决方案包括N视图体积扫描，在来自配备有地面实况的小规模数据集的静态场景上进行训练谢谢对于这种新模型，我们验证了在复杂移动序列捕获的情况下CNN学习的MVS相似性的改进，这些数据集具有典型的重大该结果是用比先前可比较的学习的MVS作品少一个数量级的训练参数实现的，示出了来自仅在静态DTU输入上执行的训练的显著的网络泛化，并且完全利用了现在可用于这些数据集的高质量地面实况我们的方法在复杂的现实生活场景中实现了显着改善的细节恢复和降噪，在这种情况下优于所有现有的方法，因此为未来更具挑战性的捕获场景或更好的地面实况数据集提供了非常有趣的前景确认由法国国家研究基金ANR-14-CE 24 -0030 ACHMOV资助。我是1-2-6-8由安雅·鲁比克提供。体积扫描和学习光一致性15引用1. Kinovis inria平台。https://kinovis.inria.fr/inria-platform/2. 贝HTuytelaars，T.，古尔，L.J.V.：SURF：加速了强大的功能。In：ECCV（2006）3. Camp bell、N. D. F.、 Vogiatzis，G.，他和C 奇波拉河使用多个简化假设来改进多视图立体的深度图。In：ECCV（2008）4. Chang，A.X.，Funkhouser，T.，吉巴斯湖Hanrahan，P.黄，Q，Li，Z.，Savarese，S.，Savva，M.，Song，S.，Su，H.，肖，J.，Yi，L.，Yu，F.：ShapeNet：信息丰富的3D模型库。Tech. Rep. arXiv：1512.03012 [cs.GR]（2015）5. Choy，C.B.，徐，D.，Gwak，J.，Chen，K.，Savarese，S.：3d-r2 n2：用于单视图和多视图3D对象重建的统一In：ECCV（2016）6. Collet ， A. ， Chuang ， M. ， Sweeney ， P. Gillett ， D. ， Evseev ， D. ，Calabrese，D. Hoppe，H.，A.G.柯克沙利文，S.：高质量的可流式传输的自由视点视频。ACM事务处理图表（2015年）7. Collins，R.T.：一种真正的多图像匹配的空间扫描方法。03 The Dog（1996）8. Cremers，D. Kolev，K.：通过凸域上的IEEE Trans.模式分析马赫内特尔（2011年）9. Curless，B.，Levoy，M.：从距离图像建立复杂模型的体积法。03：010. Dou，M.，Khamis，S.，Degtyarev，Y.，Davidson，P.，Fanello，S.R.，Kowdle，A.，埃斯科拉诺，S.O.，Rhemann，C.，Kim，D.，Taylor，J.Kohli，P.，Tankovich，V.伊扎迪S.：Fusion4d：实时性能捕捉具有挑战性的场景。ACM事务处理图表（2016年）11. Flynn，J.，纽兰德岛，Philbin，J.，Snavely，N.：Deepstereo：学习从文字图像中预测新的视觉。In：CVPR（2016）12. Furukawa，Y.，Ponce，J.：精确、密集和强大的多视图立体视觉。在：CVPR（2007）13. Gall，J.，斯托尔角Aguiar，E. D.，Theobalt，C. Rosenhahn，B.，彼得·塞德尔，H.：使用关节骨架跟踪和表面估计的运动捕获。在：CVPR（2009）14. Hartmann，W. Galliani，S.，Havlena，M.凡古尔湖Schindler，K.：已学习多面片相似性。In：ICCV（2017）15. Innmann，M. Zollhofer，M.，我是M C.， Stamminger，M. ：Vol-umedemode：实时体积非刚性重建。In：ECCV（2016）16. R.R.詹森Dahl，A.L.，Vogiatzis，G.，Tola，E.，Aanæs，H.：大尺度多视立体视觉评价。在：CVPR（2014）17. 吉，M.，Gall，J.，郑洪，Liu，Y.，Fang，L.：Surfacenet：一个用于多视图立体视觉的端到端3D神经网络。In：ICCV（2017）18. K ar ， A. ， Ha？ e ， C. ， Malik ， J. ： Learningigamulti-viestemachine. 电影 INIPS（2017）19. Kendall ， A. ， Martirosyan ， H. ， Dasgupta ， S. ， Henry ， P. 肯尼迪河Bachrach，A.，Bry，A.：深度立体回归的几何和上下文的端到端学习In：ICCV（2017）20. Kutulakos，K.N.，Seitz，S.M.：空间雕刻造型理论IJCV（2000）21. Labatut，P. Pons，J.，Keriven，R.：使用兴趣点、Delaunay三角剖分和图割的大规模场景In：ICCV（2007）16诉Leroy，J.S.Franco和E.博耶22. Leroy，V. Franco，J.S.，Boyer，E.：基于局部时间积分的多视点动态形状细化。In：ICCV（2017）23. Lowe，D.G.：从尺度不变的关键点中提取独特的图像特征IJCV（2004）24. 罗，W.，Schwing，A.G.，乌尔塔松河：用于立体匹配的高效深度学习见：CVPR（2016）25. Merrell，P.，Akbarzadeh，A.，Wang，L.，美国，michael Frahm，J.，Nistr，R.Y.D.：基于可见性的深度图实时融合。在：CVPR（2007）26. Mikolajczyk，K.，Schmid，C.：局部描述符的性能评估。载于：CVPR（2003年）27. Mustafa，A.，Kim，H. Guillemaut，J.，Hilton，A.：复杂动态场景的时间相干4d重建。见：CVPR（2016）28. Newcombe，R.A.，Fox，D.Seitz，S.M.：Dynamicfusion：实时重建和参见：CVPR（2015）29. 奥斯瓦尔德，医生Cremers，D.：时空多视点三维重建的凸松弛方法在：ICCV动态形状捕获和分析研讨会（4DMOD）（2013）30. Pons，J.P.，Keriven河福格拉斯，O.：基于全局图像匹配分数的多视点立体重建和IJCV（2007）31. S cho¨ps ， T. ， S cho¨nberger ， J. L. ， Galiani ， S. ， Sattler ， T. ， Schindler，K.， Pollefeys，M.，Geiger，A.：具有高分辨率图像和多摄像头视频的多视图立体基准。在：CVPR（2017）32. Seitz，S.M.，Curless，B.，Diebel，J.，Scharstein，D.，Szeliski，R.：多视点立体重建算法的比较与评价在：CVPR（2006年）33. Starck，J.，Hilton，A.：基于性能的动画的曲面捕捉。IEEE计算Graph.Appl. （2007年）34. Strecha角von Hansen，W.，Gool，L.V.，Fua，P.，Thoennessen，U.：高分辨率图像的基准相机校准和多视图立体。CVPR（2008）35. Tola，E.，莱佩蒂Fua，P.：一种用于密集匹配的快速局部描述符载于：CVPR（2008年）36. Tola，E.，莱佩蒂Fua，P.：DAISY：一种适用于宽基线立体声的高效密集描述符。IEEE传输模式分析马赫内特尔（二零一零年）37. Tola，E.，Strecha角Fua，P.：高效的大规模多视角立体超高分辨率图像集。马赫目视Appl. （2012年）38. Ulusoy，A.O.，Geiger，A.，布莱克，M.J.：利用射线势的概率体积电影3DV（2015）39. Ummenhofer，B.，周，H.，Uhrig，J.，Mayer，N. Ilg，E.，Dosovitskiy，A.，Brox，T.：Demon：用于学习单眼立体声的深度和运动网络。在：CVPR（2017）40. Zˇb o ntar，J.， LeCun，Y. ：通过将一个概念定义为两个工作来实现结构化来比较图像块。J. 马赫学习. Res. （2016年）41. Zagoruyko，S.，Komodakis，N.：通过卷积神经网络学习比较图像块。参见：CVPR（2015）

下载后可阅读完整内容，剩余1页未读，立即下载