多视图深度图融合的数据驱动方法

2 浏览量更新于2023-10-19 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7634中心深度估计中心信心重投影上中心DeFuSR精化中心置信度精化中心深度估计基于逐次重投影的非体积深度融合学习算法西蒙·多恩'安德烈亚斯·盖格自主视觉集团智能系统的MPI和Tubingen统一{simon.donne，andreas.geiger}@ tue.mpg.de摘要给定一组输入视图，多视图立体视觉技术估计深度图以表示场景的3D再现;这些被融合成单个的、一致的重建--通常是点云。在这项工作中，我们建议直接从数据中学习自回归深度细化虽然深度学习显著提高了深度估计的准确性和速度，但学习的MVS技术仍然限于扫面范式。我们细化一组输入的深度图连续reprojection- ING信息从相邻的意见，以利用多视图的约束。与基于学习的体积融合技术相比，基于图像的表示允许显着更详细的重建;与基于transmitting点的技术相比，我们的方法以数据驱动的方式学习噪声抑制和表面完成由于具有地面真实的高质量重建数据集的可用性有限，我们引入了两个新的合成数据集来（预）训练我们的网络。我们的方法是能够提高输出深度图和重建点云，学习和传统的深度估计前端，合成和真实数据。1. 介绍多视图立体视觉技术构成了3D点云重建的当前最先进技术[21]。给定一组图像和相机矩阵，MVS技术估计所有输入视图的深度图，并随后将其合并为一致的3D重建。虽然深度学习范式已经导致深度估计步骤本身的大幅改进，但现有的学习MVS方法[11，38]包括平面扫描，然后是经典的深度融合方法[7，30]（主要滤除无效估计）。相反，我们建议从数据中学习深度图融合;通过合并和融合来自相邻视图的信息，我们改进了中心视图的深度图估计。我们将我们的方法称为DeFuSR：通过连续重投影进行深度融合。图1：中心视图深度估计在佛像中心周围是不准确的，即使邻近视图对这些区域有一个可靠的估计。通过将邻域的信息重新投影到中心图像上，我们有效地对这些信息进行编码，迭代地执行这种细化进一步改进了估计。在体积空间中，融合来自多个视图的深度信息的学习方法[2，16，17，29]显示出很大的前景，但由于计算时间和内存要求而受到固有的限制。在图像域中工作可以绕过这些缩放问题[8，30，38]，但现有的基于图像的融合技术专注于在融合步骤中过滤掉不良估计，而不是改进它们。但是，相邻视图通常包含当前视图中缺少的信息，如图1所示。我们发现，仍然有一个显着的利润率提高的深度估计，通过自回归将信息从邻近的意见。邻居深度估计邻居信心7635由于缺乏大规模高质量的地面真实深度图是训练我们模型的一个潜在障碍，我们引入了两个新的合成MVS数据集进行预训练。第一个类似于飞行椅子[4]和飞行物体3D [24]。为了缩小这个数据集和DTU [14]数据集之间的域差距，我们还使用虚幻引擎来渲染unrealDTU数据集，这是DTU的直接替代品。总结我们的贡献：我们提出了图像域中的自回归学习深度融合，我们创建了两个用于预训练的合成MVS数据集，我们通过消融研究实证地激励了设计选择，并且我们将我们的方法与最先进的深度融合基线进行了比较。代码和数据集可通过https://github.com/simon-donne/defusr/获得。2. 相关工作我们首先讨论深度图的估计，然后再讨论它们的融合。我们只对这两个领域最近最有影响力的工作进行了概述;详尽的历史概述可以在[6]中找到。2.1. 多视点深度估计传统MVS：基于用于校正立体匹配的流行PatchMatch算法[1]，Gipuma [8]和COLMAP [30]是流行的最先进的方法[21，31];它们传播最佳拟合平面以估计每像素深度。虽然Gipuma在每个视图的基础上选择相邻视图，但COLMAP在每个像素上这样做以获得更好的结果。深度立体声：初始的基于学习的深度估计仅考虑双目任务，使用Siamese Networks学习使用赢家通吃[40]或全局优化[41]聚合的基于块的描述符。通过在单个网络中组合补丁描述、匹配成本和成本体积处理，可以端到端地学习视差估计 [19 ， 20 ， 23] 。最后，Ummenhofer et al.[35]演示了一个模型，该模型从两个视图联合预测Deep MVS：Hartmann et al.成功地将基于双视图匹配的成本推广到多个视图[10]。虽然上述用于视差估计的端到端方法仅限于双目情况，但 Leroy et al.[22] ，DeepMVS [11]和MVSNet [38]表明深度图预测可以受益于多个输入视图。类似地，Xu et al.最近提出了AMH-MVS [36]，Gipuma [8]的基于学习的版本。Paschali-dou等.[27]利用深度学习和马尔可夫随机场的组合来获得高度准确的深度图，但仅限于相对较低的分辨率。所有这些方法都集中在深度估计问题上。然而，我们表明，融合和整合多个视图的深度是一个可行的改进途径。2.2. 深度图融合基于深度的立体视觉技术随后面临着将一组深度图融合成一致重建的任务。这一部分，也可以分为体积-ric和基于图像的融合方法。直观地说，体积融合可以更好地利用空间信息，但像我们这样的图像域技术更有效，更轻便，可以实现更高的输出分辨率。体积融合，最初由Curless等人提出。[3]，由Zach et al.[39]和Kinect- Fusion [26]，将各种深度图融合到单个截断的有符号距离场（TSDF）中。Leroy等人最近已经将这种基于TSDF的融合集成到端到端流水线中[22]。Fuhrmann等人讨论如何处理不同的观察距离的情况，同时放弃体积网格，支持更好地缩放的点列表[5已经提出了其他非基于学习的技术来对抗这种缩放行为，例如混合Delaunay体积方法[25]和八叉树[34]。第一种方法本身并不适合于基于学习的方法，但是三个并行的工作已经利用了几何表面表示（即，八叉树），以提高执行速度[9，29，32]。然而，即使是这样的方法也有问题，超过512× 3体素：最终，它们达到了计算上限。通过在图像领域工作，我们在很大程度上避开了缩放问题，并且可以额外地依赖于基于图像的深度学习的大量工作和理解。基于图像的融合承诺二次而不是三次缩放。传统上，它只丢弃多个视图不支持的重建点。这在Gipuma中被实现为Fusibile算法[8]，而Xu et al.[36]在AMHMVS中使用相同的融合技术，他们基于学习的Gipuma版本。在COLMAP [30]中，接受的像素被聚集在“一致的像素簇”中，这些像素簇被组合成单个重建点云：最小数目的视图不支持的簇被丢弃。类似地，Poggi et al.[28]Tosi et al.[33]利用深度学习来产生信心估计。虽然前一种技术过滤掉了糟糕的深度估计，但它们并不试图改善估计。我们认为，深度图仍然可以显着改善，从邻近的意见，结合信息。据我们所知，基于学习的深度图细化仅在单视图设置中完成[15，37]。我们的目标是从可变数量的输入视图中学习深度图融合和细化-我们方法的我们的组合方法显着提高了融合点云的质量，量化的倒角距离（见第5节），并在同一时间产生改进的深度图的所有输入视图。7636(a)（b）（c）（d）图2：来自我们的合成数据集的示例：输入图像（a）与对应的地面实况深度图（b）。来自COLMAP（c）和MVSNet（d）的深度图估计显示了约束不良区域中的问题，通常是由于遮挡和均匀区域。虽然MVSNet也返回其估计的置信度估计，但在COLMAP输入的情况下，我们使用单视图置信度估计来引导我们的方法。图3：来自我们的unrealDTU数据集的示例：与DTU的设置类似，我们从分散在球体的一个八分圆上的一组相机观察桌子上的一系列对象3. 数据集为了进行评估和训练，我们考虑DTU MVS数据集[14]。不幸的是，DTU缺乏完美的基础事实：这是学习任务的一个潜在障碍。为了解决这个问题，我们构建了两个新的合成数据集进行预训练;详见补充资料。第一个，如图2所示，类似于飞行椅[4]和飞行物3D[24]。我们创建一个静态场景的十个观察，而不是只有两个非刚性场景的看法。使用Blender渲染，每个场景由10-20个ShapeNet对象组成，这些对象随机放置在具有任意图像纹理的倾斜背景平面前面。其次，我们还引入了一个更真实的数据集，以缩小上述数据集和真实图像之间的领域差距。第二个数据集是DTU数据集的直接替代品，在虚幻引擎中渲染（参见图3），具有完美的地面实况和更逼真的渲染。4. 方法我们现在概述我们的方法的各个方面我们假设一组深度图估计作为输入，在这项工作中来自两个前端之一：传统的COLMAP [30]或基于学习的MVSNet [38]。来自COLMAP的光度深度图估计在差的情况下是极其嘈杂的4.1. 网络概述我们的网络总结见图4。我们首先概述整个过程，然后详细讨论每个方面。关于详尽的清单，请参阅补充文件。如前所述，深度融合步骤完全发生在图像域中。为了对来自相邻视图的信息进行编码，我们将它们的深度图和图像特征（从图像本地网络获得）投影到中心视图上。在汇集所有邻居的信息之后，我们有一个双面方法：一个头用于剩余地细化输入深度值（具有有限的空间支持），另一个头用于修补大的未知区域（具有更大的空间支持）。第三个网络对这两个选项进行加权，以产生输出估计值。最终网络预测精确估计的置信度。我们在网络的细化部分不使用任何归一化层，因为需要保留绝对深度值。邻域重投影考虑具有对应的相机矩阵Pn=Kn[Rn]的N个图像的集合In（u|t，n]，以及每个输入像素u= [u，v，1]T的估计深度值d，n（u）。然后，与给定像素对应的3D点由下式给出：xn（u）= RTK−1（dn（u）u −Kntn）。（一）约束区域（见图2）;尽管这将在-nn通过我们的重投影步骤（见下文），可以直接过滤掉这些区域。我们通过估计输入估计的置信度来引导我们的– we discuss this in more detail at the end of this输入置信度大于0的那些xn（u）。然后将5投影到中心视图0上。称un→m（u）=Pmxn（u）为xn（u）在相邻m上的投影，zn→m（u）= [0 0 1]un→m（u）为深度。7637残余定义头部计分网络无残留修复置信度分类池化最小残差和特征重投影视图N深度和要素重新投影view N深度和功能最大深度和特征重新投影平均深度和特征重投影中心深度和特征细化中心深度视图1深度和功能重投影视图1深度和特征重新投影图4：我们提出的融合网络的概述颜色的不同代表有利位置的不同，即。信息在不同的图像平面中表示如第4.1节所述，相邻视图首先被重新投影，然后与中心深度估计和观察到的图像一起传递网络的输出是参考视图的输入深度的改进版本以及该输出的置信度图。(a)（b）（c）（d）（e）图5：深度重投影、边界计算和剔除结果的相邻图像（a）被重新投影到中心视图（b）上，导致未滤波的重新投影（c）。按照4.1节的方法计算下限，得到（d）。最后，我们用（d）过滤（c），如第4.1节所述，得到剔除的深度图（e）。请注意裁剪中的边界计算如何完成深度边，而剔除步骤如何删除渗透。视图0中的基于邻居n的z缓冲区然后是包含对网络有价值的信息;我们将其编码为下界图像。其次，由于别名zn（u）= minun∈n（ u） zn→0（un），（2）在重投影步骤中，背景表面透过前景表面。我们现在详细介绍如何解决这两个问题其中n（u）={u∈n|P0xn（un）<$u}是视图n中重新投影到视图0中的u上的像素的集合。我们称 un （ u ）为视图 n 中 zn （ u ） =zn→m （ un（u））的像素，即负责z缓冲区中条目的像素。我们现在将重新投影的图像构造为n（u）=In（un（u））。（三）请注意与空间Transformer网络[ 13 ]的明显相似性，至少就图像特征的投影而言;空间Transformer不捕获深度图的重投影中涉及的几何形状。重投影的深度和特征有两个主要问题（由于重投影中固有的混叠，这本质上是重投影的一种形式首先，由于有利位置的差异，相邻视图中的尖锐虽然它们不构成证据支持的表面，但它们确实意味着证据支持的自由空间，如图5所示。最小深度边界为了编码由邻居的深度估计所实现的自由空间作为沿着每个像素的射线的最低深度假设就参考视图而言，这是由该邻居的深度图估计所暗示的该像素的深度的下限根据前面的符号，我们可以将来自邻居n的下界gn（u）表示为gn（u）= min{d >0|dm（u0→n（u））>z0 →n（u）}. （四）剔除不可见表面我们现在剔除重投影深度z n（u）中的不可见表面：任何明显超出下限bn（u）的像素被认为是对中心视图不可见的，并在剔除后的深度zn（u）中被丢弃。我们在这里使用的阈值是场景中最大深度的1/1000（通过实验确定）。中心深度置信度7638(a)（b）（c）图6：下限计算的可视化。对于中心视图中的每个像素，我们找到未投影点不再被相邻相机视为空白空间的最低深度值初始置信度估计值MVSNet为其估计值提供置信度，但对于COLMAP，我们使用输入深度的置信度估计来引导我们的方法图7说明了这种置信度过滤的必要性：边界图像和剔除的重投影变得明显更清晰。该置信度估计如下所述。邻居池我们执行三种类型的每像素池的reprojected邻居的信息。首先，我们计算平均和最大深度边界和剔除重投影深度，以及平均重投影特征和对应于最大剔除重投影深度的特征。我们还提取了最接近中心视图估计的剔除重投影深度及其特征。这些数据连同输入深度估计和图像特征一起被传递到细化和分类头深度细化深度细化步骤包括两个步骤。在第一步中，中心视图深度估计和特征，以及池化的重新投影的邻居信息（我们将这些称为“共享特征”）由两个网络处理：局部残差深度细化模块（具有深度1的UNet块，其输出被添加到输入深度估计）和深度修补模块（具有深度5的UNet块）。最后，一个评分网络将另外两个头部的输出作为输入以及共享特征，并输出残差细化和修复备选方案的分数。这些是softmaxed，用于对两个输出进行加权。置信度分类最后，网络的最后一部分将共享特征和最终深度估计作为输入，以产生输出深度的置信度分类。该网络是深度为4的UNet，输出单个通道，在该通道上应用sigmoid以获取最终的置信度预测。(d)（e）（f）(g)（h）㈠图7：深度图输入的初始置信度估计的必要性虽然噪声输入深度图（a）在边界图像（b）和剔除的重投影图像（c）中产生明显的伪影最后一行显示了一次优化迭代后的相同步骤：细化的相邻估计（g），及其隐含的边界（h）和重投影（i）。培训由于特征重投影在特征本身方面是可区分的（而不是在深度值方面），因此我们端到端地训练整个架构。然而，训练不同的细化/修复/头部评分网络是具有挑战性的，并且从一开始就训练置信度网络会导致它退化为到处估计零置信度（这在初始时期是正确的）。为了缓解这种情况，我们采用课程学习。在初始阶段，仅使用修复头过了一段时间，我们启用两个头之间的加权网络，但保持禁用残差细化。一旦分类网络在修复深度和输入深度之间做出了有效的选择，我们就可以启用残差细化和置信度分类：利用我们的整个建筑。通过深度值及其梯度的L1损失用二进制交叉熵损失来监督置信度，其中如果像素在地面真值的给定阈值内，则假设像素是可信置信度损失仅通过置信度分类块反向传播，以防止其退化深度估计以使其自身的优化更容易;因此，我们不需要在两个损失之间进行加权，因为它们影响不同的权重集。估计表自由空间界中心邻居76392(a)（b）（c）（d）图8：用于DTU数据集监督的深度图。对于给定的输入图像（a），数据集包含用结构光扫描仪获得的参考点云（b）。在从这个点云创建一个防水网格（c）并投影它之后，我们拒绝点云中从监督深度图（d）投影到这个表面后面的任何点此外，我们拒绝白表的观点。为了统一不同数据集的世界尺度，我们缩放所有场景，使所使用的深度范围大致在1到5之间。为了降低对该比例因子的敏感性，以及增加训练集，我们通过0.5和2. 0的情况。在推理之后，我们撤销这个缩放。监督我们的方法需要地面实况深度图的超级视觉。在合成的情况下，完美的地面实况深度由渲染引擎提供。然而，对于DTU数据集，地面实况由结构光扫描仪重建的点云组成[14]。像以前一样，从这些点云创建深度图面临着图5c中的渗色问题为了解决这个问题，我们执行点云的泊松表面重建以产生水密网格[18];从地面真实深度图中拒绝投影在该表面后面的点云中的任何点。虽然这种方法工作得很好，但由于其相对较低的速度，它不适合在网络内部使用。最后，我们还拒绝了白色桌子表面上的点-这不能通过光度方法重建，我们的网络不应该因为这里的深度估计不正确而受到惩罚：相反，我们对这些领域的监督毫无信心。这些问题如图8所示。5. 实验评价在下文中，我们以经验的方式展示了我们的方法的好处。为了量化性能，我们回顾了DTU数据集的准确性和完整性指标[14]：精度（u，n）= minxg−xn（u），以及（5）G我们最感兴趣的是准确性或完整性低于τ = 2的点的百分比。0 mm，我们认为这比平均准确性或完整性指标更具指示性：误差表面是10厘米还是20厘米并不重要，但这会严重影响全球平均值。我们报告每视图，以量化单个深度图质量，并为最终点云。补充资料中提供了更多结果，包括用于预训练的新合成数据集的结果和DTU的绝对距离为了为我们的网络创建融合点云，我们同时细化点云并删除离群值（类似于Fusibile）。来自我们网络输出的初始点云由预测置信度大于给定阈值的所有像素给出-该阈值的选择根据对于每个点，我们计算给定阈值τ内的重建点：Σcτ（u，n）=I（n×n（u）−xn2（u2）<$2<τ），（7）u2∈n，n2其中I（·）是指示器函数。 xn（u）在最终云中以概率I（cτ（u，n）> 1）/cτ/5（u，n）被接受。明显的离群值，没有比τ更接近的点，被拒绝。对于其他点，拒绝概率与比τ/5更接近的点的数量成反比，从而减轻重建的非均匀密度的影响。所有的评估都是在480×270的分辨率下进行的，这是为了可行性，也是因为MVSNet也限于此。5.1. 选择置信度阈值我们的方法的置信度分类是二进制的;深度估计是否位于给定阈值内完整性（g）= minxg− xn（u）<$2。（六）地面真相的τd只有深度估计，u∈n，n该预测概率高于τprob 被考虑用于准确性表示重建点与地面实况的接近程度，而完整性表示参考点与我们的重建的接近程度（对于两种度量，越低越好）;倒角距离被定义为准确性和完整性的代数平均值。最后的点云。图9说明了训练不同τd的置信度分类在准确性和完整性百分比之间产生相同的根据这些曲线，我们选择τd= 2和τprob= 0。5，以使两个百分比之和最大化。7640τd= 2τd= 5τd= 10完整性（%）25全云75706560每个视图5045403530表1：邻居选择的定量评估。使用十二个邻居进行三次迭代的细化，利用来自近处和远处邻居的信息产生最佳结果，与COLMAP融合结果相比，主要提高了完整性。55τd= 22050τd= 5τd= 104560 65 70 75 80 85 90准确度（%）151060 65 70 75 80 85 90 95100准确度（%）图9：准确性和完整性分别低于2的点的百分比。0，在DTU验证集上，对于不同的τd值。曲线由不同的τprob产生;请注意，所评估的选项基本上导致同一曲线的延续。我们选择τd= 2和τprob= 0。5作为优化两个百分比之和的值。5.2. 选择和利用邻居我们考虑三种邻居选择策略：选择最近的视图、选择最远的视图以及选择两者的混合。我们评估了三个独立的网络，这些策略进行细化的COLMAP深度估计与12个相邻的意见。表1显示了这些策略的性能，经过三次迭代的细化，与COLMAP融合的结果相比。混合策略被证明是最有效的：虽然远处的观点显然包含有价值的信息，但不应忽视近处的邻居。在接下来的实验中，我们一直使用混合策略。虽然有一个实际的限制（我们在这项工作中将我们自己限制在12个邻居），表2显示，正如预期的那样，使用更多的邻居会导致更好的结果。5.3. 优化MVSNet估计值最后，我们评估使用我们的网络架构，以完善MVSNet深度估计。如表3所示，我们的方法不能很好地细化MVSNet估计;虽然每视图的准确度没有明显增加，但是其它度量大致保持相同。原始MVSNet估计比COLMAP深度估计执行得更好。然而，用我们的方法改进COLMAP估计，显著改善了MVSNet结果（改进或其他）。我们观察到（例如，图10），COLMAP估计是更多的观点依赖：由许多邻居观察到的表面块被比其他人更精确地重建。MVSNet作为一种学习技术，经过训练可以优化L1错误，并且似乎可以在表面上消除这些错误。直观地说，前一种情况确实允许通过我们的方法进行更多的改进，通过将这些准确的区域传播到相邻的视图。表2：邻居数量的定量评估使用零个、四个或十二个邻居进行三次细化迭代。正如预期的那样，更多的邻居会带来更好的性能，而太少的邻居比COLMAP的融合方法（基本上使用了所有48个）性能更差邻国COLMAP0412acc. （%）66919289按视图comp.（%）40283145平均值（%）52596267acc. （%）73818480充分comp.（%）72666484平均值（%）72747482表3：使用我们的方法的三次迭代来细化MVSNet输出深度估计每个视图的准确性明显增加，而其他指标略有下降。MVSNet精炼（它）第三章acc. （%）7692按视图comp.（%）3534平均值（%）5563acc. （%）8886充分comp.（%）6665平均值（%）77765.4. 定性结果图10说明了执行多个迭代对于获得好的结果至关重要，但是由于收益很快就趋于平稳，我们已经确定了三个细化步骤。相邻视图对于填充单个视图的缺失区域至关重要，如图11所示：这里，输入估计中缺少框的整个右侧。单视图细化无法填补这一缺失区域，也无法从多次细化迭代中获益然而，基于12个邻居的细化传播了来自其他视图的信息，并在下一次迭代中进一步改进了估计，从而利用了这些邻居中现已改进的信息。在整个工作中，我们关注的是结构，而不是外观，由于照明变化，我们重建的点云看起来更嘈杂（见图完整性（%）COLMAP最近混合最远acc. （%）66918986按视图comp.（%）40384537平均值（%）52646762acc. （%）73838074全补偿（%）72728476平均值（%）72788275764112），而COLMAP融合则对输入视图进行颜色平均。7642COLMAP它1它2它3 COLMAP它1它2它3MVSNet It 1 It 2 It 3 MVSNet It 1 It 2 It 3图10：对于DTU测试集的两个元素，多次迭代的深度图误差的可视化（深蓝色更好）。前两次迭代是最重要的，之后改进趋于平稳。无法恢复在任何视图中不可用的对象图元彩色图像地面实况深度输入深度误差GT COLMAP我们的图12：测试集元素的重构云示例。请注意参考点云（左侧）中的显著缺陷。我们的方法的一个视觉缺陷是我们只关注结构; COLMAP所使用的融合步骤本身也会使颜色差异平均化0邻居，迭代10邻居，迭代212个邻居迭代112个邻居迭代2不同视图之间的外观。图11：我们的方法的输出深度误差（中间）和置信度（底部）（深蓝色更好）。如果不利用相邻的视图，额外的迭代几乎没有什么好处。邻域信息导致更好的深度估计和置信度，进一步改进迭代。最后，我们还提供了一个定性的比较，对一个小型手持捕获。在没有重新训练网络的情况下，我们处理了用智能手机拍摄的12张图像的COLMAP深度估计，其中包括桌子上的DTU风格物体和不太熟悉的大沙发。虽然在DTU上训练的置信度网络在深度不连续性方面存在问题，但图13显示表面重建良好。6. 结论和未来工作我们引入了一种新的基于学习的深度融合方法DeFuSR：通过迭代地传播来自相邻视图的信息，我们细化输入深度图。我们已经证明了邻域信息和连续细化对于这个问题的重要性，从而显著地更准确和完整地进行每视图和整体重建。图13：用智能手机捕获的两个场景（12个图像）。请注意，表面是很好的估计（绿色枕头和侏儒我们提出了两个未来工作的方向。首先，我们的训练损失是L1损失，已知L1损失具有平滑输出的趋势;其他损失函数，如PatchGAN [12]可以帮助减轻这一点。其次，我们在图像级别上选择了邻居。理想情况下，邻居的选择将更细粒度地发生，并集成到学习管道中，例如。以注意力网络的形式。提出COLMAP7643引用[1] M.布莱耶角Rhemann和C.罗瑟拼配立体声- 立体匹配与倾斜的支持窗口。在英国机器视觉会议上。（BMVC），2011。2[2] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法在欧洲会议上。计算机视觉（ECCV），2016年。1[3] B. Curless和M.勒沃从深度图像建立复杂模型的体积方法。ACM Trans. on Graphics，1996年。2[4] A.多索维茨基山口Fischer、E. Ilg，P. Haeusser，C. 哈齐尔巴斯诉 Golkov ， P.v.d. Smagt ， D.Cremers 和 T. 布洛克斯Flownet：使用卷积网络学习光流。在IEEE国际会议上。计算机视觉（ICCV），2015年。二、三[5] S. Fuhrmann和M. Goesele浮秤表面改造. TG，2014年。2[6] Y. Furuk aw a，C. 她和阿尔。多视图立体声：教程。计算机图形与视觉，2015年。2[7] S. Galliani，K.Lasinger和K.辛德勒表面法向扩散的大规模在IEEE国际会议上。计算机视觉（ICCV），2015年。1[8] S. Galliani，K. Lasinger和K.辛德勒Gipuma：大规模并行多视图立体重建。Publikatio- nen der Deutsc hen Gesellschaft fur ？r Photo gr ammetrie ， Fern-erkundung undGeoinformation e.V，25：361-369，2016. 一、二[9] C. Hane，S.Tulsiani和J.马利克三维物体重建的层次表面arXiv.org，1704.00710，2017. 2[10] W. Hartmann，S. Galliani，M.阿夫莱纳湖范古尔，还有K.辛德勒已学习多面片相似性。在IEEE国际会议上。计算机视觉（ICCV），2017年。2[11] P. Huang ， K.Matzen ， J.Kopf ， N.Ahuja 和 J. 煌 Deep-mvs：学习多视角立体视觉。在proc IEEE会议计算机视觉和模式识别（CVPR），2018。一、二[12] P. Isola，J. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。正在进行IEEE会议计算机视觉和模式识别（CVPR），2017年。8[13] M.贾德伯格K.西蒙尼扬A.齐瑟曼和K. Kavukcuoglu空间Transformer网络。神经信息处理系统进展（NIPS），2015。4[14] R. R. 詹森，A.L. 达尔湾Vogiatzis、E.Tola和H.阿奈斯大尺度多视立体视觉评价。正在进行IEEE会议计算机视觉和模式识别（CVPR），2014年。二、三、六[15] J. Jeon和S.李你基于cnn的成对深度数据集重构深度图像增强。在欧洲会议上。计算机视觉（ECCV），2018年。2[16] M. Ji，J. Gall，H. Zheng，Y.郑氏，中国科学院植物研究所所长。Liu和L.房. SurfaceNet：用于多视图立体视觉的端到端3D神经网络在IEEE International Conf. 计算机视觉（ICCV），2017年。1[17] A. 卡尔角 Ha？ne和J. 马利克学习多视角立体声机。神经信息处理系统进展（NIPS），2017年。1[18] M. M. Kazdan和H.霍普屏蔽泊松曲面重建。ACM Trans.on Graphics，32（3）：29，2013. 6[19] A. Kendall，H.Martirosyan、S.Dasgupta和P.Henry. 深度立体回归的几何和上下文的端到端学习在IEEE国际会议上。计算机视觉（ICCV），2017年。2[20] S. Khamis ， S. 法内洛角 Rhemann 、 A. Kowdle ， J.Valentin和S.伊扎迪Stereonet：实时边缘感知深度预测的引导分层细化。arXiv.org，2018年。2[21] A. Knapitsch，J. Park，Q.- Y. Zhou和V.科尔顿。坦克和寺庙：大规模场景重建的基准ACM Trans. on Graphics，36（4），2017. 一、二[22] V. Leroy，J.- S. Franco和E.波耶使用体积扫描和学习的光一致性进行形状重建。在欧洲会议上。计算机视觉（ECCV），2018年。2[23] W. Luo，中国茶条A.Schwing和R.乌塔松用于立体匹配的高效深度在proc IEEE会议计算机视觉和模式识别（CVPR），2016年。2[24] N. 迈耶，E.Ilg，P.Haeusser，P.费希尔，D.Cremers，A.Doso-vitskiy和T.布洛克斯一个大型数据集，用于训练卷积网络进行视差，光流和场景流估计。正在进行IEEE会议计算机视觉和模式识别（CVPR），2016年。二、三[25] C. 莫斯特格尔河Prettenthaler，F.Fraundorfer和H.比肖夫基于点云数据的可扩展表面重建，具有极高的尺度和密度多样性。正在进行IEEE会议计算机视觉和模式识别（CVPR），2017年。2[26]R. A. 纽科姆，S。伊扎迪河希利格斯，D。莫利诺D. Kim，A. J.戴维森，P. Kohli，J. Shotton，S.霍奇斯，A.菲茨吉本运动融合：实时密集表面映射和跟踪。混合与增强现实国际研讨会（International Symposium onMixed and Augmented Reality，ISMAR）2[27] D. Paschalidou，A. O.乌卢索伊角施米特湖范古尔，以及A.盖革Raynet：学习用射线势进行体积三维重建。在proc IEEE会议计算机视觉和模式识别（CVPR），2018。2[28] M. Poggi和S.马托西亚从零开始学习自信的措施。在BMVC，2016年。2[29] G. Riegler，A. O. 乌卢索伊湾Bischof和A. 盖革10月-NetFusion：从数据中学习深度融合。在国际会议上。关于3D Vision（3DV），2017年。一、二[30] J. L. Schoenbe rger，E.Zheng，M.，中国科学院昆虫研究所所长。Pollef eys和J. -M. 弗拉姆用于非结构化多视图立体的像素视图选择。在proc 欧洲会议。计算机视觉（ECCV），2016年。一、二、三[31] T. 好了，J。Sch onbe rger，S.Galliani，T.Sattler，K.辛德尔河，M. Pollefeys和A.盖革具有高分辨率图像和多摄像头视频的多视图立体正在进行IEEE会议计算机视觉和模式识7644别（CVPR），2017年。27645[32] M. Tatarchenko，A. Dosovitskiy和T.布洛克斯八叉树生成网络：用于高分辨率3d输出的高效卷积架构。在procIEEE International Conf. 计算机视觉（ ICCV）， 2017年。2[33] F. Tosi，M. Poggi，A. Benincasa和S.马托西亚超越局部推理，使用深度学习进行立体置信度估计。在ECCV，2018。2[34] B. Ummenhofer和T.布洛克斯十亿个点的全球性，高密度多尺度在Proc. of the IEEE International Conf.计算机视觉（ICCV），2015年。2[35] B. Ummenhofer ，H.Zhou ，J.Uhrig，N. 迈耶，E.Ilg 、A.Doso-vitskiy和T.布洛克斯Demon：用于学习单眼立体声的深度和运动网络。在proc IEEE会议计算机视觉和模式识别（CVPR），2017年。2[36] Q. Xu和W.涛.具有非对称棋盘传播和多假设联合视图选择的多视图立体。arXiv.org，2018年。2[37] S.延角，澳-地吴湖，加-地Wang，F.许湖，加-地An，K.Guo和Y.刘某Ddrnet：使用级联cnn的消费级深度相机的在proc 欧洲会议。计算机视觉（ECCV），2018年。2[38] Y. Yao，Z. Luo，S. Li，T. Fang和L.权Mvsnet：非结构化多视图立体的深度推断arXiv.org，abs/1804.02505，2018. 一、二、三[39] C. Zach，T. Pock和H.比肖夫鲁棒tv-l1距离像积分的全局最优算法在proc IEEE International Conf. 计算机视觉（ICCV），2007年。2[40] S. Zagoruyko和N.小木学习通过卷积神经网络比较2015.2[41] J. Z.Bontar和Y. 乐存。通过训练卷积神经网络来比较图像块的立体匹配 Journal of Machine Learning Research（JMLR），17（65）：1-32，2016. 2

下载后可阅读完整内容，剩余1页未读，立即下载