基于点的多视点立体网络

35 浏览量更新于2023-10-14 收藏 2.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1538GT表面GT表面基于点的多视点立体网络陈瑞1，3* 韩松芳2，3*徐静1苏浩31清华大学2香港科技大学3加州大学圣地亚哥分校chenr17@mails.tsinghua.edu.cnshanaf@connect.ust.hkjingxu@tsinghua.edu.cnhaosu@eng.ucsd.edu粗预测精预测最终预测beforeflow afterflowPointFlow动态特征提取图1：Point-MVSNet以从粗到精的方式执行多视图立体重建，学习基于几何先验和从多视图图像动态获取的2D图像外观线索预测每个点到地面实况表面的3D流，并迭代地回归准确和密集的点云摘要我们介绍点MVSNet，一种新的基于点的多视图立体（MVS）的深度框架。不同于现有的成本量的方法，我们的方法直接处理的目标场景作为点云。更具体地说，我们的方法预测的深度，在一个粗略到精细的方式。我们首先生成一个粗略的深度图，将其转换为点云，并通过估计当前迭代的深度与地面实况的深度之间的残差来迭代地细化点云。我们的网络通过将3D几何先验和2D纹理信息融合到特征增强的点云中来联合有效地利用它们，并处理点云以估计每个点的3D这种基于点的架构允许更高的精度，更高的计算效率和更大的灵活性比基于成本-体积的同行。实验结果表明，我们的方法实现了显着改善重建质量相比，国家的最先进的方法DTU和坦克和寺庙数据集。我们的源代码和训练模型可在https://github.com/callmeray/PointMVSNet上获得。*同等贡献。1. 介绍最近基于学习的多视图立体（MVS）方法[12，29，10]与传统方法相比取得了巨大成功，因为基于学习的方法能够学习利用场景全局语义信息，包括对象材料，镜面反射和环境照明，以获得更稳健的匹配和更完整的重建。所有这些方法应用密集的多尺度3D CNN来预测深度图或体素占用。然而，3D CNN需要与模型分辨率成立方的存储器，这对于实现最佳性能可能是潜在的禁止。Maxim et al.[24]通过渐进地生成八叉树结构解决了这个问题，由网格划分带来的量化伪影仍然存在，并且由于树是逐层生成的，因此误差可能会累积。在这项工作中，我们提出了一种新的点云多视图立体网络，其中目标场景被直接处理为点云，更有效的表示，特别是当3D分辨率很高。我们的框架由两个步骤组成：首先，为了从整个场景中切割出近似的物体表面，通过相对较小的3D成本体积生成初始的粗略深度图，并1539然后转换为点云。随后，我们的新PointFlow模块应用于迭代回归精确和密集的点云从初始点云。与ResNet[8]类似，我们显式地制定PointFlow来预测当前迭代的深度与地面实况的深度之间的残差。基于从预测点云推断的几何先验和从多视图输入图像动态获取的2D图像外观线索来估计3D流（图1）。我们发现，我们的点为基础的多视图立体网络（点MVSNet）框架享有的准确性，效率和灵活性的优势，当它与以前的MVS方法相比我们的方法自适应采样潜在的表面点在3D空间。它自然地保持了表面结构的连续性此外，由于我们的网络只处理物体表面附近的有效信息，而不是像3D CNN那样处理整个3D空间，因此计算效率要高得多。最后，自适应细化方案允许我们首先以粗分辨率窥视场景，然后仅在感兴趣的区域中对重建的点云进行加密。对于面向交互的机器人视觉等场景，这种灵活性将节省计算能力。我们的方法在基于学习的方法（包括DTU [1]和Tanks and Temples [15]）中的标准多视图立体基准上实现了最先进的性能。与以前的国家的最先进的相比，我们的方法产生更好的结果，在完整性和整体质量。此外，我们展示了我们所提出的方法的潜在应用，如凹深度推断。2. 相关工作多视图立体重建MVS是在深度学习兴起之前已经被广泛研究采用了许多3D表示，包括体积[26，9]，变形模型[3，31]和补丁[5]，它们通过多视图光度一致性和正则化优化迭代更新我们的迭代细化过程通过迭代地更新深度图与这些经典解决方案共享类似的想法。然而，我们的基于学习的算法实现了改进的鲁棒性输入图像损坏，避免了繁琐的手动超参数调整。基于学习的MVS受到最近深度学习在图像识别任务中的成功的启发，研究人员开始将学习技术应用于立体重建任务，以获得更好的补丁表示和匹配[7，22，16]。虽然这些仅使用2D网络的方法在立体任务上取得了很大的改进，但难以将它们扩展到多视图立体任务，并且由于缺乏上下文几何知识，它们的性能在具有挑战性的场景中受到限制同时，已经提出了3D成本体积正则化方法[14，12，13]，其中在相机平截头体或场景中构建3D成本体积接下来，多视图的2D图像特征在成本体积中变形，使得3D CNN可以应用于它。3D成本体积的关键优势在于，场景的3D几何形状可以被网络显式地捕获，并且可以在3D空间中执行光度匹配，减轻了透视变换和潜在遮挡引起的图像失真的影响，这使得这些方法比基于2D学习的方法获得更好的效果。而不是使用体素网格，在本文中，我们建议使用一个基于点的网络的MVS任务，利用3D几何学习，而不被bureded的低效率发现在3D CNN计算。高分辨率MVS高分辨率MVS对于机器人操作和增强现实等实际应用传统方法[17，5，18]通过重复扩展置信匹配关键点来生成密集的3D补丁，这可能是耗时的。这些方法也是敏感的噪声和视点的变化，由于使用手工制作的特征。最近的学习方法试图通过高级空间分区来减轻内存消耗然而，大多数这些方法构造一个固定的成本体积表示为整个场景，缺乏灵活性。在我们的工作中，我们使用点云作为场景的表示，这是更灵活的，使我们能够逐步接近准确的位置最近，在[19，20]中提出了一种新型的深度网络架构，它能够直接处理点云，而无需将其转换为体积网格。与基于体素的方法相比，这种结构集中在点云数据上，节省了不必要的计算。同时，空间的连续性在这个过程中得以保持。虽然PointNets在各种3D理解任务中显示出显着的性能和效率改进，例如对象分类和检测[20]，但正在探索如何将这种架构用于MVS任务，其中3D场景对网络未知在本文中，我们提出了PointFlow模块，它估计的基础上联合点假设的2D-3D特征的3D流。3. 方法本节描述Point-MVSNet的详细网络架构（图2）。我们的方法可以分为两个步骤，粗深度预测，和迭代深度1540i=1我损失粗深度预测网络逆投影&点假设生成粗深度图预测GT深度图损失动态特征提取+图像特征金字塔功能增强点云PointFlow模块深度残差预测精确的深度图预测迭代细化图2：Point-MVSNet架构概述首先以低GPU存储器和计算成本预测粗略深度图，然后将其与假设点一起未投影到点云。对于每个点，从多视图图像特征金字塔动态地提取特征。PointFlow模块使用特征增强的点云进行深度残差预测，并且迭代地细化深度图。精致令I 0表示参考图像，并且{Ii}N表示其相邻源图像的集合。我们首先为I 0生成一个粗略的深度图（3.1节）。由于分辨率低，现有的体积MVS方法具有足够的效率并且可以使用。其次，我们介绍了2D-3D特征提升（第3.2节），它将2D图像信息与3D几何先验相关联。然后，我们提出了新的PointFlow模块（第3.3节），以迭代方式将输入深度图细化到更高的分辨率，并提高精度。3.2. 2D-3D特征提升基于图像特征金字塔学习的图像特征被证明是提高密集像素对应质量的关键[29，23]。为了在多个尺度上赋予应用步长为2的2D卷积网络对特征图进行下采样，并且提取下采样之前的每个最后一层以构建图像Ii的最终特征金字塔Fi=[F1，F2，F3]。类似于普通我我我3.1. 深度粗预测最近，基于学习的MVS [12，29，11]在成本体积正则化上使用多尺度3D CNN实现了然而，该步骤可能是极其昂贵的存储器，因为存储器需求随着成本卷分辨率的增长而考虑到内存和时间，我们使用最近提出的MVSNet [29]来预测相对低分辨率的成本量。给定图像和相应的相机参数，MVSNet [29]根据参考构建3D成本卷MVS方法[29，11]，特征金字塔在所有输入图像。动态特征提取在我们的网络中使用的点特征是所提取的多视图图像特征方差与世界空间中的归一化3D坐标Xp的折衷。我们将分别介绍它们。每个3D点的图像外观特征可以在给定相应相机参数的情况下，使用可微分非投影从多视图特征图中获取。请注意，特征F1、F2、F3处于不同的位置，我我我摄影机截头体。然后，通过多尺度3D CNN和软argmin[15]操作回归参考视图的初始深度图。在MVSNet中，特征图在每个维度上被下采样到原始输入图像的1/4，并且虚拟深度平面的数量为256，用于训练和评估。另一方面，在我们的粗略深度估计网络中，成本体积由参考图像的1/8大小的特征图构建，分别包含48或96因此，我们对这个 3D 特征卷的内存使用量大约是MVSNet中的1/20图像分辨率，因此相机固有矩阵应在特征图的每个级别上进行缩放以用于正确的特征扭曲。类似于MVSNet [29]，我们保持基于方差的成本度量，即不同视图之间的特征方差，以聚合从任意数量的视图变形的特征。对于层级j处的金字塔特征，N个视图的方差度量定义如下：XN ⇣⌘2Fj−FjCj= i=1，（j = 1，2，3）.（一）N1541pp为了形成驻留在每个3D点处的特征，我们将提取的图像特征和归一化的点坐标进行串联：Cp=concat[Cj ， Xp] ，（ j=1 ， 2 ， 3 ） .（2）该特征增广点Cp是我们的特征增广点的输入。PointFlow模块。如在下一节中将看到的，由于我们迭代地预测深度残差，因此我们在每次迭代之后更新点位置Xp并且从图像特征金字塔中获取点特征Ck，我们将该操作命名为动态特征获取。注意，该步骤不同于基于成本体积的方法，通过该方法，在每个体素处提取的特征由场景的固定空间分区确定。相比之下，我们的方法可以根据更新后的点位置动态地提取图像的不同区域因此，我们可以专注于特征图中的感兴趣区域，而不是统一对待它们3.3. PointFlow由于3D成本体积的低空间分辨率，从第3.1节生成的深度图具有有限的精度我们提出了PointFlow，我们的新方法来迭代地细化深度图。在已知相机参数的情况下，我们首先取消投影参考相机非投影点Phypotesizedponp图3：点假设生成和边缘构造的图示：对于每个未投影点p， 2m+沿着参考相机方向产生1点假设{~pk}有向边在每个边之间构造用于边缘卷积的假设点及其kNN经典的MVS方法已经证明局部邻域对于鲁棒的深度预测是重要类似地，我们采用最近工作DGCNN [28]的策略来丰富相邻点之间的特征聚合。如图3所示，使用k个最近邻（kNN）在点集合上构造有向图，使得局部几何结构信息可以用于点的特征传播。将特征增强点云表示为Cp={Cp~1， . .... . . 你好。，Cp<$n}，则边卷积定义为：深度图是3D点云。对于每个点，我们的目标是通过观察其相邻点来估计其沿参考相机方向0=0p<$q2kNN（p<$）hΘ（Cp，Cp−Cq），（4）点，从而推动点流动到目标表面。接下来，我们将详细讨论模块的组件。点假设生成从所提取的图像特征图回归每个点的深度位移是重要的。由于透视变换，嵌入在2D特征图中的空间上下文不能反映3D欧氏空间中的邻近性。为了便于网络建模，我们建议生成一系列点假设，如图3所示，这些点假设沿参考相机方向具有不同的位移。令t表示归一化的参考相机方向，并且s表示位移步长。对于未投影的点p，它的hypothesized点集{p_k}由下式生成：~pk=p+kst，k=−m，. . . 、m.（三）这些点假设对于网络推断位移是至关重要的，因为不同深度处的必要邻域图像特征信息连同空间几何关系一起聚集在这些点中。其中h0是由下式参数化的可学习非线性函数：是逐通道对称聚合运算。对称操作有多种选项，包括最大池化、平均池化和加权求和。我们比较了最大池化和平均池化，并在仔细调整超参数后观察到类似的性能流预测用于流预测的网络架构如图4所示。输入是特征增强的点云，并且输出是深度残差图。我们使用三个EdgeConv层来聚合邻域不同尺度的点特征。快捷连接用于将所有EdgeConv输出作为局部点要素包含在内。最后，一个共享的多层感知器（MLP）是用来转换的逐点的功能，输出的概率标量与softmax之间的假设点的每个未投影点。未投影点的位移被预测为所有预测点假设之间的位移的概率加权和：Xmdp=E（ks）=ks×Prob（（五）k=-mC1542Acc. （mm）Comp. （mm）整体（mm）营地[2] 0.835 0.554 0.695Furu [5] 0.613 0.941 0.777[25]第25话[29]第二十九话0.3960.5270.462¨边缘转换边缘转换边缘转换特征增强点云特征非投影点假设点特征PointFlow模块softmaxE预期流深度残差预测图4：建议的PointFlow模块的网络架构。请注意，此操作是可微的。输出深度残差图是通过将位移向后投影而获得的，其将被添加到初始输入深度图中以获得深度精致吉普马[6]0.2830.8730.578SurfaceNet [12]0.4501.0400.745使用上采样的迭代细化因为可以迭代地执行预测，这对于基于3D成本体积的方法来说要困难得多，因为在构建成本体积之后空间划分是固定的对于来自粗略预测或先前残差预测的深度图D（i），我们可以首先使用最近邻将其上采样到更高的空间分辨率，然后执行流预测以获得D（i+1）。此外，我们在每次迭代时减小未投影点与假设点之间的深度间隔，使得可以通过从更近的点假设捕获更详细的特征来预测更准确的位移3.4. 训练损失与大多数深度MVS网络类似，我们将此问题视为回归任务，并使用L1损失来训练网络，L1损失衡量预测深度图和地面实况深度图之间的绝对差异初始深度图和迭代细化的深度图的损失都被考虑：表1：DTU评价数据集上重建质量的定量结果（越低越好）。摄像机参数数据集分为训练集、验证集和评估集。4.2. 实现细节训练我们在DTU训练数据集上训练Point-MVSNet。对于数据预处理，我们遵循MVSNet [29]从给定的地面实况点云生成深度图。在训练过程中，我们将输入图像分辨率设置为640×512，视图数设置为N= 3。输入视图集的选择策略与MVSNet（第4.1节）。对于粗略预测，我们构造具有D= 48个虚拟深度平面的3D成本体积，这些虚拟深度平面从425mm到921mm均匀地采样。0λ（i）X ¨1的间隔分别为8mm和4mm的数量最近邻点= 16。我们使用初始的RMSProp损失=i=0时在s（i）¨¨p2p有效GT（p）−D（i）（p）？A，1（六）学习率为0。0005，每2个时期减少0.9。粗预测网络单独训练4个时期，然后，模型端到端训练另一个时期其中，P_valid表示有效的地面实况像素集合，并且l是迭代次数。在训练中，权重λ（i）被设置为1.0。4. 实验4.1. DTU数据集DTU数据集[1]是一个大规模的MVS数据集，它由124个不同的场景组成，在7种不同的照明条件下在49或64个位置扫描。每次扫描的数据由RGB图像和对应的RGB图像组成12个纪元。在4块NVIDIA GTX 1080Ti显卡上批量大小设置为4我们使用D= 96个深度层进行初始深度预测，并设置流迭代l= 3进行深度细化。我们预测每个N= 5视图集的参考视图深度图。然后，我们使用[29]提供的相同后处理将所有深度图融合到点云。我们在两种不同的输入图像分辨率下评估我们的方法：1280×960（共享MLPD我们0.3610.4210.391我们基于点的网络架构的灵活性Ours-HiRes0.3420.4110.3761543[29]第二十九话图5：DTU数据集扫描9的定性结果上图：整个点云。下图：局部区域中法线的可视化我们的Point-MVSNet生成详细的点云，具有比MVSNet更多的高频分量。为了公平比较，MVSNet预测的深度图被插值到与我们的方法相同的分辨率。距离（mm）图6：DTU评估数据集上不同距离阈值的F分数、准确性和完整性（越高越好）。为了公平比较，我们将MVSNet预测的深度图上采样到与深度融合之前的方法相同的分辨率（288×216至640 ×480）。4.3. DTU数据集上的基准测试我们在DTU评估数据集上对所提出的方法进行了定量结果如表1和图6所示，其中使用DTU数据集的官方代码计算准确性和完整性，并如[15]中所述计算f-评分虽然Gipuma [6]在准确性方面表现最好，但我们的Point-MVSNet在完整性和整体质量方面都优于最先进的技术。定性结果如图5所示。与MVSNet相比，Point-MVSNet生成更详细的点云。尤其是在那些4.4. 点流迭代由于点表示的连续性和灵活性，可以对先前的预测迭代地执行细化和致密化，以给出更致密和更准确的预测。虽然模型使用l= 2次迭代进行训练，但我们使用0到3次迭代来测试模型。对于每次迭代，我们对点云进行上采样，同时减小点假设的深度间隔，使网络能够捕获更详细的特征。我们比较了重建质量、深度图分辨率、GPU内存消耗和不同迭代时的运行时间，以及表2中最先进方法报告的性能。通过多次迭代，重建质量得到了显著提高，验证了该方法的有效性。请注意，我们的方法在第二次迭代后已经优于最先进的方法。定性结果如图7所示。4.5. 消融研究在本节中，我们提供了消融实验和定量分析，以评估我们框架中关键组件的优势和对于所有以下研究，在DTU数据集上进行实验和评估，并使用准确性和完整性我们将迭代次数设置为l= 2，所有其他实验设置与第4.3节相同。边缘卷积通过用几何形状未知的特征聚合替换等式（4）中的边缘卷积：区域，我们的方法可以捕获高频几何特征。0=0p<$q2kNN（p<$）hΘ（Cq），（7）F-评分Acc.Comp.百分比（%）C1544初始Iter1 Iter2 Iter3图7：不同流程迭代的定性结果。上图：整个点云。底部：放大的局部区域。生成的点云在每次迭代之后变得更密集，并且可以捕获更多的几何细节。IterAcc. （毫米）Comp. （毫米）总体（mm）0.5mmf-刻痕深度地图资源深度间隔（mm）GPU内存（MB）运行时（s）-0.6930.7580.72647.95160×1205.3072190.3410.6740.7500.71248.63160×1205.3072210.6120.4480.4870.46876.08320×2404.0072351.1430.3610.4210.39184.27640×4800.8087313.35[29]第二十九话0.4560.6460.55171.60288×2162.65108051.05表2：在DTU评估集上通过重建质量和深度图分辨率测量的不同流动迭代处的比较结果由于GPU内存限制，我们将MVSNet的分辨率降低到1152×864×192。在不考虑相邻点与质心点的几何关系而同等对待相邻点的特征的情况下，重建质量显著下降，如表3所示，其示出了局部邻域关系信息（由Cp−Cq）用于特征聚集。欧几里德最近邻在这一部分中，我们使用属于参考图像中相邻像素的点来构造有向图G，而不是搜索k-NN点，这导致重建质量下降原因在于，对于3D场景的图像，由于遮挡，附近的像素可能对应于远处的对象。因此，使用图像空间中的相邻点可能聚集不相关的特征用于深度残差预测，导致性能下降。特征金字塔在这一部分中，点云只从特征地图的最后一层提取特征，而不是从整个特征金字塔提取特征。如表3中所示，与如上所述的用于改变边缘卷积策略的相对稳定的性能相比，该下降将在没有其他两个组件的情况下是显著的，这证明了在不同尺度上利用上下文信息进行特征提取的有效性。4.6. 依赖于初始深度图我们的方法使用最先进的方法来获得粗略的深度图预测，然后通过预测深度残差来迭代通过以下实验，我们发现我们的方法在一定范围内对噪声初始深度估计具有鲁棒性。我们将不同尺度的高斯噪声添加到初始深度图，并评估重建误差。图8显示误差缓慢增加，并且在6mm噪声内小于MVSNet。4.7. 与点云上采样的比较我们的工作也可以被认为是一个数据驱动的点云上采样方法与辅助信息，从参考意见。因此，我们将我们的方法与PU-Net [30]进行比较，其中从粗点云中提取多级特征以重建上采样点云。1545边缘EUCNNPyrAcc. （毫米）Comp. （毫米）XXX0.4480.487XX50.4550.489X5X0.4550.4925XX0.5010.518X550.4750.5045X50.5740.56555X0.5290.532表3：DTU评价数据集上网络架构的消融研究，证明了不同组件的有效性EDGE表示边缘卷积，EUCNN表示通过欧氏距离中的最近邻点进行分组，并且PYR表示图像特征金字塔的使用。STD. 初始深度图噪声（mm）图8：重建误差w.r.t.初始深度图噪声。AVG表示平均池，MAX表示最大池。Acc. （毫米）Comp. （毫米）总体（mm）PU-Net [30]1.2200.6670.943我们0.3610.4210.391表4：DTU评价数据集与PU-Net [30]的重建质量比较。我们使用与模型中相同的粗略深度预测网络，并训练PU-Net对粗略点云进行上采样。我们使用与他们论文中提到的相同的联合损失，它包括两个损失-预测点云和参考地面实况点云之间的地球移动器距离（EMD）[4]损失和排斥损失。为了进行评估，将PU网络应用于粗略预测的点云两次，以生成具有16倍多的点的更密集的点定量结果见表4。我们的点MVSNet可以产生一个更准确的点云从粗糙的诱导流为每个点从多视图图像中的上下文信息4.8. 凹深度推断基于点的网络架构使我们能够处理任意数量的点。因此，我们可以选择仅推断感兴趣区域（ROI）中的深度，而不是对整个深度图进行图9：使用我们提出的方法进行的中心凹深度推断的图示不同的点密度级别由不同的颜色表示：灰色表示最稀疏，棕色表示中等，绿色表示最密集。基于输入图像或预测的粗略深度图。如图9所示，我们在前一阶段仅通过对ROI进行上采样和细化来生成三个不同密度级别4.9. PointFlow模块的通用性为了评估我们的PointFlow模块的通用性，我们在Tanks和Temples中间数据集[15]上进行了测试，这是一个在复杂环境中捕获的大型户外数据集。我们首先使用MVSNet [29]生成粗略的深度图，然后应用我们的PointFlow模块来细化它们。F值从43增加。48到4827（越大越好），排名从13上升。十二比七。25（越低越好，日期：2019年3月22日）。重建的点云显示在补充材质中。5. 结论我们提出了一种新的基于点的高分辨率多视点立体重建架构。而不是建立一个高分辨率的成本卷，我们提出的点MVSNet处理的场景作为一个点云直接，这减少了不必要的计算，并保持空间连续性。实验表明，Point-MVSNet能够在基准上生成高质量的重建点云。此外，Point-MVSNet适用于中心凹深度推断，以大大减少计算，这对于基于成本-体积的方法来说不容易实现。确认作者衷心感谢 NSF 资助 IIS-1764078 的支持，Qualcomm，Adobe的礼物以及DMAI公司的支持。0.8初始0.7260.70.60.5MVSNet0.4620.40.00.81.62.43.24.06.08.012.016.0总体重建误差（mm）1546引用[1] Henrik Aanæs ， Rasmus Ramsbül Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据 Int. J. Comput. Vision，120（2）：153- 168，Nov. 2016年。[2] 尼尔·DF.Campbell，GeorgeVogiatzis ，CarlosHerna'ndez，and Roberto Cipolla.使用多个假设来改进多视图立体的在David Forsyth、Philip Torr和AndrewZisserman编辑的Computer Vision-ECCV2008年[3] CarlosHer na'ndezEsteban和FrancisSchmitt。三维物体建模中的轮廓计算机视觉与图像理解，96（3）：367[4] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集，第605-613页[5] Y. Furukawa和J.庞塞精确、密集和强大的多视图立体视觉。IEEE Transactions on Pattern Analysis and MachineIntelligence，32（8）：1362-1376，Aug. 2010年。[6] 西尔瓦诺·加利亚尼，卡特琳·拉辛格，还有康拉德·辛德勒 Gipuma ：大规模并行多视图立体重建。PubllikationenderDeutschenGesellschaftfur¨rPhotogrammetrie，FernerkundungundGeoinformation e. V，25：361 -369，2016.[7] Han Xufeng ， Thomas Leung ， Yangqing Jia ， RahulSukthankar ，and Alexander C Berg.Matchnet：Unifyingfeature and metric learning for patch-based matching.在IEEE计算机视觉和模式识别会议论文集，第3279-3286页[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议论文集，第770-778页[9] Alexander Hornung和Leif Kobbelt。基于对偶图嵌入的流形曲面分层体视多视点立体重建。在2006年IEEE计算机协会计算机视觉和模式识别会议（CVPRIEEE，2006年。[10] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. DeepMVS：学习多视图立体视觉。arXiv：1804.00650 [cs]，Apr. 2018年。[11] Sunghoon Im，Hae-Gon Jeon，Stephen Lin，and In SoKweon.DPSNet：端到端深平面扫描立体声。九月2018年。[12] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu Fang. SurfaceNet：用于多视图立体视觉的端到端3D神经网络。arXiv：1708.01749 [cs]，2017年8月。[13] AbhishekKa r，ChristianHaene，andJitendraMalik. 学习多视角立体机。神经信息处理系统的进展，第365-376页，2017年[14] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习。在IEEE计算机视觉国际会议论文集，第66-75页[15] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准。ACM Trans. Graph. ，36（4）：78：1[16] Patrick Knobelreiter 、 Christian Reinbacher 、 AlexanderShekhovtsov和Thomas Pock。用于立体声的混合cnn-crf模型的在IEEE计算机视觉和模式识别会议论文集，第2339-2348页[17] Maxime Lhuillier和Long Quan从未校准图像重建表面的准稠密方法。IEEE Transactions on Pattern Analysis andMachine Intelligence，27（3）：418[18] A. Owens，J. Xiao，A. Torralba和W.弗里曼。用于数据驱动多视图重建的形状匹配器在2013年IEEE计算机视觉国际会议上，第33-40页2013年。[19] Charles R.Qi ， Hao Su ， Kaichun Mo ， and LeonidasJ.Guibas PointNet：用于3D分类和分割的点集深度学习arXiv：1612.00593 [cs]，Dec. 2016年。[20] Charles R. Qi，Li Yi，Hao Su，and Leonidas J. GuibasPointNet++：度量空间中点集的深度层次特征学习。arXiv：1706.02413 [cs]，2017年6月。[21] Gernot Riegler 、 Ali Osman Ulusoy 和 Andreas Geiger 。Octnet：以高分辨率学习深度3D表示在IEEE计算机视觉和模式识别会议论文集，第3577-3586页[22] Akihito Seki和Marc Pollefeys。SGM-nets：Semi-globalmatching with neural networks.在IEEE计算机视觉和模式识别会议论文集，第231-240页[23] 承周唐、平谈。BA-Net：密集束调整网络。2018年6月[24] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。八叉树生成网络：用于高分辨率3d输出的高效卷积架构。在IEEE计算机视觉国际会议论文集，第2088-2096页[25] Engin Tola，Christoph Strecha，and Pascal Fua.超高分辨率图像集的高效大规模多视图立体。马赫视觉应用，23（5）：903-920，Sept. 2012年。[26] GeorgeVogiatzis，CarlosHerna'ndezEsteban，PhilipHSTorr，and Roberto Cipolla.通过体积图形切割和遮挡的多视图立体，具有鲁棒的照片一致性。IEEETransactionsonPatternAnalysisandMachineIntelligence，29（12）：2241[27] Peng-Shuai Wang，Yang Liu，Yu-Xiao Guo，Chun-YuSun，and Xin Tong. O-CNN：用于3D形状分析的基于八叉树的卷积神经网络。ACM Transactions on Graphics（SIGGRAPH），36（4），2017。[28] Wang Yue，Yongbin Sun，Ziwei Liu，Sanjay E.作者声明：Michael M. Bronstein和Justin M.所罗门用于点云学习的动态图CNNarXiv：1801.07829 [cs]，Jan. 2018年。[29] 姚姚，罗紫心，李世伟，天方，龙泉。MVSNet：非结构化多视图立体的深度推断。arXiv：1804.02505 [cs]，Apr. 2018年。1547[30] Lequan Yu，Xianzhi Li，Chi-Wing Fu，Daniel Cohen-Or，and Pheng-Ann Heng.Pu-net：点云上采样网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。[31] Andrei Zaharescu ， Edmond Boyer ， and Radu Horaud.Transformesh：一个拓扑自适应网格为基础的方法，表面演变。亚洲计算机视觉会议，第 166-175 页。Springer，2007.

下载后可阅读完整内容，剩余1页未读，立即下载