MVSNet：多视点立体深度学习

67 浏览量更新于2023-10-13 收藏 2.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

MVSNet：非结构化多视点立体瑶瑶1号【0000- 0001 - 9866 - 4291】、罗紫欣1号【0000- 0001 - 6946 - 2826】、李世伟1号【0000- 0003 - 0712 - 0059】、田芳2号【0000 - 0002 - 5871 - 3455】、龙泉1号【0000 - 0001 - 8148 - 1771】1香港科技大学，{yyaoag，zluoag，slibc，quan} @ cse.ust.hk2深圳市筑科创新科技（Altizure）fangtian@altizure.com抽象。我们提出了一种端到端的深度学习架构，用于从多视图图像进行深度图推断。在该网络中，我们首先提取深度视觉图像特征，然后通过可微单应性变形在参考相机截头体上构建3D成本体积。接下来，我们应用3D卷积来正则化和回归初始深度图，然后使用参考图像进行细化以生成最终输出。我们的框架灵活地适应任意N-视图输入使用基于方差的成本度量，将多个功能映射到一个成本功能。在大规模室内DTU数据集上证明了所提出的MVSNet。通过简单的后处理，我们的方法不仅显着优于以前的最先进的，而且在运行时快了几倍。我们还在复杂的户外坦克和寺庙数据集上评估了MVSNet，在2018年4月18日之前，我们的方法在没有任何微调的情况下排名第一，显示了MVSNet强大关键词：多视点立体，深度图，深度学习1介绍多视点立体（MVS）算法从重叠图像中估计出稠密表示，是计算机视觉的核心问题之一。传统方法使用手工制作的相似性度量和工程化的正则化（例如，归一化互相关和半全局匹配[12]）来计算密集对应并恢复3D点。虽然这些方法在理想的朗伯场景下显示出很好的结果，但它们受到一些常见的限制。例如，场景的低纹理、镜面和反射区域使得密集匹配难以处理，并且因此导致不完整的重建。据报道，在最近的MVS基准[1，18]，虽然YaoYao和Zixin Luo是暑期实习生，Shiwei Li是Everest Innovation Technology（Altizure）的实习生。2Y. Yao，Z.Luo，S.Li，T.芳湖，澳-地泉当前最先进的算法[7，36，8，32]在精度上表现得非常好，但是重建完整性仍然有很大的改进空间最近在卷积神经网络（CNN）研究上的成功也引发了对改进立体重建的兴趣。在概念上，基于学习的方法可以引入全局语义信息，诸如用于更鲁棒的匹配的特殊和反射先验有一些关于双视图立体匹配的尝试，通过用学习的相似性度量[39，10，23，11]或工程正则化[34，19，17]替换手工制作的相似性度量。他们已经显示出有希望的结果，并逐渐超过传统的方法在立体声基准[9，25]。事实上，立体匹配任务完全适合于应用基于CNN的方法，因为图像对被预先校正，因此问题变成了水平像素视差估计，而不受相机参数的影响。然而，直接将所学习的双视图立体声扩展到多视图立体声是不平凡的。虽然可以简单地预校正所有选择的图像对以进行立体匹配，然后将所有成对重建合并为全局点云，但这种方法未能充分利用多视图信息，并导致不太准确的结果。与立体匹配不同，MVS的输入图像可以是任意相机几何形状，这对学习方法的使用提出了棘手的问题。只有少数作品承认这个问题，并尝试将 CNN 应用于 MVS 重建：SurfaceNet [14]提前构建了彩色体素立方体相比之下，学习立体声机器（LSM）[15]直接利用可微分投影/非投影来实现端到端训练/推断。然而，这两种方法都利用了规则网格的体积表示。由于受到3D卷的巨大存储器消耗的限制，他们的网络很难扩展：LSM仅处理低体积分辨率的合成对象，而SurfaceNet应用启发式分而治之策略，并且需要很长时间进行大规模重建。目前，现代MVS基准测试的领先板仍然被传统方法占据[7，8，32]。为此，我们提出了一种用于深度图推理的端到端深度学习架构，它每次计算一个深度图，而不是一次计算整个3D场景。类似于其他基于深度图的MVS方法[35，3，8，32]，所提出的网络MVSNet将一个参考图像和几个源图像作为输入，并推断参考图像的深度图。这里的关键见解是可微单应性扭曲操作，其隐式地编码网络中的相机几何形状以从2D图像特征构建3D成本为了适应输入中任意数量的源图像，我们提出了一个基于方差的度量，将多个特征映射到体积中的一个成本特征。然后，该成本体积经历多尺度3D卷积并回归初始深度图。最后，利用参考图像对深度图进行细化，以提高边界区域的准确性。我们的方法和以前学习的方法之间有两个主要区别[15，14]。第一，对于深度图的目的MVSNet3因此，我们的3D成本体积是建立在相机平截头体而不是常规欧几里得空间上的。第二，我们的方法将MVS重建解耦为按视图深度图估计的较小问题，这使得大规模重建成为可能。我们在大规模DTU数据集上训练和评估所提出的MVSNet大量的实验表明，通过简单的后处理，MVSNet在完整性和整体质量方面优于所有竞争方法。此外，我们在户外坦克和寺庙基准测试[18]上展示了网络的泛化能力，其中MVSNet排名第一（4月之前）。18，2018），包括开源MVS方法（例如，COLMAP [32]和OpenMVS [29]）和商业软件（Pix4D [30]），无需任何微调。还值得注意的是，MVSNet的运行时间比先前的现有技术快几倍甚至几个数量级。2相关工作MVS重建。根据输出表示，MVS方法可以被分类为1）直接点云重建[22，7]，2）体积重建[22，7]，3）三维重建[22，7]。重建[20，33，14，15]和3）深度图重建[35，3，8，32，38]。基于点云的方法直接在3D点上操作，通常依赖于传播策略来逐渐致密化重建[22，7]。由于点云的传播是按顺序进行的，这些方法很难完全并行化，并且通常需要很长的处理时间。基于体积的方法将3D空间划分成规则网格，然后估计每个体素是否粘附到表面。这种表示的缺点是空间离散化误差和高内存消耗。相比之下，深度图是其中最灵活的表示它将复杂的MVS问题解耦为按视图深度图估计的相对小的问题，其一次仅关注一个参考和几个源图像此外，深度图可以很容易地融合到点云[26]或体积重建[28]。根据最近的MVS基准[1，18]，当前最好的MVS算法[8，32]都是基于深度图的方法。学习Stereo 而不是使用传统的手工制作的图像特征和匹配度量[13]，最近关于立体声的研究应用深度学习技术以用于更好的成对补丁匹配。Han等人。 [10]首先提出了一种深度网络来匹配两个图像块。Zbontar等人。 [39]和Luo等人。 [23]使用学习的特征进行立体匹配和半全局匹配（SGM）[12]用于后处理。除了成对匹配成本之外，学习技术还应用于成本正则化。SGMNet [34]学习调整SGM中使用的参数，而CNN-CRF [19]在网络中集成了条件随机场优化，用于端到端立体学习。最新的最先进的方法是GCNet [17]，其应用3D CNN来调节成本体积并通过软argmin操作回归差异。据报道，KITTI banchmark [25]指出，基于学习的立体声，尤其是4Y. Yao，Z.Luo，S.Li，T.芳湖，澳-地泉GT特征提取可微单应性成本量规范化深度图细化图1：MVSNet的网络设计。输入图像将通过2D特征提取网络和可微单应性变形来生成成本体积。最终的深度图输出从正则化的概率体积回归，并利用参考图像进行通常，这些端到端学习算法[24，19，17]显著优于传统的立体声方法。学习MVS。对学习的MVS方法的尝试较少。Hart- mann等人提出了学习的多块相似性[11]，以取代MVS重建的传统成本度量。用于MVS问题的第一个基于学习的流水线是SurfaceNet [14]，其使用复杂的逐体素视图选择来预先计算成本体积，并使用3D CNN来正则化和推断表面体素。与我们最相关的方法是LSM [15]，其中相机参数在网络中编码为投影操作以形成成本体积，并且3D CNN用于分类体素是否属于表面。然而，由于体积表示的共同缺点它们要么应用分治策略[14]，要么仅适用于具有低分辨率输入的合成数据[15]。相比之下，我们的网络专注于每次为一个参考图像生成深度图，这使我们能够直接自适应地重建大场景。3MVSNet本节介绍所提议网络的详细架构。MVSNet的设计严格遵循相机几何形状的规则，并借鉴了以前的MVS方法的见解在接下来的章节中，我们将比较我们的网络的每一步与传统的MVS方法，并展示我们的基于学习的MVS系统的优势。MVSNet的完整架构1.一、共享权重损失0共享权重初始深度图损失1C方差度量软参数细化深度图Conv + BN + ReLU，步幅= 1Conv + BN + ReLU，步幅= 2Conv，步幅= 1c级联加法…源图像参考图像MVSNet5i=1i=1I=2i=1i=11i=1i=1i=13.1图像特征MVSNet的第一步是提取深度特征{Fi}Nn个输入图像{Ii}N用于密集匹配。应用八层2D CNN，其中层3和层6的跨距设置为2，以将要素塔划分为三个刻度。在每个尺度内，应用两个卷积层来提取更高级别的图像表示。除了最后一层之外，每个卷积层后面都是批量归一化（BN）层和整流线性单元（ReLU）。此外，与常见的匹配任务类似，参数在所有特征塔之间共享以进行有效学习。2D网络的输出是N个32通道特征图，与输入图像相比，每个维度缩小了四个。值得注意的是，虽然在特征提取之后缩小了图像帧，但是每个剩余像素的原始邻近信息已经被编码到32通道像素描述符中，这防止了密集匹配丢失有用的上下文信息。与在原始图像上简单地执行密集匹配相比5.3）。3.2成本量下一步是从提取的特征图和输入相机构建3D成本体积。虽然以前的作品[14，15]使用规则网格划分空间，但对于我们的深度图推断任务，我们在参考相机平截头体上构建成本体积。为了简单起见，在下文中，我们将I1表示为参考图像{Ii}N源图像，并且{Ki，Ri，ti}N相机对应于特征图的内部函数、旋转和平移所有的特征图被扭曲成不同的前-后以形成N个特征体积{Vi}N. 的从变形特征图Vi（d）到深度d处的Fi的坐标映射是通过在x′上的投影映射函数确定的，其中“不”是投影等式，而Hi（d）是深度d处的第i个特征图与参考特征图之间的单应设n1为参考相机的主轴，单应性由3×3矩阵表示：.Hi（d）=Ki· Ri· I−（t1−ti）·nT·R T·K T。（一）d11不失一般性，用于参考特征图Fl本身的单应性是3X 3单位矩阵。翘曲过程类似于经典的平面扫描立体声[5]，除了可微双线性插值是用于对来自特征图{Fi}N而不是图像{I i}N的像素进行采样。作为连接二维特征提取和三维正则化的核心步骤在深度映射网络中，以可微分的方式实现扭曲操作，这使得能够进行深度映射推断的端到端训练。接下来，我们聚合多个要素卷{Vi}N以一个成本体积C。为了适应任意数量的输入视图，我们提出了一个基于方差的N-视图相似性度量的成本度量M设W、H、D、F为6Y. Yao，Z.Luo，S.Li，T.芳湖，澳-地泉输入图像的宽度、高度、深度样本数和通道数特征图，V=W·H·D·F特征体积大小，即我们的成本度量4 4定义映射M：RV×···×RV→RV，使得：联系我们NΣNC =M（V1，···，VN）=i= l（Vi− Vi）2（二）N其中Vi是所有特征体积之间的平均体积，并且以上所有操作都是逐元素的。大多数传统的MVS方法以启发式方式聚合参考图像和所有源图像之间的成对成本。相反，我们的度量设计遵循的理念是，所有视图都应该对匹配成本做出同等贡献，并且不优先考虑参考图像[11]。我们注意到，最近的工作[11]应用具有多个CNN层的均值运算来推断在最小处的多个p。他重新选择了不同的CNN操作，因为它需要在不同的分辨率下提供不同的形式，并且他们的网络需要前CNN层相比之下，我们的基于方差的成本度量明确地测量多视图特征差异。在后面的实验中，我们将证明这种显式差异测量提高了验证精度。成本体积正则化从图像特征计算的原始成本体积可能被噪声污染（例如，由于存在非朗伯表面或对象遮挡），并且应当结合平滑度约束以推断深度图。我们的正则化步骤被设计用于细化上述成本体积C以生成用于深度推断的概率体积P。受最近基于学习的立体[17]和MVS [14，15]方法的启发，我们将多尺度3D CNN应用于成本体积正则化。这里的四尺度网络类似于3D版本UNet [31]，它使用编码器-解码器结构以相对较低的存储器和计算成本从大的感受野聚合相邻信息为了进一步减少计算要求，我们将第一个3D卷积层之后的32通道成本体积减少到8通道，并将每个尺度内的卷积从3层改变为2层。最后一个卷积层输出1通道音量。最后，我们沿着深度方向应用softmax操作进行概率归一化。所得到的概率体积在深度图推断中是高度期望的，其不仅可以用于每像素深度估计，而且可以用于测量估计置信度。我们将在SEC中展示3.3中，人们可以通过分析其概率分布来容易地四点二。3.3深度图从概率体积P检索深度图D的最简单方式是逐像素赢家通吃[5]（即，argmax）。然而，在这方面，MVSNet710.80.60.40.20(a) 参考图像0.10.080.060.040.020(b) 推断深度图（c）概率分布（d）概率图图2：关于推断的深度图、概率分布和概率图的图示。(a)扫描114的一个参考图像，DTU数据集[1];（b）推断的深度图;（c）内点像素（顶部）和离群点像素（底部）的概率分布，其中X轴是深度假设的索引，y轴是Rgm结果的概率和相关性; 如在（c）中所示，剩余的分布是分散的并且导致在（d）中的低概率估计。argmax运算不能产生子像素估计，并且由于其不可微性而不能用反向传播相反，我们沿着深度方向计算期望所有假设的概率加权和：dΣmaxD =d=dmind×P（d）（3）其中P（d）是深度d处的所有像素的概率估计。注意，该操作也被称为[17]中的软argmin操作。它是完全可微的，并且能够近似argmax结果。虽然在成本体积构建期间在范围[d_min，d_max]内对深度假设进行均匀采样，但是这里的期望值能够产生连续的深度估计。输出深度图（图图2（b）中的图像特征图与2D图像特征图具有相同的尺寸，与输入图像相比，2D图像特征图在每个维度上缩小了四个尺寸。概率图沿深度方向的概率分布也反映了深度估计的质量。虽然多尺度3D CNN具有非常强的将概率正则化为单峰分布的能力，但我们注意到，对于那些错误匹配的像素，它们的概率分布是分散的，并且不能集中到一个峰值（参见图11）。第2段（c）分段）。基于此观测，我们确定确定时间的等式，因为地面实况深度有可能在接近估计的小范围内。由于深度假设是沿着相机截头体离散采样的，我们简单地取四个最近的深度假设的概率和来测量估计质量。注意，这里也可以使用其他统计测量，例如标准偏差或熵，但是在我们的实验中，我们观察到这些测量对于深度图滤波没有显著的改进此外，我们的概率和公式导致一个更好的控制阈值参数的离群值过滤。虽然从概率体积检索的深度图是合格的输出，但是重构边界可能遭受以下缺陷：125100125751005075255002508Y. Yao，Z.Luo，S.Li，T.芳湖，澳-地泉由于正则化中涉及的大感受野而导致的过度平滑，这类似于语义分割[4]和图像抠图[37]中的问题请注意，参考图像自然包含边界信息，因此我们使用参考图像作为指导来细化深度图。受最近的图像抠图算法[37]的启发，我们在MVSNet的末尾应用深度残差学习网络。初始深度图和调整大小的参考图像被级联为4通道输入，然后通过三个32通道2D卷积层，然后通过一个1通道卷积层来学习深度残差。然后将初始深度图加回以生成细化的深度图。最后一层不包含BN层和ReLU单元以学习负残差。此外，为了防止在某个深度标度处有偏差，我们将初始深度幅度预缩放到范围[0，1]，并在细化之后将其转换回来。3.4损失考虑初始深度图和细化深度图两者的损失。我们使用真实深度图和估计深度图之间的平均绝对差作为我们的训练损失。由于地面实况深度图在整个图像中并不总是完整的（参见第2节）。4.1），我们只考虑那些具有有效地面真值标签的像素：Σ损失=d（p）−d（四）p∈pvalid`x损失0联系我们亏损1其中，p_valid表示有效地面实况像素的集合，d（p）表示p_x_p的地面实况估计值，d（p）表示初始估计值，d（p）表示最终深度估计值。将参数λ设置为1。0在实验中4实施方式4.1培训数据准备当前的MVS数据集以点云或网格格式提供地面实况数据，因此我们需要自己生成地面实况深度图。DTU数据集[1]是一个大规模的MVS数据集，包含100多个具有不同光照条件的场景由于它为地面实况点云提供了法线信息，因此我们使用筛选泊松表面重建（SPSR）[16]来生成网格表面，然后将网格渲染到每个视点以生成用于我们训练的深度图在SPSR中，树深参数设置为11，以获得高质量的网格结果。此外，我们将网格修剪因子设置为9.5，以减轻表面边缘区域中的网格伪影。为了公平地将MVSNet与其他基于学习的方法进行比较，我们选择了与SurfaceNet [14]1相同的训练，验证和评估集。1个验证集：扫描{3，5，17，21，28，35，37，38，40，43，56，59，66，67，82，86，106，117}。评价集：扫描{1，4，9，10，11，12，13，15，23，24，29，32，33，34，48，49，62、75、77、110、114、118}。训练集：其他79次扫描。MVSNet912σ2(a) 推断的深度图（b）过滤的深度图（c）GT深度图(d) 参考图像(e) 融合点云(f) GT点云图3：扫描9的重建，DTU数据集[1]。从左上到右下：（a）从MVSNet推断的深度图;（b）在光度和几何滤波之后的经滤波的深度图;（c）从地面实况网格渲染的深度图;（d）参考图像;（e）最终融合点云;（f）地面实况点云考虑到每次扫描包含7种不同光照条件下的49张图像，通过将每张图像设置为参考，DTU数据集总共提供了27097个训练样本。使用了VieSelectionArererenemage和两个虚拟内存（N=3）我不想让你失望对于一个图像对，我们计算eascores（i，j）=pG（θij（p））根据稀疏点，其中p是视图i和j中的公共轨迹，θij（p）=（18 0/π）arccos（（ci-p）·（cj-p））isp的b为e i n e angl e，d c为相机中心。G是一个分段高斯函数[40]，它有利于某个b为e直线角度θ0：G（θ）=exp（−（θ−θ0）22σ22），θ≤θ0exp（− （θ−θ0）），θ>θ2在该实验中，θ0、σ1和σ2分别为5、1和10。注意，图像将在特征提取中被缩小尺寸，加上3D正则化部分中的四尺度编码器-解码器结构，输入图像尺寸必须可被因子32整除考虑到这一要求以及有限的GPU内存，我们将图像分辨率从1600×1200降低到800× 600，然后从中心裁剪W= 640和H= 512的图像块作为训练输入。输入的摄像机参数将相应地更改深度假设从425mm到935mm以2mm分辨率（D= 256）均匀采样我们使用TensorFlow[2]来实现MVSNet，网络在一个Tesla P100图形卡上训练了大约100，000次迭代。010Y. Yao，Z.Luo，S.Li，T.芳湖，澳-地泉4.2后处理上述网络估计每个像素的深度值在将结果转换为密集点云之前，有必要过滤掉那些背景和遮挡区域的离群值。我们提出了两个标准，即光度和几何一致性的鲁棒深度图滤波。光度一致性衡量匹配质量。如第3.3，我们计算概率图来衡量深度估计质量。在我们的实验中，我们把概率低于0.8的像素作为离群点。几何约束测量多个视图之间的深度一致性。类似于立体声的左右视差检查，我们将参考视差投影到另一视图中的视差，且通过视差的视差将参考视差投影到所述视差。如果在预处理器中执行预处理，并且预处理器执行了预处理器，则会立即执行|preproj−p1|<1和d|dreproj−d1|/d1<0。01，我们认为p 1的d1上的时间间隔是两个视图一致的。在我们的实验中，所有深度应至少为三视图一致性。这种简单的两步过滤策略对过滤不同类型的异常值具有很强的鲁棒性与其他多视图立体方法[8，32]类似，我们应用深度图融合步骤来整合来自不同视图的深度图到统一的点云表示。基于可见度的融合算法[26]在我们的重建中使用，其中跨不同视点的深度遮挡和违规被最小化。为了进一步抑制重构噪声，我们如在滤波步骤中那样确定每个像素的可见视图，并且将在所述重构步骤中的可见视图上的平均值作为像素的最终视图。然后将融合的深度图直接重新投影到空间以生成3D点云。我们的MVS重建的图示如图所示。3.第三章。5实验5.1DTU数据集上的基准测试我们首先在DTU数据集的22个评估扫描上评估我们的方法[1]。输入视图数、图像宽度、高度和深度样本数分别被设置为N= 5、W= 1600、H= 1184和D= 256。对于定量评估，我们计算距离度量[1]和百分比度量[18]的准确性和完整性虽然距离度量的matlab代码是由DTU数据集给出的，但我们自己实现了百分比评估。请注意，百分比指标还测量准确性和完整性的整体性能作为f分数。为了对距离度量给出类似的测量，我们定义了总得分，并将平均准确度和平均完整性的平均值作为重建质量。定量结果示于表1中。虽然Gipuma [35]在准确性方面表现最好，但我们的MVSNet在完整性和整体质量方面都优于所有方法，并且具有显著的优势。如图4、MVSNet生成最完整的点云，特别是在那些无纹理和MVSNet11表1：关于DTU的评估集[ 1 ]的量化结果。我们使用距离度量[1]（越低越好）和百分比度量[18]（越高越好）分别使用1mm和2mm阈值来评估所有方法平均距离（mm）Acc. Comp. 整体百分比（1mm）Acc. Comp. F-score百分比（2mm）Acc. Comp. F-score营地[3] 0.835 0.554 0.69571.7564.94 66.3184.8367.82 73.02Furu [7] 0.613 0.941 0.77769.5561.52 63.2678.9967.88 70.93Tola [35] 0.342 1.190 0.76690.4957.83 68.0793.9463.88 73.61Gipuma [8] 0.283 0.873 0.57894.65 59.93 70.64 96.42 63.81[14] 0.450 1.04 0.74583.863.38 69.9587.15 67.99 74.4MVSNet（我们的）0.396 0.5270.46286.46 71.13 75.69 91.06 75.31 80.25Gipuma PMVS SurfaceNet MVSNet（Ours）地面真相图4：DTU数据集的扫描9、11和75的定性结果[1]。我们的MVSNet生成最完整的点云，特别是在那些无纹理和反射区域。最佳屏幕反射区域，其通常被认为是在MVS重建中最难恢复的部分。5.2Tanks and Temples数据集的概化DTU扫描在具有固定相机轨迹的良好控制的室内环境下进行为了进一步证明MVSNet的泛化能力，我们在更复杂的室外Tanks和Temples数据集[18]上测试了所提出的方法，使用在DTU上训练的模型，而无需任何微调。当我们对于所有重建选择N= 5、W=1920、H= 1056和D= 256时，确定参考图像的深度范围和源图像集扫描75扫描9扫描1112Y. Yao，Z.Luo，S.Li，T.芳湖，澳-地泉表2：罐和寺庙基准的定量结果[18]。MVSNet在所有提交中达到最佳的f分数结果，无需任何微调方法秩平均族弗朗西斯霍斯湖伊图乌斯M60 Panther游乐场d路车MVSNet（我们的）3.00 43.48 55.9928.55 25.0750.7953.96 50.8647.9034.69Pix4D [30]3.12 43.24 64.4531.91 26.4354.4150.58 35.3747.7834.96COLMAP [32]3.50 42.14 50.4122.25 25.6356.4346.9748.5342.04[29]第二十七话：我的世界3.62 41.71 58.8632.59 26.2543.1244.73 46.8545.9735.27OpenMVG [27]+ MVE [6]6.00 38.00 49.9128.1920.7543.3544.5144.7636.5835.95[21]第二十一话：我的世界10.38 30.67 31.9319.9215.0239.3836.5141.6135.8925.12[29]第二十七话：我的世界10.88 22.86 56.5029.6321.696.5539.5428.480.000.53MVE [6]11.25 25.37 48.5923.8412.705.0739.6238.165.8129.19[27]第27话11.88 29.66 41.0317.7012.8336.6835.9333.2031.7828.10(a) 家庭(e)弗朗西斯(b) 黑豹(f) 火车(c) 马(g) 灯塔(d) 操场(h)M60图5：中间集Tanks和Temples[18]数据集的点云结果，展示了MVSNet在复杂户外场景中的泛化能力根据稀疏点云和相机位置，其由开源SfM软件OpenMVG [27]恢复。根据在线基准，我们的方法在2018年4月18日之前在所有提交的中间集[18]中排名第一（表2）。尽管该模型是在非常不同的DTU室内数据集上训练的，但MVSNet仍然能够在这些室外场景上产生最佳重建，证明了所提出的网络的强大泛化能力。中间集的定性点云结果在图1中可视化。五、5.3消融本节分析MVSNet中的几个组件对于所有后续研究，我们使用验证损失来衡量重建质量。18次验证扫描（参见第4.1)被预处理为训练集，我们设置N= 3，W= 640，H= 512和D= 256用于验证损失计算。视图数我们首先研究了输入视图数N的影响，并证明我们的模型可以应用于任意视图的输入。而MVSNet13损失2个视图3个视图5查看次数损失无2D无精炼是说MVSNet5.06.54.54.03.53.05.54.53.52.540k 60k 80k 100k 120k140k2.5#iters40k 60k 80k 100k 120k140k#iters(a) 查看编号（b）组件图6：消融研究。(a)不同输入视图编号的验证丢失。(b)对2D图像特征、成本度量和深度图细化的消融模型在SEC。4.1使用N= 3个视图训练，我们分别使用N= 2， 3， 5正如所料，它显示在图。6（a）添加输入视图可以降低验证损失，这与我们关于MVS重建的知识一致值得注意的是，N= 5的测试比N= 3的测试性能更好，即使模型是使用3个视图设置训练的。这种高度期望的属性使得MVSNet足够灵活以应用不同的输入设置。图像特征我们在这项研究中证明，基于学习的图像特征可以显着提高MVS重建质量。为了在MVSNet中对传统的基于块的图像特征进行建模，我们用单个32通道卷积层替换了原始的2D特征提取网络。滤波器内核设置为7× 7的大数字，步长设置为4。如图如图6（b）所示，具有2D特征提取的网络在验证损失方面显著优于单层网络。成本度量我们还将基于方差运算的成本度量与基于均值运算的度量进行比较[11]。在Eq. 2被替换为平均操作以训练新模型。可以在图中找到。6（b）我们的成本度量导致更快的收敛和更低的验证损失，这表明使用显式差异度量来计算多视图特征相似性是更合理的。最后，我们在有和没有深度图细化网络的情况下训练MVSNet。这些模型还在DTU评估集上进行了测试，如第5.1，我们使用百分比度量[18]来定量比较两个模型。虽然图6（b）示出了细化不会太多地影响验证损失，但是细化网络将评估结果从75.58提高到75.69（Immf分数）以及从79.98提高到80.25（2mmf分数）。<<14Y. Yao，Z.Luo，S.Li，T.芳湖，澳-地泉5.4讨论运行时间我们使用DTU评估集将MVSNet的运行速度与Gipuma [8]，COLMAP [32]和SurfaceNet [14]进行比较。其他方法从它们的源代码编译，并且所有方法都在同一台机器上进行测试。MVSNet的效率要高得多，它需要大约230秒来重建一个扫描（每个视图4.7秒）。运行速度比Gipuma快5倍，比COLMAP快100倍，比SurfaceNet快160倍GPU内存MVSNet所需的GPU内存与输入图像大小和深度样本数有关。为了在具有原始图像分辨率和足够深度假设的坦克和寺庙上进行测试，我们选择Tesla P100显卡（16 GB）来实现我们的方法。值得注意的是，DTU数据集的训练和验证可以使用一个消费级GTX 1080ti显卡（11 GB）完成培训数据如第节所述。4.1中，DTU提供了具有法线信息的地面实况点云，以便我们可以将它们转换为网格表面以用于深度图渲染。然而，目前Tanks and Temples数据集不提供法线信息或网格表面，因此我们无法在Tanks和Temples上微调MVSNet以获得更好的性能。尽管使用这样的渲染深度图已经取得了令人满意的结果，但是仍然存在一些限制：1）所提供的地面实况网格不是100%完整的，因此前景后面的一些三角形将被错误地渲染到深度图作为有效像素，这可能使训练过程恶化。2)如果像素在所有其他视图中被遮挡，则不应将其用于训练。然而，没有完整的网格表面，我们不能正确地识别被遮挡的像素。我们希望未来的MVS数据集可以提供具有完整遮挡和背景信息的地面真实6结论我们提出了一种用于MVS重建的深度学习架构。所提出的MVSNet将非结构化图像作为输入，并以端到端的方式推断参考图像的深度图。MVSNet的核心贡献是将相机参数编码为可微单应性，以在相机截头体上构建成本体积，其桥接2D特征提取和3D成本正则化网络。在DTU数据集上的实验表明，MVSNet不仅显著优于以前的方法，而且在速度上也比以前的方法高出几倍。此外，MVSNet在没有任何微调的情况下在Tanks和Temples数据集上产生了最先进的结果，这证明了其强大的泛化能力。7了解本工作得到了T22-603/15 N、香港ITC PSKL 12 EG 02和广州开发区国际科技合作专项（No.2017GH24）。MVSNet15引用1. Aanæs，H.，R.R.詹森Vogiatzis，G.，Tola，E.，Dahl，A.B.：多视点立体视觉的大规模数据。国际计算机视觉杂志（IJCV）（2016）2. Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，Ghemawat，S.，古德费洛岛Harp，A.，Irving，G. Isard，M.，Jia，Y.，Jozefowicz，河凯泽湖Kudlur，M.，Levenberg，J.，我不去，D。，Monga，R.， More，S.，Mur ay，D. ，Olah，C.， S.h. s.t.r. S·L·N·S，J·，Steiner，B.，萨茨克弗岛Talwar，K.，Tucker，P.Vanhoucke，V.，Vasudevan，V.，Vi'egas，F.，Vinyals，O.， Warden，P.， M.， Wi cke，M.， Yu，Y.， Zeng，X.：TensorFlow ： Large-scalemachinelearningonheterogeneoussystems（2015），https://www.tensorflow.org/，软件可从tensorflow.org3. Camp bell、N. D. ，Vogiatzis，G.， Hern'andez，C.，奇波拉河使用多个简化假设来改进多视图立体的深度图。欧洲计算机视觉会议（ECCV）（2008）4. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI）（2017）5. Collins，R.T.：一种真正的多图像匹配的空间扫描方法。计算机视觉和模式识别（CVPR）（1996）6. Fuhrmann，S.，Langguth，F.，Goesele，M.：多视图重建环境。关于图形和文化遗产的欧洲图形研讨会（GCH）（2014年）7. Furukawa，Y.，Ponce，J.：精确、密集和强大的多视图立体视觉。IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）（2010）8. Galliani，S.，Lasinger，K.，Schindler，K.：表面法向扩散的大规模平行多视点立体视觉。国际计算机视觉会议（ICCV）（2015）9. Geiger，A.，Lenz，P.乌尔塔松河：我们准备好自动驾驶了吗KittiVision基准套件。计算机视觉与模式识别（CVPR）（2012）10. Han，X. Leung，T.，Jia，Y.，Sukthankar河Berg，A.C.：Matchnet：Unifying fea- ture and metric learning for patch-based matching.计算机视觉与模式识别（CVPR）（2015）11. Hartmann，W. Galliani，S.，Havlena，M.凡古尔湖Schindler，K.：已学习多面片相似性。国际计算机视觉会议（ICCV）（2017）12. Hirschmuller ， H. ：通过半全局匹配和互信息的立体处理。 IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI）（2008）13. Hirschmuller，H.，Scharstein，D.：立体匹配代价函数的评估。计算机视觉和模式识别（CVPR）（2007）14. 吉，M.，Gall，J.，郑洪，Liu，Y.，Fang，L.：Surfacenet：一个用于多视图立体视觉的端到端 3D 神经网络。国际计算机视觉会议（ICCV ）（2017）15. K ar，A.， Ha？e，C.， Malik，J. ：Learningigamulti-viestemachine. 神经信息处理系统（NIPS）的发展16. Kazhdan，M.，Hoppe，H.：屏蔽泊松曲面重建。ACM Transactions onGraphics（TOG）（2013）16Y. Yao，Z.Luo，S.Li，T.芳湖，澳-地泉17. Kendall，A.，Martirosyan，H.，Dasgupta，S.，Henry，P.：深度立体回归的几何和上下文的端到端学习。计算机视觉与模式识别（CVPR）（2017）18. Knapitsch，A.，帕克，J.，Zhou，Q.Y.，Koltun，V.：坦克和寺庙：大规模场景重建的基准。ACM Transactions on Graphics（TOG）（2017）19. K néobelreiter，P.， Reinbacher，C.， Shekhovtsov，A.， Pock、T. ：用于立体声的混合 cnn-crf

下载后可阅读完整内容，剩余1页未读，立即下载