基于条件随机场的多视图立体声深度学习架构

125 浏览量更新于2023-10-12 收藏 1.62MB PDF 举报

条件随机场

清华大学电子工程系

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4312MVSCRF：使用条件随机场清华大学电子工程系，薛友泽，陈建生，万伟涛，黄一清，余成，李天鹏网址：xueyz19@mails.tsinghua.edu.cn，jschenthu@mail.tsinghua.edu.cn{wwt16，huang-yq17，yuc18，ltp16，bjy19}@ mails.tsinghua.edu.cn摘要我们提出了一种基于条件随机场（MVSCRF）的多视图立体声深度学习架构。给定任意数量的输入图像，我们首先使用U形神经网络提取包含全局和局部信息的深度特征，然后为参考相机构建3D成本卷。与以前的基于学习的方法不同，我们在成本体积正则化阶段之后CRF模块被实现为递归神经网络，以便整个管道可以端到端地训练。我们的结果表明，建议的流水线在大规模DTU数据集上的性能优于目前最先进的流水线。我们还在户外Tanks和Temples数据集上实现了与最先进的基于学习的方法相当的结果，而无需微调，这证明了我们的方法1. 介绍在多视图立体（MVS）系统中，对从不同视图拍摄的相同场景或对象的图像进行处理以重建3D模型。传统的MVS方法通过利用多个视图之间的投影关系将任务表述为优化问题[21][22]。最近深度学习的成功激发了研究人员利用基于学习的MVS方法。一些研究利用3D 模型的体积表示，并使用深度卷积神经网络（CNN）回归每个体素的占用率[13][14][6]。然而，体积表示由于其巨大的内存消耗，不能按比例放大，从而导致重建空间的分辨率很低。重建3D场景的另一种方法是首先估计每个视图的深度图，然后融合深度图以形成点云。最近的工作[29][30][10][5]基于深度图估计*通讯作者(a) （B）马图1. MVSNet（顶部）与建议的MVSCRF（底部）在两个选定的场景，T ank和Temples数据集。MVSNet的可视化结果直接引用自原始论文[29]。在公共MVS基准测试中取得了优异的成绩，如DTU[12]和Tanks and Temples[15]，证明了在MVS中使用深度图作为中间表示的有效性在[29]中，双目立体中常用的流水线扩展到基于深度学习的MVS，其中Yao等人。提出了一种端到端的架构MVSNet。MVSNet首先提取输入图像的深度特征，然后使用可微单应性变形为参考相机构建3D成本体积，最后正则化成本体积以回归深度图。MVSNet在公共基准上实现了与基于优化的传统方法相当甚至更好的性能。最近，Yao et al.进一步提出了R-MVSNet[30]其通过将MVSNet的成本体积正则化重新设计为递归神经网络而实质上减少了推理存储器需求。因此，深度采样率可以显著增加，导致如预期的更精确的3D预测。提高深度估计的性能的另一种方式（其可以与R-MVSNet中使用的深度估计正交）是进一步利用自然场景的深度图的固有特性。受语义隔离的启发-4313mentation [4]，这也是逐像素预测任务，我们认为局部和全局特征的组合在深度图估计中可能是有效的。一方面，丰富的局部信息有助于精确定位像素。另一方面，无纹理或反射区域中的像素更多地依赖于全局信息来进行重建。在MVSNet和R-MVSNet中，实现卷积层的顺序堆栈以提取深度特征，其不能有效地结合来自不同尺度的语义线索。为了解决这个问题，Huang etal.提出将预训练的VGG- 19 [23]网络提取的语义特征与DeepMVS [10]中类似UNet的结构提取的特征相结合。然而，由于DeepMVS基于图像块的顺序处理，因此它不能利用整个图像的信息。因此，我们提出使用六尺度U形结构从原始输入图像中提取深度特征。编码器-解码器结构提供了大的感受野来提取全局信息，从浅层到深层的跳跃连接有助于将丰富的局部信息与全局语义线索合并。更重要的是，相邻像素的深度值通常高度相关。在对象的内部区域，深度值往往是连续的。当在实例的边界上时，深度值通常变化很大。在MVSNet中，实现3D UNet以聚合邻近信息。然而，没有明确的约束施加在深度图的平滑性上。Deep-MVS在后处理中使用Dense-CRF [16]来明确地细化具有平滑度约束的深度图。我们认为，一个更有效的方法是将平滑度约束纳入MVS的端到端可训练风格因此，我们建议使用成本体积正则化的输出作为多尺度条件随机场（MSCRF）的输入，其被实现为循环神经网络，使得整个管道可以端到端地训练。端到端训练鼓励特征提取器和成本体积正则化器产生符合深度图的平滑度约束的输出，从而产生更平滑以及完整的深度估计结果，如图1B所示。1.一、2. 相关工作传统的MVS方法利用多视图间的投影关系来优化每个像素的深度值。Schonberger等人Colmap [21][22]，它在补丁匹配中使用手工制作的功能，并逐像素优化深度值。Colmap在不同的场景下表现良好，包括公共多视图基准测试和互联网照片。然而，传统的方法，如Colmap是耗时的，因为他们优化像素的深度值一个接一个，这是很难并行实现。此外，深层图像特征在许多视觉任务中，如图像分类[25]和语义分割[4]，由CNN提取的图像已被证明比手工制作的图像更具表达力和信息量最近的基于学习的方法[10][29][30]在公共基准上优于传统方法，并大大减少了10倍以上的时间消耗基于学习的MVS主要有两种不同的方法。一种是基于体素，另一种是使用深度图作为中间表示。基于体素的方法将空间分割成规则的网格，并直接估计每个网格的占用率。Choy等人提出了3D-R2 N2 [6]，这是一种端到端的流水线，它将323个体素作为卷积LSTM的隐藏变量[9]，并将图像特征作为输入。 Kar等人提出使用可微投影从图像特征构建特征体积，其明确地包含由投影定义的几何先验[14]。基于体素的重建方法通常需要大量的存储空间，其重建模型的空间分辨率一般不超过2563。为了提高空间分辨率，Ji et al.提出将整个空间分割成更小的彩色体素立方体（CVC），并逐立方体回归表面身份[13]。然而，这导致高时间复杂度。与体素立方体相比，深度图是在计算期间消耗少得多的存储器的二维表示。在双目立体视觉中，一个与MVS高度相关的视觉任务，一对图像之间的视差图基于学习的双目立体方法通常建立一对图像的成本体积来估计视差图。受此启发，MVS方法（如[29]，[10]和[5]）使用CNN提取图像特征，使用来自多个视图的图像构建3D成本体积，并回归每个视图的深度图。为了从成对成本体积构建扩展到多视图设置，MVS方法通常选择一个图像作为参考图像一次，并且其他输入图像被称为源图像。对于每对参考图像和其源图像之一，构建成本体积。Choi等人提出计算这些成本体积的加权和作为参考图像的最终成本体积[5]。Huang等人建议使用最大操作来合并成本卷[10]。Yao等人提出了计算成本量方差的方法[29]。UNet最初被提出用于处理医学图像分割[20]。通过修改全卷积神经网络（FCN）[17]，UNet使用下采样路径，然后是对称上采样路径来产生每像素分割结果。上下结构及其在浅层和深层之间的跳跃连接已被广泛应用于不同的分段网络中。考虑到深度估计是在na-4314图2.MVSCRF的总体架构与图像分割类似，我们采用U型结构和跳跃连接来构造特征提取器。条件随机场（CRFs）[2]是一类概率图模型.图像中的像素具有一些不能由神经网络自动建模的关系。CRF可以通过明确地约束逐像素预测的输出来分割研究通常使用CRF来建模不同像素之间的标签关系[31]。Ristovski等人提出将图像建模为全连通图，以解决遥感中的图像去噪问题[19]。在单目深度估计领域，Xuet al.将CRF实现为顺序深度网络，以便可以端到端地训练整个管道[27]。Huang等人在MVS中估计深度图的后处理中使用了Dense-CRF [10]。普通的条件反射函数是基于优化的，不能直接与神经网络联合训练. Zheng等人提供了一种将CRF建模为用于分割任务的递归神经网络的方法，使得CRF模块可以使用神经网络进行端到端训练[31]。与分割任务不同的是，深度样本的数量，其对应物是分割任务中的语义标签，期望对于不同的场景是灵活的。因此，我们重新设计了RNN形成的CRF模块，使模型参数与深度样本的数量无关。3. MVSCRF我们采用MVSNet作为基线架构，主要在特征提取和成本量正则化阶段进行修改，如图所示。二、3.1. 重新审视MVSNetMVSNet管道可以分为五个阶段：预处理、特征提取、成本量构建、成本量正则化和后处理。事实上，这是大多数基于深度图的MVS（如DeepMVS和最近的R-MVSNet）的事实上的标准管道。在预处理步骤中，通过使用Colmap或其他传统方法（如OpenMVG[18]）进行稀疏重建来确定相机然后，特征提取器从参考图像和源图像中提取深层特征.接下来，通过将源图像的特征图扭曲到参考图像的一些深度假设，在参考相机的平截头体上构建成本体积通过计算单个参考图像的所有成本卷之间的方差来合并它们之后，合并的成本体积被馈送到正则化器中，该正则化器是MVS- Net中的3D UNetMVSNet在正则化器的初始输出之后提供了一个细化模块，最后，来自不同视图的深度图被合并在一起以产生点云。3.2. U形特征提取器我们使用六尺度U形结构来提取深层特征，如图所示。3.下采样路径由六个不同的尺度组成，每个尺度比高尺度小两倍。因此，最小的特征映射比原始输入小32倍上采样路径被设计为与下采样部分完全对称。在这两个部分之间实现了两个以上的卷积层。在网络的每个尺度中，具有步幅2的卷积（或解卷积）层被设计为对特征图进行下采样（或上采样），而不是根据[24]对层进行池化。在具有步幅2的每个卷积（或去卷积）层之后，实现具有步幅1的卷积层以提取该尺度的特征。原始的UNet连接来自下采样路径和上采样路径的相同尺度的两个特征映射，以实现跳过连接。为了节省内存，我们的特征提取器被设计为直接添加两个特征图。在U形结构之后，特征图通过步长为2的两个卷积层进行下采样，每个卷积层后面都有一个4315我i=1Zi我m=1（m）（m）ZiQi（l）=˘′l=1μ（l，l）Qi（l），ˆIjQΣ˜N2图3.U形特征提取器的架构卷积层，步长为1。除了最后一层，每个层都实现了批量规范化[11]操作和ReLU激活特征提取器的最终输出大小为H/4W/432。U形结构提供了不同分辨率的尺度。通过32倍的下采样，MVS-Net的感受野比原始MVS- Net大得多，因此特征包含了更多的全局信息。同时，从浅层到深层的跳跃连接实验表明，该特征提取器能显著提高深度估计的性能.3.3. 条件随机场形式上，深度估计可以被认为是多标签分类问题，并且每个深度假设对应于不同的标签。我们的直觉是，物体内部区域附近的像素往往具有相似的标签（深度假设），而边界或边缘附近的像素可能具有显著不同的标签。我们将深度图视为完全连接的成对条件随机方便地测量标记像素的成本我们将Ci定义为第i个像素的成本向量，并且将u（xi）设置为Ci（xi）。通过这种方式，CNN的影响被嵌入到深度图的概率分布中。正如[31]中所建议的，互能项在（2）中定义，其中μ（xi，xj）是两个标签之间的对称距离在（2）中，ω（1），ω（2）是两个权重，两个不同的高斯核k（1）和k（2）以及f（m）表示描述四次下采样的输入图像中的第i个像素的特征，例如像素的坐标或RGB值。我们采用与[31]中相同的特征和高斯内核到目前为止，标签分配的联合该分布结合了从神经网络提取的信息和反映深度图内在特征的平滑度约束。p（xi，xj）=μ（xi，xj）ω（m）k（m）（f（m），f（m））（2）m=1一般来说，原始概率分布的精确最大化是难以处理的为了近似分布，P（x）通常被解耦为每个像素的分布的乘积，如N Qi（xi）。因此，它可以使用平均场干涉以迭代方式求解，这在Alg中示出。1详细。Zheng等人将平均场推理实现为递归神经网络，以便可以以端到端的方式使用整个管道训练CRF模块[31]。简而言之，高斯滤波被建模为卷积层，归一化操作被建模为soft-max 操作，并且权重 μ（xi，xj）被建模为1 × 1卷积的参数。递归神经网络用于前向传递的T迭代。以相应的图像I为条件的场，其中每个像素将被分配有深度标签。令x={x1，x2，…xN}是N pix的标签向量。深度图中的元素分量xi属于{1，2，.，D}算法1平均场推理Qi（1）=1exp（Ci（1）），对于i = 1，2，. . . ，N对于t= 1：T其中D是深度样本的数量。标签分配的概率以吉布斯分布的形式定义。1Q（m）（l）=Qi（l）=2ik（m）（fi，fj）Qj（l），ωQi（l），P（x）|I）= Z exp（−E（x|其中，E（x）是能量函数描述了标签分配的成本阿斯塔纳德ing，并且Z是归一化因子。为方便起见，从现在起我们不再用条件I的符号。遵循[31]中的公式，（1）中定义的能量函数包括一元项和成对项，其中，Wu定义分配标签xi的自能量，并且Wp定义一对标签的互能量。E（x）=（x）+（x，x）（1）Qi（l）=Ci（l）-Qi（l），Qi（l）=1exp（Qi（l））端与其中标签（对象类）的数量通常是固定的语义分割任务不同，深度样本的数量可能需要针对不同的场景而改变因此，参数μ（xi，xj）为u ii=1pijI j最好与深度数D无关。在[31]中，参数μ（xi，xj）在训练期间学习，并且成本体积正则化器的输出C提供a，学习结果表明矩阵收敛为J4316.i=1我们约束α=1。多尺度检验Σ接近于具有位于对角线上的小值和位于其它位置上的大值的对角状矩阵。基于这一观察，我们将不同深度假设的距离测量简化为一个二元问题，如（3）所示，其中μ0和μ1是两个可学习的标量。以这种方式，由于矩阵μ（i，j）仅包含两个标量参数，因此它与深度样本的数量D完全解耦。一个.我们只使用中间集进行评估。在中间集合中，有8个不同的场景，每个场景对应一个短视频。提供一组2148个预选图像作为输入。DTU数据集是在控制良好的实验室条件下收集的，而坦克和寺庙数据集是在真实的户外场景中收集的，这比DTU复杂得多。场景的面积从5平方米到100多平方米不等，自然采光条件也很差，µ（i，j）=µ0|i − j|≤ 1µ1否则（三）从严格控制的实验装置中分离出来。4.2. 培训为了进一步利用来自不同分辨率的信息，我们在3D UNet的两个较低尺度之后添加卷积层的两个分支，如图所示。1.每个分支输出包含其规模信息的成本量。将它们表示为C1和C2，并将成本体积正则化的原始输出C重新表示为C3，然后我们将CRF的一元项替换为3αiCi，建立多尺度CRF。权重αi是可学习的参数，3我CRF的版本包含更多的全球信息，3D UNet的较低尺度。我们提出的CRF模块的输出在原始MVSNet中扮演了−C的softmax的角色。并且管道的以下架构对于MVSNet保持不变。3.4. 后处理类似于MVSNet中的几何过滤标准，我们使用重投影误差来衡量深度估计的置信度。在MVSNet中，输出深度图也由从概率分布计算的光度置信度图过滤。在我们的实现中，CRFs模块改变了深度的概率分布特性，生成置信图的方法然而，实验表明，几何滤波本身对于滤波深度图已经足够好，并且对于简单场景（例如DTU数据集中的场景）甚至不是必需的[12]。4. 实验4.1.数据集这项工作中的实验是在两个公共数据集上进行的：室内DTU数据集[12]和室外坦克和寺庙数据集[15]。DTU数据集包含在实验平台上捕获的100多个场景。每个场景在7种不同的光照条件下有49或64幅不同视角的图像。图像大小为 1600-1200 ，场景的深度范围在 425mm 和935mm之间。提供具有法线信息的点云，使得地面实况深度图可以生成。Tanks and Temples数据集包含两组场景，即中级场景和高级场景MVSNet提供DTU数据集的预处理训练数据。为了公平比较，我们按照MVSNet的训练配置在DTU数据集上训练了我们的模型[29]。输入图像的大小调整为640×512。对于每个参考图像，选择两个源图像相应地整个数据集分为训练集、验证集和评估集。训练集由27097个训练样本组成，每个图像用作参考图像。深度假设在425mm至935mm之间均匀采样。在MVSNet中，深度样本的数目D被设置为256然而，我们发现当我们提出的模型用D= 128训练时，性能差异很小。为了加快训练过程，我们的模型都是用128个深度样本训练的模型中的CRF模块与整个网络一起以端到端的方式进行训练递归网络的迭代数T设置为5。模型中的所有其他参数都将在训练期间学习4.3. DTU数据集上的测试DTU的评估集包含22个不同的场景。我们使用我们提出的模型为每个图像生成深度图，然后通过使用fusibile[8]将它们合并为点云。F或DT U数据集，背景清晰，因此无需过滤深度图点云合并。在MVSNet之后，输入图像的大小为1600×1184，输入视图的数量为5，并且用于推断的深度样本的数量为256。我们计算准确度（根据）和完整性（comp. ）使用DTU数据集提供的官方代码。此外，还计算了百分比测量值[15]。表1显示我们的方法的定量结果。我们的方法通常优于以前的方法，包括MVSNet及其最近的扩展R-MVSNet。DTU的定性比较如图所示。4.补充材料中提供了更多直观结果。如红色/橙色框所示，与R-MVSNet相比，MVSCRF减少了离群值，从而导致准确度距离的降低。这可能是由于我们的U形特征包含了更多的全局语义线索，4317平均距离（mm）acc.comp.整体珀斯人acc.（

下载后可阅读完整内容，剩余1页未读，立即下载