高分辨率多视点立体深度推断的递归神经网络

57 浏览量更新于2023-10-17 收藏 2.34MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5525用于高分辨率多视点立体深度推断的姚瑶1罗子欣1李世伟1沈天伟1田芳2 <$龙泉11香港科技大学{yyaoag，zluoag，slibc，tshenaa，quan}@ cse.ust.hk2深圳市筑科创新科技（Altizure）fangtian@altizure.com摘要深度学习最近展示了其在多视图立体（MVS）方面的出色性能。然而，目前学习MVS方法的一个主要局限是可扩展性：消耗内存的体积规则化使得学习MVS很难应用于高分辨率场景。本文提出了一种基于递归神经网络的可伸缩多视点立体视觉框架。所提出的递归多视图立体网络（R-MVSNet）通过门控递归单元（GRU）沿着深度方向顺序地正则化2D成本图，而不是一次性正则化整个3D成本图。这大大降低了内存消耗，使高分辨率重建可行。我们首先展示了在最近的MVS基准测试中所提出的R-MVSNet所实现的最先进的性能然后，我们进一步证明了所提出的方法在几个大规模场景中的可扩展性，在这些场景中，由于内存约束，以前的学习方法经常失败代码可在https://github.com/ YoYo 000/MVSNet 上获得。1. 介绍多视点立体（MVS）的目标是在给定多视点图像和标定摄像机的情况下恢复场景的密集表示。虽然传统方法[24，10，29，9]已经实现了出色的重建性能，但最近的工作[14，13，30]表明，学习方法能够产生与传统最先进技术相当的结果。特别是，MVSNet [30]提出了一种用于深度图估计的深度架构，其显著提高了重建完整性和整体质量。基于学习的MVS的关键优势之一是成本体积正则化，其中大多数网络都采用深圳市筑科创新科技有限公司实习生。†通讯作者。使用多尺度3D CNN [14，15，30]来规范3D成本量。然而，这一步是非常内存开销：它在3D体积上运行，内存需求随着模型分辨率的增加而立方地增长（图1）。1（d））。因此，当前学习的MVS算法很难扩展到高分辨率场景。最近在3D和深度学习方面的工作也解决了这个问题。OctNet [23]和O-CNN [27]利用3D数据的稀疏性，并将八叉树结构引入 3D CNN 。 SurfaceNet [14] 和DeepMVS [13]将工程师的分治策略应用于MVS重建。MVSNet [30]在参考相机平截头体上构建成本体积，以将重建解耦为逐视图深度图估计的较小问题。然而，当涉及到高分辨率3D重建时（例如，体积大小>5123体素），这些方法将失败或花费很长时间进行处理。为此，我们提出了一种新的可扩展的多视图立体框架，称为R-MVSNet，基于回流神经网络。所提出的网络建立在MVSNet架构[30]上，但使用卷积门控递归单元（GRU）而不是3D CNN以顺序方式正则化成本体积。通过顺序处理，该算法的在线存储需求从模型分辨率的三次方减少到二次方（图1）。（c）第1段。因此，R-MVSNet适用于具有无限深度分辨率的高分辨率3D重建。我们首先在DTU [1]，Tanks and Temples [17]和ETH3D [25]数据集上评估R-MVSNet，其中我们的方法产生的结果与最先进的MVSNet相当甚至优于MVSNet[30]。接下来，我们证明了所提出的方法在几个大规模的sce- narios上的可扩展性，并详细分析了内存消耗。R-MVSNet比GPU内存中的其他方法更有效，并且是第一个适用于这种宽深度范围场景的基于学习的方法，例如，《易经·系辞上》：“天与地，地与人。5526I=2i=1i=1----所需内存：高×宽高×宽高×宽高×宽高DminDMaxDminDMaxDminDMax(a) Winner-take-all(b) 空间正则化（c）递归正则化（建议）（d）3D CNN正则化图1：不同正则化方案的说明。对于感兴趣的红色体素，我们使用蓝色体素来表示其在成本体积正则化期间的感受野。运行时内存要求也列在卷的顶部，其中H、W和D分别表示图像高度、宽度和深度样本数。3D CNN收集整个空间的成本信息，但是，需要与模型分辨率成2. 相关工作基于学习的MVS重构近年来，基于学习的方法在MVS重构方面显示出了巨大的潜力。多补丁相似性[11]被提出来用学习的代价度量代替传统的代价度量。Sur-faceNet [14]和DeepMVS [13]将多视图图像预扭曲到3D空间，并使用CNN正则化成本体积。LSM [15]提出了可微分投影操作，以实现端到端MVS训练。我们的方法主要与MVSNet [30]相关，MVSNet将网络中的相机几何形状编码为可微单应性，并推断参考图像的深度图。虽然一些方法在MVS基准测试中取得了优异的性能，但由于内存约束，上述基于学习的流水线仅限于小规模MVS重建。可扩展的MVS重建学习的成本体积正则化的内存需求[14，15，13，5，30]随着模型分辨率的立方增长，当出现大图像尺寸或宽深度范围时，这将是难以处理的。在传统的MVS重建中也存在类似的问题（例如，半全局匹配[12]），如果使用简单的平面扫描[7]和2D空间成本聚合与深度方向赢家通吃[28，31]。在这项工作中，我们遵循顺序处理的思想，并建议使用卷积GRU [6]来正则化成本量。GRU是一种RNN架构[8]，最初被提出用于学习顺序语音和文本数据，最近被应用于3D体积处理，例如，视频序列分析[3，34]。对于我们的任务，卷积GRU在深度方向上收集空间和时间上下文信息，这能够实现与3DCNN相当的正则化结果。3. 网络架构本节介绍R-MVSNet的详细网络架构。我们的方法可以被视为对最近MVSNet [30]的扩展，其中使用卷积GRU进行成本体积正则化我们首先回顾MVSNet架构，在第二节。3.1，然后在Sec.3.2和相应的损失公式。三点三3.1. 关于MVSNet给定参考图像I1及其相邻图像的集合，N将体积作为正则化的输入。为了mit源图像{i}，MVSNet [30]提出了一种端到端的方法。解决可扩展性问题，基于学习的OctNet [23]和结束深度神经网络来推断参考深度图O-CNN [27]利用3D数据中的稀疏性并将八叉树结构引入3D CNN，但仍限于分辨率为512 ×3体素的重建。<启发式分而治之的战略适用于两个经典[18]和学习的MVS方法[14，13]，然而，通常导致全局上下文信息的丢失和缓慢的处理速度。另一方面，可扩展的传统MVS算法都隐式地正则化了成本体积。他们要么应用局部深度传播[19，9，10，24]来迭代地细化深度图/点云，要么顺序地正则化D.在其网络中，首先通过2D网络从输入图像中提取深度图像特征FiN。然后，这些2D图像特征将通过可微单应性被扭曲到参考相机平截头体中，以在3D空间中构建特征体积ViN 为了处理任意N个视角的图像输入，提出了一种基于方差的代价度量，将N个特征体映射到一个代价体C。与其他立体声和MVS算法类似，MVSNet使用多尺度3D CNN来调整成本体积，并通过软argmin [16]操作回归参考深度图D。细化网络应用于5527i=1i=1× × ××i=1⊙∗i=1--------特征提取Conv + BN + ReLU，步幅= 1Conv，步幅= 1Conv + BN + ReLU，步幅= 2GRU单位递归正则化开销图正规化成本图损计算可微单应性变形方差代价度量图2：R-MVSNet架构。从输入图像中提取深度图像特征，然后将其扭曲到参考相机平截头体的前平行平面成本图在不同深度处计算，并且由卷积GRU顺序地正则化该网络被训练成一个具有交叉熵损失的分类问题MVSNet的结束，以进一步增强深度图质量-能够收集空间以及单向连接，是的由于在特征提取期间缩小了深度图像特征FiN的尺寸，因此输出深度图尺寸在每个维度上是原始图像尺寸的1 / 4。MVSNet已经在DTU数据集[1]和中间组的Tanks和Temples数据集[17]上显示出最先进的性能，这些数据集包含具有外部向内看的相机轨迹和小深度范围的场景。但是，MVSNet只能处理H时的最大反射率比例WD=16001184256与16 GB大内存特斯拉P100GPU，并会失败，在更大的场景，先进的坦克和神殿为了解决可扩展性问题，特别是对于宽深度范围重建，我们将在下一节中介绍新的3.2. 递归正则化顺序处理一次性地全局调节成本体积C的替代方案是通过深度方向顺序地处理体积。最简单的顺序方法是赢家通吃平面扫描立体声[7]，它粗略地用更好的像素深度值替换像素深度值，因此会受到噪声的影响（图2）。1（a））。为了改进，成本聚合方法[28 ，31] 过滤不同深度的匹配成本C（d ）（图11）。1（b）），以便为每个成本估计收集空间上下文信息在这项工作中，我们遵循顺序处理的思想，并提出了一个更强大的基于卷积GRU的递归正则化方案。该方法深度方向的文本信息（图1（c）），其实现了与全空间3D CNN相当的正则化结果，但在运行时存储器中更有效。卷积GRU成本体积C可以被视为在深度方向上级联的D成本图C（i）D。如果我们将正则化代价映射的输出表示为Cr（i）D，则对于第t步的理想顺序处理，Cr（t）应该依赖于当前步骤C（t）以及所有先前步骤C（i）t-1的代价映射。具体来说，在我们的网络中，我们应用GRU的卷积变量来在深度方向上聚合这种时间上下文信息，这对应于语言处理中的时间方向。在下文中，我们将“”表示逐元素乘法，“[]”表示连接，“”表示卷积运算。成本相关性公式如下：Cr（t）=（1−U（t））<$Cr（t−1）+U（t）<$Cu（t）（1）其中U（t）是决定是否更新当前步骤的输出的更新门映射，Cr（t-1）是后期步骤的正则化成本映射，并且Cu（t）可以被视为当前步骤中的更新成本映射，其被定义为：Cu（t）=σc（Wc<$[C（t），R（t）<$Cr（t−1）]+bc）（2）R（t）这里是复位门映射，用于决定先前的Cr（t-1）应该影响当前更新的程度。σc（·）为SoftmaxCr（0）Cr（1）Cr（2）Cr（D-1）P…………损失Q独热C（0）C（1）C（2）C（D-1）MMMMGT深度图M…5528·i=1--(a) 参考图像（b）初始深度图（c）最终深度图（d）GT深度图(e)最终点云（f）概率图（g）深度梯度（h）细化图3：重建管道。(a)DTU [1]扫描15的图像24。(b)来自网络的初始深度图。(c)最终深度图（第4.3）。(d)地面实况深度图。(e)点云输出。(f)深度图滤波的概率估计（第4.3）。（g）初始深度图的梯度可视化（h）细化后的梯度可视化（第二节）4.2）非线性映射，也就是逐元素S形函数。更新门和复位门映射也与当前输入和先前输出相关：R（t）=σg（Wr<$[C（t），Cr（t−1）]+br）（3）U（t）=σg（Wu<$[C（t），Cr（t−1）]+bu）（4）W和b是学习参数。非线性σg（）是为更新做出软决策的双曲正切卷积GRU架构不仅通过2D卷积在空间上正则化成本图，而且还在深度方向上聚合时间上下文信息。我们将在实验部分中展示，我们的GRU正则化可以显着优于简单的赢家通吃或仅空间成本聚合。堆叠GRU基本GRU模型由单层组成。为了进一步增强正则化能力，可以堆叠更多的GRU单元以形成更深的网络。在我们的实验中，我们采用了3层堆叠的GRU结构（图1）。2）的情况。具体来说，我们首先应用2D卷积层将32通道成本映射C（t）映射到16通道，作为第一个GRU层的输入。每个GRU层的输出将用作下一个GRU层的输入，3层的输出通道数分别设置为16、4、1。正则化成本图Cr（i）D最终将通过softmax层以生成用于计算训练损失的概率量P。3.3. 训练损失大多数深度立体声/MVS网络使用软argmin操作[16]回归如果深度值是在深度范围内均匀采样的，然而，在递归MVSNet中，我们应用逆深度来对深度值进行采样，以便有效地处理具有宽深度范围的反射。我们不是将问题视为回归任务，而是将网络训练为具有交叉熵损失的多类分类问题：Σ。ΣDΣ损失=−P（i，p）·log Q（i，p）（5）pi=1其中p是空间图像坐标，P（i，p）是概率体积P中的体素。Q是地面实况二进制占用体积，其由地面实况深度图的独热编码生成Q（i，p）是与P（i，p）对应的体素。关于分类公式的一个问题是离散化深度图输出[32，20，13]。为了达到亚像素精度，在第二节中提出了4.2以进一步细化深度图输出。此外，虽然我们需要在训练期间计算整个概率量，但对于测试，可以使用赢家通吃选择从正则化成本图中顺序检索深度图。5529I=2××照片照片4. 重构流水线上一节中提出的网络生成每个视图的深度图。本节描述了我们的3D重建管道的非学习部分。4.1. 预处理为了使用R-MVSNet估计参考深度图，我们需要准备：1）给定参考图像I 1的源图像{Ii}N，2）参考视图的深度范围[dmin，dmax]，以及3）sam的深度样本数D。使用反深度设置来填充深度值。为了选择源图像，我们遵循MVSNet [30]使用分段高斯函数w.r.t.对每个图像对进行评分。稀疏点云的基线角度[33]。相邻源图像是根据成对分数以降序方式选择的。深度范围也通过COLMAP [24]实现的稀疏点云确定。使用逆深度设置在[dmin，dmax]内选择深度样本，并且通过将时间深度分辨率调整为空间图像分辨率来确定总深度样本数 D（详情在补充材料中描述）。4.2. 变深度图细化如第3.3中，将通过赢家通吃选择从正则化成本图中检索深度图。与软argmin[16]操作相比，赢家通吃的argmax操作不能产生具有子像素精度的深度估计。为了减轻楼梯效应（见图图3（g）和（h））中，我们提出通过强制多视图照片一致性来在小深度范围内细化深度图。给定参考图像I1、参考深度图D1和一个源图像Ii，我们通过D1将Ii投影到I1以形成重新投影的图像Ii→1。在像素p处的I 1和Ii→1之间的图像重投影误差被定义为：提出的变分细化仅在小范围内微调深度值以实现亚像素深度精度，这类似于立体方法[32，20]中的二次插值和DeepMVS[13]中的DenseCRF。4.3. 过滤与融合类似于其他基于深度图的MVS方法[10，24，30]，我们将R-MVSNet中的深度图过滤并融合到单个3D点云中。在深度图滤波中考虑了光度量和几何一致性。如前所述，正则化成本图将通过softmax层生成概率卷。在我们的实验中，我们将所选深度值的相应概率作为其置信度度量（图1）。 3（f）），并且我们将过滤掉概率低于阈值0的像素。3 .第三章。几何约束测量多个视图之间的深度一致性，并且我们遵循MVSNet [30]中的几何标准，即像素应该至少三个视图可见。对于深度图融合，我们应用基于概率的深度图融合[21]以及平均值融合[30]来进一步提高深度图质量并产生3D点云。我们的重建流水线的图示如图所示。3.第三章。5. 实验5.1. 执行训练我们在DTU数据集[1]上训练R-MVSNet，该数据集包含在7种不同光照条件和固定相机轨迹下拍摄的100多个扫描虽然数据集只提供地面实况点云，但我们遵循MVSNet [30]来生成用于训练的渲染深度图。训练图像大小被设置为W H=640 512，并且输入视图数为 N=3 。深度假设从 425 mm 到 905 mm 取样，D=192。此外，为了防止深度图偏向GRU正则化顺序，每个训练样本都通过前向GRU正则化传递到网络。Ei（p）=Ei我光滑（p）Σ从Dmin到Dmax的关系以及后向正则化=C（I1（p），Ii→1（p））+p′∈N（p）S（p，p′）（6）从dmax到dmin的距离。数据集被分割为相同的训练，验证和评估集作为以前的作品[14，30]。我们选择TensorFlow [2]作为网络实现，其中Ei是两个像素之间的照相测量误差，mentation，并且该模型被训练了100k次迭代，i平滑是正则化项，以确保深度图GTX 1080Ti图形卡上的批量大小为1RMSProp是选择为优化器，学习率设置为0.001平滑度我们选择零均值标准化交叉用ZNCC（ZNCC）来度量光致一致性c yC（·），并用p与其相邻点p′∈ N（p）之间的双边深度平方差S（·）来平滑。在优化过程中，我们迭代地最小化到-参考图像和所有源图像之间的总图像重投影误差E=ipEi→1（p）w.r.t. 深度图D 1. 值得注意的是，R-MVSNet已经取得了令人满意的效果。亲-对于每10k次迭代具有0.9的指数衰减。测试对于测试，我们使用N=5个图像作为输入，并且逆深度样本被自适应地选择，如在第12节中所描述的。4.1.对于Tanks和Temples数据集，摄像机参数是根据MVSNet [30]建议的OpenMVG [22]计算的。在同一GTX 1080Ti GPU上使用OpenGL实现了深度图的细化、滤波和融合(p)+EE55304422×445.2. 基准我们首先展示了所提出的R-MVSNet的最新性能，其产生的结果与之前的 MVSNet 相当或优于之前的MVSNet[30]。DTU数据集[1]我们在DTU评估集上评估所提出的方法。为了比较R-MVSNet与MVSNet [30]，我们为所有扫描设置[dmin，dmax]=[425，905]和D=256。定量结果示于表1中。使用DTU数据集提供的matlab脚本计算准确性和完整性为了总结整体重建质量，我们计算平均准确性和平均完整性的平均值作为总体得分。我们的R-MVSNet在所有方法中产生最好的重建完整性和总体得分。定性结果见Fig. 4.第一章表1：DTU评价扫描的定量结果[1]。R-MVSNet在重建完整性和整体质量与室内DTU数据集不同，Tanks and Temples是在更复杂的环境中捕获的大型数据集具体地说，数据集分为中级集和高级集。中间集包含具有外部向内看相机轨迹的场景，而高级集包含具有复杂几何布局的大型场景，其中几乎所有先前学习的算法由于存储器约束而失败。所提出的方法在中间集上排名第3R-MVSNet地面实况这比原来的MVSNet更好[30]。此外，委员会认为，R-MVSNet成功地重建了所有场景，并在高级集上排名第3重建的点云如图所示。5.值得注意的是，坦克和寺庙的基准标定结果高度依赖于点云密度。我们的深度图的大小为HW，这是相对低分辨率的，并且将导致低重建完整性。因此，为了进行评估，我们将网络中的深度图线性上采样为（H× W）在深度图细化之前。 F分数图4：我们的结果和地面实况点云扫描10和23，DTU [1]数据集5.3. 扩展性接下来，我们从以下方面展示R-MVSNet的可扩展性：1）宽范围和2）高分辨率深度重建。宽范围深度重建R-MVSNet的内存需求与深度采样无关数字D，这使得网络能够推断深度图中级和高级成套设备的数量从43个增加到44个。48至四十八40和24。91比29分别为55。ETH3D基准[25]我们还在最近的ETH3D基准上评估了我们的方法。该数据集被分为低分辨率和高分辨率场景，并为MVS训练提供地面真实深度图。我们首先在ETH3D低分辨率训练集上微调模型，然而，与仅在DTU上预训练的模型相比，没有观察到性能增益。我们怀疑问题可能是低分辨率训练集中的一些图像模糊和曝光过度，因为它们是使用手持设备捕获的。此外，ETH3D数据集的场景在对象遮挡方面是复杂的，这在所提出的网络中没有显式地处理。我们在这个基准上进行评估，而不对网络进行微调。我们的方法实现了与MVSNet类似的性能[30]，在低分辨率基准测试中排名第6具有大的深度范围，其不能通过先前的基于学习的MVS方法来恢复一些大规模的重建坦克和寺庙数据集显示在图. 5. 表2比较了MVSNet [30]和R-MVSNet在基准排序、重建规模和内存要求方面。我们将算法的内存效用（Mem-Util）定义为每个内存单位（高×宽×深/运行时内存大小）。在Mem-Util中，R-MVSNet的效率比MVSNet高8倍。高分辨率深度重建R-MVSNet还可以通过在深度方向上更密集地采样来对于第二节中的DTU评估。5.2，如果我们固定深度范围并将深度样本数从D=256更改为D=512，则总距离分数将从0减少。422毫米至0. 419mm（见表1最后一行）。扫描23扫描器平均加速平均组分总体（mm）营地[4]0.8350.5540.695福鲁[9]0.6130.9410.777[26]第二十六话0.3421.190.766吉普马[10]0.2830.8730.578科尔梅普[10]0.4000.6640.532SurfaceNet [14]0.4501.040.745MVSNet（D=256）[30]0.3960.5270.462R-MVSNet（D=256）0.3850.4590.422R-MVSNet（D=512）0.3830.4520.4175531×××××数据集MVSNet[30]R-MVSNet（我们的）Mem-Util比秩HWAve. D记忆Mem-Util秩HWAve. D记忆Mem-Util[1]21600118425615.4 GB1.97百万1160012005126.7 GB9.17百万4.7T. Int. [17个]41920107225615.3 GB2.15 M3192010808986.7 GB17.4百万8.1T. Adv. [17个]------3192010806986.7 GB13.5米-ETH3D [25]59284803208.7 GB1.02百万69284803512.1 GB4.65百万4.6表2：MVSNet [30]和拟议的R-MVSNet在三个MVS数据集[1，17，25]上的基准排名，重建规模和GPU内存要求的比较内存实用程序（Mem-Util）衡量每个内存单元处理的数据大小，两种算法之间的高比率反映了R-MVSNet的可扩展性(a) （c）宴会厅(d) 宫(e) 马(f) 火车图5：坦克和寺庙数据集的点云重建[17]5.4. 消融研究5.4.1网络本节研究网络中的不同组件如何影响深度图重建。我们用W HD=640 512 256，并使用推断深度图与地面实况深度图之间的平均绝对差进行定量比较。我们将学习的2D图像特征表示为2D CNN。以下设置的比较结果如图所示。6和图第七章：2D CNN + 3D CNN用MVSNet中相同的3D CNN正则化替换GRU正则化[30]。如图如图6和图7所示，3D CNN产生最佳深度图重建。2D CNN + GRU建议的R-MVSNet的设置，它在所有设置中产生第二好的3DCNN和GRU之间的定性比较如图所示。7（d）和（e）。2D CNN+空间用简单的空间正则化替换GRU正则化。我们通过一个简单的3层，32通道的2D网络在成本图上进行空间正则化。空间正则化的深度图误差大于GRU正则化。2D CNN + Winner-Take-All用简单的Winner-Take-All选择替换GRU正则化。我们应用单层，1通道2D CNN直接将成本图映射到正则化成本图。深度图误差进一步大于空间正则化。ZNCC + Winner-Take-All用设计的ZNCC（窗口大小为77）替换学习的图像特征和成本度量。该设置也称为经典平面扫描[7]。正如预期的那样，平面扫描在所有方法中产生最高的深度图误差。5.4.2后处理接下来，我们研究了后处理步骤对最终点云重建的影响我们重建的DTU评价没有变分细化，摄影测量滤波，几何滤波或深度图融合。定量结果见表3。无变分细化此设置类似于MVSNet的后处理[30]。f分数被改变为更大的数字0.465，证明了所提出的深度图细化的有效性。无照相测量滤波表3显示f分数没有光测量过滤增加到一个较大的5532× × × × ×××错误2D CNN +3D CNN 2D CNN + GRU2D CNN+空间/mm64.032.016.08.04.02D CNN + WTAZNCC + WTA参考文献河粉Geo.福斯Acc.Comp.整体√√×√√××√√√×√√×√√√√×√√√√√√×√×0.3850.4590.4220.4440.4860.4650.5500.3840.4670.4790.3850.4320.4980.3640.4310.6050.3730.4890.5910.4110.50120k 40k 60k 80k 100k迭代次数图6：对网络架构的消融研究，证明了学习特征和学习正则化的重要性WTA被称为W内-Take-All，并且该图记录了训练表3：对用于后处理的变分参考、光学滤波、几何滤波和深度图融合在DTU [1]评价集(a)ZNCC + WTA（b）2D CNN + WTA（c）2D CNN+空间（d）2D CNN + GRU（e）2D CNN +3D CNN图7：使用不同图像特征和成本体积正则化方法重建扫描11、DTU数据集[1]的深度图所有模型都经过10万次迭代数字为0.467，这表明了概率图对于光测量滤波的重要性（图1）。3（f））。不使用地理度量过滤 f分数增加到0.432，显示深度一致性的有效性在没有深度图融合的情况下，f分数也增加到0.431，表明深度融合的有效性5.5. 讨论运行时间对于D = 256的DTU评估，R-MVSNet以9的速度生成深度图。1秒/次。具体来说，它需要2。9s来推断初始深度图，以及6. 2s以执行深度图细化。值得注意的是，深度图细化的运行时间仅与细化迭代和输入图像大小有关。滤波和融合所需的时间可以忽略不计。泛化 R-MVSNet 是用固定的输入大小 N W HD=3640512256训练的，但它在测试过程中适用于任意的输入大小。值得注意的是，我们使用在DTU数据集[1]上训练的模型进行所有实验，而没有进行微调。虽然R-MVSNet对其他两个数据集[17，25]表现出令人满意的泛化能力，但我们希望在更多样化的MVS 数据集上训练R-MVSNet，并期望在未来的Tanks和Temples [17]和ETH 3D [25]基准测试中获得更好的性能。图像分辨率的限制虽然R-MVSNet适用于具有无限深度分辨率的重建，但重建比例仍受限于输入图像大小。目前，R-MVSNet可以在11 GB GPU上处理最大30722048的输入图像大小，这涵盖了除ETH 3D高分辨率基准测试（6000 ×4000）之外的所有现代MVS基准测试6. 结论提出了一种用于高分辨率多视点立体重建的可扩展深度架构。与使用3D CNN不同，所提出的R-MVSNet通过卷积GRU在深度方向上顺序地调节成本体积，这大大降低了基于学习的实验表明，通过所提出的后处理，R-MVSNet能够产生与原始MVSNet相同的高质量基准测试结果[30]。此外，R-MVSNet适用于以前基于学习的MVS方法无法处理的大规模重建。7. 确认这项工作得到香港研资局GRF 16203518，Hong KongT22-603/15 N，ITC PSKL 12 EG 02的支持。感谢Google Cloud Platform的支持。5533引用[1] H.阿奈斯河R.詹森湾，澳-地Vogiatzis、E. Tola和A. B.达尔多视点立体视觉的大规模数据。国际计算机视觉杂志（IJCV），2016年。[2] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖 - 马瓦特岛。 Goodfellow ， A.Harp ， G.Irving ，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens ， B. 施泰纳岛 Sutskever ， K. Talwar ， P.Tucker，V. Vanhouc k e，V. Vasud ev an，F. Viegas，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。[3] N.巴拉斯湖姚角，澳-地Pal，和A.考维尔深入研究卷积网络以学习视频表示。 2016 年国际学习表征会议（International Conference on[4] N. D. 坎贝尔湾 Vogiatzis、C. Hern a'ndez和R. 西波拉使用多个假设来改进多视图立体的深度图欧洲计算机视觉会议（ECCV），2008年。[5] J. - R. Chang和Y. S.尘金字塔立体匹配网络。计算机视觉与模式识别（CVPR），2018年。[6] K. 乔湾，巴西-地van Merrienboer，C.Gulcehre，D.巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示自然语言处理的经验方法（EMNLP），2014年。[7] R. T.柯林斯一种真正的多图像匹配的空间扫描方法。计算机视觉与模式识别（CVPR），1996年。[8] J. L.埃尔曼及时发现结构。认知科学，1990年。[9] Y. Furukawa和J.庞塞精确、密集和强大的多视图立体视觉。IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），2010年。[10] S. Galliani，K. Lasinger和K.辛德勒表面法向扩散法获得大面积平行多视立体视。国际计算机视觉会议（ICCV），2015年。[11] W. Hartmann，S. Galliani，M.阿夫莱纳湖范古尔，还有K.辛德勒已学习多面片相似性。国际计算机视觉会议（ICCV），2017年。[12] H.赫什穆勒基于半全局匹配和互信息的立体图像处理。IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），2008年。[13] P. - H. Huang，K.Matzen，J.Kopf，N.Ahuja和J. -B. 煌Deepmvs：学习多视图立体视觉。计算机视觉与模式识别（CVPR），2018年。[14] M. Ji，J. Gall，H. Zheng，Y.郑氏，中国科学院植物研究所所长。Liu和L.房. Surfacenet：一个用于多视图立体视觉的端到端3D神经网络。国际计算机视觉会议（ICCV），2017年。[15] A. 卡尔角 H a？ne和J. 马利克学习多视角立体声机。神经信息处理系统进展（NIPS），2017年。5534[16] A. Kendall，H.Martirosyan、S.Dasgupta和P.Henry. 端到端学习几何和背景，实现深度立体回归。计算机视觉与模式识别（CVPR），2017.[17] A. Knapitsch，J. Park，Q.- Y. Zhou和V.科尔顿。坦克和寺庙：对大规模场景再现进行基准测试。ACMTransactions on Graphics（TOG），2017年。[18] A. Kuhn，H. Hirschm uüller，D. Scharstein和H. 马耶河一种用于高质量可伸缩多视图立体声再现的电视International Journal of Computer Vision （ IJCV ），2017。[19] M. Lhuillier和L.权从未校准图像重建表面的准稠密方法 IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），2005年。[20] W. Luo，中国茶条A.G. Schwing和R.乌塔松用于立体匹配的高效深度学习计算机视觉和模式识别（CVPR），2016年。[21] P. Merrell，A.阿克巴尔扎德湖Wang，P. Mordohai，J.-M. 弗拉姆河 Yang、黄毛菊D. Nist e'r和M. Pollef e ys.基于可见性的深度图实时融合。国际计算机视觉会议（ICCV），2007年。[22] P. 穆隆山口莫纳塞河马莱和其他人。Openmvg. 一个开放的多视图几何图形库。 https ： //github.com/openMVG/openMVG。[23] G. Riegler，A. O. Ulusoy和A.盖革Octnet：以高分辨率学习深度3D表示计算机视觉与模式识别（CVPR），2017.[24] J. L. Schoenbe rge r，E. 郑杰M. Frahm和M. Pollef e ys.用于非结构化多视图立体的像素视图选择。欧洲计算机视觉会议（ECCV），2016年。[25] T. Sch opps，J. L. S. Galliani，T. 萨特尔河，K.辛德勒M. Pollefeys和A.盖革具有高分辨率图像和多相机视频的多视图立体基准。计算机视觉与模式识别（CVPR），2017.[26] E.托拉角Strecha，和P.呸高效的大规模多视角立体超高分辨率图像集。机器视觉与应用（MVA），2012年。[27] P. - S. Wang，Y.刘玉- X.郭角Y. Sun和X.童O-cnn：基于八叉树的卷积神经网络，用于3D形状分析。ACMTransactions on Graphics（TOG），2017年。[28] Q.杨一种非局部代价聚合的立体匹配方法。计算机视觉与模式识别（CVPR），2012年。[29] Y. Yao，S. Li，S. Zhu，H.邓氏T. Fang和L. 权用于精确密集重建的相对相机细化3D Vision（3DV），2017年。[30] Y. Yao，Z. Luo，S. Li，T. Fang和L.权Mvsnet：非结构化多视图立体的深度推断欧洲计算机视觉会议（ECCV），2018年。[31] K.-我和J·尹。S.奎恩自适应支持权重对应搜索方法。IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），2006年。[32] J. Zbontar和Y.乐存。通过训练卷积神经网络来比较图像块的立体匹配Jour- nal of Machine Learning Research（JMLR），2016.5535[33] R. Zhang，S. Li，T. Fang，S. Zhu和L.权大规模多视点立体图像的联合摄像机聚类和曲面分割国际计算机视觉会议（ICCV），2015年。[34] X. Zhu，J. Dai，X. Zhu，Y. Wei和L.元面向移动设备的高性能视频对象检测。arXiv预印本arXiv 1804.05830，2018。

下载后可阅读完整内容，剩余1页未读，立即下载