EPP-MVSNet:基于核线拼接的多视点深度预测网络

93 浏览量更新于2023-10-14 收藏 1.31MB PDF 举报

深度预测

3D重建

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5732×个EPP-MVSNet：基于核线拼接的多视点立体深度预测马新军1*龚跃1* 王启瑞1黄经纬1陈磊2†樊宇11华为分布式与并行软件实验室2香港科技大学计算机科学与工程系{maxinjun1，gongyue1，wangqirui1，huangjingwei6，fan.yu} @ huawei.comleichen@cse.ust.hk摘要在本文中，我们提出了EPP-MVSNet，这是一种用于从多视图立体（MVS）进行3D重建的新型深度学习网络。EPP-MVSNet可以以高分辨率将特征准确地聚合到具有最佳深度范围的有限成本体积，从而导致有效和高效的3D构建。不同于现有的作品，测量功能成本在离散的位置，影响三维重建精度，EPP-MVSNet介绍了一个核组装为基础的内核，操作自适应间隔沿核线，充分利用图像的分辨率。此外，我们引入了基于熵的细化策略，其中成本体积描述了具有少量冗余的空间几何形状。此外，我们设计了一个轻量级的网络与伪三维卷积集成，以实现高精度和效率。我们对具有挑战性的数据集Tanks Temples（TNT），ETH3D和DTU进行了广泛的实验。因此，我们在所有数据集上都取得了令人鼓舞的结果，并在在线TNT中间基准测试中获得了最高的F分数。代码可在https：//gitee.com/mindspore/mindspore/tree/master/model_zoo/research/cv/eppmvsnet.1. 介绍从多视图立体（MVS）的密集3D重建是已经研究了几十年的基本问题，其中在多个图像之间计算密集对应并用于确定密集几何结构。典型地，可以通过在目标图像中搜索其最佳匹配块来为参考图像的每个块建立对应关系[2]。[10]计算公式：*同等贡献。†通讯作者。(a) 平均F分数（b）运行时间和内存图1.所提出的EPP-MVSNet和最先进的基于学习的多视图立体方法[9，19，27]在（a）中的重建质量和（b）中的运行时间和存储器需求之间的比较，其中在Tanks Temples数据集[13]上的输入图像分辨率为1920 1056。通过对极线上的像素进行穷举采样并将它们存储到成本体积中来计算成本，该成本体积用于确定最终深度图。然而，这两个方向都面临着如何准确有效地估计深度的挑战，特别是在充满噪声和平滑纹理的真实世界场景中，现有的解决方案需要很高的计算成本，但往往无法达到令人满意的重建质量。虽然最近的基于深度学习的解决方案[9，22]解决了这些问题并进一步提高了重建质量，但它们仍然受到用于构建和正则化成本量的高存储器和计算需求的影响，这使得它们无法充分利用高分辨率图像。在本文中，我们的目标是设计一个深度神经网络，以充分利用高分辨率图像的信息。虽然高分辨率成本体积是存储器消耗，基于补丁匹配的方法可以克服这个问题，通过搜索最小的成本，而不是存储在给定的图像分辨率的所有成本。我们进一步发展这个想法，并提出了一个核组装模块，组装匹配成本沿核线。具体地，我们的核线组装模块构造了一个COM-5733通过组装密集内插特征来压缩体积，并通过自适应池化进一步减小体积大小而不是增加的分辨率，我们的模块作为一个sembles高分辨率成本体积到一个粗略的体积分辨率，只引入了一个一维的聚集和池的复杂性。此外，我们引入了一个基于熵的细化策略，以减少冗余和信息丢失的建设罚款成本量。在所提出的深度学习模型中，最昂贵的运算符是3D卷积，因此，在这项工作中，我们通过用伪3D卷积和开发用于成本体积正则化的轻量结构。我们的实验表明，这样的变化不会损害重建的准确性，但显着提高学习和推理效率。我们在Tanks Temples（TNT）[13]，ETH 3D [17]和DTU [1]数据集上评估了 EPP-MVSNet，并表明所提出的网络在重建质量和效率方面都具有良好的性能。进一步进行烧蚀研究，以展示所提出的每个关键模块所带来的有利效果概括而言，我们的主要贡献如下：• 我们引入了一个核线组装模块，用于将高分辨率信息集成到有限大小的成本卷中。• 我们提出了一个基于熵的过程，调整深度范围，以减少冗余和信息丢失。• 我们应用了一个轻量级的3D正则化网络，这大大提高了学习和推理效率。• 我们已经进行了大量的实验，以表明 EPP-MVSNet在有效性和效率方面优于TNT和ETH 3D数据集中的最2. 相关工作几十年来， MVS 已经被传统方法所利用，如COLMAP [16]、ACMM [20]和Gipuma [8]，这些方法取得了很好的结果。然而，面对高性能的大规模三维重建的挑战，传统的方法无法平衡的精度和计算成本。随着深度学习在2D和3D视觉任务中取得了重大成就[4，6，28]，基于学习的MVS方法也表现出了良好的性能。Ji等人提出了第一个基于学习的网络Sur- faceNet[11]，用于MVS，其利用3D CNN来规则化视差。采取分而治之的策略[11]内存昂贵，因此只能在有限大小的场景中使用。后来，Yao et al.提出了MVSNet [25]用于大规模3D重建，并提出了一个广泛使用的流水线，包括2D图像上的特征提取，构建图像特征之间的匹配成本，成本正则化和深度回归。然而，MVSNet [25]的存储器和计算要求由图像的空间分辨率和场景的深度分辨率以及多个3D卷积层的正则化出于对大规模重建的需求，[9，22，23]提出进一步提高MVSNet的效率，MVSNet可以分为基于RNN的方法和基于CNN的方法。基于RNN的MVS [22，23]通过用卷积GRU和LSTM替换具有立方3D卷积的正则化网络来减少存储器需求，用于沿着深度维度顺序地正则化成本体积。基于RNN的方法遭受巨大的时间消耗以换取低存储器成本。相比之下，基于CNN的MVS [5，9，24，27]保留了立方3D CNN的正则化，并采用粗到细的结构进行深度估计。CasMVSNet [9]提出了一种多级流水线，用于在粗略阶段以低分辨率成本体积初始预测深度，并在窄深度范围内以高分辨率细化预测的粗略深度。为了在有限成本的情况下进一步提高重建分辨率为了保持可预测的计算成本，两种方法都采用固定数量的深度用于成本体积。CVP-MVSNet构造成本体积，其中提出了半像素的最佳深度分辨率，这导致精细阶段的深度预测范围很窄。尽管实现了高深度分辨率，但CVP-MVSNet的重建质量受到深度分辨率和假设数限制的窄范围的严重影响。UCSNet通过预测与前一阶段的深度预测置信度相适应的适当范围并相应地调整深度分辨率来解决这个问题。然而，CVP-MVSNe和UCSNet的有效性高度依赖于粗阶段深度预测的质量，因此对现实生活中的复杂场景不鲁棒。为此，我们提出了一个EPP-MVSNet扩展重建精度和计算成本的权衡。受[9]的启发，我们还采用了从粗到细的结构，并提出了进一步的改进，以构建紧凑和非冗余的成本卷。与以往的工作不同，我们通过组装高分辨率的功能，提高粗阶段的预测精度，优化粗成本体的建设此外，我们估计的成本量的概率熵的深度预测的置信度，并调整相应的假设范围。我们除了加强侦查外-5734i=1- -图2. EPP-MVSNet的结构。所提出的网络利用粗和细深度预测，并相应地采用不同的网络。粗深度图D0是通过回归一个组装成本体积构建建议核线组装方法，并与成对和融合正则化网络进行正则化在精细化阶段，我们采用基于熵的细化策略，在非冗余范围内构建成本量然后，利用融合正则化网络对精细代价体进行正则化，并进行回归，生成深度图为了提高结构质量，我们还利用了成本正则化的过度性，并建立了一个轻量级的网络。3. 方法在本节中，我们从EPP-MVSNet的整体结构的介绍开始，并进一步提出了新的极线组装模块和基于熵的细化策略，用于成本体积构建以及所提出的用于成本规则化的轻量网络。EPP-MVSNet采用多级结构，以从粗到细的方式预测深度（见图2）。在每个阶段k，深度图Dk和对应的概率体积Pk是通过四个关键过程推断的，这四个关键过程是特征提取、成本体积构造、正则化和回归。首先，给定参考图像I，0和源图像I，N，金字塔特征提取被应用于以粗略或精细空间分辨率生成特征图。然后，通过首先通过在几个假设深度处同态扭曲特征图来构建特征体，并进一步计算参考特征体和源特征体之间的匹配成本，来构建成本体。具体地，我们分别利用核线组装核（第3.1.1节）和基于熵的细化策略（第3.1.2节）用于粗略和精细阶段的成本体积构造第三，利用与伪3D CNN集成的轻量网络对成本量进行正则化，伪3D CNN在第3.2节中具体介绍最后，正则化的成本卷-对UME进行回归以生成深度图和相应的概率图。3.1. 成本量施工通过计算参考和源特征之间的相关性来构造成本体积。我们首先利用可微单应性[19，25]通过将所有特征图扭曲到一组假想尺寸深度d处的参考视图的前平行平面来进行特征体积构造：pn=Kn·（r0，n·（K0−1·p ·d）+t0，n），（1）其中，表示对应于源图像In上的假设深度d处的像素p的变换像素。Kn表示源图像In的固有矩阵，并且r0，n和t0，n表示参考图像I0和源图像In之间的相对旋转和变换参数。给定特征图和假设深度，可以根据等式1计算变形到参考视图的源图像的特征体积Fn。然后，我们通过使用所提出的极线组装模块和基于熵的细化相应地在粗和细阶段计算参考和源特征体积之间的匹配成本来构建成本体积3.1.1核线组装模块对于粗阶段，我们提出了核线组装模块构建成本体积。根据[3，22，5735MMM×× ×M·Mps−αm=12M2M2MMm=1--25]，构建具有假设深度之间的窄间隔的高分辨率成本体积导致多视图图像的充分利用，并且大大提高了重建精度。如图3（a）所示，其可视化了单应性扭曲源图像和参考图像的点对应关系，我们观察到对于每个参考点沿极线以[24]提出的最大半像素间隔作为最佳间隔，通过测量参考点与密集插值点之间的组相关性，构造高分辨率代价体值得注意的是，假设深度是使用反向深度设置[22]生成的，其导致pr，对应源点ps分别是采样点之间的相对均匀的间隔沿核线不同深度假设dm. 假设范围固定在粗略阶段，然后，通过图1中所示的网络组合内插点的成本量，从而缩小成本量采样源点间距ps可以变窄图3（b）. 我们设计了两个组装网络通过增加假设数M，这不可避免地导致体积大小的增长以及存储器和计算的高成本。为此，我们的目标是通过将自适应间隔的特征集成到沿核线的分散采样点来打破利用高分辨率成本体积的∫ps+α成本a（ps）=Ω（cost（x））dx，（2）M二个步骤、聚合和池化。给定高分辨率成本体积，每个体积使用3个卷积层聚合相邻特征11粒一个合适的接收域。此外，通过沿着深度方向的最大池化操作来缩小成本体积，其中窗口大小适应于内插率。通过聚合和汇集过程，我们-将密集特征聚集到分散采样点，并构建一个紧凑且大小有限的成本卷-其中，α表示采样点ps之间的间隔，Ω（）表示所提出的核线组装核。基于等式2，在（psα，ps+α）的范围内的cost（x）被组合为costα（ps）。我们将等式2离散化以用于实现极线。组装模块（一）（b）第（1）款图3.极线组装模块：图3（a）显示了梅。值得注意的是，所提出的核线组装核不仅充分利用了来自图像的信息，而且在最佳分辨率下自适应地组装特征，而不管由相机位置的多样性引起的深度间隔的变化。我们在第5节中的实验证实，使用所提出的组装成本体积的重建实现了与使用高分辨率成本体积的重建3.1.2基于熵的精炼策略采用多级结构，通过在较窄范围内细化Dk来预测深度图Dk+1因此，确定了精细成本量的深度假设如图4中所示，对于每个像素，像素的中心位于像素的图4.从粗到细阶段假设深度的变化点对应关系之间的参考和源图像在dif-异深度假设和点的稠密插值假设深度{dk+1}M是沿着极线。图3（b）显示了装配成本体积构造的装配首先，在深度假设并且假设范围典型地通过一个固定的因素，往往由实验[9，27]。用固定的因子缩小范围，在粗深度预测不好的情况下，可能导致真深度定位被排除在细化范围之外，或者引入冗余。{dm}M，我们进一步插值偶数个点用于在宽范围内精磨精确深度的能力5736M−1MM×个×× ××个MM相比之下，我们建议缩小的假设范围，很少冗余的基础上的信心，最后阶段的预测，使用建议的基于熵的精炼策略。为了进一步呈现深度预测置信度的基于熵的细化的哲学的见解，我们参考熵的原始定义[18]，即变量的熵是变量的可能结果中固有的“信息”和“惊喜”的平均水平如在我们的情况下，给定M个可能的结果，Ek估计阶段k的深度预测中的“惊喜”的数量，给定概率量P_k，通过每个假设深度的预测概率的熵来估计阶段kEk（p）=−ΣPk（p，dk）logMPk（p，dk），（3）m=0然后，通过两块3D U网网络进一步正则化融合的成本体积。最后，用软参数化操作从成本体积回归粗深度。对于精细阶段，我们使用在粗略阶段推断的上采样可见性图直接融合成对成本体积，并且通过融合的正则化网络来正则化组合成本体积。此外，考虑到代价体积的物理解释，我们认为普通立方CNN卷积的不同深度的相邻像素的代价体积几乎没有相干性，这导致了冗余计算和高代价。在[14]之后，我们用伪3D卷积替换正常的其中Pk（p，dk）表示深度值的概率像素p的数量是假设深度dk，并且阶段k的假设深度表示为M。更大的熵指示对于Dk的更小的置信度，这自然需要更大范围的假设深度。阶段k+1的假设深度范围由下式确定：Mλ·Ek（p）(a)（b）第（1）款图5.图5（a）中的正常3D卷积与图5（b）中的伪3D卷积之间的比较如图5所示，所提出的伪3D在空间维度和深度维度上分别为01-0M）·rk，⑷具有核大小的空间卷积1×3×3 ，成本其中rk是阶段k的假设深度范围。然而，成本体积可以通过计算在所确定的深度假设处翘曲的参考和源特征体积之间的组相关性因为深度图的置信度通过简单地平均逐像素熵来近似，所以我们引入超参数λ以用于调整假设深度范围的缩小因子。采用基于熵的细化策略使得能够以很少的冗余对假设范围进行自适应调整。在假设深度一定的情况下，可以构造出具有非冗余范围和相对高分辨率的精细成本体。3.2. 轻量正则化在本节中，介绍了所提出的轻量化成本调节网络。受[27]的启发，我们采用两个3D U网[15]来正则化成对和融合的成本量，并进一步优化网络。在粗略阶段中，给定每对参考特征体积和源特征体积的成本体积F0和Fn，我们对成本体积施加成对正则化，该成本体积是两块3D U网，并且联合推断可见性图。融合成本体积构造成对的成本体积的线性组合，使用可见性图作为权重。对相邻像素的体积进行卷积，并且在深度域上，通过具有核大小为3 × 11的卷积来对不同深度假设处的像素的成本体积进行卷积。显然，计算成本大大降低，重建质量也得到了改善。4. 实验4.1. 执行4.1.1培训我们的网络在BlendedMVS数据集[26]上进行训练，用于Tanks Temples [13]和ETH3D [17]基准测试。我们还在DTU [1]评估集上评估了我们的方法，训练设置如第5节所示。BlendedMVS是一个大规模的数据集，由超过17k的高分辨率图像和113个场景组成，涵盖了包括建筑和雕塑在内的各种场景。在训练过程中，我们将图像分辨率设置为512 640，一组中的源图像数量N=3，输出深度图大小为256 320。我们采用由一个粗略阶段和两个精细阶段组成的三阶段结构，并通过在所有阶段预测的深度图的总和L1损失和在粗略阶段的概率体积的不确定性损失[27]来对于每个阶段，假设深度的数量为5737×个×个表1.在Tanks Temples基准[13]上的F分数（越高越好）结果和在DTU [1]的评估集上的定量结果（越低越好）总体最佳结果标记为粗体数字。(a) 家庭（b）弗朗西斯（c）火车(d)黑豹（e）游乐场图6.Tanks Temples中间数据集上的点云[13]。M1=32， M2=16， M3=8。学习率设置为0.001，使用Adam [12]作为优化器，以4的批量大小训练网络10个学习率分别在时期6、8和9减少一半。4.1.2评价我们评估了EPP-MVSNet的坦克寺庙，ETH 3D和DTU数据集没有微调过程，并将其与其他国家的最先进的基于学习的方法进行比较。为了评估，我们将假设深度数设置为M1，M2，M3=32，16，8，并且将用于粗级像素插值的间隔阈值设置为0.5。我们采用[23]中提出的动态一致性检查方法从深度图生成点云。坦克圣殿数据集。坦克神庙（TNT）是一个真实场景的基准，包括室外和室内场景。我们在中级和高级TNT数据集上评估EPP-MVSNet。为了评估，我们将输入图像的大小设置为1920 - 1056，并采用7个源图像的每个推理过程。如表1所示，我们的方法在整体质量上优于其他方法并在中期基准中达到最高平均F分数（直到2021年3月17日）。例如，与粗到细方法CasMVSNet [9]相比，EPP-MVSNet在每个场景上显示出显著的改进。与CVP-MVSNet [24]和UCSNet [5]相比，EPP-MVSNet的平均F分数分别高出7.65和6.85此外，与SOTA方法Vis-MVSNet [27]相比，我们的方法在大多数场景中表现更好。对于最具挑战性的高级数据集，我们的方法EPP-MVSNet仍然在所有方法中表现最好，其中包含一些传统的MVS方法，如[20]。生成的点云如图6所示，显然，所提出的方法设法生成具有良好保留的精细细节的密集点云。ETH3D数据集。ETH3D提供了多种类型的场景，从复杂的自然场景到具有相对大的视点变化的人造室内和室外环境，因此ETH3D数据集上的重建需要更强的鲁棒性和泛化能力的网络。我们将输入图像大小设置为3072 2048，源图像的数量N设置为7。对于大多数基于学习的方法，ETH3D的性能较差方法中级高级DTU（mm）是说Fam.法郎马光M60锅玩吧火车是说奥迪鲍尔Courtr.博物馆宫寺Acc.Comp.整体COLMAP [16]42.1450.4122.2525.6356.4344.8346.9748.5342.0427.2416.0225.2334.7041.5118.0527.940.4000.6640.532ACMM [20]57.2757.2769.2451.4546.9755.0757.6460.0854.5834.0223.4132.9141.4748.1326.1736.69---CVP-MVSNet [24]54.0376.5047.7436.3455.1257.2854.2857.4347.54-------0.2960.4060.351CasMVSNet [9]56.8476.3758.4546.2655.8156.1154.0658.1849.5131.1219.8138.4629.1043.8727.3628.110.3250.3850.355UCSNet [5]54.8376.0953.1643.0354.0055.6051.4957.3847.89-------0.3380.3490.344Vis-MVSNet [27]60.0377.4060.2347.0763.4462.2157.2860.5452.07-------0.3690.3610.365PatchmatchNet [19]53.1566.9952.6443.2454.8752.8749.5454.2150.8132.3123.6937.7330.0441.8028.3132.290.4270.2770.352我们61.6877.8660.5452.9662.3361.6960.3462.4455.3035.7221.2839.7435.3449.2130.0038.750.4130.2960.3555738×个×个×× ×基准，我们进一步提出的传统方法的比较结果。如表2所示，我们的方法优于基于学习的方法PVSNet [21]和Patch-matchNet [19]，并显示出与传统MVS方法[20]的竞争结果。DTU数据集。DTU数据集包含100多个场景，这些场景是由机器人手臂通过结构光扫描收集的方法深度编号Acc.（毫米）Comp.（毫米）总体（mm）320.79030.61950.7049不带EAM960.66920.58710.62821600.55210.70740.6298我们320.64510.53890.5920表4.第1阶段无极线组装模块（EAM）重建的消融研究。内尔。我们使用16001184的分辨率，并设置数字-评价集上源图像的BER为4所示表1，我们的方法显示了与其他SOTA方法相当的结果。方法培训测试吉普马[8]36.4845.18PMVS [7]46.0644.16COLMAP [16]67.6673.01ACMM [20]78.8680.78PVSNet [21]67.4872.08PatchmatchNet [19]64.2173.12我们74.0083.40表2. 在评估阈值 2cm 时，ETH3D高分辨率基准点云的F1评分（%）比较。内存和运行时比较。EPP-MVSNet的计算成本与上述的基于学习的方法相比，通过竞争内存消耗和运行时间。为了公平比较，我们使用固定的输入大小19201056和相同的源图像编号4、所有竞争对手。如表3中所示，与CasMVSNet [9]和Vis-MVSNet [27]相比，我们的方法EPP-MVSNet分别减少了30.3%和36.1%的运行时间。方法时间（ms）Mem. (GB)CasMVSNet [9]792.29.5Vis-MVSNet [27]864.24.5PatchmatchNet [19]317.73.2我们552.28.2表3.我们的方法与其他基于SOTA学习的多视图立体方法[9，19，27]在Tanks Temples[13]上的运行时间（ms5. 消融研究我们进行了广泛的消融研究，以验证所提出的模块所带来的增强效果。在这里，我们使用DTU训练集[1]来训练我们的方法，并在DTU评估集上进行所有测试。训练设置与第4.1.1节相同，除了批次大小为8和初始学习率为0.0015。测试时，我们遵循第4.1.2节所示的相同设置。EAM内核访问（毫米）Comp.（毫米）整体（mm）Conv3×1×1+最大池（我们的）0.64510.5389 0.5920Conv3×1×1+平均合并液0.6541 0.5447 0.5994Conv5×1×1+最大池0.64130.5428 0.5921Conv1×1×1+最大池0.8112 0.6213 0.7163表5.对极线组装模块（EAM）采用的不同内核进行了烧蚀研究。(a) EAM的消融研究(b)EAM核图7.重建精度（mm）和完整性（mm）的比较，用于在DTU评估集[1]上重建w/o所提出的极线组装模块（EAM）和各种组装内核核线组装模块。为了定量地衡量聚合的有效性，我们只使用第一阶段的深度预测结果来重建点云。如第3.1.1节所述，核线组装模块旨在构建具有高分辨率特征和有限尺寸的紧凑成本体积。在不装配网络的情况下，我们比较了我们的核线装配方法与三种深度数设置在成本体积比较结果构建相同的分辨率成本体积，我们观察到，利用所提出的核线组装网络显着提高了重建质量。（0.5920 vs.0.7049，整体质量）即使与3和5分辨率的情况下，我们的方法仍然表现更好的完整性和整体质量。在图7（a）和表4中示出，与构造具有高得多的分辨率的成本体积相比，利用聚合成本体积使重构质量受益很大。值得说明的是，尽管采用自适应窗口大小进行核线组装，但整个DTU评估集的平均窗口大小为1.408。因此，可以得出结论，所提出的方法不仅有效地聚合了高分辨率特征，而且5739× ××× ××× ××× ××联系我们卷大小× ××还设法以最佳分辨率自适应地聚集。核线组装内核。首先，我们通过评估从第一级输出重建的点云质量来证明所提出的极线组装模块所带来的增强。通过替换核线组装核，我们在不同的网络上进行了实验用于聚合高分辨率特征的工作架构。除了所采用的核由3层卷积组成，核大小为3 1 1和一个最大池操作，我们改变卷积核的大小，并取代池操作。在表5和图7（b）中，示出了使用不同组装核重建的点云的准确性和完整性比较使用最大池和平均池的结果，最大池的核函数在准确性和完整性上都优于平均池的核函数。使用最大池操作，我们比较了不同卷积核大小的结果。我们观察到，采用311和312的内核大小，可以获得更高的性能。5 1 1导致可比的结果，这两者都明显优于用1× 1× 1的卷积核大小推断的结果。方法Acc.（毫米）Comp.（毫米）总体（mm）1阶段0.64510.53890.5920第3阶段，不带ER0.42550.29350.3595第三阶段0.41370.29680.3553表6.DTU上基于熵的细化策略（ER）的消融研究[1]。基于熵的精炼策略。通过比较第三阶段的重构结果，我们进一步检验了基于熵的细化策略，第三阶段的重构结果是基于使用核线组装模块的第我们的方法在准确度上达到0.4137，在总体质量上达到0.3553，与基线（第三阶段w/o ER）相比，这增强了0.0188和0.0038。注意到，第3阶段的改进特别具有挑战性，这意味着基于熵的细化策略实际上减少了下一阶段的冗余深度范围以生成更好的深度预测。运行时间（ms）3D 模块伪 3D 模块 32× 296× 40023.6 16.464× 296× 40046.6 31.732× 148× 200 6.0 4.4表7.DTU上伪3D块的运行时间消融研究[1]。我们测试了正常3D块（包含两个3 3 3卷积层，随后是BN和ReLU）和我们的伪3D块（包含一个1 3 3卷积层和一个3 1 一个卷积层，最后是BN和ReLU）方法3D CNNAcc. (mm)0.4160Comp. (mm)0.2989整体（mm）0.3575时间（ms）624.9记忆(GB)5.2伪三维CNN0.41370.29680.3553340.63.1表8.在对极组装内核的固定窗口大小为3的情况下，在所提出的网络中集成伪3D CNN和正常3D CNN以进行成本正则化之间伪3D卷积。实验进一步进行了说明使用伪三维卷积正则化的有益效果。我们比较了在正则化网络中采用伪3D CNN和3D CNN的重建质量和计算成本根据表8，采用伪3D CNN进行正则化导致与正常3D CNN相当的准确性和完整性。为了展示集成伪三维卷积所带来的有利效果，我们比较了伪三维卷积与普通三次三维卷积的性能。如表7所示，按体积尺寸32 296 四百，六十四 296 四百三十二 148 200次运行-时间在每一个案例中为了全面分析相对于整个网络的计算增强，我们还展示了3D CNN和伪3D CNN之间的时间和内存消耗比较对于核线组装内核的固定窗口大小为3，运行时间减少了45.5%，内存需求减少了40.4%，同时使用Pseudo-3D代替正常的3D CNN。6. 结论我们提出了EPP-MVSNet，这是一种新的基于学习的方法，该方法采用了建议的轻量级粗到细网络，用于有效和高效的高分辨率深度预测。首先，我们采用自适应核组装内核的建设一个紧凑的成本体积与aggre-gated高分辨率的功能，导致粗深度预测的高精度。然后，我们改进了基于熵的范围预测策略在窄范围内的深度预测。我们进一步提高了网络的效率，通过优化成本正则化网络和集成伪三维操作。所提出的EPP-MVSNet实现了最高的F分数的坦克寺庙基准，并实现了相对较低的内存和时间消耗相比，最先进的基于学习的方法。鸣谢我们感谢MindSpore1对这项工作的大力支持，这是一个开放的AI框架，具有友好的设计，高效的运行体验和灵活的部署。不同形状（D×H×W）的图像。1https://www.mindspore.cn/5740引用[1] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据 International Journal ofComputer Vision，120（2）：153[2] 康奈利·巴恩斯，伊莱·谢赫特曼，亚当·芬克尔斯坦，还有丹·B·戈德曼Patchmatch：A randomized correspondencealgorithm for structural image editing. ACM事务处理图表，28（3）：24，2009.[3] 陈睿，韩松芳，许静，苏浩。基于点多视图立体网络。在IEEE/CVF计算机视觉国际会议论文集，第1538- 1547页[4] 陈新蕾和Abhinav Gupta。的实现更快的RCNN与区域采样的研究。arXiv预印本arXiv：1702.02138，2017。[5] Shuo Cheng，Zexiang Xu，Shilin Zhu，Zhuwen Li，LiErranLi，Ravi Ramamoorthi，and Hao Su.使用具有不确定性意识的自适应薄体积表示的深度立体声在IEEE/CVF计算机视觉和模式识别会议论文集，第2524-2534页[6] 冯紫青，赵奇骏。鲁棒人脸识别深度归一化的深度图像。在中国生物识别会议上，第418-427页。Springer，2018.[7] 古川康孝和让·庞塞。准确、密集、鲁棒的多视图立体视觉。IEEE Transactions on patternanalysis and machine intelligence，32（8）：1362[8] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。在Proceedings of the IEEE International Conference onComputer Vision，第873-881页[9] 顾晓东，范志文，朱思宇，戴左卓，费彤谭平谭平级联成本体积高分辨率多视图立体和立体匹配。在IEEE/CVF计算机视觉和模式识别会议论文集，第2495-2504页[10] Asmaa Hosni ， Christoph Rhemann ， Michael Bleyer ，CarstenRother和Margrit Gelautz。快速的成本-体积过滤，用于视觉对应和超越。IEEE Transactions on Pattern Analysisand Machine Intelligence，35（2）：504-511，2012.[11] Mengqi Ji，Juergen Gall，Haitian Zheng，Yebin Liu，and Lu房 . Surfacenet ： An end-to-end 3d neural network formulti-view stereopsis.在IEEE计算机视觉国际会议论文集，第2307-2315页[12] Diederik P Kingma和Jimmy Ba。亚当：一种方法随机优化arXiv预印本arXiv：1412.6980，2014。[13] Arno Knapitsch、Jaesik Park、Qian-Yi Zhou和Vladlen科尔顿。坦克和寺庙：大规模场景重建的基准。ACMTransactions on Graphics（ToG），36（4）：1[14] 赵凡秋，姚婷，陶梅。学习空间用伪3D残差网络进行时间表示。在IEEE计算机视觉国际会议论文集，第5533-5541页[15] Olaf Ronneberger ， Philipp Fischer ， and Thomas Brox.U-net：用于生物医学图像分割的卷积网络。在国际医学影像会议上-puting and computer-assisted intervention，pages 234-241.施普林格，2015年。[16] Johannes L Schonberger和Jan-Michael Frahm. 结构-重新审视运动。在Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 4104[17] ThomasScho¨ ps，Johannes L.看起来不错，加利亚尼来了，托尔斯滕·萨特勒，康拉德·辛德勒，马克·波勒费斯，安德雷斯·盖格.具有高分辨率图像和多相机视频的多视图立体基准。在计算机视觉和模式识别会议（CVPR），2017年。[18] 克劳德·埃尔伍德·香农。一个数学理论的commu-nication. ACM SIGMOBILE移动计算和通信评论，5（1）：3[19] 方金花小王， Silvano 加利亚尼克里斯托弗·沃格尔帕布罗·斯皮尔和马克·波勒费斯。Patchmatchnet：学会了多视图拼接立体。arXiv预印本arXiv：2012.01411，2020。[20] 徐青山和陶文兵。多尺度几何一致性引导的多视图立体。在IEEE/CVF计算机视觉和模式识别会议论文集，第5483-5492页[21] 青山徐和文兵涛.Pvsnet：像素化可见性感知多视图立体网络。arXiv预印本arXiv：2007.07714，2020。[22] Jianfeng Yan ， Zizhuang Wei ， Hongwei Yi ， MingyuDing，Runze Zhang，Yisong Chen，Guoping Wang，and Yu-Wing Tai.具有动态一致性检查的稠密混合递归多视点立体网。欧洲计算机视觉会议，第674-689页。Springer，2020年。[23] Jianfeng Yan ， Zizhuang Wei ， Hongwei Yi ， MingyuDing，Runze Zhang，Yisong Chen，Guoping Wang，and Yu-Wing Tai.具有动态一致性检查的稠密混合递归多视点立体网。欧洲计算机视觉会议，第674-689页。Springer，2020年。[24] Jiayu Yang，Wei Mao，Jose M Alvarez，and Miaomiao Liu.基于成本体积金字塔的多视点立体深度推断。在IEEE/CVF计算机视觉和模式识别会议论文集，第4877-4886页[25] 姚姚，罗紫心，李世伟，天方，龙泉。Mvsnet：非结构化多视图立体的深度推断。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。[26] Yao Yao，Zixin Luo，Shiwei Li，Jingyang Zhang，YufanRen，雷洲、天方、龙泉。Blendedmvs：用于广义多视图立体网络的在IEEE/CVF计算机视觉和模式识别会议论文集，第1790-1799页[27] 张景阳，姚姚，李世伟，罗子欣，田房.可见度感知多视图立体网络。arXiv预印本arXiv：2008.07928，2020。[28] Zisha Zhong，Yusung Kim，Leixin Zhou，Kristin Plichta，Bryan Allen ， John Buatti ， and Xiaodong Wu. 用于在PET-CT图像上共同分割肿瘤的3D全卷积网络。 2018年IEEE第15届国际研讨会（ISBI 2018），第228-231页。IEEE，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载