基于金字塔结构的多视点立体三维重建方法

62 浏览量更新于2023-10-20 收藏 3.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2039基于金字塔结构的王跃松1、关涛1、3、陈卓1、罗亚伟1、罗科扬1、鞠丽丽21华中科技大学计算机科学技术学院2南卡罗来纳大学，美国3Farsee2 Technology Ltd，中国{yuesongw，qd gt，cz 007，royalvane，kyluo}@ hust.edu.cn，ju@math.sc.edu摘要多视点立体（MVS）技术的目的是利用二维图像的信息重建目标场景的三维几何信息。虽然取得了很大的进展，但仍处于无纹理区。为了克服这一困难，本文提出了一种基于金字塔结构的网格引导MVS方法，该方法利用粗尺度图像得到的表面网格来指导重建过程。具体来说，首先使用基于PatchMatch的MVS算法来生成粗尺度图像的深度图，并且通过表面重建算法来获得相应的表面网格。接下来，我们将网格投影到每个深度图上以替换不可靠的深度值，并将校正后的深度图馈送到精细尺度重建以进行初始化。为了减轻可能的错误面部对网格的影响此外，低纹理区域的正确深度值往往很难在精细尺度下存在，因此我们还开发了一种有效的方法来寻找这些区域，并进一步加强这些区域的几何一致性。ETH3D高分辨率数据集上的实验结果表明，我们的方法达到了最先进的性能，特别是在完整性。1. 介绍获取目标场景的几何信息在许多应用中是一项非常重要的任务，而多视图立体（MVS）可能是在效率和成本方面最方便的三维几何重建方法，因为MVS仅需要一组校准图像作为输入，并基于它们的照片一致性提取3D几何信息。因此，MVS一直是计算机视觉领域的研究热点.*通讯作者。(a)(b)（c）第（1）款图1. (a)来自ETH 3D测试数据集的输入图像;（b）在没有引导的情况下由MVS产生的深度图;（c）由我们的方法产生的深度图。MVS的经典策略之一是平面扫描[5，2，8]，其通过目标场景扫描平面以获得其3D几何形状。然而，只有由平面表面组成的场景可以正确地估计使用这样的策略。许多基于PatchMatch的算法[9，6，32，42，7，3，29]已经成功地克服了这一限制，并取得了令人印象深刻的结果。这些方法假设场景由大量的小平面片组成;通过将3D补片投影到没有遮挡的图像中，可以相应地获得图像补片，并且它们之间的光度一致性必须很高。然而，通常很难确定补丁的大小小块尺寸在纹理丰富的区域产生准确的点，但在低纹理区域表现不佳，并且增大块尺寸可以使算法更鲁棒，但可能降低精度。然后在[37，22]中将图像金字塔[1]植入MVS以处理此问题。虽然具有金字塔结构的MVS解决了补丁大小带来的问题，但它仍然受到场景中无纹理区域的影响，因为即使在粗尺度下，在无纹理区域中的光度一致性也很差。在[19，28]中，基于无纹理区域通常是分段平坦的假设，已部分解决了该缺点。本着这种精神，图像被分割成超像素，然后被视为平面。大多数无纹理区域可以正确重建，但由于超像素的深度有时不可靠，导致相应平面参数的错误估计，因此也可能导致错误。2040特斯随着卷积神经网络（CNN）的发展，许多研究表明，基于CNN的补丁描述器[33，34，41，26，10，27，21]可以在低纹理区域中优于手工制作的补丁描述器。基于这些工作，一些基于CNN的MVS方法[38，13，11，40，23]进一步提高了对无纹理区域的鲁棒性，因为每个特征的感受野远大于补丁大小。另一方面，这些MVS算法通常受到设备内存大小的限制，例如，它们通常不能很好地下采样图像可能不是基于CNN的方法的好选择，因为准确性将同时降低因此，在处理高分辨率场景的低纹理区域时仍然在本文中，我们提出了一种新的网格引导的MVS方法（MG-MVS）的金字塔结构，利用表面网格作为指导，以实现高分辨率的低纹理区域的场景的高具体地说，我们首先采用金字塔架构，并融合粗尺度的深度图来构建表面网格，然后使用该表面网格来增强这些深度图的完整性。然后，我们将它们馈送到更精细的尺度，并通过强制几何一致性在无纹理区域保留正确的估计。图1示出了通过我们的方法估计的深度图，并与没有表面网格指导的结果进行了比较。The main contributions of this paper are as follows: 1)we propose to leverage the surface mesh produced at thecoarse-scale to guide the MVS process at the fine-scale toimprove the completeness of the depth map estimation; 2)to avoid the influence brought by the erroneous faces in thesurface mesh, we design a deep neural network to gener-ate confidence maps of the depth prediction, which are thenused for removal of erroneous depth values; 3) we design atextureless region detector to enforce that the correct valuesin textureless regions can be retained at the fine-scale; 4)our method achieves the “state-of-the-art” performance onthe ETH3D high-resolution multi-view dataset.2. 相关工作基于PatchMatch的MVS方法。基于PatchMatch-based的MVS是近十多年来MVS的研究热点。PMVS [6]将图像划分为单元格，并估计每个单元格的深度和法线。Shen [32]提出了逐像素深度估计和可靠深度到相邻像素的传播。 Gipuma [7]设计了一个可以在GPU上实现的棋盘式传播，以加快计算速度。Zheng等[42]为每个像素选择适当的源视图，以提高MVS对遮挡和照明异常的性能。第COLMAP [29]进一步将法线估计嵌入到[42]的框架中，并使用几何先验来提高视图选择的鲁棒性。尽管基于PatchMatch的MVS已经相当成功，但它仍然存在一个明显的缺点，即很少能正确处理无纹理区域，这表现在这些方法产生的结果的低完整性上。为了克服这一困难，徐等。[37]首先对输入图像进行下采样，并在粗尺度上执行ACMH（自适应棋盘采样和多假设联合视图选择），以扩大补丁的感受野。然后，使用联合双边上采样器[17]将来自较粗尺度的深度图上采样到较细尺度，并扮演较使用几何一致性来保持无纹理区域中的几何形状。Liao等人[22]建议在MVS中构建类似的金字塔它们假设具有相似颜色的相邻像素可能来自同一表面，并强制局部一致性来处理无纹理区域。由于低纹理区域的光度一致性的不可靠性[22]的想法与TAPA-MVS [28]非常相似，TAPA-MVS [28]将图像分割成超像素，因为超像素中的像素颜色相似然后在MVS过程期间将超像素视为平面Kuhn等人[19]通过合并相似的超像素来进一步改进TAPA-MVS，使得在单个超像素中将存在足够的有效点来估计对应的平面。然而，超像素中不准确的点会导致平面的错误估计。此外，平面有时不能表达超像素的几何形状。基于CNN的MVS方法。近年来，深度学习网络取得了巨大的成功，大量基于CNN的计算机视觉任务方法表现出令人难以置信的性能。也存在一些值得注意的MVS网络。Yao等人[39]设计MVS- Net用于深度图推理，并在DTU [12]和Tanks and Temples [16]数据集上证明其有效性。他们进一步将MVSNet与递归神经网络相结合，以减少内存消耗[40]。P-MVSNet [23]利用基于均方误差的置信度度量和混合3D U-Net将光度一致性聚集到逐块匹配置信体积中。然而，由于GPU内存的限制，基于CNN的方法通常不能很好地执行高分辨率数据集，如ETH3D数据集。Huang等人.[11]试图通过将图像分解为补丁来解决这个问题，但ETH3D数据集上的结果仍然不令人除了这些深度估计网络之外，一些研究人员还使用CNN来改善其他方法的输出。Wu等[36]将语义推理网络添加到他们的基线模型中，语义分割结果进一步得到了改进[24，25]。库恩2041图2.所提出方法的概述。从输入图像开始，我们通过下采样构建具有三个尺度的图像集的金字塔，然后使用ACMH获得粗尺度的初始深度图并将其融合成粗点云，该粗点云被重建为表面网格（第3.2节）。接下来，我们利用这个网格来完成过滤后的深度图（第3.3节）。为了进一步去除错误的深度，我们将深度图馈送到专门设计的神经网络“MG-Conf”来预测相应的置信度图，并随后去除那些置信度低的深度（第3.4节）。同时，我们还使用了一个无纹理区域检测器（3.5节）来识别无纹理区域。无纹理区域图和深度图都被上采样，以在下一个更精细的尺度上指导MVS过程，并且我们在无纹理区域中强制几何一致性以保留可靠的估计。最后，融合最小尺度的深度图以产生最终的点云。等人[19]通过深度学习网络过滤出分割天空区域中的异常值。Fabio等人[35]建立网络以预测视差图的置信度。Sunok等人[15]将来自所述视差图的信息与所述成本量组合以估计所述置信度。他们进一步提出了一个规模推理网络[14]，以提高置信度预测的准确性。在本文中，我们还训练了一个网络来处理管道中的中间结果。3. 该方法3.1. 动机我们可以把使用金字塔结构的MVS重建看作是一个雕刻的过程。雕刻通常是先雕出一个粗模型，然后再在这个粗模型的基础上雕刻细节。类似地，MVS重建首先使用粗尺度图像来获得粗略深度，然后在精细尺度处找到其周围的局部最优深度值。精细尺度的雕刻在很大程度上依赖于粗糙的深度，这使得粗糙尺度深度图的完整性成为一个重要因素。众所周知，由于照明和其他外部条件，某些点在某些特定视图上可以正确估计，但在其他视图上则是错误的。将这些正确的深度值传播到相邻视图可以提高相应深度图的完整性，但需要考虑遮挡。由于表面网格包含所有遮挡关系，因此它是视图之间深度传播的理想媒介。然后将完成的深度图馈送到下一个更精细的尺度以进行进一步的细化。增加深度图的完整性是关键这是因为深度图的融合过程仅保持由足够视图支持的估计。将正确的估计值扩展到相邻视图还意味着获得对这些估计值的更多支持，以确保它们可以保留在最终点云中。为了实现上述想法，我们首先通过从原始输入图像进行下采样来构建具有三个尺度的图像集的金字塔，并使用基本MVS方法ACMH [37]来生成最粗尺度的初始深度图然后，我们使用相对宽松的约束将这些深度图融合到点云中，以尽可能多地保留正确的估计，并使用[20]构建相应的表面网格。通过网格投影，我们将正确的深度值传播到不完整的视图为了进一步细化深度图，我们使用几何一致性对深度图进行过滤，并用来自网格投影的值替换那些低几何一致性的值受离群值的影响，网格中仍然可能包含一些错误的面，这些面可能会导致深度图的错误，因此我们还设计了一个神经网络来过滤掉这些错误的深度值。接下来，我们将深度图上采样到更精细的尺度，并执行具有几何一致性的ACMH。重复两次具有几何一致性的相同上采样和ACMH。为了保持准确性，我们只在无纹理区域（由无纹理区域检测器识别）中强制几何一致性。我们的方法的整个流水线如图2所示。3.2. 丝网结构我们首先将输入图像下采样到粗尺度，并在此尺度下执行ACMH以获得初始深度保险丝丝网结构点云网格置信度图保险丝初始深度贴图滤波器下一比例的深度贴图无纹理区域贴图上采样具有几何一致性的ACMH深度贴图无纹理区域贴图保险丝上采样输出点云下采样下采样输入图像具有几何一致性的ACMH深度图无纹理区域检测器MG会议ACMH2042地图为了提高ACMH的效率，我们在精化步骤中仅使用扰动假设，并且扰动范围随着迭代而变化：r now=rinit·（0. 5）m为第m次迭代。初始深度图通常包含许多不连续的线段，特别是在无纹理区域。我们应用OpenMVS [3]中使用的片段删除策略来清理它们。然后，我们通过使用相对深度差异融合深度图以获得粗略的点云[29]。给定来自参考视图Vr的深度，我们将其转换为世界坐标中的3D点，然后将其投影到邻近视图Vsn以获得该点在Vsn坐标中的深度dr以及来自Vsn的深度图的对应深度dsn。我们认为这两个深度是一致的匹配，如果它们满足：|第三章（1）|<ǫ 3,(1)Dr其中，R3是粗略尺度下的相似性阈值我们设置3=41，因为粗略尺度的图像比最精细尺度的图像小四倍。然后将来自Vr的3D点投影到每个相邻视图，并且如果匹配的数量满足N match>= 1，则将该3D点添加到点云。我们将每个视图依次转换为参考视图，以获得完整的点云。N匹配的宽松阈值确保了在保留无纹理区域的正确估计，但它使点云噪声。为了从具有大量离群点的点中提取曲面，我们采用了基于视觉信息的曲面重建算法[20]，因为它具有很强的鲁棒性。点云用于构建Delaunay四面体，然后将其标记为对象内部或外部，目标曲面位于具有不同标签的四面体之间。3.3. 补片引导在获得表面网格的粗尺度后，我们使用它来指导MVS处理。我们首先将网格投影到每个视图中，以填充由段移除策略移除的段此外，我们还希望使用该网格来细化深度图，因此我们使用类似于上述融合步骤的几何一致性来过滤深度图我们在这里过滤出深度与N匹配2，并将其标记为无效，并将那些无效值替换为来自网格投影的深度融合步骤中的N匹配的阈值比该滤波步骤中的N匹配的阈值更宽松的原因在于，融合步骤之后的表面重建方法具有进一步滤除更多离群值（一些有效深度可以被视为离群值）的能力，而如果我们在滤波步骤中保持深度为N匹配=1，则将有许多不正确的深度被标记为有效通过网格投影，我们可以将非纹理区域的可靠估计从参考视图传播到考虑遮挡的相邻视图，这可以增加(a)(b)（c）第（1）款图3.视图之间的深度传播（a）视图A的深度图;（b）其相邻视图B的深度图（两个图像中指向基本相同区域的黑框）;（c）网格投影后视图A的深度图。(a)(b)（c）第（1）款图4.平面完成。（a）粗略的深度图;(b) 这个比例的点云（c）网格投影后的深度图。邻居深度图的完整性显着（图3）。相反，由于几何一致性，完整的相邻深度图有助于以更精细的尺度估计参考视图此外，用表面网格引导MVS也可实现平面完井，如图4所示与TAPA-MVS和PCF仅使用一个视图的深度来估计平面不同，我们的表面使用来自所有不同视图的信息来重建。然后将得到的深度图馈送到下一个更精细的尺度以进一步指导MVS处理。有了好的初值，可以在更细的尺度上找到更好的估计，搜索范围也受到几何一致性的约束，从而有助于避免它们陷入其他局部最优值。3.4. 置信度预测网络尽管表面重建算法具有鲁棒性，但它仍然可能产生一些错误的面，这将在深度图中引起错误，然后在更精细的尺度上误导MVS处理。传统的去除深度误差的方法大多是基于光度和几何一致性的，但由于网格投影带来的误差没有几何差异，且通常出现在无纹理区域，因此这些方法在我们的情况下并不适用在[14]和[35]中已经表明，卷积神经网络可以在估计给定初始视差图的置信度图方面实现出色的性能。因此，基于LAF-Net [14]的工作，我们设计了一个深度神经网络我们的MG-Conf同时考虑匹配成本、深度和颜色，并预测每个像素的深度置信度20431× 1转换3× 3转换率=63× 3转换率=12Concat1×1Conv3× 3转换率=18注意力地图具有比例的特征地图5×5Conv+BN+ReLU5×5Conv+BN表示逐元素乘法运算符。Softmax×2关注模块特征提取模块图像深度图置信度图开销图高×宽×4比例尺注意地图H×W×4带注意力模块的ASPP图5.神经网络“MG-Conf”的架构特征提取模块以颜色、深度和代价为输入，生成特征图，然后由后续的注意力模块进行融合。带有注意力模块的ASPP利用不同的感受野大小对融合后的特征进行卷积，得到置信图，递归细化模块进一步提高了其准确性。(a)（b）（c）（d）图6. (a)彩色图像;（b）网格投影之前的深度图;（c）网格投影后的深度图;（d）由MG-Conf预测的置信图（具有白色的像素对应于错误的深度）。上一行显示MG-Conf可以发现网格投影带来的误差，下一行显示基本MVS方法也可以定位误差。我们希望网络能够自适应地确定匹配成本是否足够独特，从而被视为全局最优解决方案，而不是直接将当前匹配成本馈送到MG-Conf。为了获得当前代价的独特性，当前深度和法线被扰动三次，然后我们使用ACMH的视图权重计算这些扰动的代价。然后，将当前成本与来自扰动的成本一起馈送到网络我们设置了每个-τ作为r init的涡轮范围·（0. 5）2其中τ是总迭代ACMH的数量与LAF-Net类似，我们从成本、深度和颜色中提取特征，并使用注意力模块将它们融合在一起然后，我们的MG-Conf使用融合的特征图来预测置信度图。大的感受野会产生鲁棒的结果，同时会导致细节的丢失，因此LAF-Net提出了一个尺度推理模块来推断每个像素的感受野的最佳大小。然而，它的内存消耗是我们的设备无法承受的。注意到尺度推理模块中的卷积与扩张卷积非常相似，我们将Atrous空间金字塔池化（ASPP）[4]与注意层，以实现每个像素的感受野的调整。一个特征的感受野大小可以使用以下公式计算：R=n（k−1）+rori，（ 2）其中，n表示卷积层的数量，k是内核的大小，rori是输入的感受野大小。特征提取模块包含三个卷积层，核大小为3，因此一个特征的感受野大小等于7。在核大小为5的三层卷积之后，尺度注意力图的感受野大小扩大到19，这对应于ASPP中第二层的感受野，因为我们关注两种情况：1）尺度注意图的感受野特征能够预测置信度; 2）还需要来自该领域之外的特征的信息。我们将使用ASPP的输出来预测置信度图，该置信度图将被馈送到循环细化模块以进行进一步改进。我们将最终的置信图二值化，并直接删除那些被MG-Conf标记为不可靠的深度。除了消除网格投影的负面影响外，MG-Conf还可以帮助消除基本MVS方法的错误（图6）。由于设备本身的限制，需要利用最近邻插值法对输入数据进行尺度变换，从而导致边界等误删除。然而，对完整性的影响是轻微的，因为ACMH的传播可以填补这些错误删除的深度，只要仍然存在正确的深度附近。3.5. 非纹理区域检测几何一致性可能导致细节模糊，然后提出了ACMM（将ACMH与几何一致性指导相结合）[37]，它包含一个细节恢复器来检测薄结构和边界，并且仅使用循环优化模块2044表1.我们的方法与其模型变体的性能比较结果。三个值是准确性/完整性/F1评分（以%计）。我们目前的结果下公差为1厘米和2厘米，因为小公差更好地反映了准确度的变化数据集容忍基线无MC无URD我们办公室1厘米82.14/ 37.18 /51.1973.33 /46.53/56.9381.99 / 37.40 /51.3679.19 / 45.83 /58.062厘米89.58/ 47.56 /62.1482.39 /62.40/71.0289.54 / 47.77 /62.3087.72 / 60.15 /71.37电子学1厘米80.52 / 56.80 /66.6284.79 / 67.74 /75.3167.16/76.0386.62 /67.83/76.082厘米88.13 / 76.18 /81.7290.55 /80.43/85.1993.29/ 79.36 /85.7692.33 / 80.35 /85.93Avg1厘米81.33 / 46.99 /58.9179.06 /57.14/84.80/ 52.28 /63.7082.91 / 56.83 /67.072厘米88.86 / 61.87 /71.9386.47 /71.42/78.1163.57 /74.0390.03 / 70.25 /78.65表2.注意力模块ASPP（ATT-ASPP）的消融研究我们考虑预测的准确性和错误深度的召回率（%）。(a)(b)（c）第（1）款(d)（e）（f）图7. (a)输入图像;（d）初始深度图;（b）由细节恢复器产生的细节图（具有白色的像素是细节）;（c）由细节图引导的最终深度图;（e）无纹理区域图（无纹理区域为黑色）;（f）我们方法的最终深度图。在这些特定区域的光度一致性。细节恢复器可以在ACMM中工作得很好，但是当将其应用于所提出的方法时，它有时会将无纹理区域误认为细节（图 7（b）），并且在没有几何约束的情况下，这些区域中的正确估计很容易受到损害（图7（c））。这是因为无纹理区域中的一些深度值来自我们方法中的网格，并且这些深度的成本通常不是局部最优的。在更精细尺度上执行ACMH之后，尽管初始值正确，但无纹理区域中的值被困在错误的局部最优值中。如果初始深度的代价与局部最优值的代价之间的差异较大，则由细节恢复器将对应的像素标记为细节。加强几何一致性的目的是防止破坏那些在更精细的尺度上可能容易受到损害换句话说，我们需要寻找成本不明显的深度。注意到在MG-Conf中添加成本图的目的是考虑估计的独特性，我们也可以以同样的方式定位不独特的值。类似地，我们扰动当前深度和法线N次，并计算它们的成本。然后我们计算绝对差的平均值：表3.使用具有ATT-ASPP /不具有ATT-ASPP的MG-Conf对通过我们的方法获得的点云进行评估，其中三个值对应于准确性/完整性/F1分数（以%计）。数据集容忍无ATT-ASPP关于ATT-ASPP办公室1厘米77.42 /46.08/57.7779.19/ 45.83 /58.062厘米85.27 /60.64/70.8887.72/ 60.15 /71.37电子学1厘米85.12 / 67.80 /75.4886.62/67.83/76.082厘米90.62 /80.41/85.2192.33/ 80.35 /85.93Avg1厘米81.27 /56.94/66.6382.91/ 56.83 /67.072厘米87.95 /70.53/78.0590.03/ 70.25 /78.65ci是第i个扰动结果的成本如果f平均f阈值，我们认为它是无区别的。<我们设置f thresh=0。f max=0。6在所有实验中这些不明显的值更有可能出现在无纹理区域，如图7（e）所示，因此我们将得到的地图称为无纹理区域地图。在获得金字塔的每个尺度的深度图之后，我们计算无纹理区域图。然后，我们保留正确的估计，在无纹理的地区，通过强制执行几何consis- tency，而只使用光度一致性的distinct- tive地区，以避免降低精度。此外，我们的无纹理区域检测器是更节省时间相比，细节恢复，需要执行ACMH两次，以获得细节。4. 实验结果我们实现和测试我们的方法“MG-MVS”上的计算机与英特尔E5-1650 CPU和GTX 1080Ti GPU。我们主要集中在证明我们的方法在提高高分辨率图像的MVS的完整性和整体重建质量的能力。用于评价的数据集是ETH3D数据集[31]，其提供具有高分辨率图像的多视图立体扫描。ΣN最小值（f、|C--|）值得注意的是，基于CNN的MVS方法通常favg=i=1max now i，（3）N其中c现在是当前估计的匹配成本，并且couldn’t由于内存限制，精度。此外，ETH3D数据集中的图像彼此重叠不多精度召回率无ATT-ASPP0.86090.5851关于ATT-ASPP0.81190.69192045(a) 图片（b）COLMAP（c）LTVRE（d）PCF（e）TAPA（f）PLC（g）ACMM（h）我们的图8.一些测试扫描上的点云比较（讲座，休息室，雕像）。图9.ETH3D所有扫描的F1评分，公差=2cm。并且通常包含大量无纹理区域，这使得难以产生具有高完整性的令人满意的MVS结果。ETH3D的训练集提供地面实况（GT）深度图和点云，而测试集的GT数据不是公开可用的。除了完整性之外，ETH3D基准测试还评估了准确性和结合完整性和准确性的F1由于设备内存的限制，我们无法直接将原始分辨率的图像馈送到MG-Conf。对于MG-Conf的训练，我们从训练集中将图像下采样到粗尺度，并执行基本的MVS和网格投影以生成初始深度图，然后使用这些深度图来获得置信度图。我们继续将MG-Conf的输入数据降采样到300×200。与LAF-Net不同的是，我们使用Adam优化器，总共训练了256个epoch。我们使用的GT置信度图只是指示深度是否为每个像素的估计值是对还是错。如果估计深度和对应GT深度的相对差大于阈值（类似于等式（1）），(1))，则此深度被标记为错误深度。阈值设置为1003。在我们从MG-Conf获得预测之后，我们将其上采样到金字塔中第二个精细尺度的输入数据的分辨率，以消除误差。对于最细尺度的深度图融合，我们采用[29]的融合步骤，并将相对深度差阈值设置为0。01，法线之间的角度阈值为20°，重投影误差阈值为2，最小匹配像素为3。4.1. 消融研究由于我们无法访问测试集的GT深度，因此我们从训练集中随机选择两个样本进行验证（在我们的实验中，所选测试集包括office和electro），用于我们方法的消融研究。网格引导、MG-Conf和无纹理区域检测器的影响--为了证明网格制导的有效性，我们还将其与仅使用ACMH构建三级金字塔的基线方法进行了结果见表1.网格制导能显著提高制导的完整性，但精度略有下降，F1得分有所提高。MG-Conf有助于消除网格中错误面的负面影响但也可能由于某些错误的移除而导致完整性的损失。然而，由于F1分数仍然增加，完整性的降低是可以接受的.无纹理区域检测器对于MG-MVS也是至关重要的，因为它可以保留那些不明显的值以保持高完整性，而精度损失很小。MG-Conf中带有注意力模块的ASPP的效果-我们从MG-Conf中删除了带有注意力模块的ASPP，并执行相同的训练过程，然后我们比较了性能。2046表4.ETH3D高分辨率多视图测试集在不同阈值（2cm和10cm）下的完整性评价公差方法博塔尼博尔德桥门证物讲课生活休息室观察旧公司。雕像泰拉克2厘米COLMAP81.4453.0083.7575.5348.3448.8181.4024.1490.3032.9560.5275.65LTVRE84.0051.5567.0883.5358.7854.9480.3134.5493.2340.6468.0378.58PCF86.0665.9687.0391.1069.8669.7990.6457.5496.5964.3782.2990.32塔帕90.4052.0789.1989.6162.6970.0792.6748.8994.3238.2679.9791.12PLC92.9358.6890.6488.3060.9064.4390.5342.3894.5756.5276.5486.33明碁84.2557.8790.3689.9363.1765.6486.0437.7994.1065.8971.5285.55我们97.7976.2794.9694.4978.7483.8792.9464.3496.9475.1994.0995.6610厘米COLMAP96.7278.8595.8992.8371.5577.5495.8959.4099.1467.2688.2691.11LTVRE92.8983.1893.1594.7478.9975.1492.6965.6497.6369.4681.8289.74PCF95.4491.5895.2996.1085.0782.7597.4578.2899.7880.6095.6597.12塔帕98.4885.1798.4296.5882.4487.2498.5382.7798.8459.0997.8898.72PLC99.1787.4999.2596.5588.4391.2698.2185.9299.8689.7797.5797.24明碁93.6181.3498.5095.9287.8883.8595.2067.2097.8986.9084.9092.06我们99.7995.7199.0799.0694.4596.4298.7088.8199.7495.3599.8699.97表5.在不同公差（2cm和10cm）下对ETH 3D的高分辨率多视图测试集进行评价，其中三个值对应于准确性/完整性/F1评分（%）。方法2厘米10厘米COLMAP91.97 / 62.98 /73.0198.25 / 84.54 /90.40LTVRE66.27/76.2599.18/ 84.59 /90.99PCF82.15 / 79.29 /80.3892.12 / 91.26 /91.56塔帕85.71 / 74.94 /79.1594.93 / 90.35 /92.30PLC82.09 / 75.23 /78.0594.05 / 94.23 /94.11明碁90.65 / 74.34 /80.7898.05 /92.96我们80.32 /87.11/83.4194.08/97.24/95.61使用完整版本的MG- Conf.结果报告在表2中，其示出了尽管没有ATT-ASPP的MG-Conf可以实现更高的准确度，但代价是它将明显更错误的深度标记为正确的。如果附近存在正确的深度，ACMH的传播可以恢复一些被错误去除的深度，但ACMH不容易跳出错误深度带来的陷阱因此，当准确率的差异很小时，错误的召回率对我们的方法更重要，如表3所示的结果所示4.2. ETH3D数据集评价接下来，我们在测试中将我们的方法与许多最先进的方法（即COLMAP [29]，LTVRE [18]，ETH3D数据集图8显示了通过这些方法产生的一些样本扫描的点云为了进一步量化我们的完整性，我们在表4中报告了ETH3D基准网站的评估结果正如我们所看到的，我们的方法在完备性方面优于所有其他方法这些方法假设具有相似颜色的像素可能来自同一表面，然而，它们仅使用来自一个视图的信息来估计表面，而我们的方法将来自所有相邻视图的信息融合在一起。虽然我们已经为MVS提供了一些好的初始值，但它仍然可能无法找到某些无纹理区域中的精确深度如表5所示，具有高完整性的现有方法都存在这种缺陷。一个优秀的MVS算法应该实现完整性和准确性之间的权衡，这就是为什么F1分数也用于整体测量。我们在表5中给出了我们的方法及其竞争者的准确性、完整性和F1结果表明，在2cm的误差范围内，该方法的精度没有明显的优势，但在10cm的误差范围内，该方法的精度具有竞争力考虑到准确性和完整性，我们的方法在F1得分方面优于其他最先进的方法，其中图9显示了测试集每个样本的F15. 结论在本文中，我们提出了一种网格引导的MVS方法，可以很好地处理无纹理区域，并实现高完整性，而不会损失太多的精度。我们采用金字塔结构，并把深度图估计的过程中的雕塑。为了保持完整性，我们首先在粗尺度上使用深度图重建表面网格，然后利用该网格来指导MVS过程。具体来说，我们将网格投影到每个视图上，以完成和细化相应的深度图。为了避免网格中错误的人脸带来的错误深度的误导，我们还设计了一个网络“MG-Conf”来预测深度图的置信度。我们重新移动置信度不好的深度值，并将其余的值此外，使用无纹理区域检测器和强制几何一致性来帮助避免无纹理区域中的深度的巨大实验结果表明，该方法在ETH3D数据集上显著提高了MVS的性能.2047引用[1] Edward H Adelson ， Charles H Anderson ， James RBergen，Peter J Burt，and Joan M Ogden.图像处理中的金字塔方法RCA工程师，29（6）：33[2] 卡罗琳·贝拉德和安德鲁·齐瑟曼基于多幅图像的建筑物三维重建的平面扫描策略。国际摄影测量和遥感档案，33（B2;第2部分）：56[3] D Cernea。Openmvs：打开多视图立体视觉。https://github.com/cdcseacave/openMVS，2015年。[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[5] 罗伯特·T·柯林斯一种真正的多图像匹配的空间扫描方法。在 Proceedings CVPR IEEE Computer SocietyConference on Computer Vision and Pattern Recognition，第358-363页中。IEEE，1996年。[6] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。IEEE Transactions on pattern analysis and machineintelligence，32（8）：1362[7] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。在 Proceedings of the IEEEInternational Conference on Computer Vision，第873-881页[8] DavidGallup，Jan-MichaelFrahm，PhilipposMordohai，Qingxiong Yang，and Marc Pollefeys.具有多个扫描方向的实时平面扫描立体声。在2007年IEEE计算机视觉和模式识别会议上，第1-8页。IEEE，2007年。[9] Michael Goesele，Noah Snavely，Brian Curless，HuguesHoppe，and Steven M Seitz.多视图立体声为社区照片收藏。2007年IEEE第11届计算机视觉国际会议，第1-8页IEEE，2007年。[10] 哈特曼，加利亚尼，哈弗莱纳，范古尔，辛德勒。学习多补丁相似性。在IEEE计算机视觉国际会议论文集，第1586-1594页[11] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. Deepmvs：学习多视图立体视觉。在IEEE计算机视觉和模式识别会议论文集，第2821-2830页，2018年。[12] Rasmus Jensen、Anders Dahl、George Vogiatzis、EnginTola和Henrik Aanæs。大比例尺多视立体视觉评价。IEEE计算机视觉和模式识别会议论文集，第406-413页，2014年[13] Tejas Khot 、 Shubham Agrawal 、 Shubham Tulsiani 、Christoph Mertz、Simon Lucey和Martial Hebert。通过鲁棒光度一致性学习无监督多视图立体视觉。arXiv预印本arXiv：1905.02706，2019。[14] Sunok Kim ， Seungryong Kim ， Dongbo Min ， andKwanghoon Sohn. Laf-net：用于立体声置信度估计的局部自适应融合网络。法律程序IEEE计算机视觉和模式识别会议，第205-214页，2019年。[15] Sunok Kim ， Dongbo Min ， Seungryong Kim ， andKwanghoon Sohn.鲁棒立体匹配的统一置信度估计网络。IEEE Transactions on Image Processing，28（3）：1299[16] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Kolt

下载后可阅读完整内容，剩余1页未读，立即下载