匹配模糊度降低的多视图立体有效大规模场景重建

116 浏览量更新于2023-10-23 收藏 1.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5981MARMVS：匹配模糊度降低的多视图立体有效的大规模场景重建四川大学计算机科学学院，四川大学计算机科学学院sanxu@outlook.com，liuyg@scu.edu.cn，yingwang@stu.scu.edu.cn，1121955210@qq.comsxlsnow@outlook.com摘要图像匹配中的模糊性是影响基于PatchMatch的多视点立体重建三维模型质量的主要因素之一。在本文中，我们提出了一种新的方法，匹配模糊减少多视图立体（MARMVS）来解决这个问题。MARMVS通过三种新提出的策略来处理图像匹配过程中的模糊性：1）利用图像表面的微分几何性质，在极线约束下度量匹配模糊度，并将其作为每个像素点与相应相邻图像最优尺度选择的一个重要判据。2)该算法利用像素周围稀疏特征点的深度，将像素的深度初始化为更接近真实深度的深度，从而加快了后续PatchMatch算法的收敛速度3)在PatchMatch立体声的最后一次传播中，较高的优先级被赋予那些具有相关的2D图像块具有较少的模糊性的平面，该策略进一步将正确重建的表面传播到原始纹理区域。此外，由于深度图计算步骤中的适当参数化和离散化，所提出的方法即使在消费级CPU上运行也非常有效MARMVS在公共基准上进行了验证，实验结果证明了与最先进技术相比的竞争性能1. 介绍多视图立体（MVS）是计算机视觉中的一个热门研究领域，它提供了一种廉价且方便的方法来捕获场景和物体的3D几何形状，并作为许多CV应用的主要成分，例如[40，26，25，24，8]。在过去的几十年中，由于公共可用的基准[31，34，1，14]，已经提出了许多具有越来越高性能由于SfM算法的成功[28，38，33]，图1.通过适当的尺度选择和相邻图像的选择，可以减少匹配的模糊性.在参考图像I0中找到块p的最佳对应匹配，如果选择图像I2作为p的相邻图像，则它将与沿极线L2的几个模糊块匹配，而如果选择图像I1，则将匹配一个明确的块。另一方面，p在较小尺度下在两个图像上是模糊的。由于可以很好地估计相机姿态，因此可以将来自多个图像的 3D 重建视为图像间的密集匹配问题。PatchMatch方法[4]是解决稠密匹配问题的一个强有力的工具，具有高精度和高效率。建立在PatchMatch模式上的几种方法在最近的测试基准中名列前茅[30]。然而，PatchMath方法在匹配模糊发生时表现不佳，在这种情况下，许多假设可以生成高匹配的s-核心，并且为更好的深度和法线选择留下不确定性。本文提出了一种新的MVS方法来处理匹配模糊问题，从而提高了匹配的准确性和完整性首先，对于给定的像素，通过仔细选择像素的尺度和相邻图像，可以减少匹配的模糊性背后的动机是匹配模糊度可以使用图像表面的几何形状（高度是像素灰度强度）来分析，并且它随方向和尺度而变化，参见图11。1.用曲面法曲率度量匹配稳定性，5982在极线约束的指导下，将极线约束作为像素级尺度选择的重要因素之一其次，利用每个像素周围特征点的深度信息在较小范围内初始化深度值，抑制了重复图像纹理带来的模糊性，加快了深度图的收敛速度第三，在后续的传播步骤中，通过对匹配稳定性较高的平面给予更高的优先级，将正确重建的表面传播到原始纹理区域，进一步降低了模糊度。对于高分辨率图像的大规模场景重建，效率是一个非常重要的考虑因素。许多方法由于计算量大、内存需求大而变得不切实际。我们提出了一种有效的方法来处理最耗时的部分，PatchMatch立体的深度图计算。通过对单应性进行适当的参数化和参数离散化，可以预先计算并存储将参考图像上的图像块映射到相邻图像上的变形块的单应性矩阵这是节省时间的，特别是对于高分辨率图像，因为现在我们不需要计算每个像素的单应性映射。这种策略获得了超过10倍的速度，因此所提出的方法即使在消费级CPU上实现也非常有效总之，本文的主要贡献在于三折：• 通过对图像表面的微分几何和对极几何分析，提出了一种新的像素级最优尺度选择方法• 提出了一种基于PatchMatch的深度图计算方法稳定性优先，消除了图像原始纹理区域引入的模糊性。• 提出了一种有效的深度图计算策略，使计算速度提高了10倍。2. 相关工作根据参考文档[31]，MVS方法可以根据3D场景如何被公式化而被分为四类，即基于体素的方法、基于表面演化的方法、基于特征点生长的方法和基于深度图合并的方法。所提出的方法属于最后一类，其将常见SfM软件[28，38，33]的输出作为输入，并通过合并各个深度图来产生密集点云。典型的基于深度图合并的MVS方法通常遵循图像选择、立体匹配、深度图滤波和融合的流水线在每个步骤中，它可以从一个到另一个而变化。计算给定参考图像的深度图通常是通过在参考图像和相邻图像之间执行密集立体匹配。如今，用于密集匹配的最流行的方法必须是补丁匹配算法，基于该算法，许多MVS方法在几个基准测试中排名靠前[31，34，1，30]，即使近年来出现了一些基于深度学习的方法[43，36，17，23，42]。PatchMatch算法主要用于计算图像之间的最近邻场[4]，当标签集非常大时，该算法在有效解决像素标签问题方面表现出强大的能力Bleyer等人 [7]将该方法引入到双目立体中，获得了令人印象深刻的结果，因为使用PatchMatch方案，视差和法线可以在连续空间中建模并有效地求解。Shen [32]将此框架扩展到多视图立体中以进行深度图计算，然后将深度图合并到单点云中。许多其他作品[45，13，29]通过更复杂的图像选择或深度传播提出了令人印象深刻的结果。尽管这些方法取得了成功，但与其他一些优秀的作品相比，它们具有从PatchMatch算法继承的相同缺点[18，19]。由于原有的PatchMatch方法只有一个数据项- m，无法处理较大原始纹理区域的匹配不确定性。已经提出了几种多尺度方法[37，39，41]，通过将源图像下采样为3个尺度并合并在这些尺度下计算的深度图像来处理大的原始纹理区域。这个问题也可以通过使用超像素方法[27，20]在一定程度上得到解决，该方法强制同一超像素内的像素共享相同的像素标签。然而，这可能会带来一些伪影，因为2D图像上的超像素并不总是与3D空间中的几何形状（例如曲面）一致。与以前的图像级多尺度方法相比，我们的方法为每个像素选择最佳尺度。由于我们的方法中的多尺度方法不是通过图像下采样完成的，因此它能够覆盖更密集的尺度，并且它不会从图像下采样引入的不准确性中冲浪此外，由于在深度图计算之前确定每个像素的尺度，因此对于每个像素，我们仅计算最佳尺度中的深度，这比在几个尺度中计算深度并将它们合并成单个尺度更节省时间。随着图像分辨率的不断提高，计算效率是MVS方法的一个因此，通过修改原始PatchMatch立体声算法的顺序传播方向，已经提出了G-PU兼容方法[2，3，45]。为了进一步利用GPU的能力，Galliani et al. [13]提出了一种扩散式传播模式，并由Xu和5983pp×Tao [41]通过在棋盘模式的每组中采样更多的候选者，并且只传播那些具有低匹配成本的候选者。与这些通过使用更强大的硬件设备来加快计算速度的方法不同，我们的方法对那些计算能力较低的CPU友好，并且即使在消费级CPU上也是有效的3. MARMVS：方法我们的方法是详细的3部分。在3.1节中，我们分析了图像匹配中的模糊性，给出了计算两块图像之间相似性的方法，并提出了相应的方法，通过对每个像素进行适当的尺度和相邻图像的选择来减少这种在3.2节中，给出了计算深度图的流水线，除了常规技术外，还详细给出了减少模糊性的策略此外，我们还设计了一个解决方案，以有效地计算深度图。在第3.3节中，我们简要讨论了我们的深度图过滤和融合方法，对于每个3D点，跨视图及其相邻像素之间测量构造，这是一种灵活的策略，用于控制重建模型的准确性和完整性之间的权衡，特别是对于仅在两个视图中可见的那些部分3.1. 像素级比例选择对于基于深度图的MVS方法，通常需要计算每个参考图像为了计算参考图像中给定像素x的深度，与现有方法类似，我们遵循PatchMatch立体的典型在随机深度和随机法线初始化之后执行空间传播，并且还在深度图细化之后经由随机优化执行传播。在传播和优化步骤中，如果3D平面被认为是对应的局部对象表面的更准确的近似基于对极几何，形成操作等价于沿对极线寻找最佳对应匹配。将以x为中心的块表示为p，在原始纹理和重复纹理区域中，偶尔会发生相邻图像中的几个候选块都与块具有较高的相似性得分，这在最佳深度决策中留下了不确定性。′但是正确的补丁p在邻居im中的位置年龄是事先未知的，检查是否′类似于沿着靠近p的网膜线的斑块。然而，基于对极线约束，我们可以检查如果这个小块和它周围的小块′在与p有关的核线上。两个图像块之间的相似性可以通过许多方法来测量，例如NCC [44，16，21]，SSD[9，11，10]或关键点描述符[35]。其中，具有对小图像块匹配鲁棒性和对不同光照条件不变性的方法是首选。由于通常需要对于不同光照条件的不变性，如果两个图像块近似线性相关，则可以在两个图像块之间获得高相似性分数设p（X，σ）是以X为中心的图像块，σ是与窗口大小成比例的尺度。设L（X，In）为参考图像上通过X的核线，In为相应的相邻图像。我们可以将减少像素X处的匹配模糊度的问题转化为搜索适当的尺度σ和相邻图像In，使得块p（X，σ）与其沿对极线L（X，In）的周围块的线性相关性较低。这实质上要求片p（X，σ）在极线方向上弯曲，如果我们将该片视为对应图像尺度中的图像表面的一部分（强度是高度）很自然地，使用法曲率来估计图像表面如何在特定核线方向上弯曲基于核线几何，参考图像Ir上对应于相邻图像In的所有核线相交于核线e（I r，I n），因此通过X并对应于相邻图像In的核线L（X，I n）的方向可以由X和e（Ir，In）确定。根据[15]，核极的齐次坐标Fe= 0。（一）由于F是一个秩为2的3×3矩阵，只存在一组线性相关的解，因此核点e（Ir，In）的位置是固定的，可以通过求解方程（1）来计算。1.一、定义的基本矩阵F′图像I到I可以用内部和外部计算。从SfM方法获得的相机参数：F=[P′C]P′P +，（2）其中P+是P的伪逆，C是与I相关的相机中心，并且[·]×定义了对应于叉积的Ske w-对称矩阵在计算通过每个像素的核线方向之后，可以从微分几何[12]和尺度空间理论[22]导出不同图像尺度令I（x，y）表示在（x，y）处的像素强度，并且写为图像表面的矢量方程的形式：r（x，y）=（x，y，I（x，y）），（3）取方程的一阶和二阶偏导数。3，我们有rx=（1，0，lx），ry=（0，1，Iy），rxx=（0，0，Ixx），ryy=（0，0，Iyy），rxy=（0，0，Ixy）。表面法线p5984||r × r||Xat（x，y）是n=rx×ry- 是的有了这些衍生物，Xy表面法线，第一和第二系数矩阵可以计算基本形式：[I ：英、法]的情况下，=rx·rxrx·ry][1 +I2=]Ix Iy2F Grx·ryry·ryIxIy1 +Iy[上]下[客户端]]IxxIxy图2.参考中每个像素的比例选择图示存在图像。图像（A）是参考，图像（B）是邻居-II ：L MM N=rxx·n rxy·nrxy·n ryy·nIxyIyy=√ 1 +I2+I2图像（A）结果绘制在图像（C）中，每个像素的颜色表示特定的选定窗口大小，范围为X y（四）表示n=（u，v）在极线L（X，In）方向上的单位向量，表示（a，b）X在参考图像上的坐标，极线可以由参数方程表示x（t）=ut+a（5）y（t）=vt+b（6）组合方程。在图3、5和6中，图像表面上的曲线被定义为r（x（t），y（t）），其在图像平面上的正交投影是核线L（X，In）。曲线r（x（t），y（t））的切线方向为ω=urx+vry。由于rx和ry是X处图像表面的切平面的基向量，表示δ=[u，v]，因此X处具有方向ω的法曲率为[客户端]δL MδTM Nk（X，ω）=[].（七）δE FδTF G注意，在等式中。7.忽略图像的尺度，但需要计算不同尺度下的法曲率来确定每个像素的匹配窗口大小。实际上，这可以通过计算图像在不同尺度下的一阶和二阶导数来完成，然后通过等式4获得第一和7.为了计算效率，不是在将图像与不同的高斯核卷积之后计算导数，而是可以通过基于以下性质将原始图像与高斯核的导数卷积来完成：7×7至63×63，其中描述了最小窗口尺寸最大的用灰色表示。表1.在我们的方法中用于立体匹配的窗口的边长l 0l 1l 2.L n七一一十五... 4n+7例如，对于分辨率为3072 ×2048的图像，能够在1秒内以10个尺度计算法曲率。众所周知，我们选择的规模越小，损失越大另一方面，保留了CAL细节，较大的-10比例产生了增加的完整性，但过度平滑了局部结构。因此，为了保留丰富纹理区域的精细细节并增加原始纹理区域的完整性这是通过从第一尺度到最大尺度搜索法向曲率直到其达到阈值T（T=0.01，并且在我们的方法中，像素强度在[0，1]内）。在我们的方法中，匹配窗口的大小范围从l0×l0到ln×ln，如表1所示，l0定义了最小匹配窗口，在我们的方法中，ln可以被设置为7并且是固定的，取决于要重建的场景。一个典型的像素级比例选择的例子如图所示二、3.2. 深度图计算在我们的方法中的深度图计算现有的PatchMatch立体基于MVSi+ji+j方法，区别在于：1）每个深度范围<$xi<$yj[G（x，y，σ）<$I（x，y）]=I（x，y）<$$>xi<$yjG（x，y，σ），（八）其中G（x，y，σ）是高斯核，σ是尺度，并且表示卷积运算符。参考文献[6]提出了一种有效的技术来近似一阶和二阶高斯导数通过使用盒滤波器和积分图像，这是一个贡献因素的基准检测器和描述符的效率使用这种计算策略，用于法曲率计算的时间是该方法利用SFM方法输出的周围特征点的深度信息，在较小的范围内对参考图像中的单个像素点进行随机初始化，加快了深度收敛速度。2）根据3.1节中介绍的准则为每个像素选择与相邻图像相关的窗口大小，因此所提出的方法可以在保持丰富纹理区域的精细结构的3）在最终传播中，法向曲率被取为-5985R′n..图3.假设我们要求像素xr的重建误差小于<$X，我们应该为x r选择一个期望的相邻图像，在该相邻图像上<$X的投影<$x应该大于0.5像素。这进一步将明确的3.2.1相邻图像选择为了计算参考图像的深度图，需要选择多幅相邻图像进行立体匹配。用于相邻图像选择的现有方法的两个原则规则是：1）好的邻域图像与参考图像之间应该有足够的重叠区域; 2）要有足够的基线以生成稳定的三角剖分，否则会影响重建模型的精度。基于第一个规则，对于给定图像，如果它与参考图像共享足够的特征点，则它将被选择为相邻图像。对于第二个规则，我们给出了一个更精确的测量，而不是计算特征点的平均三角角。假设重建的3D模型的相对误差要求小于1/2（1/2= 0. 001在我们的方法）。设X′则将立体匹配问题转化为一个求d和n的优化问题，使参考图像与其相邻图像之间的匹配代价在我们的方法中，除了参数d和n之外，还为参考图像中的每个像素分配了一个随机数i，它表示用于立体匹配的所选相邻图像的ID。更确切地说，我们将具有四个随机参数的参数集U分配给参考图像中的每个像素p=（a，b）：U：={d，φ，θ，i}，（10）其中d是像素的深度，φ和θ定义平面的法线，i是相邻图像ID。设V= [x，y，z]，等式（1）中的前三个参数为10实际上定义了参考图像的相机坐标系中的平面πnVT+D=0，（11）其中，=[sin（φ）cos（θ），sin（φ）sin（θ），cos（φ）]，且D=−d<$nK−1[ab1]T。为了得到均匀分布的随机法向量，我们选取两个随机变量u ∈ [0，1）和v∈[0]。5、1），然后{φ= cos−1（2v −1）（十二）θ= 2 πu用于生成均匀分布在半球曲面上的法向量对于参数d，与现有的在参考图像的深度范围之间分配随机值在倒角匹配中，利用该方法可以有效地找到区域内[5]，它计算每个非是SfM的一个3D点，并沿着通过参考图像Ir的照相机中心C的光线，边缘点到边缘点。用动态程序-′我们有：X′=（1 +）X− Cr。将xn和xn表示为：ming，它只需要扫描一次图像就可以找到最近的在特定区域中的所有非特征点的特征点。X和X在相邻图像上的投影A是包含参考图像和相邻图像的公共3D点的点集。拒绝上述候选的阈值τ被计算为：每个像素的最后一个参数i初始化为从通过第3.2.1节中的方法选择的相邻图像候选中随机选择的ID号。τ=1|一|......X∈A′n−x.... -是的（九）3.2.3平面传播和细化具有τ <0. 5个被移除，并且在剩余的图像中，我们保持按公共3D点的数量排名的前8个图像作为相邻图像。3.2.2参数初始化在基于PatchMatch的立体匹配方法中，它通常为在随机初始化参数后，交替执行平面传播和细化以获得最终的深度图。在这两个步骤中，对于每个像素，如果能够生成更高的分数，则新平面将替换当前平面S=（（1−α）Spho+αSsta）Stri，（13）其中，Spho是通过零均值归一化互相关（ZNCC）估计的光度一致性，SstaX∑5986我..1我0的情况。01三项K′R′（C′−CI）<$nK−1仅取决于sur-我我我图4.在由四个区域中的四个最接近的特征点F1、F2、F3和F4的深度分别确定的范围内随机分配点X的深度值。表示当前面片的匹配稳定性，其由法向曲率k测量并定义为Ssta=min（ek-1，1），S用于拒绝那些不能生成稳定三角剖分的面片：{1，如果x> 0。5facenormaln，最后一项取决于坐标具体的像素、表面法线和深度值。为了计算效率，第一项被预先计算并缓存为M1。对于第二项，由于在每一个像素处，在单位球面的半球表面上随机采样，如果我们对半球表面进行足够密集的均匀离散采样，则可以在离散向量集N中而不是在连续球面上采样。在我们的实现中，N约为0。500万个载体。这通过u∈[0，1）和v∈[0]的均匀采样来实现。5，1），采样步长设置为0。001，然后我们通过等式得到φ和θ。 12，每对φ和θ定义了球面表面上。 F或每个n∈S，我们计算并存储方程中的第二项。16，则我们得到一组矩阵M2（n）。的在等式的第三项中，nK−1。 16也可以被计算和存储为M3（n）。Eq。16re写成S三=，（14）0否则H=M1+M2（n），（17）−dM3（n）[ab1]T其中，x表示位移的投影如图3所示，它的计算公式为：.−→。其中M1和M2（n）是3×3矩阵，M3（n）是1×3矩阵矩阵，它们都是预先计算的。与等式16.−−−→CnX·Paxis−→′。fx+fy大大降低了计算复杂度。x=. CnX−−−→′CnX.−→。.C nX·Paxis. 2CnX·Paxis（十五）3.3. 深度图融合参数α控制匹配稳定性的影响在前两次传播和细化中，我们设置α= 0。在最后一次传播中，我们设置α= 0。1的经验值，能够将重构曲面正确地传播到原始纹理区域，同时避免了将重构曲面传播到曲面不连续区域。3.2.4高效执行深度图融合的目的是将所有的深度图合并成一个点云，同时通过一致性检查过滤掉不正确和冗余的点。在我们的方法中，一致性检查不仅跨越不同的视图，而且与相邻像素，这是基于局部对象表面是连续的，可以在多个视图中查看的想法假设切平面由3D点和法线定义，两个切平面之间的差异计算为：对于基于PatchMatch的深度图计算，（.d=...’。 .. ）“不”。耗时的部分是计算同形异义词图像块从参考IM的矩阵映射二、（X-X）·n。 +。（X-X）·n。.（十八）老化到其邻近的图像，因为它是对每个像素进行一般超过十倍。根据[32，29]，表示[a，b，1]具有法线方向n和深度d的像素的齐次坐标，由等式2中定义的平面引入的单应11计算为：−1RI′（CI′−CI）<$n −1在我们的方法中，两个切平面是一致的，只有当d小于与到照相机中心的距离e有关的误差|X-Cr|其中，e是相对误差。为了检查深度图中像素xr处的一致性，我们首先计算与其8个相邻像素的差异，并对其相邻图像进行类似的操作，如图五.如果不小于N 像素的邻居-H=KI′（RI′RI+的D）KI1与xr相一致的图像，我们称这个相邻的im-=K′R′R−1K−1+K′R′（C′−CI）<$n K−1（十六）年龄与X一致。只有N邻近I I I I I I I IR21−d<$nK−1[ab1]T.图像和xr的N3个相邻像素通过一致性检查，相关的3D点和法线是平均并保存到点云。该组阈值′注意为一对的图像我和我，我，术语K′R′R−1K−1是I中每个像素的常数矩阵，：=（e，N1，N2，N3）用于平衡精度，重建模型的完整性。我我我5987图5.相邻像素之间和相邻图像之间的一致性检查的说明首先对xr及其八个相邻像素进行一致性检查。然后，由于x n的坐标是浮点数，因此有4个最接近x n的像素，然后在x r和相邻图像上的4个像素之间进行一致性检查。图6.通过使用（C0，C1，C2）和不使用（B0，B1，B2）所提出的深度初始化方法，在初始化、第一次传播、第一次精化和第二次传播之后的深度图图7.对应于匹配尺度的深度图被设置为最小值（B）、最大值（C），并且通过所提出的方法自适应地（D）。4. 实验结果和讨论实验在Intel Core i7 9700k CPU和32G RAM的PC上进行。该方法用C++语言实现，在CPU上以8个并行线程执行. 在ETH3D基准[30]和Strecha基准[35]上进行定性和定量评价我们首先测试我们的方法的每个关键的单独部分的有效性，然后通过比较所提出的方法与最先进的状态进行整体评估。[30]中提出的标准用于评价：完整性、准确性和F1分数，图8.在所提出的传播模式之前（列（B））和之后（列（C））获得的深度图完整性和准确性的一元平均值。4.1. 单个部件我们已经测试了所提出的方法，像素级尺度选择，深度初始化，和平面传播的策略，这是假定的核心贡献，我们的方法的三个单独的部分。为了评估我们的方法的一部分，所有其他部分的参数都设置为默认值。4.1.1像素级比例选择图像匹配中尺度的选择直接关系到匹配精度和匹配完整性的平衡为了检验像素级尺度选择的有效性，我们将我们的结果与将尺度分别设置为最小值和最大值的结果进行了比较。如图1所示的定性计算。7、当尺度设置为最小值时，它保留了物体的薄结构，但也在大的无纹理区域中带来了许多噪声，另一方面，当尺度设置为最大值时，它去除了无纹理区域中的噪声，但也过度模糊了物体的表面和边缘。显然，所提出的像素级尺度选择很好地保留了薄结构，并且还降低了无纹理区域中的噪声。表2中给出了定量比较，MaxScale和MinScale分别表示通过将匹配标度设置为最大值和最小值获得的结果。两者都存在准确性和完整性较差的问题。4.1.2像素级深度第3.2.2节提出的深度值初始化方法能够加快深度图像的收敛速度，减少重复图像结构引入的匹配模糊。如图所示，对于目视检查，6.我们的方法只经过两次传播和细化就得到了一个相当干净的深度图像。另一方面，当深度值5988图9.与最先进的技术相比。表2. ETH3D高分辨率多视图训练数据集的结果（F1评分，准确性和完整性），通过删除或替换我们方法的各个部分。方法1cm2cm5cmF1 A CF1 A CF1 A CMARMVS68.0470.0066.8579.21 81.98 77.1988.3991.8685.65最大比例63.84 60.54 66.1672.83 69.39 76.5281.31 78.76 83.96MinScale56.29 69.1665.36 81.54 54.2572.79 91.9260.31无I62.05 63.36 59.7470.97 73.29 69.5679.34 82.30 76.81无P60.54 70.3153.1269.93 81.77 60.9878.29 90.76 68.87在参考图像的最小和最大深度范围内随机初始化，计算的深度图像是相当嘈杂的，特别是在具有原始纹理或对称结构的区域中。表2给出了定量的比较，我们的方法不使用深度初始化策略表示为Wwithout I，可以看出精度降低。4.1.3平面传播平面传播的目的是将一个更好的平面传播到相邻的像素点，但与传统方法不同的是如示于图8，通过将稳定的匹配平面传播到无纹理区域来校正许多错误的深度值。表2给出了一个定量的比较，我们的方法不使用传播策略时表示为Wwithout P，我们可以看到，没有这种策略，完整性降低。4.1.4运行时评估在我们的实验中，对于分辨率为6000×4000像素的参考图像，在4.0GHZ下运行的单个CPU线程中计算深度图通常需要大约500秒。虽然这不如一些基于GPU的方法那么快[41，13]，但它为低功耗设备提供了一种选择。计算能力W表3. 在ETH3D高分辨率多视图测试数据集上的F1得分、准确性和完整性，最佳结果以粗体标记。方法1cm2cm5cmF1 A CF1 A CF1 A CPMVS36.22 81.70 25.0744.16 90.08 31.8452.22吉普马[13]34.77 69.55 27.4745.18 84.4457.99 95.31COLMAP [29]61.27 83.7550.9073.01 91.9762.9883.96 96.7575.74OPENMVS60.03 63.23 59.2070.56 77.77 78.5488.74 92.27 73.02ACMM [41]70.80 77.50 64.3580.78 90.65 74.3489.14 96.30 83.72TAPA-MVS[27]66.60 75.16 61.8279.15 85.71 74.9488.16 92.49 85.02MARMVS71.5167.7276.7681.8480.2484.1890.3090.324.2. 总体评价ETH3D数据集上的典型结果如图9所示，我们的方法具有最高的完整性，并且从表3中，我们可以看到它在最先进的方法中也具有最高的F1得分。5. 结论在本文中，我们提出了一种新的MVS系统命名为MARMVS，有效地处理图像匹配过程中的模糊性。在不使用场景的任何先前知识并且不使用强大的计算设备的情况下，MARMVS产生与具有高分辨率图像的大型场景重建的现有技术相竞争的结果，这为具有低计算能力平台的那些人提供了令人信服的选择。在未来的工作中，我们计划通过学习表面几何信息的先验知识来提高重建模型的质量。致谢感谢ETH3D.net的创始人提供评估数据集，并感谢编辑和审稿人在处理本文时所花费的时间和精力。本工作得到了国家自然科学基金 U19A2071 和61860206007的资助。5989引用[1] Henrik Aanæs ， Rasmus Ramsbøl Jensen ， GeorgeVogiatzis，Engin Tola，and Anders Bjorholm Dahl.多视点立体视觉的大规模数据 International Journal ofComputer Vision，120（2）：153[2] Christian Bailer ， Manuel Finckh ， and Hendrik PALensch.规模强大的多视图立体。欧洲计算机视觉会议，第398-411页。Springer，2012.[3] 包林超，杨庆雄，金海林。大位移光流场的快速边缘保持拼接算法。在IEEE计算机视觉和模式识别会议论文集，第3534-3541页[4] Connelly Barnes ， Eli Shechtman ， Adam Finkelstein ，andDanBGoldman.Patchmatch ： Arandomizedcorrespondence algorithm for structural image editing. 在ACM Transactions on Graphics（ToG），第28卷，第24页中。ACM，2009年。[5] Harry G Barrow，Jay M Tenenbaum，Robert C Bolles和Helen C Wolf。参数对应和倒角匹配：图像匹配的两种新技术技术报告， SRI 国际 MENLO PARK CA AR-TIFICIAL INTELLIGENCE CENTER，1977。[6] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。Surf：加速健壮的功能。在欧洲计算机视觉会议上，第404-417页Springer，2006年。[7] M Bleyer，C Rhemann和C Rother。具有倾斜支持窗口的立体匹配。在英国机器视觉会议上，第11页[8] Andrew J Davison，Ian D Reid，Nicholas D Molton，andOlivier Stasse. Monoslam：实时单摄像机猛击。IEEETransactions on Pattern Analysis MachineIntelligence ，（6）：1052[9] Ama eülDelaun o y和MarcPollef e ys。用于密集多视图3d建模的光度束在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition 中，第 1486-1493页[10] 艾玛·艾尔·德朗和伊曼纽尔·普拉多斯。用于优化基于三角形网格的曲面的梯度流：应用于处理可见性的三维重建问题。国际计算机视觉杂志，95（2）：100[11] Amae ？lDelaunoy ， EmmanuelPrados ， PauGargalloIPirace？ s，Jean-Philippe Pons，and Peter Sturm.最小化三角形曲面网格的多视立体重投影误差。在BMVC2008-英国机器视觉会议上，第1BMVA，2008年。[12] 曼弗雷多·P·杜·卡莫。微分几何的曲线和曲面：修订和更新第二版。2016年，《中国日报》[13] 加利亚尼，拉辛格，辛德勒。表面法向扩散的大规模平行多视点立体视觉。在 Proceedings of the IEEEInternational Conference on Computer Vision，第873-881页[14] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。[15] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。[16] 武晃协，雷诺·克里文，帕特里克·拉巴图，让-菲利普·庞斯.向着高分辨率、大规模、多视点立体化方向发展。2009年IEEE计算机视觉和模式识别会议，第1430-1437页。IEEE，2009年。[17] Po-Han Huang ， Kevin Matzen ， Johannes Kopf ，Narendra Ahuja，and Jia-Bin Huang. Deepmvs：学习多视图立体视觉。在IEEE计算机视觉和模式识别会议论文集，第2821-2830页，2018年。[18] 米哈尔·扬科塞克和托玛的帕·阿杰德拉。弱支撑曲面的多维反射保持见CVPR 2011，第3121-3128页。IEEE，2011年。[19] AndreasKuhn，Heik oHirschm uüller，DanielScharstein，andHelmut Mayer.一种用于高质量可伸缩多视点立体重建的电视先验。 International Journal of ComputerVision，124（1）：2[20] Andreas Kuhn，Shan Lin，Oliver Erdler.用于多视图立体重建的平面补充和滤波。德国模式识别会议，第18-32页。Springer，2019年。[21] FlorentLaf ar ge ， RenaudKeriv en ， MathieuBre' dif ，andVu Hoang Hiep.基于跳跃扩散的混合多视图重建2010年IEEE计算机协会计算机视觉和模式识别会议，第350-357页。IEEE，2010。[22] 托尼·林德伯格。尺度空间理论：分析不同尺度结构的基本工具应用统计学杂志，21（1-2）：225[23] Keyang Luo，Tao Guan，Lili Ju，Haipeng Huang，andYawei Luo.P-mvsnet：学习多视图立体的逐块匹配置信度聚合。在IEEE计算机视觉国际会议论文集，第10452-10461页[24] LenaMaier-Hein ， Peter Mountney ， Adrien Bartoli ，Haytham Elhawary ， D Elson ， Anja Groch ， AndreasKolb，Marcos Ro- drigues，J Sorger，Stefanie Speidel，et al.计算机辅助腹腔镜手术中三维表面重建的光学技术。医学图像分析，17（8）：974-996，2013。[25] Richard A Newcombe，Steven J Lovegrove，and AndrewJ Davison. Dtam：实时密集跟踪和映射。2011年国际计算机视觉会议，第2320-2327页。IEEE，2011年。[26] Minwoo Park ， Jiebo Luo ， Andrew C Gallagher ， andMajid Rabbani.学习从捕获的2d视频制作3d媒体。IEEETransactions on Multimedia，15（7）：1569[27] 安德里亚·罗曼诺尼和马特奥·马特奥奇Tapa-mvs：无纹理感知的拼接匹配多视图立体。arXiv预印本arXiv：1903.10929，2019。[28] Johannes L Schonberger和Jan-Michael Frahm. 结构-从运动重新审视。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，pages 41045990[29] JohannesLSchoenberger，EnliangZheng，Jan-MichaelFrah-m，and Marc Pollefeys.用于非结构化多视图立体的像素视图选择在欧洲计算机视觉会议上，第501-518页。施普林格，2016年。[30] Thomas Schops ， Johannes L Schonberger ， SilvanoGalliani ， Torsten Sattler ， Konrad Schindler ， MarcPollefeys，and An- dreas Geiger.具有高分辨率图像和多相机视频的多视图立体基准。在IEEE计算机视觉和模式识别会议论文集，第3260-3269页[31] Steven M Seitz，Brian Curless，James Diebel，DanielScharstein，and Richard Szeliski.多视点立体重建算法的比较与评价。2006年IEEE，2006年。[32] Shuhan Shen.基于块立体的大规模场景多视点精确三维

下载后可阅读完整内容，剩余1页未读，立即下载