没有合适的资源?快使用搜索试试~ 我知道了~
104130TAPA-MVS:纹理感知的PatchMatch多视图立体0AndreaRomanoni,意大利米兰理工大学0andrea.romanoni@polimi.it0MatteoMatteucci,意大利米兰理工大学0matteo.matteucci@polimi.it0摘要0多视图立体中最成功的方法之一是通过基于PatchMatch的优化估计每个视图的深度图和法线图,并将它们融合成一致的3D点云。这依赖于光照一致性来评估深度估计的好坏。它通常产生非常准确的结果,然而,重建的模型在广泛的无纹理区域通常缺乏完整性,因为光照一致性度量不可靠。在假设无纹理区域是分段平面的情况下,本文中我们生成新的PatchMatch假设,以扩展可靠的深度估计到相邻的无纹理区域。同时,我们修改光照一致性度量,以便根据所考虑区域的纹理性选择标准或新的PatchMatch深度假设。最后,我们提出了深度细化步骤,以过滤错误的估计并填充深度图和法线图上的空白,同时保留不连续性。我们的方法在公开可用的ETH3D数据集上证明了其对抗多种先进算法的有效性,该数据集包含各种高分辨率和低分辨率图像。01. 引言0多视图立体(MVS)旨在恢复由一组校准图像感知的场景的密集3D表示,例如用于绘制城市地图,创建文化遗产的数字图书馆或帮助机器人导航环境。由于公共数据集的可用性[22, 25,9],在过去十年中提出了几种成功的MVS算法,并且它们的性能不断提高。深度图估计是大多数MVS方法依赖的基本且最具挑战性的步骤之一。然后将深度图直接融合到点云[32,19]或体积表示中,例如体素网格[18,3]或Delaunay三角剖分[11, 27, 10, 15,13]。在后一种情况下,提取出3D网格,并可以通过变分方法进一步细化。0(a)RGB图像(b)COLMAP0(c)DeepMVS(d)TAPA-MVS 图1.与最先进方法相比,所提出方法产生的深度图示例0[27, 2, 14,17]并最终带有语义标签[16]。尽管机器学习方法已经开始出现[7, 28,31],但基于PatchMatch的算法,几年前出现,仍然是高效准确的深度图估计方法中的佼佼者。PatchMatch的核心思想,由Barnes等人[1]首创,并由Bleyer等人[4]扩展用于深度估计,是为每个像素选择一个深度的随机猜测,然后将最可能的估计传播到其邻域。基于这个思想,Schönberger等人[19]最近提出了一个稳健的框架,能够联合估计每个视图的深度、法线和像素级相机可见性。PatchMatch方法的一个主要缺点是大多数无纹理区域无法正确处理(图1(b))。实际上,优化高度依赖光度度量来区分哪个随机估计是最佳猜测,并过滤掉不稳定的估计。由于无纹理区域是均匀的,因此仅凭光度度量很难确定足够可靠的深度。在本文中,我们特别解决了无纹理区域的问题。104140通过利用它们通常是分段平坦的假设(图1(d)),该框架提出了一种名为TAPA-MVS的方法,提出了以下内容:0•用于定义每个图像像素纹理性的度量;它作为了解光度一致性度量可靠性的代理。0•将图像划分为超像素,并在优化过程的每次迭代中为每个超像素拟合一个平面;对于每个像素,将新的深度-法线假设与之前定义的纹理性均匀地整合到优化框架中,考虑平面拟合过程的可能性。0•一种新颖的深度细化方法,它对深度和法线图进行滤波,并使用邻居的近似双边加权中值填充每个缺失的估计。0我们对公开可用的ETH3D数据集[20]的38个序列进行了测试(第6节),结果表明我们的方法能够显著提高重建的完整性,同时保持很好的准确性。我们的方法还改进了COLMAP在fountain-P11、HerzJesu-P8[25]、伦敦塔和巴黎圣母院[29]等方面的结果(请参阅补充材料)。02. 多视图立体匹配的Patch-Match0PatchMatch的开创性论文由Barnes等人[1]提出,提出了一种计算两幅图像之间像素级对应关系的近似最近邻函数的通用方法。其思想是利用局部一致性进行协同搜索。PatchMatch将图像的每个像素初始化为对第二幅图像中最近邻位置的随机猜测。然后,每个像素将其估计传播给相邻像素,并从这些估计中选择最可能的估计分配给该像素本身。结果是最佳估计在整个图像上传播。Bleyer等人[4]将这种方法重新定义为立体匹配领域。事实上,对于每个图像块,立体匹配在第二幅图像中寻找相应的块,即光度一致性意义上的最近邻。为了提高其鲁棒性,匹配函数在倾斜支持窗口上定义。Heise等人[6]通过使用二次松弛对估计进行正则化,从而在保持边缘不连续性的同时产生更平滑的深度估计。Shen[24]将PatchMatch从成对立体匹配自然扩展到多视图立体匹配。作者根据由运动结构计算的共享点数量和它们的互视差角度选择相机对的子集。然后0通过Bleyer等人[4]的简化版本,该方法为所选的相机对估计深度图。该算法通过在多个视图之间强制一致性来改进深度图,并将深度图合并为点云。Galliani等人[5]修改了PatchMatch传播方案,以更好地利用GPU的并行化。与Shen[24]不同,他们为每个参考相机聚合了从不同源图像计算得到的一组匹配成本。这些方法的一个主要缺点是深度估计和相机对选择的解耦。Xu和Tao[30]最近提出了一种试图解决这个问题的方法;他们使用更高效的传播模式扩展了[5],特别是他们的优化过程同时考虑了所有视图和所有深度假设。与计算整个图像集的匹配成本不同,Zheng等人[32]提出了一种优雅的方法来处理视图选择。他们将联合深度估计和逐像素视图选择问题框架化为变分近似框架。按照广义期望最大化范式,他们在PatchMatch的深度更新和固定视图选择之间交替进行,并在前向-后向算法中固定深度进行逐像素视图推断。Sch¨onberger等人[19]将这种方法扩展到联合估计每个像素的深度和法线,从而与[32]不同,法线的知识使得倾斜支持窗口能够避免正交假设。然后,他们添加了视图相关的先验,以选择更可能导致稳健匹配成本计算的视图。迄今为止,基于PatchMatch的方法在多个MVS基准测试中被证明是表现最好的方法之一[23, 25, 9,21]。然而,仍然存在一些问题。特别是,它们大多数都严重依赖于光度一致性度量来区分深度假设。即使对于纹理区域,这种方法也能取得显著效果,并且传播方案部分地引入了平滑性,但是无纹理区域的重建往往较差。因此,我们提出了两个代理来改善无纹理区域的重建。一方面,我们将概率框架无缝扩展到通过扩展PatchMatch假设集来明确检测和处理无纹理区域。另一方面,我们使用细化过程来完成深度估计,以填补缺失的深度估计。03. COLMAP框架综述0在本节中,我们回顾了由Sch¨onberger等人[19]提出的最先进的框架,该框架建立在Zheng等人[32]提出的方法之上。需要注意的是,在接下来的内容中,我们只用一个值l来表示像素的坐标,因为两个框架是独立进行扫描的=1L�l=1M�m=11(1−ρml (θl))2represents the photometric consistency of the patch Xml ,which belongs to a non-occluded source image m and isaround the pixel corresponding to the point at l, with re-spect to the patch Xreflaround l in the reference image.The photometric consistency ρ is computed as a bilaterally�ˆθ optl, ˆnoptl�= argminθ∗l ,n∗l1|S|�m∈S(a)(b)�(θl, nl) ,�θprpl−1, nl−1�,�θrndl, nl�,�θl, nrndl�,�θrndl, nrndl�,�θprtl, nl�,�θl, nprtl��,(4)104150对于图像的每一行,交替处理行和列。给定参考图像Xref和一组源图像Xsrc = {Xm | m = 1 . . .M},该框架估计每个像素l的深度θl和法线nl,以及一个二进制变量Zml ∈ {0,1},它指示图像m中是否可见像素l。这被构建为一个最大后验(MAP)估计,其中后验概率为:0P(Z, θ, N | X) = P(Z, θ, N, 0P(X) =0P(X)0� P � Zml,t | Zml−1,t, Zml,t−1 �0P � Xm,l | Zml, θl, nl, Xref � P � θl, nl | θml, nml � �,(1)0其中L是当前行扫描中考虑的像素数,X = � Xsrc, Xref �,N= {nl | l = 1 . . . L}。似然项0P � Xm,l | Zml, θl � =0� if Zml = 101 NU if Zml = 0,(2)0� dρ和常数N在优化中被消除。似然项P(θl, nl | θml,nml)表示几何一致性并强制多视角深度和法线的一致性。最后,P � Zml,t | Zml−1,t, Zml,t−1�偏好图像遮挡指示器在空间上和优化过程的连续迭代中都是平滑的。由于方程(1)是不可行的,Zheng等人[32]提出使用变分推断来近似真实后验概率,使得两个函数的KL散度最小化。Sch¨onberger等人[19]将q(Z, θ,N)分解为q(Z)q(θ,N),为了估计这样的近似,他们提出了广义期望最大化算法的变体[12]。在E步中,值(θ,N)保持不变,在得到的隐马尔可夫模型中,通过消息传递计算函数q(Zml,t)。相反,在M步中,固定Zml,t的值,将函数q(θ, N)约束为Kroneker delta函数族q(θl, nl) = q(θl = θ�l,n�l)。θl和Nl的新的最优值计算如下:0� 1 − ρml � θ�l, n�l ��,(3)0其中S是源图像的子集,根据概率Pl(m)进行随机采样。概率Pl(m)偏好未被遮挡且与三个先验一致的图像0图2. 第一次迭代后的深度图(a)。不稳定区域已在(b)中被过滤0鼓励良好的相机视差、相似分辨率和相机,面向由θ�l,n�l定义的3D点。根据[19]中提出的PatchMatch方案,方程(3)中评估的(θ�l, n�l)对应于以下一组假设之一:0其中(θl, nl)来自上一次迭代,(θl−1,nl−1)是来自上一个扫描像素的估计,� θrndl, nl�是一个随机假设,最后,θprtl和nprtl是估计θl和nl的两个小扰动。04. 纹理感知的联合PatchMatch和视图选择0使得多视图立体算法成功的核心要素是不同相机之间的补丁的立体比较的质量和区分能力。这种比较依赖于光度测量,可以计算为归一化互相关或类似的度量,如平方差和(SSD)或双边加权NCC。在无纹理区域的对应中,NCC的区分能力变得不可靠,因为所有属于无纹理区域的补丁彼此相似。在这些假设下,我们提出的想法是将图像分割成超像素,使得每个超像素跨越图像中的一个纹理基本均匀的区域,并且在图像边缘处停止。然后,我们将围绕边缘的光度稳定区域的深度/法线估计传播到整个超像素。接下来,我们假设已经执行了第3节中介绍的框架的第一次迭代,因此我们只在高纹理区域(图2)的对应位置有一个非常初步的深度图估计,这个估计是可靠的。xπnθsuper0101txw+1(a)(b)x104160图3. 深度假设生成。深度 θ 是从相机到平面 π的距离,用对应于图像上提取的超像素的3D点估计来估计04.1. 分段平面假设生成0该方法的思想是通过模拟与无纹理区域相对应的分段平面先验来增加方程4中的Patch-Match深度假设集合。在第一步中,我们通过算法SEEDS [26]提取每个图像的超像素 S = { s1 , s 2 , . . . , s N super }。由于超像素 s k 通常包含均匀的纹理,我们假设由超像素 s k覆盖的每个像素大致属于同一个平面。在进行第一次深度估计后,我们过滤掉深度图中的小孤立斑点(在本文中,面积小于图像面积的值 |P inl k|)。这个值表示平面估计的置信度。对于超像素 s k 中的像素 x 的实际假设 ( θ x , n x )生成如下。为了处理拟合的不确定性,我们首先定义 P � ( θ x , n x ) = ( ˆ θ x , ˆ n x ) � =r inl k;因此,如果值05000)。因此,在经过滤波的深度图中,s k的区域很可能包含一组可靠的3D点估计,这些点大致对应于真实的3D点。在无纹理区域存在的情况下,这些点主要属于靠近边缘的区域(图2)。我们使用RANSAC在 P inl k中的3D点上拟合一个平面 π k,并将距离平面超过10厘米的点分类为异常值。让我们定义ˆ θ x 为与平面 π k 上的3D点对应的像素 x 的临时深度假设,定义 ˆ n x为相应的平面法线(图3)。然后,我们定义内点比率 r inl k = 内点数目00 1 t x0从均匀分布中采样的v ran,如果v ran <= r inl k,则 θ x =ˆ θx。为了将具有良好内点比率的超像素的假设传播到具有较差内点比率的邻居,如果v ran > r inl k,则 θ x的值从属于集合 N k的相邻超像素中进行采样。由于我们的目标是在具有相似外观的超像素之间传播深度假设,我们按比例从 N k中进行采样,比例与 s k 和 N k的RGB直方图之间的Bhattacharya距离成正比。0(a) (b)0w -0图4. 根据纹理度调整光度一致性和几何代价的权重0实验中,我们注意到Nsuper的选择,即超像素的数量,会影响我们的方法如何处理和建模无纹理区域。当Nsuper的值较小时,图像的大部分区域都能很好地覆盖,但同时,有限的无纹理区域被错误地融合。相反,较大的Nsuper能更好地建模小区域,但低估了大区域。因此,我们选择采用图像的粗略和细粒度超像素分割,以便适当地建模小区域和大区域的无纹理区域。因此,对于每个像素,我们生成两个深度假设:(θ fine x, n fine x)和(θ coarse x, n coarsex)。在我们的实验中,我们选择N fine super = imagewidth。020和N coarse super = imagewidth04.2. 纹理感知假设集成0要将新的假设集成到估计框架中,可以简单地将(θ fine x, nfine x)和(θ coarse x, n coarsex)添加到方程4中定义的假设集合中。然而,在这种情况下,这些假设将被处理,而不特别关注无纹理区域。实际上,优化框架将根据光度一致性度量将它们与基准假设进行比较;在存在平坦均匀着色的表面时,度量的不可靠性仍然会影响估计过程。相反,所提出的方法的目标是在图像存在无纹理区域时更倾向于选择(θ fine x, n fine x)和(θ coarse x, ncoarsex),以引导优化过程选择它们而不是其他猜测。出于这些原因,我们首先定义了逐像素的纹理系数来衡量围绕像素x的纹理量。类似于[27]中提出的公式,我们将其定义为:0t x = V ar x + ε var0t min(5)0其中,V ar x是像素x周围5x5块的方差,εvar是我们实验中固定的常数,为0.00005,即比平均方差小两个数量级。104170(a)(b)0图5. ETH3D数据集中的一张图像(a)及其对应的纹理系数(b)0我们在ETH3D训练数据集(第6节)中找到了最佳的纹理系数方差,最后,t min =0.5是我们选择的纹理系数的最小值;方差越大,系数越接近1.0。图5显示了纹理系数图像的一个示例。为了无缝地集成新的假设,我们使用纹理系数来重新加权基于光度的代价C photo = 1 - ρ(θ,n)(方程3)。给定一个像素x,我们定义两个权重:w+(x)= 0.8 + 0.2 * t(x)和w-(x) = 1.0 - 0.2 *t(x)。我们使用度量¯C photo = w- * Cphoto来处理方程4中的假设集合,¯C photo = w+ * Cphoto来处理(θ fine x, n fine x)和(θ coarse x, n coarsex),以便在低纹理区域中有利于新的假设。相反,当处理未纹理区域中的新假设时,更好地强制使用更高的几何一致性Cgeom。因此,为了保持公式简单,我们再次使用w+和w-,将¯C geom = w+ * C geom用于标准假设集合,将¯Cgeom = w- * C geom用于提出的假设。05. 深度和法线深度细化0前一节提出的假设改进了框架对无纹理区域的估计准确性和完整性。然而,仍然存在两个问题。首先,[19]中采用的滤波方案会过滤掉在视图之间光度和几何一致性不高的所有估计值。由于它们的光度不稳定性,光度一致性检查会删除大部分对应于未经滤波区域的新深度估计值;因此,在我们的情况下,我们忽略了这个滤波步骤。这导致了第二个问题。得到的深度图中包含了分布不均匀的错误和噪声估计值(图6(a))。因此,我们通过深度细化步骤来补充估计过程。为了摆脱未收敛到稳定解的错误估计值,我们首先应用了经典的斑点滤波器来去除包含非连续深度值的小斑点。我们通过实验将连续像素的最大斑点大小固定为图像面积。05000。我们进行了0当深度差异不超过场景尺寸的10%时,我们将两个像素视为连续。滤波过程的输出现在包含深度和法线估计缺失的小区域(图6(b))。为了恢复它们,我们设计了以下细化步骤。设x miss为深度和法线估计缺失的像素,Nmiss为邻近像素集合。最简单的解决方案是通过对Nmiss中包含的深度和法线值进行平均来填充缺失的估计值。更好的选择是使用双边NCC计算中采用的双边系数对平均值的贡献进行加权;它们在图像和颜色空间中都更重视接近xmiss的像素。为了更好地处理深度不连续性,我们可以进一步改进细化过程,使用深度和法线的加权中位数代替加权平均值。像素级中位数,特别是加权中位数,计算量大,因此为了近似中位数计算,我们用Nmiss中像素的深度填充了一个三个bin的直方图。我们选择具有最高频率的bin,以摆脱异常值,并计算填充该bin的深度和法线的双边加权平均值(图6(c))。计算得到的深度/法线值分配给x miss。06. 实验0我们在一台Intel(R) Xeon(R) CPUE5-2687W和一块GeForce GTX1080上对公开可用的ETH3D数据集[20]进行了测试,包括fountain-P11、HerzJesu-P8[25]。在补充材料中,我们还对Tower ofLondon和NotreDame[29]进行了定性比较。ETH3D数据集分为测试/训练和低/高分辨率,共有38个序列。参数调整只允许在具有地面真实值的训练序列上进行。比较是通过计算3D模型与地面真实值(GT)3D扫描之间的距离以及反之来进行的;然后,根据模型到GT距离低于固定阈值τ的百分比计算准确性、完整性和F1分数。有关评估过程的完整描述,请参阅[20]。为了根据提出的方法估计的深度图生成3D模型,我们采用了COLMAP中实现的深度滤波和融合。由于对应于无纹理区域的深度估计可能会产生噪声,我们更改了默认的融合参数,使得允许的投影误差更严格(对于高分辨率序列为原来的一半,对于低分辨率序列为原来的四分之一)。另一方面,即使法线估计可能会有噪声,但通常对应的深度是合理的。因此,我们允许更大的法线误差(COLMAP允许的法线误差的两倍),并要求通过投影误差检查来进行异常值过滤。12510205010020050002030405060708090100104180原始深度图(a)去斑点后(b)深度细化后(c)0图6. 深度图细化0L1深度误差(厘米)0%像素0DeepMVS[7]COLMAP[19]0TAPA-MVS(提出的方法)0图7. 深度图误差分布0表1显示了使用2厘米的阈值计算的F1分数,这是数据集排行榜采用的默认值。TAPA-MVS,即本文提出的方法,在训练和测试序列的整体F1分数上排名第一。值得注意的是,TAPA-MVS显著改善了基线COLMAP框架的结果。成功重建的原因应归功于纹理感知机制,该机制能够准确重建光度稳定区域,并恢复光度一致度测量不可靠的缺失几何。图8显示了TAPA-MVS和一些ETH3D序列中表现最好的算法恢复的模型。TAPA-MVS重建的模型更完整,噪声更少。0为了进一步测试我们的方法的有效性,我们直接将13个训练高分辨率序列的深度图的准确性与基准COLMAP[19]和最近的基于深度学习的DeepMVS[30]进行了比较。图7展示了误差分布,即深度图中误差低于可变阈值(x轴)的像素的百分比。TAPA-MVS清楚地0相对于两种方法,显示出更好的完整性,特别是在考虑小误差时。在图9中,我们根据第4.2节中描述的 t x项,定义了相对于纹理度值递增的图像区域。给定x轴上的值v,我们考虑纹理度系数 t x < v的图像区域,并在三个图中绘制这些区域中深度误差小于10cm、20cm或50cm的像素的百分比。这些图表证明了所提方法对于无纹理区域的鲁棒性,事实上,即使在低纹理区域,像素正确估计的百分比与高纹理区域相当。最后,我们将我们的方法与DeepMVS和COLMAP在喷泉-P11和HerzJesu-P8上进行了比较。图10显示,即使这两个序列捕捉到了两个纹理丰富的场景,所提出的方法仍然击败了DeepMVS,并且仍然能够稍微改善COLMAP的结果。0消融研究为了评估本文所有提议的有效性,表2显示了我们的方法在公开可用的训练高分辨率序列的准确性、完整性和F1分数。在表中,行代表距离阈值τ递增的值。我们列出了不使用纹理加权(TW),不使用粗细超像素(CS和FS)以及不使用深度细化步骤(DR)的结果。我们还将COLMAP的性能[19]添加到比较中,这是本文提出的新步骤之前的基准算法。正如预期的那样,COLMAP在准确性方面取得了最佳成绩,但完整性较低,因为它仅在纹理区域的对应位置产生深度估计。数据清楚地表明,前面各节中描述的所有单一提议对于TAPA-MVS获得模型完整性和准确性之间的平衡至关重要。特别是纹理加权对于避免框架将所提出的假设与旧假设同等重要是至关重要的,无论图像包含多少纹理,这都会导致在某些情况下产生严重错误,从而将优化引入局部最小值。粗细级别的超像素平面拟合步骤都是相关的104190地形0露台20存储0存储20管道0客厅0踢球者0LTVRE [10] COLMAP [19] ACMH [30] OpenMVS TAPA-MVS (提出的方法)0图8. ETH3D上的结果203040506070809010002030405060708090100DeepMVS[7]COLMAP[19]203040506070809010002030405060708090100DeepMVS[7]COLMAP[19]203040506070809010002030405060708090100CAF1CAF1CAF1CAF1CAF1CAF1138.65 84.34 51.99 32.68 74.40 44.58 41.72 75.30 53.18 41.35 75.10 52.86 47.78 72.13 56.31 51.66 75.37 60.85255.13 91.85 67.66 52.57 85.70 63.08 64.13 85.98 72.54 63.69 85.77 72.26 64.27 83.32 71.84 71.45 85.88 77.69569.91 97.09 80.5 69.31 94.08 78.62 81.08 93.69 86.68 80.84 93.58 86.51 78.62 92.51 84.37 84.83 94.31 88.9110 79.47 98.75 87.61 78.10 96.91 85.64 88.80 96.53 92.38 88.61 96.45 92.22 86.33 95.94 90.47 90.98 96.79 93.6920 88.24 99.37 93.27 84.93 98.34 90.53 93.64 98.12 95.77 93.61 98.05 95.72 91.26 97.75 94.25 94.72 98.23 96.3850 96.03 99.70 97.78 92.07 99.30 95.19 97.33 99.23 98.25 97.54 99.20 98.34 95.65 99.21 97.23 97.60 99.30 98.410.020.050.10.20.51.02.08090100L1 depth error (cm)% pixelsDeepMVS [7]COLMAP [15]TAPA-MVS(Proposed)0.020.050.10.20.51.02.0708090100L1 depth error (cm)% pixelsDeepMVS [7]COLMAP [15]TAPA-MVS(Proposed)104200方法 训练序列 测试序列0总体 低分辨率 高分辨率 总体 低分辨率 高分辨率 TAPA-MVS (提出的方法) 71.4255.13 77.69 73.13 58.67 79.15 OpenMVS 70.44 55.58 76.15 72.83 56.1879.77 ACMH [30] 65.37 51.50 70.71 67.68 47.97 75.89 COLMAP [19] 62.7349.91 67.66 66.92 52.32 73.01 LTVRE [10] 59.44 53.25 61.82 69.57 53.5276.25 CMPMVS [8] 47.48 9.53 62.49 51.72 7.38 70.190表1. ETH3D数据集上的F1分数,容差τ = 2cm(默认用于数据集排行榜页面)。0纹理度 ( t x )0%像素的L1误差<10cm0TAPA-MVS(提出的方法)0% 纹理度 ( t x )0%像素的L1误差<20cm0TAPA-MVS(提出的方法)0% 纹理度 ( t x )0%像素L1误差小于50cm0DeepMVS[7]COLMAP[19]0TAPA-MVS(提出的方法)0图9. 像素误差小于10cm、20cm和50cm的百分比与纹理性质的关系0τ COLMAP[19] w/o TW w/o CS w/o FS w/o DR TAPA-MVS0表2. 去除纹理加权(TW)、粗糙超像素(CS)、细粒度超像素(FS)、深度细化(DR)的消融研究0图10. 喷泉-P11(左)和HerzJesu-P8(右)数据集中的误差分布0为了获得无纹理区域的良好猜测,纹理加权对于获得无纹理区域的良好猜测非常重要。最后,深度细化不仅提高了结果的完整性,而且通过过滤错误估计并用缺失估计的仔细邻居插值替换它们,也提高了准确性。07. 结论和未来工作0在本文中,我们提出了一种基于PatchMatch的多视图立体视觉框架,该框架在对应关系中具有鲁棒性。0通过选择一组新颖的PatchMatch假设,优化框架扩展了光度稳定的深度估计,主要对应于图像边缘和纹理区域,以邻近的无纹理区域。我们证明了框架用于评估这些假设好坏的成本函数的修改是一种有效的选择,特别是在纹理性质较低时,通过偏好这些假设来均匀集成它们。最后,我们提出了一种深度和法线图细化方法,它近似于加权中值滤波器,从而提高了重建的准确性和完整性。0在未来,我们计划构建一个完整的纹理感知的MVS流水线,包括网格重建和细化阶段。特别是,我们对嵌入分段平面先验的鲁棒网格化阶段感兴趣,其中点云对应于无纹理区域。此外,我们希望定义一种网格细化方法,根据图像纹理性质平衡正则化和数据驱动优化。[1] Connelly Barnes, Eli Shechtman, Adam Finkelstein, andDan Goldman. Patchmatch: A randomized correspondencealgorithm for structural image editing. ACM Transactions onGraphics-TOG, 28(3):24, 2009.[2] Maros Blaha, Mathias Rothermel, Martin R. Oswald, TorstenSattler, Audrey Richard, Jan D. Wegner, Marc Pollefeys, andKonrad Schindler. Semantically informed multiview surfacerefinement. International Journal of Computer Vision, 2017.[3] Maros Blaha, Christoph Vogel, Audrey Richard, Jan D Weg-ner, Thomas Pock, and Konrad Schindler.Large-scalesemantic 3d reconstruction:an adaptive multi-resolutionmodel for multi-class volumetric labeling. In Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition, pages 3176–3184, 2016.[4] Michael Bleyer, Christoph Rhemann, and Carsten Rother.Patchmatch stereo-stereo matching with slanted support win-dows. In BMVC, volume 11, pages 1–11, 2011.[5] Silvano Galliani, Katrin Lasinger, and Konrad Schindler.Massively parallel multiview stereopsis by surface normaldiffusion. The IEEE International Conference on ComputerVision (ICCV), June 2015.[6] Peter Heise, Sebastian Klose, Bjoern Jensen, and AaronKnoll. Pm-huber: Patchmatch with huber regularization forstereo matching. In Computer Vision (ICCV), 2013 IEEEInternational Conference on, pages 2360–2367. IEEE, 2013.[7] Po-Han Huang, Kevin Matzen, Johannes Kopf, NarendraAhuja, and Jia-Bin Huang. Deepmvs: Learning multi-viewstereopsis. In Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognition, pages 2821–2830,2018.[8] Michal Jancosek and Tom´as Pajdla. Multi-view reconstruc-tion preserving weakly-supported surfaces. In Computer Vi-sion and Pattern Recognition (CVPR), 2011 IEEE Confer-ence on, pages 3121–3128. IEEE, 2011.[9] Rasmus Jensen, Anders Dahl, George Vogiatzis, Engil Tola,and Henrik Aanæs. Large scale multi-view stereopsis eval-uation. In 2014 IEEE Conference on Computer Vision andPattern Recognition, pages 406–413. IEEE, 2014.[10] Andreas Kuhn, Heiko Hirschm¨uller, Daniel Scharstein, andHelmut Mayer. A tv prior for high-quality scalable multi-view stereo reconstruction. International Journal of Com-puter Vision, 124(1):2–17, 2017.[11] Patrick Labatut, Jean-Philippe Pons, and Renaud Keriven.Efficient multi-view reconstruction of large-scale scenes us-ing interest points, delaunay triangulation and graph cuts. InComputer Vision, 2007. ICCV 2007. IEEE 11th InternationalConference on, pages 1–8. IEEE, 2007.[12] Radford M. Neal and Geoffrey E. Hinton. A view of theem algorithm that justifies incremental, sparse, and othervariants. In Learning in graphical models, pages 355–368.Springer, 1998.[13] Enrico Piazza, Andrea Romanoni, and Matteo Matteucci.Real-time cpu-based large-scale three-dimensional meshreconstruction.IEEE Robotics and Automation Letters,3(3):1584–1591, 2018.104210参考文献0[14] Andrea Romanoni, Marco Ciccone, Francesco Visin, andMatteo Matteucci.多视角单视角语义网格细化的多视角立体视觉。在IEEE国际计算机视觉会议论文集中,第706-715页,2017年。[15] AndreaRomanoni和MatteoMatteucci。用于增量3D流形重建的高效移动点处理。在2015年图像分析和处理ICIAP会议上,第489-499页。Springer,2015年。[16] Andrea Romanoni和MatteoMatteucci。用于语义网格标记的面方向的数据驱动先验。在2018年国际3D视觉会议(3DV)上,第662-671页。IEEE,2018年。[17] Andrea Romanoni和MatteoMatteucci。基于网格的相机对选择和考虑遮挡的网格细化。模式识别信件,125:364-372,2019年。[18] NikolaySavinov,Christian H¨ane,Lubor Ladicky和MarcPoll
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功