没有合适的资源?快使用搜索试试~ 我知道了~
10452P-MVSNet:学习多视点立体匹配置信度聚集罗科扬1,关涛1,3,鞠丽丽2,3,黄海鹏3,罗亚伟1*1华中科技大学华中科技大学2南卡罗来纳大学,美国3Farsee2 Technology Ltd,中国{kyluo,qd gt,royalvane}@ hust.edu.cn,ju@math.sc.edu,haipenghuang@farsee2.com摘要近年来,基于学习的方法在多视点立体重建的深度估计方面显示出了很强的竞争力其中,基于平面扫描算法生成代价卷,然后将其用于特征匹配的方法最近已被平面扫描体积在深度和空间方向上基本上是各向异性的,但是在那些方法中它们通常被各向同性成本体积近似,这可能是有害的。在本文中,我们提出了一种新的端到端深度学习网络P-MVSNet,用于基于各向同性和各向异性3D卷积的多视图立体。我们的P-MVSNet由两个核心模块组成:逐块聚合模块学习聚合提取特征的逐像素对应信息以生成匹配的置信度体积,然后混合3D U-Net从中推断深度概率分布并预测深度图。我们在DTU和Tanks Temples基准数据集上进行了大量的实验,结果表明,所提出的P-MVSNet在多视图立体方面达到了许多现有方法的最先进性能。1. 介绍多视点立体(MVS)的目标是从具有已知相机参数的图像集合中估计底层场景的几何表示,并且是已经被广泛研究了几十年的基本计算机视觉问题。受卷积神经网络(CNN)在许多计算机视觉领域(如语义分割[28,26],场景理解[27]和立体匹配[5])的巨大成功的启发,最近引入了几种基于学习的MVS方法[43,33],可以分为两种类型:基于体素的和基于深度图的。最近的MVS基准测试[1,22]表明,基于学习的方法可以产生高质量的*通讯作者。(a) 参考图像(b)预测深度图(c)(d)重建点云图1:DTU数据集Scan114的多视图3D重建[1]。(a)参考图像;(b)由所提出的P-MVSNet预测的深度图;(c)经滤波的深度图;(d)重建的3D点云。3D模型可与传统的最先进的技术相媲美此外,还观察到基于深度图的算法优于基于体素的算法。基于深度图的学习方法的基本步骤是构造逐像素匹配置信度/成本量。其基本思想是首先在从输入图像中选取的参考图像处基于平面扫描算法[6]构建平面扫描体积,然后在每个采样深度假设上计算参考图像中的每个像素与其他相邻图像中的对应像素在大多数现有方法中使用的流行的匹配度量是像素对之间的特征的方差,其中所有涉及的像素对对匹配成本的贡献被同等对待这样的度量实际上往往不利于逐像素的密集匹配。例如,当像素的特征10453在相邻的非参考图像中的像素非常相似,但不匹配参考图像中的对应特征,则将为该像素生成低匹配成本,这潜在地倾向于在深度图中给予该像素错误的估计。因此,我们认为,在计算匹配置信体积时,应该突出参考图像中像素的重要性在累积来自每个采样平面上的多个图像的匹配置信度此外,所构造的包含在相应的平截头体中的平面扫描体本质上是各向异性的-这一事实可以用来指导匹配置信体积的正则化。基于上述动机,我们提出了一种新的端到端网络的P-MVSNet多视图立体。在P-MVSNet中,我们首先基于均方误差(MSE)构造像素级匹配置信度,然后使用块级置信度聚集模块聚集所有采样平面上的像素级匹配置信度,最后使用具有各向同性和各向异性3D卷积的混合3D U-Net来利用匹配的上下文信息。ng置信体积并估计深度图(具有专门为更高分辨率级别设计的细化结构)。点云重建遵循预测的深度图与一些滤波和融合方案。本文的主要贡献概述如下:• 我们提出了一个分块匹配置信度聚集模块来建立匹配成本体积,这是强大的和准确的噪声数据。• 我们设计了一个混合的3D U-网来从匹配的置信体积中推断潜在的概率体积,并估计深度图。• 我们开发了深度置信度和深度一致性标准,用于过滤和融合深度图,以提高点云重建的准确性和完整性• 在DTU和Tanks Temples基准数据集上,我们的方法实现了许多现有多视图立体方法的最先进性能2. 相关工作传统的MVS基于底层对象模型,传统的MVS方法通常可以分为以下几类:分为四种类型:基于块的算法[10,25]将场景表面视为小空间块的集合,其首先重建纹理区域中的块,然后将它们传播到低纹理区域以使重建的块致密化;基于可变形多边形网格的算法[46,9,24]需要对场景表面进行良好的初始猜测以初始化表面演化,然后相对地提高多视图光度一致性;基于体素的算法[39,32,41]首先计算包含场景的边界框并将其划分为体素网格,然后挑选出附着在场景表面的体素,因此在这些算法中重建精度受到体素分辨率的限制;基于深度图的算法[11,37,42]首先估计各个图像的深度图,然后将所有深度图合并为一致的点云。总的来说,基于深度图的方法优于其他三种方法,详细的评论可以在[8,22]中找到。由于深度学习技术的强大功能,近年来立体匹配取得了很大进展。Han等人。 [14]和Zbontar等人。 [47]介绍了卷积网络,以几乎同时计算一对图像块的相似性。为了改进视差图,Guney等人。 [13]提出使用对象知识来解决匹配模糊性。Gi- daris等人。 [12]提出学习检测不正确的标签,然后用新标签替换不正确的标签,并优化更新的标签。Seki和Pollefeys [38]将预测的SGM惩罚应用于成本正则化。GC-Net [19]和PSMNet[5]提出通过端到端网络预测整个虽然基于学习的立体匹配方法显著优于传统方法,但它们都需要精确的校正立体图像对。不幸的是,获取精确的校正图像对是棘手的,特别是对于具有更多变化的视点的图像。因此,它们可能无法产生非常准确的深度信息,并且无法通过融合深度图来重建3D模型为了克服立体匹配的缺陷,最近的一些工作集中在基于学习的MVS重建。这些方法的一种途径是基于场景表面的体积表示。Ji等人提出了第一个基于学习的MVS重建系统SurfaceNet [17],该系统首先将图像解投影到预先计算的3D体素空间中,然后使用通用3DCNN来正则化和分类体素是否属于场景表面。LSM[18]和RayNet [33]首先将投影几何编码为成本体积,然后LSM使用3D CNN来预测每个体素是否在对象表面上,而RayNet使用展开的马尔可夫随机场。所有这些基于体素的方法[17,18,33]都存在共同的缺陷,104540⋮图2:所提出的P-MVSNet的架构。它包括一个权重共享图像特征提取器(蓝色),一个分块匹配置信度聚合模块(浅蓝色),一个混合3D U-Net(橙色)和一个细化结构(绿色)。体素表示的效率。另一种路线是基于平面扫描立体来构建匹配置信体积,然后构建深度图来表示场景。Hartmann等人提出通过多流CNN架构直接估计多块相似性[15],以取代用于MVS重建的手工度量函数,然后通过标准平面扫描立体重建深度图。DeepMVS [16]将图像中每个像素的深度估计转换为多类分类问题。在该方法中,输入图像对首先经由共享块匹配网络进行匹配,然后将匹配结果聚合到内部体积中,并且最后使用最大池化层将多个内部体积聚合到内部体积中以预测深度图。相比之下,MVSNet [43]首先提取图像特征,然后根据基于像素方差的度量生成匹配成本体积,最后使用通用3D U-Net来正则化匹配成本体积以估计深度图。3. P-MVSNet的体系结构P-MVSNet是一种深度学习神经网络,表1:特征提取网络的总结。每个卷积层表示卷积块、批归一化和ReLU非线性化(除非另有说明)。输入图像尺寸:高×宽×3名称图层描述输出张量所有输入图像编码器用于参考图像的解码器conv3 03×3转置卷积,步长21/2高×1/2宽×16添加conv3 0 conv1 2功能1/2高×1/2宽×16conv3 13×3转换,步幅11/2高×1/2宽×16Conv3 23×3转换,步幅1(无BN ReLu)1/2高×1/2宽×16以端到端的方式工作,其中包括重量-跟踪特征图F对于每个im-i4 4共享图像特征提取器,分块匹配置信度聚集模块、基于混合3D U-Net的深度图推理网络、以及用于提高所估计的深度图的空间分辨率的细化结构。P-MVSNet的整体架构如图2所示。使 用 由 11 个 2D 卷 积 块 组 成 的 编 码 器 部 分 对 Ii(0≤i≤N-1)进行编码。我们定义Fi作为图像Ii的2级(简称为2)特征图。解码器部分由三个2D卷积块组成,并产生1级(简称1)特征图′H×W×C3.1. 特征提取权重共享特征提取网络如下F0∈R22只适用于参考图像.数量对于所有输出特征,特征通道C的数量设置为16地图2个特征图{F}N−1将用于ii=0编码器-解码器体系结构的思想及其参数表1中详细列出了这些参数对于N个大小为H×W,设I0和{I}N−1表示输入基准电压结构化匹配置信体积(MCV),非常小的空间分辨率,而101特征图F′将用于指导更高分辨率jj=1图像及其相邻图像。我们先来张深度图.0���′0C分片置信度共享1⋮W⋮共享������−1混合3DU-Net贴片平面W经纱C级联上采样���ℓ1���ℓ2回归回归联系我们3×3转换,步幅1高×宽×8conv0 13×3转换,步幅1高×宽×8conv0 23×3转换,步幅1高×宽×8conv1 05×5转换,步幅21/2高×1/2宽×16conv1 13×3转换,步幅11/2高×1/2宽×16Conv1 23×3转换,步幅1(无BN ReLu)1/2高×1/2宽×16conv2 05×5转换,步幅21/4高×1/4宽×32conv2 13×3转换,步幅11/4高×1/4宽×32conv2 23×3转换,步幅11/4高×1/4宽×32添加conv2 0 conv2 2功能1/4高×1/4宽×32conv2 33×3转换,步幅11/4高×1/4宽×32联系我们1×1卷积,步幅1(无BN ReLu)1⁄4高×1 ⁄4宽×1610455⊕内核7 x 1 x 1内核3 x 3 x 3⊕⊕⊕内核7 x 1 x 1内核3 x 3 x 3内核3 x 3 x 3内核3 x 3 x 3内核3 x 3 x 300⊕内核1 x 3 x 3内核7 x 1 x 1内核1 x 3 x 3内核7 x 1 x 1内核1 x 3 x 3内核3 x 3 x 33D conv + BN + ReLU,步幅13D去卷积+ BN + ReLU,步幅23D conv + BN + ReLU,步幅2 3D conv,步幅1添加ℒ2图3:混合3D U-Net网络的架构。3.2. 学习分片匹配置信度首先,基于所提取 的特征图及其对应的摄像机参数,构造基于平面的像素匹配置信体(MCV)因此ρ1只关注于p处多通道匹配置信度的融合,而ρ2融合了ω1中相邻像素的匹配信息。ρ3被定义为一个3×3×3内核大小的3D卷积层,然后是BN,它学习聚合多个补丁之间的匹配最后,一个tanh激活用于正则化置信度。与传统的MVS算法不同,它以启发式的方式聚合匹配的置信度/成本,我们使用一个可学习的补丁式聚合函数。在每个假设平面上的每个像素处的聚合特征匹配置信度是向量而不是标量,并且自动调整每个特征通道的权重,这可以提高对噪声数据的匹配鲁棒性和准确性。3.3. 深度图推断如图3所示,将M*馈送到混合3D U- Net中以推断表示为V2=V2(d,p)的潜在概率体积(LPV),其指示F0的每个像素沿深度方向的潜在概率分布,并且其大小为Z×H×W。 混合3D U-Net包括由标准平面扫描产生的扫描体积4 4立体,然后学习将逐像素MCV聚合成逐块MCV以增加匹配鲁棒性和准确性。将逐像素MCV表示为M=M(d,p,c),其表示F0中的像素p与其对应的pix的第c个特征通道的匹配置信度由平面假设πd(d是πd的深度值)导出的相邻特征图中的els。因此,M是aZ×H×W×C形张量,其中Z表示数量。若干各向异性和各向同性3D卷积块以及深度聚合层[45]。对于浅层,我们采用了两种各向异性卷积,核尺寸分别为1×3×3和7×1×1的1×3×3形状的计算块集中在fus-7×1×1形状的3D卷积层可以在深度方向上扩大感受野,以相对较低的计算成本利用全局 深4 4层和输出层,我们使用各向同性3×3 ×3BER的采样假设平面,我们定义它:形状的3D卷积,以融合更多的上下文信息。.M(d,p,c)=exp−NΣ−1j=1(Fj(p′,c)−F0(p,c))2ΣN−1(一)接下来,我们使用如[43]中提出的深度回归来估计深度图D_2。首先经由沿着深度方向对σ(·)的softmax运算从V2计算概率体积(PV)P2,这被称为软衰减。其中p′是相邻特征图Fj中p的对应像素,并且Fj(p′,c)使用双线性插值来计算接下来,我们学习基于周围的补丁聚合M机制,比基于分类的更健壮方法.然后,在D_p2中的标记像素p处的预测深度被计算为每个深度d的和,每个深度d由其概率p加权为:πd上的p∗以获得逐块匹配置信体积⋆D(p)=DΣmax d·P2(d,p)(3)M=M(d,p,c)定义为:Ma(d,p,c)=tanh(ρ3(ρ2( Ma(d,p,c),Ma(d,p,c)=ρ1(M(d,p,c))+ρ2(ρ1( M(d,p,c)(2)其中,Ω1(·)定义了一个尺寸为3×3的贴片ω1,该贴片位于虚拟平面πd上以p为中心,Ω2(·)表示沿深度方向以p为中心的三个相邻贴片的并集,以及ρ1、ρ2和ρ3是考虑多通道特征匹配置信度的一些可学习函数。这里,我们选择ρ1和ρ2为1×1×1和1×3×3内核大小的3D卷积块,然后是BN和ReLU。2d=Dmin其中Dmin和Dmax分别表示最小和最大采样深度在实践中,深度图Df2通常是相对低分辨率的,因此我们使用特征图Ff1来引导通过细化结构以更高分辨率估计深度图Df1首先,F′和上采样的V2被级联为(C+Z)通道输入,其被转发到(C+Z)通道2D卷积层和两个Z通道2D卷积层以获得潜在概率体积V1。BN和ReLU包含在内核1 x 3 x 310456ℓ1Dℓ2(a)(b)第(1)款(c)(d)其他事项图4:推断的深度图及其置信度图的图示。(a)参考图像,其中我们用绿色标记具有离群点深度的一个像素,并且用蓝色标记具有内点深度的另一个像素;(b)来自P-MVSNet的推断的深度图;(c)概率分布在深度方向上的两种典型行为(“多峰”绿线表示离群深度,“单峰”蓝线表示内点深度);(d)估计的置信图。前两层,但从最后一层排除。然后,我们获得概率体积P1和基于V1的更高分辨率的最终估计深度图D1,就像获得P2和D2的方式一样。3.4. 损失函数对于深度回归,我们利用地面实况深度图和估计深度图之间的差异来训练所提出的P-MVSNet。损失函数被公式化为α Σ¨⋆¨深度置信度准则,以去除明显不值得信任的预测;以及2)深度一致性准则,以放弃相邻图像之间的不一致深度值。显然,当沿着像素p的深度方向的概率分布具有单峰时,估计的深度将保持很大的置信度。我们首先将对应于粗分辨率级别的深度图D2的置信度图C2定义为:C2(p)= max{P2(d,p)|d∈ [Dmin,Dmax]}(5)对于每个标记像素P。对应于精细级D 1的置信度图C1计算如下:我们首先将C 2上采样到与D1相同的大小,表示为U1,然后计算D1在p处的置信度为C1(p)=U1(p)+max{P1(d,p)|d∈[Dmin,Dmax]}。(六)我们参考图4以获得推断的深度图及其置信度图的图示深度置信度准则旨在过滤出具有低置信度的预测深度:对于深度图中的每个像素,如果其置信度低于0,则我们将其视为不可靠的深度。5是设置在experi-ments),然后放弃它。深度一致性深度一致性准则用于在多个相邻深度图之间强制执行预测深度的一致性。为了实现该目标,我们首先通过其估计的参考像素p来投影参考深度d(p)(根据需要为D1或D2深度图)到-其他深度图并确定其对应的像素q通过以下方式:如果地面实况照相机参数可用,则采用标准双线性深度方案,否则使用新颖的“深 度 一 致性优先”策略,如图5所示。然后我们重新投影q损失=|Φ 2| p∈Φ2¨D2(p)−D2(p)¨1通过其深度估计返回到参考深度图(q).如果重投影点q′及其深度d(q′)1−αΣ¨(四)⋆满足|q′−p|<ǫand|d(q′)−d(p)|/d<$(p)<η(p=0.9+|Φ 1|p∈Φ1<$D1(p)−D1(p)<$1且η = 0。01在实验中设置),我们认为在p处的预测深度d(p)在这两个深度图之间是一致的其中,Φ2和Φ1是标记像素的集合,图1是对应的地面实况深度图。超参数α控制两项的相对重要性,设置为0。五是实验。4. 点云重建在通过依次将输入图像中的每一个作为参考图像而从所提出的P-MVSNet推断出一组N个原始深度图之后,关注的是,由于所估计的深度中的误差,它们可能在公共区域上彼此不一致我们引入两个过滤准则来丢弃错误预测的深度值:1)如果预测的深度数据在至少μ(实验中设定μ= 2)个相邻深度图中保持一致,则认为预测是可靠的,否则放弃预测。这种策略可以提高融合点云的完整性。通过上述两种过滤策略对所有深度图进行过滤后,期望去除大部分错误预测,并获得相对干净的深度图。然后,我们将所有深度图融合到一致的点云中,以基于[11]中开发的方法表示3D场景表面此外,我们还像往常一样使用点邻域统计[35]去除一些离群点。¨104572���′������′���′������′相邻深度图参考深度图相邻深度图(a) 最接近深度[29](b) 双线性深度[11](c) 深度一致的第一深度(我们的)图5:不同深度拾取方案的图示。相邻深度图中的点p′是参考深度图中像素p的反投影点。 在五个候选点a、b、c、p’和q中,q具有与相邻深度图中的3D点P最相似的深度,而p是p’的最近点。 最近深度方案选择点a,双线性深度方案直接使用p′,而我们的深度一致性优先策略将q视为p的真实对应点。5. 实验结果5.1. 数据集以 下 数 据 集 用 于 性 能 评 估 和 比 较 所 提 出 的 P-MVSNet与许多现有的多视图立体声的最先进的方法。DTU数据集[1]:DTU机器人图像数据集是大规模多视图立体基准。它由124个不同的场景组成,每个场景在 七 个 不 同 的 场 景 下 捕 获 49 或 64 个 分 辨 率 为1600×1200像素的照明条件。 材质、质地、所捕获的场景的几何特性变化很大,并且所提供的地面实况点云由结构光扫描仪获取。我们使用与MVSNet相同的技术方案生成地面实况深度图[43]。我们将整个数据集分为训练,验证和评估集1,如SurfaceNet [17]和MVS- Net [43]中所做的那样。总共有27,097个图像用于训练P-MVSNet。请注意,地面实况模型并不总是完整的,可能在某些区域包含漏洞。Tanks Temples数据集[22]:与在良好控制的实验室环境下获得的DTU数据集不同,Tanks Temples数据集基准序列是在现实条件下获得的。它的中间集是八个场景:家庭,弗朗西斯,马,灯塔,M60,黑豹,游乐场和火车。这些被捕获的场景具有变化的尺度、表面反射和曝光条件,此外,没有为它们提供相机参数信息。我们将使用这个数据集来验证测试方法的泛化能力5.2. 型号规格我们在TensorFlow中实现了P-MVSNet [2]。受最近提 出 的 SWATS[20] 的 启 发 , 当 满 足 某 些 条 件 时 ,SWATS将从Adam切换到SGD,第1个验证集:扫描{3,5,17,21,28,35,37,38,40,43,56,59}。66,67,82,86,106,117},评估集:扫描{1,4,9,10,11,12,13、15、23、24、29、32、33、34、48、49、62、75、77、110、114、118}和训练集:剩下的79张照片为了提高训练网络的泛化性能,我们将P-MVSNet的训练过程分为两个阶段。在第一阶段,我们使用Adam求解器[21](β1= 0. 9,β2= 0。999)训练我们的网络4个时期,其中学习率被初始化为0的情况。001,然后每10,000次迭代以指数速率0衰减。9 .第九条。在第一阶段获得Adam求解器4个epoch,学习率为0。0005,它也像第一阶段一样衰变对于两个训练阶段,我们使用大小H= 512和W=640的图像作为P-MVSNet的输入,并且每个训练样本由1个参考图像和2个相邻图像组成。每个参考图像的前平行假想平面从D最小= 425mm到D最大= 935mm均匀 采 样 , 分 辨 率 为 2mm ( 因 此 Z=935 - 425+ 1 =256 )。我们仅在DTU 数据集上使用一个NvidiaTitan RTX GPU训练了 P-MVSNet,大约花了三天时间。表2:在DTU数据集上由MVSNet和所提出的P-MVSNet的不同模型变体产生的深度图的比较。方法腹肌很结实。深度误差预测预处理(σ)预测预处理(3σ)MVSNet [43]7.2572.84%87.96%P-MVSNet不含P5.5475.18%89.25%H→G5.8273.66%88.71%(D2)完整版本5.2675.43%90.88%P-MVSNet不含P5.7473.06%88.07%H→G6.1372.76%87.21%(D1)完整版本5.4373.97%88.47%P:逐片聚集 H:混合U-Net G:通用U-Net5.3. 消融研究我们进行了一项消融研究,以比较所提出的P-MVSNet的一些模型变体对DTU评估集预测深度图的性能,DTU评估集由7546个地面真实深度图(22次扫描×7���′���相邻深度图���′10458(a) 参考图片(b)tola [40](c)Gipuma [11](d)furu [10](e)camp [4](f)SurfaceNet [17](g)MVSNet [43](h)P-MVSNet图6:通过不同方法从DTU数据集对模型扫描77的重建点云的可视化。表3:DTU评估场景的融合3D点云的性能结果。方法是说精度是说完整性整体P-MVSNet0.4060.4340.420营地[4]0.8360.5550.696Furu [10]0.6120.9390.776[40]第四十话0.3431.1900.767吉普马[11]0.2741.1930.734SurfaceNet [17]0.4501.0430.746MVSNet [43]0.3960.5270.462照明图案×49个图像/图案)。更具体地,一个模型变体是通过从P-P的完整版本中移除逐块置信度聚合模块来获得的。MVSNet,以及另一种通过用通用3D U-Net替换混合3D U-Net。据我们所知,MVSNet [43]是迄今为止DTU数据集上表现最好的,所以我们也将它们与MVSNet进行了比较。基于常用的平均绝对深度误差以及由下式定义的预测精度5.4. 与现有方法的首先,我们评估并比较由我们的P-MVSNet产生的DTU评估场景(22个模型)的融合3D点云的质量与一些现有的最先进的方法,包括camp[4],furu[10],tola[40],[11],[17],[18],[19]。所有图像都被裁剪为H= 1184的相同大小,W= 1600时,相邻图像的数量和假设尺寸的平面分别设置为4和256,并且对于所有图像,深度假设从D 最小值= 425mm到D 最大值= 935mm均匀采样。D1深度图用于重建点云模型。我们使用数据集的作者提供的评估协议,即,我们计算重建精度和完整性的平均误差,以及前两者的平均值的总准确度被测量为从重构点云到地面实况的距离,而完整性被定义为从地面实况到重构点云的距离。因此,这三个指标的值越低,赌注就越大。P( τ)=100ΣΣ|R|p∈RΣ|d(p)−d(p)|<τ、(7)重建质量。表3报告了评价结果。结果,并且观察到,虽然Gipuma实现了最高的准确性,但P-MVSNet在com-mv中表现最好其中R表示评估的像素集,d和d*分别是预测深度和地面实况深度,τ是距离阈值,[·]是艾弗森括号。在这里,我们将τ分别设置为σ和3σ,其中σ是两个相邻假设平面之间的距离。 表2报告了比较结果(D_2和D_1两者),其显示完整版本的P-MVSNet实现了显著更低的平均绝对深度误差和更好的预测精度它 的 两 个 模 型 变 体 和 MVSNet 。 本 研 究 证 明 了 P-MVSNet中两个核心模块的重要性全面和全面。图6显示了一个定性比较-通过不同的方法对用于模型扫描77的重建点云进行感兴趣在难以重建的低纹理和反射区域中,P-MVSNet生成最完整的点云。接下来,我们通过在Tanks Temples数据集上测试P-MVSNet(在DTU上训练)来展示其泛化能力。输入图像的摄像机参数由修正的COLMAP [36]估计利用原始图像恢复摄像机模型和稀疏点10459表4:不同方法对Tanks& Temples数据集的性能结果(截至2019年2月19日)。注:列出了顶级算法和一些经典的常规方法以供比较。方法秩是说家庭弗朗西斯马灯塔M60黑豹操场火车P-MVSNet2.1255.6270.0444.6440.2265.2055.0855.1760.3754.29香港科技大学[3]2.3856.2274.6061.3038.4861.4854.9353.3256.2149.47ACMH [42]2.7554.8269.9949.4545.1259.0452.6452.3758.3451.61密集R-MVSNet [44]7.3850.5573.0154.4643.4243.8846.8046.6950.8745.25R-MVSNet [44]7.7548.4069.9646.6532.5942.9551.8848.8052.0042.38MVSNet [43]10.6243.4855.9928.5525.0750.7953.9650.8647.9034.69Pix4D [34]11.1243.2464.4531.9126.4354.4150.5835.3747.7834.96COLMAP [36,37]12.2542.1450.4122.2525.6356.4344.8346.9748.5342.04[31]第30话:一个人的世界13.3841.7158.8632.5926.2543.1244.7346.8545.9735.27OpenMVG [30] + MVE [7]18.6238.0049.9128.1920.7543.3544.5144.7636.5835.95[31]第三十一话:一个人23.3822.8656.5029.6321.696.5539.5428.480.000.53[23]第23话24.3830.6731.9319.9215.0239.3836.5141.6135.8925.12MVE [7]25.0025.3748.5923.8412.705.0739.6238.165.8129.19(b)M60(c)操场(a) 灯塔(d)黑豹(e)火车图7:通过P-MVSNet从Tanks &Temples数据集重建的一些点云。云,然后根据估计的内参数获得未失真的图像。为了适应模型的输入,我们将所有未失真的图像裁剪为H=1056和W= 1920的大小,并相应地调整相应的相机参数。所有场景的相邻图像和假设平面的数量分别设置为4和256。根据估计的相机位姿和稀疏点云确定每个参考图像的相邻图像和假设平面D1深度图再次用于重建3D点云模型。采用F-评分作为评价指标,可以同时衡量重建模型的准确性和完整性。评价结果报告于表4中。我们可以看到,P-MVSNet实现了最先进的性能(在8个模型场景中,5个最好,1个第三,1个第四和1个第五;根据在线排行榜[22],在所有提交(包括许多最先进的基于学习的或传统的MVS算法)中获得最佳排名和第二最佳平均测量)。图7中示出了通过P-MVSNet重建的一些3D点云,以证明重建的质量。6. 结论在本文中,我们开发了一种有效的端到端深度学习架构P-MVSNet,用于多视图立体。我们已经证明,其出色的重构性能受益于P-MVSNet中提出的一系列新颖模块,例如,块式置信度聚合模块用于提高匹配的准确性和鲁棒性,混合3D U-Net用于推断准确的深度图。在DTU序列和Tanks Temples基准数据集上的大量实验结果表明,与许多现有的基于学习的方法或传统方法相比,所提出的P-MVSNet明显提高了多视图立体的最新性能。在未来的工作中,我们将调整我们的方法,以更复杂的场景,例如,先进的T2序列,ETH3D此外,将语义标签信息与所提出的方法相结合以进一步提高多视图重建的质量也是非常有趣的。10460引用[1] Henrik Aanæs,Rasmus Ramsbøl Jensen,GeorgeVogiatzis,Engin Tola,and Anders Bjorholm Dahl.多 视 点 立 体 视 觉 的 大 规 模 数 据 InternationalJournal of Computer Vision,第1[2] Mart´ın Abadi , Paul Barham , Jianmin Chen ,Zhifeng Chen , Andy Davis , Jeffrey Dean ,Matthieu Devin , Sanjay Ghemawat , GeoffreyIrving,Michael Isard,et al. Tensorflow:一个大规模机器学习系统。在OSDI,第16卷,第265-283页[3] 阿尔蒂祖雷https://www.altizure.com/网站。[4] Neill DF Campbell 、 George Vogiatzis 、 CarlosHern a'ndez和RobertoCipolla。使用多个假设来改进多视图立体的深度图欧洲计算机视觉会议,第766-779页。Springer,2008.[5] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别集,第5410-5418页[6] R. T.柯林斯一种真正的多图像匹配的空间扫描方法。在Proceedings CVPR IEEE Computer SocietyConferenceonComputerVisionandPatternRecognition,pages 358[7] Simon Fuhrmann,Fabian Langguth,and MichaelGoesele.多视图重建环境。在GCH,第11-18页[8] YasutakaFuruk aw a,CarlosHern a´ ndez,etal. 多视 图 立 体 声 : 一 个 教 程 。 Foundations andTrends® in Computer Graphics and Vision,9(1-2):1[9] 古川康孝和让·庞塞。用于基于图像的建模的雕刻可 视 外 壳 International Journal of ComputerVision,81(1):53[10] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE transactions on pattern analysisand machine intelligence,32(8):1362[11] 加利亚尼,拉辛格,辛德勒。表面法向扩散的大规模平行多视点立体视觉。在IEEE计算机视觉国际会议论文集,第873-881页[12] 斯派罗·吉达里斯和尼科斯·科莫达基斯检测、替换、细化:深度结构化预测,用于逐像素标记.IEEE计算机视觉和模式识别会议论文集,第5248- 5257页,2017年[13] 法特玛·古尼和安德烈亚斯·盖格。Displets:使用对象知识解决立体模糊性。IEEE计算机会议论文集视觉和模式识别,第4165-4175页,2015年。[14] Han Xufeng , Thomas Leung , Yangqing Jia ,RahulSukthankar , andAlexanderCBerg.Matchnet:统一特征和度量学习,用于基于补丁的匹配。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,第3279-3286页[15] 哈特曼,加利亚尼,哈弗莱纳,范古尔,辛德勒。学习了多块补丁的相似性。在2017年IEEE国际计算机视觉会议(ICCV),第1595-1603页。IEEE,2017年。[16] Po-Han Huang,Kevin Matzen,Johannes Kopf,Narendra Ahuja,and Jia-Bin Huang.Deepmvs:学习多视图立体视觉。在IEEE计算机视觉和模式识别会议论文集,第2821-2830页[17] Mengqi Ji,Juergen Gall,Haitian Zheng ,YebinLiu,and Lu Fang. Surfacenet:一个用于多视图立体视觉的端到端3D神经网络。在IEEE计算机视觉国际会议论文集,第2307-2315页[18] AbhishekKa r,ChristianHaine,andJitendraMalik. 学习多视角立体机。神经信息处理系统的进展,第365- 376页,2017年[19] Alex Kendall 、 Hayk Martirosyan 、 SaumitroDasgupta、Peter Henry、Ryan Kennedy、AbrahamBachrach和Adam Bry。 深度立体回归的几何和上下 文 的 端 到 端 学 习 。 CoRR , vol.abs/1703.04309,2017。[20] Nitish Shirish Keskar 和 Richard Socher 。 通 过 从adam切换到sgd来提高泛化性能。arXiv预印本arXiv:1712.07628,2017。[21] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化 的 方 法 。 arXiv 预 印 本 arXiv : 1412.6980 ,2014。[22] Arno Knapitsch,Jaesik Park,Qian-Yi Zhou,andVladlen Koltun.坦克和寺庙:大规模场景重建的基准。ACM Transactions on Graphics,36(4),2017。[23] Fabian Langguth、Kalyan Sunkavalli、Sunil Hadap和Michael Goesele。阴影感知多视图立体。欧洲计算机视觉会议,第469-485页。施普林格,2016年。[24] Zhaoxin Li,Kuanquan Wang,Wangmeng Zuo,Deyu Meng,and Lei Zhang.细节保持和内容感知的变分多视图立体重建。IEEE Transactions onImage Processing,25(2):86410461[25] Alex Locher,Michal Perdoch,和Luc Van Gool渐进式优先多视图立体。在IEEE计算机视觉和模式识别集,第3244-3252页[26] Yawei Luo,Ping Liu,Tao Guan,Junqing Yu和Yi Yang。领域自适应语义分割的重要性感知信息瓶颈。IEEE International Conference on ComputerVision,2019。[27] 罗亚伟,郑良,关涛,于俊青,杨毅。让我们仔细看看Domain Shift:语义一致域适应的类别级对手。在IEEE计算机视觉和模式识别集,第2507-2516页[28] 罗亚伟,郑哲东,郑良,关涛,于俊青,杨毅。宏微对抗网
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功