基于融合的单视图深度估计方法

72 浏览量更新于2023-10-25 收藏 1.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2842基于融合的多视点深度估计多视点几何条件下的单视点深度概率英国剑桥大学{gb585，ib255，rc10001} @ cam.ac.uk摘要多视点深度估计方法通常需要计算多视点代价体积，这导致巨大的存储器消耗和缓慢的推断。对于无纹理表面、反射表面和移动对象，毛发、多视图匹配可能失败对于这样的故障模式，单视图深度估计方法更可靠。为此，我们提出了MaGNet，一种新的框架，用于融合单视图深度概率与多视图几何，以提高多视图深度估计的准确性，鲁棒性和效率对于每一帧，MaGNet估计单视图深度概率分布，参数化为逐像素高斯分布。然后使用针对参考帧估计的分布来对每像素深度候选进行采样。这种概率采样使得网络能够在评估较少深度候选的同时实现更高的准确度。我们还提出了深度一致性加权的多视图匹配，ING得分，以确保多视图深度是一致的，帐篷与单视图的预测。所提出的方法在ScanNet [8]，7- Scenes [38]和KITTI [15]上实现了最先进的性能。定性评估表明，我们的方法对具有挑战性的工件，如纹理较少/反射表面和移动对象更强大。我们的代码和模型权重可在https://github.com/baegwangbin/MaGNet 上获得。1. 介绍深度估计是三维场景重建和理解的关键。由于深度卷积神经网络的进步，已经进行了许多尝试来从RGB图像估计逐像素度量深度。单视图和多视图方法都已被提出。这两类解决方案依赖于不同的线索，因此继承了不同的优点和缺点。单视图方法[1，11单眼线索，如纹理梯度和对象，已知尺寸。深度特征提取器（例如[18，40]）用于将这些线索编码到密集特征图中，解码器从该特征在适当的监督下，单视图方法可以学习弱纹理或反射表面的深度。然而，由于问题的固有模糊性，它们的准确性是有限的。另一方面，多视图方法[6，17，27，29，30，51]使用几何线索。这些方法采用的关键假设是，如果特定像素的估计深度是正确的，则它将被投影到其他图像中视觉上相似的虽然这种硬编码的多视图几何减少了模糊性并导致更好的准确性，但存在几个限制：为了找到正确的深度，应该评估大量的深度参数;在存在遮挡和对象运动的情况下，多视图一致性假设被破坏;最后，对于无纹理或反射表面，多视图匹配变得不可靠我们认为，单眼和几何线索应加以利用，以补充彼此的限制通过进行多视点匹配可以减少单视点深度的模糊性通过对单视点深度附近的深度候选进行采样，可以提高多视点匹配的效率。多视图匹配的失败案例（例如在无纹理/反射表面上）可以通过强制与单视图深度的一致性来防止。为此，我们介绍了MaGNet（单眼和几何网络），一种新的框架，用于融合单视图深度概率与多视图几何。MaGNet使用具有已知内在特征和相机姿势的单目图像序列作为输入。前向传递由以下步骤组成：（1）网络估计每个图像的单视图深度概率分布，参数化为逐像素高斯分布;（2）对于参考图像中的每个像素，从估计的深度概率分布中采样少量深度候选;（3）将采样的候选投影到相邻视图，并且根据特征向量之间的点积来测量匹配分数;（4）匹配分数2843实施例1：无纹理表面05 00.5公斤0.5公实施例2：反射表面输入图像GT Depth Liu等/DepthLiu等人/错误我们的/深度我们的/错误我们的/不确定性图1.该图示出了对于现有的多视图深度估计方法（诸如[27]）具有挑战性的图像的示例。如果场景包含无纹理或反射曲面，则多视图匹配可能不可靠，从而导致预测不准确（请参见黄色框）。相反，我们使用单视图深度概率来约束深度候选者的搜索空间，并对每个视图中每个候选者的深度一致性进行编码，从而得到更准确和鲁棒的预测。将为每个相邻视图计算的深度一致性权重乘以二元深度一致性权重，该二元深度一致性权重是根据从该视点估计的单视图深度概率推断的;（5）最后，使用所得到的薄成本-体积来获得更准确的多视图深度概率分布。可以重复步骤（2- 5）以产生更准确的结果。我们的网络的最终输出是每像素深度概率分布图，从中可以推断出期望值和相关的不确定性。我们的贡献概述如下。• 概率深度采样。大多数多视图深度估计方法[19，20，27，29，30，32，44，46，48，52，53]对所有像素使用相同的深度候选集（在一些手工挑选的限制dmin和dmax之间采样）。即使是具有粗到细深度搜索策略的方法[6，17，51]也使用均匀采样的候选项来获得初始粗深度图。为了实现更高的准确度，更低的计算成本，我们提出了概率深度采样，其中每像素候选人从单视图深度概率分布采样。虽然[20，27，29，30，46]评估了64个均匀抽样的候选项，但我们只对5个候选项进行了抽样（即92%的成本-体积比）。• 多视点匹配的深度一致性加权。我们使用在每个视图中估计的单视图深度概率来编码候选者的深度一致性通过将多视点匹配得分与二值深度一致性权重相乘，提高了鲁棒性和准确性。• 迭代精化。概率深度采样和一致性加权多视匹配的结果是一个薄的成本-体积，这是用来更新初始深度概率分布。但如果初始单视图深度概率分布是不准确的，没有采样的深度候选接近真实深度。为了处理这种故障模式，我们引入迭代细化，其中更新的分布被反馈到概率深度采样模块。烧蚀研究表明，这种迭代精化方法可以提高烧蚀精度.实验结果表明，MaGNet在ScanNet [8]，7-Scenes[38]和KITTI [15]上实现了最先进的性能。定性评估表明，该网络对具有挑战性的伪影（如反射和无纹理表面）更具鲁棒性（见图1）。1）。2. 相关工作单目深度估计。尽管该问题具有固有的不适定性质，但单目深度估计已在文献中得到广泛研究。虽然早期基于学习的方法[35，36]依赖于手工制作的图像特征，但最近的方法[1，11通过将深度估计重铸为有序回归问题[13]，引入虚拟法线损失以强制几何约束[54]，或使用视觉变换器[3，9]来编码全局上下文[1，34，50]，做出了显着的贡献。多视图深度估计。当给定一个序列对于具有已知本征和相机姿态的单目图像，可以使用多视图立体（MVS）[14，37]来估计每像素深度。基于学习的MVS方法[5，6，17，19，20，32，46，48，51-最先进的方法通常在DTU [21]和Tanks and Temples [23]上进行评估这两个数据集均在受控设置中捕获，其中2844×W×−×k=1W {}⟨··⟩Σu，v（dgt|I）=对数σ2（一）+u ，vu，v t.--·相机和深度传感器保持静止或万向稳定。相反，像ScanNet [8]，7- Scenes [38]和KITTI [15]这样的数据集是由连接到手持设备或移动车辆的传感器捕获的。图像通常包含运动模糊、无纹理/反射表面和移动对象，所有这些使得多视图匹配具有挑战性。像[24，27，29，30，41]这样的方法专注于这样的数据集。它们使用表面法线作为附加的监控信号[24，30]或强制多个帧之间的时空一致性[27，29]。这些方法将是我们方法的主要竞争对手。从粗到细的深度取样。大多数多视图深度-时间加权（Sec. 3.2）;最后，使用所得到的薄成本-体积来估计多视图深度概率分布（第3.2节）。3.3）。3.1. 单视图深度概率和特征单视图深度概率。对于具有H W分辨率的t中的每个图像，D-Net以H/4W/4的降低分辨率估计单视图深度概率分布图。输入图像It中的每个像素（u，v）的分布被参数化为高斯分布，1−1，d−µu，v（It），2估计方法对所有像素使用同一组深度候选。为了获得高准确性，候选人应该p u，v（d|It）=σu，v（It）e 22πσu，v（It）、（1）密集采样（例如，[32，48]使用256个候选项），导致巨大的内存消耗和缓慢的推理。为了克服这种限制，最近的MVS方法[6，17，51]使用由粗到细的策略来构建多尺度成本-体积。首先，对深度候选进行均匀采样然后，在粗深度图附近对较高分辨率的候选进行采样。虽然[17]在每次迭代中将搜索空间减半，但[6]引入了基于不确定性的自适应采样，其中每像素方差从粗略的成本体积中推断出来以定义搜索空间。概率深度估计。其中μ和σ2是均值和方差。任何现有的深度估计网络都可以用作D-Net。我们使用具有Efficient- Net B5 [43]骨干的轻量级卷积编码器-解码器我们对μ使用线性激活，对σ2使用修改后的ELU函数[7]，f（x）=ELU（x）+1，以确保正方差和平滑梯度。D-Net是预先训练的，并且在训练管道的其他组件时权重是固定的训练损失是地面实况深度的负对数似然（NLL），1 .一、dgt −µ （I）22σ为了部署CNN-基于深度估计方法的安全关键应用，网络不仅要准确，u，vu，vt2u，vt2u，v（It）（二）能够量化预测中的不确定性。两个马-不确定性的主要类型是任意的和认识的。深度的随机不确定性（即数据的不确定性）通常通过估计可能深度上的概率分布来学习。离散和连续的解决方案已经提出。离散解决方案[2，27，49]将深度估计公式化为离散深度上的分类，因此遭受量化误差。连续解[22]将深度概率表示为参数化分布（例如高斯分布），并通过最大化地面真实值的可能性来训练网络。我们采取更进一步的步骤，并演示了如何从不同的视图估计的单视图深度概率分布可以用来获得更准确的多视图分布。3. 方法当量2是具有学习衰减的L2损耗网-当降低误差（dgtµ）2具有挑战性时，工作学会估计高σ2。这通常发生在物体边界附近和远处的点[22]。相反，当估计的σ2较低时，正确的深度可能接近估计的μ。我们将在SEC中解释。3.2如何利用这些信息来提高多视图匹配的效率和准确性。单视图功能。对于每个图像，F-Net提取分辨率为H/4W/4的特征图。我们使用[4]中的架构，如[27]中的架构。在[10]之后，两个像素之间的匹配分数根据点prod来计算在特征向量之间。对于具有深度候选{d，k}N，s的像素（u，v），匹配分数可以写为su，v，k（It）=fu，v（It），fuik，vik（Ii），（3）I t我们的目标是估计一个深度图的参考在时间t处的帧I t。网络的输入是图像 t=It−2t，I t−t，I t，I t+t，I t+2t的局部窗口，具有已知的内在函数和相机姿态。如图2所示，所提出的流水线由三个步骤组成：对于每幅图像，网络估计单视图深度概率分布并提取特征（第二节）。3.1）;估计的单视图深度概率经由概率深度采样和consis与多视图几何融合其中，表示点积，并且（uik，vik）是由（u，v，dk）定义的3D坐标在第i个图像上的投影。通过应用softmax，成本体积可以被变换成深度概率体积，p u，v，k= softmax ks u，v，k，从其可以推断出期望的每像素深度为du，v=k pu，v，kdk. F-Net也是预-通过使用均匀采样的深度候选dk训练并且最小化du，v和dgt之间的L1损失。√L2845−GCG深度[m]±.2√·深度概率，W，4 4本地窗口GtF-Net经纱D-net相邻图像块t#$tF-Net深度采样精简成本卷D-net西、西、西西、西、西G-net了解到上采样参考图像缩放4 44 4重复F-Net经纱D-net相邻图像删除t%$t步骤1：单视图步骤2：深度采样和多视图深度概率特征匹配（第3.1）（第3.2）3.多视图深度概率（第3.3）4 4，W，深度概率4 4Wesley，特征4 4，W，深度概率四，四，W特征4 4，W，深度概率4 4Wesley，特征深度概率，W，2G-netD-net(b)网络输出D-Net深度采样G-Net（单视图）多视图匹配（多视图）(a)更新每像素预测GT GT GT图2.该图显示了拟议的管道。对于每个图像，D-Net估计单视图深度概率，F-Net提取特征。参考帧的D-Net输出用于对每像素深度候选进行采样，这些深度候选通过一致性加权多视图匹配进行评估。根据获得的薄成本-体积，G-Net更新初始深度概率分布的均值和方差，其可以反馈到深度采样模块以产生更准确的预测。（a）此图说明如何更新每像素预测。曲线和直方图分别表示所估计的深度概率分布和所采样的候选的匹配（b）该图显示了密集预测的更新（深度μ和不确定性σ）。3.2. 融合单视点深度概率与多视点几何在本节中，我们将解释单视图深度概率如何本节中描述的组件没有可学习的参数。概率深度采样。针对参考帧估计的单视图深度概率分布用于采样每像素深度候选。首先，我们为每个像素定义搜索空间[μu，vβσu，v，μu，v+βσu，v]，其中β是超参数。然后，我们将间隔分割成Ns个箱，使得每个箱共享相同数量的概率质量。这确保了在μu，v（即最可能的深度值）附近采样更多的候选值。然后选择每个区间的中点作为深度候选。因此，第k个深度候选du，v，k被定义为：du，v，k=μ u，v+b kσ u，v，均匀采样概率抽样图3. （左）均匀抽样和建议的概率抽样之间的比较。蓝色曲线表示单视图深度概率分布，红点表示采样的候选者。（右）深度对比图。时间加权对于参考帧I t中的像素（ut，vt），深度候选者定义3D点（标记为“t”）。该点被投影到相邻视图，并且评估每个视图。对于It−1，由于阻塞，Δ k不在μκσ之内。在这种情况下，一致性权重变为0其中b=1<$Φ−1。k −1P +1 − P衍生）。注意，{bk}的值仅取决于Nsk2Ns+ Φ−1kP +Ns21− P。（四）和β（即，它们不是逐像素计算的）。图3-（左）将建议的采样与均匀采样进行比较。由于我们只在β-sigma置信区间内进行采样，因此在评估时可以实现更高的准确性。由方程式 4，Φ−1（）是概率单位函数，P=erf（β/2）是区间[μ u，v± βσ u，v]覆盖的概率质量（详细信息请参见补充材料更少的候选人对于具有高不确定性的像素，候选者之间的间距增加，使得可以评估更大范围的候选者。“1”（t“1，t“1）普（t，t）价格$1（$1，$1）2846新u，vuik，v，dik伊克伊克ik××→→−××−u，vu，vN深度一致性加权。如果深度候选是正确的，则这意味着对应的3D点在某个场景元素（例如，对象）的表面上。如果该3D点在某个相邻视图中可见，则对应的单视图深度概率（从该视图估计的）应该高。假设这是真的（即，假设我们的D-Net是准确的），逻辑上等价的逆命题是“如果从相邻视图估计的深度候选的单视图深度概率低，则意味着深度候选是错误的或者它在该视图中不可见（例如，由于遮挡）"。对于这种情况，不应计算多视图匹配分数（参见图 1B ）。 3-（右））。为此，我们引入了多视图匹配分数的二进制µu，v+bk σu，v（见等式4）.由于µu，v和σu，v的值未在输入中编码，因此很难直接回归更新的均值和方差。相反，我们的G-Net估计归一化残差μ u，v/σ u，v. 例如，如果第k个深度候选的匹配分数高，则网络应该预测bk′，使得更新后的均值变为μu，v=μu，v+bk′σu，v。类似地，G-Net还估计σnew/σ u，v以更新方差。这为我们提供了每个像素的更新后的多视图深度概率分布（µnew，σnew）请注意，G-Net的输出可以反馈到采样模块，并且可以重复该过程以细化输出。已学习上采样。G-Net的输出是一张地图多视点深度分辨率概率分布su，v，k（I t）=iwdcfu，v（It），fu，v（I i）（五）H/4和W/4。为了恢复完整的分辨率，我们使用[45]中介绍的学习上采样层。图层的输入是D-Net的要素地图（请参见补充资料DCuik，vik，d ik=δ（puik，vik（d ik|I i）>pthres）。网络架构的材料）。一个轻量级的CNN估计H/4×W/4×（4×4×9）掩码和完整的分辨率。由方程式5，W直流如果单视图深度概率为1，每个像素处的分辨率深度被计算为加权和能力Puik，vik，dikuik，vik（d ik|（一）从评价第i个图像在上面它的粗分辨率邻居的3× 3迭代精化和网络训练。多-特定阈值Pthres，否则为0。我们称之为深度一致性加权。设置正确的阈值非常重要。如果它太高，它将使太多深度归零候选人，其中一个可能是正确的。We集视图匹配过程（即，通过G-Net的概率深度采样一致性加权匹配更新）被重复Niter次，产生Niter个预测。为每个pthres= exp（κ2/2）/σu ，vik2π，所以重量是-预测，NLL损失（等式2）计算，其和用于训练G-Net和上采样层。关注-dik在κ-西格玛置信区间内这意味着Pthres 是自适应的每像素和每-ing [45]，第i个预测由γNiter−i加权，其中风景如果D-Net不确定深度（即高σ），则pthres变低，允许考虑更多的深度候选。深度一致性加权丢弃具有低单视图深度概率的候选者。这种加权尤其在多视图匹配是模糊的或不可靠的时是有用的。例如，如果像素在无纹理表面内，则宽范围的深度候选将导致相似的匹配分数。如果场景包含反射表面，则将在反射之间计算匹配分数，从而导致高估深度。在这两种情况下，MaGNet都可以通过支持具有高单视图深度概率的深度候选来进行鲁棒预测。3.3. 多视点深度概率分布更新单视图深度概率分布。概率深度采样和一致性加权多视图匹配的结果是大小为H/4W/4的薄成本体积其中Ns是深度候选的数量。使用此作为输入，G-Net通过更新初始单视图分布的均值和方差来估计多视图成本-体积的每个元素su，v，k是针对第k个深度候选在像素（u，v）处计算0<γ <1，更强调最终输出。迭代细化在两个方面是有益的首先，如果其中一个候选人获得了高匹配分数，则均值将向该候选人移动，方差将减小，因此在下一次迭代中，网络可以在该候选人附近执行更精细的深度搜索，以找到具有更高匹配分数的更好候选人。迭代更新还可以防止D-Net预测不准确的故障模式例如，如果真实深度不在初始搜索空间[μu，v βσu，v，μu，v+βσu，v]内，则采样的候选者中没有一个将实现高匹配分数。在这种情况下，G-Net将学习增加方差以衰减损失（等式2）。2），并且网络可以在下一次迭代中执行更广泛的深度搜索4. 实验装置数据集和评价方案。我们在ScanNet上训练MaGNet[8]。ScanNet包含来自1613次扫描的270万视图。我们使用官方数据分割来训练和测试模型。为了评估泛化能力，我们对7-Scenes数据集的测试分割进行了跨数据集评估[38]，而没有进行微调。我们还在KITTI [15]上训练和测试了我们的方法，都使用了本征分裂[12]和官方分裂。对于所有评估，使用[12]中定义的指标测量深度准确度Wik2847×±联系我们×方法帽在ScanNet上训练→在ScanNet在ScanNet上训练→在7场景abs rel abs diffRMSErmse日志 δ< 1。25abs rel abs diffRMSErmse日志 δ< 1。25[46]第四十六话[第20话][24]第二十四话CNM-Net [30][41]第四十一话UCS-Net [6]Long等人 [29]第二十九话我们的（满）10m0.1116 0.2087 0.3143 0.1500 88.040.0986 0.1998 0.2840 0.1348 88.800.0941 0.1928 0.2703 0.1269 90.090.1102 0.2129 0.3032 0.1482 86.880.0915 0.1710 0.2390 0.1226 91.470.0845 0.1605 0.2335 0.1145 92.220.0812 0.1505 0.2199 0.110493.130.1905 0.3304 0.4260 0.2221 71.930.1675 0.2970 0.3905 0.20610.1631 0.2885 0.3791 0.1997 77.120.1602 0.2751 0.3602 0.2030 76.810.1548 0.2671 0.3541 0.1860 79.660.2113 0.3668 0.4683 0.2369 69.310.1465 0.2528 0.3382 0.1967 80.360.1186 0.2070 0.2708 0.1461 85.460.0810 0.1466 0.2098 0.110192.980.1339 0.2209 0.2932 0.1677 83.080.1257 0.2133 0.2957 0.1639 85.52[27]第二十七话Long等人 [29]第二十九话我们的（满）5m0.1013 0.1657 0.2500 0.1315 91.600.0805 0.1438 0.2029 0.1083 93.330.2334 0.4060 0.5358 0.2516 68.030.1465 0.2528 0.3382 0.1967 80.360.1177 0.1991 0.2526 0.1439 85.700.0804 0.1409 0.1960 0.1084 93.130.1339 0.2209 0.2932 0.1677 83.080.1257 0.2133 0.2957 0.1639 85.52表1. ScanNet [8]和7-Scenes [38]的定量评价。我们遵循[29]的评价方案。虽然MaGNet在ScanNet上的准确性与[29]相似，但我们表现出卓越的泛化能力，在所有指标上都优于其他方法实作详细数据。MaGNet使用PyTorch实现[33]。我们首先训练D-Net和F-Net（分别），并在训练其余组件时固定它们的权重。我们使用AdamW优化器[31]，并使用lr max = 3的1cycle策略[ 42 ]来调度学习速率。510−4。D-、F-和G-Net（加上上采样层）的批量大小分别为16/4/8。ScanNet的epoch数为5/2/2 [8]，KITTI的epoch数为10/5/5 [15]。对于室内数据集，我们使用五个图像的本地窗口，设置为10帧。对于KITTI [15]，我们使用三个图像，并将图像设置为两帧。超参数为β，κ，γ= 3。0，5。0，0。8在所有实验中除非另有说明，否则Ns和Niter5. 实验5.1. 与最新技术水平的ScanNet和7场景。选项卡. 1显示MaGNet在ScanNet [8]和 7-Scenes [38] 上都达到了最先进的性能。虽然ScanNet上的准确性与[29]相似，但我们的方法显示出优越的泛化能力。最先进的方法[27，29，30]在覆盖整个深度范围（例如0- 10米）的巨大成本-体积上操作。在这种情况下，网络可以学习特定于数据集的特性相反，MaGNet的成本-体积很小，每像素条目覆盖的深度范围很小，为μu，v βσu，v。输入的低维度使得网络不太容易过度拟合。与[27]（图4）的定性比较表明，MaG- Net对具有挑战性的伪影更具鲁棒性，例如方法多abs rel sq rel rmse rmse logδ<1。25MonoDepth 2 [16]×××✓×0.106 0.806 4.6300.19387.6[39]第三十九话0.099 0.697 4.4270.18488.9BTS [26]0.059 0.245 2.7560.09695.6AdaBins [1]0.058 0.190 2.3600.08896.4SC-GAN [47]0.063 0.178 2.1290.09796.1我们的（D-Net）✓×0.061 0.209 2.4220.09296.0我们的（满）0.054 0.162 2.1580.08397.1[27]第二十七话✓0.100 0.473 2.8290.12893.2我们的（D-Net）✓×0.063 0.254 2.4710.10295.8我们的（满）0.050 0.167 1.9710.08597.7表2.对KITTI的定量评价[15]。第二列显示该方法是否适用于多视图设置。我们使用本征分裂[12]，除了与[27]比较，我们使用官方分裂。我们的方法显示了最先进的性能。反射/无纹理表面和移动物体。请注意，虽然[27]每个像素评估64个深度候选，但我们只评估15个（5个候选3次迭代）。凯蒂选项卡. 2显示MaGNet优于KITTI上的最新方法[15]。KITTI是用于多视图深度估计方法的增强数据集，原因有两个：（1）图像通常包含移动对象，对于其违反多视图一致性;（2）相机通常在向前方向上移动，导致小基线（即，不太准确的多视图匹配）。然而，由于MaGNet使用单视图深度来限制深度搜索空间并强制执行深度一致性，因此它对此类伪影更具鲁棒性，如图所示。4.第一章2848Σ·≥（一）（b）第（1）款（c）第（1）款Input Image GT Depth Liu等./Depth Liu等/错误我们的/深度我们的/错误我们的/不确定性图4.与[27]的定性比较。通过提出的单视图深度概率融合，MaGNet可以对（a）反射表面，（b）弱纹理表面和（c）移动物体进行准确预测。估计的不确定性也与预测误差相关。更多示例请参见补充材料。5.2. 消融研究在本节中，我们进行消融研究，以确认所提出的概率深度采样、深度一致性加权和迭代细化的有效性。请注意，准确度报告在[13]提供的ScanNet [8]提出了单视点深度概率融合的有效性我们比较了多视图匹配的准确性和建议的概率采样和一致性加权。为确保公平比较，son ，直接从成本 -体积中评估准确性（通过应用softmax并求解du，v=k pu，v，kdk）。图5显示，这两种成分都导致显著的改善。在准确性上的证明。通过融合单视图深度概率，可以在评估较少候选者的同时实现更高的精度。请注意，一致性加权单独可以提高精度（对于Ns19）。这表明所提出的加权可以应用于对均匀采样的候选者进行操作的现有多视图深度估计方法。图6中的定性计算表明，所提出的融合使得多视图匹配对于具有挑战性的伪影（诸如反射和无纹理表面）更加鲁棒。迭代精化。我们还在Tab中报告了针对Ns（深度候选者的数量）和Niter（迭代次数）的不同值的完整流水线的准确性。3 .第三章。由于深度候选集中在估计的平均值附近，因此候选之间的间隔即使对于低Ns也很小。因此，增加Ns不会导致准确度的有意义的改善。相反，重复多视图匹配过程导致显著的改进。如果初始多视图匹配是不确定的（即，候选者之一实现了高匹配图5.提出了单视点深度概率融合的有效性。US、PS和CW分别代表均匀抽样、概率抽样和一致性加权.我们的完整模型（ PS+CW ）实现了更高的准确性，同时评估更少的candidates。每个图中的虚线显示了D-Net（单视图）的精度。当Ns = 1时，我们的完整模型等价于D-Net。如果没有建议的抽样和加权，RMSE不能低于D-Net，即使对于大Ns。不融合的输入图像GT深度没有融合与融合9候选人64候选人9候选人图6.所提出的单视图深度概率的融合使得多视图匹配对于具有挑战性的伪影（诸如反射表面（顶部）和无纹理表面（底部））更加鲁棒。分数），网络可以在下一次迭代中执行更精细的搜索。如果不成功，则方差增加，2849×× ××××±尼特Ns绝对值相对值平方相对RMSErmse日志δ1。25方法Nsabsrel sq rel rmse rmselogδ<1。25UCS-Net [6]UCS-Net + PS(64、32、8）（8，8，8）2019年12月31日2017年12月31日0.1200.11891.4990.74我们（5× 3、0、0）2019 - 04 - 2200：00：000.110 92.78表3.针对不同的Niter（迭代次数）和Ns（深度候选者的数量）值的精度。用小的Ns多次重复多视图匹配比用大的Ns执行单次匹配更好。当Niter≥ 3时，精度收敛。网络可以在下一次迭代中执行更宽的搜索。总之，用较小的Ns重复多次该过程比执行一次迭代更表4. 与级联成本基于体积的方法的比较[6]。Ns表示每个分辨率（H/ 4）中的样本数W/4、H/2W/2和HW）。与[6]不同，MaG- Net保持在粗分辨率（H/4W/4）。用建议的方法代替粗分辨率的初始均匀采样，概率采样（PS）产生类似的准确性，同时显著地减少训练时间和存储器消耗。更新方差，以便在下一次迭代中深度采样可以更精细或更宽因此，MaGNet可以处理单视图预测中的轻微不准确性。尽管如此，所提出的管道可能会在跨域评估中受到影响。例如，如果MaGNet在ScanNet上训练[8]大的N。由于多视点匹配是在低分辨率（H/4W/4）下进行的，并且只需要少量的样本，所以计算成本的增加很小。对于Ns=5，每个迭代在单个2080Ti GPU上花费11.23ms。当Niter≥3时，精度收敛。与级联成本基于量的MVS的比较。级联成本基于体积的MVS方法[6，17，51]使用由粗到细的深度采样。UCS-Net [6]使用基于不确定性的采样，因此与我们的方法相似。区别是双重的。首先，UCS-Net需要64个均匀采样的候选项来估计初始粗略深度图，而MaGNet仅从单视图深度概率分布中采样5个候选项。其次，UCS-Net以更高的分辨率执行下一个多视图匹配，而MaGNet保持在粗略的分辨率，仅评估5 2个额外的样本（即更有效的内存）。选项卡. 4比较了两种方法。我们还通过替换64个均匀采样的初始候选者，其中8个候选者从我们的D-Net预测（“UCS-Net + PS”）中采样。在所提出的概率采样的帮助下，USC-Net可以实现类似的精度，同时显著更快和更轻（例如，当在四个2080 Ti GPU上训练时，训练速度从17 fps增加到31fps，并且存储消耗从10.3GB/gpu减少到5.5GB/gpu）。我们的完整模型（具有一致性加权和迭代细化）的性能优于[6]的两个变体。局限性。MaGNet使用单视图深度概率分布来（1）对深度候选进行采样，（2）推断它们的深度一致性。然而，由于其固有的模糊性，单视图深度可能是不准确的。这就是为什么我们将这两个组件都设计为具有不确定性意识。我们还提出了迭代多视图匹配，其中G-Net（室内）并在KITTI [15]（室外）上测试，采样范围（即μ βσ）将不包括真实深度，即使在G-Net多次更新后。这主要是因为单视图网络很难推断场景的度量尺度。一个可能的解决方案是用尺度不变损失训练D-Net[12]，这样它就可以估计相对深度。然后，可以通过最小化重投影误差来获得每个图像的缩放因子。我们将在今后的工作中处理这一问题。6. 结论本文提出了一种将单视点深度概率与多视点几何信息融合的新框架，以提高多视点深度估计的准确性、效率和鲁棒性。具体而言，我们引入了概率深度采样，其中从单视图深度概率分布中对每像素深度候选进行采样，以及用于多视图匹配分数的深度一致性加权我们还提出了迭代多视图匹配，其中从当前深度概率分布中采样少量候选对象以更新其均值和方差。所提出的方法在扫描网络[8]、7场景[38]和KITTI [15]上显示出最先进的性能。消融研究表明，所提出的单视图深度概率的融合提高了多视图深度估计的准确性，效率和鲁棒性。谢谢。这项研究由东芝欧洲剑桥研究实验室赞助50.0970.0350.2170.12190.751790.0960.0960.0350.0350.2170.2170.1210.12190.8190.81110.0950.0340.2160.12090.9410.0970.0350.2170.12190.752350.0900.0870.0320.0310.2090.2070.1150.11392.1592.6140.0870.0300.2060.11392.732850引用[1] Shariq Farooq Bhat ， Ibraheem Alhashim ， and PeterWonka. Adabins：使用自适应箱的深度估计。IEEE计算机视觉和模式识别会议（CVPR），2021年。一、二、六[2] 原州韩曹，吴子峰，沈春华。使用深度全卷积残差网络从单目图像估计深度作为分类 IEEE Trans. 视频技术的循环和系统，28（11）：3174-3182，2017。3[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。欧洲计算机视觉会议（ECCV），2020年。2[4] 张嘉仁和陈永生。金字塔立体匹配网络。IEEE计算机视觉与模式识别会议（CVPR），2018年。3[5] 陈睿，韩松芳，许静，苏浩。基于点的多视点立体网络。在proc IEEE International Conference on ComputerVision（ICCV），2019年。2[6] Shuo Cheng，Zexiang Xu，Shilin Zhu，Zhuwen Li，LiErran Li，Ravi Ramamoorthi，and Hao Su.使用具有不确定性意识的自适应薄体积表示的深度立体声IEEE计算机视觉和模式识别会议（CVPR），2020年。一二三六八[7] Djork-Arne 'Clevert ， Thomas Unterthiner ， and SeppHochre- iter.通过指数线性单元（elus）进行快速准确的深度网络学习。 arXiv 预印本 arXiv ： 1511.07289 ，2015。3[8] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。IEEE计算机视觉与模式识别会议（CVPR），2017年。一二三五六七八[9] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale.在国际会议上学习表示（ICLR），2021年。2[10] Shivam Duggal ， Shenlong Wang ， Wei-Chiu Ma ， RuiHu，and Raquel Urtasun. Deeppruner：通过可区分的patchmatch学习有效的立体匹配。在Proc. IEEE国际计算机视觉会议（ICCV），2019年。3[11] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在Proc.IEEE InternationalConference on Computer Vision （ ICCV ）， 2015 中。一、二[12] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统进展（NeurIPS），2014年。一、二、五、六、八[13] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归网络在proc IEEE Confer-计算机视觉和模式识别（CVPR），2018年。一、二、七[14] 我是Furuk和CarlosHerna'ndez。多视图立体声

下载后可阅读完整内容，剩余1页未读，立即下载