深度网络增强置信图的有效性

61 浏览量更新于2023-10-15 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1增强置信图Matteo Poggi，StefanoMattoccia博洛尼亚计算机科学与工程系（DISI）Viale del Risorgimento2，博洛尼亚，意大利unibo.it，stefano. unibo.it摘要置信度测量估计不可靠的视差，如立体匹配算法所执行的，并且如最近证明的，可以用于多种目的。本文旨在通过深度网络提高最先进的置信度测量的有效性，利用局部一致性假设。我们对23个置信度指标进行了详尽的评估，其中包括5个基于随机森林和CNN的最佳性能指标，使用两种流行的立体声算法和KITTI2012数据集的一个小子集（194帧中的25帧）训练我们的网络实验结果表明，我们的方法显着提高了所有23个置信度措施的有效性此外，在没有重新训练的情况下，我们报告了对KITTI 2015和Middlebury 2014的进一步交叉评估，确认我们的建议即使在处理显著不同的输入数据时也能为每个置信度指标提供显著的改进据我们所知，这是第一种超越传统像素置信度估计的方法1. 介绍立体是从两个或更多个图像推断深度的流行技术，并且已经提出了几种方法来解决这个问题。然而，在具有挑战性的条件下的可靠性仍然是一个开放的研究问题和现实的数据集，如KITTI [7，17]和Middlebury2014 [29]，明确强调了这一事实。虽然某些故障（如遮挡[5]、低信噪比和降低的分辨率[14]）与立体声有内在联系，但在处理较差照明条件、反射表面等的实际应用中，对精度的影响会被放大。因此，确定每个推断深度点的可靠程度对于获得更多的平均值至关重要。(a)（b ）第（1）款(c)（d）其他事项图1. 通过我们的方法处理PKRN进行置信度预测[11]。(a)参考图像，（b）视差图，(c)原始PKRN度量。（d）相应的置信度图，PKRN+，由我们的框架计算。更自信的点用更亮的值编码，视差图用彩色图喷射。有效的3D数据用于后期处理阶段。此外，有效的置信度度量可以用于其他目的。例如，为了提高立体精度[6，23，22，25，30]或深度传感器融合[15，18]。在[ 11 ]中回顾和评估的信心措施是根据不同的策略推断的：根据输入立体对的分析，匹配成本曲线或视差图。最近，一些作者[9，31，22，25]提出了基于机器学习技术的有效置信度度量。这些方法的共同点是联合使用从视差图和/或成本体积中提取的多个置信度测量和/或手工制作的特征，这些特征被馈送到在具有地面实况的一小组立体对上训练的随机森林分类器。最近，已经推断出置信度测量[26，30]使用CNN（卷积神经网络）处理视差图。24522453这些事实促使我们研究机器学习框架是否可以用于提高利用局部连续性的置信度测量的有效性，利用附近点内的可用信息，如大多数计算机视觉算法所假设的那样为此，给定输入置信度，我们的框架通过CNN分析其局部行为，CNN在具有地面真实的数据集子集上进行训练，以提供更有意义的估计。具体而言，通过学习置信度图上的信息模式，网络能够从局部补丁中推断出更好的估计，如图所示1. 在我们的实验评估中，我们考虑了23种最先进的置信度度量，一旦在KITTI 2012（KITTI 12）训练数据集的194张图像中的25张上训练了网络，我们就评估了我们的方法在剩余图像上产生的改进此外，在没有重新训练网络的情况下，我们对KITTI 2015（KITTI15）和Middlebury 2014（Middlebury 14）进行了进一步这种广泛的评估表明，利用局部一致性能够显著提高所有23种最先进的置信度测量，包括基于机器学习的置信度测量，对所有考虑的数据集，甚至处理以前从未见过的图像内容（例如，在Middlebury 14数据集上）。据我们所知，这是第一种利用局部一致性假设进行置信度测量的方法，该方法超越了现有技术所采用的传统的基于点的策略。实验结果表明，本文提出的端到端的基于CNN的框架，清楚地证实了这种策略的有效性。2. 相关工作在文献[4，5，11]中提出了许多立体声的置信度测量。在Hu和Mordohai [ 11 ]提出的综述中，根据用于增加深度可靠性的线索，将这些措施分为六个主要组：匹配成本的分析、成本曲线的局部特性、成本曲线内的局部最小值的分析、匹配曲线的分析、左右视差图之间的一致性以及基于独特性的度量。同一作者还定义了基于ROC曲线分析的评估方案，并报告了室内[28]和室外[32]数据集的结果。信任措施可用于若干目的;例如检测不确定的视差分配[23，27]和遮挡[10，19]，提高深度不连续附近的精度[6]，提高整体视差图精度[12，20，8，22，25]以及用于传感器融合[15，18]。利用机器学习技术的更有效的置信度测量，显着优于[11]中评估的传统独立方法。特别地，在[9，31，22，25]中，通过向随机森林馈送特征向量来推断视差分配的可靠性。包含多个置信度测量[9，31，22]和/或从视差图[31，22，25]中提取的手工制作的线索。与独立的信心措施相比Entrance[9]，GCP[31]，Park[22]和O1[25]实现了O1的显着改进，基于仅来自视差图的特征，优于基于随机森林的其他方法[25]。深度学习技术最近也被用于处理置信度预测和立体匹配。关于第一个目标，在[30]中，使用CNN分析从左右和左右视差图中提取的手工特征来推断在[26]这种抽象策略被向前推进，用CNN从头开始从原始左右视差图中推断置信度。这两种方法都优于形式公园[22]。最后，在[21]中描述了一种旨在通过利用深度图中的多个视点和矛盾来从立体序列推断训练数据的方法。关于CNN的立体声，在[34]中提出了如何学习通用的相似性函数和[35，36]中提出了基于块的匹配成本。后一种策略被证明是非常有效的，再加上自适应成本聚合策略[37]和基于SGM的差异细化步骤[10]，在KITTI 12和15数据集上具有出色的性能在[36]中提出的架构比准确的架构快约80倍，在两个KITTI数据集上错误率的增加小于1%。使用CNN进行基于补丁的成本计算的其他快速架构是[1，13]，而Mayer等人。[16]提出了用于立体匹配的第一个后一种方法所需的大量训练样本通过部署一个大型但现实的合成数据集来解决最后在[24] CNN被训练来组合多个立体声算法的结果，以获得更准确的结果。近年来的研究表明，有效的置信度和立体声的联合使用可以提高准确性。在[31]中，修改了具有较高估计可靠性的点的匹配成本，以便看起来像理想的成本曲线，然后通过MRF框架来细化整个成本量。在[22]中，根据每个点的估计可靠性调制成本曲线，在[25]中，部署沿每个SGM扫描线的估计置信度最后，在[30]中，将推断的置信度插入SGM [10]以动态改变参数P1和P2。3. 该方法这项工作旨在提高独立置信度测量的可靠性，从它们的局部行为有效信息模式中学习，假设对于大多数计算机视觉算法来说，局部性很重要。考虑到参考图像和视差图2454K是局部一致的，我们期望置信图有类似的行为。此外，我们期望不同的置信度措施来暴露特定的局部模式，这些模式可以通过专门的培训来识别。为此，我们在一个深度网络上进行了杠杆作用，在具有地面真实性的数据集上进行了适当的训练，旨在为每个检查的置信度测量学习和检测在具有挑战性的立体声对上的详尽实验结果证实，所提出的策略能够显著提高最先进的置信度措施的有效性。3.1. 加强本地一致性置信度度量k将值分配给像素p，图2.提出了CNN架构来预测匹配可靠性，在输入置信度图上执行局部一致性。Ck（p）−minp∈LCk（p）根据Ck，取参数1Mk（p）=maxp∈LC（p）−minp∈L（二）Ck（ p）匹配成本曲线c、立体对的参考左图像L和右图像R、分别使用L和R作为参考获得的视差图DL和DR。Ck（p）=f（c（p），L，R，DL，DR）（1）排除基于机器学习的最近的方法，可以通过分析匹配成本、成本曲线或整个曲线的局部属性、局部最小值、左右视差图之间的一致性以及图像像素之间的独特性来获得传统的置信度测量[11]通常，更复杂的分析允许实现更准确的正确性预测。例如，匹配分数度量（MSM）[11]是最简单的置信度度量，仅依赖于最小匹配成本值。它已被采用为基线方法，表明大多数其他置信度测量优于它[11]。另一个基于非常简单的分析的是左右一致性（LRC）[11]，旨在检测左右差异图之间的不一致点。该测量在深度不连续性附近表现得非常好，并且主要用于检测被遮挡的像素。然而，由于其离散化的性质，它不是很有信息性这两种测量通常在存在一些众所周知的立体匹配问题时失败，例如低纹理区域或重复图案，其中根据MSM，与最小值的作用一致的多个局部最小值将产生高置信度类似地，不存在不连续性可能导致LRC将像素标记为置信，即使它在两个图上具有错误的视差。在我们的建议中，为了预测执行局部约束的视差分配的正确性，用置信图对匹配可靠性进行编码是有用的。也就是说，给定置信度量k，对于属于参考图像L的每个像素p，置信图Mk∈[0，1]如下获得通过观察置信度图，我们可以注意到，某些度量显然没有显示出独特的模式，对人类观察者来说看起来像是嘈杂的图像。相反，其他一些则清楚地呈现出与视差图的特定特征相关的这种独特图案。从这些观察开始，我们假设可以利用置信图的局部属性，通过学习每个度量的特定图像模式来提高其相对于原始对应物的可靠性。在像素p的邻域内，这样的性质在以下条件中寻求分析以p为中心的N×N块的置信度图Mk使用CNN，经过训练以推断新的置信度估计，对于检查点。3.2. 深度网络架构为了学习局部一致的置信度预测，我们建议训练一个自定义CNN，使用从置信度图中提取的图像补丁为正在研究的像素为此，我们依赖于如图2所示的深度网络架构。为了推断最终的像素置信度得分，在我们的实验中，我们评估了由不同卷积层组成的不同CNN架构，这取决于网络的感知场和全连接层。卷积层通过应用来自前一层馈送的输入特征图的3×3核，全连接包含n个神经元。罪恶-最终神经元负责回归阶段。每一层后面都有激活算子，特别是我们使用了整流器线性单元（ReLU），并在最后一个神经元的输出上应用了Sig-moid算子。在成功部署CNN用于立体声[36]和置信度估计[26]之后，我们选择了卷积核固定的3×3大小，我们没有包括任何池运算符。我们建筑的其余超参数，例如感知场的大小和神经元的数量，在实验阶段已经被调整2455MKM（p）kN×NM（p）kM（p）k22给定一个大小为N×N的补丁，称为PN×N，例如来自以像素p为中心的置信度图Mk，网络预测的值为：Mk+（p）=F（PMk （p））∈[0，1]（3）其中F（PN×N）是网络处理PN×N的输出。根据这个术语，我们将参考例如PKRN置信度的学习版本PKRN+（PKRN+）。在测试中，在网络经过训练后，我们将全连接层替换为由1× 1内核组成的卷积层。这个新模型在功能上与用于训练的模型相同，但是，对于相同的网络，它允许处理不同大小的输入，从而实现单精度的训练。该算法通过全分辨率置信图Mk的角向前传递，而不是转发所有单个P-N×N块。该策略大大减少了获得最终置信图M k+所需的时间。池的情况下，允许我们通过根据感知场的大小对原始M k应用零填充来保持全分辨率输出。4. 实验结果在本节中，我们将详细描述在KITTI 12[7]数据集。然后，我们在KITTI和Middlebury数据集上将学习到的置信度与原始的置信度进行比较。特别是，我们通过分析KITTI 12剩余图像的曲线下面积（AUC）[11]来评估正确性预测方面[7]数据集以及整个KITTI 15 [17]和Mid-dlebury 14 [28]数据集，而无需重新训练网络。由于训练和AUC评估需要地面实况，如该领域常见的[9，22，26，25]，对于每个考虑的数据集，我们依赖于KITTI 12的评估训练集（194张图像，25张用于训练，169张用于训练用于测试）、KITTI 15（200张图像）和Middlebury 14（15张图像）。此外，我们根据两种算法的输出计算置信度：AD-CENSUS，整合匹配成本（使用Hamming分解计算），在5× 5的固定支持区域上对5 ×5普查变换图像块进行测量），以及MC-CNN算法[36]。4.1. 训练阶段对于每个置信度，我们训练CNN，KITTI 12数据集的子集，根据随机梯度下降，以最小化二进制交叉熵，批量大小设置为128块。每个网络运行15个训练时期，学习率等于0.003，在第11个时期之后减少10倍，1 可在 http ： //vision 上获得源代码和经过训练的网络。disi.unibo.it/http：//www.example.com0.9，并在训练阶段之前打乱训练示例。网络模型和训练阶段已使用Torch 7框架实现[2]。在我们的实验中，我们测试了不同数量的训练数据以生成学习的置信度图，并且我们在考虑25个立体图像时取得了最佳结果（即，从帧000000到000024）的KITTI 12数据集[7]。增加训练集并没有显著提高学习的置信度测量的质量。从这25帧中，我们提取了以像素为中心的具有可用地面实况的补丁，为每个置信度测量获得了大约270万个样本。补丁集中在视差误差≤3的点（遵循[7，17]中建议的阈值）被标记为置信度并编码剩下的都是零在我们的评估中，我们考虑了18种最先进的独立置信度测量和5种基于机器学习的方法。第一组是：匹配分数测量（MSM）、峰值比率（PKR）和峰值比率朴素（PKRN）、优胜者边际（WMN）和优胜者边际朴素（WMNN）、负熵测量（NEM）、拐点数（NOI）、最大边际朴素（MMN）、最大似然测量（MMN）（MLM）、属性最大似然（AML）、曲率（CUR ）、局部曲线（LC ）、左右一致性（LRC）、左右差异（LRD）、区别相似性度量（DSM）、唯一性约束（UC）、自我意识匹配度量（SAMM）和扰动（PER）。除PER [9]、UC [3]和LC [33]外，其他置信度指标已在[11]中进行了审查。考虑到具体的参数设置，我们设置σ MLM=0。3和σ AML= 0。对于LC，sPER= 120，γ= 480。SAMM已计算，它的对称版本，在范围[−dmax，dmax]内，正如作者所建议的。关于基于机器学习的置信度测量，我们考虑了Encriminal [9]（具有23个特征的更有效配置），GCP[31]，Park [22]（具有22个特征的更有效配置）以及[25]和[26]中提出的两种方法，分别称为O1和CCNN。我们完全按照每篇论文中报告的指导方针实现了这5种方法，并根据我们的建议，在KITTI 12数据集的相同25张图像上训练了每一种方法。在被馈送到深度网络之前，每个置信图都根据等式2进行了归一化。在第4.2节和第4.3节中报告的AD-CENSUS的AUC值以及在第4.4节中报告的MC-CNN的AUC值是通过调整我们的网络的先前描述的超参数获得的，如下所示：9 × 9感知视野，f= 128每个卷积层的核数，n= 384个神经元（即，1×1个内核）。9× 9的感知领域能够实现平均最佳的每-2456AUCkAUCk+AUC选择0.35 0.350.40.30.30.350.30.250.250.250.20.20.20.150.150.150.10.10.1(a)（b）（c）图3.使用AD-CENSUS对3个考虑的数据集进行18个独立置信度测量的平均AUC（a）对排除在训练之外的KITTI 12图像（169帧，从000025到000193）进行评价，（b）对KITTI 15数据集（200帧）进行评价，（c）对Middlebury 14数据集（15帧）进行评价。蓝色表示与原始置信度相关的AUC（例如， AUCPKRN），绿色表示与其学习到的对应物相关的AUC（例如，AUCPKRN+）。红线显示根据5计算的最佳AUC值（AUCopt）。信心测量KITTI 12（169/194）AUCkAUCk+AUCkKITTI 15（200/200）AUCkAUCk+AUCkMiddlebury 14（15/15）AUCkAUCk+AUCkPKRN0.2316820.18740735.74%0.2204580.154534百分之四十九点九0.1523590.11224847.76%PKR0.2511320.15566466.61%0.2228270.13469365.54%0.1443490.10184855.94%MSM0.2749190.21180337.77%0.2603290.20206233.88%0.1866040.166312百分之十七点一六MMN0.2442500.16733456.37%0.2369900.15302656.49%0.1621090.11509750.15%WMN0.2241460.14887664.70%0.2023900.13041063.12%0.1270150.09942447.05%传销0.2734790.21959332.52%0.2579400.20442131.56%0.1809030.16490114.22%每0.2609780.21007633.23%0.2403240.19830327.65%0.1716920.15346017.65%NEM0.3862110.31474225.67%0.3287610.295701百分之十三点七五0.3071480.25992219.78%LRD0.2406650.16534256.69%0.2328310.15024457.16%0.1531810.11045750.38%CUR0.3555820.17655272.25%0.3160480.15722169.76%0.2238980.12390464.30%DSM0.2745790.21173137.68%0.2600620.20207533.77%0.1861570.16648916.70%AML0.2870190.16923965.72%0.2656260.15529962.23%0.2196050.11653468.16%NOI0.4194410.31163134.59%0.3457560.308789百分之十四点三六0.3406090.27645723.57%SAMM0.2044910.15028756.06%0.1714750.1217659.81%0.2144490.13329855.55%WMNN0.2231390.16205852.96%0.2111460.150363百分之四十九点五0.1441320.10927146.01%LRC0.2429110.15951261.73%0.2181560.14745854.47%0.1748060.12064550.89%LC0.3352980.18349666.73%0.3036910.16467064.56%0.2110850.12146462.80%UC0.2969170.16590069.28%0.2636510.14608167.07%0.2156780.10445975.50%最优0.1078020.0883570.068375表1.使用AD-CENSUS对3个考虑的数据集进行18个独立置信度测量的平均AUC。最后一行报告最佳AUC。该表分为三个块：左侧块报告对排除在训练之外的KITTI 12图像的评价（169帧，从000025到000193），中间块报告对KITTI 15数据集的评价（200帧），右侧块报告对Middlebury 14数据集的评价（15帧）。每个块包含原始测量的AUC（AUCk），其学习的对应物（AUCk+）和我们的建议产生的改进（AUCk），相对于AUCopt，根据公式5计算。AUCkAUCk+AUC选择AUCkAUCk+AUC选择根据NEMLRDCURDSMAMLNOISAMMWMNNLRCLC，UC根据NEMLRDCURDSMAMLNOISAMMWMNNLRCLC，UC根据NEMLRDCURDSMAMLNOISAMMWMNNLRCLC，UC2457表演。由此产生的CNN架构具有超过60万个参数，并且具有KITTI数据集的全分辨率置信度图，它仅需要5GB内存和约0.1秒即可使用Titan X GPU推断新的置信度估计。最后，我们强调的事实，在我们的实验评估-评估我们对KITTI 12数据集的25个图像执行单个训练过程，即使在处理不同的数据集（例如，KITTI 15和Middlebury 14）和KITTI 12的剩余169个图像时。2458K(a)（b）（c）（d）图4.三个独立的信心措施和他们的学习同行的定性比较（a）参考图像，（b）由AD-CENSUS计算的视差图，（c）PKR和（d）学习的PKR+。置信度越高，亮度越高。视差图用colormap jet编码。4.2. 独立置信度评价我们评估了进行ROC曲线分析的置信度测量的有效性，这是该领域常用的评估方案[11，9，31，22，26，25]。特别地，给定置信度图，图像点根据其置信度值以降序排序。然后，提取前5%，并且将误差率计算为具有大于3的视差误差的像素的数量之间的比率（对于KITTI数据集[7，17]建议的标准阈值，也在Middlebury 14上保持为AUC见表1。每一行都与一个独立的置信度指标相关，最后一行包含AUCopt值。该表分为三个主要部分，每个部分与图3所示的图表之一相关（左：KITTI 12，中：KITTI 15，右：Middlebury 14）.对于每个数据集，每行报告原始置信度测量AUCk、学习的对应AUCk+和改进在5中定义的，由我们的框架相对于最佳AUC（即，AUCopt，表的最后一行）。AUCk− AUCk+符合培训协议）和当前处理的点，对前10%、15%AUC=AUC-AUCopt（五）通过包括具有相同置信度值的所有像素来管理关系（导致水平曲线）。 AUC对置信度的有效性进行编码：AUC越低，估计越好。给定disparity map中错误像素的百分比，在我们的实验中设置阈值3，可以获得最佳AUC值[11]：AUCopt=λ+（1−λ）ln（1−λ）（4）图3总结了在我们的评估中涉及的3个数据集上使用AD-CENSUS的实验结果。在左边，我们报告了关于KITTI 12数据集的结果（194个中的剩余169个立体声对，25个用于训练），在中间，我们报告了关于KITTI15数据集的结果（200个立体声对，没有涉及训练），在右边，我们报告了关于Middlebury 14数据集的结果（15个立体声对，没有涉及训练）。给定属于所考虑的18个独立度量的池的置信度量k，描绘了两个条形，与原始度量（AUCk，蓝色）和通过我们的框架处理后获得的平均AUC（AUC+，绿色）相关。红线代表根据公式4计算的最佳值（AUCopt）。AUC越接近AUCopt，置信度测量越有效。图3中的图表显示，我们的方法总是提高每个置信度度量的有效性，在所有数据集上实现较低的AUC为了更清楚地了解我们的框架所带来的好处，我们详细报告了根据5，给定置信度，ak =通过我们的框架获得最佳AUC opt，可以实现100%的改进。关于KITTI 12数据集上的评估，我们可以观察到WARK如何总是大于25%。特别是，最差情况由NEM测量值表示，NEM+ 25.67%的AUC更接近原始版本的 AUCopt 对于 6 个测量（即， PKRN ， MSM ，MLM，PER，DSM和NOI），我们的框架产生了30%和50%之间的改进，对于其余11个指标，我们报告了重大改进，CUR与CUR+相比高达72.25%。将分析扩展到其余数据集，对于所有检查的置信度测量确认相同的行为。特别是，观察关于KITTI 15数据集的结果，NEM和NOI产生较小的改进，分别为13.75%和14.36% ， PER+ 实现了接近 30% 的改进， 5 个测量（即，PKRN、MSM、MLM、DSM和WMN）获得了30%至50%的收益，其余措施产生了重大收益，部署CUR + 的收益高达 69.76% 。最后，我们报告了对Middle- bury 14的进一步交叉验证，最具挑战性的数据集由室内场景组成，与训练阶段看到的KITTI 12的25个室外场景完全不同。在这种情况下有6个度量（即，MSM、MLM、PER、NEM、DSM和NOI）的平均得分在14%至30%之间，PKRN、WMN和WMNN在30%至50%之间，其余9项指标显示出重大改善，UC +达到74.91%。K24590.220.20.180.240.220.180.160.140.160.140.120.20.180.160.140.120.120.10.10.080.10.080.06(a)（b）（c）图5.基于AD-CENSUS对3个数据集的机器学习的5个置信度指标的平均AUC（a）对排除在训练之外的KITTI 12图像进行评价（169帧，从000025到000193），（b）对KITTI 15进行评价（200帧），（c）对Middlebury 14进行评价（15帧）。蓝色表示原始置信度测量的AUC（例如，AUCGCP[31]），绿色表示与其学习到的对应物相关的AUC（例如，AUCGCP+）。红色表示根据4计算的最佳AUC值（AUCopt）。信心测量KITTI 12（169/194）AUCkAUCk+AUCkKITTI 15（200/200）AUCkAUCk+AUCkMiddlebury 14（15/15）AUCkAUCk+AUCk[9]第九话0.2149290.12768281.44%0.1865040.10999177.96%0.2452270.16365646.12%GCP [31]0.1527640.13807832.66%0.1396110.12428629.90%0.1093020.09836726.71%公园[22]0.1440770.13239332.21%0.1316620.11752932.64%0.1041460.094084百分之二十八点一三[25]第二十五话0.1276450.12469514.87%0.1088120.105893百分之十四点二七0.0909080.08644419.81%[26]第二十六话0.1236120.12125714.90%0.1056450.10364511.59%0.0860820.0844859.01%最优0.1078020.0883570.068375表2.基于机器学习的5个置信度指标的平均AUC，基于AD-CENSUS的3个数据集。该表分为三个块：左侧块报告对排除在训练之外的KITTI 12图像的评价（169帧，从000025到000193），中间块报告对KITTI 15的评价（200帧），右侧块报告对Middlebury 14的评价（15帧）。每个块包含原始测量的AUC（AUCk），我们的框架的结果（AUCk+）和我们的建议产生的改善（AUCopt），根据公式5计算。图4提供了在来自Middlebury 14的Piano立体声对上PKR置信度测量与其学习的对应物PKR+之间的定性比较通过观察图，我们可以清楚地注意到我们的框架利用局部一致性所带来的改进。置信值更加平滑和一致（例如，地板，灯罩，钢琴和它的长凳）。此外，我们还可以注意到我们的框架如何从原始置信度测量的严重失败中恢复（例如，在图像的右上角处的壁的部分4.3. 基于机器学习一旦评估了我们关于独立措施的建议的有效性，我们就扩展了我们的评估，考虑了5种基于机器学习的最先进的置信度措施：[9]，[10]，[11]，[12]，[13]，[14]，[15]，[16]，[17]，[19]，[ 如前所述，我们采用相同的培训和测试方案进行评估。在这种情况下，我们训练原始的5个已考虑的置信度AUCkAUCk+AUC选择AUCkAUCk+AUC选择AUCkAUCk+AUC选择GCP合奏公园O1CCNN合奏GCP公园O1CCNN合奏GCP公园O1CCNN2460在用于训练我们的框架的相同25张图像上（KITTI 12的000000到000024帧）。图5显示了根据第4.2节中描述的相同方法，在表2中详细报告的AD-CENSUS的三个数据集的结果。观察图，我们可以清楚地注意到，我们的建议在所有三个数据集上都显着优于5个原始置信度。对于表现最好的置信度O1和CNN，改进也是显著的，在最坏的情况下分别大于14%和9%。对于其他3个置信度指标，在最坏的情况下，Park的改善大于28%， GCP的改善几乎为27%，Entrance的改善大于46%，在最好的情况下，我们的框架改善了 81% 以上有趣的是，学习的Entrance+置信度能够在KITTI 12和KITTI 15上优于原始GCP和Park方法这一进一步的评估证实了我们的建议的有效性，即使是基于机器学习的5个此外，比较表1和表2中报告的结果，2461555045403530255 10 15 20 25 30 35图6.平均改善额k（%）在Middlebury 14，来自KITTI 12的不同数量的训练数据（前5、15、25和35帧），带有AD-CENSUS。2，我们可以注意到，通过我们的建议，一些独立的置信度度量能够优于基于机器学习的方法。特别地，除了KITTI 12上的MLM+、NEM+和NOI+，KITTI 15上的MSM+、MLM+、PER+、NEM+、DSM+和NOI+，+在Middlebury 14街GCP优于KITTI 12上的WMN+和SAMM+， KITTI 15上的PKR+、WMN+和SAMM+，KITTI 15上的PKR+、WMN+、WMNN+和14.第 14章.公园是优于WMN+和SAMM+的 KITTI 15，由PKR+和WMN+的德莱伯里中期2014年。这意味着所提出的框架不仅能够显着提高每个所考虑的置信度的有效性，而且在许多情况下，它能够通过处理单个置信度来实现更准确的预测，而不是通过组合多个置信度来实现，如三种机器学习方法Entrance [9]，GCP [31]和Park [22]所做的。最后，我们在图6中报告了我们的网络在Middlebury 14上实现的训练数据作为训练数据量的函数。观察图，我们可以注意到，我们在25帧的情况下获得了最佳性能，更有趣的是，我们的网络只在5帧上训练，平均提高了35%以上。4.4. 使用MC CNN进行评估在表3中，我们提供了与最先进的成本函数MC-CNN [35，36]相关的其他实验结果。我们在相同数量的数据上训练我们的网络（即， KITTI 12数据集的25个图像），并遵循与AD-CENSUS al-tax m采用的相同交叉验证方案。由于空间有限，我们只报告了MC-CNN在三个数据集上的平均改进率。该表证实，即使使用更准确的MC-CNN算法，我们的建议也能在23个检查的置信度指标其中CURk的范围从10%（最差情况下为LC+）到大于77%（最好情况下为CUR+ 专注于AP-表3. 我们的建议在三个数据集上使用MC-CNN [36]产生的平均改进bankk我们还可以注意到，我们的建议从10.6%（最坏情况下的CCNN +）提高到74%以上（最好情况下的Encron+5. 结论在本文中，我们提出了一种方法，旨在提高利用局部一致性的立体声的置信度措施的有效性。我们的框架利用深度网络，能够学习和改进置信度度量的局部行为，据我们所知，它是第一种超越其他方法执行的单像素置信度估计的详尽的实验评估与两个立体算法，包括交叉验证的两个额外的数据集，表明我们的方法能够显着的改进，对每一个23个国家的最先进的信心措施和每个数据集。这证实了本文的假设：置信图是局部一致的，深度网络可以学习如何利用这一事实。特别是，基于机器学习的最先进的置信度测量报告的结果进一步接近最优性，为该领域的进一步改进铺平了道路。测量KITTI 12KITTI 15Middlebury 14PKRN+百分之六十六点五60.8%百分之二十九点一PKR+百分之六十九点二百分之五十四点七百分之二十三点四MSM+百分之三十四点四百分之二十一点九百分之二十三点四MMN+百分之五十二点五41.4%40.6%WMN+73.1%59.4%百分之二十三点七传销+百分之十七点八13.5%百分之十四点四PER+百分之四十三点六百分之三十三点九百分之四十二点三NEM+46.6%32.5%百分之三十四点三LRD+百分之五十一点八41.1%百分之四十四点八CUR+百分之十一点四百分之四十九点九百分之七十七点一DSM+百分之三十六点二百分之二十三点六百分之二十四点三AML+63.5%百分之五十三点四51.1%NOI+46.1%百分之三十三点九百分之二十八点九2462引用[1] Z. Chen，X.孙湖，澳-地Wang，Y. Yu和C.煌立体匹配代价的深度视觉对应嵌入模型在IEEE计算机视觉国际会议论文集，第972-980页，2015年。2[2] R. Collobert，K. Kavukcuoglu和C.法拉比特Torch7：类似matlab的机器学习环境。在BigLearn中，NIPS研讨会，2011年。4[3] L. Di Stefano，M.Marchionni和S.马托西亚一种快速的基于区域的立体匹配算法。图像与视觉计算，22（12）：983-1005，2004. 4[4] G. Egnal，M. Mintz和R. P·王尔德使用单视图图像的立体置信度度量在proc VISION INTER-FACE，第162-170页，2002年。2[5] G. Egnal和R. P·王尔德检测双眼半遮挡：五种方法的经验比较IEEE模式分析与机器智能学报（PAMI），24（8）：1127-1133，2002年。一、二[6] F.加西亚湾米尔巴赫湾E. Ottersten，F. Grandidier，和A.奎斯塔深度传感器数据融合的像素加权平均策略。在ICIP中，第2805-2808页。IEEE，2010。一、二[7] A. Geiger，P. Lenz，C. Stiller和R.乌塔松视觉与机器人技术的结合： Kitti 数据集。 Int. J. Rob 。 Res. ， 32（11）：1231 一、四、六[8] R.盖拉尔迪用于立体匹配的基于置信度的成本调制。模式识别，2008年。ICPR 2008年。第19届国际会议，第1-4页，2008年12月。2[9] R.霍伊斯勒河Nair和D.康德曼立体视觉中置信度测量的包围学习。在CVPR中。 Pro-CELLS，第305-312页，2013年。1. 一、二、四、六、七、八[10] H.赫什穆勒基于半全局匹配和互信息的立体图像处理。IEEE Transactions on Pattern Analysis and MachineIntelligence（PAMI），30（2）：328 2[11] X. Hu 和 P. Mordohai. 立体视觉置信度 IEEE PatternAnalysis and Machine Intelligence（PAMI），第2121一二三四六[12] D. Kong和H.涛.一种学习立体计算中匹配误差英国机器视觉会议（BMVC），2004年。2[13] W. Luo，中国茶条A. G. Schwing和R.乌塔松用于立体匹配的高效深度学习。在Proc. CVPR，2016中。2[14] R. Manduchi和C.托马西用于图像匹配的独特性图图像分析与处理，1999年。程序。国际会议，第26-31页。IEEE，1999年。1[15] G. Marin，P. Zanuttigh，and S.马托西亚由置信度度量驱动的飞行时间和立体深度的在Computer Vision-ECCV2016 - 14th European Conference ， Ambass

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

深度网络增强置信图的有效性

深度图像增强

基于深度学习算法的图像边缘增强处理.pdf

关于贝叶斯和卷积神经网络的结合的总体研究概述

请写出一个Yolov5

YOLOv5网络详细介绍

可以在yolov8上改动哪些创新点

yolov3识别数字

yolov5核心算法分析

请详细介绍YOLOv3模型

yolov5 检测画面 未响应

torch1.7 yolo

YOLOv5主体框架

yolov7 如何实现道路缺陷检测？

yolov5小人脸检测

旋转目标检测yolov5

写一个yolov5算法整体介绍

yolov5中c3模块的作用

classification2023

out-of-distribution

NanoAirline航空公司管理系统.zip

最新资源

yolov5 检测画面未响应