没有合适的资源?快使用搜索试试~ 我知道了~
4641基于恒定高速公路网络和反射置信度学习Amit Shaked1和Lior Wolf1,21以色列特拉维夫大学布拉瓦特尼克计算机科学学院2Facebook人工智能研究摘要我们提出了一个改进的三步流水线的立体匹配问题,并在每个阶段引入多个新奇。我们提出了一种新的高速公路网络架构,用于计算匹配成本在每个可能的dispar- ity,多级加权残差捷径的基础上,训练的混合损失,支持多级比较的图像补丁。然后引入了一个新的后处理步骤,该步骤采用第二个深度卷积神经网络来汇集来自多个差异的全局信息。该网络输出图像视差图(取代传统的置信度得分是通过使用我们称为反射损失的新技术训练网络来实现的。最后,为了更好地检测细化步骤中的离群值,采用了学习的置信度。建议的管道实现最大和最具竞争力的立体声基准的最先进的精度,和学习的信心,表现出超越所有现有的替代品。1. 介绍用于立体匹配的现代流水线在最具挑战性的基准测试中实现了最先进的结果,包含用于计算匹配分数的深度神经网络和一些启发式后处理步骤。这些处理步骤的主要目标是整合空间信息,以便验证所提出的匹配的可验证性,并选择性地平滑和细化所获得的结果。我们提出了改进深度匹配网络的方法,其中包括采用多级跳过连接结构和固定为常数的门控信号的高速公路网络[32]的变体。分析了这种结构,并提出了实验结果表明,支持其优势,许多现有的残差网络替代品[16,6,18,32]。为了计算视差图像,引入了第二个网络来取代输出.视差预测的置信度度量一直是大量研究的主题。更一般地说,CNN输出的正确性也是一个放大镜下的主题。我们提出了一种新的训练信号,我们称之为反射损失。用于这种损失的标签是动态变化的,基于CNN在每个训练样本上的当前成功。在我们的情况下,当网络在训练期间针对给定示例预测的视差是正确的时,样本的目标置信度标签为1,否则为0。所获得的信心是一个关键的一部分,后续细化步骤的管道,在其中,我们检测不正确的视差预测,并取代他们插值相邻像素。本文的贡献是:(一)公司章程; 3.提出了一种新的用于补丁匹配的高速公路网络结构,包括多级恒定高速公路门控和控制网络感受野的缩放层(ii) 该网络使用新的混合损失进行训练(第二节)。3.3)更好地使用预防-决策网络体系结构。(iii)通过使用CNN而不是先前建议的WTA策略来计算视差图像,如在第12节中所描述的。4. (四)在SEC。4.2我们引入了一种新的方法来测量CNN输出的正确性,通过反射学习,优于其他技术在文学中评估立体匹配的信心。(v)节中5我们展示了如何使用这个置信度分数在精化过程中更好地检测和校正离群值。㈥在KITTI2012和KITTI 2015立体声数据集上取得最佳结果,误差率分别为2.27和3.42,改进了MC的2.43和3.89,4642CNN[36]基线。(vii)改进快速架构,在KITTI 2012和KITTI 2015上实现最佳结果,方法运行时间在5秒以内,错误率为2.63和3.78,与2.82和4.62基线。(viii)开放源代码1,用于容易地使用和修改管道。2. 相关工作通过卷积神经网络计算匹配成本首先由Zbontar和LeCun [35,36]引入。 该流水线随后被修改:[21]减少了计算时间,仅略微降低了精度;使用对象知识和语义分割来创建对象类别特定的视差建议[10],并且[20]使用纹理和边缘信息来应用自适应平滑度约束以进行密集立体估计。残差网络[16](ResNets)是具有跳过连接的神经网络。这些网络是高速公路网络的一个特殊案例[32],目前的技术水平导致了最具竞争力的计算机视觉任务。然而,这对于立体匹配来说是不正确的剩余网络的成功归因于在采用跳过连接时训练非常深的网络的能力[12]。[33]提出了一种补充观点,他们将其归因于集合的力量,并提出了一种对ResNets的分解观点,将ResNets描述为共享权重的网络集合。最近,一份并发的技术报告提出了一种用于图像分类任务的不同残差网络架构,与我们一样,该架构采用多级跳过连接[18]。与我们的架构的两个主要区别是:首先,通过引入学习的λ系数作为恒定的高速公路门,我们允许网络调整增加的连接的贡献。其次,我们添加缩放层来控制网络的感受野。另一个最近的报告将网络与更多的剩余连接纠缠在一起,以创建密集连接的剩余网络[6]。我们评估了这些架构,并发现它们(第二节)。6)不如所提出的解决方案,这是简单得多。我们还发现,添加我们的常数跳跃连接对上述体系结构有显着的贡献。估计立体匹配的置信度以便内插对应性是立体视觉中最流行的研究主题之一[8,27,9,26]。最近的一项工作[31]是第一次利用CNN进行立体声置信度测量。他们将传统的置信度特征纳入CNN的输入,并专门为此目的训练网络。我们的全球差异网络在四个主要方面有所不同:(一)采用单一网络以获得置信度分数和更精确的视差图。(ii)我们的置信度指示是用反射损失训练的,反射损失不仅取决于地面事实,还取决于在训练期间动态变化的预测标签(iii)虽然[31]使用置信度来提高半全局匹配步骤[13]的性能,但我们在视差图像细化过程期间将其并入离群值检测步骤中(iv)我们的解决方案不局限于立体匹配,我们的反射损失是一种用于评估置信度的新颖和3. 计算匹配成本现代立体匹配流水线中的第一步是基于针对所考虑的每个视差计算每个位置处的匹配成本。从两个图像开始,左和右,对于左图像中的每个位置p和视差d,我们计算左图像中以p =(x,y)为中心的块和右图像中以pd =(x-d,y)为中心的块之间的匹配成本。对于以相同的3D位置为中心的补丁,成本预计会较低,否则会较高。与以前的工作类似,我们使用卷积神经网络,在真实视差已知的小图像块对上进行训练。我们的网络的新架构如图所示。1.一、 它由以下组件组成:表示为内部-λ-残差的恒定高速公路残差块,其由两个卷积层组成,具有3 × 3滤波器,1 × 1填充以保持空间大小,和ReLU非线性,然后是恒定的高速公路跳过连接(参见第3.2)。 两个这样的块,后面是另一个恒定高速公路连接,被组合成第二级残差块,表示为外λ残差块。 在外部λ残差块之间,添加了另一个卷积层,表示为缩放层,具有3 × 3滤波器,没有填充,然后是ReLU非线性,以增加网络的感受野。 注意,由于内部和外部残差块都保持空间大小,因此缩放层是感受野大小的唯一因素。例如,一个具有5个3×3过滤器的缩放层的网络具有11×11的感受野,无论使用多少内部和外部块。在这项工作中,我们使用了一个描述网络,它由5个外部块组成,由缩放层分隔为了比较两个图像块,采用两个相同的(捆绑权重)描述网络,并提取两个描述符向量在训练期间,然后使用两个路径来比较补丁并产生匹配成本。第一个路径,表示为决策子网络,是一个完全连接的网络,它将两个表示连接成一个向量[u,u],通过交叉熵损失进行训练。的Lr1该代码可在https://github.com/amitshaked/resmatch上获得第二途径直接采用铰链损失标准,4643L图1:匹配成本网络的λ-ResMatch架构。(a)由两个内部λ-残差块组成的外部λ-残差块。(b)核心描述网络由五个外部λ-残差块组成,由具有ReLU激活的缩放层分隔。(c)具有约束参数的双塔结构[11]。描述网络输出两个特征图,这两个特征图是两个路径的输入:第一个将它们连接并传递到通过交叉熵损失训练的全连接决策网络,第二个直接将铰链损失准则应用于表示的点积。两个表示的点积u∈ur。在计算两幅全尺寸图像的匹配代价时,两幅图像的描述张量U_L和U_R可以在描述子网络中的单个前向传递中计算。 每一次,每一次,匹配成本C(p,d)通过在决策子网络中传播UL(p)和UR(pd)来计算。这需要总共视差最大向前传递,使其成为方法运行时的主要因素。为了具有在准确性和速度之间进行选择的灵活性,应用全决策网络,或者仅使用基于点积的相似性得分。在这两种情况下,增加的长期,这是不使用在运行时,提高了匹配网络的性能。这种影响和权衡将在第二节中进一步研究。六、在下面的小节中,我们将详细介绍匹配网络的每一个3.1. 内部外部残留块使用更深的网络并不总是意味着更好的预测。例如,Zbontar和LeCun[36]报告称,所提出的四层架构优于描述网络的五层和六层架构。受[16]的启发,我们希望通过添加跳过连接和使用残差块来加深网络然而,剩余网络对匹配是无效的.根据我们的经验,堆叠剩余块(具有或不具有如下所述的恒定高速公路跳跃连接)导致在使网络收敛到有意义的解决方案方面存在很大困难,并且不会提高网络的质量。预测。因此,我们建议通过引入第二级跳过连接并每两个内部剩余块采用另一个连接来进一步深化此外,空间池化层之后的批量归一化被丢弃。它们对于匹配网络是潜在有害的,因为它们降低了分辨率和灵敏度。因此,它们与立体匹配任务不兼容我们相信,所提出的架构的附加容量在数量和质量上都提高了结果,例如,我们的网络受益于颜色的使用,而文献报告没有额外的好处(见补充)。3.2. 恒定公路跳车连接为了进一步提高剩余捷径的有效性,我们引入了一种恒定的公路跳跃连接,其中剩余构建块的身份捷径由学习因子λ加权,并形式化地定义为:yi+1=fi+1(yi)+λi+1·yi(1)在高速网络中,两个项fi+1(yi)和yi分别被ti+1和1-ti+1加权,其中ti+1是yi的函数。在我们的例子中,权重坍缩为学习参数λi+1。为了进一步了解多层次控制的效果高速公路连接,我们解开它。考虑一个由两个内部块组成的外部块,如图所示第1(a)段。4644L输出y2的公式化本质上是递归的,并且可以展开为:y2=λ0y0+λ2·y1+f2(y1)这是必需的,因为即使使用改进的匹配网络,为了具有竞争力,该方法也需要结合来自相邻像素的信息,这超出了简单的最大化。根据Mei等人[23],我们开始=λ0y0+λ2.Σλ1y0+f1(y0)+f2.Σλ1y0+f1(y0)通过应用基于交叉的成本汇总[17](CBCA)=(λ0+λ2λ1)y0+λ2f1(y0)+f2.λ1y0+f1(y0)Σ(二)通过对深度不连续性的成本进行平均来组合来自相邻像素的信息,继续使用半全局匹配[13](SGM)来增强平滑度可以看出,增加的参数λ2控制f1的流量,λ1平衡f2的输入,外部参数λ0控制y0。这样,当残差网络作为可能路径的集合进行互穿时[33],学习的参数确定每个路径对集合的贡献。例如,我们观察到它们在网络的上层采用小得多的值,以减少最短路径的影响,并使网络偏向更深的表示(见补充资料)。所有λ参数都初始化为1,以模拟vanilla残差连接,然后像往常一样通过反向传播进行调整。没有正则化应用于该项。3.3. 混合损耗虽然进一步处理两个描述符网络的输出提高了区分匹配和不匹配补丁的能力,但其代价是使描述符不那么明确。因此,我们建议将两种损失结合在一起:乘积s=u∈ur和决策网络输出v上的交叉熵[36]我们也要注意,例如,匹配和非匹配,以相同的图像位置为中心,并且复合损失由下式给出:loss=α·XEnt(v+,v−)+(1−α)·Hinge(s+,s−)(3)在视差图像上的约束,然后应用成本聚合的几次迭代,如[36]所述。虽然CBCA和SGM为现代立体匹配管道的成功做出了巨大这些情况包括被遮挡或扭曲的区域、高反射或稀疏纹理区域以及照明变化。图2(b)呈现了一个示例,其中这些方案未能校正诸如汽车玻璃的反射区域中的匹配。为了克服这一挑战,虽然人们可以跟随Guney和Geiger的脚步[10]并使用对象类别特定的差异建议,但这需要明确的对象知识和语义分割,我们选择避免这一点有两个原因:引入的计算复杂性以及与特定对象模型相关的通用性的损失。相反,我们建议应用一个学习的标准,并取代WTA的方法。我们构建了一个全局视差卷积神经网络,并propa-门整个匹配成本图输出在每个位置的视差。一个例子,这种方法如何可以帮助在具有挑战性的情况下提出的图。第2段(c)分段。该网络使用新的反射损失进行训练,以同时在网络的视差预测中产生置信度测量,稍后用于细化过程,如第5节所述。其中Hinge(s+,s−) =max(0,m+s−1)XEnt(v+,v−)=−(log(v−)+log(1−v+)-s+)和4.1. 全球差距网络用于训练视差网络的数据集是COM-请注意,点积产生相似性分数。因此,当选择快速路径时,输出乘以-1表示匹配成本。m=0的边缘。2的铰链损失和α=0。8在整个实验中使用。4. 计算视差图像匹配成本的计算导致大小为H × W ×视差max的映射C(p,d),其中针对每个可能的视差计算每个位置的匹配成本。下一阶段的目标是输出大小为H×W的视差图像D(p),其中每个位置都具有预测的现代立体匹配流水线使用很少的后处理步骤,然后应用后处理是根据匹配成本网络训练数据对处理后的图像进行建模对于每对左图像和右图像,我们计算每个可能视差处的完整图像尺寸匹配成本,如第2节所述3、然后应用CBCA和SGM。请注意,匹配网络返回独立的概率估计,并且在CBCA和SGM之后,值可以变为负值并且不限于特定范围。因此,我们应用Tanh以使值达到固定范围[-1,1]。每个匹配成本块的目标(地面实况)值是其中心像素的视差以这种方式采样9×9块补丁,我们收集了2500万(1700万)个训练样本来训练KITTI 2012(2015)视差网络。这些补丁被馈送到全局视差网络(GDN),如图1A所示。3.第三章。两个层被视为目标层:FC 3,它输出向量y,这是46453(a) 参考图像(b) 应用视差网络(c) 应用视差网络图2:KITTI 2015数据集的一个例子,显示了视差网络的影响。观察应用视差网络之前和之后预测的汽车玻璃视差的误差。每个视差di的得分yi,以及描绘预测中的置信度c的FC5。受[21]启发,FC3上的损失函数是加权交叉熵损失,其相对于数据集的误差度量将质量集中在地面真实值yGT4.2. 反思自信为了从视差网络中获得置信度,我们通过二进制交叉熵损失同时训练由两个全连接层组成的二进制分类器。这种损失的训练标签反映了得分向量y的正确性,这也是分类器的输入,如图3所示。在每次前向传递之后,将argmaxiyi与地面实况视差yGT进行比较。 如果预测是正确的,即与地面实况相差不到一个像素,则样本被认为是正的,否则为负。请注意,尽管KITTI数据集要求误差小于3个像素,但我们注意到,训练允许3个像素误差(而不仅仅是1个)的置信度会导致太多的正样本,并且无效。这种损失是非常规的,因为目标值不仅取决于地面实况,还取决于网络的激活。据我们所知,这是文献中第一个基于标签变化的以这种方式进行训练。分别使用15:85权重将该反射损失与FC 3的加权我们采用128大小的小批量和0.9的动量。该网络训练了15个epoch,从0.003的学习率开始,并在第12个epoch时抽取它。5. 视差细化虽然全局视差网络对预测视差图像的质量有很大贡献,但它仍然会受到已知问题的影响,例如深度不连续性和离群像素预测。第三阶段和最后一阶段的目标类似于[36,23],我们采用了三步细化过程:(i)左右一致性检查离群像素检测和插值,其中我们将我们的配置,ΣGTGTe−yi(ii)子像素增强,以增加损失(y,y)=−yip(yi,y)·日志Jeyj(4)图像分辨率,以及(iii)用于平滑视差图像而不模糊边缘的中值和双边滤波。第二步和第三步的执行完全相同,其中p(yi,yGT)是平滑的目标分布,围绕着地面实况yGT。对于KITTI数据集,我们对3像素误差度量和用途:λ1,如果|y i−y GT|≤ 1[36]。第一步如下所述。将CL(p)表示为通过使用左图像作为参考而获得的预测d=DL(p)的位置p处的置信度分数,并且将CR(pd)表示为预测DR(pd)的对应位置p-d处的置信度分数,p(yi,yGT如果1,则λ =2)= λ3,如果2 <|y i− yGT|≤ 30否则(五)通过使用右图像作为参考来获得我们依次应用这些规则标记每个位置p正确 如果 |≤τ 1或|≤ τ1or与[21]的主要区别是,我们允许实值yGT,并相应修改损失。 使用的值. CL(p)≥τ且CL(p)−CR(pd)≥τλ1=0。65,λ2=0。25,λ3=0。1.一、输出差异而不是分数向量的模型也用不同的回归损失进行了测试,发现失配 如果存在数据否则闭塞ds.t. |d−DR(p d)|≤τ4不如我们的模型。这意味着一个像素被标记为正确的,如果两个预测-24646图3:用于表示视差补丁的全局视差网络模型ReLU单元被用作每个卷积和全连接层之后的激活两个层被认为是目标层:FC3,在其上应用LogSoftMax以确定预测的视差,以及FC5,其描绘置信度测量。预测的交叉熵损失和置信度度量的二进制交叉熵损失分别使用85:15的权重组合在一起D L(p)和D R(pd)匹配,或者它们不匹配,但是参考预测D(p)= D L(p)更加可靠。 当两者都不成立时,如果存在另一视差d,则像素被认为是不匹配的,使得如果它是预测,则它将具有匹配的DR(p d)。 如果不存在,则认为该像素是遮挡。在整个实验中,我们使用τ1= 1作为最大左右预测不一致,τ2= 0。7最小置信度得分在预测中,τ3=0。1是最小左右置信度间隙,τ4=1是最大左右预测其他可能的差异。对于标记为不匹配的像素,我们希望视差值来自可靠的相邻像素,因此从16个不同方向取标记为正确的最近邻居的中值标记为遮挡的异常值p的值很可能来自背景。因此,通过向左移动直到第一个正确的像素并使用其值来进行插值6. 实验结果我们在三个最大和最具竞争力的立体数据集上评估了 我 们 的 管 道 : KITTI 2012 , KITTI 2015 和Middlebury。提供了与最新技术水平和组分分析的比较6.1. 基准测试结果KITTI立体数据集:KITTI 2012[7]数据集包含194个训练图像和195个测试图像,KITTI 2015[24]数据集包含200个训练图像和200个测试图像。误差被测量为真实视差和预测视差相差超过三个像素的像素的百分比。这两个数据集的排行榜显示在Tab中。1和Tab。2.通过将生成的测试图像的视差图提交给在线评估服务器来获得报告的错误率。我们的准确方法在两个基准点上都排名第一,并改善了mc-cnn[36]基础的错误率。方法集NOC所有运行时1我们2.913.4248s2[10]第十话S3.093.43265s3PCBP[25]3.173.6168s4Ours-fast3.293.782.8s5[36]第三十六话3.333.8967s表1:截至2016年11月KITTI 2015上排名最高的方法,按所有像素的错误率排序。设置中的S表示使用语义分割。最近,又有两份匿名意见书提交到在线评价服务器。CNNF+SGM对于所有像素实现了3.60的错误率,对于非遮挡像素实现了3.04的错误率,并且SN分别实现了3.66和3.09。我们不知道他们是否使用分段。KITTI 2012上的2.43至2.27行和3.89至3.42KITTI 2015我们的快速架构也提交给了在线服务器,并在Tab中比较了在5秒内运行的方法。3和Tab。4.第一章运行时间是通过在NVIDIA Titan X(Pascal)图形处理器单元上测试我们的流水线来测量的米德尔伯里立体声数据集:米德尔伯里立体声数据集包含2001年[3],2003年[30],2005年[28],2006年[14]和2014年[4]的五个独立作品。那个...年龄对是以全、半和四分之一分辨率给出的室内场景,并且使用用于完美校正的精确2D对应来完美校正,或者使用标准校准程序来不完美地校正。由于GPU存储卡的大小有限,我们在半分辨率上训练了我们的网络该误差是针对与地面实况相差两个以上像素的像素视差预测测量的,并且是4647方法设置 NOC所有运行时1我们2.273.4048s2PCBP[25]2.363.4568s3[10]第十话S2.373.09265s4[36]第三十六话2.433.6367s5[25]第二十五话MV2.462.6970年代表2:截至2016年11月,KITTI 2012上排名最高的方法,按非遮挡像素的错误率排序。 设置中的S表示使用语义分割,MV表示使用两个以上的时间相邻图像。最近在Tab中提到的匿名提交。CNNF+SGM对非遮挡像素的错误率为2.28秩方法NOC所有运行时1Ours-fast3.293.782.8s2DispNetC[22]4.054.340.06s3[21]第二十一话4.004.541s4MC-CNN-fast[36]?4.620.8s5SGM+CNN(匿名)4.365.042s表3:截至2016年11月,KITTI 2015上排名最高的5秒以下方法。秩方法NOC所有运行时1Ours-fast2.633.682.8s2MC-CNN-fast[36]2.82?0.7s3[21]第二十一话3.074.290.7s4[2]第二话3.104.243s5SPS-st[34]3.394.412s表4:截至2016年11月,KITTI 2012上排名最高的5秒以下方法。以全分辨率计算。因此,当在半分辨率上训练时,我们对小于一个像素的错误感兴趣该数据集包含60个图像对,其地面实况可用,但与KITTI不同的是,最大视差不是固定的,并且在30和800之间变化。我们的全局视差网络特征输入平面是最大视差的大小,由于每个可能的值只有几对,因此没有足够的因此,我们已经使用[36]的后处理测试了我们的λ -ResMatch架构。如表5所示,快速架构引入了实质性改进,将验证误差从[36]中报告的9.87降低到9.08。我们无法复制表5:[21],[36]和λ-ResMatch管道之间的比较,以及当使用我们的λ-ResMatch或替代残差架构进行增强时:高速公路[32]或ResNets [16]。通过将KITTI和Middlebury立体声数据集分成80-20个训练验证来计算验证误差。7.91为精确架构报告的错误率。使用其发布的代码训练MC-CNN[36]获得了8.18的验证误差,我们使用λ-ResMatch将其改进为8.01。6.2. 成分分析为了证明我们的新关系在管道的每个阶段的有效性,我们逐步在上述数据集上进行测试。表5报告了添加每个阶段的贡献。可以看出,在KITTI 2015数据集上,最大的改进来自于采用全球差异网络,而在KITTI2012上,它是新颖的恒定高速公路网络。这是因为在KITTI 2015中,行驶中的车辆被密集地标记,并且汽车玻璃被包括在评估中,因此反射区域更常见。λ-ResMatch架构:我们已经彻底测试了匹配成本网络的精确架构,并将其与五种不同的架构进行了比较:(i)该基地─线为我们的工作MC-CNN[36],(ii)传统的高速公路网络,(iii)ResNets[16],(iv)密集连接的残差网络的并发工作[6],以及(v)残差网络的残差网络的并发工作[18],这也建议添加另一个级别的残差连接。在早期的实验中,我们使用这些架构的发布代码作为匹配成本网络,但结果远远没有竞争力。然后,我们删除了批处理规范化和池化层,并将它们替换为我们的缩放层,除了密集连接的工作,我们使用了它们原来的“过渡层”。这些结果在表中报告6,在每个架构的第一行第二行包含其他架构变体的进一步实验,其中我们用恒定的高速公路跳跃连接替换了普通的剩余捷径。结果表明,在几乎所有的情况下,多电平常值为了让比较尽可能直接,我们测试了准确的架构匹配处理KITTI 2012KITTI 2015MB快速法快速法快速内容[21]-6.61-7.23--内容+硬件[32]-6.70-7.01--[16]第十六话-6.96-7.05--含量+λ-RM-5.60-6.94--[36]第三十六话[36]第二届世界卫生组织大会3.022.613.993.259.87λ-RM[36]第二届世界卫生组织大会2.732.453.693.159.084648|c−minc(x-d,y,d)|ee拉克角RefMSMProbCURPKRNNEMLRDKITTI20120.9430.9280.6480.7720.9300.9190.833KITTI20150.8940.8500.7580.8320.8530.8640.812表7:不同置信度测量的整个验证集的平均AUC表6:当在20%的数据上训练时,不同架构及其λ变体的验证错误“有和没有混合损失训练。可以看出,λ-ResMatch架构在所有数据集上的立体匹配任务中实现了最佳精度,并且增加的混合损失进一步改善了结果。反射置信度:为了评估我们的新方法用于置信度指示的性能,我们使用AUC测量将其与六种最广泛使用的技术进行了比较 这些技术根据它们考虑立体声成本估计的哪些方面而属于不同的类别[15]。 我们用来描述不同方法的符号是:d1(p)=D(p)=DL(p)是当使用左图像作为参考时在位置p处的预测视差,c1(p)=C SGM(p,d1)是预测视差的匹配成本(在应用全局视差网络之前),c2是第二小的局部 最 小 值 , 以 及 prob ( p ) =C GDN ( p , d1 )=maxdC GDN(p,d)是预测视差的概率。评估的方法是(i)匹配分数度量(MSM)[5],它将较高的置信度分配给较低的成本:CMSM=−c1。(ii)在应用视差网络Cprob=prob之后的预测的概率(PR OB),(iii) 匹配成本CCUR的曲率(CUR)=−2·c(d1)+c(d1−1)+c(d1+1),在文献中广泛使用,(iv)峰值比(PKRN)[15]是第二小成本与最小CPKRN之间的比率=c2,(v)负熵测度(NEM)[29]p(d)=图4:来自KITTI 2015立体数据集的40张随机验证图像的置信度测量AUC。KITTI 2012和KITTI 2015数据集的图像KITTI 2015的结果如图4所示,KITTI 2012的结果非常相似,可以在补充资料中找到,表明我们的反射置信度测量几乎在每幅图像上都表现得更好。Tab中整个数据集的平均得分。7表明,它也是两个数据集中总体上最准确的。7. 讨论值得注意的是,与最新的最先进的结果不同,我们没有使用语义分割。语义分割采用我们的方法不使用的额外训练数据,需要额外的运行时。然而,有趣的是,语义分割的好处是否与我们获得的性能提高有关,在这种情况下,我们的结果可以进一步改进。需要特定的残差架构进行匹配可能与中等深度网络的良好性能、批量归一化的有害影响以及该领域的其他独特实践密切相关需要更多的研究,以了解是什么使这个问题有别于分类问题。我们认为反射损失可以扩展到C1 − 1−c(d)DΣNEM=−dp(d)logp(d),其他问题和应用,如渐进学习计划自定进度[19]和课程[1]学习。考虑整个成本曲率,以及(vi)左右差(LRD)[15],利用左右一致性检查和两个最小成本之间的裕度:C LRD=c2 −c1。1R1R我们在40个随机验证致谢这项研究得到了英特尔计算智能合作研究所(ICRI-CI)的支持C内快捷外快捷KITTI2012KITTI2015MB[36]第三十六话--2.843.539.73[32]第三十二话--2.813.519.77ResNet[16]一-2.823.7110.03λ变量λ-2.813.5510.01华盛顿特区[6]一-3.865.0211.13λ变量λ-3.424.4311.07其他国家[18]一C2.863.529.68λ变量λλ·C2.843.539.95的变体我 们 的 方法 没 有 混一一2.783.499.63λ一2.753.429.83一λ2.783.4610.34649引用[1] Y. Bengio,J. Collobert和J.韦斯顿当前学习。第26届国际机器学习年会论文集,第41-48页。ACM,2009年。[2] Z. Chen,X.太阳,Y.于湖,加-地Wang和C.煌立体匹配代价的深度视觉对应嵌入模型ICCV,2015年。[3] R. S. 丹尼尔·沙尔斯坦。密集两帧立体对应算法的分类与评估International Journal of Computer Vision,第7[4] Y. K. G. K.N.N.X.W.丹尼尔沙尔斯坦Heiko Hirschmuller和P.韦斯特灵高分辨率立体数据集,具有亚像素精确的地面实况。2014年德国模式识别会议(GCPR)[5] M. M. G. Egnal和R.王尔德使用单视图图像的立体置信度度量与五种替代方法的比较。图像和视觉计算,2004年。[6] K. Q. W.郜荒、庄柳。密集连接的卷积网络。在arXiv:1608.06993,2016。[7] A. Geiger,P. Lenz,和R.盖革,等.乌塔松我们准备好了吗?Kitti Vision基准套件。在IEEE计算机视觉和模式识别会议(CVPR)上,2012年。[8] R.盖拉尔迪用于立体匹配的基于置信度的成本调制。在模式识别国际会议(ICPR)的会议记录,2008年。[9] L. v. d. M. Gorkem Saygili和E. A.亨德里克斯使用立体置信度的立体相似度量融合.在2014年国际模式识别会议(ICPR)上[10] F. Guney和A.盖革Displets:使用对象知识解决立体模糊。在IEEE计算机视觉和模式识别会议(CVPR)上,2015年。[11] X.汉,T.梁,Y.贾河,巴西-地Sukthankar和A. C.伯格。Matchnet:统一特征和度量学习用于基于补丁的匹配。在IEEE计算机视觉和模式识别会议(CVPR)上,2015年6月。[12] K.他,X。Zhang,S. Ren和J. Sun.深度剩余网络中的身份映射。arXiv预印本arXiv:1603.05027,2016。[13] D. S.海科·赫希穆勒立体匹配代价函数的评估。IEEE计算机视觉与模式识别会议(CVPR),2007年。[14] H. Hirschmuller和D.沙尔斯坦立体匹配代价函数的评价。IEEE计算机视觉与模式识别会议(CVPR),2007年。[15] X. Hu和P. Mordohai.立体视觉置信度的定量评价。在IEEE Transactions on Pattern Analysis and MachineIntelligence,2012年。[16] S. R. J. S. 何开明,张翔宇用于图像识别的深度残差学习arXiv预印本arXiv:1512.03385,2015。[17] J. L. Ke Zhang和G.拉弗鲁基于交叉的正交积分图像局部立 体 匹 配 。 在 IEEE Trans- actions on Circuits andSystems for Video Technology中,第1073[18] T. X. H. X. Y. L. G. T. L.张珂,孙淼。残差网络的残差网络:多级残差网络。在arXiv:1608.02908,2016。[19] M. P. Kumar,B. Packer和D.科勒潜变量模型的自定进度学习。神经信息处理系统进展,第1189-1197页,2010年[20] C.- S. K.金庆来使用纹理和边缘信息进行有效立体匹配的自适应平滑度约束。2016年。[21] W. Luo,中国茶条A.Schwing和R.乌塔松用于立体匹配的高效深度IEEE计算机视觉和模式识别会议论文集(CVPR),2016。[22] N. 迈耶 ,E.Ilg, P.Husser ,P. 费希 尔,D.Cremers ,A.Doso-vitskiy和T.布洛克斯一个大型数据集,用于训练卷积网络进行视差,光流和场景流估计。在CVPR,2016年6月。[23] S. X.- Z. M. W. H. Z. X. e. a. 梅,X。在图形硬件上建立一在计算机视觉研讨会(ICCV研讨会),2011年。[24] M. Menze和A.盖革自动驾驶车辆的对象场景流在IEEE计算机视觉和模式识别会议(CVPR)上,2015年。[25] 诉Ntouskos和F.皮里信心驱动的tgv融合。arXiv预印本arXiv:1603.09302,2016.[26] M.- G. 朴和KJ. 尹利用基于学习的置信度测量的立体匹配在IEEE计算机视觉和模式识别会议(CVPR)的会议中,第101-109页[27] S. G. D. Pfeiffer和N.施耐德利用立体声信任的力量。在IEEE计算机视觉和模式识别会议(CVPR)中,第297[28] D. Scharstein和C.伙计学习立体声的条件随机场IEEE计算机视觉与模式识别会议论文集(CVPR),2007年。[29] D. Scharstein和R.塞利斯基具有非线性扩散的立体匹配。在立体匹配与非线性扩散,1998年。[30] D. Scharstein和R.塞利斯基使用结构光的高精度立体深度 图 。 IEEE 计 算 机 视 觉 与 模 式 识 别 会 议 论 文 集(CVPR),2003年。[31] A. Seki和M.波勒菲斯密集视差图的基于块的置信度在英国机器视觉会议(BMVC),2016年。[32] R. K. Srivastava,K. Greff和J.施密特胡博高速公路网。arXiv预印本arXiv:1505.00387,2015。[33] A.韦伊特,M。Wilber和S.贝隆吉剩余网络就像相对浅网络的集合在NIPS,2016年。[34] K. Yamaguchi、D.McAllester,和R.乌塔松高效的联合分割、遮挡标记、立体和流估计。2014年,在ECCV4650[35] Zbontar和Y.乐存。用卷积神经网络计算立体匹配代价。InProceedings of the IEEE Conference on ComputerVision and Pattern Recognition(CVPR),第1592-1599页[36] J. Zbontar和Y.乐存。通过训练卷积神经网络来比较图像块的立体匹配CoRR,abs/1510.05970,2015年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功