没有合适的资源?快使用搜索试试~ 我知道了~
1b·f高分辨率影像1∗2 2 1 2、杨庚山,Joshua Manela,Michael Happold,Deva Ramanan1卡内基梅隆大学,2Argo AIgengshany@cmu.edu{jmanela,mhappold,dramanan} @ argo.ai图1:在建议的数据集上具有从粗到细的层次结构的按需深度感测的图示。我们的方法(HSM)在91毫秒内捕获场景的粗略布局,在175毫秒内找到远处的汽车(如红框所示),并在额外的255毫秒内恢复汽车的细节。摘要我们探讨了高分辨率图像的实时立体匹配问题。由于内存限制或速度限制,许多最先进的(SOTA)方法难以处理高分辨率图像。为了解决这个问题,我们提出了一个端到端的框架,搜索对应的sponsances增量超过粗到细的层次结构。由于高分辨率立体数据集相对较少,因此我们引入了一个具有高分辨率立体对的数据集,用于训练和评估。我们的方法在Middlebury-v3和KITTI-15上实现了SOTA性能,同时运行速度明显快于竞争对手。分层设计还自然地允许通过对中间粗略结果加帽来随时按需报告视差,从而允许我们以低延迟(30ms)准确地预测近距离结构的视差。我们证明,按需高性能所提供的性能与速度的权衡可以解决时间关键型应用程序(如自动驾驶)的传感需求。1. 介绍在自动驾驶等安全关键型应用中,准确感知物体的深度非常重要在Argo AI实习期间完成的工作。数据和代码将在这里提供。stacles with low latency.为此,我们探讨了高分辨率图像上的实时立体匹配问题LiDAR与Stereo:LiDAR是户外深度传感的常见选择[32]。然而,LiDAR在空间密度方面基本上是有限的,特别是对于长距离感测。只有这么多的光束和探测器才能在串扰发生之前打包在一起。原则上,可以通过缓慢扫描来增加密度,但这会引入延迟和滚动快门效果,这对于动态场景来说可能是毁灭性的传感器测量的密度对于识别和分割范围内的对象至关重要。高分辨率,全球快门立体声有可能解决这些限制。为什么是高分辨率?人们普遍认为,立体声对于远距离深度感测是不可靠的[24]:基于三角测量的立体声系统的估计深度ΔZ中的度量误差,具有基线b、焦距f和像素匹配误差可将d写成Z=Z2d。因此,深度误差随深度二次增加,这意味着立体声将提供不稳定的远场深度估计。但这对于即使是中等速度的导航也很重要-(参见停车距离配置文件的补充)。虽然人们可以尝试调整其他因素来减少误差,但更高的分辨率(更大的f)似乎是最有希望的途径:CMOS和CCD传感器技术的创新已经允许用于高分辨率相机的大众市场、低成本解决方案。55155516挑战:尽管高分辨率立体匹配是期望的,但是存在若干实际挑战:基于优化的立体方法是准确的,但是在运行时间和存储器开销方面不能缩放到高分辨率。当应用于缩小的图像时,这些方法运行得更快,但给出模糊的结果和不准确的远场视差估计。最近的这可能是由于:1) 它们的架构没有被有效地设计为在高分辨率图像上操作。2)他们没有足够的高分辨率训练数据。方法:我们提出了一个端到端的框架,有效地搜索通过层次结构的对应。我们的模型以从粗到细的方式进行推理,受到立体声和光流中对应估计的经典工作的启发[1,18,39]。粗分辨率图像用于估计大的视差,然后用于偏置/预扭曲精细尺度视差估计。虽然相当有效,但粗到细的方法很难匹配在粗分辨率下“消失”的薄结构相反,我们的模型计算一个高分辨率的编码器特征,该特征是用分辨率逐渐增加的由粗到细(解码器)特征量处理的。至关重要的是,初始粗体积可以在完整流水线完成之前生成大视差对象的粗略估计。这使得我们的网络能够按需生成附近物体的报告,这对于快速实时导航至关重要数据:高分辨率立体声的努力受到缺乏基准数据的影响,无论是训练还是评估。我们收集了两个高分辨率校正立体声对的数据集,包括来自自动驾驶汽车的真实数据和来自城市模拟器的合成数据。有趣的是,我们证明了合成数据是训练深度立体声网络的宝贵工具,特别是对于高分辨率视差估计。在高分辨率下,真实世界的校准和校正变得困难,通过数据增强引入真实的校准误差在训练过程中非常重要。我们的主要贡献如下:1. 我们提出了一个分层立体匹配架构,可扩展到高分辨率图像,同时能够实时执行按需计算。2. 我们收集了两个高分辨率的立体数据集进行训练和测试。3. 我们引入了一套立体增强技术,以提高模型4. 我们在Middlebury和KITTI上实现了SOTA精度,同时运行速度明显快于现有技术。2. 相关工作立体匹配是计算机视觉中的经典任务[27]。传统方法将校正后的图像对作为输入(尽管存在对多视图立体的扩展[32]),在候选块[35,36]处提取局部描述符,然后在相应的epipo- lar扫描线[22]上建立三维成本体积为了确保全局排序和一致性约束,全局优化技术的应用需要相当大的时间和内存成本,这也对规模造成了限制[10,14]。高效的高分辨率立体声:为了缓解这一问题,SGM[8]和ELAS [7]描述了允许1上3 FPS的高效匹配算法。500万像素的图像具有强劲的性能。然而,这两种方法都难以扩展到600万像素的图像:例如,SGM需要16GB来处理700 px的视差搜索范围,并且令人惊讶的是,与处理较低分辨率输入的变体相比,性能下降[15]。虽然其他工作也探索了高效的高分辨率处理[15,30],但它们似乎无法满足自动驾驶中实时感知的精度和速度要求深度立体匹配:针对立体声估计而调整的深度网络可以利用大规模注释数据。他们现在在几个立体声基准测试中产生SOTA性能,尽管使用了相当多的内存,时间Zbontar等人和Luo et al.[19,40]使用siamese网络来提取逐块特征,然后通过经典后处理以传统成本量处理逐块特征。最近的一些方法[5,12,13,16,20,23]用应用于成本体积的2D/3D卷积代替后处理,在KITTI基准上产生SOTA性能。然而令人惊讶的是,它们在Middlebury上的表现都没有超过传统方法,可能是尽管人们可以在高分辨率图像的裁剪上运行低分辨率模型并将预测缝合在一起,但是,挑战在于:1)裁剪边界可能难以匹配;2) 上下文信息可能没有得到很好的利用;以及3)最重要的是,这显著地增加了运行时延迟。据我们所知,我们是第一个成功解决这些问题并将深度网络应用于高分辨率立体匹配的人:我们提出了一种有效的分层立体匹配架构来解决效率问题,并利用高分辨率合成数据以及新颖的增强技术来克服数据稀缺性。从粗到细的CNN:CNN中的粗到细设计可以追溯到FCN和U-Net [17,25],它利用多尺度特征和聚合粗到细预测。5517{8,16,32,64}解码器203ms(75%)编码器50ms(19%)SPP分享参考目标图像金字塔特征金字塔成本模型高×宽×3高×宽{8,16,32,64}×Ck高×宽×深k{8,16,32,64}图2:我们的高分辨率立体声按需低内存架构。给定一对经过校正的高分辨率图像,我们使用自定义resnet“蝴蝶”编码器-解码器网络(我们称之为金字塔编码器)计算每个图像的多尺度描述符 这些描述符用于通过从对极扫描线提取的潜在匹配特征的差异来构建每个尺度(Ck ×H×W ×D,其中尺度k ∈ {1,2,3,4}和C k∈{16,16,16,32})的4D特征体积。每个特征体积都使用3D卷积进行解码或过滤,利用沿视差尺寸以最小化内存。解码的输出(a)用于预测3D成本体积,其生成针对给定尺度的按需视差估计,以及(b)上采样,使得其可以与下一特征体积组合。金字塔Dk∈{Dmax,Dmax,Dmax,Dmax}表示特征通道的数量和视差箱的数量4 2在第k个尺度中,时间是在Titan X Pascal上针对具有256px的视差搜索范围的6兆像素输入测量的改进语义分割。基于DispNet的架构[20,23]采用具有跳跃连接的编码器-解码器方案最近,PWC-Net [33]使用由粗到细的架构来扭曲特征,并在光流估计中实现SOTA结果与我们的方法相似,GCNet [12]构建分层4D特征体并使用3D卷积从粗到细处理它们,但我们的不同之处在于我们成功地将粗到细原则应用于高分辨率输入和随时按需处理。3. 方法在本节中,我们将介绍我们方法的关键要素:1)有效的分层立体匹配体系结构,2)一组新颖的非对称增强技术,以及3)用于训练的高分辨率合成数据集。我们还为现实世界的自动驾驶引入了高分辨率立体声基准。3.1. 分层立体匹配(HSM)网络我们设计分层粗到细网络的核心思想是首先通过网络对高分辨率图像进行积极的下采样我们提供精确的层和过滤器尺寸的补充。设计原则:我们发现,从粗到精的设计原则至关重要,特别是利用1)空间金字塔池(SPP)[41],它允许特征在感受野中显着增加。如果没有这一点,与高分辨率图像的其余部分相比,特征往往具有太小的感受野。SPP [41]中的原始实现将金字塔特征上采样回原始分辨率。为了减少内存,我们将池化特征保持在其原生粗分辨率; 2)在视差维度上跨越的3D卷积,使我们能够有效地处理高分辨率成本体积; 3)多尺度损失函数。网络架构如图2所示。特征金字塔编码器:我们使用一个特征金字塔编码器来提取描述符进行粗到细的匹配。1阶段3309毫秒阶段2145毫秒阶段90ms5518为了有效地提取具有不同细节级别的特征,同时保持粗尺度信息,我们采用了具有跳过连接的编码器-解码器架构我们的特征编码器由自定义resnet骨干组成,具有4个残差块,然后是4个SPP层(再次,以增加有限计算和内存的感受野)。特征卷:我们得到这样的特征,为左,右图像,然后构建一个4 D特征卷,输入特征量(C,D,H,W)(C,D,H,W)DH W(三、、、)的方式KiKiKi[12,13]通过考虑成对的沿水平扫描线的潜在匹配描述符我们构建了一个金字塔的4卷,每个增加空间分辨率和增加视差分辨率。虽然成本体积传统上是3D(高度H乘以宽度W乘以视差D),但是我们的特征体积包括表示特征通道C的数量的第4维度,其对于编码器中的后面的层增加。特征卷解码器:图3可视化了每个特征体积的解码或过滤。让我们先输出特征体积i∈{1,2,3,4}C(、2D、2H、2W)2输出(1,D,H,W)成本量将conv3D“块”定义为具有残余连接的两个3D卷积。 1)特征体积由6个conv3D块过滤。2)与特征提取的情况一样,然后我们应用体积金字塔池(我们对SPP的扩展)来生成为高分辨率输入捕获足够全局上下文的特征3a)输出被三线性上采样到更高的空间(和视差)分辨率,使得它可以与金字塔中的下一个4D特征体积融合。3b)为了报告从当前标度计算的按需成本,用另一conv3D块处理输出以生成3D输出成本体积。在计算金字塔中下游的后续特征量之前,该成本量可以直接报告差异多尺度损失:我们训练网络在训练阶段以不同的尺度进行预测,这允许在任何金字塔级别按需输出差异,还有助于规范整个网络:L=L1+1L2+1L3+1L4222 42 6其中损失被缩放以说明在每个金字塔等级处增加的显示分辨率。L1表示最细级别上的损耗,L4表示最粗级别上的损耗。自然损失是当前金字塔级别上的候选日期差异的softmax 分布。我们发现预期的差异,如GCNet [12],工作得更好。3.2. 立体数据增强为了训练我们的网络,我们发现利用高分辨率训练数据和特定的数据增强策略至关重要。我们在下面讨论两者。大多数传统的立体系统对目标和参考视图图像对做出若干假设,包括1)两个图像处于相同的成像条件下,2)摄像机完美地图3:分层特征量解码器。 3D控制通过(输入通道、输出通道、步幅)定义卷积,通过(通道、显示通道、高度、宽度)定义特征体积。为了减少内存限制,我们对金字塔中的最后一个和倒数第二个体积使用了步幅视差通道。校准,以及3)没有遮挡并且每个像素可以找到匹配。然而,这些假设并不总是适用于现实世界的场景。我们提出了3种非对称增强技术来解决这些问题,从而为我们的基于学习的方法。y视差增强:大多数立体系统假设摄像机是完美校准的,并且对应关系位于相同的水平扫描线上。然而,很难完美地校准高分辨率图像对,特别是在大的温度变化和振动期间[9]。这样的误差导致具有y分量(例如,匹配到不同的水平扫描线)。分层匹配通过在粗尺度上进行偏置匹配来部分地缓解这个问题 另一种方法是强制网络以在训练时间内学习对这种错误的鲁棒性。请注意,摄像机校准中的误差可以表示为一 个 同 态 hyH∈R3×3 , 得 到 Iimperfectt ( x )=Iperfectt(ω(x,HX)),其中x是图像坐标。为了模拟真实世界的校准误差,我们扭曲目标根据校准误差矩阵观察图像。为了进一步约束扭曲图像的空间,我们将H限制为刚性2D变换。不对称色增强:立体摄像机不可避免地会处于不同的照明和曝光条件下,例如,一台摄像机处于阴影下。因此,出于安全考虑,使算法对这种成像不对称性具有鲁棒性是至关重要的我们实现conv3d3× 3,CinReLUReLU3× 3,C输出up3d,(C,C,2)conv3d,(C,1,1){conv3d,(C,C,1)} × 6金字塔池化5519名称Res大小场景房辛特尔[4]0.451064室内/户外N[28]第二十八话0.4627校园YKITTI-15 [21]0.47200驱动YSceneflow [20]0.5230k所有N米德尔伯里[26]6.0023室内YHR-VS(我们的)5.07780驱动NHR-RS(Ours)4.6533驱动Y表1:用于立体匹配的数据集的概述,其中第一组包含低分辨率数据集,第二组包含高分辨率数据集。我们可以看到:1)缺乏大规模的高分辨率立体数据集,特别是对于户外场景。2)还缺乏用于驱动sce-nario深度感测的高分辨率立体匹配基准我们提出的数据集弥合了这些差距。决议(Res.)以兆像素显示。通过对参考和目标图像应用不同的色彩增强来实现这一目标,希望我们的特征编码网络可以学习对这种成像变体鲁棒的表示。不对称掩蔽:大多数立体匹配算法都假定目标视图中存在对应关系. 然而,当发生闭塞或难以找到对应时,该假设不成立另一方面,单目线索,如形状和连续性,以及上下文信息被发现有助于估计视差。为了迫使模型更多地依赖于上下文线索,我们应用了非对称掩蔽,它用整个图像的平均RGB值随机替换目标视图中的矩形区域[29]。3.3. 高分辨率数据集端到端的高分辨率立体匹配需要高分辨率数据集才能使其有效。然而,如表1所示,用于训练和测试目的的此类数据集非常少。Middlebury-v3 [26]是唯一公开的高分辨率立体匹配数据集但是,它包含的样本很少,没有户外/驾驶场景。为了弥合这一差距,我们将-图4:高分辨率对Middlebury测试图像“Newkuba”的有效性。LocalExp [34]和CBMV ROB [2]采用半分辨率输入,在所有已发布的方法中,在bad-1.0指标上排名第一和第二。如圆圈区域所示,我们的方法在薄结构上提供了更好的细节。3578px。移除深度大于200 m或视差大于768 px的像素,以模拟真实驾驶场景的视差分布,导致视差范围[9. 66,768] px和深度范围[2. 52,200]m。样本图像和地面实况可以在补充中找到。高分辨率真实立体声(HR-RS)基准:HR-RS包括在城市场景中驾驶时使用高分辨率立体摄像机和LiDAR收集的33对图像和视差地面实况。图像被校正并裁剪为1918×2424。 LiDAR点云被投影到图像平面并转换为视差,导致范围[5. 四,一百八十二。3]px.我们还手动删除了动态对象上的点云,以减少相机激光雷达配准,过滤误差基准方案:由于我们的动机是自动深度感应,因此了解不同行驶速度下的理想感应范围至关重要。根据补充资料中所示的干燥道路条件和汽车最大减速的假设,我们计算了聚合两个数据集以进行高分辨率立体匹配驾驶场景合成HR-VS被收集用于训练高分辨率立体模型,而高分辨率真实立体(HR-RS)数据集被收集用于在真实世界驾驶场景下对高分辨率立体匹配方法进行基准测试。高分辨率虚拟立体(HR-VS)数据集:HR-VS使用开源Carla模拟器收集[6]。 在Town01机动时,在4种天气条件下,收集了780对2056×2464分辨率的训练数据。第 相机基线和焦距设置为0。54米,速度v∈ {25,40,55}mph时的安全停车距离分别为d∈{25,60,115}m。为了确保司机和乘客的安全,我们有兴趣使cor.在这些停止距离内的正确预测,即,当一个物体进入停止距离时,我们必须正确地感知它。这给了我们三套关于驾驶速度的指标,我们称之为短程(0- 25米),中程(25- 60米)和长程(60- 115米)指标。对于每个安全距离范围,我们在像素空间中使用相同的度量集[26]。我们的第二阶段我们的第三阶段LocalExp5520参考图像:KITTI15测试图片11EdgeStereo,700SegStereo,600我们的第三阶段,DN-CSS,70iResNet,350图5:KITTI-15基准的定性结果。如棕色矩形所示,我们的分层立体匹配算法正确地找到了瘦结构和深度不连续性,同时运行速度比大多数SOTA(6。9FPS)。4. 实验在本节中,我们将在包括高分辨率Middlebury-v3和低分辨率KITTI在内的公共基准测试以及我们提出的高分辨率基准测试(即,HR-RS4.1. 设置数据集:我们使用了4个公开可用的数据集,包括Middlebury-v3,KITTI-15,ETH 3D和Sceneflow [20,21 , 26 , 28] , 以 及 用 于 训 练 的 HR-VS 数 据 集 。Middlebury-v3包含10个高分辨率训练图像对,其中每个图像对都具有不完美校准、不同曝光和不同照明条件的变体,总共产生60对。KITTI-15包含200个低分辨率对,ETH 3D包含27个低分辨率对,具有稀疏标记的地面实况。Sceneflow包含大约30k合成图像对,具有密集的视差标签。HR-VS包含780个训练对。实施情况:我们使用Pytorch实现了HSM网络。我们使用Adam优化器在具有4个Titan X Pascal GPU的机器上训练模型,批量大小为24,同时将初始学习率设置为0。001和β到(0. 九比零。999)。我们训练了9个epoch,然后将学习率降低了10。在训练过程中,我们将Middlebury,KITTI-15,ETH 3D [20,21,26]和HR-VS增加到与Sceneflow相同的大小,从而产生大约170 k个训练样本。我们执行对称和不对称的增广上飞。不对称的色彩增强包括随机应用不同的亮度([0. 5,2]),gamma([0. 八,一。2)和对比度([0. 八,一。2])目标和推理图像。 我们通过对增量y平移([0,2] px)和旋转([0,0. 1]deg)的机会为0。五、我们还应用非对称掩蔽,概率为0。5通过均匀地采样掩模的宽度([50,150]px)和高度([50,150]px)并将其随机放置在图像上。对称增强包括缩放([0. 九二4]对于低分辨率图像和[0.225,1。2]对于高分辨率图像)和随机裁剪-ping到固定大小(576×768)的补丁。我们设置了搜索结果为768px。在测试时,我们从粗到细在最后3个尺度上进行预测对于全分辨率输入,这些预测分别称为类似地,对于半分辨率输入,我们有“Our-H2”和“Our-H3”;对于四分 之 一 分 辨 率 的 输 入 , 我 们 有 “Our-Q3” 。 在Middlebury-v3图像上测试时,我们根据校准文件中的最大视差设置视差搜索范围,而对于1.8倍放大的KITTI-15测试图像,我们将视差搜索范围设置为384。对于HR-RS图像,我们将视差搜索范围设置为512。不同的基准点使用不同的度量标准。在Middlebury-v3 [26]上,我们将官方标准分为3组:1)bad-4.0(误差大于4.0的“坏”像素的百分比2)AVGERR(像素中的平均绝对误差)和RMS(像素中的均方根视差误差),其也考虑子像素精度。3)A99(99%的像素误差),A95和A90,在测量精度时忽略大的在KITTI-15 [21]上,我们使用官方度量D1-all,D1-bg和D1-fg,分别测量所有像素,背景像素和前景像素的离群值百分比。而在HR-RS上,我们将像素分离到不同的深度范围,并使用与Middlebury-v3相同的度量集。4.2. 基准收益高分辨率Middlebury-v3:因为我们不能提交多个按需输出到Middlebury-v3的在线测试服务器,所以我们只评估我们的全分辨率,全管道模型HSM-F3。我们比较了 两 组 已 发 表 的 方 法 。 第 一 组 方 法 包 括 那 些 在 1s/image下运行的方法,我们称之为为了与iResNet [16]进行比较,我们还添加了13个额外的图像,就像他们在训练时所做的那样,并且在测试时,我们将全分辨率输入图像作为输入。5521方法时间(s)平均值rms坏-4.0坏-2.0坏-1.0 A99 A95 A90HSM-F3(我们的)0.51(0.61)3.441 13.419.68716.51631.22863.8117.614.263SGM ROB [8] 0.32 14.2 47.5 19.1 26.4 38.6 231 97.5 31.1iResNet ROB [16] 0.34(0.42)6.56 18.1 22.1 31.7 45.9 87.5 36.2 15.1ELAS ROB [7] 0.48 13.4 34.9 26.0 34.6 51.7 152 79.8 38.8PSMNet ROB [5] 0.64 8.78 23.3 29.2 47.2 67.3 106 43.4 22.8DN-CSS ROB [11] 0.66 5.48 16.8 19.6 28.3 41.3 82.0 25.6 13.3LPS-H [30] 9.52 19.7 44.7 23.3 27.6 38.8 169 108 58.3卫生标准[15] 25.5 24.8 65.8 23.6 28.1 36.9 284 172 89.8LPS-F [30] 25.8 22.3 54.1 24.7 28.8 36.0 219 134 70.2MC-CNN-acrt [40] 150 17.9 55.0 15.8 19.1 27.3 261 140 56.6CBMV ROB [2] 3946 6.65 27.7 10.3 13.3 21.6 134 36.7 8.41[34] 2019年10月28日星期一表2:Middlebury-v3基准测试的结果,其中评估了所有像素下标数字显示基准中的绝对排名,“快速”组的最佳结果用粗体表示,总体最佳结果用下划线表示当在600万像素图像上以510ms/图像运行时,我们的方法比所有在1s/图像下运行更快的算法表现更好。在整个基准测试中,我们在avgerr、rms、A99和A95上获得了第一我们首先呈现定性结果,如图所示4.第一章然后,所有像素与SOTA的定量比较如表2所示(对于非遮挡像素,请参考补充资料)。与所有像素上的MC-CNN-acrt相比,我们将avgerr降低了80。8%,均方根75。6%,差-4.0乘38。7%,而运行294。快1倍。与CBMV ROB相比,我们将平均值降低了48。3%,均方根值为51。6%和坏-4.0乘6。0%,运行7737。快3倍。我们跑0。比iResNet ROB慢31倍,但avgerr减少了47。6%,均方根26。0%和差-4.0乘56。百分之二。我们得出了类似的结论时,评价非遮挡像素显示的补充。请注意,在提交时间方面,我们在Amazon AWS上使用了Tesla V100,它平均为我们提供了510毫秒/图像,而iRes- Net使用了Titan Xp。为了公平起见,我们在同一个Titan X Pascal GPU上测量了HSM-F3 和“iResNet”的运行时间我们31岁了。慢了4%,但准确得多。低分辨率KITTI:虽然我们的重点不是低分辨率,但我们仍然在KITTI-15上进行评估,并将SOTA算法分为两组:那些运行在200 ms以下并适合实时的需要1,而另一组较慢但更准确。在训练期间,我们排除了ETH 3D和Sceneflow数据集,并使用Middlebury-v3、KITTI-12和KITTI-15进行了微调。 在测试时,我们对上采样因子为1的图像对进行操作。8.我们首先在图5中显示定性结果。然后,我们参考表3获得定量结果。我们在所有已发布的方法中排名第一,同时运行3。比“EdgeStereo”快81由于许多自主机器人采用10fps同步的传感器,因此200ms模型的部署就绪版本可能适合实时需求。方法D1-所有D1-bgD1-fg时间(ms)HSM-stage-3(我们的)2.141.803.85150DN-CSS [11]2.942.395.7170DispNetC [20]4.344.324.4160StereoNet [13]4.834.307.4520[31]第三十一话2.161.873.61700SegStereo [38]2.251.884.07600PSMNet [5]2.321.864.62410PDSNet [37]2.582.294.05500[23]第二十三话2.672.483.59470iResNet [16]2.712.274.89350GCNet [12]2.872.216.16900表3:KITTI-15基准测试的结果,其中评估了所有像素,并且误差度量以(%)示出。“实时”组的最佳结果4.2.1HR-RS结果然后,我们对HR-RS进行评估,并与方法部分中讨论的方案下的先前技术的子集进行比较。ELAS [7]取自Robust Vi- sion Challenge官方软件包,iResNet [16]取自他们的Github存储库,我们使用OpenCV实现了两遍SGBM 2 [8](具有SAD窗口大小= 3,预滤波器的截断值= 63,p1 = 216,p2 = 864,唯一性比= 10,散斑窗口大小= 100,散斑范围= 32)。SGBM 2的结果还使用具有默认参数的加权最小二乘滤波器进行后处理。5522差-4.0(%)方法时间(ms)SML所有公司简介9142.343.533.740.9公司简介17516.518.817.117.1公司简介43015.716.714.915.5公司简介4225.927.634.426.9公司简介7418.918.919.718.2公司简介2930.332.733.431.2ELAS-H [7]46449.432.223.936.1SGBM 2-Q [8]132150.827.319.532.8iResNet-H [16]41032.124.422.825.8表4:HR-RS数据集的结果。所有像素均在3个范围内进行评估。S:0- 25 m,M:25- 60米,长:60- 115米。与基线相比,HSM在所有指标上都有显著改进。分辨率图像,并在第二阶段(倒数第二个刻度)进行预测。结果示于表4中。随时按需:在第二阶段(HSM-F2)切断HSM-F,所有像素上的bad-4.0增加10。3%,而1。速度快46倍 , 仍 然 比 ELAS 、 SGBM 和 iResNet 更 准 确 。 与iResNet-H相同,HSM-H3使用半分辨率图像作为输入,但运行4。速度提高54倍,不良率降低29.5%-4.0。提前停止(HSM-H2)将误差增加了47.8%,但速度快了0.76倍,仍然比ELAS和SGM更准确。远程传感:我们分析了我们的方法为不同的距离范围。在第二阶段(HSM-F2)较早停止HSM-F仅使短距离像素上的bad-4.0增加5.1%,这表明高分辨率输入可能不会帮助. 然而,在长距离像素上,它增加了14.8%的坏-4.0有趣的是,较早停止HSM-F(HSM-F2)仍然比HSM-H3产生更准确的长期预测(17.1%对19.7%)。这可能是因为特征金字塔已经对来自高分辨率输入的详细信息进行了编码,这有助于预测准确的长距离差异。4.3. 诊断我们进行消融研究,以揭示我们的方法的个别组件的强度。我们遵循与实验设置中描述的相同的训练协议,但使用相同的预训练编码器权重训练不同的模型。我们在单个Tesla V100 GPU上进行训练,批量大小为8,迭代次数为60k对于最后10k次迭代,学习率被缩减10定量结果示于表5中。有关定性效果,请查看我们的补充剂。特征体融合:在聚合金字塔级的信息时,我们在设计上选择了融合方法avgerr坏-1.0坏-2.0*时间(ms)全法4.0146.9326.8897成本增加。4.0253.0731.0398- HR-VS4.0251.0130.2497- ydisp4.2848.7528.9898- 多尺度4.2048.5328.8397- 阿克罗姆3.9146.9627.02975523表5:去除单个组件的诊断表。“成本增加”用代价体聚合代替特征体融合。结果按差-2.0进行排名粗尺度4D特征体积而不是3D成本体积。我们的直觉是,“特征-体积融合”容忍不正确的粗略预测,因为最终输出不直接取决于初始预测。同样如表5所示,我们发现用“成本-体积融合”代替“特征-体积融合”得到13。错误大于1px的坏像素增加1%高分辨率合成数据:从训练中删除HR-VS数据集后,bad-1.0指标增加了8。7%,坏-2.0指标增加了11。1%,这表明合成高分辨率数据是训练高分辨率立体声网络的关键。y视差增强:y视差增强是迫使网络学习对相机校准误差鲁棒的特征的有效方式。如表5中所展示,移除y视差扩增将差-1.0增加7。百分之二。多尺度损失: 多尺度训练损失通过迫使网络学习多个预测任务来规范网络,同时也有助于梯度流经多个尺度。我们发现,删除多尺度损失增加坏-2.0六、百分之八不对称色增强:我们发现重新移动不对称的色彩增强不会损害米德尔伯里附加图像的性能。这可能是因为我们在训练对中引入了额外的噪声,这会损害我们对正常图像的预测(具有相同的曝光/照明)。然而,我们发现这种技术有助于使网络对不对称成像条件具有鲁棒性结论在分层设计、高分辨率合成数据集和非对称增强技术的帮助下,我们的模型在Middlebury-v3和KITTI-15上实现了SOTA性能,同时运行速度明显快于现有技术。我们还能够在不同尺度下执行按需视差估计,从而可以实时准确地预测附近物体的深度5524引用[1] 帕 德 玛 纳 班 · 阿 南 丹 视 觉 运 动 测 量 的 计 算 框 架 和International Journal of Computer Vision,2(3):283-310,1989. 2[2] 康斯坦丁诺斯·巴索斯,蔡长江,菲利波斯·莫多海.CBMV : 用 于 视 差 估 计 的 合 并 双 向 匹 配 体 积 。 在CVPR,2018年。五、七[3] 托马斯·布洛克斯和吉坦德拉·马利克大排量光学流量:变分运动估计中的描述符匹配。IEEE transactions onpattern analysis and machine intelligence,33(3):500-513,2011。2[4] D. J. Butler,J. Wulff,G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影ECCV,2012年。5[5] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR,2018年。二四七[6] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉:一个开放的城市驾驶模拟器。在CoRL,2017年。5[7] Andreas Geiger,Martin Roser,and Raquel Urtasun.高效的大规模立体匹配。InACCV,2010. 二七八[8] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理 IEEE Transactions on Pattern Analysis and MachineIntelligence,30(2):328-341,2008。二七八[9] 海科·赫希穆勒和斯特凡·格里克。存在亚像素校准误差时的立体匹配。CVPR,2009。4[10] Asmaa Hosni , Christoph Rhemann , Michael Bleyer ,Carsten Rother,and Margrit Gelautz.快速的成本-体积过滤 , 用 于 视 觉 对 应 和 超 越 。 IEEE Transactions onPattern Analysis and Machine Intelligence,35(2 ):504-511,2013。2[11] Eddy Ilg,Tonmoy Saikia,Margret Keuper,and ThomasBrox.遮挡,运动和深度边界与视差,光流或场景流估计的通用网络。在ECCV,2018。二、七[12] Alex Kendall,Hayk Martirosyan,Saumitro Dasgupta,and Peter Henry.深度立体回归的几何和上下文的端到端学习。InICCV,2017. 二、三、四、七[13] Sameh Khamis , Sean Fanello , Christoph Rhemann ,Adarsh Kowdle , Julien Valentin , and Shahram Izadi.Stereonet:实时边缘感知深度预测的引导分层细化。在ECCV,2018。二四七[14] Vladimir Kolmogorov和Ramin Zabih使用图形切割计算与遮挡的视觉对应。载于ICCV,2001年。2[15] 克洛依·勒甘德雷,康斯坦丁诺斯·巴索斯,菲利波斯·莫多海.基于采样光照一致性计算的高分辨率立体匹配。在BMVC,2017年。二、七[16] Zhengfa Liang,Yiliu Feng,Yulan Guo,Hengzhu Liu,Wei Chen,Linbo Qiao,Li Zhou,and Jianfeng Zhang.通过特征恒定性学习视差估计在CVPR,2018年。二、六、七、八[17] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR,2015。2[18] Bruce D Lucas,Takeo Kanade,等.迭代图像配准技术及其在立体视觉中的应用。1981. 2[19] Wenjie Luo,Alexander G Schwing,and Raquel Urtasun.用于立体匹配的高效深度学习。在CVPR,2016年。 2[20] N.Maye r , E. Ilg , P.Hausser , P.Fische r , D.Cremers,A. Dosovitskiy和T.布洛克斯一个大型数据集,用于训练用于视差、光流和场景流估计的卷积网络。在CVPR,2016年。二三五六七[21] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。CVPR,2015。二、五、六[22] 太田雄一和金田武夫。使用动态规划的扫描线内和扫描线 间 搜 索 IEEE Transactions on Pattern Analysis andMachine Intelligence,(2):1392[23] Jiahao Pang , Wenxiu Sun , Jimmy SJ Ren , ChengxiYang,and Qiong Yan.级联剩余学习:用于立体匹配的两级卷积神经网络。InICCV,2017. 二、三、七[24] Peter Pinggera,David Pfeiffer,Uwe Franke,and
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功