DrivingStereo：大规模数据集用于自动驾驶场景中的立体匹配

92 浏览量更新于2023-10-18 收藏 2.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

899DrivingStereo：自动驾驶场景立体匹配的大规模数据集杨国润1肖松2黄朝琴2邓志东1石建平2周博磊41清华大学计算机科学与技术系†2商汤科技集团有限公司3上海交通大学4香港中文大学{ygr13@mails，michael@mail}. tsinghua.edu.cnhuangchaoqin@sjtu.edu.cn{songxiao，shijianping}@ sensetime.combzhou@ie.cuhk.edu.hk摘要从立体图像估计视差图的方法已经取得了很大的进展。然而，由于现有数据集中可用的立体数据有限，以及当前立体方法的测距精度不稳定，自动驾驶中的工业级立体匹配仍然令人担忧。在本文中，我们构建了一个新的大规模立体数据集命名为DrivingStereo。它包含超过18万张图像，涵盖了各种驾驶场景，比KITTI Stereo数据集大了数百倍。通过模型引导的滤波策略从多帧LiDAR点产生高质量的视差标签。为了更好地评价立体匹配效果，本文提出了两种新的评价驾驶场景中立体匹配效果的指标，即. 距离感知度量和语义感知度量。大量的实验表明，与在FlyingThings3D或Cityscapes上训练的模型相比，在我们的DrivingStereo上训练的模型在真实驾驶场景中实现了更高的泛化精度，而所提出的指标更好地评估了立体方法在所有距离和不同类别上的效果。我们的数据集和代码可以在https：//drivingstereo-dataset.github.io网站。1. 介绍深度估计是汽车驾驶感知的关键问题之一。虽然LiDAR通常用于精确的深度和环境传感，但获得的LiDAR点云通常是稀疏的，特别是对于远距离的物体，而设备本身价格昂贵。或者，校准的立体相机系统表示同等贡献。智能技术与系统国家重点实验室、北京国家信息科学与技术研究中心、智能网联汽车与交通研究中心。能够提供负担得起的密集深度估计。最近，深度学习方法大大提高了立体匹配的性能，带来了更好和更准确的深度估计。因此，在KITTI Stereo 2015排行榜上[21] ，坏像素率（ D1 误差）从 6.38%[13] 降至1.74%[6]，这表明立体匹配在驾驶场景中的立体匹配的深度学习方法虽然在实际驾驶基准测试中取得了良好的性能，但在应用于实际驾驶场景时仍然存在适应性不可靠和精度不足的主要问题在于数据和度量。训练深度学习模型需要大量的标记数据。现有的驾驶数据集只包含数百张图像[11，21]，深度神经网络容易过拟合。此外，大规模合成立体数据集[20，10]无法反映真实世界的数据分布，因此训练的模型难以推广。因此，一个大规模的立体数据集包含一组不同的道路场景是苛刻的。另一方面，我们发现立体匹配的性能指标，如端点误差（EPE）[2]和D1误差[21]，不足以评估立体匹配算法在复杂驾驶场景中的能力。在我们的统计中，超过80%的有效像素位于短距离或背景区域，这严重影响了EPE或D1误差的最终测量。在实际驾驶中，还应考虑不同距离的区域以及各种移动对象，如因此，需要为驾驶场景量身定制的新指标。为了解决上述数据和度量的问题，我们构建了一个大规模的立体匹配数据集Driv- ingStereo驾驶场景。搭建了数据采集平台，利用Li-DAR点云采集了180K帧以上的数据.如图1，我们的数据集包含各种驾驶场景，包括城市、郊区、高速公路、高架和乡村道路900图1.我们的DrivingStereo数据集的示例。我们的数据集包含各种驾驶场景。示出了左相机的图像和视差图在不同的气候条件下，如晴天，雨天，阴天，雾天和昏暗的天气下，与现有的合成[10，20，3]和真实世界的数据集[11，21，7]相比，我们的DrivingStereo具有许多优势，例如真实世界的场景，大量，高多样性和高质量的视差标签。提出了一种模型引导的视差图过滤策略，对多帧LiDAR点云融合后直接投影的视差图进行过滤。我们进一步定义了距离感知和语义感知的立体匹配算法的性能评估指标。距离感知度量被设计为测量所有范围上的视差预测与地面实况标签之间的误差。与EPE和D1误差等总体指标相比，我们绘制了距离感知曲线，以区分所有可能深度的估计dispar- ity的偏差同样，语义感知的度量被设计为通过语义感知的雷达地图来计算各种语义类别（例如车辆和驾驶中涉及的人）的匹配率。基于这两个度量，可以更好地揭示当前立体匹配方法在驾驶场景中的不同特性。我们对立体匹配基线进行了基准测试，包括八种最先进的基于深度学习的立体匹配模型[20，15，23，4，17，32，28]和经典的半全局匹配（SGM）算法[12]。为了证明我们的数据集和指标的泛化能力，分别在 FlyingThings3D [20] ， Cityscapes [7] 和我们的DrivingStereo数据集上训练深度立体模型，然后进行比较。KITTI [21]和我们的数据集上的结果表明，我们的Driv- ingStereo使立体模型更适用于现实世界的驾驶场景。而不是以前的度量EPE或D1错误，我们的指标揭示了感知偏差的所有范围的距离和匹配精度的特定对象的立体方法。根据我们的数据集，度量，我们进一步比较立体感知与不同距离或物体上的Li-DAR测量[16]，以便量化它们的差距以供未来改进。我们将主要贡献总结如下：• 我们构建了一个大规模的立体数据集，该数据集包含超过180K的图像，涵盖了各种驾驶场景，以及模型引导的过滤用于产生高质量差异标签的策略。• 我们定义了距离感知和语义感知的度量，适用于远距离和各种类别的立体匹配评估。• 不同数据集和立体方法的实验结果表明，我们的数据集的能力和所提出的指标的有效性。2. 相关工作立体数据集。随着深度学习的快速发展，出现了一些用于自动驾驶的数据集[11，21，33，14，7，22，19]。其中一些数据集-volved在立体声收藏[11，21，7，14，19]。KITTI立体声2012 [11]和2015 [21]发布了数百个图像对，其中视差标签是从Velodyne LiDAR点转换而来的。KITTI立体数据集的主要问题是数量少，不足以训练深度学习模型。Cityscapes数据集[7]提供了相当数量的立体图像，而视差标签是通过SGM方法[13]预先计算的另一方面，基于图形技术建立了各种合成立体数据集场景流[20]，虚拟KITTI [10]和Sintel [3]数据集合成了密集的视差图，但在合成域和真实域之间仍然存在巨大的差距。此外，Middleburry立体数据集[25]和ETH 3D数据集[27]不适用于驾驶场景。901K最重要的是，对于驾驶场景，需要具有高质量视差标签的大型立体数据集在我们的DrivingStereo中，所有的立体图像都是在真实的驾驶场景中收集的视差标签从多帧LiDAR点云投影。为了减少由运动物体或标定误差引起的潜在误差，我们提出了一种模型引导的策略来过滤原始视差图。类似地，KITTI深度数据集[30]也采用SGM [13]来选择正确的像素。在我们的方法中，过滤是由一个指导模型，进一步确保最终的视差标签的质量进行。立体匹配方法立体匹配问题已经研究了几十年。Scharstein等人[26]将典型的立体声算法总结为四步流水线。SGM [12]是遵循流水线的经典算法。Zbontar和LeCun[34]首先引入CNN来描述立体匹配的图像块。受语义分割中使用的FCN的启发[18，5]，Mayeret al.[20]提出了一种称为DispNet的编码器-解码器架构，以实现端到端的视差回归。DispNet采用与FlowNet [8]相同的相关操作，其中匹配成本可以直接集成到编码器卷中。Pang等人[23]提供级联结构以优化预测结果和地面实况之间的残差。Liang等人[17]还提出了一个两阶段流水线，以改进最初估计的视差。一些方法引入3D卷积核来学习视差。例如，Kendallet al. [15]通过成本体积上的3D卷积来整合上下文信息Chang等[4]将空间金字塔网络与3D卷积层相结合，以纳入全局上下文。Cheng等人[6]将他们的卷积空间传播网络扩展到3D空间进行相关。最近，有几种方法试图结合其他信息来增强立体匹配。在SegStereo [32]中，语义线索被用来改善立体匹配。EdgeStereo [28，29]提取边缘线索以改进视差估计。在这项工作中，我们评估了几种流行的立体匹配方法对我们的数据集。与在 FlyingThings3D [20] 或Cityscapes [7] 上训练的现有模型相比，在我们的DrivingStereo上预训练的模型在我们的测试集和KITTIStereo数据集[21]上的表现优于其他模型，展示了我们数据集的能力。而且所有3.1. 数据采集与KITTI [11]类似，我们在SUV上安装了多个彩色摄像头（Basler ACA 1920 - 40 GC）、3D激光扫描仪（ Velo- dyne HDL-64 E S3 ）和 GPS/IMU 导航系统（OXTS RT 3003 G）。我们选择两个相机作为立体对，一个安装在顶部中心，另一之间的基线距离这样的立体对是54厘米，并且视场（FOV）是50厘米。LiDAR也配备在中央摄像头的后面，导航单元在后面。在空间配准中，首先计算摄像机的内、外参数，对立体图像进行然后利用LiDAR 和GPS/IMU对相机进行联合标定。校准的更多细节在补充材料中提供为了时间同步，所有传感器都采用GPS时钟。当LiDAR转向前视图时，立体摄像机被触发，相应的车辆姿态也被保存。受激光雷达的限制，采集系统的频率设置为10Hz。我们总共收集了42个序列，总共超过100万帧，涵盖了广泛的驾驶场景。一些例子如图所示。1.一、在原始帧中，我们选择了 18 ， 2188 帧来构建我们的DrivingStereo数据集，其中来自38个序列的174，437从4个序列中手动选择剩余的7，751对于测试帧，我们通过从Cityscapes [7]中训练的PSP-Net [35]生成它们的像素级语义标签，并进行一些后处理。据我们所知，DrivingStereo是迄今为止真实驾驶场景中最大的立体数据集。显然，获得的LiDAR点云是稀疏的，特别是在较远的地方。当单帧点投影到图像平面上时，图像中只有少数像素具有有效值。为了增加单个帧中有效像素的数量，我们整合了相邻帧的点云，并将它们融合在一起，如图所示。3.第三章。数据融合可以写为：Σn的方法进行评估，我们提出的指标。这种新的度量揭示了立体声匹配的更详细的结果-Cf=i=−mS（k+i）×T（k+i）→k，（1）在所有的范围和不同的语义类别下，带来-其中Cf和Cs表示融合云和单云为立体匹配的进一步研究提供参考。K K3. 数据集构建在本节中，我们首先介绍数据采集系统，其中立体图像和激光雷达点云同时收集。然后提出了一种模型引导的滤波策略，从多帧点云中生成高质量的视差图像。分别在帧k上。 m和n表示向后和前向搜索帧。T（k+i）→k表示从帧k+i到k的映射矩阵。我们添加体素网格[24]以减少融合云Cf中的冗余点。根据校准矩阵，Cf中的每个LiDAR点pl=[x，y，z，1]T被投影到相机像素pc=[u，v，1]T：p c= P rect× R rect×（R|T）l→c× pl，（2）C902图2.模型引导滤波图。从左到右，我们执行云融合，云投影，初级和次级滤波。利用GuideNet输出引导视差图进行滤波。其中Prect是左参考相机的3×4固有矩阵，Rrect是立体相机之间的4×4校准（R）|T）tr是从Velodyne坐标系变换到Im的外部矩阵。表示为：Df=Dc<$Dg，.1 |≤ δ d| ≤ δ d（三）相机的年龄。对于重叠问题，我们选择最近的LiDAR点进行投影。后dcdg=0|D c、-d g|> δ d通过云融合和点投影，得到原始视差图Dc。虽然多帧的融合增加了有效像素的数量，但在D c中引入了更多由动态对象引起的误差，这导致了如图1所示的熟悉的长尾失真问题。3.第三章。此外，一些不可避免的因素，如定标误差和累积偏差，也降低了融合云的质量。因此，我们提出了一个指导过滤策略来解决这个问题。3.2. 模型引导过滤引导滤波的目标是从融合云生成高质量的视差标签。我们设计了一个轻量级的引导过滤模型GuideNet遵循类似于[18，8，20]中的编码器-解码器架构，GuideNet采用16个残差块作为编码器，3个解卷积层作为解码器。相关模块[8]被嵌入到编码器中以计算立体特征之间的我们缩小卷积层中的通道数以减小模型大小。我们的GuideNet的推理时间是20ms，比DispNet快3倍[20]。GuideNet在FlyingThings3D数据集[20]上进行预训练，以预测合理的视差图进行初始过滤。培训实施在第2节中描述。5.2，逐层定义见补充资料。基于GuideNet预测的差异图，定义了过滤规则其中Dc表示从融合云Cf投影的视差图，Dg表示来自GuideNet的预测视差图。由于Dc是稀疏的并且Dg是密集的，因此将视差运算定义为Dc上的每个视差值dc由Dg上的dg验证，并且仅验证其偏差小于δd时，δ d保留在Df上。在初步滤波后，视差图被用来微调GuideNet，这使得模型更适合于驾驶情况。换句话说，微调的GuideNet可以预测更准确的视差图，其用于对最终视差标签进行二次过滤。代替手动调整[21]，我们的引导过滤能够自动生成高质量的标签，这是大规模数据集构建的基础。同时，GuideNet在制作DrivingStereo时训练有素。5.3中的实验结果表明，我们的轻量级GuideNet达到了与其他立体方法相似的精度4. 评估指标在驾驶感知中，我们应该考虑不同范围和类别的对象。例如，在长距离范围内的对象的可靠检测有利于我们的速度规划，而移动的前景对象的检测在避障中起着更重要的作用首先，我们提供了一个深度信息和语义分布的统计分析。然后，我们定义了新的距离感知和语义感知度量，可以更好地识别所有范围的距离和不同的类的准确性。903GG4.1. 统计分析在普通道路图像中，大部分像素位于附近的物体或背景环境，如道路，建筑物和植被。在这里，我们对KITTI Stereo 2015进行深度分布的定量统计[21，1]。我们将视差图转换为深度图像，并计算每个深度区间中像素的比例。我们发现，超过80%的有效像素小于40米。在计算总体EPE或D1误差时，靠近的区域或对象在很大程度上决定了最终结果。而对于自动驾驶来说，这些指标需要在短、中、长距离之间取得平衡。类似地，分布在不同语义类别中的像素的比例为：地面（ 53. 62% ）、自然（ 23. 05% ）、建筑业（ 3.43%）、车辆（17. 63%）、人类（0. 04%）及其他（2。百分之二十三）。地面和自然的像素对最终的效果起着决定性的作用。在实际驾驶中，我们应该更多地关注前景物体，特别是移动的车辆和行人。因此，我们定义了以下指标来评估不同范围和类别的综合性能。4.2. 距离感知为了在更远的范围内捕获深度信息并防止稀疏LiDAR变换标签的干扰，距离感知度量被定义在整个距离上。基于焦距和立体基线，地面实况视差图Dg被变换回深度图D-1。我们在深度轴上以一定的间隔对多个点K进行对于每个采样深度点k，我们将其测量范围Rk表示为[k-r，k+r]。D-1在Rk范围内的像素被累加。然后我们计算绝对相对差（ARD）在视差估计DP和地面实况DG之间在这样范围Rk中：4.3. 语义感知提出了一种基于语义的立体匹配评价方法，用于评价驾驶场景中不同目标的立体匹配效果，特别是车辆和行人的立体匹配效果。我们将Cityscapes语义分割[7]中的类合并为6个类别，包括地面、自然、建筑、车辆、人类和其他。受[9]的启发，我们定义每个类别k的匹配率（MR）：先生：%ds. t. max（dp，dg）<θ，（6）k pdgdp其中θ是用于识别视差预测dP是否匹配dG的阈值。我们在第二章中绘制了每个类别的匹配率五点三。除了背景区域外，我们还可以观察前景物体的学习视差的准确性，这有助于分析当前的立体方法。5. 实验在本节中，我们首先概述我们的数据集，并将其与现有的立体数据集进行比较。然后，我们介绍了我们的GuideNet的实现，并在KITTI Stereo数据集上验证了过滤策略[21]。最后，我们在我们的数据集上提供了几种立体方法的基线结果，并使用所提出的指标对这些方法进行了比较结果说明了我们的数据集和指标的能力5.1. 数据集概述我们首先确定了采集立体数据的关键参数。当我们进行多帧点云融合时，前向搜索帧n和后向搜索帧m分别设置为20和5立体图像被很好地校正，并且分辨率被裁剪为ARD=1KNΣ |d p− dg|D、（四）一千七百六十二乘八百。对于语义标签，我们使用PSP-Net [35]生成初始分割结果，然后使用公共Rkdg∈Rkg其中NRk是Rk中有效像素的数量。我们可以通过连接ARDk来绘制ARD曲线。此外，作为单个ARD的总和的全局差（GD）：2D探测器用于车辆和人体的精细化的语义分割的例子在补充材料中示出。表1. 可用立体数据集的比较。GD=1KΣk∈KARDk.（五）从ARD曲线上可以看出，随着距离的增加，预测误差的变化.与EPE和D1误差相比，GD能够克服不同距离之间的不平衡。节中5.3，我们将在KITTI数据集[21]上绘制深度立体方法的ARD曲线，并利用各种方法的属性。数据集场景框架培训测试决议标签[10]第十话虚拟21，260−1242 ×375✓[20]第二十话虚拟21818 4248960 ×540✓MPI Sintel [3]虚拟1 064 5641024 ×436✓米德尔伯里[25]室内15 15720 ×480✓ETH 3D [27]户外27 20940 ×490✓城市景观[7]驱动2 975 5002048 ×1024✗[19]第十九话驱动- -1280 ×960✗[11]第十一话驱动- -1226 ×370✗2012年KITTI展会[1]驱动194 1951226 ×370✓[21]第二十一话驱动200 2001242 ×375✓DrivingStereo（Ours）驱动174 437 77511762 ×800✓904在选项卡中。1，我们列出了以前的立体数据集的参数。我们的数据集具有以下优势：（1）真实世界场景。与合成数据集[10，20，3]不同，我们专注于现实世界的驾驶场景，并构建采集平台来收集数据。2)高度多样性。如图1、我们的数据集提供了多种场景，可以覆盖自动驾驶中的大多数情况。3)相当大的尺寸。我们的数据的总帧超过180k，远远大于其他真实世界的数据集[25，27，11，21]，甚至超过那些合成的数据集。数据集[10，20，3]。4)高质量的标签。与Cityscapes [7]不同的是，视差标签是从Li投影的，DAR点，并通过模型引导策略过滤。在接下来的小节中，我们还验证了引导滤波在KITTI上的有效性。5.2. 模型引导滤波的验证当进行引导过滤时，GuideNet在FlyingThings3D数据集[20]上进行训练，并在主DrivingStereo上进行微调。我们在PyTorch中实现了GuideNet。在训练阶段，我们使用我们将基本学习率设置为0。01，功率为0。9、动量为0。9，权重衰减到0。0001分别。最大迭代和批处理大小设置为300K和16。对于空间增强，我们采用随机调整大小和裁剪。随机因子在0之间。五比二0的情况。The “crop size” is set to 对于颜色增强，我们使用颜色偏移和对比度亮度的调整。沿RGB轴的最大色移设置为20，最大亮度偏移为设置为5。对比度亮度的倍数介于0. 8到1. 二、我们采用L1损失来训练模型。方程中的阈值δd3设置为2，用于引导过滤。我们还提供了GuideNet的逐层定义和消融辅助材料中“多元”学习策略研究表2. KITTI Stereo 2015 [21]和我们的数据集上的模型引导过滤结果。(a) [21]第二十一话所有有效像素正确的像素精度单个帧1,586,7141,548,04397.56%iter04,948,7243,607,35972.89%第一代2,445,9252,374,22697.07%ITER22,973,8822,915,110百分之九十八点零二Obj有效像素正确的像素精度单个帧127,579102,72880.54%iter01,005,084283,011百分之二十八点一三第一代219,319200,55991.45%ITER2221,828210,912百分之九十五点零七(b) 我们的DrivingStereo数据集迭代单帧iter0第一代ITER2图3. 模型引导过滤示例。由于我们的数据集最初没有地面实况，因此我们在KITTI数据集上验证了引导过滤策略[21]。立体2015数据集[21]发布了200对视差标签及其前景蒙版，其中142个图像在原始序列中具有原点索引[11]。在这里，我们选择这142幅图像作为验证集，并从原始数据集中采样另外8260类似于DrivingStereo上的准备，我们进行云融合，引导过滤作为Sec。 3.2. 在选项卡中。在图2（a）中，我们测量不同迭代下的有效像素、正确像素和准确度。与单帧云的视差图相比，在ITER 0处融合云的投影视差图具有大量的有效像素，但其精度仅为72。89%，28。13%在前景区域。经过一、二次滤波后，精度提高到98。02%，95。07%的前景区域。此外，通过二次滤波，有效像素和正确像素的数量也增加。这是因为微调后的模型对道路场景的适应性更强，预测效果更好。因此，KITTI上的验证结果说明了引导过滤用于提高标记准确性的可用性在KITTI [21]上进行验证之后，我们采用引导过滤来为我们的数据集生成视差标签。在选项卡中。2（b），通过多帧融合，有效像素的平均量从8，250增加到216，025，并且从61，555至105，800通过二次过滤。图3示出几个引导过滤的例子可以发现融合云中的运动物体和位于道路上的洞在初级滤波中的伪影在次级滤波中大部分被优化。5.3. 基线结果为了证明我们的数据集的能力，我们使用三个数据集，包括FlyingThings3D [20]，Cityscapes [7]和我们的DrivingStereo来训练深度立体模型。在这里，我们使用SGM [12]，DispNet [20]，CRL [23]，iResNet [17]，PSMNet [4]，SegStereo [32]，有效像素8,250216,02561,555105,800905表3.KITTI Stereo 2015和我们的DrivingStereo测试集的基线结果深度立体方法分别在FlyingThings3D [20]，Cityscapes [7]和我们的DrivingStereo上进行训练在这些度量中，对于运行时间，[G]，[C]，[P]表示GPU，Caffe和PyTorch的平台(a) 2015年KITTI Stereo评测[21]方法运行时间[20]第二十话EPE D1错误GD[7]第七话EPE D1错误GDDrivingStereo（我们的）EPE D1错误GDSGM [12]850ms [G]1.828.28%百分之十三点五二1.828.28%百分之十三点五二1.828.28%百分之十三点五二[20]第二十话40ms [C]3.0521.50%百分之十四点五九1.9114.66%17.77%1.246.30%百分之十四点零四[23]第二十三话152ms [C]3.2228.63%14.57%1.266.42%百分之十三点四五1.185.34%10.69%PSMNet [4]456ms [P]---1.206.05%10.18%1.145.44%11.26%iResNet [17]122ms [C]2.9821.64%百分之十三点五二1.387.51%14.37%1.205.52%8.96%[32]第三十二话225毫秒[C]2.07百分之十二点四三百分之二十四点五四1.437.93%14.07%1.135.31%12.04%ResNetCorr [32]170ms [C]2.4215.14%28.95%1.468.24%14.13%1.286.50%14.39%[28]第二十八话320ms [C]2.4112.91%百分之十七点九三1.276.99%12.56%1.125.35%10.64%GuideNet12ms [P]2.36百分之十八点零二22.52%1.51百分之九点二二百分之十四点八二1.367.33%百分之十八点四四(b) DrivingStereo测试仪方法运行时间[20]第二十话EPE D1错误GD[7]第七话EPE D1错误GDDrivingStereo（我们的）EPE D1错误GDSGM [12]850ms [G]4.4326.44%8.56%4.4326.44%8.56%4.4326.44%8.56%[20]第二十话40ms [C]4.91百分之四十九点四七11.75%3.5934.15%10.47%1.93百分之十六点八二7.02%[23]第二十三话152ms [C]6.4951.05%百分之十二点四三2.2513.70%6.18%1.366.02%4.69%PSMNet [4]456ms [P]---2.4019.09%7.29%1.6410.03%6.70%iResNet [17]122ms [C]5.10百分之四十二点九九11.14%2.1913.42%6.70%1.244.27%4.23%[32]第三十二话225毫秒[C]4.1436.81%10.55%2.1715.75%百分之七点四1.325.89%百分之四点七八ResNetCorr [32]170ms [C]3.5434.90%百分之十点九四2.2717.55%7.74%1.376.75%百分之四点九七[28]第二十八话320ms [C]5.0236.85%10.12%2.05百分之十二点三九6.12%1.193.47%百分之四点一七GuideNet12ms [P]4.9242.02%百分之十一点一三2.4319.86%8.33%1.518.89%百分之五点八五[31]和EdgeStereo [28，29]。由于三个训练数据集的大小不同，我们保持相同的epoch，因此Flying-ingThings3D [20]，Cityscapes [7]和我们的DrivingStereo的最大训练迭代分别设置为62.5K，62.5K和500 K。其他参数的设置与第2节中描述的GuideNet训练相同。五点二。除了传统的EPE和D1误差，建议的指标被用来评估立体声方法。对于距离感知度量，每个深度点的测量范围r被设置为4m。采样间隔被设置为8米，以便10个深度值被累积以计算GD。在绘制距离感知曲线时，采样间隔设置为1m，以获得更好的可视化效果。对于语义感知度量，阈值θ被设置为1。10个。在选项卡中。3，我们提供KITTI Stereo 2015 [21]的基线结果和我们的 DrivingStereo 的测试集。与FlyingThings3D训练的模型和Cityscapes训练的模型相比，DrivingStereo训练的模型在KITTI和我们的测试集上都达到了最佳性能，这表明了DrivingStereo对深度立体声模型的能力。在这些模型中，EdgeStereo [28]的准确性最高，其次是iResNet [17]，SegStereo [32]和CRL [23]。另一方面，在我们的DrivingStereo上评估的这些结果的平均值和方差大于在KITTI上评估的结果。这反映了由于大量的帧和不同的场景，我们的数据集对于当前的立体方法更具挑战性。906为了进一步分析我们的数据集和当前方法的属性，我们利用距离感知和语义感知度量来执行评估。图4描述了在DrivingStereo数据集上训练并在KITTI [21]和我们的测试集上评估的立体方法的距离感知曲线。与EPE或D1误差相比，这些度量曲线直观地展示了立体方法在不同距离上的性能。总的趋势是，平均差异略有下降，在国际-值为0<$10m，然后随距离增加而增加。Bene-从级联细化的结构iResNet [17]中修改，CRL [23]和EdgeStereo [28]优于其他方法，特别是在KITTI数据集上。此外，我们的GuideNet在短距离和中距离上达到了相似的精度，这表明我们的设计是可行的。从图1中语义感知度量的雷达图来看，5、我们发现，大多数深度学习方法在地面和车辆上表现得更好，但在人类、建筑和其他类别上的准确率略低。上述结果表明，距离感知和语义感知的度量促进立体方法的开发。6. 讨论与LiDAR的比较大多数感知系统采用LiDAR来测量距离。在这里，我们在距离感知和语义感知指标方面比较了LiDAR的立体准确性最先进的深度完井907(a)在我们的DrivingStereo上评估（b）在KITTI Stereo 2015上评估[21]图4. 距离感知ARD曲线。(a)在我们的DrivingStereo上评估[20]（b）在KITTI Stereo 2015上评估[21]图5. 语义感知的MR雷达图。方法[16]用于产生密集的LiDAR输出，并与KITTI基准[21]进行公平比较。从图中的距离感知曲线来看，4和图中的语义感知地图。5、我们发现现有的立体模型在短距离以及地面和车辆区域达到了与基于LiDAR的方法相当的精度这是自然的，因为视差依赖于焦距和立体相机之间的基线距离。为了缩短这一差距，立体训练需要更多的远程视差标签如果可能的话，可以使用长焦镜头相机。同时，损失函数需要对长距离和前景物体更敏感。对于定量评估，我们的DrivingStereo数据集和指标是评估此类方法性能的合适平台7. 结论在这项工作中，我们建立了一个大规模的立体数据集的驾驶场景，并提出了新的评估指标。基线结果证明了我们数据集的能力，并验证了我们新指标的有效性。随着立体性能的进步，立体相机和昂贵的传感器（如LiDAR）之间的差距可以进一步缩小，从而为自动驾驶车辆提供负担得起的立体匹配解决方案。确认这项工作得到了部分支持通过的国家重点研究&发展计划项目。2017年YFB 1302200，由丰田THEY-2019-08，由联合中国北方工业集团高等研究基金。6141B010318，以及香港中文大学直接基金（编号4055098）。908引用[1] Hassan Abu Alhaija ， Siva Karthik Mustikovela ， LarsMescheder，Andreas Geiger，and Carsten Rother.增强现实与深度学习相结合，用于城市场景中的汽车实例分割。在BMVC，2017年。5[2] S. 作者：David，M.J Black，J.P Lewis和R Szeliski。光流数据库和评价方法。IJCV，2011年。1[3] D. J. Butler，J. Wulff，G. B. Stanley和M. J.布莱克。一个用于光流评估的自然主义开源电影ECCV，2012年。二、五、六[4] 张嘉仁和陈永生。金字塔立体匹配网络。在CVPR，2018年。二三六七[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。TPAMI，2016. 3[6] Xinjing Cheng，Peng Wang，and Ruigang Yang.使用卷积空间传播网络学习深度。 arXiv 预印本 arXiv ：1810.02695，2018。第1、3条[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。二三五六七[8] Alexey Dosovitskiy、Philipp Fischer、Eddy Ilg、PhilipHausser、Caner Hazirbas、Vladimir Golkov、Patrick vander Smagt、Daniel Cremers和Thomas Brox。Flownet：使用卷积网络学习光流在ICCV，2015年。三、四[9] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NIPS，2014。5[10] A Gaidon，Q Wang，Y Cabon和E Vig。虚拟世界作为多目标跟踪分析的代理。在CVPR，2016年。一、二、五、六[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。一二三五六[12] 海科·赫希穆勒基于半全局匹配和互信息的立体图像处理TPAMI，2008年。二三六七[13] 海科·赫施穆勒和丹尼尔·沙尔斯坦。具有辐射差异的图像上的立体匹配代价的评估。TPAMI，2009年。一、二、三[14] Xinyu Huang ， Peng Wang ， Xinjing Cheng ， DingfuZhou，Qichuan耿，and Ruigang Yang. apolloscape自动驾驶开放数据集及其应用。arXiv：1803.06184，2018。2[15] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习InICCV，2017. 二、三[16] Jason Ku，Ali Harakeh，and Steven L Waslander.为经典图像处理辩护：在cpu上快速完成深度。arXiv预印本arXiv：1802.00036，2018。二、八[17] Zhengfa Liang，Yiliu Feng，Yulan Guo，Hengzhu Liu，Wei Chen，Linbo Qiao，Li Zhou，and Jianfeng Zhang. 学习909用于通过特征恒定性进行视差估计在CVPR，2018年。二三六七[18] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。三、四[19] Will Maddern ， Geoffrey Pascoe ， Chris Linegar ，and Paul Newman. 1年，1000公里：牛津机器人汽车数据集。国际机器人研究杂志，2017年。二、五[20] Nikolaus Mayer，Eddy Ilg，Philip Hausser，PhilippFischer，Daniel Cremers，Alexey Dosovitskiy，andThomas Brox.用于训练卷积网络的大型数据集，用于视差，光流和场景流估计。在CVPR，2016年。一二三四五六七八[21] Moritz Menze和Andreas Geiger。自动驾驶车辆的对象场景流。CVPR，2015。一二三四五六七八[22] Gerhard Neuhold ， Tobias Ollmann

下载后可阅读完整内容，剩余1页未读，立即下载