WoodScape:第一个用于自动驾驶的鱼眼图像数据集

166 浏览量更新于2023-10-16 收藏 2.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13D Box Lidar查看激光雷达鸟瞰图前置摄像头语义分割前置摄像头左照相机右相机后置摄像头WoodScape：用于自动驾驶SenthilYog amani，Ciara' n Hughes，Jonathan Horg an，Ganesh Sistu，Padraig Varley，DerekSumanth Chennupati，Sanjaya Nayak，Saquib Mansoor，Xa vier Perrotton，PatrickPe' rezhttps://github.com/valeoai/WoodScapefirstname. valeo.com图1：我们介绍了第一个专用于自动驾驶的鱼眼图像数据集WoodScape它包含四个覆盖360°的摄像头，并配有高清激光扫描仪，IMU和GNSS。注释可用于九个任务，特别是3D对象检测，深度估计（覆盖在前置摄像头上）和语义分割，如图所示。摘要鱼眼相机通常用于在监视、增强现实以及特别是汽车应用中获得大视场尽管它们很流行，但很少有公共数据集用于对鱼眼图像进行计算机视觉算法的详细评估。我们重新租赁了第一个广泛的鱼眼汽车数据集，伍德景观，以罗伯特伍德的名字命名，他在1906年发明了鱼眼相机。WoodScape包括四个环绕视图摄像头和九个任务，包括分割，深度估计，3D边界框检测和污染检测。为超过10，000张图像提供了40个类的实例级语义标注，并为超过100，000张图像提供了其他任务的标注通过Wood-Scape，我们希望鼓励社区将计算机视觉模型应用于鱼眼相机，而不是使用简单的校正。1. 介绍鱼眼镜头使用高度非线性映射而不是标准透视投影提供大视场（FOV）。然而，这是以强烈的径向失真为代价的鱼眼相机之所以如此命名，它们与鱼从下面观察水面的180°世界观有关，这种现象被称为斯内尔罗伯特·伍德最初在1906年创造了这个术语[58]，并通过将针孔相机装满水来构建基本的鱼眼相机它后来被替换为半球形透镜[3]。为了向“鱼眼”一词的最初发明者和创造者致敬大视场摄像机对于包括视频监控在内[28] 和增强现实[46]，并对自动驾驶特别感兴趣[23]。在汽车中，后视鱼眼摄像机通常部署在现有车辆中用于仪表板查看和倒车停车。虽然目前商业自动驾驶系统通常使用窄FOV前向摄像头，但现在正在研究全360°感知以进行处理更复杂的用例。尽管这种兴趣越来越大，现有的文献和数据集相对较少。具有鱼眼的少数数据集的一些示例是：在[ 7 ]中使用全向摄像机进行室内场景的Visual SLAM地面实况，SphereNet [9]包含使用360°摄像机（不严格鱼眼）停放的汽车的1200个标记图像，以及在汽车中，Oxford Robotcar93089309前权左后图2：全景相机的示例图像网络显示了广阔的视野和360度的覆盖范围。数据集[37]包含大规模重新定位数据集。WoodScape是一个全面的数据集，用于使用图2所示的四个鱼眼相机进行车辆周围的360°感知。它旨在补充仅存在窄FOV图像数据的已发布汽车数据集的范围：其中， KITTI [17] 是第一个具有各种任务的pioneering 数据集，这推动了许多自动驾驶研究 ;Cityscapes [10]提供了第一个全面的语义分割数据集，Mapillary [39]提供了一个更大的数据集; Apol-loscape[24]和BDD 100 k [59]是更新的数据集，进一步推动了注释规模。WoodScape的独特之处在于它提供了鱼眼图像数据，以及一系列全面的注释类型。这些不同数据集的比较总结见表1。WoodScape的主要贡献如下：1. 第一个鱼眼数据集包含超过10，000张包含实例级语义注释的图像。2. 四相机九任务数据集旨在鼓励统一的多任务和多相机模型。3. 引入一种新的污染检测任务，并发布第一个同类数据集。4. 为3D盒子检测任务提出了一个有效的度量标准，将训练时间缩短了95倍。本文的结构如下。第二部分介绍了鱼眼摄像机模型、图像去畸变方法和鱼眼自适应视觉算法。第3节讨论了数据集的详细信息，包括目标、捕获基础设施和数据集设计。第4节列出了支持的任务和基线实验列表。最后，第五节对全文进行了总结2. 鱼眼相机投影鱼眼相机为汽车应用提供了明显的优势。鉴于其极宽的视野，它们可以用最少数量的传感器观察车辆的整个周围环境，通常只有四个摄像头，图3：鱼眼模型的比较。360°全方位覆盖所需的cally（图2）。这一优势伴随着一些明显的鱼眼相机所表现出的更复杂的投影几何形状。也就是说，来自鱼眼相机的图像显示严重的失真。典型的相机数据集由窄FOV相机数据组成，其中通常采用简单的针孔投影模型。在鱼眼相机图像的情况下，必须很好地理解适当的相机模型，以处理算法中的失真或在处理之前扭曲图像。本节旨在向读者强调鱼眼相机型号需要特别注意。我们提供了一个简短的概述和参考进一步的细节，并讨论了操作的优点，对原始鱼眼与不失真的图像。2.1. 鱼眼相机型号鱼眼畸变由径向映射函数r（θ）模拟，其中r（θ）是图像上距畸变中心的距离，并且是入射光线相对于相机系统的光轴的角度θ畸变的中心是光轴与像平面的交点，并且是径向映射函数r（θ）的原点。赤平投影[22]是最简单的模型，它使用从球体到平面的映射最近的投影模型是统一相机模型（UCM）[1 ，7]和eUCM（增强型UCM）[27]。在[25]中讨论了各种投影模型准确性的更详细分析这些模型并不完全适合鱼眼相机，因为它们编码特定的几何形状（例如，球面投影），并且通过使用添加的失真校正分量来补偿模型中出现的误差。在WoodScape中，我们为更通用的鱼眼内在校准提供了模型参数，该校准独立于任何特定的投影模型，并且不需要额外的失真校正步骤我们的模型是基于一个四阶多项式映射的入射角图像半径的像素（r（θ）=a1θ+a2θ2+a3θ3+a4θ4）。在9310图4：消除鱼眼图像失真：（a）直线校正;（b）分段线性校正;（c）柱面校正。左：原始图像;右：未失真图像。根据我们的经验，更高的订单不提供额外的准确性。数据集中的每个视频序列被提供有用于鱼眼内在函数的四阶多项式模型的参数。作为比较，为了让读者理解不同模型的行为，图3显示了五种不同投影模型的映射函数r（θ），它们是多项式，直线，立体，UCM和eUCM。四阶多项式的参数取自我们的鱼眼镜头的校准我们优化了其他模型的参数，使其在一定范围内与该模型相0mm到120mm（即最大FOV为240mm）。该图指示与原始四阶多项式的差为对于低入射角，UCM大约四个像素，eUCM大约一个像素对于较大的入射角，这些模型的精度较低。2.2. 图像不失真与模型自适应标准的计算机视觉模型不容易推广到鱼眼相机，因为大的非线性失真。例如，标准卷积神经网络（CNN）的平移不变性丢失。为鱼眼相机开发算法的最简单的方法是执行直线校正，以便应用标准模型。最简单的反失真是将像素重新扭曲成直线图像，如图4（a）所示但有两个主要问题。首先，FOV大于180mm，因此有光线从相机后面入射，不可能确定。建立到直线视口的完整映射。这会导致FOV的损失，这可以通过校正图像中其次，存在残留失真的问题，其在图像的外围附近更明显，其中较小的区域被映射到较大的区域。丢失的FOV可以通过多个线性视口解决，如图4（b）所示。然而，在从一个平面到另一个平面的过渡区这可以被视为鱼眼镜头流形的分段线性近似。图4（c）展示了使用圆柱形视口的准线性校正，其中它在垂直方向上是线性的，并且保留了像行人这样的直的垂直对象。然而，沿水平轴存在二次在许多情况下，它提供了合理的权衡，但它仍然有局限性。在学习算法的情况下，可以优化参数变换以实现目标应用精度的最佳性能由于不失真的基本限制，在前一节中讨论的适应结合鱼眼模型的算法的替代方法可能是最佳解决方案。在经典的几何算法的情况下，非线性投影的分析版本可以被并入。例如，Kukelova et al.[32]通过结合径向失真模型来扩展同态估计。在深度学习算法的情况下，一个可能的解决方案可能是训练CNN模型来学习失真。然而，由于空间变化失真，CNN的平移不变性假设基本上被打破，因此让网络隐式学习它是没有效率的。这导致了CNN的几次调整，以处理球形图像，如[52]和[9]。然而，球面模型不能提供鱼眼镜头的精确拟合，这是一个悬而未决的问题。3. WoodScape数据集3.1. 高级目标Fisheye：这个数据集的主要目标之一是鼓励研究社区在没有失真的情况下在鱼眼图像上开发视觉算法。有很少的公共鱼眼数据集，他们都没有Fisheye特别有利于汽车低速操纵场景，例如停车[21]，其中仅用四个摄像头就可以实现精确的全多摄像头：全景系统至少有四个摄像头与车身刚性连接。Pless[42]在导出用于将摄像机网络建模为一体的框架方面做了开创性的工作，这种方法对于像视觉里程计这样的几何视觉算法然而，对于语义分割算法，目前还没有关于刚性连接摄像机联合建模的文献.多任务：自动驾驶有各种视觉任务，大部分工作都集中在独立解决单个任务上。然而，最近的趋势[30，53，51，8]是使用单个多任务模型来解决任务，以实现编码器特征的有效重用，并且93114326813124043104543804774723277877318437140711110967图5：停车场的SLAM点云俯视图。对象的高度是彩色编码的（绿色表示高值，蓝色表示中值，灰色表示低值）。在学习多个任务的同时提供正则化。然而，在这些情况下，只有编码器是共享的，解码器之间没有协同作用。现有的数据集主要是为了促进特定任务的学习而设计的，并且它们我们设计了我们的数据集，以便为各种任务提供同步注释，但由于每个任务的最佳数据集设计的实际限制，3.2. 数据集采集我们多样化的数据集来自三个不同的地理位置：美国、欧洲和中国。虽然大部分数据是从轿车中获得的，但也有一个重要的子集来自运动型多用途车，确保传感器机械配置的强大组合。驾驶场景分为高速公路，城市驾驶和停车用例。为所有传感器提供内部和外部校准以及时间戳文件，以允许数据同步。相关车辆的机械数据（例如：轮周、轴距）。通过在数据收集过程的所有阶段进行质量检查，确保高质量的数据。注释数据经过高技能评审员的严格质量保证。该数据集记录的传感器如下所示：• 4个1MPx RGB鱼眼摄像头（190mm水平FOV）• 1x激光雷达旋转20赫兹（Velodyne HDL-64 E）• 1x GNSS/IMU（NovAtel Propak6 SPAN-IGM-A1）• 1x GNSS定位与SPS（Garmin 18x）• 来自车辆总线的里程计信号。我们的WoodScape数据集为多个自动驾驶任务提供标签，包括语义分割、单目深度估计、对象检测（2D3D边界框）、视觉里程计、视觉SLAM、运动分割、脏污检测和端到端驾驶（驾驶控制）。在表1中，我们将流行数据集的几个特性与WoodScape进行了比较。除了提供鱼眼数据，我们还为更多任务提供数据建筑和围栏四轮车交通标志电线杆和其他物体地面标记车道标志人行道道路天空植被人四轮车组重型四轮车动物骑手两轮车图6：WoodScape中语义分段类实例的分布。最小尺寸为300像素。比典型的（总共九个），提供完全新颖的任务，如污染镜头检测。图像以1MPx 24位分辨率提供，视频以30 fps的速度解压缩，持续时间从30秒到120秒不等该数据集还使用真实相机的精确模型提供了一组合成数据，从而能够对其他任务进行调查该相机具有HDR传感器，带滚动快门，动态范围为120 dB。它的功能包括黑电平校正，自动曝光控制，自动增益控制，镜头阴影（光学渐晕）补偿，伽玛校正和自动白平衡的颜色校正。在我们的数据集中提供的激光扫描仪点云使用商业SLAM算法精确地预处理，以提供用于诸如深度估计和视觉SLAM的任务的更密集的点云地面实况，如图5所示。在识别任务方面，我们提供了40个类的标签，主要类的分布如图6所示。请注意，为了在本文中显示，我们合并了图6中的一些类（例如，3.3. 数据集设计为机器学习设计数据集是一项非常复杂的任务。不幸的是，由于深度学习的巨大成功，最近它没有得到我们认为它仍然值得的那么多关注。然而，与此同时，仔细检查离群值的训练集提高了深度神经网络的鲁棒性[36]，特别是在对抗性示例方面。因此，我们认为，每当发布新的数据集时，不仅应该在数据采集上花费大量精力，而且还应该在仔细的一致性检查和数据库拆分上花费大量精力，以满足训练，模型选择和测试的需要。采样策略：让我们定义一些符号和名称-9312表1：包含语义标注的各种自动驾驶数据集的汇总任务/信息数量KITTI城市景观MapillarynuScene场景ApolloScapeBDD100kWoodScape[17个][10个国家][39]第三十九届[6]美国[24日][59个]我们年2012/14/15201620172018201820182018/19捕获信息州/城市1/12/5050+/100+2/21/41/45+/10+其他传感器1 激光雷达-GPS1 LiDARGPS，IMU2LiDARGNSS1个GPSIMU1个LiDARGNSS可以从实例分割中为其他数据集获得1个2D框注释我们将首先参考这些约定（我们遵循[4]中提供的定义）。种群是所有前向特征向量的集合。在某个过程中收集的总体的子集称为样本集S。代表-主动集合S_i显著小于S，而捕获来自S的大部分信息（与相同大小的任何不同子集相比），并且在它包含的代表。在理想情况下，我们希望我们的训练集等于S。这在实践中是极难实现的。近似这一点的一种方法是训练集的最小一致子集的概念，其中，给定训练集T，我们感兴趣的是子集T，最小集合使得Acc（T）=Acc（T），其中Acc（·）表示所选择的准确度度量（例如，杰卡德在-dex）。注意，准确度的计算意味着具有地面真实标签。其目的是通过删除不提供信息的样本来减少训练集的大小，这些样本无助于改进学习的模型，因此可以减轻注释工作。有几种方法可以获得T。一种常用的方法是实例选择[40，35，26]。实例选择主要有两类：包装器和filters. 基于包装器的方法使用基于构造的分类器的准确性的选择另一方面，基于滤波器的方法使用基于不相关的选择函数的选择准则。最小一致子集的概念对于我们的设置至关重要，我们记录来自摄像机的图像数据。以30fps的帧速率收集帧，特别是在低速下，最终会导致显著的图像重叠，因此，具有有效的采样策略来提取数据集至关重要我们使用了一个组合的包装方法，使用选择标准的基础上分类器[40]以及基于图像相似性度量的简单过滤器。数据拆分和类平衡：数据集以6：1：3的比例分为三个块，即训练、验证和测试。对于经典算法，所有的数据都可以用于测试。顾名思义，训练部分将仅用于训练目的，验证部分可以与训练集（例如，当所寻找的模型不需要超参数选择时）或用于模型选择，并且最后，测试集仅用于模型评估目的。数据集支持正确的假设评价[55]，因此提供了多个分割（共5个）。根据特定的任务（参见第4节，完整列表），类不平衡可能是一个问题[19]，因此，也提供了特定于任务的拆分。提供了对拆分机制的完全控制，允许每个类在每个拆分中被平等地表示（即，分层抽样）。GDPR 挑战：欧洲最近的《通用数据保护条例》（GDPR）法规在公开我们的数据方面带来了挑战。超过三分之一的数据集是在欧洲记录的，因此由于行人和车牌的可见面孔，因此是GDPR敏感的。有三种主要方法来处理隐私，即（1）手动模糊，（2）基于GAN的重定向和（3）严格的数据处理许可协议。模糊化是常用的方法，其中手动模糊图像中的隐私敏感区域。那里5雷达IMUIMU相机42-6614摄像机信息任务6111429细分类83066-254040帧4005k25k-140k5.7k10k二维边界框1类3----107帧15k----5.7k10k3D边界框类3--251-3帧15k--40k5k+-10k深度估计帧93k-----400k运动分割帧1.6k-----10k污染检测框架------5k视觉SLAM/里程计视频33-----50端到端驾驶视频------500合成数据帧------10k9313也可以使用基于GAN的重定向，其中面部由自动生成的面部交换[31]。在最近的EuroCity个人数据集[5]中，作者认为任何匿名化措施都会引入偏见。因此，他们发布了带有原始数据和许可协议的数据集，强制用户严格遵守GDPR。我们将采取类似的做法。4. 任务、试验和基线试验由于篇幅有限，我们简要描述了每个任务的指标和基线实验，并在表2中进行了总结。每个任务的测试数据集由表1中列出的相应注释样本数量的30%组成。代码可在WoodScape GitHub上获得，示例视频结果在补充材料中共享。4.1. 语义分割用于自动驾驶的语义分割网络[47]已在[12，45]中直接在鱼眼图像上成功训练。由于缺乏鱼眼数据集，他们利用Cityscapes的人工扭曲图像进行训练，并在鱼眼图像上进行测试。然而，人工图像不能增加原始捕获的FOV。我们的语义分割数据集为40个对象类别提供了像素级标签，相比之下，Cityscapes数据集[10]提供了30个。图6显示了主要类的分布。我们使用ENet [41]来生成我们的基线结果。我们通过使用分类交叉熵损失和Adam [29]优化器进行训练，为我们的数据集微调他们的模型我们选择交集优于并集（IoU）度量[16]来报告表2中所示的基线结果。我们的平均借贷额是51.4、在这个测试中图7显示了我们的测试集的鱼眼图像分割的样本结果。四个相机图像被相同地处理，然而，探索每个相机的模型的定制将是有趣的。该数据集还提供实例分割标签以探索全景分割模型[34]。4.2. 2D边界框检测我们的2D对象检测数据集是通过从包括行人、车辆、骑自行车者和骑摩托车者在内的7种不同对象类别的实例分割标签中提取边界框来我们使用Faster R-CNN [43]和ResNet 101 [20]作为编码器。我们使用ImageNet [11]预训练的权重初始化网络。我们对探测器进行微调表2：基线实验结果的总结。任务模型度量值分割ENet [41]IOU51.42D限位框更快的R-CNN[43]mAP（IoU>0.5）31污染检测ResNet10 [20]类别（%）84.5深度估计本征[14]RMSE7.7运动分割MODNet [49]IOU45[20]第二十话平移（5mm）51鱼眼（图像外围中的对象的取向与中心区域非常不同）。为了更好地量化这一点，我们测试了一个预先训练好的网络，与我们的数据集训练值45相比，mAP得分为12。鱼眼训练模型的样本结果如图7所示。我们观察到，它是必要的鱼眼几何明确，这是一个开放的研究问题。4.3. 摄像头污染检测据我们所知，污染检测的任务首先在[56]中定义。与挡风玻璃后面的前置摄像机不同，环绕视图摄像机通常直接暴露于不利的环境条件，因此易于变脏或在镜头上形成水滴。随着视觉感知功能的显著下降，检测污染的摄像头对于实现更高水平的自动驾驶是必要的。由于这是一个新的任务，我们将在下面详细讨论。我们将相机污染检测任务视为混合多标签分类问题，即我们感兴趣的是分类器，其与二进制指示器阵列联合分类单个图像，其中每个0或1分别对应于缺失或当前类别，并且同时neously分配一个分类标签。要检测的类包括{不透明，透明}。通常，不透明的污垢来自泥土和灰尘（图8右图），耳鼻喉科的污染来自水和冰（图8左图）。然而，在实践中，常见的是在相机图像中看到水产生通过绘制多边形将污染区域与未污染区域分开来执行5k图像的注释，以便在必要时可以将其建模为分割任务我们通过一个基于实例的分别对每个任务进行准确度测量，即平均测试集的Jaccard指数：1Σn|得双曲余切值.|,where通过在KITTI [18]和我们的对象上进行检测数据集。当IoU ≥ 0时，二维目标检测的性能以平均精度（mAP）表示. 5之间的预测和地面实况边界框。我们获得了31分的mAP评分，这明显低于其他数据集的准确性。这是由于边界框检测是一项艰巨的任务，ni=1|Yi∪Zi|Yi∈ Y={0，1}k表示第i个测试样本的标签， Zi表示分类器测试集的基数，k是标签向量的长度我们使用一个小的基线网络（ResNet10编码器+3层解码器），并实现了84. 5%用于多标签分类。旋转（0.1°）71视觉SLAM[15]第十五话重新安置（%）613D Boun培训指标丁盒检测AP（%）- 复杂的YOLO [50AOS（%）]运行时间（ms）3D-IoU64.3885.6095SSRT62.4688.4319314图7：使用ENet [41]（顶部）进行分割的定性结果和使用更快的RCNN [43]（底部）进行对象检测4.4. 3D包围盒检测为10k帧提供3D框注释，具有3个类别，即“驾驶员”，“车辆”和“骑自行车的人”。通常，3D IoU [18]用于评估3D边界框预测，但存在缺点，特别是对于旋转对象。两个盒子可以达到良好的3D IoU分数，同时与相反的标题重叠。此外，在3D空间中进行精确计算是一项耗时的任务。为了避免这些问题，我们引入了一个新的评估指标，称为缩放旋转平移分数（SRT）。SRT基于这样的想法，即两个不重叠的3D框可以通过使用独立的刚性变换来容易地相对于彼此进行变换：平移St、旋转Sr和缩放Ss。因此，Ssrt是com-α=β=0。因为我们的实验表明，平移或缩放更容易学习。对于基线，我们为单个类（“汽车”）训练了Complex-YOLO [50]。我们重复训练两次，第一次在3D-IoU上优化[18]，第二次在Ssrt上优化，使用固定的50：50分割进行训练和验证。为了进行比较，我们在中等难度下提供了3D-IoU、方向和运行时间[18]，见表2。是训练期间每个输入的所有框比较的平均运行时间。尽管这种比较使用3D-IoU，但我们在平均精度（3D-IoU）方面实现了类似的性能，具有更好的角度方向相似性（AOS）和更快的计算时间。4.5. 单目深度估计提出者：。单目深度估计是去深的一个重要任务，Ss=1−min|+的|1− s y|+的|1− s z|、1|, 1ws检测一般障碍。我们提供了超过100k的图像，所有四个相机（共400k）使用地面实况.θΣ.r1+ r2− t由LiDAR提供图1显示了一个彩色示例Sr= max 0，1−wrπd1/ 2·wtSt= max0，r1+r2其中蓝色到红色表示前置摄像头的距离。由于获得的深度是稀疏的，我们还提供了更密集的r1/2=2wt，wr，ws∈（0，1]基于SLAM的静态场景的点云地面实况3D点被投影到其中sx，y，z表示x，y，z方向上的尺寸比，θde-定义了偏航角的差，t定义了两个盒中心之间的欧几里得距离。基于用于计算两个半径r1/2的两个对象的对角线的长度d1/2，相对于两个对象的尺寸来计算St。基于惩罚项pt，我们通过下式定义完整度量：Ssrt=pt·（α Ss+β St+γSr）α+β+γ=1.0，如果r1+r2

下载后可阅读完整内容，剩余1页未读，立即下载