自动驾驶-数据沿线重复天气条件下的感知数据集

85 浏览量更新于2023-10-26 收藏 2.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

21383Ithaca365：重复和挑战性天气条件Carlos A.1夏优雅1尤玉蓉1陈俊安1陈翔宇1罗凯蒂1王燕1马克1赵伟伦2巴拉斯1基莲Q.温伯格1马克·坎贝尔1康奈尔大学2俄亥俄州立大学摘要近年来，由于大规模数据集的可用性，自动驾驶汽车的感知进展加速，这些数据集通常在特定位置和良好的天气条件下收集。然而，为了实现高安全要求，这些感知系统必须在包括雪和雨的各种天气条件下鲁棒地操作。在本文中，我们提出了一个新的数据集，通过一个新的数据收集过程来实现强大的自动驾驶-数据沿着15公里的路线在不同的场景（城市，高速公路，农村，校园），天气（雪，雨，太阳），时间（白天/夜晚）和交通条件（行人，骑自行车的人和汽车）下重复记录该数据集包括来自相机和LiDAR传感器的图像和点云，以及高精度GPS/INS，以建立跨路线的对应关系。该数据集包括道路和对象注释，使用非模态掩模来捕获部分遮挡和3D边界框。我们通过分析基线在道路和物体的非模态分割、深度估计和3D物体检测中的性能来证明该数据集的独特性。重复路由在对象发现、连续学习和异常检测等方面开辟了新的研究方向。链接到Ithaca365：https://ithaca365.mae.cornell.edu/1. 介绍自动驾驶汽车研究界依靠大量真实世界的感官数据集，在计算机视觉和感知方面取得了重大进展迄今为止，已经发布了许多数据集[4，6，14，18，32]，包括一些与不同感知任务相关的基准挑战。这些任务包括2D图像检测[22，30]，深度估计（立体声[5，35]和单声道），ular [11]），3D物体检测（立体声[19，29，34]和Li-DAR [8，36，38]），语义[39]和实例分割[20，21]。KITTI数据集[14]由于其全面的注释和基本事实而被用于许多这些基准测试。像许多人一样[9]，KITTI数据集仅在阳光充足/晴朗的条件下收集研究界需要在恶劣天气条件下具有多模态传感器数据（LiDAR、相机和GPS/IMU）的大规模数据集，以便能够在不同条件下训练和测试对象检测器、图像分割和深度估计算法的性能和鲁棒性。在这些具有挑战性的条件下缺乏数据最终限制了感知方法的普遍性，因此，限制了自动驾驶汽车仅适用于天气条件良好的环境。最近，已经发布了一些具有更多样化的交通、场景和天气条件的数据集[4，6，24]。这些数据集包括下雨、夜间低光条件或非常明亮的条件，但不包括下雪条件。一个这样的数据集与下雪条件是加拿大不利驾驶条件数据集[26]，在滑铁卢收集的数据集。然而，该数据集是主要的积雪条件，并且仅包括3D对象标签。此外，据我们所知，不存在具有不同天气条件的非模态分割数据集。非模态感知[20，40]旨在感知和理解被遮挡物体和场景的物理结构和语义非模态感知对于自动驾驶是至关重要的，因为能够推断物体的整个形状（例如，其它车辆、行人和道路）允许更安全和更有效的导航。这在高度混乱的环境或复杂的交通场景中尤其有用，其中仅基于可见线索来确定安全、无碰撞路径是困难的。KINS数据集[28]用非模态前景遮罩增强KITTI [13]，而[23]用非模态背景类增强Cityscapes [9]，但这两种数据集都只在阳光明媚和晴朗的条件下。有一些最近的发展，解决非模态分割[20，23，28]。不幸的是，现有的文献在这些领域缺乏进展，主要是由于缺乏大规模的，不同的数据集注释戴着非模态面具在本文中，我们提供了三个主要贡献。首先，我们发布了一个大规模的，天气和环境的迪-21384图1.使用校准图像、LiDAR点和GPS/IMU数据生成的点云。左：点云从一个阳光明媚的日子，而在校园建筑物右：雪天的点云（即，道路上的白色）通过路线的城市部分相反，通过在1.5年的时间内重复驾驶15公里的路线获得的非模态关键属性包括：• 天气多样性：雪，雨，晴，多云，晚上• 环境多样性：城市交通、高速公路、农村、行人密集的大学校园• amodal：道路，汽车，行人被雪遮挡• 重复路线：在15公里的路线上收集了40个数据超过680k帧，包括LiDAR、图像和GPS数据。图1显示了一些3D可视化。由于路线的可重复性，背景类别（例如道路和甚至停放的汽车）的标记容易地在极其变化的条件下被促进，而无需繁琐的注释。其次，我们提出了新的metrics的三维对象和背景类，如道路的amodal分割的适当评价最后，我们开发了基线模型架构，以突出所提出的数据集对关键自动驾驶汽车识别任务的实用性：非模态背景分割（道路），非模态实例分割（汽车，行人，骑自行车的人，摩托车，卡车，公共汽车等），3D物体检测、不同天气条件下的深度估计、路线类型，以及利用可重复性进行无监督标记。2. 相关工作自动驾驶数据集。KITTI数据集[14]是最受欢迎的自动驾驶数据集之一，为2D和3D对象检测，立体深度估计和分割任务的深度学习算法的开发铺平了道路OxfordRoboCar数据集[24]包含立体相机，2D和3D LiDAR，GPS/IMU数据;该数据集捕获同一路线上的各种天气条件，但只报告一条有雪的路线。此外，该数据集的发布重点是定位，因此不包括2D/3D对象或分割注释。最近的GROUNDED数据集[25]用于在不同天气条件下的定位，重点是探地雷达。加拿大不良驾驶条件（CADC）数据集[26]包括7K帧与三维对象标签在雪地条件下与环绕视觉，激光雷达数据，和地面实况运动。Apol-loScape开放数据集[33]包含多云和下雨条件下的LiDAR，相机和GPS，以及明亮的阳光照射情况。该数据集包括大规模3D汽车注释和分割标签。作者表示，将增加降雪条件下的数据，但尚未公布。还有其他各种大型数据集：nuScenes数据集[4]，Argoverse数据集[6]，Waymo开放数据集[32]和Lyft Level 5数据集[18]。NuScenes拥有40k注释帧，带有LiDAR，摄像头和雷达。Waymo是最大的数据集，拥有20万帧和5个LiDAR和摄像头。Lyft，对我们的knolwedge来说，是唯一一个沿着重复路线带有3D框标签的数据集，但主要是在天气好的时候（帕洛阿尔托）。虽然是大规模的，但这些数据集都不是在下雪的条件下收集的。最后，虽然Oxford和CADC数据集包括下雪条件下的数据，但它们不包括重要的非模态分割，即，没有对象的不可见和被遮挡部分的标签。这些数据集不能用于直接监督的非模态训练或评估。KITTI和Cityscapes[9]都已经被增强，为某些类提供了非模态分割标签。KINS[28]为14，991张图像添加了交通参与者类别的标签，[23]为Cityscapes中的500张测试图像和KITTI中的200张图像添加KINS不提供道路amodal地面真理在这项工作中解决，KITTI和CityScapes都没有非常不利的天气或照明条件。社区迫切需要一个具有跨恶劣天气条件的非模态标签的整体数据集，以便能够训练和测试对象检测器、图像分割器和深度估计器的性能和鲁棒性。图像和非模态分割。图像分割可以分为实例分割和语义分割。前者的目的是识别每个单独的对象实例。Mask R-CNN [16]是一种代表性的算法。后者的目标是用语义标签来标记每个像素现有技术的模型利用多尺度特征融合（即，[39]）或自我关注（例如，[37]）。21385×××××虽然这两种分割任务已经被广泛研究因此，近年来，非模态分割获得了研究兴趣[20，28]。然而，由于缺乏非模态标记的数据集，非模态分割主要集中在使用非监督算法学习不可见信息[20]，其遭受严重的离群值。KINS [28]是驾驶场景的先驱amodal数据集;该论文还提出了一个具有遮挡分支的amodal基线模型。最近，[23]提出了一种使用两个分支（背景和前景）架构的弱监督语义前景修复（SFI）模型。该模型的目的是通过用邻近的背景特征修复预测的前景区域来学习非模态语义背景掩模。我们通过[37]将SFI与位置和通道注意力模块相结合，为非模态道路分割开发了一个强大的基线。3. 创建数据集3.1. 传感器平台这些数据是使用自动驾驶汽车研究平台收集的，如图2所示。2015款雷克萨斯RX 450 h配备了以下传感器和硬件：• 4台Sekonix SF 3325 -100摄像机，1928 1208，30Hz，GMSL，RCCB滤镜，1/2.7• 2 Velodyne Puck（VLP-16）LiDAR，16扫描，100米范围，30厘米垂直FOV，10 Hz• 1 Ouster OS 2 -128长距离激光雷达，128扫描，240米范围，22.5厘米垂直视野，10 Hz• 1 Novatel PwrPak 7 D，双GNSS-502天线，Ep- sonG320 N IMU，PTP定时定制固件，PointOne• 1× Nvidia AGX传感器及其在车辆上的位置如图2所示。我们将发布json文件，为每个传感器指定外部参数。NVIDIA的记录工具（AGX的一部分）用于记录10 Hz的LiDAR和30 Hz 的相机。使用运行 ROS 的 PC 记录 NovatelGPS/INS数据，并通过PTP和Novatel定制固件与AGX进行时间同步。相机之间的时间同步已验证到10微秒。有关传感器之间同步的更多详细信息，请参见附录A.2。LiDAR扫描可以与GPS/INS结合使用，形成环境的精确三维重建，如图1所示。3.2. 路线和数据收集选择了一条15公里长的环路，由不同的道路类型和周围环境组成。路线包括大学校园，市中心，高速公路，城市，住宅，GNSS-502 x 2OS 2 -12860 FOV Cam x 4VLP16PwrPak7DZ+1.607m1.44m1.39m1.387m0.505mX+侧Y+0.118m0.565m1.42m1.04m0.467m0.026m0.467mX+1.668m顶部图2.汽车上的传感器和安装位置农村发展图3a示出了具有在几个位置处捕获的图像的路线的地图驾驶计划在一天中的不同时间捕获数据，包括晚上。大雪的情况被捕获之前和之后的道路被犁。我们的数据集的一个关键独特性是，在不同的条件下可以观察到相同的位置;图3b中显示了一个例子。图4显示了不同条件下的遍历分解。3.3. 传感器校准摄像机内置，LiDAR到摄像机外置。对于每个摄像机，我们提供摄像机内部参数。通过openCV [3]相机校准函数和目标棋盘推断相机固有参数和失真参数。在所有传感器前面的不同位置/范围处使用多个棋盘进行LiDAR到相机外矩阵校准在给定摄像机固有参数和无畸变参数的情况下，标定将Li-DAR坐标系中棋盘格上检测到的目标点与摄像机坐标系中对应的目标点进行匹配。将发布校准代码和校准图像以进行自定义分析。激光雷达呼叫惯性测量单元我们提供 LiDAR 和GPS/IMU传感器之间的校准。采用大转角采集LiDAR和GPS/IMU数据，通过迭代最近点（ICP）估计LiDAR点云之间的相对变换（旋转、平移）通过估计的变换和来自GPS/IMU的姿态读数（在IMU帧中），我们使用手-21386(a) 路线图显示不同场景的图像：高速公路，市中心，农村，郊区，大学校园，住宅区(b) 不同天气条件下的相同位置图3。路线和图像可视化840晴雨多云雪夜图4.数据集中存在的条件的直方图眼睛校准方法[17]，以获得LiDAR和IMU坐标之间的相对变换。根据Ouster和Velodyne的规定，通过基于LiDAR旋转期间激光发射的时间偏移对姿态进行插值，实现了LiDAR传感器内自我运动的校正。该定时可以与GPS/INS数据相结合以补偿自我运动。3.4. 非模态标签：道路我们开发了一个自定义的标签工具，以获得道路和对象的非模态掩模。对于不同环境条件下的道路标签，例如积雪覆盖的道路，我们利用了相同路线的重复遍历。具体来说，好天气的道路标签是通过使用GPS姿态和LiDAR数据构建的点云道路图，将其转移到恶劣的天气条件下路径/数据分为76个区间。然后将点云投影到鸟瞰图（BEV）中，并使用多边形注释器标记道路。一旦道路已经在BEV中被标记，其产生2D道路边界，道路的高度通过将多边形分解成更小的150 m2多边形并且将平面拟合到多边形边界内的在平均高度的1.5 m阈值内的点来确定。然后，我们使用RANSAC和回归器来拟合平面到点;然后使用估计的地平面计算沿边界的每个点的高度。将道路点投影到图像上并创建深度掩模，从而获得道路的非模态标签。通过使用GPS将位置与标记的地图匹配并使用ICP细化对准，通过验证道路标签的平均投影地面实况掩码与相同位置的所有其他地面实况掩码满足80%平均IOU来进行ICP解决方案的最终检查地面实况道路遮罩和标记示例如附录A.1所示。3.5. 非模态实例分段：对象非模态对象使用Scale AI标记六个前地面对象类别：汽车，公共汽车，卡车（包括货物，消防车，皮卡，救护车），行人，骑自行车的人和骑摩托车的人。在这种标记范例中有三个主要组成部分：首先识别对象的可见实例，然后推断被遮挡实例分割掩码，最后标记每个对象的遮挡顺序在最左侧的前向摄像机视图上执行标记。我们遵循与KINS相同的标准[28]。我们在第5.2节中标记了一组7000张不同天气和位置的图像，其中包含分割细节。图5中示出了示例地面实况非模态掩码。4. 非模态道路分割为了展示数据集的环境多样性和非模态质量，我们训练和测试了两个基线网络，以识别像素级别的非模态道路，即使道路被雪或汽车覆盖。第一个基线网络是语义前景修复（SFI）[23]。我们在附录D中展示了该模型在夜间、雪地和杂乱环境下的一些定性结果。这种网络在低光、极端天气、长距离和杂乱像素的条件下失败。因此，我们提出了第二个基线，它通过图6中的以下三个创新来改进SFI。位置和通道注意力：因为非模态分割主要是关于推断什么是不可见的，21387图5.不同天气条件下汽车的非模态地面实况遮罩示例。图6.我们提出的非模态道路分割基线使用PAM，CAM和修改后的池化模块，旨在恢复被遮挡的背景特征。粗体红色表示将混合池作为修补模块添加到道路分割分支。背景是一个非常重要的线索。Fu等人[12]介绍了两种创新，以捕获两种不同类型的上下文。位置注意模块（PAM）使用像素特征来注意图像中的其他像素，实际上是从图像的其他部分捕获上下文。通道关注模块使用类似的关注机制，有效地聚合通道上的信息。我们在骨干特征提取器上应用这两个模块，如图6所示。（这些单元的详情载于附录B）。我们结合CAM和PAM，以更好地定位精细掩模边界。最终的前景实例遮罩由上采样层获得。混合池修复：[23]提出的最大池修复操作可用于通过用附近的背景特征替换重叠的前景特征来帮助恢复非模态道路特征。然而，由于背景特征通常是平滑分布的，因此最大池化操作将对添加到它们的任何噪声相比之下，平均池化操作可以自然地减轻噪声。为此，我们建议将平均池化和最大池化结合起来进行修复，我们称之为混合池化。我们在附录B中展示了一些定性的结果：混合池化模块产生的前景蒙版比原始的最大池化操作更平滑。求和操作：在最后的上采样层之前，我们从PAM模块的输出中包含一个残差链接，而不是直接从混合池模块传递特征。通过在道路分割分支中联合优化两个特征图，PAM模块还学习遮挡区域的背景特征。这可以导致背景特征的更准确的恢复。我们在附录B中包括定性结果为了证明求和操作产生比没有求和操作的网络性能更好的内画结果，特别是当前景对象（例如，汽车）在图像中占据相对较大的空间。5. 实验基线和结果5.1. 非模态道路分割数据集针对道路进行拆分。该数据集的主要目标之一是评估跨天气条件的非模态道路分段的性能为了创建训练、验证和测试集，我们在整个路线中挑选了590个位置，并为25次不同的遍历检索了这些位置中每个位置的图像和道路深度掩模。在过滤掉ICP后对齐不良的位置（如标签部分所述）后，我们有一个包含11，475张用于训练的图像和3，275张用于测试的图像的数据集我们确保测试中的位置从训练中的位置不可见此外，我们还按天气条件进一步拆分了该数据集对于每个条件，我们为每个位置包含相同数量的图像。这些较小的数据集旨在研究天气条件之间的域间隙的影响，因为所有数据集都具有相同数量的图像/数据并且已经看到了相同的位置。我们数据集中的图像数量以及KITTI发布的其他测试集的详细信息21388表1.非模态道路分割的数据集分割（图像数量）数据集列车组测试集城市景观[9]2,975500KITTI [10]N/A200Ithaca365（全部）11,4753,275Ithaca365（每种天气）2,295655表2. 五种天气条件下的非模态道路结果（道路IOU）。我们使用SFI/OURS模型报告行训练和列测试。对角线条目是域内模型。每列的最佳结果都是粗体。远晴多云雨雪夜晴间多云49.0/57.3 44.0/ 51.7 44.6/ 49.8 40.6/ 47.0 22.0/ 46.737.8/ 48.8 45.8/58.0 37.1/ 49.1 36.2/ 44.1 26.0/31.2阴雨39.0/46.645.1/53.8 46.5/55.537.9/46.3 29.7/ 45.0雪域40.5/44.941.4/52.0 38.8/49.644.0/54.635.4/46.6晚上31.1/43.736.6/50.3 33.9/48.530.4/52.438.2/55.1密切阳光明媚多云阴雨雪域晚上阳光明媚91.6/95.589.4/ 92.0 86.5/ 88.4 85.7/ 88.7 82.8/ 90.0多云91.2/ 85.691.9/95.7 83.0/86.883.4/88.582.9/86.8阴雨雪夜89.1/ 90.7 87.7/ 89.0 89.7/94.9 85.3/ 89.286.8/ 89.0 90.7/ 92.2 84.3/ 86.5 89.3/ 91.587.5/ 90.3 90.5/ 93.6 85.4/ 87.2 89.4/ 92.091.3/93.6[10]和城市景观[9]在表1中显示。道路评价指标。分割任务通常通过平均IOU进行评估。然而，我们发现，这个指标是不适合非模态道路分割。图像中的绝大多数道路像素对应于汽车前方的前几米，这很容易分割。我们发现，我们的基线通常可以实现高IOU，但只能正确分割自我汽车的紧邻区域（图7）。然而，对于自动驾驶来说，需要对遥远的像素进行精确分割，因为它们会影响规划和未来的决策。为了确保算法不会忽略远处的道路像素，我们引入了一个度量，通过使用深度掩模将评估分为两个箱，近距离和远距离我们注意到30米或更短的距离是近距离，而30米以上的距离是远距离。这与其他数据集（如KITTI）类似，即根据距离将对象检测分为容易、中等或困难。在表2和图7中，我们定量和定性地证明了基于距离进行评估的必要性。从数量上看，我们可以看到模型性能很高，并且在近距离甚至在不同天气条件下变化定性地，在图7中，我们可以看到，在阈值距离以下，模型可以很好地捕获道路，但在阈值距离以上，无法捕获分支或远处的道路。试验结果我们在我们的数据集上进行实验，以及公开发布的CityScapes和KITTI的训练/测试集[23]。在两个基地之前- 线模型（见第4节）使用我们的非模态道路数据集进行训练，我们生成所需的前景语义表3.在Cityscapes、KITTI和Ithaca 365上训练/测试的SFI/OURS模型的非模态道路分割结果（mIOU）模型列车组测试集KITTI [10]城市景观[9]我们SFI [23]城市景观66.2972.7550.16SFI [23]简体中文72.3174.6889.50我们简体中文72.2577.4392.19使用预先训练的DeepLab [7]网络为两条基线提供面具（即我们的基线模型使用两个GPU（NVIDIA GT 1080Ti）并行训练，SFI使用一个GPU训练。这两个网络都是使用Adam优化器训练的，批量大小为8。总体实验结果示于表3中。我们观察到，在我们的数据集上训练的模型通常比在Cityscapes上训练的模型更好。例如，在我们的测试中，在我们的训练中训练的SFI模型明显优于在Cityspaces上训练的模型（89.50 vs. 50.16）。虽然这可能并不奇怪，因为域内结果通常比域外结果更好，但当在Cityspaces上进行测试时，在我们的模型上训练的SFI模型仍然优于在Cityspaces上训练的模型（74.68 vs.72.75）。此外，当在KITTI上进行测试时，在我们的训练上训练的SFI模型明显优于在Cityspaces上训练的模型。这些结果共同表明，我们的数据集更适用于训练一个强大的和可推广的模型。此外，我们要注意的是，在SFI中使用的2，975个城市景观图像[24]具有正常模态分割掩码，因此它们是弱标签。此外，对于测试集，SFI的作者手动标记了500张图像，其中包含三种背景类别（人行道，道路，其他刚性世界）的非模态掩模。由于基于一幅图像注释非模态掩模的困难，特别是对于远处和被遮挡的像素，注释是粗糙的并且容易出错。我们认为，弱标签和嘈杂的地面实况导致Cityscapes和Ithaca365之间的模型性能存在巨大差距在模型之间（SFI与我们的），我们发现我们提出的模型优于现有技术。我们还通过使用我们提出的远距离和近距离IOU指标，在5种不同的天气条件下评估SFI和我们的基线模型（表2 在近距离，这两种方法都表现良好，但是对于比30米阈值更远的像素，发现了大的性能差距-在SFI和我们的模型之间，或者在域内和跨域结果之间。这表明：1）不同天气/时间条件之间存在显著的域间隙对于这项任务来说，下雪和夜晚似乎是最令人不安的天气条件，因为没有在这些条件下训练的模型在这两种条件下表现更差。这一现象的一个潜在原因21389图7.两个基线（SFI，OURS）的非模态道路分割结果。前两排在阳光充足的条件下训练，第一排在阳光充足的条件下测试，第二排在下雪的条件下测试。下面两排在下雪的条件下训练，第三排在阳光明媚的条件下测试，第四排在下雪的条件下测试。截止深度为30 m，用绿线标出，远IOU在上，近IOU在下。ENA是在所有天气条件中，下雪和夜晚具有最多的视觉退化，这在两个模型的特征提取阶段期间引起障碍5.2. 非模态实例分割我们的第二组实验是关于非模态实例分割，使用我们标注的6个类别的7，000张图像我们采用Mask R-CNN [15，16]作为基线模型。我们做了两个实验。首先，我们使用我们的整体amodal训练集来训练模型，该训练集由在五种不同天气条件下收集的5，600张图像组成。然后，我们在由1，400张图像组成的整体amodal测试集上评估模型（表4）。训练和测试数据严格来自不同的位置。我们实现了56.5的整体平均精度（mAP）。其次，我们将数据集分为五种不同的天气条件（晴天，下雪，多云，下雨和夜晚）。在五种天气条件中的每一种条件下，我们准备了具有不同数量图像的训练集和测试集，因为不同的天气在40个标记的遍历中的频率不同。一般来说，训练集有1120张图像，测试集有280张图像，但雨雪天气条件下的图像较少。然后对于每种天气条件，我们训练Mask R-CNN模型，并在所有五种天气条件的测试集上评估训练模型的mAP如表4所示，对于所有五种天气条件，在相同天气条件下的训练和测试具有最高的mAP。这证实了域自适应对于非模态实例分割来说是一项具有挑战性的任务。我们仍然观察到，下雪，夜晚和下雨的mAP低于晴天和多云，这意味着它们是更具挑战性的情况，值得进一步，更集中的研究工作。附录D中包含了非模态实例分割的可视化。表4.使用Mask R-CNN [16]，在五种天气条件下的非模态实例分割结果。每一个条目都意味着行上训练，列上测试。每列的最佳结果都是粗体。培训\测试阳光明媚多云阴雨雪域晚上阳光明媚54.347.638.941.129.4多云47.248.033.621.414.2阴雨35.532.146.333.221.0雪域33.940.435.847.021.4晚上26.727.724.923.730.2表5. 我们的数据集上的3D汽车检测结果，使用KITTI和Argoverse上的预训练Point R-CNN [31]。我们在测试集上的不同深度范围内报告了IoU= 0.5/0.7的汽车类别的APBEV/AP3D模型IOU 0.5IOU 0.70-3030-5050-800-3030-5050-80KITTIArgo64.2/61.854.2/53.145.3/42.733.6/27.526.3/20.815.4/13.841.5/26.040.2/15.932.3/13.118.3/6.610.2/5.313.3/9.1图8.多次穿越造成的短暂性利用多次穿越的观测数据，计算了文献[ 2 ]中介绍的星历统计量，并对点云按比例着色。我们用黑色显示地面实况标签，用绿色显示KITTI训练的模型的真阳性检测，用蓝色显示Argoverse，用灰色显示假阳性检测多次遍历通过对短暂性进行阈值化来实现容易的假5.3. 3D物体检测，重复路线我们的第三组实验是使用LiDAR数据进行3D对象检测。对于该实验，使用了由不同位置的175个点云组成的小测试集然后，我们评估了在KITTI和Argov erse上预训练的LiDAR检测器Point-RCNN [31]Point-RCNN是一种流行的方法，它结合了PointNet [27]逐点特征和更快的R-CNN [30]，仅使用LiDAR点直接生成3D建议我们遵循KITTI报告3D和鸟瞰图（BEV）中的平均精度（AP），表示为AP3D和APBEV，re-estimated。我们按深度范围划分AP。我们专注于汽车类别，因为它是最常见的类。我们报告CarAP，其交集大于并集（IoU）阈值为0.5或0.7，这意味着，如果地面实况汽车与检测到的框之间的IoU大于0.5或0.7，则正确检测到结果示于表5中。这21390夜间图像稀疏gt阳光之夜表7.我们用于非模态道路分割、实例分割和3D对象检测任务的训练/测试数据分割表第一列表示数据集中的总帧数。图9.视差图的定性结果，使用在不同天气条件下训练的PSMNet [5表6. 在四种不同条件下，使用PSMNet [5]的立体匹配任务的三像素误差（%）。在每个条目（行，列）上，我们在行上报告训练，在列上报告测试。培训\测试阳光明媚雨雪晚上阳光明媚9.4823.5824.4117.79雨12.4224.0527.4519.90雪13.0127.8420.9922.83晚上10.5823.624.4611.99作为进一步研究使用我们的数据集进行跨天气条件和重复路线的3D对象检测的基线我们进一步证明了[2]中引入的短暂性统计，其利用同一位置的多次遍历来确定点是否短暂，即，不持久（见图8）。如果我们之前多次遍历同一位置，则此信息可用于消除误报以提高检测器5.4. 立体视差估计我们的最后一个实验是关于立体视差估计，以进一步展示我们数据集的不同天气和光照条件的挑战对于每种条件（晴天、下雪、下雨和夜晚），我们收集了4，739/1，188个左右图像对（基线为0.46 m）用于训练和测试。在本实验中用作深度地面实况的LiDAR数据来自之前的传感器设置，其中4个VLP-16安装在车辆前面，但相机保持不变。我们获得具有相应LiDAR点的像素的稀疏地面真实深度（以及像素视差）然后，我们在每个条件下训练和测试立体匹配PSMNet [5]的基线模型。表6示出了结果。我们再次观察到一个大的域差距，即使在立体匹配的低层次视觉任务：对角线域内误差通常比相同列的其他跨域误差小得多这也可以在图9中定性地看到：在夜间图像上，使用夜间图像训练的PSMNet明显优于使用阳光图像的PSMNet。此外，通过比较不同的列（不同的测试用例），我们清楚地看到，在雨天，雪天和夜间条件下进行立体视差匹配比晴天条件下的困难。所有这些结果再次表明，像我们这样的数据集需要更多样化的天气条件。6. 结论、讨论、数据发布计划由于缺乏天气恶劣的数据集，目前自动驾驶汽车感知方面的挑战滞后，灯光和密集的交通状况。本文为研究社区开发了一个独特的数据集，在不同的场景（大学校园，市中心，高速公路，城市，住宅和农村）和环境条件（雪，雨，夜）中使用非模态道路和对象遮罩标签。通过使用相同路线的重复遍历数据，我们可以有效地创建一个大规模的，具有非模态标签的多样化数据集。重复的路径也开辟了潜在的新研究方向，如对象发现和持续学习。引入了一种新的度量标准，用于正确评估道路等背景类的非模态分割。基线道路检测，深度估计，实例分割和3D检测使用该数据集揭示了不同天气条件下的显着性能差距，证明了该数据集的有用性。我们的数据集的一个关键优势是在同一路线上的多个遍历的可用性这些重复的旅行记录反映了这样一个现实，即许多人在家、工作和休闲之间重复驾驶来自过去遍历的信息不仅可以提高检测[1]，而且还可以在没有监督的情况下区分静态背景和前景中的移动对象[2]。因此，我们的数据集是弱监督/无监督3D对象发现和检测的有用测试平台。我们认为，对这个问题的研究是时代的需要：目前对昂贵的人工注释数据的依赖是有限的。数据发布计划：Ithaca365包含对齐的LiDAR点云以及在我们15公里路线的40次穿越中捕获的图像我们将为六个对象类提供地面实况3D对象边界框和非模态遮罩，以及7K选定帧上的地面实况非模态遮罩。这些数字与KITTI基准相似[14]。验证数据是在不同日期从训练数据的不同地理位置仔细选择的我们将通过收集未来季节的数据来继续增长数据集，即使在首次发布之后。IRB认为该项目不是人类参与者研究，因此不需要IRB批准。7. 确认这项研究得到了NSF（IIS- 1724282，IIS-2107161，IIS-2107077），ONR（N 00014 -17-1-2175）和SRC：2019-AU-2891。我们还要感谢ScaleAI 、 Amazon （ Ground Truth Plus ）和 Point OneNavigation。总火车测试#帧682217N/AN/A#帧w/ amodal道路遮罩14750114753275#frames w/ amodal instance masks700056001400#pcls w/ 3D边界框175N/A17521391引用[1] 匿名的后见之明是20/20：利用过去的遍历来帮助3D感知。在提交给第十届国际会议学习代表，2022年。正在接受审查。8[2] Dan Barnes ， Will Maddern ， Geoffrey Pascoe ， andIngmar Posner.驱动分心：自我监督分心学习，用于城市环境中的鲁棒单眼视觉里程计。见ICRA，第1894-1900页。IEEE，2018年。七、八[3] G.布拉德斯基OpenCV库。Dobb博士3[4] 放大图片作者：Holger Caesar，Varun Bankiti，Alex H.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom. nuscenes：用于自动驾驶的多模式数据集。预印本，arXiv：1903.11027，2019。一、二[5] 张嘉仁和陈永生。金字塔立体匹配网络，2018年。1、8[6] Ming-FangChang ， JohnWLambert ， PatsornSangkloy ， Jag-jeet Singh ， Slawomir Bak ， AndrewHartnett，De Wang，Peter Carr，Simon Lucey，DevaRamanan，and James Hays.Argo- verse：3d跟踪和预测与丰富的地图。在CVPR，2019年。一、二[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。6[8] Yilun Chen，Shu Liu，Xiaoyong Shen，and Jiaya Jia.快点r-cnn.在ICCV，2019年。1[9] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。 IEEE计算机视觉与模式识别会议（CVPR），2016年。一、二、六[10] Jannik Fritsch，Tobias Kuehnl，and Andreas Geiger.一种新的道路检测算法性能度量和评价基准在智能交通系统国际会议（ITSC），2013年。6[11] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归网络在CVPR中，第20021[12] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3146- 3154页，2019年。五、三[13] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun. Vision meets robotics：The kitti dataset.International Journal of Robotics Research （ IJRR ），2013。1[14] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。一、二、八[15] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。探测器 http s：//github.com/facebookresearch/detectron ， 2018年。7[16] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。InICCV，2017. 二、七[17] Radu Horaud和Fadi Dornaika。手眼校准。国际机器人研究杂志，14（3）：195-210，1995。4[18] R. Kesten，M.Usman，J.休斯顿，T.Pandya，K.娜达穆尼A. Ferreira ， M. 袁湾，澳 - 地 Low ， A. Jain ， P.Ondruska，S. Omari，S.沙阿，A.Kulkarni，A.卡扎科瓦角陶湖，澳-地Platin- sky，W.Jiang和V.谢特Lyft Level 5av dataset 2019. 网址 -https ： //level5.lyft.com/pageet/ ，2019. 一、二[19] 亨德里克·柯尼格肖夫，尼尔斯·奥勒·萨尔谢德，克里斯·托弗·斯蒂勒。利用立体视觉和语义信息进行自

下载后可阅读完整内容，剩余1页未读，立即下载