自动驾驶的全景分割：提出标签策略、新数据集和负面测试以提高鲁棒性

174 浏览量更新于2023-10-25 收藏 1.62MB PDF 举报

自动驾驶

数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

21351自动驾驶的统一全景分割Oliv erZendel MatthiasSchür huber BernhardRainer MarkusMurschitz乔巴·别莱兹瑙伊AIT奥地利技术oliver.zendel，matthias.schoerghuber，bernhard.rainer，markus.murschitz，csaba. ait.ac.at摘要本文旨在从三个方面改进全景分割，以适应现实世界的应用。首先，我们提出了一个标签策略，统一了四个最流行的自动驾驶全景分割数据集。我们还通过添加新的车辆标签皮卡和面包车清理标签混乱。提供了流行的MapillaryVistas、IDD和Cityscapes数据集的完整重新标记信息，以将这些新标签添加到现有设置中。其次，我们介绍了Wilddash 2（WD 2），一个新的数据集和公共基准服务的全景分割。该数据集包含来自世界各地的5000多个独特的驾驶场景，重点关注视觉上具有挑战性的场景，例如不同的天气条件、照明情况和相机特性。我们展示了实验视觉危险分类器，有助于在数据集创建过程中预过滤具有挑战性的帧。最后，为了表征算法在分布情况下的鲁棒性，我们引入了对全景分割的危险感知和负面测试，以及增加这两个概念的置信度的统计显著性计算此外，我们提出了一种新的技术，nique可视化全景分割错误。我们的实验表明，视觉haz-ards的全景分割质量的负面影响来自WD 2数据集的额外数据提高了视觉上具有挑战性的场景的性能，从而提高了真实世界场景的鲁棒性。1. 介绍在过去几年中，先前单独的语义场景分割（为每个像素分配汽车、道路、街道标志等语义标签）和实例分割（为每个实例分配掩模）任务已被合并到全景分割任务中[15]。现实世界的自动驾驶应用程序所带来的各种挑战使ML系统面临的数据分布与训练期间使用的数据分布不同他们的图1.来自Wilddash的各种驾驶场景2;ae 0021：阿联酋的镜面湿路， ar 0006 ：来自克罗地亚的宽阔大道， ci 0011 ：busymark etinColutte外推到分布外（OOD）测试用例的能力多个数据集的组合通过结合不同的优点和减轻个别缺点来保证部分解决方案。在本文中，我们提出了一个统一的方法，现有的道路场景数据集和新的数据集Wilddash 2基于这一原则。 Hendrycks等人最近的工作。[9]表明，虽然一些与鲁棒性相关的分布变化可以从数据中综合产生，但其他因素（例如，位置/场景特定的图像内容）只能在数据集创建的图像形成过程期间被很好地表示。受此启发，Wilddash 2在不同的位置（见图1、2）和环境条件下捕获，并包括许多潜在的性能降低因素（称为视觉危险[40]），例如：雾、遮挡、过度曝光等。此外，对于基准测试，我们添加了许多外-21352图2. Wilddash2地理分布的可视化。点表示1-9个场景;小圆表示10-50个场景;中圆表示50- 200个场景;大圆表示>200个场景。美国地质勘探局提供的地球仪[35]。域帧（例如，空白帧）来测试假阳性，称为阴性测试。本文提出的最突出的新颖性是：（a）引入统一的标签策略，该策略包含并向后兼容流行的数据集Mapillary Vistas（MVD），Cityscapes，Indian DrivingDataset（IDD）和Wilddash，包括两个新的车辆标签皮卡和面包车。(b)一个新的数据集和基准服务，具有用于驾驶场景的全景分割的公共排行榜，称为Wilddash2，支持统一标签策略。(c)使用危险意识、负测试、超类别以及一种新的可视化预测结果与地面实况（GT）之间差异的形式来改进全景分割的方法。（d）分析计算出的视觉危害对输出性能的影响的统计显著性的方法(e)全景分割实验使用Wilddash 2和学习的视觉危险分类器自动检测摄像机数据中的视觉挑战情况。第2节总结了全景分割数据集的最新技术水平。第3节介绍了一个新的公共全景分割数据集。第4节介绍了多种工具，以改善评估和基准的全景分割，而第5节分析了如何计算统计意义的危险意识测试。实验部分6展示了使用新数据集和分类器实验结果自动识别视觉危险的全景分割示例。所有成就和结果总结在最后的第7节。2. State-of-the-Art完成真实世界视觉任务的解决方案通常需要考虑潜在的开放世界假设：没有包含所有潜在变化的任务规范是可实现的。这需要建立具有巨大多样性的数据集，通常考虑OOD数据。从模糊的数据中学习明确的概念需要足够的原型，量化模糊图像内容的度量和指标。最近提出了许多数据集，以提高成像条件（如天气，能见度）方面的情况多样性。Raincouver场景解析基准[34]，Dark Zurich数据集[31]，ADUULM数据集[26]，BDD 100 K数据集[38]，合成FoggyC- ityscapes[30]和Woodscape数据集[37]呈现驾驶场景，每个场景都添加了一些不利条件（雾，雨，白天，黄昏，夜晚）。Exclusively Dark（ExDark）数据集[19]旨在将对象检测扩展到低光情况。最近的不利条件（ACDC）数据集[32]提供了详细的语义分割，图像描述了正常和不利条件，并表征了与特定观看条件相关的不确定性NVIDIA另一种增强数据集多样性的流行方案是OOD样本的集成。Lost and Found数据集[27]提出了一个以OOD为重点的数据集（使用Cityscapes数据集[4]作为其基线），Fishyscapes基准[1]引入了一个公共的语义分割基准，特别关注OOD检测。A2D2数据集[7]提出了OOD样本检测和基于相似性的OOD样本聚类。组合异常对象分割（CAOS）基准数据集[8]将BDD 100K与合成OOD对象叠加集成。场景域级别的OOD样本以TAS500数据集为目标[22]，该数据集为非结构化环境中的自动驾驶提供语义标记。合成数据还可以用于丰富学习过程，并将学习到的表示扩展到常见域之外。VIPER [29]数据集和基准使用GTA 5中的场景作为基线来创建驾驶场景数据集。这允许生成具有低标签噪声的大型数据集，但增加了特定的渲染伪影和数字资产质量作为相当大的数据集偏差。Apol-loscapes [11]专注于传感器融合，并使用简化的标签策略提供全景注释的LiDAR数据。全景全景数据集WildPPS [14]，KITTI-360 [17]为鱼眼相机数据提供注释，创建完整的360°驾驶场景如今，在法律机构和监管机构的推动下，标准化团体意识到了汽车场景解释的日益重要性（情景意识的一部分）。ISO中央秘书处发布了ISO/PAS 21448：2019指南[13]，该指南专门解决了视觉危害（称为触发事件）的问题，例如过度曝光或与天气相关的影响。尽管有各种面向不利情况的数据集，但科学界主要采用四种道路场景数据集，因此强烈影响了科学界的研究。21353语义道路场景理解的确定性演化这些数据集提供了多样性、数据集规模和注释，涵盖了近期视觉任务的需求：• 2016年的Cityscapes数据集[3]是第一个广泛的场景理解数据集，提供了来自中欧50个城市的5000个场景，包括35个不同类别其基准服务仍然是最常用的比较参考，并在2019年增加了全景分割。位置、照明条件和天气都非常均匀和可控。它使用类似于CC-BY-NC 4.0的许可证• Mapillary Vistas数据集（MVD）[24]于2017年发布，代表了大小（GT为20k帧），全球范围和64个标签（40个实例）的强劲增长。它主要集中在白天，晴朗的天气情况下，并根据CC-BY-NC-SA 4.0许可证提供。• Wilddash[39]数据集和基准服务引入了两个概念来改进算法的特征：危险感知测试和使用负测试用例。它使用Cityscapes标签策略，仅提供约220帧用于在类似于CC-BY-NC 4.0的许可下进行基准测试和验证。• 2019年的印度驾驶数据集（IDD）[36]提供了来自印度城市的10k帧，这些城市具有非常密集和非结构化的驾驶场景。它的标签策略在很大程度上以Cityscapes策略为导向，但引入了新的后备类。主要由来自150个驾驶序列的晴天日光镜头组成1。3. 数据集设计我们提出了Wilddash 2，一个新的数据集，用于强大的全景分割训练和评估，结合了先前确定的四个全景分割数据集的最有价值的功能。3.1. 帧选择Wilddash 2的帧选择与Wilddash [39]数据集的原则相同：视觉上识别来自世界各地的驾驶场景。一般来说，驾驶数据集由限于单个区域的场景组成（例如，城市景观：中欧，IDD：印度）。来自世界上150多个国家的公共仪表盘视频被用于创建Wilddash2，减少了这种区域数据集偏差。这包括来自非洲、中东国家和大洋洲等历史上代表性不足的地区的2000多帧。图2示出 WD2帧的广泛地理分布的视觉表示。收集的视频包括对代表性不足的地区和困难场景的有针对性的搜索。我们手动选择感兴趣的帧，并将潜在性能降低因素的严重性注释为视觉危害[39]：模糊、道路覆盖、镜头失真、引擎盖（汽车引擎盖的可见性）、遮挡、曝光不足、曝光过度、颗粒（雾、雨、雪）、屏幕（挡风玻璃可见性和内部反射）和变化（车辆和服装的罕见变化）。使用无、低或高定性注释每种视觉危害的严重度水平（见[39]）。表1的顶部显示了数据集帧中存在的视觉危害的百分比根据这些注释选择Wilddash 2框架的最终列表，以提供已识别危害和领域方面的平衡组合。为了限制冗余，我们确保数据集中的帧之间没有直接的视觉或上下文重叠在数量上，Wild-dash 2提供了5032个场景，与Cityscapes5000帧和超过20倍的野生数量破折号该数据集在CC-BY-NC许可证。为了遵守数据保护规则，访问仅限于注册的科学用户。这允许WD 2以未更改的形式包括所有帧，以防止不必要的训练和评估偏差（例如，用模糊的面部进行训练会误导网络将模糊的斑点分类为面部）。Wilddash 2包含一个单独的版本，其中包含用于出版物的RGB图像。3.2. 标签策略我们为Wilddash 2创建了一个统一的标签策略，它合并了 MVD 、 Cityscapes 和 IDD 的标签。这包括Wilddash 数据集，因为其标签策略完全基于Cityscapes。统一涉及三个操作：• 标签的联合：MVD、Cityscapes和IDD中所有基本标签的联合重复的标签将合并。• 标签的拆分：一些标签需要拆分，否则它们无法映射到其他数据集。这适用于MVD和Cityscapes标签之间的冲突：路缘可以是人行道或地形，自行车道和检修孔可以是人行道或道路，铁路轨道可以是铁路轨道或道路。图4显示了需要拆分的每个类别的示例。• 扩展：我们引入了两个在四个数据集中都不存在的新标签：皮卡和面包车。这样做是为了减少标签混淆，因为这两种类型都出现在几个现有的类中（见3.3节）。为了清楚起见，所有这些都在图3中概念性地可视化。这个过程产生了一个统一的标签策略，包含80个不同的类别2。1没有明确的许可证文本与IDD一起分发;他们的主页建议类似CC-BY-NC的许可证。2参见补充材料，了解包含所有标签和颜色图例的表格21354模糊覆盖失真遮光罩遮挡过度曝光。颗粒筛不充分。包含视觉危害的WD 2帧的百分比（第3.1节）低43.4%16.0%百分之九点四百分之十六点三34.0%百分之六点八百分之四点四33.3%百分之五点七百分之五点二高6.0%百分之十点六百分之零点一百分之十八点九41.0%百分之八点二百分之一点九4.1%6.7%百分之零点五对PQ /p值的影响（第6.1节）mvd100-22.6%-46.6%百分之零点零-8.8%-3.3%-15.7%-30.0%-28.7%-28.4%-12.3%0.00280.00020.09670.06940.02020.00600.00070.00150.00030.1502混合150-15.5%-21.0%百分之零点零-6.3%-2.6%下跌百分之六点七-14.8%-26.3%-11.0%-6.1%0.05880.00080.09140.01910.11650.05950.05950.00280.00570.1115危害分类器性能（第6.2节）精度53.0%百分之七十九点五百分之七十三点五93.1%百分之五十七点二百分之九十一点四百分之八十百分之七十五点一78.5%94.4%宏F1百分之四十四点二百分之六十一点二百分之三十九点一百分之九十点四百分之五十七点二百分之六十九点二48.0%百分之六十五点五57.7%百分之三十九点一表1. Wilddash 2数据集中与视觉危害相关的统计数据和结果。上图：包含低和高严重度级别的特定视觉危害的Wilddash 2帧（公共和基准）的百分比，其余为零。中间：危害对使用WD 2评估标签策略的私有WD 2基准集的全景分割评价粗体p值低于5%置信区间，具有统计学相关性。底部：十个原型危险分类器的准确性和宏观f1分数在我们的数据集基准的公共排行榜上，我们使用WD 2eval，这是我们统一的la的缩短版本。贝尔政策。WD 2评估包括26个类别：原始的19个Cityscapes评估标签，车辆类别自我-车辆，皮卡，货车以及广告牌，路灯和道路标记。只有车辆和人类被认为是实例类。阴性测试用例还可评估未标记区域（参见第4.2）选择与Cityscapes基准标签政策保持密切一致，以降低参与用户的进入门槛。3.3. 重新贴标在四个数据集中的任何一个数据集中都找不到皮卡和面包车的车辆类别。为了将MVD、Cityscapes和IDD数据集扩展到我们的标签策略，我们手动重新标记了它们的车辆实例。此外，还包括标签autorickshaw（受IDD数据集启发）。表2显示了这些车辆类别的分布和来源类别。汽车和卡车这两种车型的混淆是通过这些新标签扩展WD 2政策的主要动机。3.4. 限制新的Wilddash2数据集专门设计用于覆盖许多视觉危害，但也有一些限制：• 公开资料不含严重失真的帧。Wilddash添加了几帧人工镜头失真，可能会混淆神经网络。我们决定反对这种方法，以保留WD 2的真实世界方面。• 在许多雨的静止图像中，要么没有可见的颗粒，要么雨水覆盖了挡风玻璃，导致21355源van拾取自动驾驶。MVD车4202人（2.8%）2654人（1.8%）0MVD其他车辆。00128人（8.2%）MVD卡车43人（0.5%）33人（0.4%）0城市景观车907人（0.6%）12个（0.01%）0国际长途汽车419人（1.4%）10人（0.1%）-国际长途汽车018人（0.2%）-表2.增加货车，皮卡和自动三轮车类标签。实例数和源类的百分比。注：Cityscapes和MVD标签政策规定皮卡应标记为卡车。粒子危害类别中的帧更少• 车辆和人员的分布范围外的例子很少发生。因此，包含变化的帧的数量少有危险。在Wilddash 2开发期间，引入了MVD的2.0更新[21]它提供了更详细的语义注释，增加了类别和深度排序提示。但是，没有添加新的框架，也没有新的类别解决本节中提出的任何标签问题。因此，本工作中的所有信息均参考MVD v1.2，但也完全适用于v2.0。MSeg [16]方案针对类似的数据集统一策略（包括COCO等非驱动数据集），而不引入新的数据集本身。他们的政策只包括对象标签的重新分配。这会忽略标签轮廓需要拆分的情况。许多算法都使用深度数据来提高场景理解性能.然而，我们从公共视频数据中获取帧的方法不允许计算-21356=人行道雨拾取货车van×11Σ图3.标签统一的概念描述：（顶部）两个数据集的分离类别和超类别的组织和组合。在两个数据集的标签策略冲突的情况下，（中心）合并和拆分集合（参见图4）。（下）通过引入新的标签类别清理混合类别。图4.来自WD 2的示例帧，可视化了对某些标签进行额外拆分的需求。从左到右：从RGB图像裁剪，GT使用MVD类，GT使用Cityscapes类，GT使用WD2类。从上到下：ru0009 10000（路边与路边地形），ga0004 10000（沙井与沙井人行道），de005610000（自行车道与自行车道人行道以及铁路轨道与电车轨道）提供可靠的深度数据。这将需要一个专门的测量工具，这与我们的地理多样性目标背道而驰。4. 全景分割我们的基准基于Wilddash公共领导委员会，该委员会专注于硬案例，并使用不同的指标提供更多的见解。全景分割[15]描述了实例和语义分割到单个分割任务中的组合场景被分割成事物和东西片段，其中东西描述相似纹理的无定形区域（例如道路，建筑物），而事物描述可数对象（例如人或汽车）。Wilddash 2使用COCO panoptic for- mat [2]进行提交。使用定义如下的全景质量（PQ）度量来评估全景分割段p（预测）和g（GT）的并集。如果IoU（p，g）大于0，则一对片段（p，g）计数为真阳性（TP）。五、这样，地面实况片段只能与最多一个预测片段匹配。分割质量（SQ）是所有TP的平均IoU，识别质量（RQ）惩罚没有匹配的片段，例如，假阳性（FP）和假阴性（FN）。我们将危险感知测试的概念直接应用于全景分割：所有指标都是针对每个视觉危险子集的帧单独计算的。使用Zendel等人的方法得出每种危害的影响。[39]通过比较不同严重程度子集的结果。提供了对语义分割和实例分割的传统支持：我们的公共工具包允许将WD 2映射到分割或实例掩码，并且这两个任务的额外公共排行榜有助于在各自领域进行研究。PQ=（p，g）BTPIoU（p，g）|TP||TP|.|+的|FP|+的|FN|FN|224.1. 超类别得分与大多数全景标签政策一样，Wilddash 2定义了`se gmentation quality（SQ）x`识别质量 (RQ)（x1）两个层次上的语义标签：• 描述标签特定类型的精确标识符设g是基础真值段，p是同一类的预测段，IoU（p，g）是（例如汽车、卡车），• 标签组的更宽的标识符（例如，车辆）。21357图5.全景图像分割结果的可视化方法。上图：0090 RGB图像和GT中的WD 2场景;中图：MVD训练模型（mvd 100）和拟定差异图像的结果（参见第4.3节）;下图：混合MVD WD 2模型（mix 150）和差异图像的结果（0090中是随机验证分割的一部分）。Cityscapes使用class和category，而COCO使用category和supercategory。为了避免与术语类别混淆，本文将术语类别和超类别用于语义标签的不同层次，见图3。段的错误分类对模型的得分有负面影响特别是在模型的训练集中代表性不足或注释不同（例如汽车而不是卡车）的类这可能会扭曲全景评估：具有完美轮廓但错误类别的实例得不到分数。然而，通常错误预测的类标签和地面真相共享相同的超类别。Wilddash 2通过计算每个超类别的每个分数（PQ，RQ，SQ）扩展了全景分割从应用程序的角度来看，正确的超类别分配通常比整体类别正确性更重要。新的超类别指标允许在一个粗略的水平算法之间的额外的差异与更复杂的指标（如PQPart[5]）相比，这是在不需要数据重新标记或重新训练的情况下实现的4.2. 负面测试Wilddash 2基准测试引入了对全景分割的阴性测试目标是评估在其规范之外运行的系统的稳健性。WD2中此类帧的示例包括无人机场景、驾驶场景的抽象画、大规模图像错误和非驾驶场景（例如室内排球匹配）。在这种情况下，鲁棒系统的期望行为是将真正未知的区域标记为无效。然而，图像的某些部分可能仍然包含可由标签策略描述的片段，并且系统可能能够产生有效的分段。Wilddash 2基准以两种方式奖励对负测试帧的预测：• 奖励匹配实例：基于标签策略的尽力而为也被定义用于负测试用例。如果IoU（g，p）与同一事物类的地面真值片段q大于0.5，则正确检测到片段p保留正确的片段，与g重叠的其他片段设置为无效。• 奖励被标记为无效的片段：片段像素被设置为尽力而为的地面实况，从而提高图像的整体得分。这种结合的方法奖励两个：为分发外帧创建有意义的结果的系统存在-开集问题的研究工作（见[12]，[23]）侧重于处理数据中的差距，而我们的负测试通过调查系统在特定分布情况下的行为来评估系统。总是“幻觉”数据的解决方案从不将区域报告为未标记的）通常比更谨慎的方法更有优势：常规指标可能只通过猜测标签来增加，因为承认失败总是会降低分数。现实世界的应用程序依赖于可靠的系统，可以估计其预测的质量。Wilddash 2阴性测试提供了鼓励在这方面改进的激励4.3. 可视化全景分割将语义每像素标签和实例化组合到单个任务中。可量化的指标支持直接排名，并给人一个良好的印象，铝租赁的表现。代表标签结果的图像可以更详细地了解特定解决方案的工作原理。纯标签结果本身可以使用标准程序可视化：假色映射表示标签（例如，标记为天空的像素为浅蓝色），并且白色轮廓包围各个实例。突出显示地面实况和预测之间差异的图像有助于直观检查标签结果。我们引入了一种新的方法来创建这些图5显示了使用此方法的算法结果的可视化。对于具有薄荷绿色的正确类别的像素、具有错误类别但具有正确超类别的像素、以及具有21358MVD确认WD2基准PQ SQ RQPQ面包车PQ拾取PQ平方RQPQ面包车PQ拾取PQ阴性PQ猫mvd100 百分之三十五点一43.9%百分之二十六点六百分之二十九点九百分之三十七点六百分之七十五点六百分之四十八点三34.0%百分之三十八点一百分之十七点一57.7%混合150 34.1%42.8%百分之二十四点七百分之二十九点七42.2%百分之七十七点五53.2%38.9%49.2%21.1% 百分之六十四点七表3. mvd100模型的性能仅在MVD上训练了100个epoch，而mix150在WD 2上额外微调了50个epoch两者均在原始MVD验证集和隐藏的WD2基准集上进行评价粗体条目表示得分较高类和假超范畴用暗红色表示。从比较中排除的区域接收黑色。在顶部使用轮廓线和阴影线绘制了插图的质量。匹配地面实况实例的实例（即.IoU（p，q）>0的情况。五是以“以德为本”，以“以德为本”。燕鸥错误预测的实例（即假阳性）用灰色的图案框住并覆盖。没有预测匹配的地面实况实例（即.假阴性）用红色虚线框起来，没有阴影线。5. 统计学意义危险感知评估方法比较已识别危险子集之间的性能指标，例如，在标记为具有高严重性遮挡的帧与没有遮挡（实例标签）的帧处评估的算法性能这种子集比较的质量这种检验以相反的方式工作：零假设表明子集中没有显著差异，并且在可以进行明确区分的情况下，检验应该拒绝该假设。在我们的情况下，零假设H0测试性能度量是独立的子集分组。显著性检验应拒绝具有高显著性的H0假设，从而表明已识别的危险子集确实正在创建更具挑战性的帧子集。Dems Mesquiar[6]对可能的统计显著性检验提供了一个很好的概述。最初，不能假设潜在的绩效指标分布。测试帧中存在的对算法性能的影响的数量以及它们如何相互作用太复杂而无法估计。因此，我们选择了非参数给定度量的两个子集之间的测试产生p值，这是从同一分布中抽取样本的概率低p值表示样本差异很大的情况，因此可以拒绝零假设H0我们使用5%的双侧置信区间，即所有p值<0。05表示子集是可以信任实质上不同的和计算的性能影响。表1中间部分的结果包括每个视觉危害子集的p值。子集负片、粒子、遮挡、模糊、加网、曝光不足、覆盖和曝光过度的影响显示出很强的显著性。虽然一些危险评估显示平均指标的显著性不够，但它们包含一些具有高显著性的类别（例如，类别自我车辆用于子集引擎盖或汽车用于遮挡）。失真和变化的影响不能以足够的显著性来显示。6. 实验6.1. 全景分割全景分割的基线模型使用Porzi等人的无缝场景分割模型。[28]第10段。模型mvd 100使用官方BSD-3代码库[33]在Mapillary Vistas数据集[24]（包括重新标记的货车和皮卡实例）上训练100个epoch，之后PQ度量不再在验证集上改进。第二个模型mix150使用3618个随机选择的公共 Wilddash 2 帧（公共 Wilddash 2 帧的85%）和3618个MVD训练帧的随机子集的混合物对3mvd100进行额外50个时期的微调剩余的638个公共Wilddash 2帧用作WD 2验证帧。表3显示了两种模型的结果，原始MVD验证集和公共Wilddash 2基准集（776帧，包括144个阴性测试用例，GT不公开）。我们显示了新引入的车辆类别皮卡和面包车的整体全景测量和个体PQ评分，以及第4节中介绍的阴性测试和超类别方法的PQ评分。一般来说，mix150在存在视觉危害的情况下更稳健。这是以平均MVD帧的小性能损失为代价的mvd 100的WD 2评估性能降低表明WD 2的难度增加。表1显示了视觉危害的计算影响和每种影响的统计显著性值（见第5节）。所有视觉危害，除3mvd100mix150均使用MVD标签，有关WD 2、Cityscapes和IDD的实验，请参见补充21359高低无模糊覆盖失真罩闭塞过度暴露颗粒屏幕曝光不足变化高低无预测图6.每个原型危险分类器的混淆矩阵。“选项正如预期的那样，mix150的性能损失比mvd100要低，这证明它通常更健壮。对于mix150，影响测量的显著性的置信度也降低（更高的p值），这表明即使在硬测试用例中也有更强的泛化能力。图5可视化了同一帧的两个模型的输出质量（用于微调期间的验证，即不是训练帧）。6.2. 视觉危害分类器识别包含视觉危害的相关Wilddash 2帧需要相当大的人工努力。自动危险分类器可以通过预先过滤现有数据来显著减少这项分类器还可以通过为基于摄像头的传感器提供置信度来提高自动驾驶的安全性首先，使用fastai[10] PyTorch框架训练每个WD 2帧的每个图像视觉危险元标签的原型。默认增强用于基于预先训练的ResNet50网络为每个视觉危害创建单独的多类分类器。选择768x432的输入分辨率和64的批量大小以允许对大量视频帧进行快速分类。Fo- cal Loss [18]用于抵消视觉危险子集的不平衡，WD 2完整数据集（公共帧和基准帧）用于最大化危险帧的数量。这些帧被随机分成80%的训练帧和20%的验证帧。表1的底部总结了分类器的性能，图6显示了所有验证帧的相应混淆矩阵。分类器失真、颗粒或变化的相对低性能可以归因于相对低数量的临界情况。WD 2的5000帧提供了足够的统计功效来识别全景分割的性能问题，但不足以可靠地识别视觉模糊。7. 结论全景分割结合了语义信息和个体实例，为自动驾驶提供了有用的表示。这项工作提出了新的数据集Wilddash 2，它结合了四个公共语义场景理解数据集的最佳方面：MVD v1.2，Cityscapes，IDD和Wilddash。对多样化和困难场景的关注补充了现有的工作，5000帧也为自己的实验提供了足够的内容我们的新数据策略包含80个标签，是第一个将所有四个数据集的标签空间结合起来的策略，并允许将WD 2精确映射到其他域。此外，我们确定了两个新的车辆类别，减少了实例标签之间的混淆，并重新标记了MVD、IDD和Cityscapes的所有车辆。用于重新标记的工具和元数据在CC BY-NC-SA 4.0许可证下免费提供，因此允许在现有框架中包含新标签4我们进一步介绍了风险感知测试的概念和全景分割的阴性测试用例，并提供了每个性能影响评估的统计显著性。这允许更好的比较和针点最紧迫的问题，每个算法.一种新的全景分割结果比较可视化方法我们新的公共基准服务器与排行榜允许无偏见的比较全景分割解决方案，并提供传统的支持，以评估语义分割和实例分割以及。实验部分介绍了两个基线模型，显示了将WD 2添加到训练中的明显好处：在视觉挑战性情况下提高性能和鲁棒性。视觉危险分类器的第一个原型是pressented允许自动预选的帧dur- ing数据集设计。Wilddash 2数据集和基准服务可供研究人员免费使用，https://wilddash.cc，CC BY-NC 4.0许可。5任意驱动框架的ARD由此产生的原型分类器成功地执行初始预标记，特别是当考虑预测类的置信度时。这将识别感兴趣的帧的工作量减少了大约1倍。10个用于危险覆盖、遮光罩、遮挡、过度曝光、屏幕和曝光不足。4这项研究得到了未来流动性的资助;这是奥地利气候行动5The软件为重新映射和可视化panoptic数据在GNULGPL v2.1许可证下在https://github.com/ozendelait/wilddash scripts上自由发布。2125 177623214651184 3095727 243361 762334726000563 433020371718711813146 19117600281149 38109178 722462 1484122 27734 238489511111935 10451368032720219268532314750101307 5302995462113145531139740实际21360引用[1] Hermann Blum ， Paul Edouard Sarlin ， Juan Nieto ，Roland Siegwart，and Cesar Cadena. fishyscapes基准：测量语义分割中的盲点。国际计算机视觉杂志，2021。2[2] COCO-上下文中的公共对象。cocodataset.org/#format-data 。访问时间：2021- 11-01。5[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议（CVPR），第3213-3223页，2016年。3[4] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，TimoScharwaéchter，MarkusEnzweiler，RodrigoBenenson，Uwe Franke，Stefan Roth，and BerntSchiele.城市景观数据集。在CVPR研讨会上，2015年的Vision数据集的未来。2[5] Daan de Geus 、 Panagiotis Meletis 、 Chenyang Lu 、Xiaoxiao Wen和Gijs Dubbelman。部分感知全景分割。在CVPR中，第5485-5494页，2021年。6[6] Janez Demsˇar分类器在多个数据集上的统计比较。Journal of Machine Learning Research，7：1-30，2006.7[7] Jakob Geyer，Yohannes Kassahun，Mentar Mahmudi，Xavier Ricou ， Rupesh Durgesh ， Andrew S. Chung ，LorenzHauswald ， VietHoangPham ， MaximilianMu¨hlegg ， Sebas-tianDorn ， Tiff an yFernandez ， MartinJ¨nicke ， SudeshMi- rashi ， Chiragkumar Savani ， MartinSturm，Oleksandr Voro- biov，Martin Oelker，SebastianGarreis，and Peter Schuberth.A2D2：奥迪自动驾驶数据集，2020年。2[8] Dan Hendrycks ， Steven Basart ， Mantas Mazeika ，Moham-madreza Mostajabi，Jacob Steinhardt，and DawnSong.针对真实世界设置的扩展分布外检测。arXiv预印本arXiv：1911.11132，2019。2[9] Dan Hendrycks ， Steven Basart ， Norman Mu ， SauravKadavath，Frank Wang，Evan Dorundo，Rahul Desai，Tyler Zhu，Samyak Parajuli，Mike Guo，et al.鲁棒性的多面性：对分布外泛化的批判性分析在IEEE/CVF国际计算机视觉会议（ICCV），第8340-8349页，2021年。1[10] 杰里米 · 霍华德等 . Fastai. https://github.com/fastai/fastai，2021.访问时间：2021-10-01。8[11] Xinyu Huang，Xinjing Cheng，Qichuan Geng，BinbinCao ，Dingfu Zhou ，Peng Wang，Yuanqing Lin ，andRuigang Yang. 自动驾驶的 apolloscape 数据集在CVPRW，第954-960页2[12] 黄在东吴俊英李俊英韩宝亨基于范例的开集全景分割网络。在CVPR中，第1175-1184页，2021年。6[13] ISO中央秘书处。道路车辆.预期功能的安全性标准ISO/PAS 21448：2019，国际标准化组织，2019年。2[14] Alexander Jaus，Kailun Yang，and Rainer Stiefeldings.全景全景分割：走向完整的表面通过无监督的对比学习来实现理解。arXiv预印本arXiv：2103.00868，2021。2[15] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rothe r和PiotrDoll a'r。全视节段在IEEE计算机视觉和模式识别会议（CVPR），第9404-9413页一、五[16] John Lambert，Zhuang Liu，Ozan Sener，James Hays，and Vladlen Koltun. MSeg：用于多领域语义分割的复合数据集。IEEE计算机视觉和模式识别会议（CVPR），2020。4[17] 廖依依，谢君，安德烈亚斯·盖格。Kitti-360：一个用于2D和3D城市场景理解的新数据集和基准arXiv预印本arXiv：2109.13410，2021。2[18] 林宗义，普里亚·戈亚尔，罗斯·格希克，何开明，和彼得·多尔。密集目标检测的焦面损失。在IEEE/CVF国际计算机视觉会议（ICCV），第2980-2988页，2017年。8[19] Yuen Peng Loh及Chee Seng Chan。使用完全黑暗的数据集了解低光图像。计算机视觉和图像理解，178：30-42，2019。2[20] Henry B Mann和Donald R Whitney。关于两个随机变量中是否有一个随机大于另一个的检验。数学统计年鉴，第50-60页，1947年。7[21] Mapillary Research. Mapillary vistas dataset 2.0. https：www.mapillary.com/dataset/vistas。完成日期：2021年11月12日。4[22] 凯A Metzger，Peter Mortimer，and Hans-Joachim Wuen-sche.非结构化驾驶场景的细粒度数据集及其高效语义分割。在国际模式识别会议（ICPR 2020），2021-01。2[23] Dimity Miller，Lachlan Nicholson，Fera

下载后可阅读完整内容，剩余1页未读，立即下载