ACDC：不良条件下的语义驾驶场景理解数据集

20 浏览量更新于2023-10-13 收藏 1.35MB PDF 举报

自动驾驶

视觉感知

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1ACDC：用于语义驾驶场景理解Christos Sakaridis1，Dengxin Dai1，2，and Luc VanGool1，31ETHZürich，2MPIforInformatics，3KULeuvenhttps://acdc.vision.ee.ethz.ch摘要自动驾驶汽车的5级自动驾驶需要一个强大的视觉感知系统，可以在任何视觉条件下解析输入图像然而，现有的语义分割数据集要么由在正常条件下捕获的图像主导，要么规模较小为了解决这个问题，我们介绍了ACDC，不良条件数据集与对应的训练和测试语义分割方法对不利的视觉条件。ACDC由一个4006张图像的大集合组成，这些图像在四种常见不利条件之间均匀分布：雾、夜、雨和雪。每个不利条件图像都带有高质量的精细像素级语义注释、在正常条件下拍摄的相同场景的对应图像以及区分清晰和不确定语义内容的图像内区域的二进制掩码因此，ACDC支持标准的语义分割和新引入的不确定性感知的语义分割。一项详细的实证研究证明了ACDC的不利领域对最先进的监督和无监督方法构成的挑战，并表明了我们的数据集在指导该领域未来进展我们的数据集和基准是公开的。1. 介绍大多数用于驾驶场景理解的突出的基于大规模图像的数据集，包括Cityscapes [8]，Vistas [28]和KITTI[13]，都由在正常视觉条件下捕获的图像主导，即，在白天和晴朗的天气。然而，诸如自动驾驶之类的视觉应用对感知算法提出了严格的要求，以在不利的环境中保持令人满意的性能。电源。尽管最近有在大规模数据集中包括反向视觉域的努力，例如 Oxford RobotCar [27] 和 BDD 100 K[55]，但这些努力集中在定位/映射任务[27，49]或不涉及密集像素级输出的识别任务上，例如对象检测[3，42，55]。例如，虽然BDD100K的对象检测集的显著40%与夜间有关，但其语义分割集中只有3%的图像（即345个图像）是在夜间捕获的[40]。此外，不利条件图像的像素级注释过程在[55]中与正常条件情况保持相同，这导致地面实况中的错误并使其不可靠[40]。相比之下，开创性的先前工作[8]强调了在不利的视觉条件下对像素级语义场景理解的专门技术和数据集的需求这些使得整个图像区域甚至对于人类也不可辨别。ACDC构成了对专门针对不利条件的大规模驾驶数据集的这种需求的响应，在（i）大小、（ii）领域不利和（iii）特征任务方面。ACDC包括具有高质量像素级语义注释的4006幅图像，这些图像在现实世界驾驶环境中的四种常见不利条件故意记录数据集，明确存在相应的不良情况。因此，一个大的域从正常的晴朗天气白天的条件下转移实现。此外，对于每个不利条件图像，提供来自大致相同视点的相同场景的对应正常条件图像，旨在由弱监督方法使用。对于我们的数据集所支持的任务，除了标准的语义分割，我们增加了不确定性感知的语义分割任务对于后者，我们介绍-10765107661010108106平坦建设性质车辆天空对象人类图1.ACDC中每个类别的精细注释像素数引入专用注释协议和专用性能度量，称为平均不确定性感知IoU（AUIoU）。不确定性感知语义分割的关键特征是在注释和评估中原则性地包含具有不可辨别的语义内容的图像区域（无效区域）。特别地，用于我们的不利条件图像的注释协议以对应的正常条件图像和原始不利条件视频的形式利用特权信息，这使得能够可靠地将合法的语义标签分配给无效区域，并将它们包括在标准和不确定性感知的语义分割的评估中。对于后一个任务，将标记的像素分离虽然这两个任务都需要硬语义预测，但不确定性感知任务还需要置信图预测。AUIoU被设计为考虑语义和置信度预测两者，并且以无效像素上的低置信度和有效像素上的高置信度来对附加置信度预测的要求与面向安全的应用相关，因为它可以帮助下游决策系统避免低置信度预测为假的致命后果，例如：当一个行人错过了。除了作为监督语义分割方法的一个具有挑战性的基准之外，ACDC还是一个非常适合领域自适应的测试平台。许多最近的作品[7，15，22，23，26，41，43，44，46，48，51，53，59，60，62，65，66]专注于语义分割的无监督域自适应（UDA），但其中大多数仅在人工合成到真实设置上进行验证，使用GTA5 [34]和SYNTHIA [36]作为源数据集，Cityscapes [8]作为目标数据集。用于语义分割的正常到不利域适应场景在很大程度上被忽视，由于获取和注释不利条件数据两者的困难，该场景与自动驾驶汽车的现实世界部署相关得多。特别是，很少有研究在他们的实验中考虑正常到不利的适应[10，11，32，37，38，39，40]，并且无论何时，他们都将目标不利域限制在单一条件下，例如：[10，39，40]，雾[37，38]，或雨[11]，或不包括对实际焦油的定量评估。[32]第三十二话我们将这种正常到不良适应工作的碎片化归因于缺乏用于语义分割的一般大规模数据集，该数据集均匀地覆盖大多数常见的不良条件，并为这些具有挑战性的领域中的合理评估提供可靠的基础事实 ACDC正好满足了对这样一个数据集的需求，并将作为无监督和弱监督域自适应的测试平台。Cityscapes→ACDC自适应等实验是直接的，这要归功于两个数据集的相同标签集，这有助于在正常到不利设置中验证新的域自适应方法。我们在四个主要方向上对ACDC进行了实验：评估在正常条件下预训练的模型、在不利条件下的监督学习、无监督和弱监督的正常到不利域适应、以及评估不确定性感知的语义分割基线和预言机。结果表明，在不利条件下访问地面实况注释对于实现高性能是不可避免的，因为预先训练的模型在不利条件下严重恶化。此外，现实世界的Cityscapes→ACDC适应场景对所有最先进的UDA方法提出了重大挑战，与使用完全监督相比，这些方法最多只能恢复源域模型的一小部分性能增益。这强调了需要UDA方法，更好地处理不利的目标域时，并强调了ACDC在引导未来的工作在这个方向上的重要性。最后，ACDC的不确定性感知注释为简单的置信度预测基线的改进创造了显著的空间，并有助于促进同时对不确定性建模的语义分割方法2. 相关工作用于驾驶场景理解的数据集包括支持几何和识别任务的真实世界和合成集。 KITTI [13]和Cityscapes [8]分别利用LiDAR和语义图像注释开创了这一领域。随后的数据集主要旨在增加规模[17]，多样性[28]和任务数量[55]。由于高质量的像素级注释被证明很难获得像素数路人行道build.壁蔬菜围栏地形车火车卡车总线自行车天空摩托车极交通标志红绿灯人骑手10767quire [8，28]，另一种工作集中于在更大的尺度上创建合成集[19，33，34，36]，并且其中自动生成地面实况，以及将真实数据集转换为不利条件，如雾或雨[14，37，38]。Oxford Robotcar [27]是第一个真实世界的大规模数据集，其中显著表示了夜间，雨和雪等不利的视觉条件，但它没有语义注释。虽然最近的大规模集合[2，30]涵盖了不利条件，例如Waymo Open [42]和nuScenes [3]，包括边界框，但它们仍然缺乏密集的像素级语义注释，这对现实世界的自动驾驶代理至关重要[63]。BDD100K [55]是这一规则的唯一例外，其中约其10000个像素级注释中的13%与不利条件有关，但包含严重错误[40]，而ADULM [29]中的1881个不利条件图像中只有一小部分被注释。另一方面，最近呈现了几组具有覆盖不利条件[58]的小尺度像素级注释，重点关注雾[9，38]，夜间[10，40]和雨[45]。一个值得注意的案例是Dark Zurich [40]，它具有201个精细的像素级夜间注释和一个专用的注释协议和评估指标，用于处理具有模糊内容的区域。ACDC在地面实况质量方面对BDD100K进行了改进，在规模和条件多样性方面对Dark Zurich进行了改进，具有4006个高质量精细像素级注释，其中雾，夜，雨和雪被平等地表示。语义分割在过去几年中取得了迅速的进展，主要是通过卷积神经网络的设计。基于全卷积架构[25]，开创性的作品引入了atrous卷积[4，5，56]和具有跳过连接的编码器-解码器结构[35]，以分别利用上下文和改进本地化。通过不同解决方案[24，31]和全局池化[61]的并行分支进一步解决了全局和局部信息之间的平衡其他工作集中在实时性能[54]，利用不同的模式，如深度[52]，并定义基于邻域的监督[20]用于分割。本领域的当前状态包括i.a. DeepLabv3+ [6]和ANN [64]具有金字塔池模块，DANet [12]和CCNet [18]具有注意力机制，HRNet [47]和OCR [57]具有高分辨率表示。虽然流行的Cityscapes基准测试的性能越来越饱和，但我们证明了最先进的方法在ACDC上实现的性能要低得多（参见第2节）。4）.因此，ACDC提供了一个更具挑战性的语义分割基准，由于其领域的逆境，因此能够促进该领域的进一步发展。启动了语义分割网络的适应性，以适应无法进行全面监督的领域在引入监督方法后不久[16]。主要类别的UDA作品采用对抗域自适应，以在像素和/或特征级别隐式对齐源域和目标域[7，15，26，41，43，44，46，48，60]。UDA的其他方法依赖于在目标域中使用伪标签的自训练[65，66]，或者将自训练与对抗性自适应[23]或经由从源到目标的显式变换与像素级自适应[22，53]相结合。然而，所有上述方法仅在合成到真实适应的人工情景上进行了评估，而忽略了正常到不利适应，这对汽车来说具有更高的实际重要性。ACDC构成大规模目标域数据集，其迄今为止对于这种正常到不利的实验一直缺失，并且旨在引导可以应对不利目标域的无监督和弱监督适应方法的发展。3. ACDC数据集我们将ACDC的设计基于与开创性正常条件数据集相同的一般原则[8]，并调整收集和注释过程以更好地适应手头的不利条件设置。3.1. 收集我们的数据收集是由在不利和正常条件下记录同一组场景的决定指导的。我们将正常条件定义为白天和晴朗天气的组合，即。良好的可视性和地面上没有降水或积雪虽然ACDC的重点是不利条件，但相应的正常条件图像的采集对于后续注释步骤和支持弱监督方法都是至关重要的，因为对于人类和机器而言，在正常条件下解析相同的场景可能要容易得多。因此，我们在瑞士开车拍摄了几天的视频，主要是在城市地区，但也在高速公路和农村地区。为了在不同的不利条件之间具有清楚的域分离，我们对不利条件记录使用以下标准：每个记录仅在一组四个项目中的一种类型的广告下进行，即，雾、夜、雨和雪。例如，我们的雾天记录是在白天进行的，没有雨或雪。对于雪，降雪和地面积雪都是允许的。此外，我们只保留不利条件记录的与相应条件的强烈存在相对应的部分以用于进一步处理，以便最大化域。从正常条件以及领域逆境中转变我们使用1080p GoPro Hero 5摄像头进行记录，该摄像头在夜间和正常条件下安装在挡风玻璃前摄像机以30 Hz的速率记录8位RGB帧。10768(a)输入图像I （b）阶段1注释（草稿）（c）对应图像I′（d）阶段2注释（GT）（e）无效掩模J图2.ACDC注释协议的图示。语义类的颜色编码与图1B匹配。1.一、（b）中的所有注释，（d）和（e）与（a）中的输入图像I有关。（b）和（d）中的白色表示未标记的像素。3.2. 对应关系建立我们的相机还提供GPS读数，这使我们能够在不利条件和正常条件记录之间建立图像级别的对应关系特别地，对于每个不利条件记录，我们沿着完全相同的路线执行正常条件记录。然后，我们使用两个记录的GPS测量序列来执行不利GPS序列与正常GPS序列的基于全局动态编程的匹配，其中目标由匹配的GPS样本对我们的全球匹配- ING处理循环路由比简单的最近邻居。然后基于GPS序列的对应匹配样本将每个不利条件帧与正常条件帧匹配。3.3. 数据集拆分ACDC分为四组，对应于检查的条件。我们手动选择了1000雾，1006夜间，1000下雨和1000下雪的图像从密集的像素级语义注释的记录，共4006不利条件的图像。选择过程旨在最大限度地提高捕获场景的复杂性和多样性。在每个记录中，任何一对选定的图像至少相隔20秒或50米（以先到数据集也被分成训练集、验证集和测试集。我们在所有条件下应用全球地理分割，使得即使对于不同条件，三个集合之间也没有重叠。考虑到来自正常条件数据集[8，28，55]的大量这旨在在提供一个极具挑战性的基准语义分割，无论是在规模和领域逆境。特别地，我们将每个不利条件的集合分成400个训练图像、100个验证图像和500个测试图像，除了具有106个验证图像的夜间集合。这导致总共1600个训练图像和406个验证图像具有公共注释，以及2000个测试图像具有保留的注释为基准测试目的，按照标准做法[8]。3.4. 注释在不利条件下捕获的图像包含无效区域，即具有不可辨别的语义内容的区域，其通常与相同的有效区域共存。形象我们考虑到这一点来创建ACDC的注释，并设计一个专门的注释协议，该协议利用来自相应的正常条件图像和原始不良条件视频的特权信息，并允许（i）将语义标签可靠地分配给无效区域，以及（ii）创建区分有效区域和无效区域的二进制我们的注释协议包括两个级联的注释阶段。在阶段1，从不利条件图像I手动地产生语义标记草案，其中不能毫无疑问地分配给单个语义类的在阶段2，对应的正常条件图像I’和从中提取I特别地，注释器可以为在阶段1中未被标记的像素分配合法标签，并且校正在阶段1中被错误标记的像素。在阶段2中保持不清楚的像素未被标记并且不用于训练或评估。最终注释输出是双重的：（i）阶段2之后的最终语义注释H，以及（ii）二进制无效掩码J，其中标签从阶段1改变到阶段2的像素被设置为1（无效），并且对于两个阶段具有相同语义标签的像素J使不确定性感知语义分割的新任务的引入，我们在第二节详细介绍。五、ACDC的4006个精细像素注释由专业的注释者团队创建，以确保高质量的地面实况。要求注释者在两个阶段中标记像素时保持保守，以便最小化错误。第1阶段的初稿和第2阶段的最终注释都通过了质量控制。注释单个图像所需的总时间平均为3.3 h。ACDC的类规范直接继承自Cityscapes。特别是，我们注释的19个评估类的城市景观，其中包括最常见的和交通相关的对象在驾驶场景。属于此集合之外的类的对象将收到回退标签，并且不用于训练或评估。这种类的选择提供了ACDC与Cityscapes和其他正常条件数据集的完全兼容性，以进行语义分割[28，55]。详细的注释统计数据如图所示。1.一、我们的两阶段注释协议的示例如图所示。2为雪花图像。请注意图像右下角未标记的区域的分配10769表1. ACDC与不利条件语义分割数据集的比较。“不利年份"：总计注释的不利条件图像，“雾”/“夜”/“雨”/“雪”：注释的雾/夜间/雨天/下雪图像，“Inv. regions “正常 masks数据集不良事件。雾夜雨雪类可靠GT精细GT Inv. regions Corr.正常库存口罩[38]第三十八话10110100019CC×××苏黎世机场[9]404000019CC×××夜间行车[10]500500019C××××[40]第四十话20102010019CCCCC[45]第四十五话32609532603C××××[58]第五十八话2261013132619CC×××BDD100K [55]13462334521376519×C×××ACDC40061000 1006 1000 100019CCCCC表2. Cityscapes→ACDC适应的最新领域适应方法的比较。 Cityscapes作为源域，包括所有四个条件的整个ACDC作为目标域。第一和第二组行分别表示无监督和弱监督方法。所有无监督方法共享相同的网络架构。的还报告了在Cityscapes上训练的相应模型（源模型）和在具有100个标签（Oracle-100）、200个标签（Oracle-200）和所有1600个标签（Oracle）的ACDC上训练的oracle模型的性能。方法路赛德build.壁围栏极光签署蔬菜地形天空人骑手车卡车总线火车马达自行车Miou源模型[5]71.926.251.118.822.519.733.027.767.928.644.243.122.171.229.833.348.426.235.838.0[43]第四十三话69.434.052.813.518.04.314.99.764.023.138.238.620.159.335.630.653.919.833.933.4高级[46]72.914.340.516.621.29.317.421.263.823.818.332.619.569.536.234.546.226.936.132.7BDL [23]56.032.568.120.117.415.830.228.759.925.337.728.725.570.239.640.552.729.238.437.7[26]第二十六话79.129.545.918.121.322.135.340.767.429.432.842.718.573.642.031.655.725.430.739.0CRST [65]51.724.467.813.39.730.238.234.158.025.276.839.917.165.43.76.639.611.88.632.8FDA [53]73.234.759.024.829.528.643.344.970.128.254.747.028.574.644.852.363.328.339.545.7SIM卡[48]53.86.875.511.622.311.723.425.766.18.380.641.824.849.738.621.041.825.129.634.6MRNet [62]72.28.236.413.718.520.438.745.470.235.75.047.819.173.642.136.047.417.737.436.1Oracle-10084.454.876.419.328.929.536.542.674.240.387.742.516.574.936.528.655.927.338.647.1Oracle-20086.255.077.921.730.930.037.642.576.845.890.245.419.175.838.538.064.221.639.549.3Oracle88.062.380.837.035.133.949.849.580.150.792.551.126.579.949.041.172.226.544.255.3源模型[24]66.328.967.619.225.936.750.047.569.428.883.042.117.772.630.931.648.926.136.743.7MGCDA [40]73.428.769.919.326.336.853.053.375.432.084.651.026.177.643.245.953.932.741.548.7Oracle92.571.286.239.044.053.268.866.085.159.394.965.238.585.853.859.776.247.554.565.3第一阶段（图）2b）到道路标签在阶段2（图.2d），这得益于来自正常条件图像的清晰视图。3.5. 与相关数据集的比较据我们所知，ACDC构成了迄今为止最大的不利条件语义分割数据集。在表1中，我们将ACDC与现有的数据集进行了比较，这些数据集也解决了不利条件下的语义分割这些数据集中在一个单一的条件和小规模。WildDash涵盖了更广泛的不利条件，但规模也很小。BDD100K包括10000个图像与语义分割注释。我们手动检查了这些图像，以确定那些属于雾，夜，雨和雪。我们发现，只有1346/10000图像属于这四个条件中的任何一个。相比之下，ACDC完全由这四种常见的不利条件组成。值得注意的是，对于雾、夜和雨中的每一个，它包含的注释图像比任何其他竞争数据集多一个数量级。同时，我们专门的注释协议使用corre-响应正常条件下的图像，确保可靠的注释，即使是无效的地区，使ACDC的训练和评估的不利条件的高质量的数据集。4. 语义分割ACDC支持的第一个任务是标准语义分割。所有结果均以Sec.使用IoU度量的ACDC测试集报告了4个。我们用领域自适应方法、外部预训练模型和监督方法对我们的数据集进行4.1. 正常到不良适应我们提出了一个新的语义分割UDA基准：城市景观→ACDC。我们选择了八个代表性的最先进的UDA方法，用它们的默认配置训练它们，以适应从Cityscapes到整个ACDC，并在表2中呈现结果。所有八种方法都共享相同的基于DeepLabv2的架构[5]。鉴于这些方法在流行的合成到真实的适应集中取得了显著的性能增益-..10770表3. Cityscapes上最先进的无监督域自适应方法的比较→针对个人条件的ACDC自适应。我们在每种情况下训练一个单独的模型-ACDC的特定子集，并在其已被训练的条件下评估每个模型还报告了仅在源域（源模型）上训练的模型的性能以及可以访问每个条件的目标域标签（Oracle）的oracle的性能表4. ACDC上外部预训练模型在单个条件和所有条件下的比较这三组行表示经过预训练的模型分别在正常、有雾和夜间条件下。 CS ： Cityscapes [8] ， FC ： FoggyCityscapes [38]，FC-DBF：Foggy Cityscapes-DBF [37]，FZ ： Foggy Zurich [37] ， ND ： Nighttime Driving [10] ，DZ：Dark Zurich [40].方法雾晚上雨雪方法培训雾晚上雨雪所有源模型33.530.144.540.2RefineNet [24]CS46.429.052.643.343.7CLAN [26] 39.0 31.6 44.0 37.7美国食品和药物管理局[53] 39.5 37.1 53.3 46.9电话：+86-510 - 8888888传真：+86-510 - 8888888MRNet [62] 38.8 27.9 45.4 38.7Oracle 52.2 45.4 57.6 56.8我们发现，大多数人都没有改善。HRNet [47] CS 38.420.644.835.1 三十五点三[38]第38话29.551.641.4 四十二点九CMAda [37] FC-DBF+FZ 51.232.053.447.6 四十七点一DMAda [10] ND 50.732.754.948.9 四十七点九GCMA [39] CS+DZ 52.442.958.053.8 五十三点四MGCDA [40] CS+DZ 45.9 40.8 54.2 50.5 48.9 DANNet [50]CS+DZ我们的正常到不利集合中的源域基线婷性能最好的UDA方法是FDA，它基于具有显式傅立叶先验的像素级自适应策略。即使FDA也优于仅用100个靶域标签监督的模型，这表明UDA方法在这个新的具有挑战性的正常到不利基准上有很大的改进空间。ACDC在不利条件和正常条件之间的图像级对应性充当弱监督。我们实验MGCDA，弱监督的方法，利用这种对应关系。MGCDA优于FDA但仍然不如其完全监督的对应物。此外，我们训练了最先进的 UDA 方法，以从Cityscapes适应表3中的ACDC的个体条件。与表2相比，在该设置中目标域的增加的均匀性导致整体上更大的性能增益。然而，夜晚和雪对于大多数方法来说证明是特别具有挑战性的，并且只有FDA在雪上带来性能增益。4.2. ACDC上预训练模型的评估在表4中，我们使用ACDC来评估已经在外部数据集上预训练的语义分割模型。对于在Cityscapes上预训练的模型，夜间集合的性能下降较大，这意味着该集合的正常条件域的域偏移较大与在Cityscapes上预先训练的模型相比，专门针对雾或夜间的方法通常在这种情况下表现更好。此外，这些特殊方法中的大多数还提高了在训练时遇到的条件之外的条件下的性能。4.3. 不利条件下的监督学习我们使用ACDC来训练四种最先进的监督语义分割方法，并报告它们的性能。在表5中。定性结果见图。3对于两种监督方法和一种UDA方法。我们得出以下结论：（1）在不利条件下的完全监督比设计一个仅在正常条件下训练的更好的架构更有价值，因为即使是早期的方法[5]在完全监督下也比表现最好的外部预训练模型表现更好（参见表4）。(2) ACDC是一个具有挑战性的基准监督方法，由于其硬视觉域;即使是最近的HRNet在测试集上的得分也只有75.0% mIoU，这比其在Cityscapes上的80.4%的相应性能低5.4%[47]。(3)监督模型和预训练模型的排名没有很好地相关，如从表5和表4中的结果可以看出的。最后一点表明，HRNet等最先进的网络有足够的能力过拟合Cityscapes等数据集，这可以解释Cityscapes预训练HRNet模型在ACDC上的低性能。我们通过在Cityscapes和ACDC训练HRNet来测试这一假设;我们的期望是，联合训练的这得到了证实，因为联合训练的模型在Cityscapes上获得81.2%的mIoU，在ACDC上获得 74.8%的mIoU，击败并与相应的单独训练的模型相当。因此，即使ACDC不是非常大的规模，它也有助于针对正常条件有效地正则化分割模型。表6比较了在单个不利条件下训练的模型（称为条件专家）与在整个训练集上训练的模型（称为uber模型）。每个条件专家都根据其所接受的培训条件进行评估。Uber模型通常在不同的条件和细分网络中击败相应的条件专家。这暗示了这些网络的容量DeepLabv2 [5]CS33.530.144.540.238.0DeepLabv3+[6]CS45.725.050.042.041.6DANet [12]CS34.719.141.533.333.1[43]第四十三话31.829.749.035.3高级[46]32.931.744.332.1BDL [23]37.733.849.736.410771表5. ACDC上最先进的监督语义分割方法的比较。分别使用完整的训练集和测试集进行训练和评估方法路赛德build.壁围栏极光签署蔬菜地形天空人骑手车卡车总线火车马达自行车MiouRefineNet [24]92.571.286.239.044.053.268.866.085.159.394.965.238.585.853.859.776.247.554.565.3DeepLabv2 [5]88.062.380.837.035.133.949.849.580.150.792.551.126.579.949.041.172.226.544.255.3DeepLabv3+[6] 93.474.889.253.049.058.771.167.487.862.795.969.736.088.167.771.885.148.059.870.0HRNet [47]95.379.990.753.757.465.978.475.988.868.696.175.554.091.268.276.285.458.465.175.0图3. ACDC上所选语义分割方法的定性结果。从左至右：图像，地面实况注释，FDA [53]，DeepLabv3+ [6]和HRNet [47]。语义类的颜色编码与图1B匹配。1.一、表6.条件专家与超级模特ACDC的不同条件。第一组行呈现在单个条件上训练的特定于条件的专家模型，而第二组呈现在所有条件上训练的超级模型注意，所有条件下的性能不是各个条件下的相应性能的平均值方法雾晚上雨雪所有RefineNet [24]63.652.266.462.562.8DeepLabv2 [5]52.245.457.656.854.9DeepLabv3+[6]68.759.273.570.569.6HRNet [47]70.863.272.770.270.9RefineNet [24]65.755.568.765.965.3DeepLabv2 [5]54.545.359.357.155.3DeepLabv3+[6]69.160.974.169.670.0HRNet [47]74.765.377.776.375.0大到足以同时发现所有条件的判别表示。我们还在完全测试集（“全部”）上评估条件专家对uber模型的集合，其中集合使用与输入图像的条件相对应的专家进行预测。再一次，对于所有被检验的方法，uber模型都优于专家此外，所有方法在夜间执行最差，这表明ACDC的夜间集合比其他集合代表更难的域。我们专注于广泛使用的DeepLabv3+网络[6]，以详细研究不同条件下的类级性能，并比较表7中四个条件专家的性能。我们观察到以下情况：（1）道路和人行道的最低性能出现在雪地中，这可以归因于由于在当前的环境中相似的外观而导致的两类之间的混淆。雪的覆盖。(2)通常在夜间看起来很暗或光线不好的班级，例如，建筑物、植被、交通标志和天空在夜间更难分割。（3）具有小尺寸实例的类（诸如人、骑手和自行车）上的性能在雾上最低，这可能是由于这些类的远离相机的实例的对比度降低和低分辨率的组合效应我们还在表8中评估了四个DeepLabv3+条件专家在训练中没有遇到的条件。不包括夜间，结果是接近对称的训练与评估条件;例如，在一个实施例中，在雾中训练和在雪中测试的结果与在雪中训练和在雾中测试的结果相比之下，夜间专家在其他条件下的性能远高于其他专家在夜间的性能，这意味着从夜间域学习的表示可以更好地推广到其他条件，反之亦然。5. 不确定性感知的语义分割仅使用IoU评估对语义分割[1，21]中的不确定性进行建模的现有工作，IoU不评估预测的置信度。相比之下，对于不确定性感知的语义分割，算法需要输出硬语义预测H和具有范围[0，1]中的值的置信度图C两者。平均UIoU（AUIoU）度量通过在范围[0，1]上的多个阈值处对C进行阈值化、计算每个阈值的UIoU [40]并对结果求平均来计算置信度值低于检查阈值的像素p被视为无效，并且如果J（p）= 1，则其贡献为..10772表7. DeepLabv3+条件专家在ACDC的各种条件下的类级性能比较。在每个单独的条件下训练不同的模型，然后在此条件下进行评估。条件路赛德build.壁围栏极光签署蔬菜地形天空人骑手车卡车总线火车马达自行车Miou雾93.877.488.851.043.354.268.271.787.774.698.253.532.183.869.384.485.347.240.168.7晚上94.775.985.048.438.652.255.854.476.130.384.267.441.185.08.362.380.635.649.859.2雨92.877.493.967.358.164.174.475.994.250.898.670.833.490.467.779.286.854.666.173.5雪91.970.990.148.952.062.279.274.592.047.097.678.235.990.461.764.389.243.969.470.5表8. DeepLabv3+条件专家对ACDC各种条件的交叉评估。每个模型都在单独的条件下训练，并分别在每个条件下进行评估还报告了Cityscapes预训练模型的性能火车/Eval雾夜雨雪正常45.7 25.0 50.0 42.0雾68.7 40.7 63.5 59.1晚上58.5 59.2 55.6 49.6雨65.2 46.0 73.5 63.5雪59.2 38.0 69.3 70.5表9. 使用AUIoU的不确定性感知语义分割基线结果。用于标准语义分割的监督方法在每个条件下单独训练和评估，或者在用于语义标签预测的所有条件下联合训练和评估。置信度预测基线：全局恒定且等于100%（恒定100%），max-softmax 网络输出（ Max-Softmax ），地面实况无效掩码（GT）。方法信心雾晚上雨雪所有RefineNet [24] 恒定100%63.652.266.462.565.3RefineNet [24] Max-Softmax60.651.462.559.962.5RefineNet [24] GT67.961.167.964.068.8DeepLabv2 [5] 恒定100%52.245.457.656.855.3DeepLabv2 [5] Max-Softmax51.945.956.056.854.7DeepLabv2 [5] GT56.754.759.158.458.9DeepLabv3+ [6]恒定100%68.759.273.570.570.0DeepLabv3+ [6]66.459.170.667.967.8DeepLabv3+ [6] GT73.167.175.072.073.3(true无效），并且如果J（p）= 0则为负（假无效）。5.1. 基线和神谕我们在表9中给出了基于标准语义分割方法的不确定性感知分割的直接基线的结果。我们首先使用恒定且等于1的置信图来评估三种最先进的方法，即，而不是建立自信在这种情况下，AUIoU简化为IoU。任何建立置信度模型的合理方法都应在此基础上进行改进。使用这些方法输出的max-softmax分数作为置信度图通常会产生劣于全局恒定置信度的结果检查的方法的性能的上限是通过使用一个自信的神谕。更具体地，我们使用地面实况无效掩码J的二进制补码作为置信度预测。与全局恒定置信度基线相比，这显著提高了所有条件下的AUIoU性能。Oracle和基线之间的性能差距在夜间最大，这表明明确建模不确定性有可能提高性能，特别是在夜间领域。我们还在ACDC上进行了训练[1]，使用GT无效掩码来训练其离群值检测部分。通过[1]学习的置信度导致测试集AUIoU（52.0%）低于恒定置信度（53.0%），这表明在未来的方法中需要更好的不确定性建模。6. 结论与展望在本文中，我们提出了ACDC，一个大规模的数据集和基准套件的语义驾驶场景的理解，在不利的条件下。我们的数据集涵盖了在驾驶场景中常见的广告视觉领域，并具有高质量的像素级注释，其中还包括视觉退化的图像区域。我们的注释支持标准和新的不确定性感知的语义分割任务。我们已经在我们的基准测试中评估了几种最先进的方法这项评价的结论显示了ACDC在指导该领域未来进展方面的重要性：（i）ACDC为正常到不利适应设置中的无监督域适应方法提供了具有挑战性的目标域，因为大多数最先进的方法都能获得最佳边际性能增益，（ii）ACDC是监督语义分割方法的硬基准，因为最佳基线获得的IoU仅为75.0%，而Cityscapes上的相同基线得分为80.4%，（iii）ACDC可以与现有的正常条件数据集联合用于训练，以便正则化模型更好，并提高其性能在正常和不利条件下。鸣谢。这项工作是由丰田汽车欧洲通过研究项目TR ACE-Zürich资助的。我们感谢Rene´Zurb rügg对网站建设的贡献，以及 Anton Obukhov 和 Yuhang Lu 对运行 HRNet 和DANet的建议。..10773引用[1] PetraB ev andi c´ 、 I v anKr esˇ o 、 MarinO rsˇic´ 和 Sin isˇaSˇegv ic´。同时语义分割和离群点检测领域转移的存在。2019年德国模式识别。七、八[2] Mario Bijelic、Tobias Gruber、Fahim Mannan、FlorianKraus、Werner Ritter、Klaus Dietmayer和Felix Heide。透过雾看

下载后可阅读完整内容，剩余1页未读，立即下载