没有合适的资源?快使用搜索试试~ 我知道了~
BDD100K:驾驶数据集的多样性与异构多任务学习的评估和挑战
1BDD100K:一个面向异构多任务学习的多样化驱动数据集Fisher Yu1Haofeng Chen1Xin Wang1Wenqi Xian2陈莹莹1FangchenLiu3刘芳晨3Vashisht Madhavan4特雷弗·达雷尔11加州大学伯克利分校2康奈尔大学3加州大学圣地亚哥分校4元素公司摘要数据集推动视觉进步,但现有的驾驶数据集在视觉内容和支持的任务方面都很贫乏,无法研究自动驾驶的多任务学习研究人员通常被限制在一个数据集上研究一小部分问题,而现实世界的计算机视觉应用程序需要执行各种复杂的任务。我们构建了BDD 100K1,这是最大的驾驶视频数据集,包含10万个视频和10个任务,以评估自动驾驶图像识别算法的令人兴奋的进展。该数据集具有地理、环境和天气的多样性,这对于训练不太可能被新条件惊讶的模型很有用。基于这个多样化的数据集,我们建立了一个异构多任务学习的基准,并研究了如何一起解决任务我们的实验表明,需要特殊的训练策略,现有的模型,以执行这样的异构任务。BDD100K为这个重要场所的未来研究打开了大门。1. 介绍多样化的大规模注释视觉数据集,如ImageNet [8]和COCO [18],一直是计算机视觉中监督学习任务最新进展典型的深度学习模型可能需要数百万个训练示例来实现任务的最先进性能[16,27,15]。然而,对于自动驾驶应用程序,由于缺乏全面的数据集,验证深度学习的能力并不那么简单。用于自动驾驶的现有数据集[14,7,23]在一个或多个重要方面受到限制此外,在现有数据集上训练的模型往往过拟合特定领域的特征[25]。现实世界的应用程序需要执行一个组合,在加州大学伯克利分校完成的工作1数据见https://bdd-data.berkeley.edu具有不同复杂性的感知任务,而不仅仅是具有相同预测结构的同质多任务[26,37,1,20]。虽然用简单的注释(如可驱动区域和对象边界框[11,18])标记大量图像是可行的,但获得更复杂的注释(如实例分割[3])仍然具有挑战性,更不用说多对象检测和分割跟踪[30,21]。因此,尽管已经投入了大量的精力来构建大规模的视觉数据集,但对这些复杂任务的研究仍然限于小数据集[7,14]。在生产环境中,如何为各种注释分配资源以支持需要具有各种输出结构的异构任务的应用程序我们的目标是促进算法研究的大规模不同的视觉数据和多个任务。我们构建了BDD 100K,一个新的,多样化的,大规模的视觉驾驶场景数据集,以及各种任务,以克服这些限制。我们已经能够收集和注释注释驾驶场景的最大可用数据集,包括超过10万个不同的视频剪辑。BDD100K涵盖了更多真实的驾驶场景,并捕捉了更多的我们的基准由十项任务组成:图像标记、车道检测、可驾驶区域分割、道路对象检测、语义分割、实例分割、多对象检测跟踪、多对象分割跟踪、主适应和模仿学习,如图1所示。这些不同的任务使得异质多任务学习的研究成为可能。在我们的基准测试中,模型可以执行一系列复杂性不断增加的任务。我们在新的基准上对现有算法进行了广泛的评估特别 注 意 的 是 多 任 务 学 习 在 同 质 , 级 联 , 和heterogeneous设置。我们的实验提出了许多新的发现,这是由单个数据集上的不同任务集实现的。我们的异构多任务学习的基准模型揭示了设计一个单一的模型来支持多个任务的挑战。26362637图1:我们的数据集概述。我们的数据集包括各种天气条件、时间和场景类型下的各种驾驶视频。该数据集还附带了一组丰富的注释:场景标记、对象边界框、车道标记、可驾驶区域、全帧语义和实例分割、多对象跟踪以及具有分割的多对象跟踪。我们的论文的主要贡献是:1)支持多种复杂任务的综合多样的100 K驾驶视频数据集,可以作为自动驾驶计算机视觉研究的评估基准;(2)为异质性多任务学习提供一个基准,并为今后的研究提供基础研究。2. 相关作品视觉数据集是计算机视觉中许多识别任务所必需的。特别是随着深度学习方法的出现,大规模视觉数据集,如[8,35,39,23],对于学习高级图像表示至关重要它们是通用的,包括数百万个带有图像级分类标签的图像。这些大型数据集在学习图像识别的表示方面很有用,但现实世界中大多数复杂的视觉理解任务需要更细粒度的识别,例如对象定位和分割[11]。我们提出的数据集提供了这些多粒度的注释更深入的视觉推理。此外,我们在视频的上下文中提供这些注释,这提供了视觉信息的额外维度尽管存在大型视频数据集[5,2,28],但它们通常仅限于图像级标签。近年来,由于自动驾驶汽车技术的普及,驾驶数据集受到越来越多的关注。我们的目标是了解计算机视觉系统在自动驾驶背景下的挑战 一些的数据集集中在特定的对象,如pedes-trians [9,38]。Cityscapes [7]提供了对自己车辆收集的视频采样帧的实例级语义分割[19]第14话,提供多源数据,如LiDAR扫描点。由于很难收集覆盖广泛时间和位置的数据,因此这些数据集的数据多样性有限。为了使车辆感知系统稳健,它需要从众多城市的各种道路条件中学习。我们的数据是从与[32]中的视频相同的原始来源收集的。然而,我们的论文的主要贡献是视频注释与异构任务的基准。MapillaryVistas [23]为用户加载的数据提供了细粒度的注释,这些数据在位置方面更加多样化。然而,这些图像是一次性的帧,没有被放置在具有时间结构的视频的上下文中。像Vistas一样,我们的数据是众包的,但是,我们的数据集仅从驾驶员那里收集,每个注释图像对应于一个视频序列,这使得有趣的应用程序能够建模时间动态。多任务学习旨在通过从其他任务中学习来提高某个任务的泛化能力[6,22]。它在机器学习中得到了广泛的研究[6,12]。对学习任务之间关系的兴趣日益增长,产生了许多多任务和迁移学习训练基准和挑战。Robust Vision Challenge [1]具有六个视觉挑战,其中单个模型预计将在多个视觉任务中产生结果。 扎米尔等。[37]采用迁移学习的方法研究了26个视觉任务之间的依存结构。 McCann等[20]提出了一个挑战,有十个自然语言处理任务,并提出了一个模型,解决所有的问题,通过公式化的每一个任务回答。类似于Mc-Cannet al.[20],现有的多任务和迁移学习设置在输出结构中是同质的任务可以是2638102185734377726590612926242963165051022964614296179实例实例图2:我们数据来源的地理分布。每个点表示每个视频剪辑的起始位置我们的视频来自美国人口稠密地区的许多城市和地区61061058712019702346101713949104 410 104102 2310 1010车签署轻型载货车总线自行车骑手动车010闭塞不010截短不(a) 每个类别中的实例数(b) 闭塞(c) 截断图3:对象类别的实例统计。(a)每个类别的实例数,它遵循长尾分布。(b)大约有一半的情况被遮挡。(c)大约7%的实例被截断。公式化为像素级或低维分类和回归。BDD 100K包含多个任务,包括像素级、基于区域的任务和时间感知任务,为异构多任务学习打开了大门。3. BDD100k我们的目标是提供一个大规模的多样化的驾驶视频数据集,具有全面的注释,可以暴露街景理解的挑战。为了实现良好的多样性,我们以众包的方式获得我们的视频,成千上万的司机上传,由Nexar2支持。该数据集不仅包含高分辨率(720 p)和高帧率(30fps)的图像,还包含GPS/IMU记录,以保存驾驶轨迹。总的来说,我们有10万个驾驶视频(每个40秒),从超过5万个游乐设施中收集,覆盖纽约,旧金山湾区和其他地区,如图2所示。该数据集包含不同的场景类型,如城市街道、住宅区和高速公路。此外,这些视频是在一天中不同时间的不同天气条件下录制的。视频分为训练(70K)、验证(10K)和测试(20K)集。每个视频中第10秒处的帧被注释用于图像任务并且整个序列用于跟踪任务。3.1. 图像标记我们收集了六种天气条件、六种场景类型和一天中三个不同时间的图像级注释2https://www.getnexar.com对于每个图像。这些视频包含大部分极端天气条件,如雪和雨。它们还包括世界各地的各种不同场景。值得注意的是,我们的数据集包含大约相同数量的白天和夜间视频。这种多样性使我们能够研究域转移,并在新的测试集上很好地推广我们的对象检测模型。补充资料中显示了带有天气、场景和白天时间标签的图像的详细分布。我们在图4中提供了使用DLA-34 [36]的图像标记分类结果。不同天气和场景的平均分类准确率约为50%至60%。图4:使用DLA-34的图像标记分类结果。3.2. 对象检测目标定位不仅是自动驾驶的基本任务,而且是一般视觉识别的基本任务。我们为100K视频的每一个参考帧提供了10个类别的边界框注释实例统计如图3a所示。我们在图3b和图3c中提供了包括“被遮挡”和“被截断”的可见性属性12748693.477.277.065.9 53.461.10.0实例86.170.467.850.550.930.60.0准确度(%)2639图5:车道标记注释示例。红色车道是垂直的,蓝色车道是平行的。左:我们标记所有可见的车道边界。中间:并非所有的标线边缘都是供车辆遵循的车道,例如行人过街。右:平行车道也可以沿着当前行驶方向。图6:可行驶区域的示例。红色区域可直接驾驶,蓝色区域可供选择。虽然可行驶区域可以限制在车道标记内,但它们也与右两列所示的其他车辆的位置有关3.3. 车道标记车道线检测是基于视觉的车辆定位和轨迹规划的关键。然而,现有的数据集往往在规模和多样性方面受到限制。例如,加州理工学院的车道数据集[4]只包含1,224张图像,而道路标记数据集[31]有1,443张图像标记在11类车道标记中。最新的作品VPGNet [17]由在首尔驾驶三周期间拍摄的约20,000张图像组成。我们的车道标记(图5)标记有8个主要类别:路缘石、人行横道、双白、双黄、其他双色、单白、单黄、其他单色。其他类别在评估期间被忽略。我们标记连续性(完整或虚线)和方向(平行或垂直)的属性。如表1所示,我们的车道标记注释涵盖了一组不同的类。补充资料中显示了车道标记类型和可行驶区域的详细分布。数据集培训总序列加州理工学院车道数据集[4]-1,2244道路标记数据集[31]-1,44329KITTI路[13]289579-VPGNet [17]14,78321,097-BDD100k70,000 100,000 100,000表1:车道标记统计。我们的车道标记注释更加丰富和多样化。3.4. 可驾驶区域车道本身不足以决定道路的可承受性。虽然大多数情况下,车辆应该停留在车道之间,但通常没有清晰的车道标记。此外,道路区域与所有其他车辆共享,但如果出现以下情况,则车道不能行驶被占领了所有这些车道标记以外的条件都指导我们的驾驶决策,因此与设计自动驾驶算法有关我们的可驾驶区域分为两类:可直接行驶区域和可交替行驶区域。可直接驾驶区域是驾驶员当前正在驾驶的区域相反,替代地,可驾驶区域是驾驶员当前不在其上驾驶但能够通过改变车道来这样做的车道虽然直接可行驶区域和交替可行驶区域在视觉上是不可区分的,但是它们在功能上是不同的,并且需要算法来识别阻挡对象和场景上下文。图6中示出了一些示例。可驱动区域注释的分布如柔性材料所示。毫不奇怪,在交通受到严格管制的高速公路或城市街道上,可驾驶区域大多在车道内,并且它们不与道路上的车辆或物体重叠。然而,在居民区,车道稀疏。我们的注释员可以根据周围环境找到可行驶区域。3.5. 语义实例分割我们为从整个数据集中随机抽取的10,000个视频片段中的每一个每个像素都被赋予一个标签和一个相应的标识符,该标识符表示图像中该对象标签由于许多类(例如,天空)不适合被分割成实例,只有类标签的一小部分被分配实例标识符。整个标签集由40个对象类组成,选择这些对象类以捕获道路场景中对象的多样性以及最大化每个图像中标记像素的数量。除了大量的标签,我们的数据集在场景多样性和复杂性方面超过的2640数据集帧序列标识框10010的闭塞闭塞持续时间10080604010 2 4闭塞200100 101 102遮挡帧图7:盒子大小的累积分布(左),每个轨道的最大和最小盒子大小之间的比率(中)和轨道长度(右)。我们的数据集在对象规模上更加多样化。整套设备分为三部分:7K图像用于训练,1K图像用于验证,2K图像用于测试。语义实例分割数据集中的类的分布在补充材料中示出。3.6. 多个物体追踪为了了解视频中对象的时间关联每个视频约为40秒,并以5 fps进行注释,导致每个视频约为200帧。我们在训练和验证集中观察到总共130.6K个轨道标识和3.3M个边界框。数据集分为1400个视频用于训练,200个视频用于验证,400个视频用于测试。表2显示了BDD 100K与以前MOT数据集的比较。我们的跟踪基准提供了一个数量级比以前流行的轨道-图8:按轨迹划分的遮挡数量(左)和每个遮挡的遮挡帧数(右)。我们的数据集涵盖了复杂的遮挡和再现模式。图7(右)显示了每条轨道的长度。分布表明,MOT数据集不仅在视觉尺度上的轨道之间和轨道内,而且在每个轨道的时间范围是不同的我们的跟踪数据中的对象也呈现复杂的遮挡和再现模式,如图8所示。对象可能被完全遮挡或移出帧,然后稍后重新出现。我们在数据集中观察到49,418次遮挡,或者说每次遮挡发生一次。3.51跟踪.我们的数据集显示了自动驾驶中物体重新识别跟踪的真正挑战。3.7. 多目标跟踪与分割我们还提供了一个多对象跟踪和分割(MOTS)数据集与90个视频。我们将数据集分为60个训练视频,10个验证视频和20个测试视频。ing数据集,MOT17 [21]。 最近发布的数据集,与我们相比,Waymo [29]的跟踪序列更少(1150 vs2000),帧总数更少(230K vs 398K)。但是Waymo的数据有更多的2D盒子(9.9M对4.2M),而我们的数据有更好的多样性,包括不同的天气条件和更多的位置。按类别划分的轨道和边界框的分布情况见下图-数据集帧序列 身份安。Ann./ Fr.库存材料KITTI [14]8K2191747KMOT17 [21]34K211,638337K型BDD100k318K1,600131K3.3M表2:训练集和验证集的MOT数据集统计。我们的数据集有更多的序列,框架,身份以及更多的框注释。BDD 100K MOT在对象规模上是多样的。图7(左)绘制了箱尺寸的累积分布,作为宽度为w、高度为h的边界框的boundingwh。图7(中)显示了最大盒子大小和最小盒子大小之间表3:与其他MOTS和VOS数据集的比较。表3显示了BDD MOTS数据集的详细信息以及与现有 多 对 象 跟 踪 和 分 割 ( MOTS ) 和 视 频 对 象 分 割(VOS)数据集的比较。MOTS的目标是在拥挤的场景中执行多个对象的分割和跟踪。因此,MOTS数据集(如KITTI MOTS和MOTS Chal- lenge [30])需要每帧更密集的注释,因此尺寸小于VOS数据集。BDD100K MOTS提供的MOTS数据集大于KITTI和MOTSChallenge数据集,其注释数量与大规模YouTube VOS相当[33] 数据集。MOTS数据集按类别的详细分布情况见补充材料。百分比(%)百分比(%)[30]第三十话8K2174938K4.78[30]第三十话2.9K422827K9.40[24]第二十四话6.2K90197--[33]第三十三话120K4.5K7.8K197K1.64BDD 100K MOTS14K706.3K129千9.202641(a) 我们的形象(b)在城市景观中训练(c)在我们的基础上训练(d)地面真相图9:在不同数据集上训练的相同模型(DRN [ 34 ])的视觉比较。我们发现,Cityscapes和我们的新数据集之间有一个巨大的领域转变。例如,由于基础设施的差异,在Cityscapes上训练的模型会被一些简单的类别(如天空和交通标志)所混淆。测试火车市非本市Val测试火车白天非白天Val城市-30 K29.526.528.8白天-30 K30.623.628.1非城市-30 K24.924.324.9非白天-30 K25.925.325.6随机-30 K28.726.628.3随机-30 K29.526.028.3表4:具有对象检测的域差异实验。我们从一个域中获取图像,并在同一域或相反域上的AP中报告测试结果我们可以观察到显著的域差异,特别是在白天和夜间之间。3.8. 模仿学习我们数据集中的GPS/IMU记录显示了给定视觉输入和驾驶轨迹的人类驾驶员动作。我们可以使用这些记录作为模仿学习算法的演示监督,并使用复杂度来衡量验证集和测试集上驾驶行为的相似性我们参考Xuetal. [32]关于评估协议的详细信息。驾驶轨迹的可视化显示在补充材料中。4. 多样性除了视频和规模之外,我们数据的一个显著特征是多样性我们可以研究多样性给现有算法带来的新挑战,以及我们的数据如何补充现有数据集。我们进行了两组实验对象检测和语义分割。在对象检测实验中,我们研究数据集中的不同域。而在语义分割中,我们调查了我们的数据和Cityscapes之间的域[7]。4.1. 对象检测与其他流行的驾驶数据集相比,我们的数据集在多样性方面具有优势。我们研究了域差异对目标检测的影响。整个数据集被划分为几个域的基础上的一天中的时间和场景类型。选择城市街道和白天作为验证域.训练集具有相同训 练 集 中 的 图 像 数 量 ( 30K) 。 然 后 , 我 们 基 于ResNet-50在这些域上训练Faster-RCNN [27],并使用COCO API[18]评估结果。我们发现,在不同条件下的图像集之间确实存在域差异,如表4所示。城市和非城市之间的差异是显著的,但白天和夜间之间的差距更大。虽然这并不完全令人惊讶,但结果表明,有必要做更多的工作来弥合这一差距。4.2. 语义分割我们还比较了在Cityscapes上训练的模型和我们的模型,以了解我们的新数据集和现有驾驶数据集之间的差异Cityscapes的数据收集在德国城市,而我们的数据主要来自美国。我们观察到,在语义分割模型的两个数据集之间存在显著的域转移。在不同的数据集上测试时,模型的表现要差得多。这表明,即使对于其他数据集的域,我们的新数据集也是互补的,它增强了现有的数据集。图9直观地显示了差异。我们可以观察到,在Cityscape上训练的模型不能识别美国的交通标志。5. 多任务学习BDD 100K为研究异构任务的联合解决方案提供了机会。在本节中,我们将研究使用相同的基本模型联合建模各种任务的效果。我们研究如何利用多样性和数量2642××训练套件AP AP50AP75Inst-Seg21.8 40.5二十点五Inst-Seg + Det 24.5 45.4 21.6训练集AP MOTA MOTP IDS简单的标签,以提高复杂任务的准确性,例如从目标检测到跟踪。5.1. 同质多任务学习我们首先调查的影响,共同执行任务具有相似的输出结构。BDD 100K车道标记和可驾驶区域数据集共享同一组70K训练图像。可行驶区域注释由2个前景类组成,车道标记注释有3个属性(方向、连续性和类别)。我们把可行驶区域的检测归结为分割,把车道线的划分归结为轮廓检测.我们通过平均IoU评估可驾驶区域分割,并通过最佳数据集尺度F测量(ODS-F)评估车道标记,使用结构化边缘检测工具[10],公差τ=1,2和10像素。我们采用形态学细化每个评分阈值在评估过程中。我们采用DLA-34 [36]作为分割任务的基本模型。我们实现了分割头与四个3 - 3卷积块,然后由1-1卷积,lution产生分割地图在4倍下采样的规模,并使用双线性插值上采样的输出,把原来的规模。对于车道标记,我们为三个属性使用三个分割头。我们采用前景权重为10的加权交叉熵损失用于车道标记头,并采用基于梯度的非最大值抑制用于后处理。我们用10K、20K和完整的70K图像构建了三个训练集,并在表5中报告了在单个任务和两个任务上训练的模型的评估结果。全面评价结果车道标线见补充资料。训练集泳道ODS-F(τ= 10)(%)dir.续 目录是说可驱动IoU(%)直接备用。是说泳道10K49.29 47.85 39.08 45.41- -驱动10K- -73.10 55.36 64.23车道+车道10K53.97 52.59 44.65 50.4074.69 54.06 64.37泳道20K57.36 55.85 49.88 54.36- -驱动20K- -79.00 63.27 71.13车道+车道20K57.19 55.64 49.50 54.1179.39 64.06 71.73泳道70 K57.50 55.87 50.08 54.48- -驱动70K- -79.40 63.33 71.37车道+车道70K57.35 55.76 49.63 54.2479.72 64.70 72.21表5:同质多任务学习对车道标记和可驾驶区域分割的评估结果。我们在10K、20K和完整的70K图像的训练分割上训练车道标记、可驾驶区域分割以及两者的联合训练。我们观察到,当仅使用10 K图像进行训练时,车道标记预测的平均ODS-F分数在与可驾驶区域任务联合训练时从45.41提高到50.40。然而,与单独任务相比,联合训练对可驾驶区域检测任务的改善(从64.23到64.37)是微不足道的。随着我们增加当训练图像的数量增加到20K和70K时,联合训练和单任务训练之间的差异变得微不足道,尽管性能数字通常高于在10K图像上训练的那些。结果的一个假设是,可驾驶区域检测任务和车道标记任务共享类似的预测结构,称为同质任务,因此额外的监督可能无法为每个单独的任务带来新的信息。这些结果进一步激励我们在这项工作中研究具有不同预测结构和注释5.2. 级联多任务学习某些任务(如对象跟踪和实例分割)注释起来更耗时。但它们可以依赖于对简单任务的预测。这种联系已经被研究为级联多任务学习。例如,更准确的对象检测可以更好地定位对象候选以进行跟踪。一个很自然的问题是,是将所有的注释工作都用于复杂的任务,还是将一些资源分配给基本的任务。表6:当与对象检测集联合训练时的实例分割的评估结果。附加的本地化监督可以显著改善实例分割。MOT28.1五十五点零84.08386MOT + Det30.7五十六点七84.19098表7:与对象检测级联的多对象跟踪的评估结果。AP是检测度量。即使跟踪集有更多的盒子,模型仍然可以从检测集中的不同实例示例中受益对象检测和实例分割。BDD实例分割数据集包含7K图像,而检测数据集包含70K图像。我们首先研究是否添加更多的对象检测注释可以帮助实例分割。我们使用Mask R-CNN [15]和ResNet-50 [16]作为骨干,并以批量级循环方式训练检测和如表6所示,在联合训练的情况下,AP从21.8增加到24.5。 实例分割模型能够以便从具有更丰富多样性的图像和对象示例的检测集合中学习更好的对象外观特征和定位。Zhou等[40]探索形状先验在检测监督中的作用,进一步提高半监督实例分割的效果。2643训练集APMOTSA MOTSP FN FP IDSW训练集半段94.3 63.0 84.925.7 45.8 52.6 56.2 54.186.4 45.1 95.3 62.4 22.1 90.2 50.5 68.3 0 35.549.9 56.9半分段+检测94.3 62.585.2 24.5 41.1 51.563.1 57.9 86.247.4 95.5 64.6 28.1 90.8 52.9 70.7 043.4 48.958.3半分段+车道+车道94.8 65.884.1 22.6 40.2 49.3 51.9 49.7 85.8 46.2 95.3 60.8 7.1 89.9 47.8 66.9 0 27.5 27.5 53.3表8:语义分割的评估结果。我们探索了不同任务的分段联合训练检测可以提高分割的整体精度,尽管它们的输出结构不同。然而,虽然车道和可行驶区域改善了道路和人行道的分割,但整体准确性下降。MOT和目标检测。BDD 100K MOT包含来自1,400个视频的278K训练帧,而检测集包含从70K视频中采样的70K图像。对于检测和MOT模型,我们使用修改后的Faster R-CNN [27],具有共享的DLA-34 [36]主干。跟踪模型的实施细节见补充材料。表7显示,检测和多目标跟踪的联合训练改善了单任务MOT模型,检测AP从28.1增加到30.7,MOTA从55.0增加到56.7,身份切换略有增加。语义分割与其他任务。按照类似的方式,我们通过与detec联合训练语义分割来微调基本语义分割模型和车道标记/可行驶区域,如表8所示。我们观察到,使用额外的70K对象检测数据集进行训练将整体mIoU从56.9提高到58.3,其中改进主要归因于对象检测数据集中存在的对象类当与车道标记和可驾驶区域集合联合训练时,填充类的IOU(例如,道路和人行道)改善,但所有类别的整体IOU减少。总而言之,在任务级联中为简单任务添加更多注释可以帮助提高需要更昂贵标签的复杂任务的性能5.3. 异构多任务学习我们基准测试的最终目标是研究如何以一起执行所有不同的任务,从而实现自动驾驶。为了理解潜力和困难,我们研究了多对象跟踪和分割的联合训练,这是对象检测、实例分割和多对象跟踪的下游任务。由于MOTS数据集需要在每个帧处进行耗时的实例分割注释,因此数据集在视频多样性方面相对有限,训练集中有来自60个视频的12K帧。我们的目标是通过利用来自70K视频的70K图像的检测集、来自1,400个视频的278K帧的MOT集以及来自7K视频的7K图像的实例分割集的多样性来提高MOTS任务的性能。我们报告实例分割AP和多对象跟踪和分割准确度(MOTSA),精度(MOTSP)和表9中[30]使用的其他指标。我们首先从上游任务的预训练模型中微调MOTS模型。与从头开始训练MOTS相比,从预训练的实例分割模型进行微调可以改进分割AP和MOTSP。另一方面,从预训练的MOT模型进行微调来自实例分割和MOT数据集的额外训练示例分别改善了分割和框传播,从而大幅改善了整体MOTSA结果。最后,我们通过联合训练这四个任务来微调表7中提到的联合训练的检测和跟踪模型。我们实现了23.3的总体分割AP和41.4的MOTSA。MOTS(S)13.030.481.883525116566InstSeg(I)+MOTS18.733.781.96810 5611965MOT(T)+MOTS19.740.379.85698 5967390Det + T + I + S23.341.481.651326228472表9:MOTS评价结果。实例分割AP和MOTS评估指标都有报告。实例分割跟踪是很难标记的,但是我们能够使用对象检测、跟踪和实例分割来显著提高分割跟踪的准确性6. 结论在这项工作中,我们提出了BDD 100K,一个大规模的驾驶视频数据集,具有广泛的注释,用于异构任务。我们为异构多任务学习建立了一个基准,其中任务具有各种预测结构,并服务于完整驾驶系统的不同方面。我们的实验提供了广泛的分析,不同的多任务学习的情况下:同质多任务学习和级联多任务学习。研究结果显示了关于多任务学习中我们希望我们的工作能够促进异质多任务学习的未来研究,并为这一重要方向提供启示。路人行道建筑壁围栏极光签署植被地形天空人骑手车卡车总线火车摩托车自行车平均IoU2644引用[1] 鲁棒愿景挑战.http://www.robustvision.net/网站。一、二[2] S. Abu-El-Haija,N. Kothari,J. Lee,P.纳采夫湾托代里奇,B. Varadarajan和S. Vijayanarasimhan。Youtube-8 m:大规模视频分类基准。arXiv预印本arXiv:1609.08675,2016。2[3] D. Acuna,H. Ling、红腹锦鸡儿A. Kar和S.菲德勒用多边形对分割数据集进行有效的交互式标注。2018. 1[4] M. 艾丽城市街道中车道标志的实时检测在智能车辆研讨会,第7-12页,2008年。4[5] F. Caba Heilbron,V.埃斯科西亚湾Ghanem和J.卡-洛斯尼布尔斯。Activitynet:人类活动理解的大规模视频基准。IEEE计算机视觉和模式识别会议论文集,第961-970页,2015年。2[6] R.卡鲁阿纳多任务学习。Machine learning,28(1):41-75,1997. 2[7] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议论文集,第3213-3223页一、二、六[8] J. 邓,W。东河,巴西-地索赫尔湖J. Li,K.Li和L.飞飞ImageNet:一个大规模的分层图像数据库。2009年CVPR09中。一、二[9] P. 多尔阿尔角 沃杰克湾Schiele和P. 佩洛娜行人检测:一个基准。在计算机视觉和模式识别,2009年。CVPR2009。IEEE会议,第304-311页。IEEE,2009年。2[10] P. Dol la'r和C. L. 齐特尼克用于快速边缘检测的结构化森林InICCV,2013. 7[11] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K.威廉斯,J.Winn和A. 齐 瑟 曼 。 pascal 视 觉 对 象 类 ( voc ) 的 挑 战 。International Journal of Computer Vision,88(2):303-338,2010。一、二[12] T. Evgeniou和M.庞提尔规则化的多任务学习。第十届ACM SIGKDD国际知识发现和数据挖掘会议论文集,第109-117页ACM,2004年。2[13] J. Fritsch,T. Kuhnl和A.盖革一种新的道路检测算法性能度量与评价基准。在智能交通系统(ITSC),2013年第16届国际IEEE会议上,第1693IEEE,2013。4[14] A. Geiger,P. Lenz,C. Stiller和R.乌塔松视觉与机器人技术的结合:Kitti数据集。国际机器人研究杂志,32(11):1231-1237,2013。一、二、五[15] K. 他,G. Gkioxari,P. Doll a'r 和R. 娘娘腔。 面具r-cnn。在IEEE计算机视觉国际会议论文集,第2961-2969页1、72645[16] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残 差 学 习 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition , pages 770-778,2016中。1、7[17] S. Lee,J. Kim,J. S.尹,S。申岛拜洛N Kim,T.-H. Lee,H. S.洪圣- H.汉和我S.奎恩VPGNet:用于车道和道路标记检测和识别的消失点引导网络。在计算机视 觉 ( ICCV ) , 2017 年 IEEE 国 际 会 议 上 , 第1965IEEE,2017年。4[18] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Doll a'r 和 C. L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象欧洲计算机视觉会议,第740-755页Springer,2014. 1、6[19] W. 马登恩湾帕斯科角Linegar和P.纽曼 1年,1000公里:牛津机器人汽车数据集。IJ Robotics Res. ,36(1):3-15,2017. 2[20] B. McCann,N. S.凯斯卡角Xiong,和R.索彻自然语言十项全能:多任务学习作为问答。arXiv预印本arXiv:1806.08730,2018. 一、二[21] A. 米兰湖 莱亚尔岛。Reid ,S. Roth 和K. 申德尔河Mot16:多目标跟踪的基准测试。arXiv预印本arXiv:1603.00831,2016。一、五[22] T. M.米切尔学习概括时需要有偏见。计算机科学系,计算机科学研究实验室,1980年。2[23] G. 诺伊 霍尔德T. O l lmann,S. R. Bul o`和P. 孔蒂德河街景语义理解的mapillary vistas数据集。2017年国际计算机视觉会议(ICCV)。一、二[24] J. Pont-T uset,F. Perazzi,S. 卡勒山口 Arbel a'ez,A.Sorkine-Hornung和L. 范古尔 2017年戴维斯挑战视频对象分割。arXiv预印本arXiv:1704.00675,2017。5[25] S.- A. Rebuffi,H. Bilen和A.维达尔迪使用残余适配器学习多个视觉域神经信息处理系统进展,第506-516页,2017年1[26] S.- A. Rebuffi,H. Bilen和A.维达尔迪使用残余适配器学习多个视觉域神经信息处理系统进展,第506-516页,2017年1[27] S. Ren , K. 赫 利 河 Girshick 和 J. 太 阳 Faster r-cnn :Towards real-time object detection with region proposalnetworks.在神经信息处理系统的进展,第91-99页,2015年。一、六、八[28] K. Soomro、A. R. Zamir和M. Shah. Ucf101:来自野外视 频 的 101 个 人 类 动 作 类 的 数 据 集 。 arXiv 预 印 本arXiv:1212.0402,2012。2[29] P.孙,H. Kretzschmar,X. Dotiwalla,A. Chouard,V.Pat- naik,P.Tsui,J.Guo,Y.Zhou,Y.柴湾Caine,et al.自 动 驾驶感知的可扩展性:Waymo开放数据集。arXiv,第arXiv-1912页,2019年。5[30] P. Voigtlaender,M. Krause,A. Osep,J. Luiten,B. B.G. Sekar、A. Geiger和B. Leibe Mots:多目标跟踪2646和分割。在IEEE计算机视觉和模式识别会议论文集,第7942- 7951页,2019年。一、五、八[31] T. Wu和A.兰加纳森一个实用的道路标线检测与识别系统。在智能车辆研讨会上,第25-30页,2012年。4[32] H. Xu,Y. Gao,F. Yu和T.达雷尔。从大规模视频数据集中对驾驶模型进行端到端学习。arXiv预印本,2017年。二、六[33] N.许湖,加-地Yang,Y.范,D. Yue,Y.叶,中国植物研究所所长。Liang,J. Yang,和T.煌Youtube-vos:大规模视频对象分割基准。arXiv预印本arXiv:1809.03327,2018。5[34] F. Yu,V. Koltun,and T.放克豪瑟扩张的残余网络。在计算机视觉和模式识别(CVPR),2017年。6[35] F. Yu,中国茶条A. Seff,Y. Zhang,S. 宋,T. Funkhouser和J.肖。LSUN:使用深度学习构建大规模图像数据集,其 中 人 类 处 于 循 环 中 。 arXiv 预 印 本 arXiv :1506.03365,2015。2[36] F. Yu,D.Wang,中国山核桃E.Shelhamer和T.达雷尔。深层聚集。在IEEE计算机
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功