没有合适的资源?快使用搜索试试~ 我知道了~
软件X 13(2021)100653原始软件出版物推动人工智能应用:复杂数据集的标签格式Marcos Nieto,Orti Senderos,Oihana OtaeguiVicomtech Foundation,Basque Research and Technology Alliance(BRTA),Mikeletegi 57,20009 San Sebastian,Spainar t i cl e i nf o文章历史记录:收到2020年收到修订版2020年10月15日接受2020年关键词:标注数据集多传感器汽车a b st ra ct数据标签已成为旨在从大量多传感器档案中创建和使用地面真实标签以馈送到人工智能(AI)应用程序的行业的主要问题。使用多个摄像头和LIDAR对多传感器设置进行注释现在与旨在构建自动驾驶(AD)功能的汽车行业特别相关在本文中,我们提出了视频内容描述(VCD),作为第一个开源的元数据结构和工具集,能够为如此复杂的场景构建注释,包括前所未有的灵活性来标记2D和3D对象、像素级标签、动作、事件、上下文、语义关系、里程计和校准。几个例子的情况下,证明了VCD的灵活性©2020作者(S)。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本v4.2.0用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX_2020_220法律代码许可证MIT许可证使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境依赖性如果可用,链接到开发人员文档/手册例如:https://vcd.vicomtech.org/documentation/documentation-vcd问题支持电子邮件info@vicomtech.org1. 动机和意义在人工智能(AI)时代,数据已成为支持执行检测、识别、分割或理解等任务的训练模型的资产。通过最新的深度学习(DL)范式在规模上扩展的监督学习方法需要存在大量带有标签的数据集,这些数据集包含带有标签的数据,因此AI可以从数据集中学习如何概括未来未标记的传入数据。自动驾驶、监控和安全或制造业等行业突然将注意力和投资转向创建高质量的数据集,从而获得超越竞争对手的业务优势。创建的函数越复杂,标签就需要越丰富。因此,创建复杂、丰富和有效的标签或注释已成为成功的关键技术要素之一。*通讯作者。电子邮件地址:mnieto@vicomtech.org(Marcos Nieto).https://doi.org/10.1016/j.softx.2020.100653通常的人工智能管道包括数据的生成(日志),通常来自多传感器设置,如仪表车辆,然后使用昂贵的半手动方法进行数据过滤和注释。因此,标记的数据可以被转储到数据库中进行场景搜索,或者用于测试程序,AI训练方法或模拟引擎(见图10)。①的人。注释是生成描述数据内容的元数据的任务。对于图像或点云,描述可以通过单词标签或语义描述来指代所表示的场景,但也可以指代对象的位置或形状。这些标签用于为评估过程创建基础事实,并为机器学习创建训练集。注释任务传统上由科学界在小规模上处理,以标记感兴趣对象的存在或位置,例如行人或汽车,或图像区域的像素级描述因此,已经提出了特定于任务的注释格式[1,2]。随着深度学习技术的出现,近年来图像和点云数据集的数量呈爆炸式增长[3此外,汽车或视频监控安全等传统行业部门突然将注意力转向计算机视觉和机器学习,因为它们2352-7110/©2020作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxMarcos Nieto、Orti Senderos和Oihana Otaegui软件X 13(2021)1006532Fig. 1. 人工智能数据处理管道。注释是核心步骤,通过生成标签来赋予数据意义,以促进AI应用程序(训练,测试,模拟)。表1根据注释类型(BB:边界框,PL-N:具有N个类的像素级)、格式和应用领域对流行数据集进行分类。数据集年域注释格式[第9话]2007央视二维BBXGTFPASCAL VOC [2]2010一般二维BBXML市中心[10]2011央视二维BBCSVKITTI物镜/轨道[3]第一章2012AD2D-3D BBSSVTRECVID [11]2013央视行动XGTFCOCO [1]2015一般2D BB,PL-90JSON城市景观[4]2016ADPL-35PNG、JSON辛西亚[5]2016ADPL-11PNG,文本马皮亚里-维斯塔斯[6]2017ADPL-66PNG MBDD 100K [12]2017AD2D BB,PLPNG、JSON[13]第十三话2017一般二维BBCSVAD20K [8]2018一般PL-++PNG、CSV阿波罗景观[14]2018AD2D BB,PLPNG、JSONnuScenes [7]2018AD3D BBJSONLyft 5 [15]2019AD3D BBJSONBLVD数据集[16]2019AD3D BBTXTWaymo [17]2019AD2D-3D BBProtobuf[18]第十八话2019AD动作,3DCSV提高了实时提供有关场景的有价值数据的能力。因此,对地面实况生成的投资也显着增长,创建了一个非常有价值的新型数据标签公司,以构建可用于训练有效的机器学习模型的资产,这些模型可以自动从数据中提取信息(例如检测行人,汽车等)。此外,注释可以采取地面实况内容的形式,然后可以使用地面实况内容来评估现有方法在特定情况下的性能(例如,在城市或多雨环境中的检测率)。在这项工作中,我们描述了视频内容描述(VCD),注释格式和一套工具,旨在覆盖一个结构化的注释模型,使标签复杂的多传感器数据集的各种应用领域(如汽车,监控,医药,体育)的缺席。2. 相关工作本节概述了具有不同注释类型的代表性数据集(标记了什么),然后探讨了现有或常用的注释格式(如何标记)。2.1. 数据集和注释类型在表1中,我们介绍了代表性的开放数据和注释复杂性。正如我们所看到的,注释通常由图像图元组成,例如2D边界框,多边形[4,19]或像素级遮罩[4,5,8,12,19,20](以PNG图像的形式)或3D元素(例如长方体等)。[7、17、21]。动作或事件通常不标记为时间间隔,而是作为附加到每个样本(图像或点云扫描)的标签[18]。一些例外是来自监视域的数据集,其也标记具有一定语义负载的动作[9,11]。此表的分析说明了注释类型的多样性我们可以得出结论,注释系统将在互操作性和标准化方面受益于单个注释语言,该注释语言聚合所有可能类型的注释,范围从图像级边界框和标签到时间动作,以 及 注 释 之 间 的 关 系 。 这 种 需 要 的 证 明 可 以ASAM e.v.OpenLABEL标准化项目将于2020年启动,旨在聚集来自汽车行业的专家,dustry来定义用于构建AD函数的注释模型、格式和分类法。2.2. 数据注释格式正如我们在表1中看到的,注释格式没有约定。大多数数据集定义了非标准的、特定于任务的注释格式,缺乏可扩展性、兼容性或实时流。CSV(逗号分隔值)和其他文件夹-文件注释模型在存储方面确实有效,但严重缺乏扩展或更新注释的能力:对模型的任何对于像素级注释,PNG图像似乎已被选为最佳选择,因为它们能够有效地压缩纯色信息(例如15-一个简单的RGB代码表就足以检索像素的标签。但是,更高级别的分析可能需要根据形状的几何形状、大小或相对于其他对象的相对位置来查询形状。此信息不包含在PNG注释中,因此每次访问信息时都需要额外的计算工作。基于多边形的注释部分地解决了这个问题,来自多个领域的数据集,包括最近流行的AD(自动驾驶)域,特别有趣的是它的1 https://www.asam.net/project-detail/scenario-storage-and-labelling。Marcos Nieto、Orti Senderos和Oihana Otaegui软件X 13(2021)1006533表2注释格式特性比较: * JSON、XML、Google Protobuf。格式模式序列化模式2D对象3D对象嵌套属性。帧间隔本体行动关系Pascal-VOC [2]没有XML图像是的没有没有没有没有没有没有COCO [1]是的JSON图片是的没有没有没有没有没有没有[11]第十一话是的XML视讯是的没有没有多没有是的是的nuScenes [7]是的DB多传感没有是的没有单个没有没有没有VCD(我们的作品)是的多个 *多传感是的是的是的多是的是的是的生成更大的注释文件(例如,平均270 KB/图像,CityScapes-fine数据集[4])。JSON已经开始被广泛使用[4,7,22]。它提供了与XML内容类似的属性,但具有额外的特性,使其成为描述注释的理想选择。也就是说,JSON专注于数字和文本,与现代面向文档的数据库兼容,并且在不同的编程语言中存在非常有效的解析器,包括JavaScript,Python和C++。最近的数据集,因为是非常大和复杂的,往往包含文件夹结构与场景数据集定义时间戳或有关CAN信号、里程或GPS数据的其他信息的索引文本文件,而注释则被描述为CSV文件[21]。没有一个集中的注释文件来方便地检索信息,也没有注释和数据之间的分离。在nuScene数据集[7](也用于Lyft 5数据集)中可以找到一种复杂的格式,它包括一个完整的标签层次结构该格式旨在标记3D长方体,并为不同的传感器提供时间戳信息然而,该格式不适合于标记动作或元素之间的语义关系。注释中嵌入的标记保证了所使用的不同JSON文件之间的一致链接,但代价是增加了大量存储开销。总之,这些数据集定义了定制的、特别的注释格式,与简化访问和消费的开发工具包一起呈现,但不适合于扩展、与其他数据集的互操作(例如,融合或聚合),也不适合于对注释的长期操作(例如,在注释的稍后阶段中为帧间隔添加动作标签)。在表2中,我们总结了表1中至少两个数据集使用的注释格式的描述特征。3. 软件描述VCD主要被定义为数据字段的结构(参见图1和图2中的模式说明)。3)。为此,我们使用JSON架构来定义结构。2此外,我们还创建了一个VCD Python API来管理VCD有效负载(即load、modify、serialize)保证遵循schema,以及一些转换工具。其他API可以用其他语言构建(例如,我们也在代码库的开发分支中实现了一个Typescript版本),感兴趣的用户也可以编写自己的API,唯一的要求是生成对JSON模式有效的JSON内容。元素、框架和流是VCD的三个主要概念。 2)的情况。这些概念允许描述丰富的场景,它可以完全地(作为文件序列化)或逐帧地(作为消息)显示,清楚地将静态信息与动态信息分开,对每帧和每流的信息进行结构化,这样可以在不同阶段添加、查询和管理注释,并且可以连贯地合并、更新和比较VCD2 VCD结构也可以用其他语言描述。我们还使用Google Protocol Buffers创建了一个VCD proto文件。3.1. 元件元素3是注释的主要容器。它们可以是对象、动作、事件、上下文和关系。 它们中的每一个都具有唯一标识符(UID)、名称和语义类型,语义类型可以使用URI指向本体中的概念。元素可以包含静态信息,也可以包含与特定帧或帧间隔相关联的动态信息。对象:包含可以表示数值大小的信息,例如2D边界框、3D长方体、多边形、点或表示任意信息的任何数字数组(例如,车辆在给定时刻转向角度和速度动作:时间元素,其表示语义情况,诸如一个或多个对象的活动或动作,用可以是本体项的URI的文本串描述(例如,#PersonRunning)。事件:触发某个动作 或某个对象出现的时间点(例如#PedestrianStartsWalking),可用于链接序列中的动作上下文:场景的任何其他非空间或非时间的附加信息,与对象或动作不直接相关,但增加了注释的语义负载:例如#Raining、#Night等。关系:元素%s可以通过关系%s连接。这种类型的注释遵循RDF三元组定义,它描述了一个rdf:subject,一个rdf:predicate和一个rdf:object。在VCD中,RDF条目对于同一个谓词可以有任意数量的主语和宾语。任何VCD元素都可以 是 rdf : subject 或 rdf : object , 具 体 取 决 于 rdf :predicate。这种类型的注释对于识别场景的参与者及其语义含义以及容易且快速地检索场景的元素。例如,可以表示行人或一组汽车是某个动作的参与者,例如“#PedestrianCrossing”或“#isOvertaking”。从传感器对物体的观察可以产生各种数值描述符。与许多其他描述语言,主要集中在一个单一的类型(例如,边界框),VCD允许添加所需的描述符,具有各种类型,使得能够注释任何类型的信息。为此,对象包含任意数量的ObjectData。ObjectData是数字实体的抽象类,如边界框、多边形、点、圆和数字的通用数组每个ObjectData都可以命名为在Object内部添加语义描述(例如,边界框其他ObjectData用于通用目的。 例如,vec可以用来定义任意长度的数组,用于表示对象的某些几何形状或物理属性的大小。这种灵活的ObjectData概念对于分配幅度空间非常有用,可以从3 在这篇手稿中,我们使用PascalCase符号的概念定义在VCD模式更好的可视化。VCD JSON模式遵循snake_case表示法。4https://www.w3.org/TR/2014/NOTE-rdf11-primer-20140624/。Marcos Nieto、Orti Senderos和Oihana Otaegui软件X 13(2021)1006534±±图二. VCD图三. VCD JSON模式:(左)vcd对象也有ObjectData数组。其他,例如到其他边界框的距离,颜色,深度等。VCD API允许添加,删除和合并Object内部的ObjectData此外,任何ObjectData都可以包含属性,这些属性也是num、vec、text或bool类型的其他ObjectData。此功能对于向注释添加属性非常有用,一些数字(例如置信水平)、文本(例如描述)或布尔值(例如可见或不可见)。3.2. 格式和工具我们已经将VCD实现为JSON模式和Google Protocol Buffersproto文件。已经创建了一个Python API这个实现可以在github仓库中找到,5并且可以使用pipinstallvcd安装VCD。文件也可以在网上找到。6存储库包括丰富的测试组7,其产生用于不同用例(多对象、多传感器、时间戳、动作和关系、本体、在线操作等)的若干VCD示例。4. 说明性实例在本节中,我们将介绍可以应用VCD的不同示例用例。在代码库的/tests/etc文件夹下也可以找到一组超过40个VCD JSON文件。4.1. 边界框和长方体注释最广泛的用例是图像[1,2,12,13]或3D长方体[7,21]中的2D边界框(矩形)VCD5 https://github.com/Vicomtech/video-content-description-VCD网站。6 https://vcd.vicomtech.org/documentation/documentation-vcd网站。7 https://github.com/Vicomtech/video-content-description-VCD/tree/master/测试表3不同bbox和cuboid数据集的注释大小与V C D JSON和Proto文件。来源(MB)VCD JSON(MB)VCD Proto(MB)市中心(CSV)5.4211.174.26KITTI对象(SSV)9.5220.977.35KITTI跟踪(SSV)8.7917.306.97nuScenes(JSON)2481.32891.83592.88提供了对bbox和cuboid的支持,ObjectData。对 于 测 试 , 我 们 考 虑 了 三 个 不 同 的 注 释 数 据 集 : ( i )TownCentre [10],每个人(身体和头部)包括2个边界框,(ii)KITTI对象和跟踪[3],具有嵌套属性的2D和3D边界框,以及(iii)nuScenes [7],其大量数据和多传感器设置(来自850个场景的约140万个3D立方体,每个20秒通过这四种情况,我们证明:(i)VCD能够将多个边界框关联到单个对象,(ii)它可以使用其原型模式压缩标签表示,以及(iii)可以封装不同类型的ObjectData在对象%s中。我创造了翻译者,格式的数据集,并已将其转换为VCD JSON和Proto文件。表3显示了所生成文件的比较。正如预期的那样,VCD JSON格式比普通的CSV和SSV格式更大,因为添加了额外的头来组织内容,而VCD Proto文件由于其二进制化而更小。在nuScenes JSON格式的情况下,我们可以观察到VCD JSON 和 VCD Proto 都导致较小的文件。原始 JSON 格式的nuScenes平均每场景2.92 MB,VCD JSON为1.05 0.30 MB,VCDProto为0.700.20 MB.主要原因可能是nuScene数据结构中使用的标记增加了开销,以保持元素作为关系数据库链接。Marcos Nieto、Orti Senderos和Oihana Otaegui软件X 13(2021)1006535×表4文件大小的平均值和标准差比较源文本和PNG文件与VCD JSON和VCD JSON压缩与无损Freeman链代码编码。在实验中,我们从每个数据集中随机选择了100张图像,重复测试10次并汇总所有值。 相同的PC(8GBRAM,Windows10,英特尔®酷睿TMi5- 8250U@1.6 GHz)。4.2. 像素级注释一百四十五20± 23三十九三十九。56± 8。 912101± 7。94-59 23± 8。3130190± 4421据我们所知,没有任何注释模型可以满足所有这些需求,而VCD的设计目的是逐像素注释,通常称为语义注释[20],确定图像的每个像素的类(和实例编号,在某些情况下)。这些注释通常以PNG图像的形式提供,或者以多边形组的形式提供,每个多边形组由一组点定义。在像素级数据集中,我们选择了Cityscapes [4],SYNTHIA [5]和Mapillary Vistas [6]来比较像素级信息的两种可能表示:(i)PNG图像,(ii)多边形列表。表4显示了不同源格式和VCD JSON文件的生成注释文件的平均大小(我们已经包含了一个VCD JSON版本,其中多边形坐标使用Freeman链码无损压缩的变体进行压缩[23])。正如我们所看到的,由于VCD JSON的一般紧凑性,与PNG光栅内容相比,VCD注释在粗略的Cityscapes注释上实现了相当的大小,而精细注释和Mapillary的大小约为两倍(主要是因为注释的极端细节和非常大的图像分辨率)。VCD JSON的无损压缩使其在任何情况下都比PNG更小用于存储语义注释的VCD的一个有趣的特性是,可以非常有效地从多边形中检索信息,因此可以为某些目的创建轻量级、类特定的VCD相比之下,PNG图像每次都需要使用图像分析工具进行处理以重新获取此类信息。例如,使用OpenCV的findContoursPython 函 数 读 取 和 处 理 Mapillary-Vistas 类 和 实 例 PNG 图 像(4032 3024像素),读取和解析等效的VCD JSON文件并检索所有多边形需要24.93 ms当以绝对坐标描述多边形时,使用Freeman链码无损压缩算法时为167.55 ms秒。总之,使用VCD JSON比PNG更适合存储和后处理计算需求。5. 影响和可持续性汽车行业正急于使用多传感器解决方案创建自动驾驶(AD)功能。标记这样复杂的数据集正在成为一个额外的和意想不到的挑战,这就需要一个强大的,灵活的和有效的注释格式。这种格式的一些要求是:• 多相机和多传感器记录• 管理事件同步• 车载处理单元• 链接到基于本体的语义• 可扩展性和可伸缩性(良好的搜索功能)满足他们,并提供与标签任务相关的实用工具。与第2节中描述的方法相比,所提出的VCD格式更丰富和灵活,因为它可以托管来自多个传感器的内容,同步信息,并描述对象的静态和动态属性,包括作为时间实体的动作,以及元素之间的语义丰富的关系。此外,VCD使用链接到本体的数据条目,本体定义类的分类、可能的属性和类之间的VCD结构还允许在单个JSON文件中标记整个场景,使用整数唯一标识符来快速访问关于元素、帧等的信息。实体.VCD可以标记语义概念,超越了传统的对象级注释概念,增加了标记动作、属性和关系(以RDF三元组的形式)的可能性。此外,VCD结构具有良好的多传感器设置属性,例如内部参数、外部姿态、odom-tone值和时间戳。由于VCD具有在线特性,因此可以将其用作开放语言,以在多传感器应用程序的组件之间交换消息(例如,在RTMaps或ROS框架内),从而允许交换定制的概念,包括对象、动作、关系。VCD已在Cloud-LSVA、VI-DAS等H2020项目中用作标签和消息格式并且目前由汽车行业的私人标签公司使用VCD最近已经开源,旨在与汽车行业的标签公司相比,覆盖更广泛的用户群体。VCD原则正在研究中,并被提出来塑造最近开放的标准化项目OpenLABEL。6. 结论在本文中,我们提出了视频内容描述(VCD),作为一种注释格式,适合于将图像和视频注释创建为空间和时间元素,例如对象、事件、动作、上下文及其语义关系,关系VCD是专门为大规模录像而设计的注释,在自动驾驶或监控等领域,需要大量注释来创建机器学习算法的地面实况和训练集。此外,VCD结构经过精心设计,以支持复杂的注释类型,例如嵌套属性,多流数据和紧凑的多边形表示,实际上支持任何类型的注释用例。已经提出了许多用例,这些用例展示了VCD可以处理的不同类型的注释。已经提供了与已知数据集上的现有注释的比较,证明VCD内容可以从现有注释创建,并且所产生的注释与源注释相等或更紧凑。VCD JSON模式和Python API已经开源,可以在MIT许可下使用。源文本(KB)PNG(KB)VCD JSON(KB)VCD JSON (KB)城市景观粗城市景观细合成Mapillary38岁33 ± 6。291407年28 ± 167。57三十六。49 ±4。70四十六90 ±1212六、74 ± 1。64一百零三90 ±1189五、79 ± 2。1913岁63 ± 3。64四十七79 ± 5。7642岁64 ± 8。21Marcos Nieto、Orti Senderos和Oihana Otaegui软件X 13(2021)1006536CRediT作者贡献声明马科斯·涅托:概念化,方法论,软件,写作-原始草稿,形式分析。Orti Senderos:数据管理、可视化、验证。Oihana Otaegui:资金获取,项目管理。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作这项工作部分由欧盟委员会在地平线2020研究和创新计划下资助(赠款协议编号688099,Cloud-LSVA项目)。引用[1] Lin T-Y ,Maire M ,Belongie S,Hays J, Perona P,Ramanan D,et al.MicrosoftCOCO : Common objects in context. In : Fleet D , Pajdla T ,Schiele B , Tuytelaars T , editors. 计 算 机 视 觉 - ECCV 2014 。 SpringerInternationalPublishing; 2014,p. 七四零比五十五[2] [10]张文辉,张文辉,张文辉,张文辉. PascalVisualObject Classes(VOC)Int J Comput Vis 2010;88(2):303[3] 张文辉,张文辉,张文辉.我们准备好自动驾驶了吗?KITTI视觉基准套件。计算机视觉和模式识别会议(CVPR)。2012年。[4] Cordts M,Omran M,Ramos S,Buckfeld T,Enzweiler M,Benenson R,et al. The cityscapes dataset for semantic urban scene understanding.输入:程序 IEEE计算机视觉与模式识别会议(CVPR)2016.[5] [10]李文,李文,李文. SYNTHIA数据集:用于城市场景语义分割的大量合成图像。IEEE计算机视觉和模式识别会议(CVPR)。2016年。[6] Neuhold G,Ollmann T,Rota Bulgaria S,Kontakeder P.用于街道场景语义理解的地图视图数据集。国际计算机视觉会议(International Conference onComputerVision,ICCV)2017年,https://www.mapillary.com/dataset/vistas。[7]Caesar H,Beijbom O,Bankiti V,Lang A,Vora S,Dicle C. 酒神2018年[8]Zhou B,Zhao H,Puig X,Fidler S,Barriuso A,Torralba A.通过ADE 20k数据集进行场景解析。2017年。[9]Blunsden S,Fisher RB. BEHAVE视频数据集:多人地面真实视频。2009年[10]本福德湾里德岛实时监控视频中稳定的多目标跟踪。在:CVPR。2011年,第3457-64[11]Over P , Awad G , Michel M , Fiscus J , Sanders G , Kraaij W , et al.TRECVID 2013 - an overview of the goals , tasks , data evaluationmechanisms and metrics. 见:TRECVID 2013会议记录,NIST,美国。2013年。[12]Yu F,Xian W,Chen Y,Liu F,Liao M,Madhavan V,et al. BDD 100k:Adiversedrivingvideo database with scalable annotation tooling. 2017年。[13]Real E , Shlens J , Mazzocchi S , Pan X , Vanhoucke V. YouTube-BoundingBoxes:用于视频中对象检测的大型高精度人工注释数据集。2017年,arXiv:1702.00824。[14]Huang X , Cheng X , Geng Q , Cao B , Zhou D , Wang P , et al. Theapolloscapedatasetfor automated driving. 2018年,CoRR abs/1803.06184。[15]Houston J,Zuidhof G,Bergamini L,Ye Y,Jain A,Omari S,et al.《一千零一小时:自动驾驶运动预测数据集》。2020,arXiv:2006.14480.[16]Xue J,Fang J,Li T,Zhang B,Zhang P,Ye Z,et al. BLVD:Building Alarge-scale 5D semantics benchmark for automated driving. In:Proc.机器人和自动化国际会议,第6685-6691页,2019年。[17]Sun P,Kretzschmar H,Dotiwalla X,Chouard A,Patnaik V,Tsui P,etal. Scalability in perception for autonomous driving:Waymo open dataset.2019年,arXiv:1912.04838。[18]Martin M , Roitberg A , Haurilet M , Horne M , Reiffel S, Voit M 等 ,Drive& act : A multi-modal dataset for fine-grained driver behaviorrecognitioninautonomousvehicles.IEEEInternationalConferenceonComputerVision(ICCV)2019年。[19]Russell BC,Torralba A,Murphy KP,Freeman WT. Labelme:一个数据库和基于网络的图像注释工具。Int J Comput Vision2008;77(1-3):157-73.[20][10] Nowadays A,Nowadays A,Nowadays A,Nowadays B,NowadaysA,Nowadays B. 街道场景中通用目标跟踪的多尺度目标候选。In:ICRA.2016年。[21]Patil A,Malla S,Gang H,Chen Y-T. 用于拥挤城市场景中全环绕3D多目标检测和跟踪的h3D数据集。在:机器人和自动化国际会议。2019年。[22]李新,杨永,熊宏,Braun M,潘S,等.一种新的基准测试方法用 于 基于视觉的骑自行车者检测。IEEE智能车辆研讨会。2016,p. 1028-33[23]弗里曼·H关于任意几何构形的编码。IRETrans on Elec Comput1961;10:260-8.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功