没有合适的资源?快使用搜索试试~ 我知道了~
17316SelfD:从Web自学习大规模驾驶策略季慕阳张瑞钊朱埃谢德奥恩-巴尔波士顿大学{zhangjim,rzhu,eohnbar} @ bu.edu图1. 从未标记的数据中学习有助于可扩展的导航决策。 我们的目标是开发强大的,通用的,易于部署的决策政策的导航。我们的关键见解是利用来自网络的免费和高度多样化的导航数据,以增强最初训练的导航策略的知识和鲁棒性摘要有效地利用在因特网上可免费获得的大量以自我为中心的跨视角、平台、环境条件、场景和地理位置稳健地然而,直接利用如此大量的未标记和高度多样化的数据进行复杂的3D推理和规划任务是困难的。因此,研究人员主要关注其用于各种辅助像素和图像级计算机视觉任务,这些任务不考虑最终导航目标。在这项工作中,我们介绍了SelfD,一个框架,用于学习可扩展的驾驶,利用大量的在线单眼图像。我们的关键思想是在从未标记数据中学习模仿代理时利用迭代半监督训练。为了处理不受约束的视点、场景和相机参数,我们训练了一个基于图像的模型,该模型直接学习在鸟瞰接下来,我们使用unla-beled数据来增强决策知识和鲁棒性的初始训练模型通过自我训练。特别是,我们提出了一个伪标签的步骤,使- ables充分利用高度多样化的示范数据,通过我们采用公开的YouTube视频的大型数据集来训练SelfD,并全面分析其在具有挑战性的导航场景中的通用化优势。在不需要任何额外的数据收集或注释工作的情况下,SelfD在nuScenes、Argoverse、Waymo和CARLA上的驾驶性能评估中表现出一致的改进(最高可达24%)1. 介绍我们如何在复杂和动态的环境中学习通用模型来实现鲁棒的基于视觉的导航?虽然人类可以毫不费力地跨设置和平台转移一般导航知识[36,46,52,53],但导航代理的当前现实世界开发通常部署在固定的预先假设的设置中(例如,ge-17317地理位置、用例)和仔细校准的传感器配置。因此,每个自治用例通常需要自己的禁止性数据收集和特定于平台的注释工作[4,6,19,56,79]。由于这样的开发瓶颈,各种开发人员内部训练的脆弱导航模型(例如,特斯拉很容易被现实世界导航任务的极大复杂性所混淆,例如,罕见的场景,新的社会环境,地理位置和相机安装扰动。然而,每一分钟,大量高度多样化和免费提供的以自我为中心的导航数据包含这样的场景被上传到网络上。在本文中,我们致力于有效地利用这些免费提供的演示数据,以提高效率,安全性和可扩展性的广义现实世界的导航代理。使用大量无约束和无标签的在线数据来训练鲁棒的基于视觉的导航策略存在两个关键挑战。首先,虽然可以在各种布局和相机设置中收集在线图像,但现有的基于单眼的预测和决策方法往往依赖于平面场景[22,70]和已知相机参数[13,28,41,55,59,71,77]的限制性假设。对于一个数据集和平台无关的导航代理,我们提出的架构并不明确依赖于这样的假设。其次,由于安全关键的要求,在复杂的导航设置中学习决策的方法通常也假设可以访问具有清晰注释的高度策划的基准[4,7,10,13,17,20,26,33,64,74]。因此,当从未标记的和不同的互联网视频学习时,必须重新审视这些方法,例如,[74 ]第74话:为了有效地利用这些数据,我们建议利用迭代半监督学习的最新进展[8,38,60]。然而,由于这些技术是在像素和图像级任务中研究的[14,29,41],因此它们在学习复杂和安全关键的3D推理和规划任务方面的效用还没有得到很好的理解。贡献:受人类如何能够使用在线视频有效地学习和适应各种技能的首先,为了便于从不受约束的图像中学习,我们开发了一个模型,用于将单目观测直接映射到鸟瞰而不需要照相机校准)。其次,我们介绍了一种新的半监督学习方法,它通过“假设”数据增强来实现自我训练我们证明了建议的采样步骤是必不可少的,利用高度多样化的示范数据。第三,我们进行了一组新颖的跨数据集实验,以分析初始训练的决策模型使用最小关于基础数据的假设。我们在具有复杂导航和恶劣条件的各种数据集上进行评估,以展示最先进的模型泛化性能。2. 相关工作观察模仿学习:我们的关键思想是利用容易获得的在线以自我为中心的导航数据的规模和多样性来学习鲁棒的条件模仿学习策略[13,17]。虽然从标记的演示中学习可以显著简化挑战性的基于愿景的策略学习任务[3,6,11,12,30,31,39,42,47,48,52,56,58,78,81,82],在我们的设置中观察到的图像因此,我们致力于推广当前的条件模仿学习(CIL)方法[13,17,18],从未标记的图像观察中学习可以在复杂城市场景中导航的智能体。为了解决这个具有挑战性的观察学习任务,先前的工作最近探索了引入各种限制性假设,包括访问手动设计的奖励函数[9],用于策略数据收集的交互式环境[66]或演示器最优性[66,67]。此外,由于我们的设置中的不受约束和动态场景,学习逆模型[9,65从观察序列中恢复动作的视觉里程计任务)变得具有挑战性并且可能导致噪声轨迹。为了便于从不同的数据源进行可扩展的训练,我们提出的半监督学习方法没有利用这些假设。尽管如此,我们得到的模型也可以用于引导其他方法进行政策培训,例如,基于模型或无模型的强化学习方法[12,42,51,68]。导航的半监督学习:CIL一般涉及从人类专家的已知动作中学习[17,18,58],这不适用于我们的设置。然而,最近的工作陈等人。[13]利用多阶段训练步骤,其中特权(即,‘teacher’) CIL agent is 'student')visual CIL代理。由于特权代理在训练和测试中获得了关于世界的广泛的地面真实信息,因此它产生了高度可信和干净的轨迹。相比之下,SelfD利用了与教师和学生相同的可视化架构。我们还在固有的噪声设置中进行训练,因为教师推理是在不同的分布外图像数据上执行的,而不是在原始训练数据集上执行的。因此,我们的方法超越了先前的政策蒸馏方法,以处理教师模型的监督可能是潜在的噪音和不安全的情况。我们还注意到这种蒸馏和通过伪标记的半监督训练之间的关系[8,38,43,60,62]。然而,就我们目前而言,17318∈∈YX → Yi=1θL∈D{}i=1我们意识到,我们是第一个开发基于伪标记的自我训练方法的人,用于从具有不同导航数据、相机视角、地理位置和天气的复杂场景中学习安全驾驶策略。相比之下,先前的工作[38,60]强调图像和对象级识别任务的半监督学习[8,76]对于复杂的决策任务的实用性有限,如第二节中进一步讨论的。4.第一章自我监督视觉学习:我们的方法旨在直接利用来自大量未标记视频数据的经验来学习复杂的3D导航。我们提出的半监督框架的另一种方法涉及从大型未标记数据中学习视觉表示[15,27,29,32,44,45,54,63]。然后,这些通用表示可以被转移到策略学习任务[29]。然而,从未标记数据中学习视觉表示通常依赖于各种辅助图像级数据增强策略[2,50,72,80],例如,拼图或着色[29]任务,这是间接的最终导航任务。因此,这样的方法在用于动态设置中的精细空间导航任务方面是有限的。事实上,基于图像增强的方法在简单静态环境(例如,[29]这是一个有待验证的问题,自动驾驶。相比之下,SelfD的学习和增强策略直接优化BEV(地图)规划。此外,我们的方法与上述研究正交,因为间接视觉任务可以在提出的自监督伪标记步骤之前作为进一步的预训练。3. 方法我们的目标是促进大规模培训驾驶政策为了有效地利用大量未标记视频中广泛而多样的体验,我们遵循三个主要步骤。我们首先建议使用一个单目图像为基础的行为克隆计划,原因直接在BEV(节。3.3)。因此,我们提出的规划器可以更好地概括任意的观点。接下来,我们介绍了一个数据增强步骤,用于在未标记的互联网数据上进行自训练时获得多个可行的伪标签(第二节)。第3.4段)。最后,我们在更大的数据集上重新训练模型,以学习更强大和更通用的基于视觉的导航策略(第二节)。3.5)。3.1. 问题设置我们考虑从观察中学习的任务x=单个前置摄像头图像I∈RW×H×3的(I,v,c)∈ X,TLE)或相对于自主交通工具的期望的未来轨迹在BEV(地图)空间中的K个航路点y[13,47在后一种情况下,未来的路点可以与手指定或学习的运动控制器配对,以产生低级动作[13,47]。在这项工作中,由于其可解释性和通用性,我们专注于后一种表示[47]。因此,我们的目标是获得具有可学习参数θ的航路点预测函数fθ:Rd,即,决策政策。不失一般性,我们将在Sec中稍微增加该函数的输出空间三点三接下来,我们将基于驾驶政策学习的最新进展,特别是CIL [13,17,18],开发一种从未标记数据学习驾驶的通用方法条件模仿学习:导航演示可以通过记录手动操作系统的传感器数据来收集,这是研究人员和开发人员经常做的。 这样的演示可以通过各种学习技术用于培训决策政策[1,4,16,17,52,56,61]。在其最直接的实现中,训练映射函数fθ可以通过i.i.d.数据假设[5,56]。可以通过超越这些方案来训练更稳健的策略,例如, 通过在线和互动学习策略[52,57,61]。在我们的工作中,我们利用离线演示,并不假设访问交互环境。尽管如此,我们提出的数据增强技术在第二节。3.4可以显着提高政策的鲁棒性,如将在第3.4节中所示4.第一章给定一个收集的观测和相应动作的数据集,=(xi,yi)N,监督训练可以通过优化模仿目标来实现minimizeE(x,y)<$D[L(y,fθ(x))](1)作为合适的损失函数,例如,到航路点目标的回归距离为L1尽管在学术界[18,34,75]和工业界[4,6]中广泛使用,但标准CIL公式显著限制了可扩展性。具体而言,模仿学习的方法通常需要直接访问最佳目标动作标签。因此,它们不能用于从在线上传的大量和多样化的未标记数据中学习。从观测中进行条件模仿学习:为了在包含不同导航经验的演示中充分利用未标记数据,我们开发了一个从观测中进行条件模仿学习的(CILfO),即,假设仅具有U={I}M形式的数据。自车速度v∈R,和一个分类导航ii=1命令cN(例如, [2017 - 12 - 17][2017 - 12 - 17][2017 -12][2017- 01 - 17 ][2017 - 01][2017 - 01 - 17]我们的智能体学会将这些观察映射到导航决策。一般来说,决定可以是在这个更普遍但更困难的学习任务中,一个关键的挑战在于重新选择合适的标签标签、图形命令和速度来构建数据集。低级车辆控制动作[18](例如,转向,油门-D={(Ii,vi,ci),yi)}M(二)17319ULE∈RLDX → Y×RDU其中,1然后可以用于训练策略。初始数据假设:为了解决挑战性的CILfO学习任务,我们的关键思想是利用一个小的标记数据集,使用人类专家演示来学习初始策略映射。然后,我们从这个训练函数中采样,以获得未标记数据上的伪标签[38]。考虑到有几个公开可用的驾驶数据集包含行动标签,这种假设是合理的[7,26,33,73]。或者,可以最初收集具有新平台设置或用例的初步数据集顺序数据假设:我们注意到,尽管在我们的消融中使用了顺序视频数据,但我们的通用和可扩展CILfO公式并不假设可以访问时间数据。原因有三方面。首先,虽然顺序观察可能有利于消除各种决策因素的歧义[21],但学习时间感觉运动驱动策略的一般化结果并不确定[21,48,70]。其次,虽然在大多数先前的观察模仿学习设置中假设了顺序数据[9,66],但恢复了潜在的演示动作(例如,在任意场景中使用单目视觉Odom [71])是具有挑战性的。由于在顺序动作恢复中的困难和噪声,我们在第二节中提出的单帧公式。3.2被证明是显着的,cantly优于这些基线在第3.2节。4.第一章第三,我们不对未标记数据集中的演示的最优性做任何假设[49,67]。因此,我们的广义方法适用于从具有复杂场景、环境条件、任意视点和不同演示质量的视频中进行可伸缩学习。由于我们的学习任务远远超出了现有CIL和观察方法的能力,我们接下来开发了一种通用的训练方法,用于利用无约束和无标记的演示数据。3.2. SelfD概述通过半监督策略训练过程,我们提出的SelfD导航策略模型可以通过三个总结步骤进行学习:1. 使用一个小的、标记的特定于领域的数据集,通过模仿来学习初始观测到BEV策略fθ。2. 通过利用f θ的采样来获得一个大型伪标记数据集。3. 在D上预训练广义策略fθ,并在D的干净标签上进行微调。请注意,我们在整个步骤中重复使用参数符号θ以简化符号。我们的迭代半监督训练能够有效地增强初始训练策略的知识和鲁棒性。所述接下来,我们提出的初始步骤通过在BEV规划空间中直接推理来促进在后续训练步骤期间学习3.3. BEV计划网络在本节中,我们提出了一个合适的输出表示,以考虑任意相机,视点和场景布局。当前的单目规划者通常预测图像平面中的航路点以与输入图像对准[13,47]。然后,使用仔细校准的相机内在和外在(例如,旋转,高度)参数[13]。因此,策略模型通常在固定的预先假定的设置内进行训练和评估。相比之下,SelfD预测由BEV计划空间中的航路点直接参数化的未来计划根据我们在SEC的实验。4,我们证明这种选择是至关重要的现实世界的规划设置。预测的广义BEV路点可以与低级控制器配对,例如,PID控制器[13,47]。由于学习单眼到BEV计划映射的困难,我们遵循最近的置信度感知学习[37]来训练增强模型fθ:质量估计σ.我们的训练损失函数等式1定义为L=L计划+λL质量(3)其中,plan是地面实况和预测航路点之间的L1距离,quality是二进制交叉熵损失[37,76],λ超参数平衡任务。3.4. “What If” Pseudo-Labeling of Unlabeled给定一组未标记的图像,我们在半监督训练过程中从训练的条件策略fθ中采样虽然速度和fθ的命令输入可以通过视觉里程计技术恢复[71],但这些会导致在线视频设置中的高噪声轨迹4).由于我们数据中的演示可能不安全或难以恢复,我们建议利用单帧伪标记机制。我们的关键见解是采用条件模型fθ来生成多个假设的未来轨迹,这一过程被称为 除了解决丢失的速度和命令输入之外,我们提出的增强还提供了额外的监督,即,一个条件代理,更好地理由,它可能需要做什么,例如,如果它必须左转,而不是右在一个十字路口(图。2)。与政策学习和蒸馏[13]中的相关工作相比,从教师代理中进行采样更具挑战性,因为代理没有接触到关于世界的广泛3D感知知识,并且正在其训练设置之外进行我们对v和c均匀地重复采样,并依赖于条件模型来提供伪标签(y,σ)=17320DDDDD图2. “假设”伪标签。我们生成多个合理的未来轨迹(单位是BEV中的米)作为每个未标记帧的伪标签,通过从Sec中采样条件规划器。三点三我们描述了数据集中的两个场景,并对各种输入进行了推断。速度以米每秒为单位,条件命令可以是左(1)、前进(2)或右(3)。fθ(I,vθ,cθ)用于所有条件分支和速度观测的额外监督。通过这种方式,查询特别是,如第二节所 4,我们发现自我训练策略,以提供有限的泛化增益没有这个“如果”的数据增强步骤。这种增强策略使我们的单帧伪标记方法能够显著优于更精细的方法,以进行大规模训练,因为它们可能涉及依赖于来自视频的近似y轴、c轴和v轴的额外模块。最后,为了避免潜在的噪声轨迹,可以使用相应的质量估计来处理和过滤伪标记的数据集D。3.5. 模型预训练和微调作为最后的训练步骤,我们在大型且多样化的数据集上从头开始重新训练路点网络fθ。然后,可以在原始数据集上进一步微调预训练的策略,从而利用从训练中获得的额外知识来提高其性能。我们注意到,我们在两个数据集上使用单独的训练,并依赖于通过学习表示的知识转移,因为它减少了对超出整体学习率的任何仔细的超参数调整的需要。例如,Caine et al. [8]经验性地证明了在混合用于3D对象检测任务的数据集时微妙地优化标记数据与伪标记数据的比率的重要性,同时还显示出它在对象类别之间变化,例如,行人与车辆. 因此,通过预训练机制,我们避免了需要仔细混合干净的标记和伪标记数据集[8,63,76]。3.6. 实现细节我们利用最先进的条件感觉运动代理实现我们的BEV路点预测网络fθ[13]。然而,正如在SEC中所讨论的那样。在图3.2中,我们不假设固定的已知BEV透视变换。因此,我们去除了限制可伸缩性的固定视角变换层,并将其替换为每分支BEV预测模块(参见补充材料以了解附加实现和架构细节)。在培训期间,我们使用学习率为1e−3,图像大小为400 ×225。4. 实验4.1. 实验装置为了获得大量的驾驶数据,我们从YouTube上的热门驾驶频道下载了100小时的前视驾驶视频(跨城市,天气和时间,如图1所示)。在我们的真实世界评估中,我们使用nuScenes [7],Waymo [64]和Argoverse[10]数据集。虽然nuScenes是一个高度仪表化和注释化的数据集,但它主要用于感知任务,而没有未来航点规划的官方基准。Hu等人最近的工作。[35]使用随机分裂,但这不适合研究泛化(该方法也使用LiDAR输入,而我们不使用)。我们创建了一个基于地理的划分为nuScenes波士顿(nS-波士顿)和nuScenes新加坡(nS-新加坡),这是具有挑战性的,由于重大的域转移。为了进一步评估泛化,我们还利用了Waymo和Ar-goverse数据集,这些数据集是在8个不同的城市收集的。具体来说,我们从Waymo感知测试集和Argoverse3D跟踪训练集构建了未来航点预测基准。请注意,在我们的评估中,我们不假设任何对tar的访问,获取域的伪标签,这在相关的研究中是经常做的。总的来说 , 我 们 的 分 割 结 果 分 别 来 自 ns-Boston , ns-Singapore,Argoverse和Waymo的13K,11K,11K和26K开环真实世界评估将预测与复杂交互中的专家驱动程序进行比较(即,不同的机动、让步、合并、不规则交叉)。为了分析所提出的方法在闭环驾驶过程中的影响,我们进一步在CARLA中执行交互式策略评估[18,24]。我们在模拟中复制我们的训练设置,并通过采用PID控制器预测最终的低级别动作[13]。特别是,我们对来自Town 1的标记数据进行训练,并在常规交通中对Town 2进行评估(遵循NoCrash [18])。为了理解伪标记对闭环驱动指标的影响,我们保留了一部分训练城镇数据用于伪标记。该评估是在25个预-速度:5.24速度:10.12速度:0.05评分:0.48评分:0.6评分:0.97Cmd:Cmd:Cmd:速度:0.24速度:16.21速度:2.84评分:0.6评分:0.09评分:0.42Cmd:Cmd:Cmd:17321在四种不同的天气下,在城镇2中定义的路线,其中一个在注释数据中看不到。有关实验装置的更多详细信息,请参见补充资料。评估流程:我们遵循标准的开环评估流程,表1. 模型架构。CIL基线[13]预测图像中的航点,并依赖于具有已知相机校准的透视变换,而我们提出的单眼到BEV规划器无法访问相机内在或外在参数。所有模型均在nuScenesBoston上进行训练,并在nuScenes Singapore上进行评估。评估和使用平均和最终L2位移Er-未来航路点的误差(分别为ADE和FDE)在BEV[40]。我们还计算了碰撞率[34],该碰撞率测量了沿预测航路点的碰撞与其他车辆(我们只能计算这个指标在nuScenes和Argoverse上,由于为周围车辆提供了 在我们的卡拉实验中BEV规划师4.77C4.64C1.33我们还报告代理成功率(SR)、路由完成(RC)和冲突(Coll.)频率为10公里。4.2. 结果模型架构:我们首先分析了nuScenes跨城分割上提出的BEV规划模型架构。然后固定该体系结构用于后续实验。如表1所示,最先进的CIL模型[13]在跨城镇培训和测试分割上实现了1.86 ADE我们强调,CIL基线[13]预测2D图像中的航点,并通过透视变换将然而,这样的变换在现实世界中可能不准确。因此,我们可以看到BEV规划器的好处,甚至在应用伪标签技术之前。 我们提出的BEV规划器实现了1.14 ADE(与CIL相比,误差减少近40%)。鉴于nuScenes的先前工作主要依赖于基于LiDAR的非条件方法[34],我们还对模型的不同输入进行了消融。 直觉上,我们发现速度测量对BEV航路点预测至关重要我们提出的BEV规划器与速度和条件命令输入给出了最好的ADE性能的NS-新加坡。我们现在继续分析半监督学习步骤的好处,以提高策略性能。伪标记方法:我们考虑了利用未标记YouTube数据的各种方法(我们选择10个驾驶小时进行消融)。为了强调泛化,我们不对看不见的测试数据集进行伪标记,也不以任何方式将其未标记的样本纳入我们在所有测试集上报告了在最终微调步骤之前和之后在ns-Boston上的航点预测性能。如表2所示,在伪标记的YouTube数据上进行预训练并在干净的数据集上进行微调,可持续改善评估设置中的ADE,FDE和Collision指标我们看到如何将最先进的视觉里程计(VO)模型[71]作为SelfD的教师,而不是提出的伪标记机制,导致性能降低。为好转1.14在具有未知摄像机参数的动态场景中的摄像机运动是困难的,利用该模型导致噪声和不安全的轨迹。虽然我们发现利用时间数据的效用有限,但这可能会在未来通过改进的视觉里程计方法来缓解。随着这些方法对任意设置变得更加鲁棒,它们可以被集成以补充我们的方法,例如,以利用这两个推出以及拟议的数据扩充。我们还发现我们的预训练管道可以改进基于混合的方法[63]。假设增强:表2中的结果表明,在没有提出的数据增强的情况下,自我训练如何导致有限的增益。在这里,我们使用各种采样策略对速度测量和条件命令进行伪标记实验。除了统一和基于先验的采样(根据训练数据经验确定)外,我们还报告了使用视觉里程计[71]模型估计速度和连续性命令的结果我们发现均匀采样优于更知情的先验和基于视觉里程计的采样,因为它提供了广泛的速度曲线和多分支我们可以看到一个模型是如何通过自我训练学习的,但没有如此强大的增强(即,与基线BEV规划模型相比,没有表2中的假设的SelfD导致更差的性能,例如,1.18对比1.14 ADE和2.23对比2.16 FDE。我们还发现,增强,以提高安全的预测trajec-tories,减少碰撞率所示这在表5所示的闭环评估中得到了证实。概括到苛刻的设置:我们在数据集中最具挑战性的子集下对表3中的SelfD进行了压力测试,这些子集是由在某些环境条件下收集的视频片段选择的。有趣的是,我们发现SelfD可以有效地减少夜间条件下的错误 , 这 只 在 YouTube视 频 中 看 到 。 然 而 , 由 于 ns-Boston已经包含了一些多云和小雨的场景,Waymo对下雨条件的改进是模型指令速度ADE(米)CIL基线[13]C C1.8617322初始数据集方法NS-新加坡阿尔戈沃斯WaymoADE FDEBEV Planner 1.42 2.58SelfD(w/o FT)1.38 2.52SelfD(w/FT)1.18 2.23BEV Planner 1.08 2.03SelfD(w/o FT)1.13 2.14SelfD(w/FT)0.91 1.81表2.伪标签方法。 我们通过改变速度和条件输入的底层采样机制来比较各种伪标签方法。这些可以用视觉里程计来估计[71](即,没有“如果”增强的SelfD一致地或具有先验)。我们发现均匀采样作为数据增强的一种形式效果最好我们还使用最先进的视觉里程法的伪标签的基线进行比较注意,基于DVO的方法利用顺序视频数据,而其余的是单帧。“科尔。”是指碰撞率和“nS”到nuScenes(见第4.1)。方法NS-新加坡ADE FDE Coll. (%)阿尔戈沃斯ADE FDE Coll. (%)WaymoADE FDEBEV Planner(nS-Boston)1.142.169.501.072.1616.502.173.87SelfD(VO)4.638.0712.914.357.5431.875.169.02预训练SelfD(不带假设)1.322.4510.021.272.4613.922.434.28(YouTube)SelfD(What If-Prior)1.192.4010.011.122.3416.512.103.94什么是If-Uniform(英语:If-Uniform)1.192.2810.101.132.2815.702.244.01[63]第六十三话1.182.2212.021.102.2415.202.183.88微调(YouTube nS-Boston)SelfD(VO)SelfD(W/O WhatIf)SelfD(What If-Prior)1.091.181.092.092.232.109.339.349.471.031.091.002.112.182.0617.5216.2615.712.012.032.103.623.623.73什么是If-Uniform(英语:If-Uniform)1.001.939.300.992.0514.201.653.02表3. 适用于苛刻条件。我们分析了SelfD对从ns-Boston到特定环境条件的泛化的影响我们计算每个数据集内的域子集的性能。虽然对较大的nuScenes和Waymo拆分很有见地,但我们注意到,这种拆分导致Argoverse上的数据集很小,见解有限。方法NS-新加坡夜间ADE FDEArgoverseRainy ADEFDEArgoverseNight ADEFDEWaymoRainy ADEFDEWaymoNight ADEFDEBEV Planner(nS-Boston)1.673.050.811.710.781.610.701.281.813.25SelfD(预培训)1.733.170.841.850.941.940.771.421.963.55SelfD(微调)1.282.420.791.710.911.800.671.321.532.80表4. 初始训练数据集的影响。我们分析了不同数据集对训练初始BEV规划模型的影响。有限公司虽然我们显示了类似Argovorse设置的一致性和完整性结果,但我们的苛刻设置在极少数样本中分裂结果(特别是Argovorse Night)。因此,结果变得不那么有意义。虽然很有见地,但这个实验证明了获得不同注释数据的困难,进一步激励了我们的SelfD方法用于开发和现实世界的可扩展性。初始训练数据的影响:我们进一步研究了初始训练数据集在伪标记步骤中的作用以及由此产生的模型泛化性能,表5. CARLA中的闭环评价。我们分析了所提出的自训练步骤对成功率(SR)、路由完成(RC)和碰撞频率(Coll.)的闭环指标的影响。每10公里。方法ADE↓FDE↓SR(%)↑RC(%)↑Coll. ↓[13]第十三话0的情况。570的情况。661 .一、301 .一、32161266岁。88六十五6610个。7111个国家。33SelfD(城市1)SelfD(城市1 2)0的情况。560的情况。551 .一、301 .一、242526七十一8474岁5011个国家。51五、18表4.在这里,我们通过用Argoverse和Waymo替换ns-Boston 来 重 复 实 验 , 并 在 ns-Singapore 上 进 行 测 试(即,与表2直接比较)。我们保持所有超参数固定。虽然在不同数据集上训练的模型可能会对YouTube数据集上的伪标签产生不同的偏见,但总体而言,无论17323原始训练数据集如何,我们都发现了相似的per-turbation趋势。CARLA中的闭环评价:我们在表5中显示了我们对CARLA的分析。我们报告开环和闭环指标的完整性。在这个实验中,我们使用Town 1的注释部分来训练我们的BEV规划器,并在Town 2上进行测试我们注意到,虽然我们的CIL17324NS-新加坡Waymo阿尔戈沃斯FDE速度:1.73命令:2GT基线自我D图3. 定性结果。我们比较了BEV中的地面真实轨迹、基线模型(在nS-Boston上训练)和SelfD(在YouTube上预训练,在nS-Boston上微调结果显示在Waymo(左)和ns-Singapore(右)上。SelfD模型(绿色)由于提出的伪标记机制,在不寻常的情况下具有很好的泛化能力。我们还观察到改进的鲁棒性罕见的命令和速度输入。BEV计划图的单位为米2.552.041.531.02从网上的数据集。由于我们提出的自我训练管道有助于从大量数据中进行可扩展的学习,因此该模型可能会随着更多的YouTube数据而继续改进。但是,这需要在未来进一步研究,例如,相对于更大的网络容量。0.50 10 100YouTube未标记数据10 10 100YouTube未标记数据图4. 其他未标记数据。当伪标记的YouTube驾驶数据量增加到100小时时的结果。由于我们提出的自我训练管道有助于从大量数据中进行可扩展的学习,因此该模型可以通过额外的YouTube数据继续改进。基线受益于已知的固定透视变换假设,BEV规划者不知道摄像机参数,必须从数据中学习。当使用来自Town 01的伪标记数据训练SelfD时,我们的成功率几乎翻了一番,从12%到25%。使用最困难的闭环评估度量的模型性能的这种增加突出了所提出的方法的益处。我们进一步伪标记并用于预训练来自Town 2的未标记数据集(即,SelfD - Town 1和2),显示出在各个指标上驾驶性能的额外收益。该实验提出了多种方法,其中所提出的方法可以在现实世界的泛化和适应设置中被杠杆化。额外的YouTube预训练数据:虽然我们在消融分析中使用了10小时的YouTube数据, 我们提供的结果包含最多100小时的额外YouTube数据。图4所示的结果表明,通过更大和更多样化的预训练可以获得5. 结论我们设想广泛的和易于部署的自主导航系统。然而,对资源和数据的访问限制了当今脆弱的自治系统的范围。我们的SelfD方法能够显着改进初始训练的策略,而不会导致额外的数据收集或注释工作,即,对于新的平台、视角、用例或环境设置。至关重要的是,由于所提出的底层模型架构,我们不将公司相机参数或配置假设纳入单目推断。由于SelfD是自我改进的,未来的方向可能是继续从越来越大的在线数据集中学习,而不仅仅是我们的研究中所描述的虽然我们在模型开发中强调了有效的大规模训练最后,除了复杂的3D导航之外,探索我们提出的训练框架的适用性将是有趣的,该框架用于从未标记的Web数据中学习各种具体任务。致谢:我们感谢红帽合作实验室和BU信息与系统工程中心授予我们研究奖项。速度:4.86命令:1GT基线自我D速度:11.67命令:3GT基线自我DNS-新加坡Waymo阿尔戈沃斯Ade17325引用[1] 彼得·阿比尔和安德鲁Y Ng。通过反向强化学习的学徒学习。ICML,2004年。3[2] Yuki M Asano,Mandela Patrick,Christian Rupprecht,and Andrea Vedaldi.通过多模式自我监督从头开始标记未 标 记 的 视 频 。 arXiv 预 印 本 arXiv : 2006.13662 ,2020。3[3] Michael Bain和Claude Sammut行为克隆的框架。机器智能,1996年。2[4] Mayank Bansal 、 Alex Krizhevsky 和 Abhijit Ogale 。Chauf- feurNet:通过模仿最好的和合成最差的来学习驾驶。在RSS,2019. 二、三[5] Aseem Behl,Kashyap Chitta, Aditya Prakash ,EshedOhn-Bar,and Andreas Geiger.标签高效的自动驾驶视觉抽象。在IROS,2020年。3[6] MariuszBojarski , DavideDelTesta , DanielDworakowski , Bernhard Firner , Beat Flepp , PrasoonGoyal , Lawrence D Jackel , Mathew Monfort , UrsMuller,Jiakai Zhang,et al. End to end learning for self-driving cars. arXiv预印本arXiv:1604.07316,2016。二、三[7] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes:自动驾驶的多模态数据集。在CVPR,2020年。二、四、五[8] Benjamin Caine,Rebecca Roelofs,Vijay Vasudevan,Jiquan Ngiam , Yunning Chai , Zhifeng Chen , andJonathan Shlens.用于可缩放3d对象检测的伪标记。在arXiv预印本arXiv:2103.02093,2021。二三五[9] Matthew Chang,Arjun Gupta,and Saurabh Gupta.通过观看YouTube视频进行语义视觉导航在NeurIPS,2020年。二、四[10] Ming-Fang Chang,John Lambert,Patsorn Sangkloy,Jag-jeet Singh , Slawomir Bak , Andrew Hartnett , DeWang,Peter Carr,Simon Lucey,Deva Ramanan,et al.Argoverse:3d tracking and forecasting with rich maps.在CVPR,2019年。二、五[11] 放 大 图 片 作 者 : Chenyi Chen , Ari Seff , Alain L.Kornhauser和Xiao Jianxiong。DeepDriving:学习自动驾驶中直接驾驶的启示。在ICCV,2015年。2[12] DianChen,VladlenKoltun,andPhilippKr aühenbühl. 从一个铁轨上的世界学开车。ICCV,2021。2[13] Dian Chen,Brady Zhou,Vladlen Koltun,and Philipp Kr?henb?hl. 通过作弊来学习。 在CoR L中,2020年。二三四五六七[14] 陈新蕾 和Abhinav Gupta 。卷积 网络的Webly 监督在ICCV。2[15] 陈宇华,考迪莉亚·施密德,克里斯蒂安·斯明奇斯-埃斯库.单目视频中具有几何约束的自监督学习:连接流,深度和相机。在CVPR,2019年。3[16] Sanjiban Choudhury,Mohak Bhardwaj,Sankalp Arora,Ashish Kapoor,Gireeja Ranade,Sebastian Scherer,andDe-badepta Dey. 通 过 模 仿 学 习 的 数 据 驱 动 规 划 。International Journal of Robotics Research , 37 ( 13-14):1632-1672,2018。317326[17] Feli peCode villa , MatthiasMiiller , AntonioLo'pez ,VladlenKoltun,and Alexey Dosovitskiy.通过条件模仿学习实现端到端驱动在ICRA,2018年。二、三[18]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功