基于视觉的城市自动驾驶中的数据聚合技术分析和改进方法

57 浏览量更新于2023-10-24 收藏 746KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1探索基于视觉的城市自动驾驶Aditya Prakash1Aseem Behl1，2Esed Ohn-Bar1，3 Kashyap Chitta1，2Andreas Geiger1，21德国图宾根马克斯普朗克智能系统研究所2图宾根大学3波士顿大学{firstname.lastname}@ tue.mpg.de摘要数据聚合技术可以显著改善训练环境中基于视觉的策略学习在特定的模拟条件下学习驾驶。然而，由于策略上的数据是以迭代的方式顺序采样和添加的，因此策略可以针对训练条件进行专门化和过拟合。对于现实世界的应用，它是有用的学习策略一般化到新的情况下，不同的训练条件。为了在训练端到端驱动策略时提高策略学习的同时保持鲁棒性，我们在CARLA环境中对数据聚合技术进行了广泛的分析。我们展示了他们中的大多数人的泛化性能差，并开发了一种新的方法，与现有的技术相比，经验更好的泛化性能。我们的两个关键思想是：（1）从收集的策略数据中采样关键状态，基于它们在驾驶行为方面为学习策略提供的效用，以及（2）引入一个重放缓冲区，该缓冲区逐渐关注策略状态分布的高不确定性区域我们在CARLA NoCrash基准上评估了所提出的方法，重点关注行人和车辆交通密集的最具我们的方法将驾驶成功率提高了16%，达到了87%的专家性能，同时还将碰撞率降低了一个数量级，而无需使用任何额外的模态、辅助任务、架构修改或环境奖励1. 介绍随着深度学习的进步，模拟器的可用性[20，24，50]和大规模数据集[1，13，26，51，64，65]，自动驾驶研究在工业界和学术界获得了越来越多的关注。虽然工业研究*表示平等贡献，按字母顺序排列图1：概述。上图：数据聚合（Dagger）。下图：我们提出了一个修改后的Dagger版本，它具有临界状态和重放缓冲区，用于改善密集城市场景中的驾驶。主要集中在分别学习感知和控制的模块化方法[19，21，22，35]，学术界的研究人员正在将注意力转向端到端的可训练系统[6，9，11，12，45，63，66]，可以同时学习感知和控制。在这方面，基于相机的端到端自主驾驶涉及学习从道路的视觉观察直接到控制输出的映射。模仿学习将自动驾驶的端到端策略学习减少到监督学习。虽然这种减少使得监督学习的最新进展成为可能，但学习鲁棒策略以很好地推广到不同的环境仍然具有挑战性。尽管有条件模仿学习（CILRS[12]）优于模块化[38]，基于启示[57]和强化学习[40]的方法，但在更广泛的驾驶行为者中进行评估时，模仿学习的性能显着恶化这对于城市驾驶尤其如此[12]，密集的交通，行人和红灯构成了挑战。模仿学习中的一个主要挑战是，在存在协变量移位的情况下[54]，即，变化1176311764状态分布时，学习的策略会迅速积累错误，导致在新环境中性能不佳。这被称为复合误差问题。Dagger [54]（图1）是一种用于学习策略的常见数据聚合技术，可以更好地处理协变量偏移，并且在机器人任务中非常有效[5，18，42，46，55]。我们在CARLA [20]中对Dagger进行了广泛的自动驾驶分析，发现Dagger的性能随着迭代次数的增加而开始下降，即使在训练条件下也是如此。此外，我们观察到，简单的手工设计的修改优于Dagger在所有的评估条件。这表明聚合的策略数据包含冗余和非信息状态，导致次优性能。因此，我们利用一个抽样机制，以提取关键状态，从所产生的政策上的数据，提出高效用的学习策略。虽然Dagger可以指导驱动策略的学习过程，但其聚合过程忽略了数据驱动学习中的潜在问题，特别是对专家和学习策略提供的聚合数据的偏差和过拟合。因此，我们观察到Dagger在向新环境通用化时失败。为了使学习更强大的端到端的政策，我们建议更好地指导aggregation过程中的Dagger与采样机制和重放缓冲区，并表现出显着的收益。贡献：本文的主要贡献是对密集城市自动驾驶的数据聚合技术进行了全面分析。我们证明了Dagger在无法捕获临界状态和推广到新环境方面的局限性，并提出了一个修改后的Dagger版本，用于收集用于训练驾驶策略的策略数据。我们建议根据它们对学习策略在适当的驾驶策略方面构成的效用从策略数据中采样关键状态，并包括一个重放缓冲区，该缓冲区逐步关注学习策略的状态分布的高不确定性区域我们的实验验证，我们的方法使驾驶政策，以实现87%的专家per-percent，并学习一个更好的隐式视觉表示的环境，城市驾驶。我们的代码和训练模型在github.com/autonomousvision/data aggregation上提供。2. 相关工作模仿学习（IL）：用于自动驾驶的IL源于[ 47 ]的开创性工作。IL使用专家演示直接学习将状态映射到操作的策略[2，3，36，49]。与模块化相比[38]，启示-基于[9，57]强化学习[33，40]，多任务[39]和规划[8，66]方法，IL可以通过收集在真实世界或模拟环境中。最近，Codevilla et al.[11，12]提出了一种利用高级方向命令的条件IL框架，并表明这些模型在城市场景中表现良好。将序列决策任务的智能学习问题转化为一个有监督的学习问题，在专家诱导的状态分布下对策略进行训练。然而，这是非最优的，因为学习的策略影响它遇到的未来状态，这可能与专家的状态分布不同这种现象被称为协变量移位[54]，导致复合误差问题。在密集的城市驾驶环境中，由于动态代理的非确定性行为，这一点更加突出。这个问题可以使用迭代的on-policy [4，5，30，52-我们在条件模仿学习框架中建立这些，并提出修改，导致更好的实证结果。Dagger：Dagger [54]是一种迭代训练算法，它基于当前策略在每次迭代时收集策略上的数据，并在收集的数据集的集合上训练下一个策略。已经提出了Dagger的几个变体，例如 Q-Dagger [4] ， AggreVaTe [53] ，Aggre-VaTeD [60]，DaggerFM [5]，SafeDagger [67]，MinDagger [44]，其专注于提高样本复杂度[5，44，60，67]并最小化专家[53]或策略[4]的成本。Dagger还在越野驾驶场景[46]和TORCS赛车模拟器[67]中的自动驾驶[10]背景下进行了探索然而，我们表明，Dagger的直接应用程序是不是最佳的密集的城市驾驶，并提出修改，导致更好的emperative结果。在这方面，Q-Dagger [4]和minDagger [44]与我们的工作最相关，因为它们也突出了Dagger引起的训练数据分布的局限性前者侧重于决策树策略的可验证性，后者侧重于静态Minecraft环境中离散策略的数据效率，我们研究了Dagger及其变体在高度动态城市环境中的端到端SMILe：随机混合迭代学习算法（SMILe）[52]允许学习器在由策略混合引起的新状态分布下重新训练，因为它在连续迭代中更新。它定义了一个有效的数据集构造算法的新的状态分布在每一个迭代使用的采样机制的混合策略，其中的采样比例是独立的政策。相比之下，我们的方法可以被认为是SMILe的自适应版本，其中采样比例取决于策略。RAIL：基于约简的主动模仿学习[30]（RAIL）是一种迭代训练方法，它使用主动学习算法从策略数据中采样，以提高11765训练数据集的样本复杂度。原则上，我们的方法与RAIL相似，但我们的重点是改进-专家行动策略π使用收集的状态-动作对数据集以监督方式进行训练：性能而不是样本复杂性。我们在探索不同的采样机制，并表明一个变种的RAIL失败了我们的任务。此外，我们提出了一个更简单的替代方案，在实践中效果更好。DART：DART [34]是一种迭代的非策略数据扰动方法，可优化噪声模型以最小化协变量偏移。然而，我们发现DART在自动驾驶的情况下并不有效，因为它在计算上是昂贵的，并且使用手工设计的扰动可以实现类似的性能相反，我们专注于迭代的政策学习，从而导致更好的实证结果。临界状态：顺序决策任务中的一个主要挑战是促进对关键状态的有效探索[28]，这对于学习适当任务特定行为的策略至关重要。基于互信息的临界状态的几个概念[27，43]，不确定性[25，37，58]，减少期望误差[56，62]，多样性[14和最大化预期的标签变化[23，31，61]在计算机视觉中得到了有效的应用[32，41，48，59，61]。在密集的城市驾驶的背景下，临界状态构成诸如接近车辆和行人、遵守交通规则等的场景这些都是至关重要的，因为即使是一个单一的故障也可能导致致命的事故。因此，需要针对这些临界状态的有效探索策略，以使驾驶策略能够学习安全驾驶行为。我们探索不同的采样机制，将这些关键状态纳入我们的方法。3. 方法在本节中，我们首先描述自动驾驶背景下的模仿学习然后，我们描述了原始的数据集聚合（Dagger）算法，其次是我们的修改，导致显着的性能增益。3.1. 自动驾驶的模仿学习模仿学习（IL）的目标是学习策略π它模仿专家策略ππ的行为：IL：argminEsβP（s|π）[L（πι（s），π（s））]（1）π其中P（s|π）表示由驱动政策π引起的状态分布，L（·）表示损失函数。在我们的自动驾驶应用程序中，是一个三维连续动作向量（汽车的转向，油门和刹车），我们使用L1损失进行训练。IL最简单的方法是行为克隆（BC），这是一种监督学习方法。在这种方法中，首先在环境中推出专家策略，以收集所有受访州的观测数据，BC：argminE（sπ，aπPπ）[L（a，π（s））] （2）π其中，P表示由预期策略ππ提供的状态分布，L表示损失函数。行为克隆假设状态分布为i.i.d. 因为下一个状态是从独立于当前策略所预测的动作的专家演示期间观察到的状态中采样的这导致了复合误差问题，其中当策略遇到不存在于专家的状态分布中的状态时，策略无法从其错误中恢复。这个问题可以使用迭代的策略算法来解决，比如我们接下来讨论的Dagger。3.2. 数据集聚合（Dagger）Dagger是一种迭代训练算法，它在当前策略下的每次迭代中收集策略上的轨迹，并在所有收集到的轨迹的集合下训练下一个策略。用于对轨迹进行采样的策略，每次迭代可以表示为π=βπ+（1-β）π，其中π是专家策略，π是学习策略。通常，β0= 1，并且在连续迭代中减小。Dagger有效地将当前数据集附加上一个集合输入状态，该输入状态是所学习的策略基于先前的经验在其执行期间可能遇到的。这减轻了渐进迭代中的复合误差问题，因为智能体现在对于其偏离最优行为的状态具有来自专家的监督3.3. 临界状态Dagger算法将整个生成的策略轨迹附加到当前迭代的训练数据集。然而，并非轨迹中的所有状态都对驾驶策略具有相同的效用。具体地，对应于驾驶策略的失败情况的状态是最相关的，因为从学习安全驾驶行为的角度来看，它们具有最大效用因此，我们探索不同的机制，这些临界状态的采样。基于任务：在密集的城市驾驶环境中，在交叉路口转弯等任务比在空旷的道路上直行更重要，因为大多数碰撞发生在交叉路口和转弯处。CARLA提供访问高级导航命令-（1）左转，(2)右拐，（3）直走（在十字路口），（4）走下车道。对于基于任务的采样，我们忽略了“跟随车道”收集的政策数据我们对（1）、（2）和（3）给予同等的重视。基于政策：对于基于策略的采样，我们在驱动策略的预测中使用epistemic不确定性，11766我我抽样临界状态。为了测量认知不确定性，我们使用概率为0的测试时丢弃。5并计算预测控制中的方差[25]。然后，临界状态集Sc由下式给出：..Σ.∗∗算法1具有临界状态和重放缓冲区的DAGGER使用专家策略ππ收集D0πL0=argminπL（π，πL，D0）初始化重放缓冲器D← D0令m= |D0|对于i =1到N，做Sc=Sc∈ S. H（s c，π，π）> α·max H（s，π，π）.S（三）其中S={s|sP（s|π）}是从状态分布P（s）中采样的状态集合|π）和H（s，π，π）=Var（π（s））表示采样标准，其中Var（·）是根据经验选择的π和α<1上的丢弃方差。使用πi−1生成政策上的轨迹通过πi−1和专家获得访问状态的数据集Di={（s，π（s））}从Di采样临界状态后得到D′<${（sc，π<$（sc））}合并数据集：D←DD′基于政策和专家：在政策专家的监督下，我们探索多种策略：（a）我们对具有最高损失L（·）的非政策状态进行采样，从而强制政策从错误中学习。更正式地说，我们得到的一组临界状态SC方程。（3）使用S={s|sP（s|π）}和H（s，π，πθ）=L（π，πθ）. (b)我们根据驾驶策略造成的损失对专家状态进行排名，并对所需损失最大的国家的比例。这里，我们设置S={s|sP（s|π）}和H （s，π ，π）=L（π ，π）在等式（三）、(c)我们观察到，大多数故障情况下，如碰撞和交通灯违规发生，由于在-驾驶政策的能力，充分刹车。因此，我们基于制动信号中的偏差进行采样以识别这些故障情况。为此，我们使用S={s|sP（s|（π）}和H（s，π，πθ）=Lb（π，πθ）在等式（1）中。（3）其中Lb表示损失L的（一维）制动分量。3.4. 重放缓冲器驾驶数据集具有固有的偏差[12]，因为大多数驾驶都由一些简单的行为（存在于专家的状态分布中）或对罕见事件的复杂反应（存在于驾驶策略的状态分布中）组成。相反，这可能导致前一种情况下的复合错误和后一种情况下的意外行为，如过度停止，当转移到不同的环境时，这更突出地表现为泛化问题因此，用于训练策略的最佳数据集分布在所有演示模式中应该是均匀的。这确保了数据的多样性，并显著降低了数据集偏差[14]。驾驶场景，如在交叉路口适当转弯，在道路上直行，是丰富的专家因此，重要的是要控制用于训练的专家数据和政策数据的比例。为此，我们采用了一个固定大小的重放缓冲区，这有助于政策逐步集中在其行为的薄弱环节，从而提高驾驶性能。我们而|D|>m do从D<$D0D <$D− {（s，π<$（s））}随机采样（s，π<$端Trainπi=argminπL（π，π，D），其中从πi−1初始化端nnπN在算法1和图1中描述了完整的方法11.一、3.5. 实现细节我们使用开源CARLA模拟器建立在[12]的条件模仿学习框架2上我们不对架构（基于ResNet34的模型）进行任何更改，并使用作者提供的代码库[12]。我们使用经过10小时专家数据训练的行为克隆策略来初始化策略。重放缓冲区的大小保持固定在10小时。在每次迭代中，我们使用先前定义的方法生成15小时的策略上轨迹和样本临界状态我们设置采样的阈值α，以便在第一次迭代中生成102小时，并在随后的迭代中保持固定。迭代因此，随着策略在每次迭代中变得更好，由于阈值是固定的，因此采样的策略数据的总比例降低当来自所生成的策略上数据的采样轨迹的总比例低于预定义阈值（设置为0.5小时）时，我们终止出租。在这个阶段，我们可以说策略已经学习了正确的驾驶行为，因为失败案例在生成的策略内轨迹中所占的比例非常低，并且我们使用该策略进行评估。更多细节见补充资料和守则。4. 实验我们进行了三种类型的实验来验证我们的方法。首先，我们分析了在密集的城市环境中学习策略的驾驶性能，并与1理论分析2https://github.com/felipecode/coiltraine11767几个基线。其次，我们进行了违规分析，研究不同的失败案例。最后，我们提出了一个方差分析，以检查我们提出的方法对随机训练种子的鲁棒性。基线：为了分析驾驶性能，我们将我们的方法与CILRS [12]，Dagger [54]，SMILe [52]和DART [34]基线进行比较。CILRS是CARLA上NoCrash基准的最新技术水平0.8.4.我们在2个初始化下运行所有算法-使用10小时的专家无噪声数据训练的策略和使用10小时的专家数据训练的策略，具有20%的三角扰动[12]（用+表示）。我们实验中使用的所有算法如表1所示。我们遵循[54]的算法3.1和[52]的算法4.1分别实现Dagger和SMILe对于DART，我们严格遵循[34]作者提供的代码对于我们的分数分析，我们专注于CILRS [12]，因为与其他方法相比，它对于我们的方差研究，我们将我们的方法与CILRS [12]和Dagger [54]进行比较。数据集：我们使用CARLA [20]模拟器作为培训和评估的工具，特别是CARLA0.8.4由两个城镇组成-城镇1和城镇2。我们将具有挑战性的NoCrash基准的密集城市环境视为我们的评估环境，因为它准确地代表了城市驾驶的复杂性。驾驶策略使用在城镇1中收集的具有4种不同天气的数据进行训练，并在不同的环境中进行评估-训练、新天气（ NW ）、新城（ NT ）和新城天气（ NTW ）。&NoCrash基准测试包括两种新的天气条件。相反，我们报告所有10个新的天气条件下的结果进行综合评价的泛化能力。因此，我们的结果涵盖了总共4个训练条件和24个不同难度的泛化条件。评价：我们使用100个事件中成功完全完成的事件数（成功率）和分数相关指标。我们考虑了4种可能的失败情况-与行人碰撞，与车辆碰撞，与其他静态物体碰撞和超时场景。对于我们的方差研究，我们报告了基于5个随机训练种子的成功率的标准差。4.1. 驾驶性能Dagger：在这个实验中，我们试图检查政策数据是否有助于提高驾驶性能，并看看它与三角扰动相比的效果如何。从图2，我们观察到，Dagger导致改善相比，无噪声模型，但实现类似的性能作为三角扰动。此外，Dagger的性能在第二次迭代后开始下降在训练条件下。发生这种情况是因为随着DAg- ger继续追加政策数据，与主要演示模式的增长相比，数据集的多样性增长得不够快，例如，一直在车道上行驶。因此，性能随着收集更多数据而降低，因为驾驶策略不能学习如何在罕见模式下反应，例如，靠近动态代理。该结果与Dagger在机器人中的先前应用[5，18，42，46，55]形成直接对比，并反映了Dagger在数据集具有显著偏差的情况下的限制这一观察结果也与[12]一致，其中作者表明，额外的数据不一定会改善城市自动驾驶的性能。此外，我们观察到，在泛化条件下，Dagger的性能这是预期的，因为在训练条件下收集聚合的策略数据，从而导致随着数据集大小的增加而过拟合。具有临界状态的Dagger（DA-CS）：在这个实验中，我们评估我们的第一个修改，以检查它是否能够减轻上述问题。为了后续分析的目的，我们使用制动偏差作为采样机制，因为我们观察到，在大多数失败的情况下，政策不能充分制动结果示于表2中。与Dagger相比，DA-CS在训练条件下显著优于三角扰动，从而确认采样的临界状态包含有助于改善驾驶行为的有用信息。然而，在新的天气条件下，DA-CS的性能开始下降。这表明策略开始过拟合训练条件。接下来，我们评估我们的第二个修改，以减轻这个问题。带重放缓冲区的DAger（DA-RB）：本实验的目的是检查所提出的重放缓冲区是否能够缓解上述过拟合问题。表2中报告的结果清楚地表明，重放缓冲器有助于提高对新天气的性能，从而有助于泛化。这反映了在训练驱动策略时控制专家数据和策略上关键状态的比例的重要性。我们进一步尝试检查，如果由于三角扰动的改进的行为是互补的，由于DA-RB的改进的行为。这反映在与DA-RB相比，DA-RB+的成功率增加（表2）。这是因为三角扰动对策略沿横向方向的漂移进行建模，例如，离开道路，而DA-RB集中于策略在纵向方向上的失败情况，例如，与行人和车辆碰撞通过将这两种行为合并到训练数据集中，并利用专家对这些状态的监督，我们的方法使警察能够学习准确的驾驶行为，从而减轻11768成功率专家DA-RB+（E）DA-RB+DA-RBDARTSMILe+微笑Dagger+匕首CILRS+CILRS模型迭代离策略按政策扰动聚集采样CSRB合奏CILRSCCILRS+CCDARTCCC匕首CCCDagger+CCCC微笑CCCCSMILe+CCCCCDA-CSCCCCDA-RBCCCCDA-RB+CCCCCDA-RB+（ E）CCCCCC表1：我们实验中使用的不同算法。 CS-临界状态，RB-重放缓冲区，灰色-我们的方法。训练条件新气象707060 60505040403030迭代0迭代1迭代2迭代3新城迭代0迭代1迭代2迭代3新城天气4040353530302525202015迭代0迭代1迭代2迭代315迭代0迭代1迭代2迭代3图2：不同条件下不同方法的成功率。‘在很大程度上解决了复合误差问题。我们补充提供这些场景的驾驶视频在所有条件下与CILRS、Dagger和SMILe进行比较：虽然所有的方法都能够在训练条件下执行类似于CILRS+，但我们观察到，它们中的大多数无法推广到新的环境，如图1中的性能下降所示。二、相比之下，DA-RB+当推广到NW和NT条件时，显示了对其他方法的显着改进虽然它没有提高NTW条件下的成功率，但它显示出更好的整体驾驶行为，如碰撞指标所反映的那样（3）第三章。此外，我们还评估了所有DA-RB+迭代（DA-RB+（ E））的集成模型结果（表3）清楚地表明，集成有助于更好的泛化。成功率成功率成功率11769Dagger DA-CS DA-RB火车Iter 1 46 47 47 47Iter 2 46 50 60 63Iter 3 36 57 58 63新气象Iter 1 41 25 26 31Iter 2 39 47 47 48Iter 3 38 27 54 60表2：DAger、DA-CS、DA-RB和DA-RB +的成功率。密集设置的火车，新的天气条件。CILRS+ DA-RB+403020100行人车辆其他超时故障个案图3：故障案例分析。我们考虑与行人，车辆，其他静态物体的碰撞，并在新城天气的密集设置上超时&表3：所有条件下密集设置的成功率。3次评价运行的平均值和标准差。NW-新天气，NT-新城，NTW-新城天气，DA-RB+（ E）-所有迭代中DA-RB+&与DART的比较：在这个实验中，我们检查，如果迭代的政策外扰动可以优于迭代的政策上的方法。图2，我们观察到DART在大多数情况下实现了与Dagger和SMILe相似的性能，这与[34]的结果一致然而，DA-RB明显优于它，这表明策略算法更善于处理协方差移位。发生这种情况是因为关键状态，如接近动态代理不存在于专家与专家比较：由于我们的方法没有使用任何额外的模态，辅助任务或来自环境的回报，训练后的政策的性能是上限的专家。在这个实验中，我们检查我们的方法是否有利于最大限度地利用数据中包含的信息在给定的约束条件下。表3中的结果表明，DA-RB+（ E）能够在所有评价条件下达到专家性能的87%这表明，我们的方法使政策，以学习准确的驾驶行为。表3中的专家结果也突出了挑战，在CARLA密集的环境中驾驶的独特性。这是由于动力学因素的非确定性和非最佳行为，这导致碰撞增加和超时情况，其中多个车辆堵塞道路，导致用于驾驶的空间非常小。4.2. 违法行为分析本实验的目的是评估学习策略的定性驾驶行为，该行为准确地反映我们考虑了四种类型的碰撞--与行人、车辆、其他静止物体的碰撞和超时情况。我们报告了在NTW条件下由于这些违规而导致的失败事件的数量，因为这有助于评估关于泛化到新环境的定性行为。结果示于图3.第三章。我们观察到，与CILRS+相比，DA-RB+导致与动力学试剂的碰撞显著减少。这表明我们的模型的定性驾驶行为优于CILRS+。我们还报告了由于超时而失败的发作次数。虽然CILRS+的主要故障情况是与车辆碰撞，但使用我们的方法训练的策略这是由于两个原因：（1）由于我们的智能体更善于遵守交通信号灯，因此在红灯的情况下，它平均会停5-8秒，这大大增加了超时的可能性，（2）多辆车堵塞了车道，导致驾驶空间非常小。相比之下，CILRS+频繁地与动态代理碰撞并且违反交通灯，导致减少超时情况，但是碰撞显著更高。这表明，我们的方法使政策能够专注于场景的基本方面，从而学习更好地隐式表示城市环境。4.3. 训练种子方差我们进一步研究了学习策略wrt的鲁棒性。训练种子的方差，这是模仿学习中的一个常见问题[12]。为了公平比较，我们使用相同的10小时专家数据作为所有方法的基础数据，并在所有情况下使用ImageNet [12这是-失败发作次数任务CILRS+DART DA-RB+（我们的）DA-RB+（ E）（我们的）专家火车45 ±650 ±162 ±166 ±571 ±4NW39 ±437 ±260 ±156 ±172 ±3NT23 ±126 ±234 ±236 ±341 ±211770CILRS+Dagger+DA-RB+任务基地AEbAE所有UNC秩它Iter 0十四岁6±3。4十四岁6±3。4十四岁6±3。4火车365050395155Iter1-十五岁2±5。1二十四岁8 ±1。9NW405748365451Iter2-十三岁2±1。9二十五4±1。5NT183330232333Iter3-十七岁8±3。6二十七岁0 ±0。9NTW242628272623表4：训练种子方差。成功率的标准差wrt。5个随机训练种子在新城天气的密集设置。请注意，CILRS+是一种非迭代方法。引入了由于数据收集器和策略参数的随机初始化引起的方差，从而确保除了由模拟器中的随机动态引起的评估方差之外，方差的主要来源是训练种子中的随机性。我们为每个方法使用5个随机训练种子来训练克隆策略，并在New Town Weather的密集设置上报告克隆率表4中的结果表明，DA-RB+由于连续迭代中的随机训练种子而降低了标准偏差。这表明基于临界状态对数据集进行采样对于方差减小至关重要。在每次迭代中，我们选择性地对临界状态进行采样，由先前迭代中的每一个中的训练策略引起的分布的混合。在这种情况下，Borsos et al.[7]之前已经表明，具有自适应重要性采样的混合分布在减少在线学习算法的方差方面是有效的，我们的结果在城市自动驾驶的背景下验证了这一理论4.4. 临界状态抽样的不同方法在本实验中，我们对不同的采样方法3（第3.3节）进行了比较分析，以识别临界状态。我们考虑了5种抽样方法：（1）制动的绝对误差，AEb;（2）所有控制参数（转向、控制、制动）的绝对误差，AEall;（3）策略预测的不确定性为了确定不确定性，我们运行100个dropout = 0的模型实例。5并计算预测控制中的方差。我们初始化所有的方法与pol-icy训练10小时的扰动专家数据（基地）。从表5中，我们观察到AEb在大多数条件下表现最好，表明制动能够捕获城市驾驶所需的临界状态。这是因为制动中的偏差能够捕获智能体正在闯红灯或在非常近的距离处接近行人或车辆的情况，这对于城市驾驶来说是AE所有都不如制动有效，因为它平均了控制中的偏差为3有关数据分布的表5：不同采样方法在所有条件下密集设置的成功率。Unc -基于不确定性的采样，IT-交叉路口&转弯，NW-新天气，NT-新城，NTW-新城&新天气。例如，三个控制中的每一个中的δ偏差和仅制动器中的3δ偏差都将导致δ的平均值，但后者更可能导致故障情况，因此更重要。我们的基于不确定性的采样（Unc）的实现对应于RAIL [30]的变体，其中基于查询的委员会（QBC）作为主动学习算法，其中委员会由100个具有测试时丢弃的行为克隆策略实例组成这种方法没有考虑任何基于任务或基于违规的信息，这会导致次优性能。这表明，预测中的高度不确定性此外，选择性地采样专家状态（排名）不会导致任何改善政策上的数据采样，表明后者包含关键状态相关的改善城市驾驶。此外，大多数碰撞和交通灯违规发生在交叉口，因此，采样的交叉口转弯场景导致显着的改善相比，基础模型。&5. 结论在本文中，我们进行了严格的研究政策上的数据聚合和采样技术的背景下，密集的城市驾驶在CARLA。我们的经验表明，Dagger是不是最佳的这项任务，并没有推广到新的环境。我们提出了两个修改的Dagger算法，以减轻上述的是，麻烦。实验表明，我们的方法使该政策推广到新的环境，减少变异，由于训练种子，并有助于学习一个更好的隐式视觉表示的环境，密集的城市驾驶。基于我们的研究结果，我们预计自动驾驶主动学习算法的广泛研究将成为未来研究的一个有前途的方向。鸣谢：这项工作得到了BMBF通过TubingenAI中心（FKZ：01IS18039B）的支持。作者还感谢国际马克斯普朗克智能系统研究学院（IMPRS- IS）对Kashyap Chitta的支持和洪堡基金会对Esed Ohn-Bar的支持。11771引用[1] Waymo开放数据集：自动驾驶数据集。https：//www.waymo.com/open，2019年。1[2] 彼得·阿比尔、亚当·科茨、摩根·奎格利和安德鲁·Y。Ng. 强化学习在直升机飞行中的应用神经信息处理系统进展（NIPS），2006年。2[3] 作者：Peter Abbeel，Andrew Y. Ng.通过反向强化学习的学徒学习。在国际会议的程序。机器学习（ICML），2004年。2[4] Osbert Bastani，Yewen Pu，and Armando Solar-Lezama.通过策略提取的可验证强化学习。神经信息处理系统（NIPS）的优势，2018年。2[5] 放大图片创作者：Michael A. Knepper和Yoav Artzi。在具有模仿学习的模拟四轴飞行器上遵循高级导航指令。在Proc. Robotics中：科学与系统（RSS），2018年。二、五[6] MariuszBojarski ， DavideDelTesta ， DanielDworakowski ， Bernhard Firner ， Beat Flepp ， PrasoonGoyal ， Lawrence D. Jackel ， Mathew Monfort ， UrsMuller ， Jiakai Zhang ， Xin Zhang ， Jake Zhao ， andKarol Zieba.自动驾驶汽车的端到端学习。arXiv.org，1604.07316，2016。1[7] Zala' nBorsos，Sebas tianCuri，KfirYehudaLe vy，andAn-dreas Krause. 混合数据的在线方差缩减。在国际会议上。机器学习（ICML），2019年。8[8] T. Buhet，E. Wirbel和X.佩罗顿CARLA城市环境中的条件车辆轨迹预测。arXiv.org，1909.00792，2019. 2[9] 放大图片作者： Chenyi Chen ， Ari Seff ， Alain L.Kornhauser和Xiao Jianxiong。深度驾驶：自动驾驶中直接感知的学习启示。在Proc. of the IEEE InternationalConf.计算机视觉（ICCV），2015年。一、二[10] Dian Chen，Brady Zhou，Vladlen Koltun，and Philipp Kr？henb？hl. 通过作弊来学习。在P r oc. Con f. 机器人学习（CoRL），2019年。2[11] Feli peCode villa ， MatthiasMiiller ， AntonioLo'pez ，VladlenKoltun，and Alexey Dosovitskiy.通过条件模仿学习实现端到端驾驶。IEEE International Conf.机器人与自动化（ICRA），2018年。一、二[12] 放大图片作者：EderSantana，AntonioM. 洛佩兹和阿德里安·盖顿。探索自动驾驶行为克隆的局限性。在IEEE国际会议上。计算机视觉（ICCV），2019年。一二四五七[13] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。正在进行IEEE会议计算机视觉和模式识别（CVPR），2016年。1[14] Tim de Bruin ， Jens Kober ， Karl Tuyls ， and RobertBabuska.深度强化学习中经验回放数据库组合的重要性在神经网络的进展形成处理系统（NIPS）研讨会，2015年。三、四[15] Tim de Bruin ， Jens Kober ， Karl Tuyls ， and RobertBabuska.通过基于分布的经验保留改进机器人深度强化学习。在Proc. IEEE国际会议。智能机器人和系统（IROS），2016年。3[16] Tim de Bruin ， Jens Kober ， Karl Tuyls ， and RobertBabuska.非政策经验保留深入演员评论家学习。在神经信息处理系统（NIPS）研讨会的进展，2016年。3[17] Tim de Bruin ， Jens Kober ， Karl Tuyls ， and RobertBabuska.深度强化学习控制中的经验选择机器学习研究杂志（JMLR），19：9：13[18] 罗宾·戴茨，图恩·库伦，拉斯·特德雷克。LVIS：从接触感知机器人控制器的值函数间隔中学习。IEEEInternational Conf.机器人与自动化（ICRA），2019年。二、五[19] 恩斯特·D迪克曼斯近十年来道路车辆机器视觉的发展在Proc. IEEE智能车辆研讨会（IV），2002年。1[20] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放的城市驾驶模拟器。在Proc。Conf.机器人学习（CoRL），2017年。一、二、五[21] Haoyang Fan ， Fan Zhu ， Changchun Liu ， LiangliangZhang，Li Zhuang，Dong Li，Weicheng Zhu，JiangtaoHu，Hongye Li，and Qi Kong.百度阿波罗EM运动规划器。arXiv.org，1807.08048，2018. 1[22] 联合Franke，D.法伊弗角拉贝角Knoeppel，M.恩茨韦勒F. Stein和R. G.赫特维奇让伯莎看见。在IEEE国际会议上。计算机视觉（ICCV）讲习班，2013年。1[23] Alexander Freytag，Erik Rodner，and Joachim Denzler.选择有影响力的示例：具有预期模型输出变化的主动学习。在欧洲会议上。计算机视觉（ECCV），2014年。3[24] Adrien Gaidon ， Qiao Wang ， Yohann Cabon ， andEleonora Vig.虚拟世界作为多对象跟踪分析的代理。正在进行IEEE会议计算机视觉和模式识别（CVPR），2016年。1[25] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型的不确定性。在国际会议上。机器学习（ICML），2016年。三、四[26] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准测试套件。正在进行IEEE会议计算机视觉和模式识别（CVPR），2012年。1[27] Anirudh Goyal，Riashat Islam，Daniel Strouse，ZafaraliAhmed，Hugo Larochelle，Matthew B

下载后可阅读完整内容，剩余1页未读，立即下载