端到端自动驾驶中的虚拟域统一框架及性能优势

66 浏览量更新于2023-10-13 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

面向端到端自动驾驶杨罗娜1，梁晓丹1，2，王泰瑞2，邢伟1，21卡内基梅隆大学，美国{luonay1，xiaodan1，epxing}@ cs.cmu.edu2Petuum Inc，Pittsburgh，PA，USAtairui.wang邮件petuum.com抽象。在基于视觉的自动驾驶的范围中，普通的端到端模型是不可解释的并且在性能上是次优的，而中介感知模型需要额外的中间表示，例如分割掩模或检测边界框，其注释随着我们向更大规模移动而可能是极其昂贵的更关键的是，所有先前的工作未能处理臭名昭著的域转移，如果我们要合并从不同来源收集的数据，这极大地阻碍了模型的泛化能力。在这项工作中，我们利用从驾驶模拟器收集的虚拟数据来解决上述限制，并提出了DU驱动，一个用于端到端自动驾驶的无监督的真实到虚拟域统一框架它首先将真实驾驶数据转换为虚拟域中不太复杂的对应数据我们的框架有三个独特的优势：1）它将从各种源分布收集的驱动数据映射到统一的域中，有效地消除了域偏移; 2）学习的虚拟表示比输入的真实图像更简单，并且在形式上更接近用于预测任务的“最小充分统计量”，这减轻了压缩阶段的负担，同时优化了信息瓶颈折衷，并且导致了优异的预测性能; 3）它利用了注释的虚拟数据，该注释的虚拟数据是无限的并且可以免费获得。在两个公共驾驶数据集和两个驾驶模拟器上进行的大量实验证明了DU驱动的性能优越性和解释能力关键词：领域统一、端到端自动驾驶1介绍基于视觉的自动驾驶系统的开发一直是一个长期的研究问题[1在许多方法中，端到端模型吸引了许多研究兴趣[5[5]训练卷积神经网络（CNN）以将来自正面摄像机的原始图像像素映射到转向命令，其成功地在受限环境中操纵测试车此后，人们进行了许多尝试，通过利用中间表示来提高普通端到端模型的性能例如，[6]使用语义分割作为辅助任务来提高模型性能，而[8]2L. Yang，X.Liang，T.Wang和E.邢图1.一、已经提出了用于基于视觉的驾驶模型的各种方法。虽然普通的端到端模型（a）是不可解释的并且在性能上是次优的，但是场景解析（b）或对象检测（c）需要昂贵的注释数据。我们的方法（d）将来自不同数据集的真实图像统一到包含较少多余细节的虚拟域中的更简单的对应物中，这提高了车辆命令预测任务的性能。首先训练检测器在做出驾驶决定之前检测附近的车辆。然而，当我们移动到更大的规模时，驾驶数据的收集和中间表示的注释可能是昂贵的此外，由于现实世界的复杂性，驾驶场景的原始图像加载有与预测任务不相关例如，典型的人类驾驶员不会根据道路上树木的阴影或道路边界之外的视图来改变他或她的行为。这种干扰信息可能会分散神经网络对真正重要的东西的注意力，并对预测性能产生负面影响。[9]可视化的神经网络的激活，并表明该模型不仅学习驾驶关键信息，如车道标记，但也意想不到的功能，如非典型车辆类别。[7]显示了通过因果过滤细化的驾驶模型正如[10]在信息瓶颈原理中所指出的，深度神经网络的学习目标可以被公式化为找到最大限度地压缩输入中的信息同时保留尽可能多的关于输出的信息的最佳表示，或者换句话说，找到输入相对于输出的近似最小充分统计。进一步的工作[11]表明，神经网络的随机梯度下降（SGD）优化有两个不同的阶段，拟合阶段，在此期间，中间层与输出的互信息增加，经验误差下降，以及压缩阶段，在此期间，中间层与输入的互信息减少，表示在形式上变得更接近最小值。输出的有效统计。它们还表明，大部分培训工作都花在了端到端驱动3压缩阶段，这是很好的推广的关键因此，网络的优化具有包含较少不相关复杂度的表示是有益的，因为它可以通过给出最佳表示的更好的“初始化”来更关键的是，所有现有的工作都集中在单个数据源上，并且没有明确地处理对看不见的数据集的泛化。正如[12]所指出的，数据集可能具有很强的内置偏差，并且在一个数据集上训练的功能良好的模型很可能在另一个以不同方式收集的数据集上工作得不那么好。这种现象被称为域移位，其表征来自不同域的输入和输出的分布中的距离虽然现有的模型可以通过从新环境中注入越来越多的监督数据来调整，以逐渐适应新的领域，但对于具有不同应用场景（如自动驾驶）的任务来说，这可能是非常低效的数据，并且成本高昂。我们建议通过利用从模拟器收集的虚拟数据来解决上述挑战。我们的DU-drive系统将在不同条件下收集的真实驾驶图像映射到统一的虚拟域中，然后从生成的假虚拟图像中预测车辆命令由于所有真实的数据集都映射到同一个域，因此我们可以很容易地将模型扩展到看不见的数据集，同时充分利用从现有数据集学到的知识。此外，虚拟图像更最后但并非最不重要的是，我们的模型可以充分利用无限的虚拟数据和仿真环境，并且在虚拟环境中学习的模型可以在将其统一到虚拟域之后直接应用于新的在两个公共驾驶数据集和两个驾驶模拟器上的实验结果，以及在信息瓶颈框架下学习的虚拟表示与原始图像输入相比的效率分析，清楚地表明了我们的方法的性能优越性。2相关工作2.1基于视觉的自动驾驶基于视觉的解决方案被认为是解决自动驾驶的一个很有前途的方向，因为它们的传感器成本低，并且最近在计算机视觉方面取得了进展自20世纪80年代首次成功演示以来[1，3，4]，在基于视觉的驾驶模型的范围内研究了各种方法，从端到端方法到全管道方法[13]。ALVINN系统[2]于1989年首次推出，是自动驾驶端到端学习的开创性工作它表明，端到端模型确实可以在简单的道路条件下学习转向此后，网络中间表示，如语义分割掩码和注意力图被证明有助于提高性能[6，7]。4L. Yang，X.Liang，T.Wang和E.邢流水线方法将场景的解析和车辆的控制[8]首先训练车辆检测器以确定相邻轿厢的位置并根据简单的控制逻辑输出车辆命令[15]表明卷积神经网络可用于实时车道和车辆检测。虽然这样的方法更可解释和可控，但中间表示的注释可能非常昂贵。我们的方法利用了从非监督训练中获得的中间表示，因此在不引入任何注释成本的情况下提高了香草端到端驾驶模型的性能2.2可视化数据的域适应理想情况下，为特定任务训练的模型应该能够推广到为相同任务收集的新数据集，但研究表明，由于数据收集过程中引入的固有偏差，当输入分布发生变化时，模型性能可能会严重下降这种现象被称为域偏移或数据集偏差。在自动驾驶的世界里，拥有一个可以很好地推广到看不见的场景的模型甚至更重要。域自适应方法试图通过弥合源数据和目标数据的分布之间的差距来对抗域转移[16，17]。最近，基于生成式对抗网络（GAN）的域自适应，也称为对抗性自适应，在视觉域自适应领域取得了显著的成果。[18]介绍了一个框架，将几种方法作为特例[19-21]。它将对抗性自适应定义为训练编码器（生成器），该编码器将目标域中的数据以某个特征级别变换到源域，试图欺骗对抗性鉴别器，对抗性鉴别器进而试图将生成的数据与从源域采样的数据区分开。关于风格转移的工作线[22-我们特别感兴趣的一个子领域是虚拟数据对真实数据的适应由于在某些情况下收集真实世界的数据可能过于昂贵，如果我们能够将在虚拟领域中学习的知识应用于真实领域，则可以使用计算机图形技术渲染的虚拟数据来进行补救。[25]提出了一种基于GAN的模型，该模型通过利用内容相似性损失来保留符号，以无监督的方式将数据从虚拟域转换到像素空间[26]使用对抗训练来提高合成图像的真实感，并帮助自正则化项，局部对抗损失和训练图像的缓冲区。[27]随机化机器人模拟器中对象的纹理，并在不使用任何真实世界数据的情况下[28]通过将虚拟图像转换为真实图像，在模拟器中用强化学习训练驱动策略，保留场景结构，并在分割掩模上具有对抗性损失虽然现有的工作旨在将虚拟图像变换为看起来逼真的图像，我们认为，反过来做可能对学习驾驶策略更有利。从真实到虚拟的转换是一项更容易的任务，因为从复杂到简单更易于管理，并且所有真实数据集都可以统一为虚拟域中更简单的对应数据集。端到端驱动5图二. DU-Drive的模型架构。生成器网络G将输入的真实图像变换为伪虚拟图像，预测器网络P根据伪虚拟图像预测车辆命令。鉴别器网络D试图将伪虚拟图像与真实虚拟图像区分开。对抗目标和预测目标两者驱动生成器G生成产生最佳预测性能的虚拟表示为了简单起见，省略了每个卷积/全连接层之后的实例归一化和激活层（缩写：n：滤波器数量，k：内核大小，% s：步幅大小）3无监督域统一3.1网络设计与学习目标DU-Drive的学习目标给定在真实域中用车辆命令标记的驾驶图像的数据集和在虚拟域中的类似数据集，我们的目标是将真实图像变换到虚拟域中，然后在变换后的假虚拟图像上运行预测算法。总体架构如图所示。2.我们的模型与条件GAN [29]密切相关，其中生成器和判别器都将条件因子作为输入，但在两个细微方面有所不同。一个是在我们的模型中，鉴别器不依赖于条件因子。另一个是我们的生成器不需要任何噪声向量作为输入。与从普通虚拟图像到丰富真实图像的映射不同，其中可以存在多个可行的解决方案，从真实图像到其不太复杂的虚拟对应物的映射应该更受约束并且接近唯一。因此，我们可以去除传统GAN中的噪声项，并使用确定性生成网络作为我们的生成器。更正式地，令Xr={xr，yr}Nr 是具有Nr个样本的标记数据集i ivi=1实域，并且令Xv={xv，yv}N是在vir中具有Nv个样本的标记数据集i i i=1实际域，其中x是驾驶场景的正面图像，y是对应的车辆指挥。我们的DU驱动模型由确定性条件生成器G（xr;θG）→xf（由θG参数化）、虚拟鉴别器D（xv; θ D）和预测器P（x v; θ P）→ y v组成，其中确定性条件生成器G（xr; θ G）→ x f将实域中的图像xr∈Xr映射到假虚拟图像xf，虚拟鉴别器D（x v ; θD）区分图像是从真虚拟图像还是从假虚拟图像采样，预测器P（xv;θ P）→yv将虚拟图像映射到车辆控制命令。6L. Yang，X.Liang，T.Wang和E.邢2DU-drive的学习目标是：min maxLd（D，G）+λLt（P，G），（1）θG，θP θD其中Ld（D，G）是域损失，在GAN的极大极小博弈中，生成器试图使其最小化，鉴别器试图使其最大化。Ld（D，G）定义为：Ld（D，G）=Exv[logD（xv;θD）]+（2）Exr[log（1−D（G（xr;θG）;θD））]，（3）Lt（P，G）是预测器和发生器的任务特定目标，在这项工作中，它是预测的控制命令和地面实况控制命令之间的均方损失，定义为：Lt（P，G）=Exr[<$P（G（xr;θG），θP）−yr<$2]（4）λ是一个超参数，控制特定任务损失和域损失的权重网络设计对于模型的GAN部分，我们主要采用[24]中的网络架构，它在风格转换任务中取得了令人印象深刻的结果生成器网络由两个卷积层组成，具有3x3内核和步幅大小2，随后是6个残差块。两个步幅为1/2的去卷积层然后将特征变换为与输入图像相同的大小。我们对所有层使用实例归一化。对于鉴别器网络，我们使用全卷积网络，其卷积层的滤波器大小分别为64、128、256和1。每个卷积层之后是实例归一化和Leaky ReLU非线性。我们不使用[23]中使用的PatchGAN，因为驾驶命令预测需要全局结构信息。对于预测器网络，我们采用DAVE-2系统[5]中使用的网络架构，也称为PilotNet，因为它在端到端驱动[24，9，5]中取得了不错的结果。该网络包含5个卷积层和4个全连接层。前三个卷积层具有内核大小5x5和步幅大小3，而最后两个层具有内核大小3x3和步幅大小1。不使用填充。最后一个卷积层是平坦的，紧接着是四个完全连接的层，输出大小分别为100，50，10和1。所有层都使用ReLU激活。3.2学习我们的目标是学习一个条件生成器，将真实图像映射到虚拟域。然而，出于两个原因，条件GAN的朴素实现是不够的。首先，对抗性损失仅在图像分布水平上提供监督，并且不保证在变换之后标签的保留其次，传统GAN容易受到模式崩溃的影响，这是GAN目标优化期间的常见陷阱以前的工作，适应虚拟图像的真实图像，通过引入一个特定于任务的损失，以增加额外的约束，以产生的图像来解决这些问题为端到端驱动7例如，[25]使用内容相似性损失来强制生成图像的前景与输入图像的前景相匹配。[26]采用最小化合成图像和细化图像之间的图像差异不幸的是，我们无法利用与“前景”类似的技术，或者对保留标签至关重要的信息对于自动驾驶来说相反，我们引入了一个联合训练方案，其中条件生成器和预测器是同时训练的，因此来自预测任务的监督逐渐驱动生成器将输入图像从真实域转换到其在虚拟域中的相应表示，该虚拟域保留必要的语义并产生最佳的预测性能。更正式地说，我们在Eq. 1可以关于三个网络G、P和D分解为三个部分：minLd（D，G）+λLt（P，G），（5）θGminLt（P，G），（6）θPmaxLd（D，G）（7）θD我们省略了等式6中的权重项λ，因为很容易看出，只有θG受到域损失和预测损失两者的影响，并且我们可以独立地关于上述三个目标训练θD、θG和θP。我们将αP表示为更新θP的学习率，αGAN表示为更新θD和θG的学习率。在训练过程中，我们通过交替优化上述三个目标，依次更新θD、θG和θP，从而使生成质量和预测性能齐头并进。3.3域统一考虑当我们有多个真实数据集{xr1，yr1}，...，{xrn，yrn}。由于道路外观、照明条件或驾驶所描绘的数据分布不同场景中，每个数据集属于我们表示为Dr1，…分别为Drn。以前的作品端到端的驱动往往只处理一个域，而不是一个更一般的推理系统。然而，DU驱动器将来自不同真实域的数据统一到单个虚拟域中，并消除了臭名昭著的域转移问题。对于每个实域Dri，我们使用我们的DU驱动模型来训练生成器，该生成器将图像xri转换为统一虚拟域Dv中的对应物xfi（图3）。然后可以训练全局预测器Pv以根据经变换的虚拟图像进行车辆命令预测。我们为每个实域固定生成器，并同时使用来自多个实域的标记数据训练全局预测器相同除了我们针对单个域的训练设置之外，我们还使用在虚拟数据上预训练的PilotNet作为全局预测器的初始化。3.4与信息瓶颈原理的联系给定一个原始图像输入，什么样的中间表示可以帮助提高预测任务的性能我们试图在信息瓶颈的框架下回答这个问题8L. Yang，X.Liang，T.Wang和E.邢图三. 域统一由DU驱动。对于每个真实域，独立地训练生成器以将真实图像变换为统一虚拟域中的伪虚拟图像训练单个虚拟图像到车辆命令预测器以跨多个实域进行预测。形式上，设X为原始图像输入，Y为要预测的车辆控制命令。神经网络学习的信息瓶颈目标是找到Xw.r.t.的最佳表示。Y，它是最小的充分统计量T（x），是捕获X中关于Y的所有信息的最简单的充分统计量。然而，通常不存在最小充分统计量的封闭形式表示，并且根据[11]，该目标可以被写为X的压缩和Y的预测之间的折衷，以下面的形式表示：L[p（t|x）]= I（X; T）− βI（T; Y）（8）其中，I（X;T）表示所学习的表示与输入之间的互信息，并且I（T;Y）表示所学习的表示与输出之间的互信息。该目标针对每一层连续地优化在训练开始时，T=X的输入层的目标可以写为L{T=X}=I（X;X）−βI（X;Y）（9）=H（X）− β（H（Y）− H（Y|（10）=H（X）−βH（Y）（11）其中Eq. 11是从X是Y的充分统计量这一事实得出的。现在，考虑当我们有X的中间表示G（X）时的情况。我们假设G（X）也是Y的充分统计量，这对于任何有意义的中间表示都是合理的。那么当T=G（X）时的目标是L{T=G（X）}=I（X;G（X））−βI（G（X）;Y）（12）=（H（G（X））-H（G（X））|X））− β（H（Y）− H（Y|（13）=H（G（X））−βH（Y）（14）减去等式12从Eq。9产量：L{T=X}−L{T=G（X）}=H（X）−H（G（X））（15）端到端驱动9不这基本上告诉我们，具有较低熵的中间表示可以为信息瓶颈目标提供更好的初始化，这促使我们将真实图像转换为更简单的虚拟对应物。4实验4.1数据我们使用TORCS [30]，一个开源赛车模拟器，和Carla [31]，一个最近的现实城市驾驶模拟器作为我们的虚拟数据收集平台图4显示了来自两个数据集的样本。对于TORCS，我们通过设置机器人汽车来构建一个虚拟数据集，该汽车遵循[8]中定义的简单驾驶策略，并标记其正面摄像头图像和转向命令。我们还包括了12辆交通车辆，它们遵循[8]中定义的简单控制逻辑，在控制命令中添加了随机噪声以鼓励不同的行为。我们在六个不同形状的游戏轨迹上捕获了数据。考虑到虚拟数据中的右转弯和左转弯的不平衡，这可能会在域变换过程中引入偏差，我们通过翻转图像来增加我们的数据并否定转向命令。对于Carla，我们使用[32]提供的训练数据集。我们分别使用Comma.ai[33]和Udac-ity [34]发布的两个大规模真实世界数据集（表1）。这两个数据集都由几集驾驶视频组成对于Comma.ai数据集，我们遵循[33]提供的数据读取器并过滤掉方向盘角度大于200的数据点。对于Udacity数据集，我们使用了挑战II的训练/测试数据的官方发布[34]。在照明/道路条件和路边视野中可以观察到很大的差异。4.2预处理我们首先将输入图像裁剪为160 x 320，删除额外的上部，这通常是不会改变驾驶行为的背景天空然后，我们将图像大小调整为80 x 160，并将像素值归一化为[-1，1]。代替直接预测转向角命令，我们预测半径的倒数，因为它对数据捕获汽车的几何形状更稳定和不变[7，5]。反向转弯半径ut和转向角θt之间的关系由阿克曼转向几何学表征：θt=utdwKs（1+K滑移v2）（ 16）其中θt是以半径表示的转向指令，ut（1/m）是转弯半径的倒数vt（m/s）是在时间t的车辆速度。dw（m）代表轴距，即前轮和后轮之间的距离。K滑动是滑动系数。KS是转向盘转动和车轮转动之间的转向比我们从由数据捕获车辆的相应汽车制造商发布的汽车细节中获得dw和KS，并且使用由Comma.ai [33]提供的K滑差，其是从真实数据估计的。在预测ut之后，我们根据等式16将其转换回θt，并测量转向角预测的平均绝对误差10L. Yang，X.Liang，T.Wang和E.邢见图4。我们工作中使用的样本数据。自上而下：Carla（虚拟）、TORCS（虚拟）、Comma.ai（真实）、Udacity（真实）数据集列车/试验架照明大小Commai.ai 345887/32018日/夜160 x 320Udacity33808/5279天240 x 320卡拉657600/74600 白天/黎明 88 x 200TORCS30183/3354天240 x 320表1.数据集详细信息。4.3培训详情所有模型都在Tensorflow [35]中实现，并在NVIDIA Titan-X GPU上进行训练我们使用Adam optimizer [36]训练所有网络，并设置β1= 0。五、我们遵循[22]中使用的技术来稳定训练。首先，我们使用LSGAN [37]，其中传统的GAN目标被最小二乘损失取代。因此损失函数变为Ld（D，G）=Exv[D（xv;θD）2]+（17）Exr[（1−D（G（xr;θG）;θD））2]，（18）其次，我们使用生成图像的缓冲区来训练鉴别器，以减轻模型振荡[26]。我们使用的缓冲区大小为50。为了利用从模拟器收集的标记数据，我们使用在虚拟图像上预训练的模型初始化预测器网络。在预训练期间，我们将批量大小设置为2000，学习率设置为0.01。在每一步，我们相对于5、6和7中的目标函数顺序地更新θG、θP和θD我们使用60的批量大小。我们设α P=0。0002，α GAN=0。00002，且λ = 0。五比一我们对模型进行了总共7个epoch的训练在为每个实域获得一个实到虚生成器之后，我们可以固定生成器并使用所有真实数据集训练全局预测器。我们使用在虚拟数据上预训练的PilotNet初始化全局预测器，并使用0.001的学习率和2000的批量大小进行训练。端到端驱动114.4衡量标准和基线我们评估我们的模型在虚拟域中生成的图像的质量和转向角预测的平均绝对误差方面的有效性我们将DU驱动器的性能与以下基线进行比较。为了确保公平性，我们使用与第3.1节中描述的预测器网络相同的架构。– 由[5]提出的Vanilla端到端模型（PilotNet）将真实驾驶图像直接映射到转向命令。– 从虚拟数据进行微调我们首先仅使用虚拟数据训练预测器，然后使用真实数据集对其进行微调。– 条件GAN条件GAN（cGAN）[29]的朴素实现使用生成器G将图像x从实域变换为图像G（x）在虚拟领域。建立鉴别网络D以在G试图欺骗鉴别器时将G（x）与从虚拟域采样的y区分开。除了对抗性目标之外，没有提供额外的监督我们还训练了一个PilotNet来从cGAN生成的假虚拟图像中预测转向角。– PilotNet联合训练我们还直接用两个标记的真实数据集同时训练PilotNet4.5定量结果和比较我们比较了我们的DU驱动（单个）模型的单个真实域的转向命令预测的性能与普通端到端模型（PilotNet）、从虚拟数据的微调和没有联合训练的条件GAN（表2）。DU驱动（单个）和来自虚拟数据的微调都比普通端到端模型执行得更好，这验证了利用带注释的虚拟数据的有效性。DU-drive（单个）使用TORCS虚拟数据的性能分别优于微调12%/20%，使用Carla虚拟数据的性能分别优于微调11%/41%，尽管使用相同的训练数据和预测网络。Comma.ai/Udacity这验证了将复杂的真实图像转换为虚拟域中的简单图像用于驾驶命令预测任务的优越性。没有联合训练的条件GAN表现不好，因为对抗目标本身不足以确保标签的保留。在Titan-X GPU上测试时，DU驱动器的运行速度为89.2 fps。4.6虚拟表示的信息瓶颈分析如表2所示，使用我们的DU驱动模型将真实图像转换到虚拟域，即使使用相同的训练数据和预测器网络，也可以提供优异的性能我们将此归因于虚拟图像更均匀，并且包含较少的复杂性，这与预测任务无关如图7所示，包括道路之外的视图和可变照明条件的多余细节被统一到干净、均匀的背景中，同时保留了对于转向角预测至关重要的线索，在信息瓶颈理论的语言中，这对应于相对于预测任务比原始图像更接近最优最小充分统计量的表示。12L. Yang，X.Liang，T.Wang和E.邢模拟器TORCS卡拉数据集模型MaeSDMaeSDPilotNet[5]6.018 7.613 6.018 7.613Finetune TORCS5.808 7.721 6.053 8.041UdacitycGAN [29]PilotNet联合训练5.92115.0406.89627.6364.92515.0407.10027.636DU-驱动器（单）4.558 5.3563.5714.958DU-Drive（统一）4.5215.558 3.808 4.650PilotNet[5]1.208 1.472 1.208 1.472Finetune TORCS1.203 1.500 1.196 1.473Comma.aicGAN [29]PilotNet联合训练1.2155.9881.40511.6701.2065.9881.40411.670DU-驱动器（单）1.0611.319 1.0681.337DU-Drive（统一）1.079 1.2701.174 1.460表2. 转向角预测任务的平均绝对误差（MAE）和标准差（SD）。DU-drive明显优于所有基线方法。根据3.4节的推论，我们现在证明H（X）> H（Xv），由此推论L{T=X}>L{T=Xv}。虽然不清楚如何测量任意图像集合的熵，但在正态分布的温和假设下，熵等于协方差矩阵的行列式的自然对数直到一个常数。我们there-forth对待每个图像作为一个向量，并测量50个随机抽样对真实和生成的虚拟数据的总方差如表3和图5所示，虚拟表示往往具有较低的熵，从而对信息瓶颈目标给出更好的初始化。性能增益与输入熵的减小正相关方差卡拉TORCSUdacity 科马艾 Udacity 科马艾房827452390210766629656虚拟31650234836238922453表3. 随机采样的50对真实图像和生成的虚拟图像的方差。一般-经缩放的虚拟图像具有较低的方差，这推断出输入分布的熵较低，并且因此在优化信息瓶颈折衷时在压缩阶段期间的负担4.7域统一我们的模型的一个关键优势是，从不同的来源收集的数据可以统一到同一个虚拟域。如图7所示，Comma.ai数据集和Udacity数据集的图像被转换成统一的虚拟域，其优越性直接体现在转向角预测的性能上端到端驱动13图五. 预测MAE的百分比降低（y轴）与输入熵的百分比降低（x轴）正相关。见图6。模式崩溃发生在单纯实现的条件GAN中。任务如表2所示，直接用来自两个真实域的数据一起训练网络将导致结果比单独训练每个域差得多，这是由于域偏移。然而，使用DU驱动器（统一），单个网络可以处理来自多个真实域的数据，其结果与DU驱动器（单个）相当。此外，DU-drive分离了转换和预测过程，并且可以针对新的真实数据集独立地训练生成器为了进一步研究DU-drive的泛化能力，我们进行了半监督实验，其中标签仅限于看不见的数据集。我们首先使用Comma.ai数据训练DU-drive模型，然后分别使用20%/50%的标记Udacity数据来使用我们的联合训练方案训练生成器，并报告测试集上的预测性能。我们还在我们的域统一框架下使用Comma.ai数据集进行了联合训练实验。如表4所示，域统一的性能远远超过基线，特别是当标记数据稀缺时。这显示了领域统一在跨领域转移知识和减轻领域转移方面的优势。使用数据的百分比卡拉TORCSPilotNet 我们的（单人）我们的（统一）PilotNet 我们的（单人）我们的（统一）百分之二十7.867.126.027.866.856.34百分之五十7.116.415.157.115.735.42百分百6.023.573.816.024.564.52表4. MAE用于半监督学习。14L. Yang，X.Liang，T.Wang和E.邢4.8模式崩溃模式崩溃是生成对抗网络的常见陷阱由于缺乏额外的监督，条件GAN的简单实现很容易遭受不稳定的训练和模式崩溃（图6）。通过我们新颖的转向角预测和真实到虚拟转换的联合训练，有效地防止了车道标记等驾驶关键信息的模式崩溃。见图7。DU-Drive的图像生成结果。对驾驶行为不重要的信息，例如白天/夜间照明条件和道路边界以外的视野是统一的。车道标记等驾驶关键线索保存完好。5结论我们提出了一个用于自动驾驶或DU驱动的真实到虚拟域统一框架，该框架采用条件生成对抗网络将真实驾驶图像转换为虚拟域中更简单的对应物，从中预测车辆控制命令。在存在多个真实数据集的情况下，可以针对每个真实域独立地训练真实到虚拟生成器，并且可以同时利用来自多个源的数据来训练全局预测器定性和定量的实验结果表明，该模型能有效地将不同来源的真实图像统一到虚拟域中，消除域偏移，提高控制命令预测任务的性能。端到端驱动15引用1. 索普角，Hebert，M.H.，Kanade，T.，Shafer，S.A.：卡内基-梅隆大学导航实验室的视觉和导航。IEEE Transactions on Pattern Analysis and Machine Intelligence10（3）（1988）360.83732. Pomerleau，D.A.：Alvinn：神经网络中的自主陆地车辆。在：神经信息处理系统的进展。（1989年）3053. Dickmanns，E. D.，Mysliwetz，B.，Christians，T.：自主车辆自动视觉导引IEEETransactions on Systems，Man，and Cybernetics20（6）（1990）12734. Dickmanns，E. D.，Graefe，V.：动态单目机器视觉。机器视觉和1（4）（1988）2235. Bojarski，M.，Del Testa，D. Dworakowski，D.，Firner，B.，弗莱普湾Goyal，P.，Jackel，L.D.蒙福特，M.穆勒大学张杰，等：自动驾驶汽车的端到端学习。arXiv预印本arXiv：1604.07316（2016）6. 徐，H.，高，Y.，余，F.，达雷尔，T.：从大规模视频数据集中对驾驶模型进行端到端学习。在：IEEE计算机视觉和模式识别会议论文集（2017）21747. 金，J.，坎尼，J：通过可视化因果注意力实现自动驾驶汽车的可解释学习。IEEEInternational Conference on Computer Vision（ICCV）(Oct（2017年）8. 陈春，Seff，A.，Kornhauser，A.，Xiao，J.：深度驾驶：自动驾驶中的直接感知学习启示。在：IEEE计算机视觉国际会议论文集。（2015）27229. Bojarski，M.，Yeres，P.，Choromanska，A.Choromanski，K.，Firner，B.，杰克尔湖穆勒，美国：解释通过端到端学习训练的深度神经网络如何驾驶汽车。arXiv预印本arXiv：1704.07911（2017）10.Tishby ， N.Zaslavsky ， N. ：深度学习和信息瓶颈原理。 In ：信息理论研讨会（ITW），2015 IEEE，IEEE（2015）111.Shwartz-Ziv，R.Tishby，N.：通过信息打开深度神经网络的黑匣子arXiv预印本arXiv：1703.00810（2017）12.Torralba，A.，Efros，A.A.：无偏倚地看数据集偏倚。在：计算机视觉和模式识别（CVPR），2011 IEEE会议，IEEE（2011）152113.Jana i，J.， Guéney，F.，Behl，A.， Geige r，A.：自主车辆的计算机视觉：问题，数据集和最新技术。arXiv预印本arXiv：1704.05519（2017）14.：使用端到端学习的自主越野车辆控制。http：scale.com/doc/net-scale-dave-report.pdf访问时间：2017-10-20.15.胡瓦尔湾王，T.，Tandon，S.，基斯克J宋，W.，Pazhayampallil，J.，Andriluka，M.，Rajpurkar，P.，Migimatsu，T.，Cheng-Yue，R.，等：深度学习对高速公路驾驶的实证评估arXiv预印本arXiv：1504.01716（2015）16.Bic kel，S.， B rückner，M.， Sche f fe r，T.：区分学习不同的训练和测试分布。在：Proceedings of the 24th International Conference on Machine Learning，ACM（2007）8117.帕特尔，V.M.，戈帕兰河Li，R.，切拉帕河：视觉域适应：最近进展的调查IEEE信号处理杂志32（3）（2015）5318. Tzeng，E.，Hoffman，J.，Saenko，K.达雷尔，T.：对抗性判别域适配器第在：计算机视觉和模式识别（CVPR），2017年IEEE会议，IEEE（2017）716719.Ganin，Y.，Lempitsky，V.：通过反向传播的无监督域自适应国际机器学习会议（International Conference on Machine Learning）（2015）118016L. Yang，X.Liang，T.Wang和E.邢20.Tzeng，E.，Hoffman，J.，Darrell，T.，Saenko，K.：跨域和任务的同步深度传输。在：IEEE计算机视觉国际会议论文集。（2015）4068-407621.Liu，M.Y. Tuzel，O.：耦合生成对抗网络。在：神经信息处理系统的进展。（2016）46922.Zhu，J.Y.，Park，T. Isola，P.，Efros，A.A.：使用循环一致对抗网络的不成对图像到图像翻译。IEEE International Conference on Computer Vision（ICCV）(Oct（2017年）23.Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。IEEE计算机视觉与模式识别会议（CVPR）(July（2017年）24.Johnson，J.，Alahi，A.，李菲菲：实时风格转换和超分辨率的感知损失。参见：欧洲计算机视觉会议，Springer（2016）69425.Bousmalis，K.，Silberman，N. Dohan，D. Erhan，D.，Krishnan，D.：生成对抗网络的无监督像素级域自适应。在：IEEE计算机视觉和模式识别会议论文集。（2017）372226.Shrivastava，A.，Pfister，T.，Tuzel，O.，Susskind，J.，王伟，Webb，R.：通过对抗训练从模拟和无监督图像中IEEE计算机视觉与模式识别会议(July（2017年）27.托宾， J. ，方河 Ray ， A. Schneider ， J. ， Zaremba ， W. ， Abbeel ， P. ： Domainrandomization用于将深度神经网络从模拟转移到现实世界。arXiv预印本arXiv：1703.06907（2017）28.你Y Pan，X.，王志，Lu，C.：虚拟到真实的自动驾驶强化学习。arXiv预印本arXiv：1704.03952（2017）29.Mirza，M.，Osindero，S.：条件生成对抗网。ArXiv预印本arXiv：1411.1784（2014）30.Wymann，B.，特别是E Guionneau角，Dimitrakakis，C.，库隆河 Sumne r，A.：开放式赛车模拟器。软件可在http：//torcs上获得。sourceforge净额（2000年）31.Dosovitskiy，A.，Ros，G.，Codevilla，F.，Lopez，A. Koltun，V.：卡拉：一个开放的城市驾驶模拟器。在：第一届机器人学习年会论文集。（2017）1-1632.Cod evilla，F.， Mülle r，M.， Lopez，A.， Koltun，V.， Dos o vitski y，A.：通过条件模仿学习的端到端驱动机器人与自动化国际会议（International Conference onRobotics and Automation，ICRA）（2018年）33. Santana，E.，Hotz，G.：学习驾驶模拟器。arXiv预印本arXiv：1608.01230（2016）34.： Udacity 自动驾驶汽车挑战数据集。 https://github.com/udacity/self-driving-car/tree/master/datasets访问时间：2017-10-20。35.Abadi，M.，Agarwal，A.，Barham，P.，Brevdo，E.，陈志，西特罗角科罗拉多州科拉多戴维斯，A.，迪恩J Devin，M.，等：Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467（2016）36.Kingma，D. Ba，J.：Adam：随机最佳化的方法。国际学习表征会议（InternationalConference on Learning Representations）（2015年）37.毛泽东，李，Q.，谢，H.，Lau，R.Y.，Wang，Z.：最小二乘生成对抗网络。在：IEEE计算机视觉国际会议论文集

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

端到端自动驾驶中的虚拟域统一框架及性能优势

端到端学习在自动驾驶中的使用

中国移动发布《2021年自动驾驶网络白皮书》

大语言模型在端到端自动驾驶中的应用

端到端自动驾驶大模型

端到端的智能驾驶是什么

自动驾驶域控制器 系统架构设计

端到端切片框架分为网络切片管理 域和网络切片业务域

ui、接口、端到端自动化测试面试题

自动驾驶多任务学习算法

端到端视听语音识别框架

ui、接口、端到端自动化测试

UI自动化测试测试框架

PROFINET端到端性能测试

端到端目标检测框架啥意思

基于强化学习自动驾驶系统控制算法研究

python自动化框架

端到端感知决策大模型

介绍一些 sota 自动驾驶目标估计预测方法

常用UI自动化测试框架

python app自动化框架

最新资源

自动驾驶域控制器系统架构设计

端到端切片框架分为网络切片管理域和网络切片业务域