车道检测的20字中文标题可能是：“FastDraw：车道检测的全卷积模型和无监督风格转换方法”

9 浏览量更新于2023-10-17 收藏 1.82MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11582FastDraw：通过调整顺序预测网络JonahPhongisee.大赦国际jonahphilion@isee.ai摘要在为自动驾驶汽车开发数据驱动模型时，寻找推广到传感器输入长尾的预测模型是主要困难在本文中，我们使用车道检测来研究建模和训练技术，从而在现实世界的试驾中获得更好的性能。在建模方面，我们引入了一种新的车道检测的全卷积模型，该模型学习解码车道结构，而不是将结构推理委托给后处理。与以前的工作相比，我们的卷积解码器能够表示每个图像的任意数量的通道，保留通道的递归表示而不将通道减少到多项式，并且迭代地绘制通道而不需要递归神经网络的计算和时间复杂性因为我们的模型包括属于同一车道的相邻像素的联合分布的估计，所以我们的公式包括不确定性的自然和计算成本低的在训练方面，我们展示了一种简单而有效的方法，使用无监督的风格转移来使模型适应新的环境。通过训练FastDraw对图像之间的低级风格差异进行不变的车道结构预测，我们在测试时在天气和照明条件下实现了强大的性能，这些条件与公开可用的注释数据集有很我们在CVPR 2017 Tusimple车道标记挑战赛、困难的CULANE数据集[29]和我们自己的小型标记数据集上对我们的方法进行了定量评估，并在以90 FPS运行时实现了具有竞争力的准确性。1. 介绍先前的车道检测模型通常遵循以下三步模板。首先，估计每个像素是车道的一部分的可能性。其次，收集清除作为车道的一部分的特定阈值概率p_min的像素最后，例如，对这些像素进行聚类图1.最好用彩色观看我们在标记为阳光明媚的加州高速公路的公共数据集上训练了一个新的卷积在远离训练集分布的条件下部署模型（左）会导致性能较差（中）。利用无监督的风格转换来训练FastDraw对低级别纹理差异保持不变，从而实现鲁棒的车道检测（右）。RANSAC，到单独的车道。因为从候选像素的点云推断道路结构的第二和第三步骤通常是不可区分的，所以遵循该模板的车道检测模型的性能受到初始分割的性能的限制我们提出了一种新的车道检测方法，其中网络执行大部分解码，从而消除了在后处理中对超参数的需要。我们的模型“绘制”车道，在这个意义上，网络被训练来预测每个像素处的局部车道形状。在测试时，我们通过遵循CNN预测的局部轮廓来解码全局通道。各种应用程序受益于强大的车道检测算法，可以在野外执行。如果检测器是迭代的，则检测器可用作交互式注释工具，其可用于降低构建高清晰度地图的成本[16，1]。对于依赖高清地图的5级系统，在线车道设计11583图2.我们使用CNN来提取输入图像的语义表示。该表示由三个单独的浅卷积头解码：属于通道（ph，w，0）的像素的二进制分割，以及在e上和w下的通道中的当前像素的出租车距离L内的像素上的猫几何分布（ph，w，1和ph，w，-1）。因为我们在分类分布中包含了一个endtok en来训练网络来预测端点，所以分类分布是2L+ 1 + 1 = 2L+ 2维的。保护是有用的定位信号。未被装备成处理高清晰度地图所需的计算负荷的2级系统取决于配备有确定何时通知驾驶员车道检测不确定的原则性方法在追求这些应用的解决方案中，我们确定了车道检测模块应该具备的三个特征。首先，车道检测算法必须能够表示任意长度的任意数量的车道。尽管图像中的对象的实例的数量的可变性是任何种类的检测问题的一个方面，但是单个实例的维度的可变性对于车道检测问题来说是更加独特的;与具有固定维度的精确编码的边界框不同，车道段可以是任意长度。将车道减少到恒定维度的解决方案-例如通过使用多项式拟合它们-在紧凑的曲线上失去准确性，车道检测或定位对于安全驾驶是重要的。其次，检测算法必须实时运行因此，尽管图像中车道的数量和大小存在可变性，但用于识别和绘制这些车道的任何递归都必须快速。涉及递归单元的变维问题[15]或[35]是最后的手段。最后，检测算法必须能够快速适应新场景。自动驾驶中使用的相机和激光雷达等传感器在其输出分布中带有长尾。车道检测算法应该能够以可扩展的方式适应新的领域我们提出了一种解决这些问题的方法我们的贡献是• 车道检测模型将解码步骤直接集成到网络中。我们的网络是自动的-因此，它具有不确定性的自然定义。由于解码主要由卷积骨干网执行，因此我们能够优化网络，使其在 GTX 1080 上以每秒 90 帧的速度运行FastDraw的卷积性质使其成为多任务学习的理想选择[20]或作为辅助损失[6]。• 一种简单但有效的方法来调整我们的模型，以处理远离我们有公共注释的图像分布的图像。属，实验结果如图1和图6所示。虽然样式转换已被广泛用于调整模拟器的输出分布以更好地匹配现实[10]，但我们使用样式转换来调整来自公开可用的注释数据集的图像分布，以更好地匹配极端情况下的天气和环境条件。2. 相关工作车道检测车道检测的模型通常包括从输入图像中提取车道标记特征，然后进行聚类以进行后处理。在维护良好的道路上，使用手工制作的功能的算法工作良好[2，19]。最近的方法，例如在2017年Tusimple车道检测挑战赛中获得最高分数的方法，试图使用卷积神经网络以更端到端的方式学习这些手工制作的功能。为了避免聚类，已经探索了将左-左车道、左车道、右车道和右-右车道作为分割的通道[29]。经由学习的单应性将像素投影到地平面上是用于正则化各个车道的曲线拟合的强有力的方法[28]。对改进初始分割方法进行了研究.11584尽管结果对后处理过程中使用的化学方法敏感[12]，但结果是令人满意的。最近的工作通过合并图像的历史而不是仅在当前帧上调节来改进分割[39]。车道检测不与dashcam图像隔离在仪表盘摄像头中检测车道的模块通常可以适用于在激光雷达点云、开放街道地图和卫星图像中检测车道[16，23，4]。基于语义分割的车道检测方法的成功极大地受益于在密集分割任务上经验性表现良好的架构的快速增长[5，26，25]。实际上，一些端到端驾驶系统已经被证明可以在不需要注释数据的情况下开发车道的表示[21，7]。对抗性损失使得在广泛的监督和无监督任务中的快速改进成为可能。 Pix2Pix [18]是第一个成功的，图像的风格翻译任务。图像的无监督风格转换[27，38]和无监督机器翻译[24，3]使用反向翻译作为超级视觉的代理。虽然图像到图像转换的模型在很大程度上是确定性的[27，38]，但MUNIT [17]扩展了这些模型以生成可能的图像转换的分布。在这项工作中，我们将MUNIT从公共数据集翻译生成的图像与处理步骤[2]。在本节中，我们将描述如何推导损失，如何从模型中解码通道，以及如何训练网络在测试时根据自己的预测来调整自己的错误3.1. 车道表示在最一般的情况下，车道注释是曲线[0，1]→R2。为了控制车道的取向，我们假设车道注释可以被写为图像的垂直轴的函数。因此，车道注释y由{height，width}像素序列表示坐标y ={y1，...，y n}={{h1，w1}，.，{h n，w n}}其中hi+1−hi= 1。给定图像x∈R3×H×W，p（y|x）可以被分解nY−1p（y|x）=p（y1|x）p（yi+1|y1，...， yi，x）。（一）i=1预测p（yi+1 ）的一种选择|y1，...，yi，x）将使用递归神经网络[16，36]。快速解码，我们假设大部分依赖可以通过条件捕获-仅在先前解码的坐标nY−1我们自己的相机。我们之所以选择MUNIT，是因为它是无监督和生成的。先前p（y|x）p（y1|x）i=1p（yi+1|yi，x）。（二）工作已经使用来自GTA-V的数据来训练在激光雷达点云上操作的物体探测器[37]。并行工作表明，MUNIT风格化的合成图像可以改善对象检测和语义分割[10]。我们试图利用人类注释的数据集而不是模拟器作为种子，用于生成困难环境条件的伪训练示例。绘图我们从其他领域的工作中汲取灵感，这些领域的目标比边界框结构化程度低，例如人类姿势估计[8]和自动化对象分析。注释[1]。在人体姿态估计中，通过推断属于相同人体的身体部位之间的斜率场，解决了将关节聚类到人体姿态中的问题[8]。类似地，我们构造了一个解码器，该解码器除了预测通道的分段之外还预测哪些像素是同一通道的一部分。在Polygon-RNN [9]和Sketch-RNN[13]中，通过迭代绘制边界多边形来推断对象的轮廓。我们遵循类似的学习解码模型，同时由于车道检测任务的相对简单性和实时性能的需要而简化递归。3. 模型我们的模型最大化折线的可能性，而不是纯粹预测每像素的可能性。在这样做的时候，我们避免了对基于聚类的后处理的需要，因为我们假设hi+1−hi= 1，我们可以简化p（yi+1|yi，x）=p（xwi|yi，x）（3）w i=w i+1− w i。（四）然后，车道检测被简化为除了标准的每像素似然性之外还预测每个像素处的dw/dh上的分布。解码通过选择初始像素坐标并积分来进行。表示分布p（ωwi|yi，x），我们可以使用正态分布并执行回归。然而，在这方面，在真实分布是多模态的情况下，例如当车道分裂时，回归输出将导致网络取两条路径的平均值，而不是捕获多模态。受WaveNet的启发[34]，我们选择关于p（i）的形状没有任何假设|yi，x），并使用支持度为<$w ∈ {i ∈ Z}的分类分布表示成对分布|− L ≤ i≤ L}<${end}其中L被选择为足够大，以能够覆盖几乎水平车道和end是表示车道结束的停止标记在每个像素{h，w}处，我们的网络预测• p h，w，0：=p（h，w|x）-像素{h，w}是一条小路• p h，w，1：= p（{h +1，nw} n）|h，w，x）-在像素i，j上方的行中的像素上的几何分布11585在距离L内，像素i +1，j +1是与像素i，j相同的通道的一部分，或者像素i，j是通道中的顶部像素，它是通道的一部分。• p h，w，−1：=p（{h−1，w}end|h，w，x）-在距离L内像素i，j下面的行中的像素上的猫几何分布，像素i +1，j +1是与像素i，j相同的通道的一部分，或者像素i，j是通道中的底部像素，像素i，j是通道的一部分。给定这些概率，我们可以快速解码给定车道上的任何初始点的完整给定通道y上的某个初始位置h0，w0，我们遵循贪婪递归y（h0）=w0（5）y（x+sign）=y（x）+sign（6）x=−L+argmaxpx，y（x），sign（7）其中sign∈ {−1，1}取决于我们从x0，y0向上还是向下绘制车道。请注意，我们可以选择任何yi∈y作为h0，w0，只要我们将向上和向下轨迹的结果连接起来我们停下来-当argmax返回结束标记时进行编码。3.2. 架构为了提取输入图像的语义表示，图3.除了预测每个像素的可能性之外，我们还训练我们的网络输出与当前像素在同一通道中的上一行（蓝色）和下一行（紫色）中的像素。我们还训练从注释车道偏移的像素指向注释车道（b）。我们将结束令牌包括在cet-gorical分布中以用信号通知通道（c）的终止。给定这些预测，我们通过对初始点进行采样来绘制车道，然后沿着箭头上下移动，直到我们在任一方向上到达终点，并将两个结果连接起来。一个学习温度σ，它是特定于任务的，用来衡量我们的损失：我们重新使用Resnet 50/18 [14]进行语义分割。架构如图2所示。我们用两个skip1L（θ）=σ21L掩模（θ）+σ2L序列连接，以各种方式放大和连接功能掩模+ logσ2σ2序列.（十一）的规模。所有三个网络头均通过以下参数进行参数化：掩模序列核大小为3的两层CNN。在所有实验中，我们使用在Imagenet上预训练的Resnets进行初始化[30]。3.3. 损失我们最小化由（2）给出的负对数似然设θ表示网络的权值，x ∈ R3 ， H ， W为输入图像，y={{h1 ，w1}，.，{h n，w n}}是真实车道标注，使得hi− hi−1= 1，并且ym∈ R1，H，W是车道的真实分割掩码。损失L（θ）限定Lmask（θ）=−lo g（p（ym|fθ（x）（8）L序列（ θ）=在训练过程中，为了数值稳定性，我们将W= logσ2代入（11我们固定W的实验结果与允许W可学习的实验结果相似然而，我们对下面报告的所有结果保持动态加权损失，以避免调整超参数。3.4. 暴露偏倚因为我们的模型是自回归的，所以通过只对地面实况注释进行条件化来训练ph，w，±1会导致测试时的漂移[32]。解决这个问题的一种方法是允许网络根据自己提出的解码采取行动[1]的作者采用这种方法使用自我批判序列训练[33]ΣΣn−lo g（p（wi+s−wi|{hi，wi}，fθ（x））（九）并取得良好的效果。虽然我们尝试了强化学习，s∈{−1，1}i=1L（θ）=L掩码（θ）+L序列（θ）（10）由于二进制分割和成对预测的任务具有不同的不确定性和尺度，因此我们动态地对这两个目标进行加权[20]。我们结合11586我们发现，训练网络去噪车道注释--也被称为用“合成大小的扰动”来扩充数据集该技术如图3所示。对于每个地面实况注释y，我们添加高斯噪声并训练网络以预测与y中的像素相同的目标。我们11587图4.顶行示出了来自Tusimple数据集的三个图像xi及其注释。底部四行显示来自G（xi）的样本，其中覆盖了调整后的Tusimple注释。我们使用这些额外的训练样本来使网络偏向形状而不是纹理[11]。因此生成训练示例sN（0. 5，σI）σ（12）p（h，w+s，sign）=y（i+sign）−w−s+L（13）其中sign∈ {-1，1}。我们调整σ作为一个超参数，它取决于数据集和图像大小。我们将地面真值差y（i+sign）−w−s+L箝位在0和2L+ 1之间，将w+s箝位在0和图像宽度3.5. 适应数据驱动方法的缺点是，一旦我们在远离图像分布的图像上评估模型，我们对性能的保证就很弱。为此，我们利用MUNIT框架[17]将来自公共数据集的图像与地面实况注释转换为我们在各种天气和照明条件下驾驶通过马萨诸塞州获得的图像分布。为了对无序数据集D和D′中的图像执行样式转换，CycleGAN框架[38]为每个数据集D和D′训练编码器-生成器对E，G，使得G（E（x））对于x≠D，分布y<$G′（E（x））和y<$D′被最小化，与D′的类似陈述。MUNIT框架将该模型推广为包括样式向量sN（0，I）作为编码器E的输入。因此，风格翻译可以从中采样的分布，而不是确定性预测。如图4所示，我们使用MUNIT来用困难的训练示例来增强令D={xi，yi}是图像xi和车道注释a的数据集。tionsyi andD′={xi}是没有标签的图像的语料库从经验上讲，我们发现风格转移保留了地理-输入图像的度量内容因此，我们可以通过从由下式定义的分布D′{x′，y′}中采样来生成新的训练样本{x′x，yD（14）x′<$G′（E（ x，s））s<$N（0，I）（15）y′=y（16）虽然世界各地的车道的表示是位置依赖的，我们的理论是车道的几何形状的分布是恒定的。无监督的风格转换允许我们调整到不同的风格和天气条件，而不需要额外的人工注释。4. 实验我们在Tusimple车道标记挑战和CULANE数据集上评估了我们的车道检测模型[29]。Tusimple数据集由3626个带注释的1280x720图像组成，这些图像是天气不是阴就是晴。我们使用与EL- GAN相同的训练和验证分割[12]。在没有有效的公共排行榜的情况下，我们只报告验证集的结果。我们使用公开的评估脚本来计算准确率、假阳性率和真阳性率。其次，我们采用在Tusimple上训练时确定的相同超参数，并在具有挑战性的CULANE数据集上训练我们的网络。CULANE由88880张训练图像、9675张验证图像和34680张测试图像组成。测试集包括关于图像的环境元数据，例如图像是否拥挤，没有车道线，或者是紧密弯曲的。我们报告了这些案例中每一个的评估指标，正如CULANE所做的那样[29]。最后，为了评估我们的模型适应新场景的有效性，我们在马萨诸塞州的各种天气条件下驾驶，并记录了10000张仪表板凸轮数据图像。使用公开的源代码，我们训练MUNIT在Tusim- ple训练集的镜头和我们自己的图像之间进行转换，然后从生成器中采样10000张图像。我们注意到，在定性评估原始注释与生成的图像匹配的程度时，相机的帧被变换。因此，我们使用单个比例缩放和偏移原始注释的高度坐标，11588我方法累积（%）FPFNEL-GAN（基本）93.30.0610.104EL-GAN（基本++）94.90.0590.067FastDraw Resnet1894.90.0610.047FastDraw Resnet5094.90.0590.052FastDraw Resnet50（改编）95.20.0760.045图5. FastDraw预测的分布的标准偏差在来自Tusimple测试集的各种图像上绘制为误差条。我们的彩色地图是阈值在0和9像素的标准分辨率。我们发现，在车道的确切位置没有很好定义的区域，网络准确地变得更加不确定，例如当车道标记很宽，有阴影，车道可能是假阳性，或者车道被其他车辆遮挡时。在所有图像上的偏差以产生D′。w′=mwi+b（17）来自伪训练示例生成器的示例如图4所示。FastDraw与其他已发布模型的速度比较如表2所示。对演员们在大小为128 ×256的图像上训练，我们使用L= 6像素和σ= 2像素。对于在大小为352×640的图像上训练的模型，我们使用L= 16像素和σ= 5像素。5. 结果5.1. TuSimple我们在Tusimple数据集上训练FastDraw。我们在所有实验中使用Adam优化器训练7个epoch，批量大小为4 [22]。我们将学习率初始化为1.0e-4，并每隔一个epoch将学习率减半。为了生成车道初始点的候选者，我们屏蔽了图像的中心，并使用scikit-learn [31]中的DBSCAN，其中x2= 5像素进行聚类。给定这些初始位置，我们按照FastDraw的预测向上和向下绘制车道。我们将我们的算法与EL-GAN [12]进行了定量比较。EL-GAN通过向输出分割添加额外的对抗性损失来改进传统二进制分割的车道检测。因此，分割近似于可能标签的分布。然而，这种方法仍然需要一个启发式解码器将分割转换为结构化的车道对象。如表1所示，FastDraw在所有Tusimple指标上都与EL-GAN竞争。表1.我们使用Tusimple评估指标来比较量化与EL-GAN [12]。FastDraw以更少的层数实现了与EL-GAN相当的性能。我们注意到，虽然自适应FastDraw的准确性达到了很高的准确性，但它也具有最高的假阳性率。我们的理由是，网络从D'中学习了更强的车道形状先验，但风格分割并不总是保留车道的全部数量，这导致道路的一侧在D'数据集中被错误地标记为车道。5.2. 不确定因为我们的网络预测每个像素的分类分布，域为−L<=l<=L，所以我们可以快速计算该分布的标准差，并将结果解释为宽度维度的误差条。我们发现，网络中的不确定性增加，封闭和阴暗的条件。示例图像如图5所示。这些估计可以通过自动驾驶堆栈传播，以防止在高不确定性情况下鲁莽驾驶。5.3. 学习的解码器与简单的启发式解码器不同吗解码二进制车道分割的简单方式是从初始像素开始，然后选择初始像素上方的行中具有最高可能性的像素。为了表明我们的网络没有遵循这个简单的解码过程，我们计算了网络选择符合这种简单启发式方法的像素的频率。结果示于表3 .第三章。我们发现，虽然这两个解码器的输出是相关的，学习解码器一般是不同的启发式解码器。模型每秒帧数我们90.31H-Net [20]52.6CULane [21]17.5PolyLine-RNN [9]5.7埃尔-甘[7]<10表2.由于FastDraw几乎不需要后期处理，因此运行时由CNN骨干的前向传递主导，可以进行大量优化。11589图6. 我们证明了我们的网络可以在我们训练的公开注释数据集以及从马萨诸塞州的天气条件和场景中收集的图像上以高精度执行。列1示出第4-8列显示了调整后的FastDraw的类似视觉效果前4行中的图像来自Tusimple测试集。其余的来自我们自己在马萨诸塞州高速公路上收集的驾驶数据。我们发现，数据增强训练网络绘制更平滑的曲线，更好地识别车道的末端，并找到图像中的所有车道。即使在Tusimple图像上，注释也可以提高每像素的似然预测。在分裂时，网络选择一种分布模式，而不是取平均值。11590|ph,w, 1 − argmax ph +1,w +∆ w,0|%<112.6<358.2<587.1表3.对于一系列解码的折线，我们计算具有最大li kph±1，w，0的像素像素el之间的距离，在e{h，w}上，其中所选择的a r gma xph，w，±1。我们报告距离小于1，3，五个像素。我们发现，该网络一般预测值与ph，w，0预测一致。来自朴素解码器的De viat ion解释了为什么当分割掩码有噪声时，网络仍然能够表现良好。[29]第二十九话FastDraw Resnet50正常87.485.9拥挤64.163.6晚上60.657.8没有线38.140.6阴影60.759.9箭头79.079.4Dazzle54.157.0曲线59.865.2十字路口25057013表4.我们比较了在CULane数据集上训练的FastDraw和在CULane 测试集上训练的 Resnet-50 。我们不过滤来自FastDraw的车道预测，并获得有竞争力的结果。虽然这些分数低于SCNN的分数[29]，但我们强调，[29]中引入的架构改进是对FastDraw解码器性能的补充。5.4. 库兰我们在完整的CULANE训练数据集上训练FastDraw[29]。我们使用与Tusimple上确定的超参数相同的超参数，指数学习率时间表周期为1000个梯度步长，乘数为0.95。FastDraw发现该模型与CULANE Resnet-50基线相比具有竞争力的性能。通过[29]提供的开源评估计算的重叠0.5的IoU如表4所示。值得注意的是，FastDraw在曲线上的表现优于基线，正如预期的那样，考虑到CULANE假设车道将由立方多项式很好地表示，而FastDraw保留了车道的立方多项式5.5. 马萨诸塞我们评估的能力FastDraw推广到新的场景。在图6中，我们定性地证明了除了Tusimple训练示例之外，在风格转换训练示例上训练的网络可以很好地推广到夜景，傍晚场景和雨天场景。我们强调，没有额外的人类注释，图7.我们在一个300图像数据集的“长尾”图像标记车道边界，在增强数据集上训练的模型的精确度/召回率权衡比没有训练的模型的权衡要好得多。图6中定性地展示了自适应的效果。需要训练FastDraw在这些困难的环境中保持稳健。此外，我们在图7中绘制了使用和不使用自适应训练的FastDraw模型的精度/召回率权衡。我们使用与Tusimple评估中使用的相同的假阳性和假阴性定义。增强编译的模型对场景变化的鲁棒性明显更强。我们认为，这些结果与最近的研究结果相呼应，即网络经过训练可以完成简单任务。在简单的数据集上学习不泛化的低级判别特征[11]。用于数据增强的无监督样式传输是作为这种现象的一种天真但有效的正则化提供的。6. 结论我们证明，有可能建立一个准确的车道检测模型，可以适应困难的环境，而不需要额外的人类注释。我们的模型的主要假设是，车道是曲线段，其是图像的高度轴的函数，并且车道可以通过仅对被确定为车道的一部分的先前像素进行调节来迭代地绘制通过这些假设，我们在标准和困难的环境条件下实现了车道检测任务的高精度。引用[1] D. Acuna，H. Ling、红腹锦鸡儿A. Kar和S.菲德勒用多边形对分割数据集进行有效的交互式标注。CoRR，abs/1803.09693，2018。一、三、四[2] M. 艾丽城市街道中车道标志的实时检测CoRR，abs/1411.7113，2014年。二、三[3] M. Artetxe湾Labaka，E.Agirre和K.小周无监督神经机器翻译CoRR，abs/1710.11041，2017。311591[4] S. M. 阿兹米山口 Fische r，M. K？rne r和P. Reinartz 空中车道网：使用小波增强的成本敏感对称全卷积神经网络进行空中图像中的车道标记语义分割。CoRR，abs/1803.06904，2018。3[5] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器-解码器架构。CoRR，abs/1511.00561，2015年。3[6] M.班萨尔A。Krizhevsky和A. S.奥加尔Chauffeurnet：通过模仿最好的和综合最坏的来学习驾驶。CoRR，abs/1812.03079，2018。二、四[7]M. 博贾斯基， D. D. 泰斯塔 D. Dworakowski， B.费纳B. Flepp，P. Goyal，L. D.杰克尔湾蒙福特大学穆勒J. Zhang，X.张，J.Zhao和K.Zieba。自动驾驶汽车的端到端CoRR，abs/1604.07316，2016。3[8] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用局部仿射场进行实时2017年IEEE计算机视觉和模式识别会议，2017年7月。3[9] L. 卡斯特雷奥恩。昆杜河 Urtasun和S. 菲德尔河用一个-n-rnn表示对象实例。CoRR，abs/1704.05548，2017。3[10] A. Dundar，M. Liu，T. Wang，J. Zedlewski，and J.考茨域风格化：一个强大的，简单的合成到真实图像域适应基线。CoRR，abs/1807.09384，2018。二、三[11] R. 盖霍斯山口卢比施角 Michaelis ，M.Bethge ， F.A.Wich-mann和W.布兰多ImageNet训练的cnn偏向纹理;增加形状偏差提高了准确性和鲁棒性。 CoRR ，abs/1811.12231，2018。五、八[12] M. 加福里安角Nugteren，N.巴卡岛Booij和M.霍夫曼。El-gan：嵌入损失驱动的生成对抗网络用于车道检测，2018。三五六[13] D. Ha 和 D. 埃克素描的神经表现。 CoRR ，abs/1704.03477，2017。3[14] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CoRR，abs/1512.03385，2015。4[15] S. Hochreiter和J.施密特胡博长短期记忆。神经元计算，9（8）：1735-1780，Nov. 1997. 2[16] N. Homayounfar，W. C.马，S. Kowshika Lakshmikanth和R.乌塔松用于结构化在线地图的分层递归注意网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月第1、3条[17] X. Huang，M. Liu，S. J. Belongie和J.考茨多模态无监督图像到图像翻译。CoRR，abs/1804.04732，2018。三、五[18] P. Isola，J. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。 CoRR， abs/1611.07004 ，2016。3[19] S. Jung，J. Youn，and S.苏基于时空图像的高效车道线检测。 IEEE Transactions on Intelligent TransportationSystems，17（1）：289-295，Jan 2016. 2[20] A. Kendall，Y.Gal和R.西波拉使用不确定性来权衡场景几何和语义损失的多任务学习CoRR，abs/1705.07115，2017。二、四[21] A. Kendall，J. Hawke，D. Janz，P. Mazur，D. Reda，J. 艾伦诉Lam，A.Bewley和A.Shah. 一天学会开车CoRR，abs/1807.00412，2018。3[22] D. P. Kingma 和J. BA. Adam ：随机最佳化的方法。CoRR，abs/1412.6980，2014。6[23] A. Laddha，M.K. 科卡马兹湖E. Navarro-Serment，以及M.赫伯特地图监督道路检测。2016年IEEE智能车辆研讨会（IV），第118-123页，2016年6月。3[24] G.兰普尔湖Denoyer和M.兰扎托仅使用单语语料库的无监督机器翻译。CoRR，abs/1711.00043，2017。3[25] T. Lin，P.多尔河B. 格希克角他，B.Hariharan和S. J·贝隆吉用于目标检测的特征金字塔网络。CoRR，abs/1612.03144，2016。3[26] T. Lin，P. 戈亚尔河B. 格希克角He和P. 多尔拉。密集目标检测的焦度损失。CoRR，abs/1708.02002，2017。3[27] M. Liu，T. Breuel和J.考茨无监督图像到图像翻译网络。CoRR，abs/1703.00848，2017年。3[28] D.内文湾D. Brabandere，S.乔治利斯，M。Proesmans和L。V.Gool针对端到端车道检测：实例分割方法。CoRR，abs/1802.05591，2018。2[29] X. Pan，J. Shi，P. Luo，X. Wang和X.唐空间一样深：用于交通场景理解的空间 CNN 。 CoRR ，abs/1712.06080，2017。一、二、五、八[30] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito，Z. Lin，L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。在NIPS-W，2017年。4[31]F. 佩德雷戈萨， G. 瓦罗科， A. 格兰福特，诉米歇尔B. Thirion，O.Grisel，M.Blondel，P.普雷滕霍费尔河外斯V. Dubbal， J·范德普拉斯， A. Passos，D. 库纳波M. Brucher，M. Perrot和E.杜什奈Scikit-learn：Python中的机器学习。Journal of Machine Learning Research，12：2825-2830，2011. 6[32] M.兰扎托，S. Chopra，M. Auli和W.扎伦巴用递归神经网络进行序列级训练. CoRR，abs/1511.06732，2016。4[33] S. J. Rennie，E.Marcheret，Y.Mroueh，J.罗斯和V。戈埃尔图像字幕的自我批判序列训练。 CoRR ，abs/1612.00563，2016。4[34]A. van den Oord， S. 迪勒曼 H. Zen，K. 西蒙尼扬O. Vinyals，A. Graves，N. Kalchbrenner，A. W. 前辈K. Kavukcuoglu Wavenet ：原始音频的生成模型 .CoRR，abs/1609.03499，2016。3[35] A. 瓦斯瓦尼北沙泽尔，北Parmar，J.乌斯科赖特湖琼斯A. N.戈麦斯湖，澳-地凯泽和我。波洛苏欣注意力是你所需要的。CoRR，abs/1706.03762，2017。2[36] Z. Wang，W. Ren和Q.邱Lanenet：用于自动驾驶的实时车道检测网络，2018年。3[37] B. Wu，X.Zhou，S.Zhao，X.Yue和K.库茨挤压 -segv2：改进的模型结构和无监督域自适应，用于从激光雷达点云进行道路对象分割，2018年。311592[38] J. Zhu，T. Park、P.Isola和A. A.埃夫罗斯使用循环一致对抗网络的不成对图像到图像翻译。 CoRR ，abs/1703.10593，2017。三、五[39] Q. Zou，H.江角，澳-地戴，Y.约湖，加-地Chen和Q.王.使用深度神经网络从连续驾驶场景中进行鲁棒的车道检测。CoRR，abs/1903.02193，2019。3

下载后可阅读完整内容，剩余1页未读，立即下载