没有合适的资源?快使用搜索试试~ 我知道了~
1基于金字塔占用网络托马斯·罗迪克剑桥tr346@cam.ac.uk罗伯特·西波拉剑桥rc10001@cam.ac.uk摘要自动驾驶车辆通常依赖于其环境的高度详细的鸟瞰图,其捕获场景的静态元素(例如道路布局)以及动态元素(例如其他汽车和行人)。动态生成这些地图表示是一个复杂的多阶段过程,其中包含许多重要的基于视觉的元素,包括地平面估计、道路分割和3D对象检测。在这项工作中,我们提出了一个简单的,统一的方法,直接从单目图像估计地图使用一个单一的端到端的深度学习架构。对于地图本身,我们采用语义贝叶斯占用网格框架,允许我们在多个相机和时间步 长 上 琐 碎 地 积 累 信 息 。 我 们 通 过 在 NuScenes 和Argoverse数据集上对几个挑战基线进行评估来证明我们的方法的有效性,并表明与现有的最佳方法相比,我们能够分别实现9.1%和22.3%11. 介绍自动驾驶车辆和其他机器人平台需要对其环境进行丰富、简洁和详细的表示,该表示捕获静态世界的几何形状和布局以及其他动态代理的姿势和尺寸。这种表示通常为所有决策提供基础,包括路径规划、避碰和导航。一种流行的解决方案是以鸟瞰图(BEV)地图的形式来表示世界,而不是完整地捕获完整的3D世界,这提供了一种捕获场景的空间配置的紧凑方式。这样的地图是方便的,因为他们是简单的可视化和处理,利用这一事实,在许多情况下,重要的-1 源 代 码 和 数 据 集 分 割 将 在 github 上 提 供 。 com/tom-roddick/mono-semantic-maps.可驾驶儿童穿越行人道停车场汽车卡车公共汽车拖车施工veh.步行摩托车自行车三角锥屏障图1.我们算法的预测示例。给定一组环绕视图图像,我们预测一个完整的360度鸟瞰视图语义地图,它既捕获道路和人行道等静态元素,也捕获汽车和行人等动态元素。用于导航的编队主要局限于地平面。然而,鸟瞰图的构造目前是复杂的多级处理流水线,涉及多个基本机器视觉任务的组成:它可以从运动中提取结构、地平面估计、道路分割、车道检测、3D对象检测等。直觉上,所有这些任务都是相关的:知道道路的布局应该告诉我们应该在图像中的哪里寻找汽车;并且类似地,从建筑物后面出现的汽车可以指示后面隐藏的支路的存在。似乎有一个明确的冲动,以取代这一复杂的管道与一个简单的-1113811139Ple端到端的方法,能够对世界进行整体推理,并直接从传感器观察结果预测所需的地图表示。在这项工作中,我们专注于特别具有挑战性的情况下,单目图像的BEV地图估计。考虑到LiDAR和雷达传感器的高成本和有限的分辨率,仅从图像传感器构建地图的能力可能对强大的自动驾驶汽车的开发至关重要。虽然有许多地图表示是可能的,我们选择表示世界使用概率ocu-cu-grid框架。占据网格地图[10]广泛用于机器人技术,并允许我们在多个传感器和时间步长上简单地整合信息。与其他地图表示不同,它们基于网格的结构也使它们非常适合卷积神经网络的处理,使我们能够利用深度学习文献的强大发展在这项工作中,我们将占用网格的传统定义扩展到语义占用网格的定义[17],其编码每个网格位置处对象类别的存在或不存在。然后,我们的目标是预测每个语义类出现在鸟瞰图中每个位置本文的贡献如下:1. 我们提出了一种新的密集Transformer层,它将基于图像的特征映射到鸟瞰图空间。2. 我们设计了一个深度卷积神经网络架构,其中包括一个在多个图像尺度上运行的变压器金字塔,以从单目图像中预测准确的鸟瞰图。3. 我们在两个大规模的自动驾驶数据集上评估了我们的方法,并表明我们能够大大提高文献中领先作品的性能我们还定性地展示了如何贝叶斯语义占用网格框架可以用来积累多个相机和时间步长的地图预测,以建立一个完整的场景模型。该方法的速度足以用于实时应用,在单个GeForce RTX 2080 Ti图形卡上每秒处理23.2帧2. 相关工作自动驾驶的地图表示高清鸟瞰地图已被证明是一系列不同驾驶任务的非常强大的表示。在3D物体检测中,[27]使用来自地图的地面高度先验信息来提高输入LiDAR点云的质量[18]将视觉观察与稀疏高清地图特征相关联,以执行高度准确的定位。鸟瞰图在世界上特别有价值考虑到其度量性质,预测和规划的背景[9]和[4]将本地环境渲染为栅格化的俯视图地图表示,结合道路几何形状、车道方向和交通代理,并使用该表示来预测未来的车辆轨迹。[2]使用类似的表示作为其模仿学习管道的输入,允许自治代理通过递归预测其未来状态来驱动自己[12]使用来自商业GPS路线规划器的渲染地图视图来增强他们基于摄像头的端到端驾驶模型,并表明这显著提高了驾驶性能。从图像的自顶向下表示许多先前的工作已经解决了直接从单目图像预测鸟瞰视图表示一种常见的方法是使用逆透视映射(IPM)通过单应性将前视图像映射到地平面上[1,15]。[28]使用GAN来细化结果预测。其他工作集中在鸟瞰视图对象检测任务上,学习将2D边界框检测映射到自顶向下视图[20,26],或直接在鸟瞰视图空间中预测3D边界框[22]。然而,相对较少的作品已经解决了更具体的问题,从图像生成语义图一些人使用上述IPM方法将图像平面的语义分割映射到鸟瞰图空间[8,23],这种方法对于估计局部道路布局效果良好,但对于位于地平面上方的汽车和行人[13]利用RGB-D图像学习隐式地图表示,可用于稍后的定位。[17]的VED方法使用变分编码器-解码器网络直接从图像预测语义占用网格。然而,在网络中使用完全连接的瓶颈层意味着网络中的大部分空间上下文丢失,导致相当粗糙的输出并且不能捕获小的对象,诸如行人。[21]采用类似的方法,经由全连接视图变换器模块从一堆环绕视图图像预测鸟瞰视图语义分割。[24]建议使用绘画CNN来推断前景对象后面的场景的语义标签和深度,并通过将结果语义点云投影到地平面上来生成鸟瞰图不幸的是,由于缺乏可用的地面实况数据,上述方法中的许多方法被迫依赖于来自立体声[17]、弱对齐地图标签[24]或三维到实域转移[24,21]的弱监督。基于真实数据的培训对于安全关键系统的性能至关重要,我们相信我们是第一个使用直接监督方法进行培训的公司111401/8图像特征多尺度稠密变压器1/16语义占用网格图1/321/64ResNet-50骨干网自顶向下网络1/128特征金字塔我我我i2i1米4.5米9.5米19.5m39米50米图2.架构图显示了我们的方法的概述。(1)ResNet-50骨干网络以多种分辨率提取图像特征。(2)特征金字塔利用来自较低金字塔层的空间上下文来增强高分辨率特征。(3)一堆密集的Transformer层将基于图像的特征映射到鸟瞰图中。(4)自顶向下网络对鸟瞰图特征进行处理,并预测最终的语义占用概率。3. 语义占用网格预测在这项工作中,我们代表了世界的状态作为鸟瞰图语义占用网格地图。占据网格映射[10]是一种离散随机场,其中每个空间位置xi具有相关联的状态mi,其可以是被占据的(mi= 1)或自由的(mi=0)。在实际中,世界的真实状态是未知的,所以我们把m i当作随机变量,估计占有的概率p(m i|z1:t),条件是一组观测z t。可进一步扩展到语义占用网格,其中状态M_c表示在给定网格单元中存在或不存在C类对象,而不是通用单元这些占用率是非排他性的:例如,道路、交叉路口和车辆类别可以想象地共存于同一位置。传统上,在占用网格映射中,占用概率p(m,|z t)是使用逆传感器模型来估计的,该逆传感器模型通常是简单的手工设计的函数,其基于传感器特性从距离传感器读数映射到占用概率。在我们的应用程序中,观察-场景采取图像的形式,并且单元占用捕获场景的高级语义知识。因此,我们建议训练基于CNN的深度逆传感器模型p(m c|z t)=f θ(z t,x i)学习预测占用率完全连接的推理,以将特征从图像映射到鸟瞰图空间。我们将这个密集的Transformer层作为深度金字塔占领网络(PyrOccNet)的一部分。金字塔占有网络由四个主要阶段组成主干特征提取器从图像生成多尺度语义和几何特征。然后将其传递给FPN [16]启发的特征金字塔,该金字塔对低分辨率特征图进行上采样,以提供特征更高的分辨率。 一堆密集的Transformer层一起将基于图像的特征映射到鸟瞰图中,鸟瞰图由自顶向下网络处理以预测最终的语义占用网格概率。该方法的概述如图2所示。3.1. 损失我们使用两个损失函数的组合来训练我们的网络。二进制交叉熵损失鼓励预测的语义占用概率p(m c|zt)以匹配地面实况occupancy。我们的数据集包括许多小对象,如行人,骑自行车的人,和交通锥,我们利用这种损失的平衡变体,其通过常数因子αc对属于c类的占用小区进行上加权:iL=αcmclogp(mc|z)+(1−αc)(1−mc)log(1−p(mc|z))从单个单目输入图像的概率。因此,我们的目标是预测一组多类双-xenti iti it(一)nary labels at each location on a 2D birds-eye-view image.这种情况有许多相似之处,广泛研究的计算机视觉问题的语义分割。然而,使这项任务特别具有挑战性的是输入和输出表示存在于完全不同的坐标系中的事实:前者在透视图像空间中,而后者在正交鸟瞰图空间中。因此,我们提出了一个简单的trans-former层,它既利用了相机的几何形状,然而,神经网络通常以即使在高度不确定的情况下也能预测出高概率。为了鼓励网络在已知不确定的区域中预测高不确定性,我们引入了第二个损失,它使预测的熵最大化,鼓励它们接近0.5:Luncert= 1−p(m c|z t)log p(m c|z t) (2)我们只将这个最大熵损失应用于网格单元11141我我我0我0我其对于网络是不可见的,或者因为它们落在图像的视场之外,或者因为它们是COM,C沿高度轴沿深度轴重新采样至carbohydrate完全闭塞(详见第4.2节)。我们忽略了这些区域的交叉熵损失总损失由两个损失函数之和给出:Ltotal=Lxent+λLuncert(3)H图像特征FC足球俱乐部WCB瓶颈特征ZPolar BEV特性宽XCZ鸟瞰特征其中λ = 0。001是恒定的加权因子。3.2. 时间和传感器数据融合贝叶斯占用网格公式提供了一种使用贝叶斯过滤方法结合多个观测值和多个时间步长信息的自然方法[25]。考虑由相机拍摄的具有外部矩阵Mt的图像观察zt。 我们首先将我们的占用概率p(m c|z t)转换为对数赔率表示,图3.我们的密集Transformer层首先压缩图像-在保持水平维度的同时,沿垂直维度基于特征。然后,我们预测一组功能沿深度轴在极坐标系中,然后重新采样到笛卡尔坐标。高度H和宽度W,转换为鸟瞰图平面上具有C通道、深度Z和宽度X的特征图。密集Transformer层的灵感来自于这样一种观察,即虽然网络需要大量的垂直上下文来音ci,tp(m c|zt)= log1− p(mc|z t)(四)将要素映射到鸟瞰图(由于遮挡、缺少的深度信息,和未知的地面拓扑),在水平方向上的BEV位置之间的关系其方便地等效于网络的前S形输出激活。然后,观察值1至t的组合对数概率由下式给出:可以使用简单的照相机几何形状来建立场景和图像位置。因此,为了最大限度地保留图像的空间信息,我们对图像特征Ci,1:tCi,1:t−1Ci,t-lc(五)映射到大小为B的瓶颈,但保留水平维度W。然后,我们沿着由此可以得到融合后的占用概率,通过应用标准S形函数水平轴,并重新塑造生成的特征图,以给出尺寸为C×Z×W的张量。然而,这一特点p(m c|z1:t)=1.1 + expci,1:tΣ(6)地图,这仍然是在图像空间坐标,实际上,由于透视关系,在正交鸟瞰图空间中,对数几率值lc表示类别c的发生概率:p(mc)使用已知的相机焦距转换成笛卡尔坐标系f和水平偏移u0。3.4. 多尺度Transformer金字塔lc=i(七)01 −p(mc)为了获得全局坐标系中的占用概率,我们对网络的输出进行了重新采样,该网络预测了局部相机帧坐标系中的占用率第3.3节中描述的重采样步骤涉及,对于距相机距离为z的一行网格单元,以fx坐标系,使用外部坐标系矩阵M,即 p(m |z)= f(z,M −1x). 这种方法u=(八)SZt itθtti其中,x是网格分辨率,s是下采样在5.4节中,它既用于将感官信息从一组环绕视图摄像机,并且还在20秒持续时间的观测序列上融合3.3. 致密Transformer层占用网格预测任务的基本挑战之一是输入和输出存在于两个完全不同的坐标系中:透视图像空间和正射鸟瞰空间。为了克服这个问题,我们引入了一个简单的转换层,如图3所示.我们的目标是WLL=L+L−l11142输入特征图相对于图像的因子。然而,对于s使用常数因子是有问题的:对应于远离照相机的网格单元的特征将模糊,而接近照相机的网格单元将采样不足,并且可能发生混叠。因此,我们建议多个变换器,作用于具有下采样因子s k= 2k+3,k∈{0,.,4}。第k个Transformer生成深度值子集的特征,范围从zk到zk−1,其中zk由下式给出fx从具有C通道的图像平面特征图转换,zk=.(九)SK11143表1.特征金字塔的每个层的深度间隔K01234SK8163264128zk(m)39.019.59.04.51.0ResNet层conv3conv4conv5conv6conv7表1中给出了典型相机和栅格设置的zk值。然后通过沿着深度轴连接每个单独的Transformer的输出这种方法的一个缺点是,在高分辨率下,特征图的高 度 Hk 可 能 变 得 非 常 大 , 这 导 致 对 应 的 密 集Transformer层中的参数数量过多。但是,在实践中,我们可以将要素地图裁剪到一定高度出现在训练和验证拆分中。因此,我们重新分配train/val序列,以删除任何重叠的片段,注意确保在位置、对象和天气条件上的平衡4.2.数据生成NuScenes和Argoverse数据集以矢量化城市级地图标签和3D对象边界框的形式提供地面实况注释。我们通过首先使用由数据集提供的相机外部矩阵Mt将所有矢量符号映射到第t个样本的坐标系中来将这些转换成地面实况占用图然后,我们将每个注释光栅化为鸟瞰图中的二进制图像,该二进制图像位于给定相机前方50米处的网格上,两侧各25米,分辨率为每像素25厘米。对于对象注释的情况,我们首先将3D边界框投影到xz平面上以获得H=fymax−yminksk zk(十)二维多边形。此过程的结果是一堆二进制图像,它们代表了对应于世界空间中ymin和ymax之间的固定垂直范围。这意味着裁剪后的特征图的高度在各个尺度上保持大致恒定。特征图取自我们的骨干网络中每个残差阶段的输出,从conv3到conv7。为了确保高分辨率特征图仍然包含大的空间背景,我们以[16]的风格从较低分辨率添加上采样层。4. 实验装置4.1.数据集我们评估我们的方法对两个大规模的自动驾驶数据集。NuScenes数据集[3]包含从波士顿和新加坡的四个地点捕获的1000个短视频序列它包括从六个校准的全景摄像头捕获的图像,23个对象类别的3D边界框注释和丰富的语义地图注释,其中包括车道,交通灯,人行道等的矢量化表示。从这些,我们选择一个子集的四个地图类别,可以可行地估计从图像,以及10个对象类别。Argoverse 3D数据集[5]由65个训练序列和24个验证序列组成,这些序列是在两个城市Miami和Albergburg捕获的,使用了一系列传感器,包括7个全景相机。与NuScenes一样,Argoverse数据集提供了15个对象类别的3D对象注释,以及语义地图信息,包括道路遮罩、车道几何形状和地面高度。从这些中,我们选择了7个对象类别,其中包含足够的训练实例,以及可驾驶的道路遮罩。由于NuScenes和Argoverse主要是对象检测数据集,而不是地图预测数据集,因此故障数据集分割包含多个道路段,从摄像机T观察到的每个语义类别C。然而,所得到的标签表示网络的接近不可能的任务,因为一些网格单元位置位于摄像机视场(FoV)之外或完全被其他对象遮挡因此,我们生成一个额外的二进制掩码,指示每个网格单元是否可见。如果单元在FoV内并且具有穿过它的至少一个LiDAR射线(即,通过FoV的至少一个LiDAR射线),则单元被视为可见的。不被较近的物体阻挡)。4.3. 基线为了证明我们的方法的有效性,我们与两个以前发表的作品进行比较:Lu等人[ 17 ]的变分编码器-解码器(VED)和Pan等人的视图解析网络(VPN)。 [21 ]第20段。这些网络假设了不同的输入和输出维度,因此我们在补充材料的A节中详细介绍了一些小的架构变化反向透视映射(IPM)我们提出了一个简单的基线,灵感来自其他作品[8,23],通过单应性将基于图像的语义分割映射到地平面图像级分割使用最先进的DeepLabv3 [6]网络计算,该网络在Cityscapes [7]上预训练,该网络与NuScenes和Argoverse共享许多相同的类。在NuScenes的情况下,通过将平面拟合到LiDAR点,或使用Argoverse提供的预先计算的地面请注意,在测试时,该信息对于真实的单眼系统是不可用的,这使得该基线具有额外的竞争力。基于深度的非投影这个问题的另一个直观的解决方案是使用单目深度估计器11144我表2.Argoverse数据集上的联合评分(%)的交集CS平均值是Cityscapes数据集中存在的类的平均值,用 * 表示。方法旁边的字母表示消融研究中每个组件的存在:D-密集Transformer层,P- Transformer金字塔,T -自上而下网络。方法可驾驶 *车辆 *Pedest.*大型车自行车 *巴士*拖车摩托车 *平均CS平均值IPM43.77.51.5-0.47.4-0.8-10.2深度未投影33.012.73.3-1.120.6-1.6-12.1VED [17]62.914.01.03.90.012.31.30.011.915.0VPN [21]64.923.96.29.70.93.00.41.913.916.8我们的-基线58.523.43.95.20.511.00.41.913.116.5我们的-D63.827.94.88.81.011.00.03.415.118.7我们的-D+P65.930.77.310.21.79.31.72.216.119.5我们的-D+P+T65.431.47.411.13.611.00.75.717.020.8从图像生成3D点云,然后放下z轴,将基于图像的语义标签转移到地平面上。作为这种方法性能的上限,我们使用通过使用NYU深度数据集中采用的算法加密LiDAR点计算的地面实况深度[19,14]。我们使用相同的DeepLabv3来预测图像级别的标签。4.4. 体系结构和培训详情对于我们网络的骨干和特征金字塔组件,我们使用预训练的FPN网络[16],它集成了ResNet-50 [11]前端。自上而下的网络由8个残差块的堆栈组成,包括转置卷积层,该转置卷积层对鸟瞰图特征从每像素0.5m到0.25m的分辨率进行上采样。对于平衡损失加权αc,我们使用逆类频率的平方根,因为我们发现使用逆频率直接导致对小类的过度预测趋势。不确定性损失加权λ取0.001。我们使用SGD训练所有网络,直到收敛,学习率为0.1,批量大小为12,动量为0.9。4.5. 评价我 们 的 主 要 评 估 指 标 是 Intersection over Union(IoU)得分,我们通过根据贝叶斯决策边界(p(mc))对预测进行二进制化来计算该得 分|z t)>0。(五)。为了解释这个阈值的任意性,我们还提供了精确-召回曲线,部分补充材料。在评估过程中忽略不可见的网格单元(参见第4.25. 结果5.1. 消融研究在与其他方法进行比较之前,我们通过对Argoverse数据集进行消融研究来验证我们从一个简单的基线开始包括骨干网络、将特征几何映射到鸟瞰图的逆透视映射、以及预测最终占用概率的S形层。然后,我们逐步地重新引入我们方法的每个关键组件:密集变压器层(D)、 Transformer金字 塔(P )和 自顶向下 网络(T)。该消融研究的结果如表2的后半部分所示。每个连续的组件通过大约1%的平均IoU的一致因子来提高性能自上而下的网络对可驾驶区域等大型类没有优势,但对摩托车和自行车等小型稀有类有显着提高性能。5.2. 与其他方法的除了上述消融实验之外,我们还根据第4.3节中描述的许多基线方法评估了我们的最终架构。从表2中可以看出,我们的性能明显优于所有以前的方法。两个先前的作品,VPN和VED,在可驾驶区域类(代表路面)上实现了可比较的IoU,但是在较小的类(例如车辆、行人等)上,我们能够获得相当好的结果。我们认为,这种改进是由我们的密集Transformer层与[17]和[21]的完全连接瓶颈相比保留了更多的空间信息这一事实来解释的。这一假设得到了图4所示的定性结果的支持,该结果表明,我们的方法更能够解决细节问题,例如单个汽车(第1行和第2行)或行人人群(第3行)之间的间隔。另一方面,VPN和特别是VED都只能做出相对粗略的预测,并且经常错过重要的特征,例如第3排的汽车。IPM基准在驱动器上实现了相当好的性能11145我图像地面实况IPM深度Unproj.[21]第21话我的世界图4.Argoverse数据集上的定性结果对于每个网格位置i,我们可视化具有最大索引c的类,占有概率p(mc|zt)> 0。五、黑色区域(视野外或无激光雷达回波)在评估期间将被忽略请参见图1以获得完整的类图例。图像地面实况IPM深度Unproj.[21]第21话我的世界图5.NuScenes数据集上的定性结果请参见图1以获得完整的类图例。11146我表3.NuScenes数据集上的联合分数(%)上的交集CS mean是Cityscapes数据集中存在的类的平均值,用 * 表示。IPM40.1-14.0-4.9-3.0--0.60.80.2--- 九点一深度未投影27.1-14.1-11.3-6.7--2.22.81.3---9.4VED [17]54.712.020.713.58.80.20.07.40.00.00.00.00.04.08.7 12.0VPN [21]58.027.329.412.925.517.320.016.64.97.15.64.44.610.817.5 21.4我们60.428.031.018.424.716.820.816.612.38.27.09.45.78.119.1 23.1能够区域类,但在所有其他类上失败,因为预测沿着相机光线拉长,如图4所示。同时,深度非投影方法的成功受到激光雷达点云的固有稀疏性的限制,超出约25m的范围。5.3. NuScenes数据集上的评估在相对较小的Agoverse数据集上证明了我们的方法之后,我们转向NuScenes数据集的更具挑战性的评估场景。我们在表3中报告了定量结果,并在图5中可视化了我们的预测。尽管该数据集的多样性更大,但我们仍然能够以9.1%的相对因子超过次佳方法,即[21]的VPN方法。与Ar- goverse一样,我们的方法始终能够捕获场景中的更精细的在该数据集上,VED方法完全分解为小型(行人、骑自行车者等)的情况。或不经常出现的(建筑车辆、公共汽车)类。5.4. 时间和传感器融合如第5.3节和第5.2节所讨论的,从单个视点预测BEV图通常不足以用于驾驶目的;通常,我们希望考虑多个传感器和历史信息来构建我们的环境的完整画面。在图1中,我们展示了一个示例, 可以使用3.2节中描述的贝叶斯融合方案来组合六个全景摄像机。我们假设p(m c)= 0的先验概率为零. 5、所有班级对于场景的静态元素,如道路、人行道等,我们可以更进一步,通过组合多个时间步上的预测 图6显示了几个示例在NuScenes数据集的20秒长序列上累积占用概率。该网络能够利用来自多个视图的信息来解决模糊性,从而实现更平滑的整体预测。图6.场景级占用栅格图,通过计算20秒序列的占用概率生成。白线表示自我-车辆轨迹。请注意,只有静态类(可驾驶,交叉路口,人行道,停车场)是可视化的。6. 结论提出了一种直接从单目图像预测鸟瞰图的新方法。我们的方法通过结合密集的Transformer层来改进现有技术,该层利用相机几何学将基于图像的特征扭曲到鸟瞰图,作为多尺度Transformer金字塔的一部分除了从单个图像中预测地图外,我们的方法还能够毫不费力地将多个视图中的信息结合起来,以构建周围环境的详尽模型。我们相信,这项工作提供了一个广泛的框架,为未来的工作到其他任务,在鸟瞰图,如车道实例检测和未来的预测。方法11147引用[1] Syed Ammar Abbas和Andrew Zisserman一种从图像中获取 鸟 瞰 图 的 几 何 方 法 。 arXiv 预 印 本 arXiv :1905.02231。2[2] Mayank Bansal 、 Alex Krizhevsky 和 Abhijit Ogale 。Chauf- feurnet:学习驾驶是通过模仿最好的和合成最坏的来实现的。arXiv预印本arXiv:1812.03079,2018。2[3] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。Nuscenes:一个用 于自动驾驶的 多模态数据 集。arXiv预印本arXiv:1903.11027,2019。5[4] Sergio Casas , Wenjie Luo , and Raquel Urtasun.Intentnet:学习从原始传感器数据预测意图。在机器人学习会议上,第947-956页,2018年。2[5] Ming-Fang Chang,John Lambert,Patsorn Sangkloy,Jag-jeet Singh , Slawomir Bak , Andrew Hartnett , DeWang,Pe- ter Carr,Simon Lucey,Deva Ramanan,etal. Argoverse:3D跟踪和预测与丰富的地图。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第8748-8757页,2019年。5[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017. 5[7] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在IEEE计算机视觉和模式识别会议(CVPR)上,2016年。5[8] Liuyuan Deng,Ming Yang,Hao Li,Tianyi Li,BingHu,and Chunxiang Wang.基于限制变形卷积的道路场景 语 义 分 割 。 IEEE Transactions on IntelligentTransportation Systems,2019。二、五[9] Nemanja Djuric,Vladan Radosavljevic,Henggang Cui,Thi Nguyen , Fang-Chieh Chou , Tsung-Han Lin , andJeff Schnei-der.使用深度卷积网络对自动驾驶的交通参与者进行运动预测。arXiv预印本arXiv:1808.05819,2018。2[10] Alberto Elfes等人占用网格:主动机器人感知的随机空间表示。在第六次人工智能不确定性会议论文集,第2929卷,第6页,1990年。二、三[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition(CVPR),第770-778页,2016中。6[12] Simon Hecker,Dengxin Dai,and Luc Van Gool.使用全景摄像头和路线规划器进行驾驶模型的端到端学习。在欧洲计算机视觉会议(ECCV)的会议记录中,第435-453页,2018年。2[13] Joao F Henriques和Andrea Vedaldi。Mapnet:一个用于映射环境的分配空间存储器。在IEEE计算机视觉和模式识别会议上,第8476-8484页,2018年。2[14] Anat Levin,Dani Lischinski和Yair Weiss。使用优化着色。在ACM Transactions on Graphics(TOG),第23卷,第689-694页中。ACM,2004年。6[15] 林建川和王明石。一种基于视觉的汽车泊车辅助系统的俯视图转换模型传感器,12(4):4431-4446,2012。2[16] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第2117-2125页,2017年。三五六[17] Chenyang Lu,Marinus Cortebus Gerardus van de Molen-graft,and Gijs Dubbelman.用卷积变分编码器-解码器网络进行单目语义occu-occu网格映射IEEE Robotics andAutomation Letters,4(2):445-452,2019。二五六七八[18] Wei-ChiuMa,ZahacioTartavull,IoanAndreiBaBazursan , Shen-longWang , Min Bai ,Gellert Mattyus , Namdar Homayoun- far , ShrinidhiKowshika Lakshmikanth,Andrei Pokrovsky,and RaquelUrtasun.利用稀疏语义高清地图进行自动驾驶车辆定位。IEEE/RSA智能机器人与系统国际会议论文集,2019年。2[19] Pushmeet Kohli Nathan Silberman,Derek Hoiem和RobFergus。室内分割和支持从rgbd图像推断。2012年欧洲计算机视觉会议(ECCV)论文集。6[20] Andrea Palazzi,Guido Borghi,Davide Abati,SimoneCalderara,and Rita Cucchiara.学习将车辆映射到鸟瞰图 。 图 像 分 析 与 处 理 国 际 会 议 , 第 233-243 页 。Springer,2017. 2[21] Bowen Pan,Jiankai Sun,Alex Andonian,Aude Oliva,and Bolei Zhou.用于感知环境的跨视图语义分割。arXiv预印本arXiv:1906.03560,2019。二五六七八[22] 托马斯·罗迪克、亚历克斯·肯德尔和罗伯托·西波拉。用于单目三维目标检测的正交特征变换。英国机器视觉会议(BMVC),2019年。2[23] TimoSaémann,KarlAmende,StefanMilz,ChristianWitt,Martin Simon,and Johannes Petzold.用于视觉鸟瞰图解释的有效语义在智能自主系统国际会议上,第679-688页。Springer,2018. 二、五[24] 塞缪尔·舒特,翟梦华,内森·雅各布斯,曼-莫汉·钱德拉克。学习观察周围的物体,以获得户外场景的俯视图在欧洲计算机视觉会议(ECCV)的会议记录中,第787-802页2[25] Sebastian Thrun,Wolfram Burgard,and Dieter Fox. 概率机器人。2005. 4[26] D. Wang,C. D e vin,Q. Cai,P. Kr aühenbuühl和T. 达瑞尔。用于自动驾驶的单目平面视图网络在IEEE/RSJ智能机器人和系统国际会议(IROS),第2876-2883页,2019年。2[27] 杨斌,梁明,拉奎尔·乌塔孙。Hdnet:Exploit- ing高清地图的三维物体检测。在机器人学习会议上,第146-155页211148[28] Xinge Zhu,Zhichao Yin,Jianping Shi,Hongsheng Li,and Dahua Lin.生成对抗性正面视图到鸟瞰图合成。在IEEE 3D视觉国际会议(3DV)的会议记录中,第454-463页,2018年。2
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功