任意摄像机鸟瞰图的语义分割算法：BEVSegFormer

173 浏览量更新于2023-10-15 收藏 1.48MB PDF 举报

自动驾驶

相机传感器

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5935BEVSegFormer：任意摄像机鸟瞰图的语义分割彭朗1，陈志荣1，付张杰1，梁鹏鹏2，程尔康*1 1Nullmax2郑州大学{彭朗，陈志荣，付章杰，程尔康}@ nullmax.ai，liangpcs@gmail.com摘要鸟瞰图中的语义分割是自动驾驶的一项重要任务。虽然这项任务已经吸引了大量的研究工作，它仍然是具有挑战性的，以灵活地应付任意（单个或多个）相机传感器上配备的自主车辆。在本文中，我们提出了BEVSegFormer，一个有效的转换为基础的方法BEV语义分割从任意相机钻机。具体来说，我们的方法首先编码图像特征从任意相机，eras与共享的骨干。这些图像特征，然后增强的可变形的基于变换的编码器。此外，我们引入了一个BEV Transformer解码器模块来解析BEV语义分割结果。设计了一种有效的多摄像机变形注意单元来实现BEV到图像的视图转换。最后，根据BEV中的网格布局对查询进行整形，并进行上采样以监督方式产生语义分割结果。我们在公共nuScenes数据集和自收集数据集上评估了所提出的算法实验结果表明，我们的方法取得了很好的性能，从任意摄像机机架的BEV SE-MANTIC分割。我们还通过烧蚀研究证明了每个组件的有效性。1. 介绍感知信息的鸟瞰例如，在无地图导航解决方案中，构建本地BEV地图提供了高清地图（HD地图）的替代方案，并且对于感知系统的下行任务（包括智能体的预测和运动规划）是重要的。来自摄像机的BEV语义分割通常被视为第一个*通讯作者。图1.图像空间和BEV空间的车道线分割结果比较(a)图像空间上的车道分割，（b）通过（a）的IPM视图变换的BEV分割，（c）我们的BEV车道分割。步骤来构建本地BEV地图。为了从摄像机中获得BEV语义分割，传统方法通常在图像空间中生成分割结果，然后通过反透视映射（IPM）函数将其转换到BEV空间。虽然IPM是桥接图像空间和BEV空间的直接且简单的方式，但是它需要相机的精确的内部和外部参数或实时相机姿态估计。因此，很可能产生较差的视图变换。以车道分割为例，如图所示。1，传统的IPM方法在具有挑战性的场景中提供了不准确的结果，其中存在遮挡或在远处区域。最近，已经研究了用于BEV语义分割的深度学习方法[11，19Lift-Splat- Shoot [21]使用逐像素深度估计结果完成从图像视图到BEV的视图转换。使用深度估计增加了视图变换过程的复杂性。一些方法应用MLP [20]或FC [23]运算符来执行视图转换。这些固定视图变换方法学习图像空间与BEV空间之间的固定映射，并且因此不依赖于输入数据。基于变换器的方法是BEV空间中感知的另一种研究方向。在对象检测任务中，DETR3D [29]引入了3D边界框检测。5936图2.我们的BEV到图像方案与DETR 3D中的3D到2D方法之间的视图转换比较[29]。该方法直接从多个相机图像的2D特征在3D空间中生成预测。通过交叉注意模块的3D到2D稀疏查询实现3D空间到2D图像空间的视图转换。受 DETR 3D [29]的启发，我们提出了一种使用Transformer中的交叉注意机制通过BEV到图像查询来计算视图转换的方法利用新的视角变换方法，我们建立了一种BEV语义分割方法BEVSegFormer，用于对任意摄像机配置进行BEV语义分割。如图2，我们的方法在几个方面不同于DETR3D [29]。首先，DETR3D构造了一组稀疏对象查询，而我们的BEVSegFormer为语义分割任务构建了密集的BEV查询。其次，在DETR3D中，查询应用MLP在3D空间中预测参考点，然后通过IPM将其投影回图像特征空间，这需要相机外部参数。相比之下，在我们的方法中的查询直接预测图像特征空间上的参考点通过MLP算子。通过这种方式，我们的方法的视图转换不依赖于相机的外部参数。此外，为了编码更多的图像上下文特征的查询，我们的方法还使用可变形的注意力回归周围的参考点的采样点。我们的BEVSegFormer由三个主要组件组成：（1）用于提取任意相机的特征图的共享主干;（2）一个Transformer编码器，通过自注意模块嵌入特征映射;（3）BEV转换器解码器，通过交叉注意机制处理BEV查询，输出最终的 BEV 语义分割结果。在 BEVTransformer解码器中，我们引入了一个多摄像机可变形交叉注意模块，将来自多个摄像机的特征图链接到BEV查询，而不需要摄像机的内在和外在参数。具体而言，BEV查询更关注学习的参考点和多相机特征中的对应采样点以这种方式，多相机可变形交叉注意模块提供了一种有效的方法来完成BEV到图像视图变换。在实验中，我们在公共nuScenes数据集和自我收集的数据集上评估我们的BEVSegFormer。我们提出的BEVSegFormer在nuScenes验证集上为BEV分割设置了一个新的最先进的技术，而并验证了各组成部分的有效性.2. 相关工作语义分割。语义分割在高层次场景理解中起着至关重要的作用，是计算机视觉中的一个基本问题。随着CNN的快速发展，最近的方法如FCN [27]和U-Net [24]应用编码器-解码器架构来学习具有特征提取主干的密集预测（例如，[28]和ResNet [9]）。现有的方法还利用策略来进一步提高分割性能，包括无环卷积[4]，金字塔池化模块[34]，链式残差池化机制[14]等。在本文中，我们将ResNet作为编码器的一部分来提取语义特征。BEV语义分割。在自动驾驶和机器人导航中，BEV语义分割是下游功能（例如行为预测和规划）的重要感知任务。Cam2BEV [22]执行空间Transformer模块，通过IPM将透视特征从周围输入转换到BEV空间，这是在平坦地面假设下将图像空间链接到BEV的直接方法。SBEVNet [8]首先使用立体图像特征生成视差特征量以增强BEV表示，然后通过U-Net [24]模型估计BEV表示上的BEV语义布局[11，19，21，26]中的方法利用深度信息来执行视图变换。例如，Lift- Splat-Shoot[21]首先估计隐式像素深度信息，然后使用相机几何形状来建立BEV分割和特征图之间的连接。FIERY [11]对基于视频的输入采取了类似的方法。BEV-Seg [19]使用额外的解析网络通过深度结果来细化VPN [20]使用MLP从交叉视图图像直接生成BEVFishingNet [10]将其扩展为支持多个传感器。PyrOccNet [23]应用FC运算符在不同距离范围内完成转换。类似地，HDMapNet[12]还应用FC运算符从多个摄像机构建本地BEV地图。与以前的作品不同，Monolayout [18]通过标准的编码器-解码器结构执行视图变换。5937图3.拟议网络概述我们的方法包括一个共享骨干，一个Transformer编码器和BEV Transformer解码器模块。基于转换器的语义分割。trans-former最早应用于自然语言处理领域，目前已广泛应用于其他计算机视觉任务中。例如， ViT [7] 为图像分类任务引入了Transformer编码器。DETR [3]及其变体[36]被提出用于通过变换器编码器-解码器架构进行对象检测。SETR [35]是第一个为分段任务扩展Transformer编码器的。SegFormer [31]提出了一种有效的语义分割框架，该框架将分层Transformer编码器与轻量级MLP解码器相结合。FTN [30]介绍了一个完整的Transformer编码器和解码器网络，用于图像分割。根据DETR [3]改编，Mask-Former [5]采用Transformer解码器来计算一组对，每个对由类别预测和掩码嵌入向量组成，然后将其与来自FCN的逐像素嵌入相结合。它以统一的方式提供语义和最近，Transformer已被用于执行视图转换。例如，NEAT [6]使用Transformer编码器，并通过遍历BEV空间中的所有网格，使用基于MLP的注意力将图像特征转换到BEV空间。PYVA [32]通过MLP从CNN编码器-解码器结构然后，通过Transformer交叉注意模块增强该功能[25]中的方法引入了编码器-解码器Transformer块，以将空间特征从图像按列转换为 BEV 。BEVFormer [13]将一组3D点转移回图像空间，并使用可变形注意力从图像特征构建密集的BEV图。投影是由摄像机外部参数计算的。 BEVerse [33]采用 Lift-Splat-Shoot [21]中的方法，该方法通过使用相机几何形状的深度估计来执行PETR [15，16]带来了一种新的视角转换，将3D坐标信息编码为2D图像。年龄特征然后应用Transformer通过3D信息增强的图像特征连接BEV空间和图像空间在[13，16，33]中还研究了时间信息和多个下游任务本文主要研究BEV空间中的空间分割问题。我们的方法有可能扩展到关联的时间信息，并适用于其他下游的知觉任务。与这些工作不同的是，我们引入了一个BEV转换器解码模块，从图像特征中解析BEV语义分割。BEV空间和图像空间之间的视图转换范例不需要相机外部参数，并且它自然地支持任意相机设置。具体地，设计了有效的多相机可变形交叉注意单元来执行BEV到图像视图变换。根据BEV中的网格的布局来重塑查询，并且对查询进行上采样以以监督的方式产生语义分割结果3. 方法图3显示了我们的BEVSegFormer方法的概述。它由三个部分组成：（1）处理任意相机并输出特征图的共享骨干;（2）一个Transformer Encoder，用于增强特征表示;（3）一个BEV Transformer Decoder，用于通过交叉注意机制处理BEV查询，然后将输出查询解析为BEV语义分割。3.1. 共享主干对于单个输入图像，主干获取输入并输出多尺度特征图。对于多个相机配置，这些多个图像共享相同的主干并输出对应的特征图。我们在实验中以ResNet为主干。5938c=1·l=1××∈∈∈图5.语义解码器的图解。图4. 多相机变形十字架的插图-MultiCameraDeformAttn（zq，pq，{xc}Nc）=注意BEV Transformer解码器中的模块MNc KWW′xcpP（一）3.2. Transformer编码器∑m=1m[∑ ∑AmcqkWmx（φc（pq）+φPmcqk）]，c=1k= 1在Transformer编码器中，我们首先应用1× 1卷积其中（m， c， k）表示关注头部的索引相机和采样点。Wm∈RCv×C，c3，c4，c5阶段的操作员从共享W′∈RC×Cv是可学习的参数矩阵，骨干，以获得多尺度功能。xl微升，其中xl∈M线性投影层默认情况下=C v× M。ΔP麦克奇克和RC1×H1×W1，C1为特征图的通道数，H1和W1分别表示特征图在第l尺度下的高度和宽度.与[36]类似，我们在每个尺度生成的特征图上分别应用多尺度可变形自注意模块，并为每个尺度特征图创建额外的可学习尺度级别位置嵌入。多尺度可变形自注意模型不需要计算稠密注意图，只关注参考点附近的一组采样点。Transformer编码器为每个摄像机输出增强的多尺度特征。3.3. BEV Transformer解码器我们的BEV Transformer解码器包括用于计算BEV查询和多相机特征图之间的交叉注意的Transformer解码器，以及用于将查询解析为BEV分割结果的语义解码器在Transformer解码器中，我们在二维BEV空间上构造HqWq查询，然后将这些BEV查询作为Nq=HqWq正则查询在交叉注意模型中处理。密集BEV查询嵌入表示为zqRC×Nq.我们仅使用多尺度特征图的最小分辨率（原始输入分辨率的1/32）作为Transformer解码器的输入。我们将可变形DETR [36]中的可变形注意力模块调整为多摄像机可变形交叉注意力模块，该模块能够将多摄像机的特征图转换为BEV查询，而无需摄像机内部和外部参数。在数学上，令q是zq中的查询元素，并且其参考点p是q，多相机可变形注意力模块被写为：mcqk是第c个摄像机和第m个关注头中的第k个采样点的采样偏移和关注权重。标量注意力权重A mcqk被归一化为总和为1。φc（p<$q）将归一化坐标p<$q重新缩放到输入特征图。图4示出了多相机可变形注意力的总体结构。对于每个BEV查询q，我们应用在其位置嵌入可学习线性投影层，以获得参考点p<$q∈的2D坐标RM×Nc×2，然后使用sigmoid函数进行归一化这些坐标。两个可学习的线性投影层用于预测采样点相对于参考点的偏移，以及这些采样点的注意力权重最后，在采样位置处的摄像机特征与Deformable DETR[36]中多尺度特征中的共享参考点不同，我们学习多相机特征图上的独立参考点，以便网络可以自动选择多相机特征上参考点的不同位置。3.4. BEV语义解码器图图5示出了BEV语义解码器架构。在语义解码器中，我们重塑BEV查询特征zqRC×Nq 从Transformer解码器转换为2D空间特征fqRC×Hq×Wq。然后，2D空间特征fq为馈送到两级BEV上采样模块、丢弃层和1× 1卷积层以计算最终输出fo∈RCseg×Hq×Wq。BEV上采样模块的每一级都由一个3× 3卷积块、一个1× 1卷积块和一个2×双线性插值运算组成一个卷积-5939×.××××N∈∈图6. nuScenes val set上周围相机的BEV分割结果示例。一个典型的块包括卷积层、BN层和ReLU激活函数。在恢复分辨率后，将丢弃率为0.1的丢弃层4. 实验4.1. 数据集Groundtruth蒙版中的3像素宽度Nullmax数据集上的输入图像我们遵循可变形DETR [36]进行网络设计。在实验中使用加权交叉熵损失[1，15，15，15]。针对BEVTransformer de的多摄像机可变形注意设置M=8和K=编码器所有Transformer模块中的嵌入维数设置为256，FFN模块的特征维数我们应用数据增强，包括随机水平翻转，随机亮度，随机对比度，随机色调和随机交换通道。该网络由AdamW [17]优化器优化，具有权重衰减10-4。主干和Transformer的初始学习速率设置为10−5和10−4，并在第100个epoch时降低到10−6和10−5。我们在4个RTX 3090 GPU上训练模型，每个GPU的批量大小为1。每一款时计均用120个epoch从头开始训练。4.3.评价指标和结果对于定量评估，我们测量分割结果和地面实况之间的IoU和mIoU的计算公式如下：IoU（Sp，Sg）=. （SpSTSg）。、（二）nuScenes数据集。nuScenes [1]数据集是一个大规模的自动驾驶数据集，由来自6个周围摄像头（左前、前、前）的Miou（Sp1NS g）。右，左后，后，右后）。总的来说，它有一个包含28，130张图像的训练集和一个包含6，019张图像的验证集三个类别，车道分隔线，车道边界和行人交叉口可用于评估BEV分割。我们在实验中使用了所有周围的摄像头和前置摄像头Nullmax前置摄像头数据集。我们在上海高速公路上采集了一个带有前置摄像头的数据集。该数据集包括各种场景，如人群交通，上匝道和下匝道，阴影，变道和切入。该数据集分为3，905张图像用于训练，976张图像用于验证。交通车道被注释用于评估。4.2.实验设置我们在nuScenes数据集上进行了实验，并使用了与HDMapNet相同的设置[12]。在HD地图上的自我车辆定位用于定义BEV的区域。通过使用周围的摄像头，BEV被设置为围绕自我车辆[-30m，30m] [-15m，15m]。只有在启用前置摄像头的情况下，BEV区域才设置为[0 m，60 m][-15m， 15 m]。道路结构表示为具有5像素宽度的线段。地面实况遮罩设置为400200。在STSU [2]之后，我们使用448800的同样，Nullmax前置摄像头数据集设置为[0 m，80 m]×[-10 m，10m]。Groundtruth掩码的大小为512× 128。车道是（Sp，Sg）=ΣIoUn（Sp，Sg），（3）n=1其中SpRHg×Wg×N和SgRHg×Wg×N是预测结果和基础事实。Hg和Wg表示地面实况掩码的高度和宽度，N是数据集中的类的数量。我们将我们的方法与nuScenes数据集上以前的最先进方法进行了比较。所有这些方法都没有利用时间信息进行BEV语义分割。结果总结见表。1.实验结果表明，我们的方法优于以前的国家的最先进的方法在nuScenes值集。它远远超过HDMapNet（surr）[12]+10.48分频器IoU，+13.89儿童交叉IoU，+10.47图7. nuScenes val set上前置摄像头的BEV分割结果示例。5940表1.与nuScenes数据集上最先进的方法进行比较，而不使用时间信息。‘†’ are the results reported in HDMapNet方法分频器PEDIOU穿越边界所有IPM（B）†25.512.127.121.6IPM（BC）†38.619.339.332.4[21]第二十一话38.314.939.330.8[20]第二十话36.515.835.629.3HDMapNet（Surr）[12]40.618.739.532.9BEVSegFormer51.0832.5949.9744.55表2.nuScenes数据集上前置摄像头的BEV分割结果查询次数分频器PEDIOU穿越边界所有125034.5615.4130.0726.68500037.5417.8234.2529.87表3. Nullmax Front Camera数据集上的BEV分割结果。方法背景IOU车道所有M192.8867.0479.96图9.分析摄像机位置嵌入对nuScenes值集的影响的消融研究结果。图8. Nullmax前置摄像头值集上的BEV分割结果示例。边界IoU和+11.65所有类IoU。分割示例如图所示。六、研究我们的方法具有处理任意相机的能力。我们在表中仅使用nuScenes数据集上二、一些分割结果如图所示。7.仅使用前置摄像头，我们的方法也获得了有竞争力的结果。表中列出了Nullmax前置摄像头数据集上BEV分割的类似观察结果。3.图8提供了具有挑战性的驾驶场景的示例（曲线、切出、坡道和阴影）。我们还探讨了BEV空间中查询数量的影响。该模型具有5，000个BEV查询（1/4的groundtruth mask）与具有1，250个查询的模型相比获得了更好的结果。在整个实验中，查询数量被设置为5，000。4.4. 消融在本节中，我们通过消融研究分析了申报组件的影响。研究了标准多头自注意模块、多尺度可变形自注意模块、标准多头交叉注意模块、多摄像机可变形交叉注意模块以及该方法编码器和解码器的层数。各种骨干的结果也进行了调查。此外，摄像机位置嵌入在多摄像机注意的效果。实验设置和结果见表。4.具有不同协议的方法表示为M1至M7。可学习的相机位置嵌入。我们发现，可学习的摄像机位置嵌入对于多摄像机解码器中的标准交叉注意模块是重要的，而它没有提供多摄像机可变形交叉注意模块的积极效果。在表中。4.采用标准的交叉注意模型进行摄像机位置嵌入，方法M2改进了分割方法，5941表4. nuScenes val set上BEVSegFormer组件的消融研究结果。“Enc”表示模型的编码器，“Dec”表示模型的解码器，“S”表示标准多头自注意模块和标准多头交叉注意模块，“D”表示多尺度可变形自注意模块和多相机可变形交叉注意模块。“#Enc”和“#Dec”表示编码器块和解码器块的数量。‘CE’ denotes camera position方法骨干ENCDec#Enc#十二月CE分频器IOU儿童跨界所有M1ResNet-34SS2244.23（+0.00）24.32（+0.00）42.25（+0.00）36.93（+0.00）M2ResNet-34SS22✓45.43（+1.20）26.57（+2.25）45.30（+3.05）39.10（+2.17）M3ResNet-34SD2247.84（+3.61）28.88（+4.56）46.74（+4.49）41.15（+4.22）M4ResNet-34DD2249.03（+4.80）30.55（+6.23）48.05（+5.80）42.54（+5.61）M5ResNet-34DD4450.79（+6.56）32.39（+8.07）49.84（+7.59）44.34（+7.41）M6ResNet-101DD4451.08（+6.85）32.59（+8.27）49.97（+7.72）44.55（+7.62）M7ResNet-101DD44✓50.29（+6.06）31.82（+7.50）50.18（+7.93）44.10（+7.17）图 10. BEVSegFormer （ M2 ）和 BEVSegFormer （ M3 ）在nuScenes val集合上的收敛曲线。在两个模型中使用相同的训练时间表。结果为M1。结果见图。9证明了结合摄像机位置嵌入的方法在自我车辆在交叉口处转弯的情况下获得了优越的结果。然而，通过使用多摄像机可变形交叉注意模块，具有可学习摄像机位置嵌入的M7不会提高M6的语义分割结果。我们认为，在标准的多摄像机交叉注意模型中，图像特征的位置嵌入与每个摄像机本身有关，不具有区分不同摄像机的能力。因此，相机的空间信息对于使用标准多相机交叉注意模块的语义分割任务是至关重要的。在我们提出的多相机可变形交叉注意模块中，BEV查询为每个相机学习单独的参考点。它自动编码相机位置信息到交叉注意步骤。事实证明，一个额外的和冗余的相机位置嵌入提供了最终的语义分割精度的边际效应。多摄像头Transformer解码器。实验表中。图4示出了与在解码器中使用标准多头交叉注意的方法M1和M2相比，在解码器中使用多相机可变形交叉注意的多摄像机可变形解码器不需要计算来自所有摄像机的特征图上的密集注意力。通过这种方式，学习的解码器注意力与BEV分割结果具有很强的相关性，这也加速了训练收敛。图10示出了BEVSegFormer（M3）和BEVSegFormer（M2）模型在nuScenes val集合上的收敛曲线。前者只需要一半的训练时期（时期=60）来获得比后者（时期=120）更高的所有类别的IoU。为了研究多摄像机可变形交叉注意，我们分析了图1中的注意图。11.具体地，给定BEV空间上的道路结构的查询，我们在多摄像机可变形交叉注意的最后一层中可视化对应的采样点和注意权重。结果表明，权值较大的采样点聚集在最相关相机的特征图附近。例如，在图的左上角11、BEV空间上的查询（黑点）在前置摄像头中观察，其交叉注意权值大的采样点出现在前置摄像头的特征图即使在某些情况下，采样点没有与期望的查询精确地链接，来自相关相机的图像特征也具有足够的感受野以覆盖BEV空间上的输入查询。多尺度Transformer编码器。在表中。4、比较了标准Transformer编码器（M3）和利用多尺度图像的变形编码器（M4）的分割结果。与可变形DETR [36]类似，可变形编码器模块不仅加速模型收敛，还提供多级图像特征，进而提升BEV分割结果。编码器块和解码器块的数量Ta-5942图11. BEV Transformer解码器模块中多摄像机可变形交叉注意力权重图的可视化。我们可视化了查询的注意力权重图，对应于车道分隔线（绿色），人行横道（红色），车道边界（蓝色）和BEV上的摄像头重叠区域。红色的像素表示注意力权重的值更大。布莱。图4示出了使用不同数量的编码器层和解码器层的分割结果。与方法M4相比，具有更多编码器和解码器层的方法M5的分割结果得到进一步提升。共享主干。最后，我们研究了主链的作用。使用ResNet-101的方法的结果略微改善了使用ResNet-34作为骨干的方法的结果。5. 结论在本文中，我们提出了一种基于变形变换器的方法，用于从任意相机设备中进行BEV语义分割。我们的方法适应最近的检测方法，变形DETR，它处理一个单一的图像BEV语义分割的单一或多个图像。我们表明，我们的Transformer为基础的方法优于以前报道的最先进的方法。通过使用可变形BEV解码器，一种从编码图像特征中解析BEV语义结果的新组件，我们的方法实现了性能的额外提升。在未来的工作中，我们希望探索用于自动驾驶中的BEV语义分割的内存高效且更可解释的基于变换器的引用[1] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页[2] Yigit Baran Can，Alexander Liniger，Danda Pani Paudel和Luc Van Gool。结构化鸟瞰InProceedings of theIEEE/CVF计算机视觉国际会议，第15661-15670页，2021年。[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[5] Bowen Cheng，Alex Schwing和Alexander Kirillov。每像素分类并不是语义分割所需要的全部。神经信息处理系统，34，2021。[6] Kashyap Chitta ， Aditya Prakash 和 Andreas Geiger 。Neat：端到端自动驾驶的神经注意力场。IEEE/CVF计算机视觉国际会议论文集，第15793-15803页，2021年[7] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[8] Divam Gupta，Wei Pu，Trenton Tabor和Jeff Schneider。Sbevnet：端到端深度立体声布局估计。在IEEE/CVF计算机视觉应用冬季会议上，第523-532页，2022年[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[10] Noureldin Hendy ， Cooper Sloan ， Feng Tian ， PengfeiDuan，Nick Charchut，Yuesong Xie，Chuang Wang，and James Philbin.渔网：网格中语义热图的未来推断。arXiv预印本arXiv：2006.09917，2020。5943[11] 安东尼·胡，扎克·穆列兹，尼基尔·莫汉，索夫亚·杜达斯，杰弗里·霍克，维贾伊·巴德里纳拉亚南，罗伯托·西波拉和亚历克斯·肯德尔. Fiery：从环绕单目摄像机的鸟瞰图中预测未来实例在IEEE/CVF计算机视觉国际会议论文集，第15273-15282页[12] 李琦、王悦、王一轮、赵航。Hdmapnet：一个本地语义地图学习和评估框架。 arXiv 预印本 arXiv ：2107.06307，2021。[13] 李志奇，王文海，李宏扬，谢恩泽，司马崇浩，佟璐，乔宇，戴继峰. Bevformer：通过时空变换器从多相机图像学习鸟瞰图表示。arXiv预印本arXiv：2203.17270，2022。[14] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在IEEE计算机视觉和模式识别会议论文集，第1925-1934页[15] Yingfei Liu，Tiancai Wang，Xiangyu Zhang，and JianSun. Petr：用于多视图3d对象检测的位置嵌入变换。arXiv预印本arXiv：2203.05625，2022。[16] 刘英飞，严俊杰，贾凡，李帅林，高奇，王天财，张翔宇，孙健. Petrv2：一个统一的框架，用于从多相机图像进行3D感知arXiv预印本arXiv：2206.01256，2022。[17] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv预印本arXiv：1711.05101，2017。[18] Kauh Mani，Swapnil Daga，Shubhika Garg，Sai ShankarNarasimhan ， Madhava Krishna ， and Krishna MurthyJataval- labhula.单画面布局：从一幅图像中截取的非模态场景布局在IEEE/CVF计算机视觉应用，第1689-1697页[19] Mong H Ng ， Kaahan Radia ， Jianfei Chen ， DequanWang，Ionel Gog，and Joseph E Gonzalez.Bev-seg：使用几何和语义点云的鸟瞰 arXiv 预印本 arXiv ：2006.11436，2020。[20] 潘博文、孙建凯、梁何茵、安道年、周波磊.用于感知环境的跨视图语义分割。IEEE Robotics and AutomationLetters，5（3）：4867[21] 乔纳·菲利翁和桑娅·菲德勒。举起，拍，射：通过隐式取消投影到3d来编码来自任意相机的图像。欧洲计算机视觉会议，第194-210页。Springer，2020年。[22] 莱赫巴斯蒂安兰普和卢茨埃克斯坦。一种sim2real深度学习方法，用于将多个车载摄像头的图像转换为鸟瞰图中的语义分割图像。2020年IEEE第23届智能交通系统国际会议（ITSC），第1-7页。IEEE，2020年。[23] 托马斯·罗迪克和罗伯托·西波拉。使用金字塔占有率网络从图像预测语义地图表示。在IEEE/CVF计算机视觉和模式识别会议论文集，第11138-11147页[24] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。[25] Avishkar Saha，Oscar Mendez Maldonado，Chris Russell和Richard Bowden。将图像转换为地图。arXiv预印本arXiv：2110.00966，2021。[26] 塞缪尔·舒特，翟梦华，内森·雅各布斯，曼-莫汉·钱德拉克。学习观察周围的物体，以获得户外场景的俯视图在欧洲计算机视觉会议（ECCV）的会议记录中，第787-802页[27] Evan Shelhamer Jonathan Long和Trevor Darrell用于语义分段的全卷积网络。 IEEE transactions on patternanalysis and machine intelligence，39（4）：640[28] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[29] Yue Wang ， Vitor Guizilini ， Tianyuan Zhang ， YilunWang，Hang Zhao，and Justin Solomon.detr 3d：通过3d-to-2d查询从多视图图像中检测3d对象arXiv预印本arXiv：2110.06922，2021。[30] 吴思彤，吴天一，林方健，田胜伟，郭国栋。用于语义图像分割的完全Transformer网络。arXiv预印本arXiv：2106.04108，2021。[31] Enze Xie ， Wenhai Wang ， Zhiding Yu ， AnimaAnandkumar ， JoseMAlvarez ， andPingLuo.Segformer：简单有效的设计，用于使用transformer进行语义分割。神经信息处理系统进展，34，2021。[32] Weixiang Yang ， Qi Li ， Wenxi Liu ， Yuanlong Yu ，Yuexin Ma，Shengfeng He，and Jia Pan.有意地投影你的视图：通过交叉视图变换的单目道路场景布局估计在IEEE/CVF计算机视觉和模式识别会议论文集，第15536-15545页[33] Yunpeng Zhang，Zheng Zhu，Wenzhao Zheng，JunjieHuang ， GuanHuang ， JieZhou ， andJiwenLu.Beverse：以视觉为中心的自动驾驶的鸟瞰图中的统一感知和预测。 arXiv 预印本 arXiv ： 2205.09743 ，2022。[34] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和模式识别会议论文集，第2881-2890页[35] Zheng Sixiao，Jiachen Lu，Hengshuang Zhao，XiatianZhu，Zekun Luo，Yabiao Wang，Yanwei Fu，JianfengFeng，Tao Xiang，Philip HS Torr，et al.从序列到序列的角度用变换器重新思考语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第6881-6890页，2021年。[36] Xizhou Zhu，Weijie Su，Lewei Lu，Bin Li，XiaogangWang，and Jifeng Dai.可变形部分：用于端到端对象检测的可变形变压器。在2020年国际学习代表会议上

下载后可阅读完整内容，剩余1页未读，立即下载