没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文细粒度信息AutoAlign:用于多模3D目标检测的陈泽辉1,李振宇2,张世全3,方良吉3,蒋庆洪3,赵峰 *1,周波磊4,赵航51中国科学技术大学、2哈尔滨工业大学3商汤科技、4香港中文大学、5清华大学国际摘要通过RGB图像或LiDAR点云进行物体检测已在自动驾驶中得到广泛然而,如何使这两种数据源相互补充,相互促进,仍是一个挑战.在本文中,我们提出了AutoAlign,一种自动特征融合的三维目标检测策略。 而不是建立确定性的对应与相机投影矩阵,我们模型之间的映射关系的图像和点云与一个可学习的对齐映射。该地图使我们的模型能够以动态和数据驱动的方式自动对齐非同质特征。具体而言,交叉注意力特征对齐模块被设计为自适应地聚集每个体素的像素级图像特征。为了提高特征对齐过程中的语义一致性,设计了一个自监督的跨模态特征交互模块,通过该模块,模型可以在实例级特征指导下学习特征聚合广泛的实验结果表明,我们的方法可以导致KITTI和nuScenes数据集上分别有2.3 mAP和7.0mAP的改进值得注意的是,我们最好的模型在nuScenes测试排行榜上达到70.9 NDS,在各种最先进的产品中取得了有竞争力的表现。1介绍深度学习的最新进展带来了自动驾驶的快速发展。通过LiDAR点进行的3D物体检测LiDAR点可以捕获精确的3D空间信息用于目标检测,然而,它们通常遭受缺乏语义信息和反射点的稀疏性,导致在雾或拥挤的情况下失败。与点云相比,RGB图像在提供语义和远距离信息方面具有更好的优势因此,许多方法探索RGB相机和LiDAR传感器的数据融合,以提高3D目标检测的性能。像素级特征聚合图像特征查询骨料细粒度信息√体素特征融合特征自动学习的路线图投影自我监督互动语义一致性√ROI功能实例级特征交互2D RoI特征图1:AutoAlign中交互作用在两个层面上:(i)像素级特征聚合保留来自图像的细粒度RGB特征,以及(ii)实例级特征交互增强非同质表示之间的语义一致性多模态3D目标检测器可以大致分为两类:决策级融合和特征级融合。前者检测各个模态中的对象,然后在3D空间中将盒子集合在一起[Panget al. ,2020]。与决策级融合不同,特征级融合将多模态特征组合成一个单一的表示,从该表示中检测目标。因此,检测器可以在推理阶段充分利用来自不同模态的特征。鉴于此,最近开发了更多的特征级融合一条工作线[Voraet al. ,2020;Xieetal. ,2020]将每个点投影到图像平面上,通过双线性插值得到相应的图像特征。尽管在像素级精细地执行特征聚合,但是在这样做时,由于融合点的稀疏性,我们将丢失图像域中的密集图案,即,破坏了图像特征的语义一致性。另一种工作方式[Chenet al. ,2017]使用由3D探测器提供的初始建议来获得不同模态下的相应RoI特征,并将它们连接在一起以进行特征融合。该方法通过实例级融合来保持语义一致性,但在初始建议生成阶段存在特征聚合粗糙和缺乏二维信息的问题。arXiv:2201.06493v2 [cs.CV] 2022年4月+v:mala2255获取更多论文×××∈∈为了更好地利用这两种方法,我们提出了一个集成的多 模 态 特 征 融 合 框 架 , 用 于 3D 目 标 检 测 , 名 为AutoAlign。它使检测器能够以自适应的方式聚合跨模态特征,这被证明是有效的非同质表示之间的建模关系。同时,它利用了像素级的细粒度特征聚合,但同时通过实例特征交互来保持语义一致性(参见图1)。具体而言,为了保留RGB数据中的具体细节,我们设计了交叉注意特征对齐(CAFA)模块,该模块动态地关注图像中的像素级特征,并通过在更高的3D级别(柱或体素)融合特征来保持效率。每个体素特征将查询整个图像平面以获得逐像素语义对齐图。然后,CAFA基于对齐图聚合图像特征,并将它们与原始3D特征连接在一起。为了便于学习点云和图像之间的语义一致性详细地说,我们首先使用成对的2D- 3D建议,由检测器预测,在各自的域中提取区域特征。在此之后,将在2D和3D空间中的成对区域特征之间施加相似性损失。SCFI通过与实例级的跨模态特征交互,增强了CAFA中感知语义相关信息的能力。此外,受多任务学习的启发,我们设计了一个2D-3D检测联合训练范式来规范图像分支的优化。这种训练方案防止了图像骨干的过拟合问题,并进一步增强了3D检测器的性能。这项工作的主要贡献有三方面:• 我们提出了一个可学习的多模态特征融合框架,称为AutoAlign,它在像素级和实例级增强了融合过程。• 本文提出了一种二维-三维检测的联合训练方法,用于正则化从图像分支中提取的特征,提高检测精度。• 通过大量的实验,我们验证了所提出的AutoAlign在各种3D检测器上的有效性,并在KITTI和nuScenes数据集上实现了具有竞争力的性能。2相关工作2.1单模态3D物体检测通常通过RGB相机或LiDAR传感器的单一模态进行。基于摄像机的3D方法以图像作为输入,输出物体在空间中的定位。由于单目摄像机不能提供深度信息, 因此 这些 模型 需要 自己 估计深 度[Chenet al. ,2016]。例如,[Mousavianet al. ,2017]首先预测2D边界框,然后估计对象的深度以将2D框展开为3D。然而,单目3D检测往往无法预测深度信息。因此,立体图像被用来生成密集的点云的3D de-de。保护[Youet al. ,2019;Liet al. ,2019]。用于3D检测的最广泛使用的传感器是LIDAR,其可以被分为三类:体素、点和视图。基于体素的技术将点离散化为体素,并将点聚合为体素以提取特征[Zhou和Tuzel,2018]。不同于基于体素的方法,[Shiet al. ,2019;Yinet al. ,2021 a]直接处理点级别的特征,这保持了由原始点提供的原始几何信息,但是它们通常在计算上是昂贵的。 从每个视图中提取特征也是3D检测中的流行流,其中点被压缩到鸟瞰视图中[Langet al. ,2019]或范围视图[Fanet al. 2021年]的预测。2.2多模态3D目标检测近年来,多模态融合的目标检测方法引起了人们的广泛关注。例如,[Qiet al. ,2018]预测2D域中的盒子,并在3D空间中进一步细化它们。[Kuet al. ,2018]和[Chenetal. ,2017]尝试执行RoI方式融合。为了得到更平滑的BEV图,[Yooet al. ,2020]提出学习用于不同模态的自动校准投影。然而,其遭受特征模糊的问题。其他方法[Sindagiet al. ,2019;Lianget al. ,2018]以点的方式融合特征。例如,[Voraet al. ,2020]使用相机投影矩阵在3D点上绘制2D语义预测,然后执行3D对象检测。[Huangetal. ,2020]设计了一种新的用于细粒度融合的L1-Fusion模块。3方法在本节中,我们将详细描述所提出的AutoAlign我们的方法概述如图2所示。3.1像素级特征聚合以往的工作主要是利用摄像机投影矩阵,以确定性的方式对齐图像和点的功能。这种方法是有效的,但可能会带来两个潜在的问题:1)点不能得到一个更广泛的图像数据和2)只有位置的一致性,而忽略了语义相关性保 持 。 因 此 , 我 们 设 计 了 交 叉 注 意 力 特 征 对 齐(CAFA)模块来自适应地对齐非同质表示之间的特征。CAFA模块不是采用一对一的匹配模式,而是使每个体素能够感知整个图像,并基于可学习的对齐图动态关注像素级2D特征。如图2所示,我们的方法使用ResNet-50作为主干,从给定图像中提取全局特征图。因此,具有H W大小的输入图像将产生具有H/32W/32空间维度的特征图。从图像主干提取的特征图被表示为ZRh×w ×c,其中h、w、c分别是全局特征图的高度、宽度和通道。增加了一个1 -1卷积以降低特征维数,从而产生一个新的特征图FRh×w ×d。 之后,我们将F的空间维度平坦化为一维,得到hw×d特征向量。在我们的交叉注意力机制中,给定特征图F ={f1,f2,...,f hw}(f i表示+v:mala2255获取更多论文--∈ ∈∈S=我Jf=Att(Q,K,V)=sV.(3)ii,jj·DK$23三维分支3D体素化特征建模3D RoIPooling体素化自监督跨模态特征交互3D ROI特征点云对齐贴图交叉注意特征对齐预测的3D框3D从3D到2D图像值映射投影2D框查询二维特征图2D RoI特征2D Branch2D RoIAlign32$图2:AutoAlign的框架它包括两个核心部分:CAFA(Sec.3.1)在图像平面上执行特征聚合3.2)进行跨模态的自监督监督,运用实例级的指导来加强CAFA模块中的语义一致性。第i个空间位置的图像特征)和体素特征P=p1,p2,...,pJ(pj表示从原始点云提取的每个非空vox el特征),从F生成键和值,并且由P产生查询。从形式上讲,Qj=pjWQ,Ki=fiWK,Vi=fiWV,(1)其中WQRd×dk、WKRd×dk和WVRd×dv是线性投影。 对于第j个查询Qj,基于跨模态查询和关键字之间的点积相似度来计算注意力权重:对象的完整性同时受到其粗糙特征聚集和在建议生成阶段期间2D信息的缺乏的影响。为了弥合像素级融合和实例级融合之间的差距,我们引入了自监督跨模态特征交互(SCFI)模块来指导CAFA的学习。它直接利用3D探测器的最终预测此外,代替将跨模态特征连接在一起以进行进一步的框重构,exp(βi,j)i,j,βi,j=Q KT(2)细化后,我们进行了成对的跨模态特征之间的相似性约束,作为实例级指导用于特征对齐。其中k是缩放因子。 十字架的输出注意力机制被定义为所有注意力3#我我根据注意力权重的值:HW拉克纳特我j=1归一化注意力权重si,j对不同空间像素elfi和vo x elpj 之间 的 兴 趣 进 行 建 模,这是图2中所示的对齐映射。这些值的加权和可以聚集细粒度的空间像素以更新pj,这以全局视图的方式用2D信息丰富了点特征。与Transformer架构一样,我们使用前馈网络来生成最终的RGB感知点特征,如下所示:Fatt=FFN(Fattatt),(4)其中FFN()是使用一个全连接(FC)层的简单神经网络[Vaswaniet al. ,2017]。3.2实例级特征交互CAFA是一种细粒度的图像特征聚合方法。但是,它无法捕获实例级信息。相反,RoI-明智的特征融合保持了图3:自监督特征交互的架构。MLP头处理来自图像和点的非同质RoI特征,以生成用于特征交互的交叉模态表示给定2D特征图F和对应的3D体素化特征P,我们随机采样N个区域3D分解,投影机系列停止梯度预测器停止梯度11联系我们自我监督损失HWj=1 exp(βi,j)+v:mala2255获取更多论文D(七)clsreg保护盒,表示为B3D=(B3D,B3D,..., B3D)和CenterPoint [Yin et al. 2021年1月21日,作为代表性的方法,1 2N然后用凸轮把它们投射到二维平面上era投影矩阵,产生一组成对的2D框B2D=(B2D,B2D,.,B2D)。一旦获得配对的我们的实验。对于图像分支,Faster R-CNN [Renet al. ,2015],采用ResNet50作为2D检测器。交叉注意对齐模式的隐藏单元-1 2N盒子, 我们采用2DRoIAlign [Heet al. 、 2017]和3DRoIPooling[Shi et al. ,2020]以获得相应的RoI特征R3D和R2D,其中每个R3D和R2D由下式给出ule设置为128,2DRoIAlign和3DRoIPooling的输出大小均设置为4。自监督跨模态模型的投影器和预测器的MLP单元ULE是2048,隐藏单元号是512。 我们的二维-三维我我以端到端方式优化联合训练框架,R3D=3D RoI池化(P,B3D),带有混合优化器的ner,其中优化我我R2D= 2DRoIAlign(F,B2D).(五)使用AdamW进行优化,使用SGD优化2D分支。我们i i使用MMDection3D[Contributors,2020]作为我们的代码库,对于每个成对的2D和3D RoI特征,我们对来自图像分支的C5和来自点分支的体素化后的特征它们都被馈送到投影头h中,将一个模态的输出变换为匹配另一个模态。与[Chen and He,2021]类似,引入了具有两个完全连接层的预测头f表示两个输出向量为p1=f(h(R3D))和q2=h(R2D),我们最小化特征距离(p1,q2),其中n ∈ i ∈余弦相似性损失,如图3所示。为了使两个模态表示更接近,我们将对称性损失定义为:如果未指定,则应用默认设置。4.2KITTI数据集在本节中,我们将在KITTI数据集上评估我们的框架,并报告平均精度(AP40)。我们在两个代表性的3D对象检 测 器 上 实 现 AutoAlign : PointPillar ( 基 于 柱 ) 和SECOND(基于体素)。 的表1中报告了3D mAP性能。总体而言,我们的AutoAlign在3D中等评价方案下将PointPillar和SECOND显著提高了3.0和2.3 mAP,这验证了所提出方法的有效性11当详细观察结果时,我们发现,LSCFI=2D(p1,q2)+2D(p2,q1)。(六)此外,对于没有预测头的分支,采用停止梯度策略,表示为D(m1,stopgrad(v1)).因此,交互损失被实现为:步行者和骑自行车者的提升最大(在AP3D中等上分别为3.0和3.5mAP我们推断出汽车通常拥有更多点的原因,而行人和骑自行车的人等物体大多缺乏反射,这使得它们更难在3D空间中被检测因此,AutoAlign从RGB数据中受益,RGB数据自然密集,语义和纹理信息丰富。1 1LSCFI=2D(p1,stopgrad(q2))+2D(p2,stopgrad(q1))。4.3NuScenes数据集上的3.3 2D-3D检测尽管多任务学习是有效的,但很少有在大多数以前的方法中,图像骨干直接用来自其他外部数据集的预训练权重初始化在训练阶段,唯一的监督是从点分支传播的3D检测损失。考虑到图像主干中的大量参数,2D分支更有可能在隐式监督下过拟合。为了正则化从图像中提取的表示,我们将图像分支扩展到Faster R-CNN中,并使用2D检测损失对其进行监督其中总损耗L设计为:L=L3D+L2D+LSCFI,(8)L3D=L+L,(9)我们还使用当前最先进的3D检测器CenterPoint在更大的nuScenes数据集上进行实验,以进一步验证AutoAlign的有效性。如表3所示,AutoAlign在nuScenes验证集上实现了66.6 mAP和71.1 NDS,比强中心点基线高7.0 mAP和6.5 NDS。它也超过了最近开发的多模态3D探测器MVP [Yinetal. ,2021b]通过1.1 NDS在相同的单级设置下。此外,由于其简单性和联合训练范式,它不需要任何复杂的虚拟点生成或图像特征预取,这是更适合于现实世界的应用。我们还在补充材料中报告了每个对象类别的详细结果以及测试排行榜上的性能。4.4消融研究要了解AutoAlign中的每个模块如何提升CLS3Dreg3DCLSreg检测精度,我们测试每个组件的基础上-L2D=Lrpn+Lrpn+Lrcnn + Lrcnn.(十)4实验4.1实现细节为了验证AutoAlign的有效性,我们选择PointPillar[Langet al. ,2019],SECOND [Yanet al. ,2018年],线检测器SECOND,并在表2中的KITTI验证数据集上报告其AP性能。当 应 用 交 叉 注 意 特 征 对 齐 时 , 准 确 性 提 高 了 0.5mAP,并且在所有难度级别的对象上都有改进这一结果验证了在聚合跨模态特征时保持图像信息的高分辨率的重要性。+v:mala2255获取更多论文方法自动对齐汽车AP3D(%)简易模块硬行人AP3D(%)简易型硬Cyclist AP3D(%)Easy Mod.硬整体AP3D(%)简易型硬PointPillarC85.8973.8867.9750.1745.1041.0978.6659.5156.0171.5759.5055.0287.1375.4869.8754.8748.5344.6182.2563.4058.8974.7562.4757.79二C87.8077.4774.6864.7359.0852.8483.5667.4262.9778.7067.9963.5088.1678.0174.9069.6762.0358.5986.0470.8965.8381.2970.3166.44表1:KITTI验证集上不带和带AutoAlign的不同3D物体探测器的AP3DCAFA(像素级)SCFI(实例级)2D联合训练AP3D(%)简易模块硬APBEV(%)简易模块硬C78.7079.6467.9968.5463.5064.2481.0581.3574.4275.1370.8671.34CC80.6369.6765.4982.1376.0472.5383.6877.7173.72CCC81.2970.3166.44表2:AutoAlign中每个组件的效果使用SECOND报告KITTI验证集的结果摄像机投影矩阵并利用逐点双线性插值来获得对准的2D图像。其次,我们测试了在[Wanget al. ,2018],其中考虑所有图像特征,但仅具有高注意力分数的感兴趣位置将被聚集以用于跨模态融合。最后,我们采用了一个更一般的形式,这是类似于自我注意模块[Vaswaniet al. ,2017],但我们将其从相同的模态扩展到非同质表示。遵循自我注意的共同设计,我们探索了perfor-表3:nuScenes数据集上的mAP和NDS性能模型在nuScenes训练子集上训练,并在nuScenes验证子集上评估。* 表明我们重新实施了然后,我们添加了SCFI模块,它带来了1.2 mAP的增强,即整体中等AP3D从68.5提高到69.7,这表明特征交互在我们的融合框架中起着关键作用。它对特性对齐进行实例级监督,这暗示了如何在非同质表示中聚合语义配对特征。当加入2D联合训练时,准确率得到提高单头交叉注意模块和多头交叉注意模块。 详细结果列于表4中。 当使用基于点的投影时,由于点无法获得连续的图像特征,因此改进有限。然而,当用非局部块代替点投影时,其性能仍然不能令人满意。可能的原因在于FC层导致过拟合问题。与vanilla非局部块相比,交叉注意的性能更具竞争力,这可能是由于采用了dropout策略和特征归一化。综合考虑计算成本和效率,我们最终采用单头交叉注意作为查询策略。再增加0.6 mAP,AP硬增加1.0 mAP。这样大的改进得益于两个方面:1)联合训练范例规则化了图像骨干的优化; 2)联合优化减少了2D和3D模型之间的训练间隙,并在跨模态特征融合过程中保持了特征4.5讨论在本节中,我们深入研究AutoAlign框架,研究如何实现检测精度,并深入了解其底层机制。对于所有实验,我们采用第4.2节中相同设置的SECOND。研究最佳跨模态查询策略。在这一部分中,我们比较了各种策略的跨模态特征查询。首先,我们选择了广泛采用的融合策略,即。,将点通过表4:跨模态特征对齐的各种查询策略的AP3D性能.寻找适合自监督特征交互的特征源特征交互是CAFA的核心组件,它通过实例级的指导增强了CAFA模块的语义一致性因此,如何为自监督学习选择合适的特征源是一个重要的问题。在仔细研究了点特征和图像特征的选取方法mAP NDS参考查询策略AP3D(%)简易模块 硬点绘45.654.6CVPR2020三维CVF42.149.8ECCV2020中心点56.464.8CVPR2021aObjectDGCNN58.666.0NeurIPS2021MVP66.070.0NeurIPS2021b中心点 *59.666.6CVPR2021a中心点+自动对齐66.671.1-基于点的项目非本地80.2480.0169.4069.1365.6565.34多头交叉关注81.0470.2566.49单头交叉注意81.2970.3166.44+v:mala2255获取更多论文带SCFI不带SCFI带SCFI不带SCFI图4:由CAFA模块从两个随机选择的点体素生成的对齐图的可视化为了验证SCFI模块的有效性,我们还可视化了没有SCFI模块的对齐图SCFI规范化CAFA与实例级语义监督,导致在位置和语义上有意义的对齐图。来源,我们直接从ResNet骨干中获取图像特征(即,C5)和FPN(即,P5)作为候选人。对于点分支,我们选择点主干之前和主干之后的特征。如表5所示,使用C5作为图像特征优于P5。我们推断P5直接用于2D检测的原因,因此限制了Gen-1。与图像相比,其包含较少的身份信息当以负对损失来监视两个相似实例时,如果实例的形状彼此相似,则因此,我们选择负余弦相似性损失与正对我们的特征交互模块。跨模态特征融合的量化能力,而C5对于2D检测和非同质自监督学习都更灵活。当在主干之后选择点特征时,我们观察到相似性损失的快速收敛,但结果并不令人满意。这可能源于3D分支的太多灵活性,即点骨干为点特征提供了复杂变换的可能性,这简化了损耗的优化,但削弱了通过我们提出的自监督特征交互来实现语义一致性的实例级指导。相反,虽然在主干之前使用特征会减慢收敛速度,但模型通过相互作用进行隐式监督,并逐渐学习如何在CAFA模块中对齐跨模态特征。Img FeatPts FeatAP3D(%)简易模块硬P5后脊骨78.4279.1481.5381.2967.4963.98C5后脊骨68.2864.73P5骨干前70.0666.11C5骨干前70.3166.44表5:对于跨模态特征交互,具有来自图像/点的不同特征源的AP3D自监督跨模态学习的最优损失。由于大多数自监督学习方法都是基于同质表示的,因此有必要探索跨模态的最佳自监督损失。我们比较了四种不同的原型,并在表6中报告了结果。我们采用对比损失的经典版本,其中正对和负对都被考虑。请注意,位于3D空间和2D平面中相同位置的特征被认为是正对,而其余特征是负对。NCE损失及其变体InfoNCE的选择不提供显著的增强。然而,当utilizing积极对功能交互,我们观察到显着的改善。我们推断出这些点表6:针对自监督跨模态学习的具有不同损失设置的AP 3D性能。(NCS:负余弦相似度)4.6可视化和分析除了在各种数据集上的检测结果之外,我们还在给定不同的3D查询体素特征的情况下,在学习的对齐图上提供更直接的可视化,如图4所示。为了更好地说明CAFA和SCFI模块之间的相互影响,我们比较了有和没有SCFI的查询注意力图。可以清楚地得出结论,在没有特征交互的情况下,CAFA未能在2D图像上产生有意义的对齐图。相反,当配备SCFI时,CAFA模块可以成功地提供位置和语义上合理的特征对齐图。5结论在这项工作中,我们开发了AutoAlign,一种用于3D物体检测的可学习提出的交叉注意特征对齐模块使每个体素特征能够以细粒度的方式聚合图像信息。此外,设计了一种新的自监督跨模态特征交互模块,以提高CAFA模块在分配过程中的语义一致性。全面的实验结果表明,AutoAlign显著改善了KITTI和nuScenes数据集上的各种3D检测器。我们希望我们的工作可以提供一个新的视角,多模态特征融合的自动驾驶。损失对AP3D(%)简易模块硬NCE损失阳性+阴性79.14 68.65InfoNCE损失阳性+阴性79.63 68.57 65.21CE损失POS80.83 69.73+v:mala2255获取更多论文引用[陈和何,2021]陈新蕾和何开明。探索简单的连体表征学习。在CVPR中,第15750-15758页[Chen et al. Xiaozhi Chen , Kaustav Kundu , ZiyuZhang,Huimin Ma,Sanja Fidler,and Raquel Urtasun.用于自动驾驶的单目3d物体检测在CVPR中,第2147-2156页[Chen et al. Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and Tian Xia.用于自动驾驶的多视角三维物体检测网络在CVPR中,第1907[贡献者,2020] MMDet3d贡献者。MMDetec-tion 3D:OpenMMLab 下 一 代 通 用 3D 物 体 检 测 平 台 。https://github.com/open-mmlab/mmdetection3d,2020.[Fan et al. Lue Fan,Xuan Xiong,Feng Wang,NaiyanWang,and Zhaoxiang Zhang.Rangedet:为基于激光雷达的3D物体检测的范围视图辩护。arXiv预印本arXiv:2103.10039,2021。[He et al. Kaiming He,Georgia Gkioxari,Piotr Doll a'r,andRossGirshick. 面具r-cnn。在ICCV,第2961[Huang et al. 黄腾腾,刘哲,陈锡武,白翔。Epnet:增强点特征与图像语义的三维物体检测。在ECCV,第35-52页[Ku et al. Jason Ku,Melissa Mozifian,Jungwook Lee,Ali Harakeh和Steven L Waslander。基于视图聚合的联合三维投影生成和目标检测。在IROS,第1-8页[Lang et al. ,2019] Alex H Lang,Sourabh Vora,HolgerCae-sar , Lubing Zhou , Jiong Yang , and OscarBeijbom.点柱:快速编码器的对象检测从点云.在CVPR中,第12697-12705页[Li et al. ,2019] Peiliang Li,Xiaozhi Chen,and ShaojieShen.用于自动驾驶的基于立体r-cnn的3d目标检测。在CVPR中,第7644-7652页[Liang et al. ,2018] Ming Liang,Bin Yang,ShenlongWang,and Raquel Urtasun.多传感器三维目标检测的深度连续融合。在ECCV中,第641-656页,2018年。[Mousavianetal.ArsalanMousavian , DragomirAnguelov,John Flynn和Jana Kosecka。使用深度学习和几何的3D边界框估计。在CVPR中,第7074-7082页[Pang et al. 2020] Su Pang , Daniel Morris 和 HayderRadha。Clocs:用于3d目标检测的相机-激光雷达目标候选者融合。在IROS,第1-10页[Qi et al. ,2018] Charles R Qi,Wei Liu,Chenxia Wu,Hao Su,and Leonidas J Guibas.从rgb-d数据中检测三维物体的截锥点网。在CVPR中,第918-927页,2018年。[Ren et al. 任少卿,何开明,Ross Gir-shick和孙健。更快 的 r-cnn : 用 区 域 建 议 网 络 实 现 实 时 目 标 检 测NeurIPS,28:91[Shi et al. ,2019] Shaoshuai Shi,Xiaogang Wang,andHong- sheng Li.从点云生成和检测3d对象建议在CVPR中,第770-779页[Shi et al. Shaoshuai Shi , Zhe Wang , Jianping Shi ,Xiaogang Wang,and Hongsheng Li.从点到零件:基于零件感知和零件聚合网络的点云三维物体检测。TPAMI,2020年。[Sindagi et al. Vishwanath A Sindagi,Yin Zhou和OncelTuzel。Mvx-net:用于3d物体检测的多模态体素网络。在ICRA,第7276-7282页[Vaswani et al. Ashish Vaswani , Noam Shazeer , NikiParmar , Jakob Uszkoreit , Llion Jones , Aidan NGomez,Mukasz Kaiser,and Illia Polosukhin.注意力就是你所需要的。在NeurIPS,第5998-6008页[Vora et al. Sourabh Vora,Alex H Lang,Bassam Helou和Oscar Beijbom。Pointpainting:3D物体检测的顺序融合。在CVPR中,第4604-4612页,2020年。[王和所罗门,2021]王悦和贾斯汀M所罗门。利用动态图进行三维物体检测。NeurIPS,34,2021.[Wang et al. 王晓龙,Ross Girshick,Abhinav Gupta和Kaiming He。非局部神经网络在CVPR中,第7794-7803页[Xie et al. Liang Xie , Chao Xiang , Zhengxu Yu ,Guodong Xu,Zheng Yang,Deng Cai,and Xiaofei He.Pi-rcnn:一个高效的多传感器3d物体检测器,具有基于点的专注接触-融合模块。在AAAI,第34卷,第12460-12467页[Yan et al. ,2018] Yan Yan,Yuxing Mao,and Bo Li.第二:稀疏嵌入卷积检测。传感器,第3337-2247页[Yin et al. Tianwei Yin , Xingyi Zhou , and PhilippKrahenbuhl.基于中心的三维目标检测与跟踪。在CVPR中,第11784-11793页[Yin et al. , 2021 b] Tianwei Yin , Xingyi Zhou , andPhilipp Kr aühenbuühl.多模态虚拟点三维检测。NeurIPS,34,2021.[Yoo et al. Jin Hyeok Yoo,Yecheol Kim,Jisong Kim和Jun Won Choi。3d-cvf:使用交叉视图空间特征融合生成联合相机和激光雷达特征,用于3d目标检测。在ECCV,第720-736页[You et al. Yurong You,Yan Wang,Wei-Lun Chao,Divyansh Garg , Geoff Pleiss , Bharath Hariharan ,Mark Campbell,and Kilian Q Weinberger.伪激光雷达++:自动驾驶中3D物体检测的精确深度。arXiv预印本arXiv:1906.06310,2019。[Zhou and Tuzel,2018] Yin Zhou and Oncel Tuzel. Voxel-net:基于点云的3D对象检测的端到端学习。在CVPR中,第4490-4499页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功