没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文幕后:学习用于3D对象检测的遮挡图像Xiangeng Xu,Yiqi Zhong,Ulrich Neumann南加州大学qiangenx@usc.edu,yiqizhon@usc.edu,uneumann@usc.edu图1:在LiDAR扫描(a)和(b)中,当物体的形状基本上丢失时,定位物体是困难的我们发现形状丢失的三个原因:外部遮挡((c)中的红色区域),信号丢失((c)中的蓝色区域)和自遮挡((d)中的绿色区域BtcDet学习完整对象形状的占用概率(e),并实现最先进的检测性能。摘要LiDAR传感器的进步提供了支持3D场景理解的丰富3D数据。然而,由于遮挡和信号缺失,LiDAR点云实际上是2.5D的,因为它们仅覆盖部分基础形状,这对3D感知提出了根本挑战。为了应对这一挑战,我们提出了一种新的基于LiDAR的3D对象检测模型,称为幕后检测器(BtcDet),它学习对象形状先验,并估计点云中部分遮挡(窗帘)BtcDet首先识别受遮挡和信号缺失影响的区域。在这些区域中,我们的模型预测占用的概率,指示区域是否包含对象形状。与此概率图相结合,BtcDet可以生成高质量的3D提案。最后,占用的概率也被集成到建议细化模块中以生成最终的边界框。对KITTI数据集(Geiger et al.2013)和Waymo开放数据集(Sunet al.2019)证明了BtcDet的有效性。特别地,对于两者利润率代码已发布1.1引言LiDAR传感器获取的点云具有高保真度,显著提高了基于LiDAR的模型在3D对象分类方面实现了最先进的性能(Xuet al. 2020)、视觉里程计(P an等人,2021)和3D物体检测(Shi等人,2020)。尽管在这些3D应用中被广泛使用,但LiDAR帧在技术上是2.5D的。在击中第一个物体后,激光束将返回,并从点云中丢失遮挡物后面的形状。为了定位严重遮挡的对象(例如,图1(b)中的汽车),检测器必须识别潜在的对象形状,即使当其大部分丢失时。由于形状错过不可避免地影响物体感知,因此回答两个问题很重要:• 点云中形状丢失的原因是什么?• 形状缺失对3D物体检测有什么影响?汽车和骑自行车的KITTI基准,BtcDet超越所有由卓越1https://github.com/Xharlie/BtcDet的最先进的方法arXiv:2112.02205v1 [cs.CV] 2021年12+v:mala2255获取更多论文(a)用于恢复不同形状的点错过区域。(b)具有形状缺失恢复的3D平均精度。图2:三种形状错过的影响。(b)显示了PV-RCNNNR表示没有形状丢失恢复。EO、SM和SO分别指示在外部遮挡、信号缺失和自遮挡的区域中添加汽车点,如(a)中可视化1.1形状缺失为 了 回 答 第 一 个 问 题 , 我 们 研 究 KITTI 中 的 对 象(Geigeret al. 2013)并发现形状错过的三个原因。外部闭塞。 如图1(c)所示,封堵器阻止激光束到达其后面的红色截头体。在这种情况下,形成外部遮挡,这导致位于红色体素的形状错过。信号未命中 如图1(c)所示,某些材料和反射角会阻止激光束在击中汽车的某些区域(蓝色体素)后返回传感器。在投影到范围视图后,图1(c)中受影响的蓝色平截头体在图1(a)中显示为空像素。自我封闭。LiDAR数据本质上是2.5D。如图1(d)所示,对于同一对象,其远侧的部分(绿色体素)被近侧的部分遮挡在LiDAR扫描中,由自遮挡导致的形状丢失不可避免地1.2形状错过为了分析形状缺失对3D对象检测的影响,我们评估了场景的汽车检测结果,其中我们通过从相似对象借用点来恢复每个对象上的某些类型的形状缺失3.1)。在每个场景中,在解决KITTI的序列和值分割中的某些形状缺失之后(Geigeret al. 2013),我们训练和评估流行的检测器PV-RCNN(Shiet al. 2020年)。这四种情况是:• NR:使用原始数据而不进行形状缺失恢复。• EO:恢复外部闭塞导致的形状缺失(在图2(a)中添加红点)。• EO+SM:恢复由外部遮挡和信号缺失引起的形状缺失(在图2(a)中添加红色和蓝色点)。• EO+SM+SO:恢复所有形状缺失(添加图2(a)中的红、蓝和绿点)。我们报告检测结果的汽车与三个闭塞水平(水平标签提供的数据集)。如图2(b)所示,在没有恢复(NR)的情况下,更难以检测具有较高遮挡水平的对象恢复未命中形状将减少具有不同遮挡级别的对象之间 的 性 能 差 距 如 果 解 决 了 所 有 形 状 缺 失(EO+SM+SO),则消除了性能差距,并且几乎所有对象都可以被有效地检测到(AP>99%)。1.3该方法上述实验通过将点填充到标记的边界框中来手动解决形状缺失,并且显著地改善了检测结果。然而,在测试期间,我们如何在不知道边界框标签的情况下解决形状丢失?在本文中,我们提出了幕后检测器(BtcDet)。据我们所知,BtcDet是第一个针对受遮挡影响的对象形状的3D对象检测器。利用形状先验知识,BtcDet估计受遮挡和信号缺失影响的区域中完整对象形状的占用率。在被集成到检测管道中之后,占用估计有利于区域提议生成和提议细化。最终,BtcDet以显著的优势超越了迄今为止发表的所有最先进的方法。2相关工作基于LiDAR的3D物体探测器。基于体素的方法通过体素网格划分点云以提取特征(Zhou和Tuzel2018)。其中一些还使用稀疏卷积来提高模型效率,例如,SEC-OND ( Y anet al. 2018年 ) 。 基于点 的 方 法 ,例 如PointR-CNN(Shi et al. 2019a)直接从点生成建议。STD(Yang et al.2019)将稀疏细化应用于密集细化,VoteNet(Qi et al.2019 a)从点集群中投票建议中心。这些模型在地面实况边界框上进行监督,而不需要对对象形状进行显式+v:mala2255获取更多论文POSPOPOS SRROCSM公司简介--SOSSPOSPOSRSMROCPOSSS SPOS图3:检测管道。在这 些 区 域 中 ,BtcDet估计形状占用概率()(orangex体素具有()> 0)。3)。当主干网络从点云提取检测特征时,()与主干网络的中间特征图连接在一起然后,RPN网络获取输出并生成3D建议。对于每个提议(例如,绿框),BtcDet将局部几何特征fgeo汇集到附近的网格,并最终生成最终的边界框预测(红框)和置信度得分。学习3D物体检测的形状。边界框预测要求模型理解对象形状。一些检测器学习形状相关的统计作为辅助任务。PartA2(Shi et al.2020)学习对象部分位置。SA-SSD和AssociateDet(He et al.2020;Du et al. 2020)使用辅助网络来保存结构信息。研究(Li等人,2021;Yan等人,2020;Najibi等人,2020;Xu等人2021),如SPG进行点云计算,以提高目标检测。这些模型是形状感知的,但是忽略了遮挡对物体形状的影响计算机视觉中的遮挡处理。遮挡对各种计算机视觉任务(包括跟踪)的负面影响(Liuet al. 2018),基于图像的行人检测(Zhang et al.2018),基于图像的汽车检测 ( Reddyet al.2019 ) 和 语 义 部 分 检 测 ( Saleh etal.2021 ) 。 解 决 遮 挡 的 努 力 包 括 非 模 态 实 例 分 割(Follmann et al. 2019),预测阻塞存在的多级编码(Qi等人,2019 b)。这些研究虽然集中在2D图像上,但证明了建模遮挡对解决视觉任务的好处。点云可见性在(Hu et al.2020)中得到了解决,并用于多帧检测和数据增强。然而,这种方法没有学习和探索可见性对对象形状的影响。我们提出的BtcDet是第一个学习点云数据中被遮挡形状的3D对象检测器。我们比较(Hu et al. 2020)四点三3幕后探测器设Θ表示检测器的参数,p1,p2,.,p N表示LiDAR点云,、分别表示估计的框中心、框尺寸、观察到的对象形状和被遮挡对象形状。大多数基于LiDAR的3D物体探测器(Yiet al. 2020;Chen等人2020;Shi和Rajkumar2020)仅监督边界框预测。这些模型ΘMLE= argmax P(X,D |{p1,p2,..., pN},Θ),(1)而结构感知模型(Shi et al. 2020;He et al. 2020;Du etal.2020)也监督SobΘMLE= argmax P(X,D,Sob|{p1,p2,...,pN},Θ)。( 二更)上述研究都没有明确地对完整的物体形状进行建模=obOC,而在SEC的实验。1.2显示如果获得的改进。BtcDet估计通过预测形状占有率对于感兴趣的区域。之后,BtcDet根据估计的占用概率()进行对象检测。优化目标可描述如下:argmaxP(O S|{p1,p2,..., p N},R SM,R OC,Θ),(3)argmaxP(X,D |{p1,p2,...,p N},P(0 S),Θ)。(四)模型概述。如图3所示,BtcDet首先识别遮挡和信号缺失,然后,让形状占用网络来估计对象形状占用的概率()。培训过程在第2节中描述。3.1.接下来,BtcDet通过骨干网络提取点云3D特征。这些特征被发送到区域规划网络(RPN)以生成3D建议。 为了利用占用估计,将稀疏张量()与ESTA的特征图连接。(See秒(见第3.2段)最后,BtcDet应用提案细化。geo的局部几何特征包括()和多尺度特征提取。对于每个区域的建议,我们构建本地网格覆盖的建议框。BtcDetΘΘΘΘ+v:mala2255获取更多论文SHSSOSS OS OSPOSRROCSM.=ΣRROCSMRROCSMRSMSPOSPOS√RSMi,j,kPO{PO }S响应对象。我们为球形体素设置OS= 1,f=fi−1,maxpool×2(P(OS)),(将局部几何特征fgeo汇集到局部网格上、聚集网格特征并生成最终的边界框预测。(See秒(见第3.3段)3.1学习遮挡中的遮挡近似完整的对象形状,以获得地面实况标签。 遮挡和信号丢失排除了对完整对象形状S的认识。然而,我们可以基于两个假设来近似完整的形状:• 大多数前景对象类似于有限数量的形状原型,例如,行人有几种相同的体型。• 前景物体,特别是车辆和骑自行车的人,大致对称。我们使用带标签的边界框来查询属于对象的点。对于汽车和骑自行车的人,我们将对象点镜像到边界框的中间截面上创建启发式算法(A,B)以评估源对象B是否覆盖目标对象A的大部分并提供可以填充A的形状缺失的为了近似A的完整形状,我们选择得分最高的前3个源对象B1、B2、B3。最后的近似由A含有得双曲正弦值.0为其他人。用作地面实况标签来近似占用率 完整的物体形状。估计占用率比生成点有两个优点:•是由多个物体组成的。借用点逼近的形状细节不准确,不同物体的点密度不一致。在光栅化之后,ocuS• 可以避免点生成的可扩展性问题。估计形状占用。在中, 我 们 用内部点的平均属性(x,y,z,feats)对每个非空球形体素进行编码,然后将它们发送到形状占用网络。该网络由两个下采样稀疏卷积层和两个上采样逆卷积层组成。每一层还包括几个子流形稀疏转换(Grahamand van der Maaten2017)(见附录D)。球面稀疏3D卷积类似于笛卡尔坐标中的卷积,除了体素沿着(r,φ,θ)索引。输出()由S形交叉熵焦点损失(Linet al. 2017年):γ形状小姐。目标对象是在图像中被遮挡的对象Lfocal(pv)=−(1−pv)log(pv),(6)当前训练帧,而源对象是检测训练集中相同类别的其他对象两者都可以通过地面实况边界框来提取请查收其中pvP(OS),如果在体素v处OS1− P(OS) 否则,附录B中H(A,B)的详细信息以及附录G中集合SL形=v∈ROC <$RSMwv·Lfocal(pv),(7)|ROC∪RSM|在球坐标系中标识根据SEC的分析。1.1,其中wvδifv∈形状缺失区域1否则。未命中(见图1(c)和(d))。因此我们需要在学习估计形状之前识别在现实世界的场景中,在距离图像像素的四面体平截头体中最多存在一个点。当激光停止在一个点时,该点后面的整个截头体我们建议使用均匀间隔的球形网格对点云进行体素化,以便可以通过任何LiDAR点后面的球形体素准确地形成遮挡如图4(a)所示,每个点(x,y,z)被变换到球坐标系中为(r,φ,θ):r=n(x2+y2+z2),φ= arctan2(y,x),(5)以来从形状未命中区域,我们为它们分配一个加权因子δ,其中δ1。3.2形状占有概率积分通过自定义监督训练,RNN学习部分观察对象的形状先验,并生成()的。 为了有利于检测,将()从球坐标变换到笛卡尔坐标,并与稀疏3D卷积网络融合,稀疏3D卷积网络提取笛卡尔坐标中的检测特征。例如,球形体素具有中心(r,φ,θ),其被变换为x=rcosθcosφ,y=rcosθsinφ,z=. 假设x,y,z在笛卡尔体素vi,j,k内。θ= arctan2(z,x2 + y2).R包括非空的球形体素,并且空的rsinθ由于几个球形体素可以映射到v取这些体素SV(vi,j,k)的最大值:i,j,k,vi,j,k在这些声音后面有声音。在图1(a)中,虚线标记信号丢失的潜在区域。在距离视图中,我们可以在具有Li-DAR信号的区域和没有信号的区域之间的边界上找到像素。由投射到这些像素的球形体素形成。制定培训目标。在ROC-RSM中,我们预测了体素包含S点的概率P(OS)。作为P(O S)vijk=max({P(O S)sv:sv∈ SV(v)}).(八)这些笛卡尔体素的占用概率形成稀疏张量映射()=()v,然后,通过最大池化将其下采样为多个尺度,并与中间如图4(b)所示,S被放置在核心的位置ini−1.=+v:mala2255获取更多论文SS××−−P OS××LL图4:学习被阻塞的。(a)在对点云进行球面体素化之后,可以识别出遮挡或信号缺失区域ROC_SM。(b)为了标记占用O(1或0),我们将近似的完全对象在相应的框中的形状S(红点)。(c)形状占用网络预测形状占用概率P(O S),用于R OCR SM中的体素,由O S监督。(d)如果预测P(OS)> 0,则体素被着色为橙色。3.图5:通过使用顶部匹配对象的点为对象(蓝色)组装近似的完整形状其中fin、f out和maxpooli−1(·)表示输入fea。ROI池化。在每一个建议,我们构建本地网格具有相同的标题的建议。为了扩大感受野,我们设置一个尺寸因子µ,以便:w网格=μ·w p,l网格=μ·l p,h网格=μ·h p。(十)网格的维数为124二、我们把通过三线性插值(见图3)将附近的特征fgeo到附近的网格上,并通过稀疏3D卷积将它们聚集。之后,细化模块预测IoU相关的类置信度得分以及3D建议框与地面真值边界吉吉的特征i−1×2框,以下(Yanet al. 2018;Shi等人2020年)。第以及分别应用stride-2maxpooling 1次。区域建议网络(RPN)采用了三维模型的输出特征,并生成3D建议。每种方案包括(xp,yp,zp),(lp,wp,hp),θp,pp,即中心位置。建议箱大小、标题和建议置信度。3.3遮挡感知建议优化局部几何特征。BtcDet为了获得准确的最终边界框,BtcDet需要查看提案周围的局部几何形状。因此,我们通过融合多个层次的特征,构造了一个局部特征映射。此外,我们还融合()进入f geo让人们意识到当地的形状缺失。P(OS)模型为提案细化提供了两个好处:• P(OS)R仅在R OCRSM中具有值,因此它可以帮助盒回归避免R OCRSM之外的区域,例如,图3中带有十字标记的区域。• 估计的占用率指示未观察到的对象形状的存在,特别是对于具有高P(OS)的空区域,例如,图3中的一些橙色区域。fgeo是一个稀疏的3D张量地图,空间分辨率为400 352五、生产fgeo的工艺见附录D。3.4全损RPN损失rpn和建议的细化损失pr遵循检测器中最流行的设计(Shi et al. 2020;Yan等人,2018)。总损失为:L总计= 0。3L形+Lrpn + Lpr。(十一)有关损耗和网络架构的更多详细信息,请参见附录C和D。4个实验在本节中,我们将描述BtcDet的实现细节,并将BtcDet与两个数据集上的最先进检测器进行比较:KITTI数据集(Geiger et al.2013)和Waymo Open Dataset(Sun etal.2019)。我们还进行了消融研究,以证明形状占用和特征整合策略的有效性。更多检测结果见附录F。入住率估算的定量和定性评价见附录E和H。数据集。KITTI数据集包括7481个用于训练的LiDAR帧和7518个用于测试的LiDAR帧。我们遵循(Chen et al.2017)以将训练数据划分为3712帧的训练分割和3769帧的val分割+v:mala2255获取更多论文−−−−P OSP OSP OSP OSRROCSMWaymo开放数据集(WOD)由798个片段组成,每个片段 的40077个LiDAR帧进行验证。KITTI数据集仅提供3D LiDAR点云,而WOD还提供LiDAR范围图像。实施 和培训 细节 。BtcDet将KITTI数据集的点位置(x,y,z)转换为(r,φ,θ),同时直接从WOD的距离图像中提取(r,φ,θ)。在KITTI数据集上,我们使用球形体素大小(0。32米,0. 52分,0分。(42分)范围[2. 24米,70。72m]对于r,[40. 69块40块69]对于φ[16]。60度,4度。00]为θ。在WOD上,我们使用球形体素大小(0. 32米,0. 81分,0分。[31]在范围内[2。94米,74. 00m]为r,[180m,180m]为φ,[33m]为八十度,六度。00]为θ。通过网格搜索确定,我们在等式6中设置γ= 2,δ= 0。在等式7中为2且μ= 1。05在等式10中。在我们所有的实验中,我们在4个GTX 1080 Ti GPU上训练了批量大小为8的模型。在KITTI数据集上,我们训练BtcDet 40个epoch,而在WOD上,我们训练BtcDet 30个epoch。BtcDet由ADAM优化器(Kingma和Ba2014)从头开始进行端到端优化。我们应用了广泛采用的数据增强(Shi et al.2020;Deng et al.2020;Lang etal.2019;Yang et al.2020;Ye et al.2020),包括翻转、缩放、旋转和地面实况增强。4.1对KITTI数据集我们在训练分割上训练BtcDet之后,在KITTIval分割上评估它。为了在KITTI测试集上评估模型,我们在所有train+val数据的80%上训练BtcDet,并保留剩余的20%数据进行验证。根据(Geiger等人,2013)中的方案,通过平均精度(AP)评估结果,汽车的IoU阈值为0.7,行人和骑自行车的IoU阈值为0.5。KITTI验证集。如表1所示,我们将BtcDet与最先进的基于LiDAR的3D物体探测器进行了比较,这些物体探测器使用AP在40个召回阈值(R40)下对汽车、行人和骑 自行车 的人 进行探 测。 我们 将SA-SSD 、 PV-RCNN和Voxel R-CNN的R40 AP引用到他们的论文中,将 SECOND 的 R40 AP 引 用 到 ( Pang et al. 2020 ) 和PointRCNN和PointPillars的R40 AP到正式发布的代码的结果。我们还报告了已发布的3D AP在11个召回阈值(R11)下的现代汽车对象。在所有的对象类和难度级别-els,BtcDet优于仅监督绑定框的模型(Eq.1)以及结构感知模型(Eq.2)。具体而言,BtcDet的性能优于其他模型2。05%的3D R11 AP对中等汽车对象,这使得它成为第一个在这个主要指标上达到86%KITTI测试套件。如表2所示,我们将BtcDet与KITTI测试领先者进行了比较。除了官方的度量标准,我们还报告了简单,中等和硬对象的平均AP。从五月开始。2021年4月4日,与所有与出版物相关的模型相比,BtcDet在汽车和骑自行车者检测方面大幅超越它们这些方法包括采用LiDAR和RGB图像输入的模型以及只接受激光雷达的输入。我们还在附录F中列出了更多的比较和结果。4.2Waymo开放数据集我们还将BtcDet与Waymo开放数据集(WOD)上的其他模型进行了比较。我们报告了车辆检测的3D平均精度(mAP)和3D航向加权平均精度(mAPH)。官方指标还包括属于不同距离范围的对象的单独mAP。还引入了两个难度级别,其中Level 1 mAP计算具有超过5个点的对象,Level 2 mAP计算具有超过1个点的对象。如表3所示,BtcDet在所有距离范围和所有难度级别上都优于这些最先进的检测器BtcDet在Level 1 3D mAP上的性能优于其他检测器2。99%,Level 2 3D mAP为3。百分之五十一一般来说,BtcDet在Level 2对象上带来了更多的改进,因为具有较少点的对象通常遭受更多的遮挡和信号丢失。WOD是最大的已发表LiDAR数据集之一,这些强有力的结果表明BtcDet4.3消融研究我们进行消融研究,以证明形状占用和功能集成策略的有效性所有的模型变体都在KITTI的train split上训练,并在valsplit上评估。形状特征。如表4所示,我们通过控制由ESTA学习的形状特征和集成中使用的特征来进行消融研究。所有模型变体共享相同的架构和集成策略。与(Hu等人,2020)类似,BtcDet2直接融合的二进制映射。进入检测管道。虽然二值图提供了遮挡信息,但由于代码为1的区域大多是背景区域,信息量较少,因此改进有限。BtcDet3直接学习()该网络可预测笛卡尔体素的概率。一个笛卡尔体素在靠近传感器时将覆盖多个球形体素,并且在位于远程时将覆盖球形体素的一小部分因此,闭塞区域在笛卡尔坐标中被错误地表示。BtcDet4将概率转换为硬占用,这不能通知下游分支区域是否不太可能或更可能包含对象形状。这些实验证明了我们选择的形状特征的有效性,这有助于主模型改进2。86AP超过基线BtcDet1。一体化战略。我们通过选择不同的层来连接()以及是否使用()来形成fgeo来进行消融研究。前者主要影响提案的生成,而后者影响提案的细化。在表5中,对BtcDet5的实验表明,我们可以将最终预测AP提高0。8,如果我们只集成()用于提案细化。另一方面,在BtcDet6上的实验表明,单独与BtcDet6集成可以+v:mala2255获取更多论文POSP OSP OS方法车容易3DAPR40Mod.硬儿科。容易3DAPR40Mod.硬Cyc.容易3DAPR40Mod.硬3DAPR11汽车改装PointPillars(Lang et al. 2019年度)87.7578.3975.1857.3051.4146.8781.5762.9458.9877.28第二(Yan et al. 2018年)90.9779.9477.0958.0151.8847.0578.5056.7452.8376.48SA-SSD(He et al. 2020年)92.2384.3081.36------79.91PV-RCNN(Shi et al. 2020年)92.5784.8382.6964.2656.6751.9188.8871.9566.7883.90体素R-CNN(Denget al. 2020年)92.3885.2982.86------84.52BtcDet(我们的)93.1586.2883.8669.3961.1955.8691.4574.7070.0886.57表1:KITTI值集的比较,通过40个召回阈值(R40)下的3D平均精度(AP)进行评估。对于中等汽车对象,还报告了11个召回阈值以下的3D AP。方法参考模态容易汽车3DMod.APR40硬地图容易Cyc. 3DMod.APR40硬地图EPNet(Huang et al. 2020年)3D-CVF(Yoo et al. 2020年)ECCV 2020ECCV 2020激光雷达+RGB激光雷达+RGB89.8189.2079.2880.0574.5973.1181.2380.79--------PointPillars(Lang et al. 2019年度)CVPR 2019LiDAR82.5874.3168.9975.2977.1058.6551.9262.56STD(Yang et al. 2019年度)ICCV 2019LiDAR87.9579.7175.0980.9278.6961.5955.3065.19HotSpotNet(Chen et al. 2020年)ECCV 2020LiDAR87.6078.3173.3479.7582.5965.9559.0069.18Part A 2(Shi et al. 2020年)TPAMI 2020LiDAR87.8178.4973.5179.9479.1763.5256.9366.543DSSD(Yang et al. 2020年)CVPR 2020LiDAR88.3679.5774.5580.8382.4864.1056.9067.83SA-SSD(He et al. 2020年)CVPR 2020LiDAR88.7579.7974.1680.90----Asso-3Ddet(Du et al. 2020年)CVPR 2020LiDAR85.9977.4070.5377.97----PV-RCNN(Shi et al. 2020年)CVPR 2020LiDAR90.2581.4376.8282.8378.6063.7157.6566.65体素R-CNN(Denget al. 2020年)AAAI 2021LiDAR90.9081.6277.0683.19----CIA-SSD(Zheng et al. 2021年) AAAI 2021LiDAR89.5980.2872.8780.91----TANet(Liu et al. 2020年)AAAI 2021LiDAR83.8175.3867.6675.6273.8459.8653.4662.39BtcDet(我们的)AAAI 2022LiDAR90.6482.8678.0983.8682.8168.6861.8171.10改进---0.26+1.24+0.94+0.67+0.33+2.73+2.81+1.92表2:KITTI测试集的比较,通过KITTI服务器上40个召回阈值(R40)的3D平均精度(AP)进行评估。BtcDet超越了所有与我们提交之前发布的出版物相关的领先者。mAP在容易、中等和坚硬对象的AP上平均请在附录F中找到更多结果方法整体水平0- 30米1 3D地图30-50m50m-InfmAPH整体整体水平0- 30米2 3D地图30-50m50m-InfmAPH整体PointPillar(Lang et al. 2019年度)56.6281.0151.7527.94------MVF(Zhou et al. (2020年b)62.9386.3060.0236.02------第二(Yan et al. 2018年)72.27---71.6963.85---63.33柱-OD(Wang et al. 2020年)69.8088.5366.5042.93------AFDet(Ge et al. 2020年)63.6987.3862.1929.27------PV-RCNN(Shi et al. 2020年)70.3091.9269.2142.1769.6965.3691.5865.1336.4664.79体素R-CNN(Denget al. 2020年)75.5992.4974.0953.15-66.5991.7467.8940.80-BtcDet(我们的)78.5896.1177.6454.4578.0670.1095.9970.5643.8769.61表3:Waymo开放数据集验证集上的车辆检测比较将AP提高1。2用于建议框和最终边界框预测AP乘以2。0在基线上。对BtcDet7、BtcDet8和BtcDet(main)的比较表明,将()与BtcDet由于()是低级特征,而BtcDet的第三层将包含高级特征,因此当BtcDet8也将()与BtcDet的第三层连接时,我们这些实验表明,fgeo的集成可以带来改进+v:mala2255获取更多论文独立地。当一起工作时,两个集成最终帮助BtcDet超越所有最先进的模型。5结论与未来工作本文分析了点云数据中遮挡和信号缺失对三维物体检测的影响。为了解决这个问题,我们提出了幕后检测器(BtcDet),这是第一个针对这一基本挑战的3D对象检测器。设计了一种训练方法来学习底层形状+v:mala2255获取更多论文RRCSM−- -−POPOSS模型变体学习的特征集成功能3DAPR11汽车改装BtcDet1(基础)− −83.71BtcDet2−ROCBtcDet RSM 84.01BtcDet3P(OS)P(OS) 86.03BtcDe t4P(OS)} 1(P(OS)≥0. (5)85.59美元BtcDet(main) P(OS)}P(OS)86.57表4:学习功能的消融研究(第3.1)和功能融合到eu和fgeo(第3.1节)。3.2)。BtcDet2直接使用一个二进制映射来标记.},并表示球面坐标和笛卡尔坐标。The所有变体共享相同的架构。模型整合整合提案bbox最终bbox变体层层叠fgeo3DAPR113DAPR11BtcDet1(基础)BtcDet5C77.73 84.50BtcDet61,278.9785.72BtcDet71C78.54 85.73BtcDet81,2,3C78.76 86.11BtcDet(main)1,2C78.9386.57表5:消融研究,在消融研究中,()(方程式9)是否熔断()成f地理。我们评估KITTI前科BtcDet可以忠实地估计受遮挡和信号丢失影响的区域的完整对象形状占用。在与概率估计集成之后,提案生成和细化都得到了显著改进。在KITTI数据集和Waymo开放数据集上的实验中,BtcDet以显著的优势超过了所有已发布的最先进的消融研究进一步证明了形状特征和整合策略的有效性虽然我们的工作成功地证明了学习遮挡形状的好处,但仍然有提高模型效率的空间。设计能够加快遮挡识别和形状学习的模型可能是一个有前途的未来方向。+v:mala2255获取更多论文HθΣLy∈PBDD.. {∈ ∈}θ≥RPNRPNLLrpn= Lfocal(pt)=−αt(1−pt)WLLH附录数据和代码许可证我们用于实验的数据集是KITTI数据集(Geiger et al.2013)和Waymo Open Dataset(Sun et al.2019)。他们两人都很有名,并获得了学术研究的许可。我们的代码使用“Apache许可证2.0”。代码将被释放。B启发式源对象选择为了近似目标对象A的完整对象形状,创建启发式算法(A,B)以评估源对象B是否覆盖A的大部分并且可以在A分数越低,对象B对A越好。启发式是:下标t、a、g分别表示编码值、锚和地面实况如果汽车(KITTI)或车辆(WOD)锚点的IoU大于0.6(fg= 1),则将其分配给地面实况对象;如果它们的IoU小于0.45(fg= 0),则将其视为背景在训练中忽略中间带有IoU的锚点。对于行人和骑自行车的人,前景对象匹配阈值为0.5 ,背景匹配阈值为0.35。为了处理对抗角度问题(0或π的方向),我们遵循(Yan et al.2018)并将方向的回归损失设置为:Lrpn=SmoothL1(sin(θp−θt)),(15)其中由于上述损失不可避免地处理相反的方向,一个方向类,H(A,B)=x∈PAmin||x-y ||− αIoU(DA,DB)(12)sifier也由softmax loss使用和监督dir.我们使用Focal Loss(Lin et al.2017)作为分类损失:+β/。{x:x∈Vox(PB),x∈/Vox(PA)}. 、其中P 和D 是物点集和D和Pcls γA B A B如果框已指定,则为空p• 第一项<$x∈PAminy∈PB ||x-y||测量如果A其中,pt=1−p到前景物体fg= 1否则,点被Btance)。• 第二项αIoU(A,B)度量它们边界框大小的相似性。• 第三项β/x:xV ox(P B),x / V ox(P A)测量B可以添加到A的额外体素的数量。p其中,p是预测的前景得分。焦点损失的参数为α= 0。25,γ= 2。RPN的总损失为:1NaCLS一Lrpn=N我Lrpn+1(fg≥1)(17)C训练目标与损失C.1区域提案网络(RPN)·[2(L+ L)+0。2L ]N,注册目录RPNRPNRPN我们遵循最流行的基于锚的3D检测模型的RPN设计(Langet al. 2019;Yanet al. 2018;Shi等人其中,Na是采样锚点的数量,1(fg1)这意味着回归损失只适用于前-2020;Deng等人2020年)。为了生成区域建议,对于每个类,我们首先将锚大小设置为平均3D对象的大小,并将锚方向设置为0°和90°。然后,我们采用RPN的盒子编码,这是在(Langet al. 2019;Yan et al. 2018年):地锚,reg是如等式13和等式14中所描述的编码的x、y、z、w、l、h上的SmoothL1回归损失,并且dir是用于预测一个方向的方向分类损失。格宾。C.2提案细化(Jianget al. 2018;Liet al. 2019;Yanet al. 二〇一八年;x=xg−xa,y=yg−ya,z=zg−za,Shi等人2020;Shi等人2020;Deng等人2020年),有tdatda.2THA2建议细化模块中的两个分支,一个用于类置信度得分,另一个用于框回归。我们其中da=(lawglg+wa);(13)HG遵循(Jiang et al.2018;Shi et al.2020;Li et al.2019;Shi等人2019b)并采用3D IoU加权ROI置信度t=log(),t=log(aa),ht=log(),一每个ROI的培训目标:θt=θg−θa,(14)其中,x、y、z是盒子中心,w、l、h和θ分别是盒子的宽度、长度、高度和偏航角的yg=如果IoU > 0,则为1。七十五岁,2·IoU−0。如果为0,则为5。25
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功