没有合适的资源?快使用搜索试试~ 我知道了~
单目三维目标检测中的魔鬼:基于互反外观定位特征的DFR-Net方法
2713魔鬼在任务中:利用互反外观定位特征进行单目三维目标检测邹志康1* 叶晓青1 *杜亮2* 程显辉4*小谭1李章3冯 建峰2薛向阳4丁二瑞11百度公司,中国2复旦大学脑启发智能科学技术研究院复旦大学计算神经科学与脑启发智能教育MoE重点实验室3复旦大学4复旦大学摘要低成本的单目3D物体检测在自动驾驶中起着基础性的作用,然而其准确性仍然远远不能令人满意。本文深入研究了三维物体检测任务,将其分解为物体定位和外观感知两本文提出了一个动态特征反射网络DFR-Net,它包含两个独立的模块:(1)外观-定位特征反射模块(ALFR),它首先分离任务特定的特征,然后自 互 反 射 相 互 的 特 征 ; ( ii ) 动 态 内 部 交 易 模 块(DIT),其通过自学习方式自适应地重新调整各个子任务的训练过程。在具有挑战性的KITTI数据集上的大量实验证明了DFR-Net的有效性和推广性我们在KITTI测试集中的所有单目3D物体探测器中排名第一(直到2021年3月16日)。所提出的方法也很容易在许多尖端的3D检测框架中即插即用该代码将公开提供。1. 介绍基于近年来2D物体检测取得的有希望的进展[27,26],基于视觉和LiDAR的3D物体检测由于其在室外自动驾驶[14]和室内机器人导航中的关键作用而受到工业界和学术界的越来越多的关注。基于昂贵LiDAR的3D物体探测器*表示同等贡献图1.基线方法(D4LCN[8])和我们提出的DFR-Net的比较。(a)基线方法首先使用编码器(“E”)来提取RGB和预测的深度特征,然后采用独立的头来解码用于3D检测任务的共享特征。(b)在我们的方法中,我们首先聚类的子任务具有共同的特点,建立独立的任务流,然后利用流之间的相互信息,通过自互特征反射。(c)地面实况、基线方法的预测和我们的预测显示在鸟瞰图(BEV)伪LiDAR中以更好地传感器[35,29,10,11]已经被广泛开发并且在3D对象检测中表现出色,而更便宜的替代方案,即,单目3D目标检测仍然是一个开放且具有挑战性的研究领域。单目3D物体探测器可以大致分为2714根据不同的输入数据表示,可以将基于RGB图像的方法、基于伪LiDAR的方法和基于深度辅助图像的方法分为三类:(i)基于RGB图像的方法旨在利用几何约束[21]或语义知识[4]来探索用于恢复3D位置和尺寸的2D-3D几何一致性。然而,由于缺乏可靠的深度先验和透视投影引起的物体尺度变化,性能仍然远远不能令人满意(ii)基于伪LiDAR的方法[32,33]利用深度估计从图像像素重建点云。之后,可以直接借用尖端的基于LiDAR的方法,例如[23,29]。最近的工作[32,33,37]已经证明了基于伪LiDAR的方法的有效性。然而,由于不准确的深度预测、缺乏RGB上下文以及真实和伪LiDAR之间的固有差异,性能受到限制。(iii)深度辅助方法(如[8,30])专注于RGB和深度特征的整合策略,而网络由于错误估计的深度图而无法解决较差的3D定位换句话说,性能严重依赖于深度图的质量。人类甚至可以从单眼线索中获得关于3D信息的一些提示,因为大脑具有利用来自不同感知任务的相互视觉信息的能力[9],例如,对象定位和外观感知(分类)。例如,如果我们知道一个物体的类别和大小,我们就会知道这个物体离我们有多远。另一方面,如果我们知道一个遥远的或被遮挡的未知对象的位置和模糊尺度,我们可以相应地猜测其类别。受人类物体感知系统的启发,本文提出了一种新的用于单目三维物体检测的动态特征反射网络(DFR-Net ) 。 设 计 了 一 种 新 的 外 观 定 位 特 征 反 射 模 块(ALFR),其中3D检测任务分为两类,外观感知任务和目标定位任务。 不同的任务被相应地发送到两个流中的一个,以深入研究每个任务内的任务特定的特征,其中两个类别之间的相互特征自相互反映。这里,术语“反射”表示任务方面的内隐特征意识和相关性。为了进一步优化多任务学习,我们提出了一个动态的内部交易模块,名为DIT,它重新调整的训练过程中的两个子任务的自学习方式。图1显示了独立股骨头(基线D4 LCN[8])和我们提出的DFR-Net的比较。DFR-Net利用并利用交互式外观定位功能进行3D推理,并实现了卓越的性能。所提出的模块被证明在各种基于图像和深度辅助的基于图像的骨干网络(例如,M3 D-RPN [2]和D4LCN[8])。我们的主要贡献总结如下:• 我们引入了一个简单而有效的动态特征反射网络(DFR-Net)用于单目3D物体检测,该网络利用了任务背后的相互信息,允许子任务彼此受益,以减轻单目3D感知的不适定问题。• 我 们 提 出 了 一 个 外 观 定 位 功 能 反 射 模 块(ALFR),首先分离两个任务流,然后自我相互反映子任务感知功能。• 我们研究了一个动态的内部交易模块(DIT),重新加权不同的任务损失,以重新调整多任务训练过程中的自我学习的方式。• 我们在KITTI基准测试中实现了新的最先进的单目3D物体检测性能。该方法可以在许多其他框架中即插即用,以可忽略的成本提高性能。2. 相关工作基于图像的检测与基于立体和LiDAR的检测相比,基于单个图像的3D对象检测更具挑战性,因为单目3D感知是不适定问题,因此空间信息对于可靠的对象定位来说不够充分和精确。一些开创性的工作[5,4,34,24,1,21,15,28]试图使用RGB和辅助信息,例如,语义知识和几何一致性,以减轻这个问题。巴西等引入了M3 D-RPN [2],其通过共享锚点和分类目标来利用2D和3D透视图之间的几何关系。受基于关键点的2D对象检测器CenterNet [38]的启发,RTM3D [22]估计图像空间中3D边界框的九个投影关键点,以构建3D和2D的几何关系来恢复3D对象信息,而MonoPair [7]利用配对对象之间的空间关系来有效地检测被遮挡对象。Simonelli等人提出了一种替代方法MonoDIS[31],其利用了用于2D和3D检测损失的新颖的解纠缠变换,其从参数的异质集合进行损失的解纠缠训练,以使单眼3D检测的训练过程更稳定。然而,这种方法忽略了开发和利用整个任务背后的相互近年来,研究者致力于采用额外的信息来为任务引入更丰富的表征。基于单目序列的Kinematic3D [3]有效地利用视频中的3D运动学运动来提高3D检测性能。Reading等引入了CaDDN [25],它学习2D空间中每个像素的分类深度分布,以将上下文信息投影到3D空间中的适当深度区间。伪深度辅助检测单目深度估计2715图2.拟议的DFR-Net示意图(a)RGB图像和伪深度图(可选)被编码为共享深度图。特征Fs。(b)ALFR模块首先将特征分解为Fυ和Fσ,然后对特征进行自反射(S-R)和互反射(M-R),最后对特征进行扭曲得到Fυ* 和Fσ*。(c)DIT模块动态地预测来自两个扭曲特征的分数,并且以自学习的方式根据分数重新调整训练过程。(d)任务υ的损失(外观感知)和任务σ(对象定位)。[12]为精确的单目3D物体检测开辟了一种替代和有效的方式[20]。D4LCN[8]介绍了一种局部卷积3D对象检测网络,其中深度图被视为学习图像局部动态深度扩张核的指导,而局部扩张卷积在透视投影和遮挡的情况下无法完全捕获对象上下文。与这些方法不同的是,伪基于LiDAR的方法,例如[32,37]将深度图转换为人工点云并采用现成的基于LiDAR的算法。Ma等人观察到伪LiDAR表示的有效性来自坐标变换,并提出了PatchNet [18],其将伪LiDAR数据组织为图像表示。然而,大多数上述方法对于实时应用来说不够3. 方法3.1. 管道概述这项工作的目标是深入挖掘3D检测问题,并将其重新表述为对象定位和外观感知子任务,可以通过相互特征反射相互受益。给定单个图像,3D对象检测旨在预测类别、3D位置、尺寸以及方向。受2D对象检测的启发,可以从外观特征推断实例的类别。此外,由于某种物体类型的尺寸通常具有相似的大小,因此也可以从外观特征中推断出粗略的相反,3D位置随着图像内的位置而变化。出于这一观察结果,我们重新制定的任务,并提出DFR-Net分为两个连体的本地化和外观的特定任务流的共享功能,并利用内在的reciprocal信息的任务,以提高性能,可以忽略不计的成本。如图2所示,整个网络构建在编码器-解码器架构。对于骨干网络,我们的DFR-Net可以采用各种单目3D对象检测方法,例如M3 D-RPN[2]和D4LCN[8]等。我们采用深度辅助单目方法[8]来证明我们的模型。给定RGB图像和估计的深度图,我们获取编码器的最后一个卷积层的共享特征我们设计了自我相互外观定位特征反射(ALFR)模块,以深入研究子任务之间的内隐具体地说,提出了自反射模块(S-R)和互反射模块(M-R)。S-R是深入研究每个任务中的特定任务特征,而M-R是将不同任务之间的相应特征组合起来,以扩散和聚合相互特征。以前的作品[2,8,22]通常利用编码器提取的共享特征上的不同头部来回归解纠缠的目标。不同地,我们从外观感知流学习外观相关信息(旋转、3D维度、类别),并且从定位感知流学习位置相关知识(2D、3D位置)。为了重新调整多任务训练过程,我们进一步设计了一个DIT模块,以重新加权不同的任务损失,用于每个子任务的联合优化,从而有助于3D对象感知的整体精度3.2. 表观定位特征反映为了深入挖掘单目3D目标检测任务中的互反信息,提 出 了 一 种 外 观 定 位 特 征 反 射 模 块 ( appearance-localizationfeaturereflectingmodule,ALFR),将共享特征分解为特定于任务的特征,并自互反射互反关系。如图3所示,给定共享特征图Fs,模块首先应用两个卷积层以生成两个任务特定特征图:外观特异性特征F υ和定位特异性特征F σ。然后,我们将Fυ馈送到两个卷积层中以生成两个新的特征图Fυ12716×联系我们∈∈----ΣΣW=图3.拟议ALFR的图示。“SP conv” and “AC”自反射(S-R)和互反射(M-R)子模块用不同的颜色突出显示。和F υ2,同时利用F σ以相同的方式生成另外两个新的特征图F σ1和F σ2。 我们设计了一个自反射模块(S-R)来捕获每个任务中的成对上下文信息。以上半部分的外观流为例(用蓝色着色),S-R以上下文感知的Fυ1和Fυ2作为输入来计算外观Wυs的自反射注意力图。此外,我们将Fυ2和Fσ1馈送到互反射(M-R)模块中,以建立跨任务的互相关性,并获得外观的互反射注意图Wυm。通过可学习的尺度参数将自反射和互反射注意力图组合以获得外观感知注意力图Wu。 为了避免在网络初始阶段噪声注意的负面影响,我们设计了W υm和共享输入F s之间的自适应残差连接,以获得最终的外观特定特征Fυ*。详细地,共享特征可以被定义为F sRC×H×W。则 输 出 的 特 征 图 为Fσ1 , Fσ2 , Fσ1 , Fσ2RC/r×H×W,其中减少比率r是为了减少参数开销。 我们将它们整形为RC/r×N,其中N = H W表示特征中每个通道的像素数。在S-R中,我们在F υ1和F υ2的转置之间执行矩阵乘法,并应用softmax层来计算外观的自反射注意力图W υs∈ RN ×N:exp((Fυ1)T·Fυ2)输出外观感知注意力图Wu为:Wυ=λυ*Wυs+(1−λυ) *Wυm(3)我们将共享特征发送到卷积层以生成新的特征映射Fυs,并将其从RC×H×W重塑为RC×N,并在Fυs和Wυ的转置之间执行矩阵乘法:Fυ′s=Fυs·(Wυ)T(4)最后,我们重塑了FRC×N到RC×H×W,并通过可学习的参数β将其与共享特征F s组合,以获得最终的外观特定特征F:Fυ*=Fs+βυ*Fυ′s(5)最终的局部化特定的Fσ*的生成类似。3.3. 动态内部交易图4. 建议DIT的图示。“AV池”表示平均池化操作。“AC”表示激活函数。重新调整任务υ和σ的训练过程的分数分别由Fυ*和Fσ*生成子任务的损失通过自学习的分数重新加权。得益于ALFR模块,我们可以从外观生成外观相关输出(class,w,h,l,rot)-w是特征Fυ*,并且从本地化感知特征F σ * 生成本地化相关输出(u,v,u′,v′,x,y,z)。为了测量输出与地面实况之间的差异,我们定义了任务υ的外观感知损失Lυ和任务σ的定位感知损失Lσ。将这两种损失结合起来的简单模式可以是直接进行线性求和,但模型性能将受到超Wυs=Nj=1 exp((Fυ1)T·Fυ2)(一)每个任务损失的参数权重。来增强关节在M-R中,我们在Fυ2和Fσ1的转置之间执行矩阵乘法,然后应用softmax层以获得外观的相互反射注意图Wυm∈RN×N,其可以被公式化为:为了优化每个任务,我们提出了一种新的动态内部交易模块(DIT),根据任务相关损失的实际贡献自适应地学习置信度分数,用于联合学习。具体地,我们首先将外观感知特征Fu发送到平均池-exp((Fσ1)T·Fυ2)(二)ing层以聚合SPA处的上下文信息υmNj=1 exp((Fσ1)T·Fυ2)tial水平。然后输出经过多层感知器(MLP)和S形层以获得外观-然后,我们执行元素求和操作,以组合自反射和互反射注意力地图,并感知交易得分Su,其指示包含在输入样本中以同样的方式2717∗∗我们利用本地化感知特征Fσ来获得本地化感知交易得分Sσ。这两个分数通过对任务相关损失进行加权来指导网络学习。 总交易损失可以用公式表示为:L=Sυ∪Lυ+Sσ ∪Lσ−log(Sυ ∪Sσ)(6)其中log(Sυ Lυ)是训练权重的正则化项。 当Sυ或Sσ增加时,log(Sυ Lυ)增加以维持总损失的总体平衡,反之亦然。此外,当输入样本对语义信息不确信时,感知外观的交易得分Sυ将变小。这同样适用于本地化感知交易得分S〇。该策略避免了大量噪声对网络优化的负面影响。通过这种方式,网络可以在训练过程中调整损失反向传播的比例,从而提高两个任务的学习精度。3.4. 目标函数按照基线方法[2],我们将每组的损失定义为:包含3,712个训练图像和3,769个验证图像,而我们全面分析了性能的建议DFR-Net与其他方法的测试和两个验证集。为了进行评估,我们使用精确度-召回率曲线并报告KITTI验证和测试集上的鸟瞰KITTI测试服务器在2008年8月之后使用基于40个召回位置的度量(R40)而不是基于11个召回位置的度量(R11)。2019.我们将用于3D和BEV检测的AP分别表示为AP3D和APBEV。在基准测试中,根据2D边界框高度、遮挡和截断程度定义了三个和根据之前的方法[6,8],采用IoU = 0.7作为“汽车”类别的阈值训练细节我们的实验设置与我们基于图像和深度辅助的基线严格一致exp(t类)Lclass=−log(Σncexp(class))(七)方法[2,8]用于公平比较。对于M3 D-RPN [2],我们使用单个Nvidia Tesla v100 GPU来训练模型j j50k次迭代。学习率被设置为0.004,使用多边形使用功率的速率为0.9。我们使用的批大小为2,Lrot=SmoothL1([rot],[rotg])(8)Lwhl=SmoothLl([w,h,l],[wg,hg,Ig])(9)Luvu′v′=−log(IOU([uvu′v′],[ugvgu′gvg′]))(10)Lxyz=SmoothLl([x,y,z],[xg,yg,zg])(11)其中nc表示训练集中类别的数量我们使用标准的交叉熵(CE)的分类损失和平滑L1的其他回归损失。外观感知损失和定位感知损失公式化如下:Lυ=L类+Lrot+Lwhl(12)Lσ=Lu vu′v′+Lx yz(13)总损耗在等式6中定义。4. 实验数据集实验在具有挑战性的KITTI数据集[13,14]上进行,该数据集分别包含用于训练和测试的7,481和7,518个图像根据先前的工作[2,8],我们使用两个train-val分裂:2718×重量衰减为0.9。对于D4 LCN[8],网络由SGD优化,动量为0.9,权重衰减为0.0005。我们使用4个Nvidia Tesla v100 GPU 来 训练 模型 进 行40k次 迭代。基本学习率设置为0.01功率为0.9。对于这两种方法,输入图像被缩放到512 1760,并且水平翻转是唯一的数据增强。减速比r被设定为8。在推断期间,我们使用0.4的IoU标准和分数低于0.75的过滤器框对 2D空间中的框输出4.1. 与最新技术水平的KITTI测试集上的结果我们首先在表中报告了IoU= 0.7时KITTI测试集上的3D1.一、我们的即插即用DFR-Net有两个版本:(a)DFR-Net(I):基于M3 D-RPN [2]主干的仅基于图像的模型(粉色行);(b)DFR-Net(I+D):基于D4 LCN [8]主干的深度辅助模型(青色行)。在KITTI排行榜中,我们的DFR-Net(I+D)在所有基于单眼的3D对象检测方法中排名第一注意,在所有仅基于图像的检测器中,我们的DFR-Net(I)仍然排名第一,并且以相当大的幅度超过它们。与Kinematic 3D [3]利用多个帧来利用时间运动信息来提高性能相比,我们的方法获得了优异的性能,分别提高了(0.33%/0.91%/1.18%)。2719方法容易val1Mod.硬容易val2Mod.硬M3D-RPN [2]14.5311.078.6514.5710.077.51我们19.5514.7911.0419.3814.3310.63改进+5.02 +3.72 +2.39+4.81 +4.26 +3.12D4 LCN[8]22.3216.2012.3022.0714.4110.39我们24.8117.7814.4124.3017.2312.52改进+2.49 +1.58 +2.11+2.23 +2.82 +2.13方法行人简易模块硬容易骑车人Mod.硬M3D-RPN [2]4.923.482.940.940.650.47我们6.624.584.171.631.011.02改进+1.70 +1.10 +1.23+0.69 +0.36 +0.55D4 LCN[8]4.553.422.832.451.671.36我们6.093.623.395.693.583.10改进+1.54 +0.20 +0.56+3.24 +1.91 +1.74方法参考速度(FPS)额外Info.Mod.AP3D容易硬Mod.APBEV容易硬GPU[第16话]CVPR 20192-1.512.771.013.235.402.461080TiMonoGRNet[24]AAAI 201916-5.749.614.2511.1718.198.73特斯拉P40Monodis[31]ICCV 2019--7.9410.376.4013.1917.2311.12Tesla V100MonoPair[7]CVPR 202017-9.9913.048.6514.8319.2812.89-UR3D [30]ECCV 2020年版8-8.6115.586.0012.5121.859.2GTX Titan XM3D-RPN [2]ICCV 20196.2-9.7114.767.4213.6721.0210.231080TiRTM3D[22]ECCV 2020年版20-10.3414.418.7714.2019.1711.991080TiDFR-Net(I)-6.1-11.8917.309.3216.4724.3813.331080TiAM3D[19]ICCV 20193深度10.7416.509.5217.3225.0314.911080TiPatchNet[18]ECCV 2020年版3深度11.1215.6810.1716.8622.9714.971080DA-3Ddet[36]ECCV 2020年版3D + L11.5016.778.9315.9023.3512.11Titan RTXD4 LCN[8]CVPR 20205.6深度11.7216.659.5116.0222.5112.551080TiKinematic3D[3]ECCV 2020年版8视频12.7219.079.1717.5226.6913.10-CaDDN [25]CVPR 20212LiDAR13.4119.1711.4618.9127.9417.19Tesla V100DFR-Net(I+D)-5.5深度13.6319.4010.3519.1728.1714.841080Ti表1.在IoU = 0.7(R40)时,与KITTI测试集上的最新(SoTA)方法进行比较“深度”和“视频”分别表示使用先前的深度估计和视频序列作为额外的输入。 “D 基于M3 D-RPN [2]的编码主干(粉色行),我们在所有仅基于图像的方法中排名第一基于D4LCN[8]的主干(青色行),我们在KITTI单目3D物体检测赛道中以高推理速度(即使使用轻得多的GPU,也比第二名快2倍)在所有竞争对手中排名第一表2. 在IoU = 0.7(R40)时,KITTI“val1”和“val2”分割集上“汽车”类别的AP3D性能。)在“Easy”、“Mod."、和“硬”,分别。与之前排名第一的CaDNN [25]相比,我们的方法仍然在“Easy”和“Mod.”上取得了优异的结果和《艰难》的相似结果注意,所提出的DFR-Net(I+D)可以在Tesla V100上获得40 FPS的实时速度,这比CaDNN快20倍[25]。所提出的ALFR模块只占用很小的计算成本。因此,推理速度和模型大小与基线方法D4 LCN相当(5.5vs.5.6FPS;355 Mb对352 Mb)。KITTI验证集上的结果我们使用AP 40作为评估指标,在“val1”和“val2”分割集上与基于图像的尖端[2]和深度辅助[8]基线方法进行比较,评估所提出的框架,如表2所示。 由于D4 LCN [8]只报告了“val1”分裂的结果,我们使用官方公开代码重现了结果。所提出的方法提高了整体精度的一个很大的利润率相比,基地-表3. 在IoU = 0.5(R40)时,KITTI测试集上“骑车人”和“行人”的AP3D性能。线例如,M3 D-RPN [2]在“val 1”集上的AP3D和“硬”,分别。基线和我们的方法的定性比较如图5所示。地面实况、基线和我们的方法分别用绿色、黄色和红色表示。为了更好地可视化,第一列和第二列分别示出伪点云的RGB图像和BEV图像与基线相比,我们的DFR-Net可以在不同场景中产生更高质量的3D更多的定量和定性结果在我们的补充材料中报告。关于“骑自行车者”和“行人”的结果基于伪激光雷达的方法,如PatchNet [18]和DA-3Ddet [36],无法检测到“骑自行车的我们将这两个类别重新分类-2720→→--------图5. 在KITTI验证集上对地面实况(绿色)、基线(黄色)和我们的方法(红色)进行定性比较。为了更好地可视化,第一行示出RGB图像,并且第二行分别示出前视图(左)和BEV(右)伪由于互易特征的反射,所提出的方法可以预测准确的3D包围盒的遥远的物体,即使不准确的深度估计。表3中的两种基线方法[2,8]的spect。在[2,8]之后,报告了在IoU = 0.5(R40)下测试集上的“骑自行车者”和“行人”的AP3D由于3D推理任务背后的互惠信息,我们能够在一定程度上本地化这些具有挑战性的类别,并始终优于基线。4.2. 消融研究在本节中,我们选择M3 D-RPN [2]作为基线,所有实验都在KITTI“val 1”分裂集上进行主要消融分析DFR-Net由两个模块组成ALFR模块包括两个子模块:自反射(S-R)和互反射(M-R)。为了证明每个模块的有效性,我们用子模块的不同组合进行实验,结果如 表 4 所 示 。 我 们 可 以 观 察 到 , 性 能 继 续 增 长 与participation的组成部分。具体地,从组I和组II或组III和组IV的比较中,我们发现添加S-R模块有助于模型,改善“Mod.”上的AP3D(R40)性能。从11.07%上升到13.08%,从13.01%上升到13.39%。M-R模块也是如此。同时,将两个模块(S-R和M-R)组合在一起比单独使用其中一个更好。这可以从第II、III和IV组的结果中得出结论,其中AP3D(R40)在获得较好的性能13.39%比13.08%或13.01%。上述结论证明了我们的ALFR模块的有效性。当同时将DIT模块嵌入到网络中时,无论AP3D或APBEV度量如何,所提出的模型都获得了最佳性能,这验证了DIT模块的有效性。任务聚类的不同策略对不同任务聚类策略的效果进行了实证分析。 结果示于表5中。 以来某些元素变量的任务划分是相对确定的,如x,y,z,u,v,u′,v′属于物体局部化任务(第一行和第二行的结果表明,通过外观任务聚类的w,h,l获得了比通过定位任务聚类的w,h,l(17.21% / 13.35% /10.73%)更好的性能(18.55% / 14.14% / 11.29%)。第一行和第三行结果显示,将“旋转”分配给外观任务在“修改”上获得0.96%的增益。与分配给本地化任务相比。当同时将w、h、l和旋转分配给外观感知任务时,获得了最佳的性能,从实验的角度证明了我们选择的有效性。ALFR中的信息流我们进一步深入研究了ALFR的M-R模块中的信息流,并在“val 1”分裂集上进行了实验表6报告了不同形式的信息流的最终性能。M-R模块由两个信息流组成:外观到定位(“App Loc”)和定位到外观(“Loc App”)。注意,从表中,我们可以发现,添加这些类型的信息之一可能是有益的。具体来说,将外观添加到本地化流程改进了性能从13.46%提升到13.64%,而将本地化添加到外观流提升到13.73%。两个流的组合实现了最佳精度。DIT的不同设置为了进一步挖掘DIT模块的影响,我们基于不同的设置定义了DIT模块的一些变体:(a)“DIT-init”:初始化每个任务的交易分数,而不是网络生成;(b)“双边投资条约交叉”:外观感知任务和定位感知任务生成彼此的 交 易 分 数 ; ( c ) “DIT 共享”:每个任务的交易分数2721组S-RM-RDIT容易AP3D(R11/R40)Mod.硬AP容易BEV(R11 /R40)Mod.硬一二三四五六VII-✓-✓✓-✓--✓✓-✓✓----✓✓✓20.27 /14.5320.75 /17.3020.27 /17.2621.08 /18.0021.23 /17.5622.81/18.0622.04 /19.5517.06 /11.0716.57 /13.0817.11 /13.0117.10 /13.3917.13 /13.4618.15 /13.8818.43/14.7915.21 /8.6514.98 /10.4114时36分/10时50分15.19 /10.7815.23 /10.7916.10 /10.2316.96/11.0425.94 /20.8527.62 /24.6125/23/2626.53 /24.8727.57 /24.5627.64 /24.8528.63/26.6021.18 /15.6222.65 /18.0321.65 /17.7922.01 /18.3522.70 /18.4623.07 /18.6023.15/19.8017.90 /11.8818.50 /14.6117.47 /13.8217.66 /15.0318.45 /15.1519.01 /14.3519.31/15.34表4.IoU = 0.7时AP 3D和AP BEV的KITTI“val1”分割集上“Car”类别的消融分析任务υ位置:xyz,任务σ应用程序:类容易AP3DMod.硬旋转WHL--17.2113.3510.73旋转--WHL18.5514.1411.29-WHL旋转-17.6214.3110.88--旋转WHL19.5514.7911.04方法容易AP3DMod.硬容易APBEVMod.硬没有一18.0013.3910.7824.8718.3515.03DIT-init18.6714.0710.5025.4319.1714.07双列直插杂交15.5912.449.4522.9517.7414.57DIT共享19.5613.8710.9126.2019.6615.31我们19.5514.7911.0426.6019.8015.34表5. AP3D和APBEV在IoU=0.7(R40)的“val1”分割集上的不同任务聚类策略的比较。方法容易AP3DMod.硬容易APBEVMod.硬没有一17.5613.4610.7924.5618.4615.15应用程序→位置Loc→我们的应用程序18.5918.6719.5513.6413.7314.7910.9811.1411.0424.8925.7726.6018.9219.2319.8015.1115.8215.34表6. 在IoU = 0.7(R40)处的“val1”分割集上的不同特征反射策略的AP3D和APBEV比较。从共享特征生成 如表7所示,DIT-init将AP 3D性能从Mod.设置.然而,显而易见的是,DIT-交叉明显地降低了整体准确性。这是因为在ALFR模块的编码之后,每个任务流的最终输出特定于对应的任务。因此,在预测另一任务的置信度时将存在大量噪声,这影响了网络学习。DIT-共享实现了比上述设计更好的结果,在“Easy”上达到AP3D19.56%,这解释了共享特征包含两个任务所需的丰富上下文信息。当配备了建议的DIT,模型可以得到最好的性能,这证明了我们的模块的有效性。泛化能力对于泛化能力验证,我们将我们的方法扩展到2D检测任务。我们选择众所周知的SSD [17]作为基线,并应用所提出的ALFR和DIT模块进行比较。如表8所示,我们在07++12设置中对VOC数据集进行实验:对VOC2007和VOC2012训练集的联合进行了培训,并在VOC2007测试集上进行了测试。实验结果表明表7. AP3D和APBEV在IoU = 0.7(R40)的“val1”分割集上比较不同的动态内部交易方法。2D检测器通过所提出的模块的组合实现了一致的性能增益,这证明了我们的模型的通用性能力。方法数据地图SSD30007++1277.2+ALFR+DIT07++1278.0表8.通过我们的模型和SSD的组合在PASCAL VOC 2007测试集上的检测结果[17]。5. 结论提出了一种动态特征反映网(DFR-Net)。ALFR模块将外观感知解码流和目标定位解码流分离,以自交互的方式利用和反映子任务之间的交互信息。我们的DIT模块进一步以自学习的方式对子任务的特征进行评分,并相应地重新调整多任务训练过程。在KITTI数据集上的大量实验证明了我们的DFR-Net的有效性和效率。值得一提的是,DFR-Net在竞争激烈的KITTI单目3D物体检测赛道中排名第1此外,2D探测器SSD上的消融验证了所提出的模块的泛化能力。我们的方法还可以在几个尖端框架上以微不足道的成本进行即插即用在未来的工作中,我们将提出的模块应用到更前沿的3D检测方法和其他领域,以进一步验证我们的模型的一般能力。2722引用[1] Yousef Atoum , Joseph Roth , Michael Bliss , WendeZhang,and Xiaoming Liu.使用多路复用器卷积神经网络的基于单目视频的拖车车钩检测InICCV,2017. 2[2] 加里克巴西和刘晓明。M3 d-rpn:用于对象检测的单目3d区域提议网络在ICCV,2019年。二三五六七[3] Garrick Brazil,Gerard Pons-Moll,Xiaoming Liu,andBernt Schiele.单目视频中的运动三维目标检测。2020.二、五、六[4] Xiaozhi Chen , Kaustav Kundu , Ziyu Zhang , HuiminMa,Sanja Fidler,and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在CVPR,2016年。2[5] Xiaozhi Chen,Kaustav Kundu,Yukun Zhu,Andrew GBerneshawi , Huimin Ma , Sanja Fidler , and RaquelUrtasun. 用 于 精 确 对 象 类 别 检 测 的 3D 对 象 建 议 。InNeurIPS,2015. 2[6] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia.用于自动驾驶的多视角三维物体检测网络。在CVPR,2017年。5[7] Yongjian Chen,Lei Tai,Kai Sun,and Mingyang Li.Monopair:使用成对空间关系的单目3d对象检测。在CVPR,2020年。二、六[8] Mingyu Ding,Yuqi Huo,Hongwei Yi,Zhe Wang,Jianping Shi,Zhiwu Lu,and Ping Luo.用于单目3d目标检测的学习深度引导在CVPR,2020年。一、二、三、五、六、七[9] Liang Du,Jingang Tan,Xiangyang Xue,Lili Chen,Hongkai Wen,Jianfeng Feng,Jiamao Li,and XiaolinZhang.3dcfs:通过耦合特征选择进行快速和鲁棒的联合3d语义实例分割。在ICRA,2020年。2[10] Liang Du , Xiaoqing Ye , Xiao Tan , Jianfeng Feng ,Zhenbo Xu,Errui Ding,and Shilei Wen.助理-3ddet:三维点云目标检测的感知-概念关联。在CVPR中,第13326-13335页,2020年。1[11] 杜亮、叶晓青、谭晓、爱德华·约翰斯、陈波、丁二瑞、薛向阳、冯剑锋。Ago-net:关联引导的3D点云对象检测网络。TPAMI,2021年。1[12] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度有序回归在CVPR,2018年。3[13] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urtasun.视觉与机器人技术的结合:Kitti数据集。IJRR,2013年。5[14] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。CVPR,2012。一、五[15] Jason Ku,Alex D Pon,and Steven L Waslander. 单目3d物体检测利用精确的建议和形状重建。在CVPR,2019年。2[16] Lijie Liu,Jiwen Lu,Chunjing Xu,Qi Tian ,and JieZhou.基于深度拟合度评分网络的单目3d目标检测。在CVPR,2019年。62723[17] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy ,Scott Reed ,Cheng-Yang Fu,and Alexander C Berg. Ssd:单发多盒探测器。在ECCV,2016年。8[18] Xinzhu Ma , Shinan Liu , Zhiyi Xia , HongwenZhang,Xingyu Zeng,and Wanli Ouyang.重新考虑伪激光雷达表
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功