没有合适的资源?快使用搜索试试~ 我知道了~
10800单目3D目标检测的单应性损失0顾佳琦1,2,吴伯健1*,范鲁斌1,黄建强1,曹申1,向志宇2,华先胜101 阿里巴巴云计算有限公司,2 浙江大学0摘要0单目3D目标检测是自动驾驶中的一项重要任务。然而,大多数当前方法将场景中的每个3D物体视为独立的训练样本,忽略了它们固有的几何关系,因此不可避免地导致缺乏空间约束。在本文中,我们提出了一种新方法,将所有物体考虑在内,并探索它们之间的相互关系,以帮助更好地估计3D边界框。此外,由于当前2D检测更可靠,我们还研究了如何使用检测到的2D边界框作为指导,全局约束相应预测的3D边界框的优化。为此,提出了一种可微损失函数,称为单应性损失,旨在通过全局约束利用2D和3D信息,平衡不同物体之间的位置关系,从而获得更准确的3D边界框预测。由于其简洁的设计,我们的损失函数是通用的,并可以插入任何成熟的单目3D检测器,同时显著提高其性能。实验证明,我们的方法在KITTI3D数据集上与其他最新技术相比(2021年11月)取得了最佳性能。01. 引言0单目3D目标检测是计算机视觉中的一项基本任务,其目标是从单个图像中定位和估计由位置、尺寸和方向参数化的物体的3D边界框。它可以应用于各种场景,如自动驾驶、机器人导航等。然而,这是一个不适定且具有挑战性的问题,因为单个图像无法提供明确的深度信息。为了获取这样的资源,大多数现有方法借助激光雷达传感器获取准确的深度测量[29],或者使用立体相机进行立体深度估计[15],但这会增加实际使用的成本。相比之下,单目相机具有成本效益。0* 通讯作者:ustcbjwu@gmail.com0(a) 每个物体都是独立的训练样本0(b) 每个物体与其他物体有几何关联 (c) Bird's Eye View0图1. (a) 大多数现有方法将每个物体视为单个训练样本,(b)我们提出的单应性损失建立了物体之间的连接,并将2D检测作为指导,帮助约束Bird's Eye View中的3D定位。(c)0大多数现有的单目3D目标检测方法已经在固定的相机设置下实现了显著的高精度。然而,在它们的训练策略中,场景中的每个3D物体被视为独立的样本,而不考虑与其他相邻物体的相互关系,例如,如图1(a)所示。假设如果单个物体的预测3D边界框明显偏离其真实值,没有额外的约束,网络通常很难对该特定样本的估计位置进行修正和纠正。为了解决这个问题,除了通过最小化预测的3D边界框与真实值之间的差异来定义的回归损失,许多算法提出了投影损失[15, 17, 25,26],以在相应的投影2D真实边界框的监督下约束3D边界框的优化。然而,单个物体的3D定位仍然独立于其他物体。不同的是,MonoPair[7]利用物体之间的关系,构建场景图来增强训练和推理过程中物体之间的相互连接。他们充分利用了附近物体之间的空间关系,而不是单独关注信息受限的单个物体。一个明显的缺点是一个物体只能与其最近的邻居局部连接。另一方面,大部分方法对于正常物体是有效的。然而,在现实中,只有前景10810可以轻松检测到完全可见且具有丰富可识别特征的物体。因此,这些方法仍然难以处理被遮挡的物体或远离摄像机的小物体,而这些物体通常在场景中占据较高的比例。由于很少有信息有助于解决这个问题,所以只能取得有限的改进。改进3D检测的一种直接方法是通过前景物体甚至2D检测结果来纠正结果。最相关的工作是MonoFlex[42],它利用不同对象的分布,并提出了一种灵活的框架来解耦被截断的物体,并自适应地结合多种3D检测方法。然而,它也仅限于为每个单独样本训练网络。此外,由于透视投影,不同深度的物体可能在图像空间中相互遮挡。因此,OFTNet[33]和ImVoxelNet[34]提出在Bird's Eye View(BEV)上回归3D位置,因为在投影的BEV平面上的物体不会相互交叉并且可以被区分开。总的来说,具体如图1所示,我们的核心思想是建立所有物体之间的连接,并全局优化它们的3D位置。此外,我们还通过逆投影映射将BEV与图像视图关联起来,并将2D检测结果作为指导来改善BEV中的3D定位。为了实现这个目标,我们提出了HomographyLoss来结合2D和3D信息,并全局平衡它们之间的相互关系,以获得更准确的3D框。通过这样做,我们的损失函数能够在2D和3D空间中有效地编码必要的几何信息,网络将被强制明确捕捉到对3D检测有帮助的物体之间的全局几何关系。由于可微性和可解释性,我们的损失函数可以插入任何成熟的单目3D检测器。实际上,我们以ImVoxelNet[34]和MonoFlex[42]为例,在训练阶段集成了新的HomographyLoss,实验证明我们的方法在KITTI3D检测基准测试(2021年11月)上大幅优于现有方法。主要贡献如下:0• 我们提出了一种新颖的损失函数,称为HomographyLoss,利用场景中所有物体的几何关系,并通过图像视图和Bird's EyeView之间的单应性进行全局约束它们的相互位置。同时,2D和3D空间中的几何一致性将得到很好的保持。据我们所知,这是第一个在单目3D物体检测中充分利用全局几何约束的工作。0• 基于单应性损失的提出的单目3D检测器在KITTI3D检测基准测试中达到了最先进的性能。0KITTI3D检测基准测试,并超过了所有其他单目3D检测器的结果,这表明了我们的损失的优越性。0•我们将这个损失函数应用于几种流行的单目3D检测器。在没有额外推理成本的情况下,训练更稳定、更容易收敛,达到更高的准确性和性能。它可以作为一个即插即用的模块,适用于任何单目3D检测器。02. 相关工作0我们首先回顾了单目3D物体检测的方法,然后简要介绍了在训练阶段常用的几何约束。单目3D物体检测是一个不适定问题,因为缺乏单目2D图像的深度线索。与立体图像[15]或基于LiDAR的方法[23, 27, 30, 32, 39,40]相比,在一些早期的工作中,辅助信息对于单目3D检测以获得竞争性结果是必要的。这些先验知识通常包括地面平面假设[5]、可变形线框模型假设[13]或3D CAD模型[3,14]等。此外,一些其他方法只使用单个RGB图像作为输入。例如,Deep3DBox[25]从由2D框围起来的图像块中估计出3D姿态和尺寸。然后,使用带有3D回归头[9, 18,26]的网络来预测3D框,同时搜索和过滤与地面真实2D框具有阈值重叠的候选框。MonoGRNet[31]通过在观察到的2D投影和未观察到的深度维度中进行几何推理来检测和定位3D框。MonoDIS[36]利用一种新颖的解缠变换进行2D和3D检测损失。M3D-RPN[1]将单目3D检测问题重新定义为独立的3D区域提议网络。与以前的方法不同,它不依赖于2D提议,SMOKE[19]认为2D检测网络是多余的,并且在3D检测中引入了不可忽略的噪声。因此,它通过将通过单阶段检测器通过回归的3D变量估计的单个关键点与每个对象相结合来预测每个对象的3D框,类似地,RTM-3D[17]在图像空间中预测3D框的九个透视关键点。具体而言,MonoFlex[42]提出了一种用于单目3D物体检测的灵活框架,明确解耦了被截断的物体,并自适应地结合多种深度估计方法。然而,基于图像的训练和推理会引入非线性透视畸变,其中物体的尺度随深度变化剧烈,这使得准确预测感兴趣物体的相对距离和位置变得困难。为了解决这个问题,OFTNet[33]提出了正交特征变换,通过将基于图像的特征映射到Bird's Eye View(BEV)上,从而实现3D位置的回归。因为在投影的BEV平面上的物体不会相互交叉并且可以被区分开。总的来说,具体如图1所示,我们的核心思想是建立所有物体之间的连接,并全局优化它们的3D位置。此外,我们还通过逆投影映射将BEV与图像视图关联起来,并将2D检测结果作为指导来改善BEV中的3D定位。为了实现这个目标,我们提出了HomographyLoss来结合2D和3D信息,并全局平衡它们之间的相互关系,以获得更准确的3D框。通过这样做,我们的损失函数能够在2D和3D空间中有效地编码必要的几何信息,网络将被强制明确捕捉到对3D检测有帮助的物体之间的全局几何关系。由于可微性和可解释性,我们的损失函数可以插入任何成熟的单目3D检测器。在实践中,我们以ImVoxelNet[34]和MonoFlex[42]为例,在训练阶段集成了新的HomographyLoss,实验证明我们的方法在KITTI3D检测基准测试(2021年11月)上大幅优于现有方法。主要贡献如下:123456 78910sp2 = Hp1,(1)where p = [x, y, 1]T is the homogeneous coordinate of a2D point in a plane. Since the homography matrix has 8degrees of freedom, at least 4 corresponding point pairs arenecessary for recovering the matrix. Inspired by ImVoxel-Net [34], the projections of objects on BEV plane do notintersect with each other and accordingly contain more in-formation about 3D localization, we define the homogra-phy matrix between the image plane and BEV plane, inorder to implicitly transform coordinates from 2D to 3Dspace. More details will be illustrated in Sec. 3.3. Then,let us explain why homography is a global geometric con-straint. Firstly, all pairs of corresponding points will involvein solving the homography matrix from Eq. 1, and the so-lution is guaranteed to be globally optimal. In other words,the constraint enforced by arbitrary pair of correspondingpoints will finally affect the whole optimization process.Thus, homography is a global constraint. Secondly, in pro-jective geometry, a homography is an isomorphism of pro-jective spaces, which correlates a group of points on oneplane to the other and preserves geometric properties, e.g.,collinearity. So, homography is also a geometric constraint.108202D0检测03D0检测0投影损失0单应性损失0� ! 损失 � ! 损失0图2。在实践中,对于2D/3D检测任务,通过应用L1损失可以缩小预测的2D/3D框与相应的真值之间的差异。这意味着预测的2D/3D框将与相应的真值自我约束。此外,可以使用相机参数将物体的预测3D位置投影到2D图像空间中,并将投影的2D位置与其2D真值进一步进行比较。也就是说,可以通过投影矩阵将3D数据转换为2D空间。类似地,我们提出的方法建立了从2D到3D的关联,并使用2D检测作为指导来监督3D定位的训练。0将图像特征投影到与真实世界感知更好对齐的正交3D空间中,目标物体不会相互交叉或遮挡,并且可以直观地区分。ImVoxelNet[34]将从主干网络提取的图像特征投影到3D体素体积中,并提出从BEV检测3D框,以实现相同的目的。总体而言,当前方法要么直接回归图像视图中的深度或关键点,要么从BEV检测3D框。由于现有方法中没有挖掘图像视图和BEV之间的内在联系,我们提出的方法首先弥合了它们之间的差距。3D检测中的几何约束。大多数当前方法直接从2D图像中回归3D空间信息,而不需要额外的3D先验知识。由于2D和3D空间通过透视投影自然相关,因此,一些最近的工作尝试在网络中使用几何约束。Mousavian等人[25]利用2D边缘和3D角之间的几何关系估计3D框。Li等人[15]通过利用稀疏透视关键点和2D框来解决粗糙的3D框。Naiden等人[26]通过闭合最小二乘方程解决物体中心的平移向量。Li等人[17]利用3D和2D透视的几何关系恢复3D框。Li等人[16]将投影空间中的非线性优化重新表述为可微分的几何推理模块。需要注意的是,上述方法将几何约束应用于单个物体。相反,我们同时考虑所有物体的位置关系。03. 方法03.1. 动机0我们有两个关键观察结果:1)2D检测可以作为指导来约束和监督训练0图3。目标物体的位置受其他物体的全局影响。由于单个物体只能与其最近的邻居局部连接,如[7]所提出的,成对的关系不足以编码物体的空间关系。我们考虑全局影响,这类似于注意机制中使用的长程依赖性。例如,Car 2的位置不仅受到Car1的影响,还受到与蓝色虚线相连的Car5和9的约束。(该图源自[7])03D定位,2)单个物体的位置应受到周围物体的全局影响,如图2和图3所示。为了解决这些问题,我们提出了单应性损失,以实现从2D图像空间到3DBEV空间的转换,并同时约束所有物体的全局几何关系。03.2. 重新审视单应性0单应性是保持共线性的两个平面之间的映射。两个二维平面之间的单应性矩阵H ∈ R 3 ×3将平面1上的点p1映射到平面2上的点p2,尺度因子为s。它满足以下条件:𝐪!""𝐐#$%&Figure 4. 2D and 3D candidate points of a single object.3.3. Homography LossInspired by those observations, we propose a global lossfunction, termed as homography loss, aiming to establishthe geometric connections among all the objects by lever-aging the homography matrix. Assuming that we alreadyhave a monocular 3D object detector that could predict 3Dboxes under the supervision of the ground truths, in additionto the regular classification and regression loss in the com-mon pipelines, our homography loss penalizes the wrongrelationship among all the predicted boxes and refines thefinal locations. The major steps are listed as follows.Candidate Points Modeling. Suppose we have the pre-dicted boxes boxpred obtained from the arbitrary 3D detec-tor and the corresponding ground truth boxes boxgt. Asmentioned in Sec. 3.2, we opt to use the homography matrixto describe the projection relationship between the imageplane and the BEV plane. For a single object, as demon-strated in Fig. 4, we pick up five bottom points Qpred =[xpred, ypred, zpred]T of boxpred as representatives, includ-ing one bottom center point and four bottom corner points.We also assume that all the objects are always on the flatground, the bottom points on the BEV plane can thus besimplified as ˜Qpred = [xpred, ypred]T . Similarly, we haveQgt = [xgt, ygt, zgt]T obtained from boxgt. After the cam-era projection, the ground truth 3D box will be transformedinto the image space, which is defined by:q = K [R|t] Q,(2)where K is the intrinsic matrix and [R|t] are the extrin-sic matrices, and q = [u, v]T represents the projected pixelon the image plane, which is suitable for both boxpred andboxgt. Therefore, if there exist N objects, we can get 5Npairs of candidate points qpred, ˜Qpred for boxpred and qgt,˜Qgt for boxgt, respectively, which are prepared for calcu-lating the homography matrix.Calculating Homography. To implicitly constrain rela-tive positions of each object, without loss of generality, weselect qgt and ˜Qpred. Specifically, we use the ground truthcoordinates qgt in 2D image view as guidance, to correctthe final positions ˜Qpred in 3D space. The formulation isdefined, up to a scale factor (omitted here) with homoge-neous coordinates, as follows,˜Qpred = Hqgt,xpredypred1 = Hugtvgt1 .(3)(4)10830这里,H通过两个视图之间的映射存储所有对象的相互关系。我们使用奇异值分解(SVD)来计算同态矩阵H,因为它可以在PyTorch [ 28]中很容易实现。实际上,在训练的初始阶段,由于˜ Qpred可能与地面真值差异很大,因此估计同态矩阵H。我们将其表示为ˆ H,并表示˜ Q homo = ˆ Hqgt。随着训练的进行,估计值˜ Q homo将接近˜ Q pred和˜Q gt。损失函数。同态矩阵ˆH隐含了两个不同视图之间的对应关系和所有对象的相对位置。以前,3D检测被视为每个对象的独立任务,受到回归损失的约束,例如L reg = L1 � ˜ Q gt − ˜ Q pred�。在这里,我们提出了一种新的损失函数,称为同态损失,以优化具有强空间约束的位置。同态损失定义如下,0L homo = 平滑L1损失函数,其中 Qgt 表表示同0= 平滑L1损失函数,其中 Q gt表示真实值, Q pred0与回归损失不同,计算同态矩阵ˆH将考虑所有对应点对。因此,它是一种全局的几何约束损失,用于引导从地面真实2D定位预测的3D位置。另一方面,通过优化Eq. 4,ˆH也被强制接近地面真实同态矩阵。同态损失的另一个优点是它是可微分的。它可以作为任何单目3D目标检测器的即插即用模块,并为对象的3D定位提供强大的空间约束。03.4. 案例研究0由于我们的新型同态损失可以插入任何3D目标检测器,我们以最先进的检测器ImVoxelNet [ 34 ]和MonoFlex [ 42]为例,说明如何将我们的损失函数无缝集成到网络中。由于主要算法已在第3.3节中解释,这里介绍了预测框的选择和训练策略的更多细节。基于锚点的方法。ImVoxelNet [ 34]是一种基于锚点的单目3D检测器,它将2D图像特征转换为BEV中的3D空间,并回归对象的位置,就像基于LiDAR的3D检测器一样。锚点M3D-RPN [1]-14.769.717.4221.0213.6710.230.16SMOKE [19]-14.039.767.8420.8314.4912.750.03MonoPair [7]-13.049.998.6519.2814.8312.890.06RTM3D [17]-14.4110.348.7719.1714.2011.990.05PGD-FCOS3D [38]-19.0511.769.3926.8916.5113.490.03M3DSSD [21]-17.5111.468.9824.1515.9312.110.16MonoDLE [24]-17.2312.2610.2924.7918.8916.000.04MonoRCNN [35]-18.3612.6510.0325.4818.1114.100.07ImVoxelNet [34]-17.1510.979.1525.1916.3713.580.20ImVoxelNet(+homo)-20.1012.9910.5029.1819.2516.210.20MonoFlex [42]-19.9413.8912.0728.2319.7516.890.03MonoFlex(+homo)-21.7514.9413.0729.6020.6817.810.03L =1Npos (λclsLcls + λlocLloc + λdirLdir + λhomoLhomo), (5)L =1Npos (λhmLhm + λboxLbox + λkpLkp + λhomoLhomo), (6)10840表1.KITTI测试集上Car类别的3D目标检测性能。最佳分数用粗体标出(与不使用额外数据的单目3D检测方法进行比较)。'额外数据'列出了每种方法所需的额外信息,包括从更大的数据集预训练的深度信息,来自多帧的时间信息,带有点云信息的LiDAR和额外标记的3D实例关键点的形状。所有运行时间值都是从KITTI基准以及官方论文和代码中收集的。0方法 额外数据 AP 3 D | R 40 AP BEV | R 40 时间(s)0简单 中等 困难 简单 中等 困难0Mono-PLiDAR [ 40 ] 深度 10.76 7.50 6.10 21.27 13.92 11.25 0.10 PatchNet [ 22 ] 深度 15.68 11.1210.17 22.97 16.86 14.97 0.40 D4LCN [ 8 ] 深度 16.65 11.72 9.51 22.51 16.03 12.55 0.20 MonoRUn [ 4] 深度 19.65 12.30 10.58 27.94 17.34 15.24 0.07 Kinematic3D [ 2 ] 时间 19.07 12.72 9.17 26.69 17.5213.10 0.12 DDMP-3D [ 37 ] 深度 19.71 12.78 9.80 28.08 17.89 13.44 0.18 Aug3D-RPN [ 11 ] 深度17.82 12.99 9.78 26.00 17.89 14.18 0.08 DFR-Net [ 45 ] 深度 19.40 13.63 10.35 28.17 19.17 14.840.18 CaDDN [ 32 ] LiDAR 19.17 13.41 11.46 27.94 18.91 17.19 0.63 MonoEF [ 44 ] 深度 21.29 13.8711.71 29.03 19.70 17.26 0.03 Autoshape [ 20 ] 形状 22.47 14.17 11.36 30.06 20.08 15.59 0.040对于训练,将预测框与地面真值框指定为一对一匹配点对。因此,我们选择正样本中具有最高分类分数的预测框作为代表,这也保持了分类和回归之间的一致性。由于基于锚点的检测器在训练过程中始终产生稳定的提议,我们在训练开始时添加了单应性损失,并从头开始训练网络。下面定义的损失函数包括四个部分,即位置损失L loc ,分类的焦点损失Lcls ,方向的交叉熵损失L dir ,以及额外的单应性损失Lhomo :0其中,N pos 是正样本的数量,λ cls = 1.0,λ loc =2.0,λ dir = 0.2,λ homo = 0.2。请注意,除了Lhomo之外,其他损失项和平衡权重都采用了[34]中的方法。基于无锚点的方法。MonoFlex [ 42]是一种基于CenterNet [ 43]的单阶段单目3D检测器,它在不同的头部预测投影的3D中心、框(包括深度、尺寸和方向)以及关键点。由于它是一种无锚点的检测器,因此预测框的位置是通过密集预测点来确定的。0在热图头中,将自动分配代表性框作为3D投影中心,而无需选择。深度在最终头部进行回归。主要区别在于训练策略。由于3D投影中心和深度可以定义图像视图和鸟瞰视图中的坐标,这两个组件是单应性损失的主要贡献者。但是,深度头在训练开始时非常不稳定,鸟瞰视图中的位置也缺乏信心,使单应性矩阵变形。因此,提出了两种策略来解决这个问题。首先,我们在40个epoch之后添加单应性损失,当深度头一致可靠时。其次,我们使用其中一个组件(3D投影中心和深度)复制预测的框,并用其地面真值替换另一个组件。因此,单应性损失可以复制三次并合并在一起。主要损失函数可以描述为热图的分类损失L hm,框大小和旋转的回归损失L box,3D框关键点的回归损失L kp ,以及额外的单应性损失Lhomo :0其中,N pos 是正样本的数量,λ hm = 1.0,λ box =1.0,λ kp = 1.0,λ homo = 0.2。MethodAP3D|R40APBEV |R40EasyModerateHardEasyModerateHardM3D-RPN [1]14.5311.078.6520.8515.6211.88MonoPair [7]16.2812.3010.4224.1218.1715.76MonoRCNN [35]16.6113.1910.6525.2919.2215.30MonoDLE [24]17.4513.6611.6824.9719.3317.01ImVoxelNet(+homo)21.4414.8812.0829.8521.1717.77MonoFlex(+homo)23.0416.8914.9031.0422.9919.84MethodPedestrian AP3D|R40Cyclist AP3D|R40EasyModerateHardEasyModerateHardPGD-FCOS3D [38]2.281.491.382.811.381.20MonoEF [44]4.272.792.211.800.920.71D4LCN [8]4.553.422.832.451.671.36M3D-RPN [1]4.923.482.940.940.650.47DDMP-3D [37]4.933.553.014.182.502.32DFR-Net [45]6.093.623.395.693.583.10M3DSSD [21]5.163.873.082.101.511.58Aug3D-RPN [11]6.014.713.874.362.432.55MonoFlex [42]9.436.315.264.172.352.04MonoPair [7]10.026.685.533.792.121.83MonoRUn [4]10.886.785.831.010.610.4810850表2. KITTI验证集上车辆类别的3D物体检测性能。0表3. KITTI测试集上行人和自行车的3D物体检测性能。0ImVoxelNet(+homo) 12.47 7.62 6.72 1.52 0.85 0.94 MonoFlex(+homo) 11.877.66 6.82 5.48 3.50 2.9904. 实验04.1. 设置0数据集和评估指标。我们的方法在KITTI3D目标检测基准[10]上进行评估,该基准包括7481张训练图像和7518张测试图像。训练集被分为3712个样本用于训练和3769个样本用于验证,如[6]所建议。类别包括汽车、行人和骑行者,每个类别有三个难度级别,即简单、中等和困难。KITTI官方排行榜是基于中等难度进行排名的。我们的方法通过将检测结果提交到官方服务器来评估KITTI测试集。为了与其他方法进行公平比较,我们使用官方指标,即IoU阈值为0.7时的平均精度(AP)用于汽车,以及行人和骑行者的IoU阈值为0.5。在所有实验中,我们报告了AP3D|R40的结果,以便与之前的研究进行全面比较。实现细节。我们使用ImVoxelNet[34]的官方实现,其使用ResNet50[12]作为主干网络,以及MonoFlex[42]的官方实现,其使用DLA34[41]作为主干网络。我们遵循原始代码的所有实验设置,并将我们的单应性损失作为辅助损失添加进去。对于ImVoxelNet[34],我们在开始时添加损失并训练24个epoch。对于MonoFlex[42],我们在40个epoch后添加单应性损失,并总共训练80个epoch。我们将这两个新的实现分别命名为ImVoxelNet(+homo)和MonoFlex(+homo)。0对于ImVoxelNet[34],我们在开始时添加损失并训练24个epoch。对于MonoFlex[42],我们在40个epoch后添加单应性损失,并总共训练80个epoch。我们将这两个新的实现分别命名为ImVoxelNet(+homo)和MonoFlex(+homo)。04.2. 定量结果0在KITTI测试集上的汽车类别结果。如表1所示,与之前的方法相比,我们提出的方法MonoFlex(+homo)在汽车类别上取得了优越的结果,即使包括那些使用额外数据(如深度或LiDAR点云)的方法。具体而言,MonoFlex(+homo)在简单、中等和困难设置下分别取得了1.81%、1.05%和1.00%的增益。此外,我们的ImVoxelNet(+homo)相对于原始基线分别取得了2.95%、2.02%和1.45%的增益,显示出其鲁棒性和有效性。在KITTI验证集上的汽车类别结果。我们还在表2中展示了我们模型在KITTI验证集上的性能。具体而言,我们的方法在与之前方法的比较中取得了SOTA的性能。与MonoPair[7]相比,我们的ImVoxelNet(+homo)和MonoFlex(+homo)在0.7IoU阈值下的中等设置上分别获得了2.58%/4.59%的性能提升。这表明我们的方法通过添加单应性损失作为额外约束,更能够检测自动驾驶场景中的困难样本。在KITTI测试集上的行人/骑行者检测。对于行人和骑行者,我们在表3中展示了检测性能。我们的方法MonoFlex(+homo)在这两个类别中都取得了竞争性的性能。这表明我们的单应性损失也可以提高检测小物体(如人体)的性能。MonoFlex(+homo)在行人类别中优于所有其他方法,相对于之前最好的方法(7.66% vs6.78%)提高了0.88%。一个可能的原因是人的站立点更可靠,可以用于计算单应性矩阵。04.3. 消融研究0我们进行了消融研究,分析了我们的损失对KITTI验证集上汽车类别的影响。默认的评估指标是AP3D|R40。04.3.1 计算单应性矩阵0为了计算单应性矩阵,我们使用qgt和˜Qpred(类型1)构建几何约束。同样,也可以选择qpred和˜Qgt(类型2)。因此,我们比较了ImVoxelNet(+homo)和MonoFlex(+homo)中这两种类型的性能。结果列在表4和表5中。我们可以看到,对于像ImVoxelNet这样在BEV域中进行预测的方法,类型2更适合。HomoProposalWeightLossAP3D|R4012123None0.10.20.51.0+homo+projEasyModerateHard����21.4414.8812.08✓✓✓✓21.3514.6311.60✓✓✓✓19.4114.2111.63✓✓✓✓20.2914.2611.60✓✓✓✓20.2013.8511.41✓✓✓✓21.0114.1911.53✓✓✓✓20.4314.1311.48✓✓✓✓19.2713.9911.53✓✓20.5114.1311.49HomoReplicated lossesWeightLossAP3D|R40����23.0416.8914.90✓✓✓✓22.3716.4814.41✓✓✓✓21.9216.5413.84✓✓✓✓22.4816.6214.49✓✓✓✓22.5116.6914.4610860表4.在验证集上评估了ImVoxelNet的不同设置。默认情况下,如顶行所示,我们将单应性类型2(第4.3.1节)、代表性提案类型1(第4.3.2节)和权重0.2(第4.3.4节)与单应性损失相结合,以获得最佳性能。每一行评估了一种特定的设置与默认选择的比较。底行显示了与投影损失(第5.1节)的比较。0对于像MonoFlex这样在2D图像中进行预测的方法,类型1获得了更高的性能。因此,预测域可以影响最终的性能。因此,如何选择适当的类型最终将取决于具体的应用。04.3.2 代表性提案0在像ImVoxelNet这样的基于锚点的方法中,根据IoU阈值,几个锚点将被分配给同一个真实框。因此,我们需要从这些正样本中选择代表性的提案。这里,我们有三种选择策略:1)具有最高分类分数的提案,2)具有最高IoU分数的提案,3)所有正锚点的平均提案。我们在表4中进行了消融实验。结果显示,在中等设置下,具有最高分类分数的方法达到了最佳性能的14.88%。它还显示了我们的单应性损失可以增强回归和分类头之间的一致性。04.3.3 复制的损失0对于像MonoFlex这样的无锚点方法,深度回归头在训练初期可能非常不稳定。为了解决这个问题,我们参考了[27]中的复制策略,并在这里提出了一个复制的提案策略,以增强鲁棒性。单应性损失总共被复制3次,以获得可靠的单应性矩阵。我们通过四种不同的设置进行了消融实验:1)qpred + Depth pred(预测的深度),2)q pred + Depthgt(真实深度),3)q g
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功