没有合适的资源?快使用搜索试试~ 我知道了~
6851用于自动驾驶的通过颜色嵌入3D重建的精确单目3D对象检测马新柱1,王志辉1,2,李豪杰1,2,*,张鹏波1,欧阳万里3,范鑫1,21大连理工大学2辽宁省普适网络与服务软件重点实验室3悉尼大学,SenseTime计算机视觉研究小组,澳大利亚{maxinzhu@mail.,zhwang@,hjli@,bobo96@mail., xin.fan} dlut.edu.cnwanli.sydney.edu.au摘要在本文中,我们提出了一个单目三维物体检测框架在自动驾驶领域。与以前的基于图像的方法,专注于从2D图像中提取的RGB特征,我们的方法解决了这个问题,在重建的3D空间,以明确地利用3D上下文。为此,我们首先利用一个独立的模块将输入数据从2D图像平面转换到3D点云空间以获得更好的输入表示,然后使用PointNet主干网执行3D检测为了增强点云的鉴别能力,我们提出了一个多模态特征融合模块,将互补RGB线索嵌入到生成的点云表示中。我们认为从生成的3D场景空间推断3D边界框X,Y,Z空间)与图像平面(即,R、G、B图像平面)。在挑战性的KITTI数据集上的评估表明,我们的方法大大提高了最先进的单目方法的性能。1. 介绍近年来,随着计算机视觉和深度学习技术的发展[12,34,36],提出了许多令人印象深刻的方法来进行精确的2D对象检测[9,8,11,32,17,24,41,18]。然而,除了获得2D边界框或像素掩模之外,3D对象检测在诸如自动驾驶和机器人应用的许多应用中是迫切需要的,因为它可以以更真实的方式描述对象现在,这一问题受到了越来越多学者的关注。因为* 通讯作者:hjli@dlut.edu.cn图1. 输入数据的不同表示。左上:RGB图像。右上角:深度贴图。左下角:点云。右下角:RGB增强点云(此可视化仅映射R通道)。请注意,我们提到的所有表示都可以由单个RGB图像生成。LiDAR提供可靠的深度信息,可用于准确定位物体并表征其形状,许多方法[14,19,21,27,5,33,40]使用LiDAR点云作为其输入,并在自动驾驶场景中获得令人印象深刻的检测结果。相比之下,其他一些研究[1,4,3,37,23,35,15]致力于用更便宜的单目相机取代LiDAR,这些相机在日常生活中很容易获得。由于LiDAR的成本更高,并且受到基于图像的深度预测技术的显着进步的启发,本文重点研究仅利用单目图像的3D目标的高性能检测。然而,基于图像的三维检测是非常具有挑战性的,并且基于图像的方法和基于LiDAR的方法之间的性能存在巨大的差距。我们在这项工作中表明,我们可以通过变换输入数据表示来大大提高基于图像的3D检测的性能。典型的基于图像的3D对象检测方法[1,3,4,35]采用类似于2D检测器的流水线,主要集中在从2D图像中提取的RGB特征但是,这些功能不适用于3D相关任务6852因为缺乏空间信息。这是早期研究未能取得较好效果的主要原因之一一个直观的解决方案是,我们可以使用CNN来预测深度图[38,39,6],然后如果我们没有可用的深度数据,则将它们用作虽然深度信息有助于3D场景理解,但简单地将其用作RGB图像的附加通道,例如[37] 不能补偿基于图像的方法和基于LiDAR的方法之间的性能差异。毫无疑问,LiDAR数据比估计的深度准确得多,在这里,我们认为性能差距不仅是由于数据的准确性,而且还由于其表示(见图1)。1用于单目3D检测任务上的不同输入为了缩小差距,并使估计的深度发挥更大的作用,我们需要一个更明确的表示形式,如点云,它描述了一个真实世界的三维坐标,而不是深度与图像中的相对位置例如,在3D世界中具有不同位置的对象在图像平面中可能具有相同的将深度图转换为点云的好处可以列举如下:(1)点云数据显式地显示了空间信息,这使得网络更容易学习从输入到输出的非线性映射。(2)由于一些特定的空间结构只存在于三维空间中,因此网络可以学习到更丰富的特征(3)最近在点云上的深度学习的重大进展提供了坚实的建筑砖,我们可以以更有效和高效的方式估计3D检测结果。基于以上观察,提出了单目3D目标检测框架。我们的方法设计的主要思想是找到一个更好的输入表示。具体来说,我们首先学习使用前端深度CNN和输入RGB数据来产生两个中间任务,涉及2D检测[25,26,8]和深度估计[6,39](见图2)。然后,我们将深度图转换成点云的相机校准文件的帮助下,以明确地给出的3D信息,并使用它们作为输入数据的后续步骤。此外,保证该方法性能的另一个关键部分是多模态特征融合模块。在融合了与三维点云互补的RGB信息后,进一步增强了用于描述三维物体的注意,当所有网络的优化完成时,推断阶段仅基于RGB输入。本文的贡献可以概括为:• 我们提出了一个新的框架,单目三维物体检测的转换t二维图像的三维点云,并执行三维检测有效和有效。ficiently。• 本文设计了一种特征融合策略,充分利用了RGB线索和点云的优势,提高了检测性能,该方法也可应用于在其他场景中,例如基于LiDAR的3D检测。• 对具有挑战性的KITTI数据集[7]的评估表明,我们的方法在3D上的 AP比所有最先进的单眼方法高出约15%和11%定位和检测任务。2. 相关工作我们简要回顾了现有的工作在自动驾驶场景中的三维物体基于图像的3D物体检测:在早期的工作中,基于单眼的方法与2D检测共享类似的框架[8],但是估计对象中心的3D坐标(x,y,z)要复杂得多,因为只有图像外观不能决定绝对的物理位置。Mono3D [3]和3DOP [4]专注于使用先验知识(例如,对象尺寸、地平面)分别从单目和立体图像中进行。Deep3DBox [23]基于3D边界框应紧密配合2D检测边界框的事实DeepMANTA [1]使用关键点对3D车辆信息进行编码,因为它们是具有众所周知的几何形状的刚性对象然后,Deep MANTA中的车辆识别可以被认为是额外的关键点检测。虽然这些方法提出了一些有效的先验知识或合理的约束条件,但由于缺乏空间信息,它们无法获得令人满意的性能。最近提出的用于单目3D对象检测的另一种方法[37]虽然它多次使用了深度(或视差),但只是将其作为RGB特征的辅助信息,并没有充分利用其潜在的价值。相比之下,我们的方法将生成的深度作为核心特征,并将其转换到3D空间,以显式地利用其空间信息。伪激光雷达[31]还发现数据呈现在3D检测任务中起着重要作用。 重点验证了点云表示的通用性,并将生成的点云应用于现有的一些不同的三维检测方法中,而不做任何修改。相比之下,除了转换数据表示,我们进一步设计了一个专用的3D检测框架的单目图像。基于LiDAR的3D物体检测:尽管我们的方法是针对单目图像数据,但我们对数据进行了变换6853类分数框坐标区域类标签2D检测器深度图数据转换分割Det-Net3D框RGB 图像深度生成器3D数据生成3D框估计图2.提出的单目3D对象检测框架这与基于LiDAR的方法相同。因此,本文还介绍了几种典型的基于LiDAR的方法.MV3D [5]使用多视图特征图对3D点云进行编码,从而实现基于区域的多模态融合表示。随着对原始点云的深度学习的发展[28,29,13],还提出了几种仅基于原始LiDAR数据的检测方法。Qi等人[27]通过提取与其2D检测相对应的平截头体点云,VoxelNet [42]将点云划分为等距的3D体素,并将每个体素内的一组点转换为统一的特征表示。最后,对这些高层次的体素特征进行2D卷积层,以获得空间特征并给出预测结果。尽管这两种方法得到了很好的检测结果,但它们没有很好地利用RGB信息。在比较中,我们还引入了一个RGB特征融合模块,以提高点云的判别能力。3. 该方法在本节中,我们将描述所提出的基于单眼的3D对象检测框架。我们首先提出了一个概述所提出的方法,然后介绍它的细节。最后,我们展示了整个网络的优化和实施细节。3.1. 方法概述如图2、提出的三维检测框架由两个主要阶段组成。在3D数据生成阶段,我们训练了两个深度CNN来执行中间任务(2D检测和深度估计),以获得位置和深度信息。特别地,我们将生成的深度转换为点云,这是对深度的更好表示。兴趣)。最后,我们提取每个RoI中的点作为后续步骤的输入数据在3D框估计阶段,为了提高最终的任务,我们分别设计了背景点分割和RGB信息聚合两个模块。在此之后,我们使用PointNet作为我们的骨干网络来预测每个RoI的3D位置,尺寸和方向。请注意,2D框的置信度分数被分配给其对应的3D框。3.2. 3D数据生成中间任务。众所周知,利用单目图像进行三维检测是一项非常具有挑战性的任务,因为图像的外观并不能确定物体的三维坐标。因此,我们训练两个深度CNN来生成深度图和2D边界框,以提供空间信息和位置先验。在实验部分,我们采用了一些现有的算法来完成这些中间任务,并详细分析了这些算法对整体性能的影响输入表示。这项工作更侧重于如何使用深度信息,而不是如何获得它们。我们认为以前基于图像的3D探测器未能获得更好结果的主要原因之一是它们没有很好地利用深度图。简单地使用深度图作为RGB图像的广告通道,如[39,20],然后期望神经网络自动提取有效特征并不是最好的解决方案。相比之下,我们在KITTI提供的相机校准文件的帮助下将估计的深度转换为点云(见图11)。1用于不同的输入表示),然后将其用作我们的数据输入表单。具体地,给定2D图像空间中具有深度d的像素坐标(u,v),相机坐标系中的3D坐标(x,y,z)可以被计算为:z=d,3D检测,然后我们使用2D包围盒来获得关于RoI(区域)位置的先验信息。x=(u−Cx)∗z/f,y=(v−Cy)*z/f,(一)6854其中f是相机的焦距,(Cx,Cy)是主点。可以如下使用深度图和2D边界框B来生成输入点云SS={p|p←F(v),v ∈ B},(2)XYZ分支机构其中v是深度图中的像素,并且F是由等式(1)引入的变换函数。1.一、值得注意的是,像大多数基于单目的方法一样,我们在我们的方法中使用相机校准文件。实际上,我们也可以使用点云编码器-解码器网络从(u,v,d)学习映射到(x,y,z),因此我们阶段更多。 在我们的测量中,我们观察到,NPoinRGB分支区分行这两种方法之间没有明显的性能差异。这是因为在点云生成阶段中引入的误差比深度图本身中包含的噪声小得多。3.3. 3D框估计点分割。在3D数据生成阶段之后,输入数据被编码为点云。然而,这些数据中存在大量的背景点,为了准确估计目标的位置,必须将这些背景点剔除。Qi等人[27]提出了一个3D实例分割PointNet来解决LiDAR数据中的这个问题。但是该策略需要额外的预处理以从3D对象地面实况生成分割标签。更重要的是,即使我们使用相同的标记方法,也会有严重的噪声,因为我们重建的点相对不稳定。基于这些原因,我们提出了一种简单而有效的基于深度的分割方法。具体来说,我们首先计算每个2D边界框中的深度均值,以获得RoI的近似位置,并将其用作阈值。Z通道值大于此阈值的所有点都被视为背景点。亲-分割点集S’可以表示为:图3. 3D盒估计(Det-Net)与RGB特征融合模块。G是使用Eq. 六、工作来估计由其中心(x,y,z)、大小(h,w,l)和航向角θ编码的3D对象。与其他工程一样,我们只考虑一个方向,因为假设路面是平坦的,而另一个两个角度没有可能的变化。另一件需要注意的事情是,我们在这里估计的中心C最后,我们将2D边界框的置信度分数分配给其相应的3D检测结果。3.4. RGB信息聚合为了进一步提高我们的方法的性能和鲁棒性,我们提出了聚合互补的RGB信息的点云。具体来说,我们添加RGB信息生成的点云取代方程。2个:S={p|p← [F(v),D(v)],v∈ B},(5)其中D是输出输入点的相应RGB值的函数以这种方式,点被编码为6D向量:[x,y,z,r,g,b]。然而,单纯依靠S′={p |pv≤Σp∈S|S|pv+ r,p∈S},(3)这种简单的方法(我们在实验中称之为部分)添加RGB信息是不可行的。如图所示。3、我们引入了一种对富-其中pv表示点的Z通道值(其等于深度),并且r是用于校正阈值的偏置最后,在点集S′中随机选取固定个数的点作为该模块的输出,以保证后续网络输入个数的一致性点3D框估计。在我们估计最终的3D结果之前,我们按照[27]使用轻量级网络预测RoI的中心δ,并使用它来更新点云,如下所示:任务。注意机制已成功地应用于各种任务,如图像字幕生成和机器翻译,以选择有用的信息。具体来说,我们利用注意力机制来引导空间特征和RGB特征之间的消息传递。由于传递的信息流并不总是有用的,因此注意力可以充当控制流的门函数,换句话说,使网络自动学习关注或忽略来自其他特征的信息。S′′ ={p |p − δ,p ∈ S′},(4)当我们将RGB消息传递到其对应点时,首先从特征图F产生注意力图G其中S′′是我们用于执行最终任务的点的集合然后,我们选择PointNet [28]作为我们的3D检测骨干网-从XYZ分支生成如下:G←σ(f([Fxyz,Fxyz])),(63D框一维转换最大/平均合并Max池化ts信道XYZ一维转6855)最大平均值6856方法数据IoU=0.5IoU=0.7容易中度硬容易中度硬Mono3D [3]单30.5022.3919.165.225.194.13[23]第二十三话单30.0223.7718.839.997.715.30多融合[37]单55.0236.7331.2722.0313.6311.60ROI-10D [20]单---14.769.557.57Psudeo-LiDAR [31]单70.849.442.740.626.322.9我们单72.6451.8244.2143.7528.3923.87表1.3D定位性能:KITTI验证集上鸟瞰图框的平均精度(APloc)(%)方法数据IoU=0.5IoU=0.7容易中度硬容易中度硬Mono3D [3]单25.1918.2015.522.532.312.31[23]第二十三话单27.0420.5515.885.854.103.84多融合[37]单47.8829.4826.4410.535.695.39ROI-10D [20]单---10.256.396.18MonoGRNet [30]单50.5136.9730.8213.8810.197.62Psudeo-LiDAR [31]单66.342.338.528.218.516.4我们单68.8649.1942.2432.2321.0917.26表2.3D检测性能:KITTI验证集上3D框的平均精度(AP3D)(%)其中f是从卷积层学习的非线性函数,σ是用于归一化注意力图的S形函数。然后,消息被传递,注意力映射被控制如下:Fxyz←Fxyz+GFrgb,(7)其中⊙表示逐元素乘法。除了点级特征融合,我们还引入了另一个分支来提供对象级RGB信息。按面值-首 先 , 我 们 从 RGB 图 像 中 裁 剪 ROI 并 将 其 调 整 为128×128。 然后,我们使用CNN提取对象级特征图Fobj , 从 融 合 模 块 获 得 的 最 终 特 征 图 集 F 为 :F←CONCAT(Fxyz,Fobj),其中CONCAT表示级联操作。3.5. 实施详情。优化. 整个培训过程分为两个阶段。在第一阶段,我们只根据原始论文的训练策略优化之后,我们使用多任务损失函数同时优化两个网络进行3D检测L=Lloc+Ldet+λLcorner,(8)其中Lloc是用于轻型位置网(仅中心)的损失函数,Lloc是用于3D探测网(中心、大小和航向角)。我们还使用角损失[27],其中输出目标首先被解码为定向3D框,然后直接关于地面真相我们使用Adam优化器训练了200个epochs,批量大小为32。学习率最初设置为0.001,每20个epoch减少一半。整个培训过程可以在一天内完成。实作详细数据。该方法基于PyTorch和Nvidia 1080TiGPU实现。所提出的方法的两个中间网络自然地支持任何网络结构。我们实施了一些不同的-他们的论文中所描述的各种方法都是准确的,相关的分析可以在实验部分找到。对于3D检测网络,我们使用PointNet作为骨干网络,并通过随机初始化从头开始训练它们此外,保留率为0.7的丢弃策略被应用到除了最后一个全连接层之外的每个全连接层。对于RGB值,我们首先通过除以255将它们的范围归一化为对于RGB特征融合模块中的区域分支,我们使用ResNet-34和半通道和全局池来获得1×1×256个特征。4. 实验结果我们在具有挑战性的KITTI数据集[7]上评估了我们的方法,该数据集提供了7,481张用于训练的图像和7,518张用于测试的图像。检测和定位任务在三个方面进行评估:根据对象的遮挡和截断程度,分为容易、中等和困难。由于测试集的地面实况不可用,并且对测试服务器的访问受到限制,我们使用[3,4,5]中描述的协议进行深入评估,68573D3D将训练数据细分为训练集和验证集,这导致用于训练的3,712个数据样本和用于验证的3,769个数据样本。这种分割避免了来自同一序列的样本同时包含在训练集和验证集中[3]。4.1. 与其它方法基线。由于这项工作的目的是单目3D物体检测,我们的方法主要是比较与其他方法只有单目图像作为输入。这里选择了五种方法进行比较:Mono 3D [3],Deep 3DBox [23]和Multi-Fusion [37],ROI-10 D [20],MonoGRNet [30][31]伪激光雷达车KITTI验证集上3D定位和检测任务的评价结果分别见表1和表2。所提出的方法始终优于所有三个难度级别的所有竞争方法。对于定位任务,所提出的方法在中等范围内优于Multi-Fusion [37],设置. 对于三维检测任务,我们的方法达到了12.2在IoU阈值为0.5的情况下,与最近提出的MonoGRNet[30]相比,0.7.在简单的设置中,我们的改进更为突出。具体来说,我们的方法在定位和检测任务(IoU=0.7)上比以前的最先进技术提高了21.7和18.4。请注意,没有COM-复杂的先验知识或约束,如[3,4,20],这有力地证实了数据表示的重要性。与与本工作同时进行的伪激光雷达[31]相比,所提出的方法在每个度量上都有大约1.5AP的改进。这是由于背景点分割算法以及RGB信息的引入。我们将在SEC中详细讨论这一点。四点二。表3显示了测试集上的结果,更多细节,如精度-召回曲线,可以在KITTI官方服务器上找到。测试集的结果也表明了我们的方法在性能上的优越性与其他人相比。方法任务容易中度硬多融合[37]Loc.13.739.628.22RoI-10D [20]Loc.16.7712.4011.39我们Loc.27.9122.2418.62多融合[37]Det.7.085.184.68RoI-10D [20]Det.12.3010.309.39我们Det.21.4816.0815.26表3.3D定位(Loc.)的AP(%)和3D检测(Det.)KITTI测试集上的任务。4.2. 详细分析拟议方法在本节中,我们提供分析和消融实验来验证我们的设计选择。RGB信息。我们进一步评估所提出的RGB融合模块的效果,基线是所提出的方法,没有RGB值,并使用它们作为生成点的附加通道。表4显示KITTI上汽车类别的相关结果。可以看出,所提出的模块在定位和检测任务上分别获得约2.1和1.6mAP的改进(中等)定性比较可以在图6中找到。定量和定性的结果都表明了所提出的RGB融合模块的有效性。此外,需要注意的一点是,不正确地使用RGB信息(如普通concat)将导致性能下降。任务容易中度硬不含RGBLoc.41.2926.2822.75普通混凝土Loc.36.1725.3421.94我们Loc.43.7528.3923.87不含RGBDet.30.7319.4616.72普通混凝土Det.27.2018.2516.15我们Det.32.2321.0917.26表4.RGB信息的消融研究指标为AP0.7在KITTI验证集上。点分割。我们比较了所提出的点分割方法和[27]中使用的3D分割PointNet。基线是直接使用具有噪声的点云来估计3D框,该噪声可以因为所有的点都被分类为阳性样本。如表5所示,我们的基于先验的方法明显优于基线和分割PointNet,这证明了所提出的方法的有效性,并且表6表明所提出的方法对于变化的阈值是鲁棒的。同时,实验结果也表明,基于学习的方法不适用于近似点云的分割任务,因为难以获得可靠的标签。此外,所提出的方法也比分割PointNet快得多(CPU上约5ms,每个建议在GPU上20ms)。IOU容易中度硬无分割0.566.4244.5340.60[27]第二十七话0.567.0145.5140.65我们0.568.8649.1942.24无分割0.727.0418.2216.13[27]第二十七话0.729.4918.7016.57我们0.732.2321.0917.26表5.点分割的消融研究 述度量是KITTI确认集上的AP 0.7。68583D3D3Dloc3D3DR容易中度硬-0.531.1320.0116.810.031.8720.5517.030.532.2321.0917.261.031.9320.9317.18表6.KITTI验证集上3D检测的不同点分割阈值r(以米为单位)的AP0.7(%)深度贴图。 如第 3、我们的做法取决于表 8. 不 同 取 样 量 的 比 较 。 KITTI 验 证 集 的 指 标 为 AP0.7(%)。请注意,样本点的数量在训练和测试阶段是一致的。在由深度生成器的输出生成的点云发电机为了研究深度图的质量对所提出的方法的整体性能的影响,我们实现了四个不同的深度生成器[10,16,22,2]。从表7中所示的结果,我们发现当使用更准确的深度时,3D检测准确度显著增加(关于深度图的准确度的更多细节可以在补充材料中找到)。值得注意的是3530252015100 0.2 0.4 0.6 0.8 1爆率353025201510500.020.040.060.080.1扰动标准所提出的方法仍然以较大幅度优于[20]。图4.左:随机点丢失的稳健性测试右:随机扰动的鲁棒性测试(将高斯噪声独立地添加到每个点中)。 汽车的指标为AP0.7(%)深度任务容易Mod.硬MonoDepth[10]Loc.32.4220.2617.21DORN[16]Loc.43.7528.3923.87[22]第二十二话Loc.47.4130.7225.66PSMNet [2]Loc.60.1834.0130.32MonoDepth[10]Det.23.1215.4514.19DORN[16]Det.32.2321.0917.26[22]第二十二话Det.36.9723.6919.25PSMNet [2]Det.45.8526.0323.16表7.不同深度生成器的比较度量KITTI验证集上的AP0.7和AP0.7。取样数量。一些研究,如[28,29],观察到分类/分割准确性将随着点数的减少而急剧下降在我们的方法中,我们随机选择一个固定数量(默认配置为512点)的点云做3D检测任务。表. 8显示了在不同采样量下所提出的方法根据结果,AP3D会随着点数在开始时增加。然后,在达到一定水平(10512分)后,表现趋于稳定。值得注意的是,即使采样点很少,我们仍然获得了相对较好的检测性能。鲁棒性我们表明,所提出的方法是强大的各种输入腐败。我们在训练阶段首先将采样数量设置为512,但在测试阶段使用不同的值图4.2表明,该方法有超过70%的AP三维,即使80%的点在KITTI验证集上。都错过了然后,我们测试了模型对点扰动的鲁棒性,结果如图4.2所示。网络架构。我们还研究了不同的3D检测网络架构对整体性能的影响(以前报告的结果都是基于PointNet),实验结果如表所示。9 .第九条。数据容易Mod.硬PointNet [28]单32.2321.0917.26[29]第二十九话单33.1721.7117.61RSNet [13]单33.9322.3417.79表9.不同3D检测网络架构的比较。KITTI验证集的指标为AP0.7(%)。4.3. 定性结果和失效模式我们将我们的方法的一些检测结果可视化在图1中。5和图5中的典型定位结果。7.第一次会议。总的来说,我们的算法可以得到一个很好的检测结果。然而,由于它此外,对于远处的物体,我们的算法很难给出准确的结果,因为深度不可靠(图中最左边的汽车)。7距离摄像头70.35米)。5. 结论本文提出了一种基于单目图像的精确三维目标检测框架。不像其他容易Mod.硬AP3D简 易模 块硬AP3D取样数量容易Mod.硬6427.9119.4116.3112829.7219.6216.6425630.9920.7117.1851232.2321.0917.26102431.4421.0117.236859图5. 3D检测结果的定性比较:3D长方体投影到图像平面。白框代表我们的预测,蓝框来自地面实况。图6. RGB信息的定性比较:3D长方体投影到图像平面。仅使用XYZ信息的检测结果用写框表示,蓝框来自RGB特征融合模块训练的模型。所提出的RGB融合方法可以提高3D检测精度,特别是对于遮挡/截断的情况。文本明确。我们认为,点云表示比深度图更适合于3D相关的任务。此外,我们提出了一个多模态特征融合模块,将互补RGB线索嵌入到生成的点云表示中,以增强生成的点云的区分能力。在KITTI基准测试中,我们的方法在3D定位和检测任务方面明显优于现有的基于单眼的方法。此外,扩展版本验证了设计策略也可以应用于基于立体和基于LiDAR的方法。图7. 3D定位的定性结果:三维长方体投影到地平面。红框代表我们的预测,绿框来自地面实况。基于图像的方法,我们的方法解决了这个问题,在重建的3D空间,以利用3D控制,致谢本工作得到了国家自然科学基金项目(2004)的部分资助。61976038、61932020号61772108。6860引用[1] FlorianChabot、MohamedChaouch、JaonaryRabarisoa 、 Ce'lineTeulie`re 和 ThierryChateau 。Deepmanta:一个从粗到精的多任务网络,用于从单目图像进行2d和3d在IEEE计算机视觉和模式识别会议(CVPR),第2040-2049页一、二[2] 张嘉仁和陈永生。金字塔立体匹配网络。在IEEE计算机视觉和模式识别会议(CVPR)中,第5410-5418页,2018年。7[3] Xiaozhi Chen , Kaustav Kundu , Ziyu Zhang , HuiminMa,Sanja Fidler,and Raquel Urtasun.用于自动驾驶的单目三维物体检测。在IEEE计算机视觉和模式识别会议(CVPR)中,第2147-2156页一、二、五、六[4] Xiaozhi Chen,Kaustav Kundu,Yukun Zhu,Andrew GBerneshawi , Huimin Ma , Sanja Fidler , and RaquelUrtasun.用于精确对象类别检测的3D对象建议。神经信息处理系统进展,第424-432页,2015年。一、二、五、六[5] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议(CVPR),第1卷,第3页,2017年。一、三、五[6] Huan Fu , Mingming Gong , Chaohui Wang , KayhanBat- manghelich,and Dacheng Tao.用于单目深度估计的深度 有序 回归在 IEEE计算 机视 觉和模 式识 别会议(CVPR)中,第2002-2011页,2018年。2[7] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在IEEE计算机视觉和模式识别会议,2012年。二、五[8] 罗 斯 · 格 希 克 。 快 速 R-CNN 。 在 IEEE InternationalConference on Computer Vision(ICCV),第1440一、二[9] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的功能层次结构,用于准确的对象检测和语 义 分 割 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)中,第580-587页1[10] Cle' mentGodard,OisinMacAodha,andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议(CVPR),第2卷,第7页,2017年。7[11] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick. 面 具 R-CNN 。 IEEEInternationalConferenceonComputerVision ( ICCV ) , 第2980IEEE,2017年。1[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)中,第770-778页,2016年。1[13] Qiangui Huang,Weiyue Wang,and Ulrich Neumann.用于点云三维分割的回流切片网络。在IEEE计算机视觉和模式识别会议(CVPR)中,第2626-2635页,2018年。三、七[14] 波丽用于点云中车辆检测的3D全卷积网络。在IEEE关于英特尔智能机器人和系统(IROS)的国际会议上,第1513-1518页。IEEE,2017年。1[15] 李步宇,欧阳万里,卢胜,曾星宇,王晓刚.Gs3d:一个用于自动驾驶的高效三维物体检测框架。 在IEEE会议上 关于计算机视觉和模式识别(CVPR),2019年6月。1[16] Ming Liang , BinYang , Shenlong Wang , and RaquelUrtasun.多传感器三维目标检测的深度连续融合在欧洲计算机视觉会议(ECCV)的会议记录中,第641-656页7[17] Tsung-YiLin , Priyal Goyal , Ross Girshick , KaimingHe,and PiotrDoll a'r. 密集目标检测的焦面损失。IEEE关于模式分析和机器智能的交易,2018。1[18] 刘立,欧阳万里,王晓刚,保罗·费古思,陈洁,刘欣旺,马蒂·皮耶提克艾宁。 用于通用对象检测的深度学习 : 一 个 调 查 。 arXiv 预 印 本 arXiv : 1809.02165 ,2018。1[19] Wenjie Luo,BinYang,and Raquel Urtasun.快速和激烈:实时端到端的3D检测,跟踪和运动预测与一个单一的卷积网络。在IEEE计算机视觉和模式识别会议(CVPR)中,第3569-3577页1[20] Fabian Manhardt , Wadim Kehl , and Adrien Gaidon.ROI-10 d:将2d检测提升到6d姿态和度量形状的单目提升在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。三五六七[21] Daniel Maturana和Sebastian Scherer。Voxnet:用于实时对 象 识 别 的 3D 卷 积 神 经 网 络 。 IEEEInternationalConference on Intelligent Robots and Systems(IROS),第922-928页。IEEE,2015年。1[22] Nikolaus Mayer , Eddy Ilg , Philip Hausser , PhilippFischer , Daniel Cremers , Alexey Dosovitskiy , andThomas Brox.用于训练卷积网络的大型数据集,用于视差,光流和场景流估计。在IEEE计算机视觉和模式识别会议(CVPR)中,第4040-4048页7[23] Arsalan Mousavian、Dragomir Anguelov、John Flynn和JanaKosˇeck a´。使用深度学习和几何学的3D边界框估计在IEEE计算机视觉和模式识别会议(CVPR)中,第5632IEEE,2017年。一、二、五、六[24] Wanli Ouyang , Kun Wang , Xin Zhu , and XiaogangWang.用于目标检测的链式级联网络。2017年10月在IEEE计算机视觉国际会议(ICCV)上发表。1[25] 欧阳万里和王晓刚。联合深度学习用于行人检测。在Proceedings of the IEEE International Conference onComputer Vision,pages 2056-2063,2013中。26861[26] 欧阳万里,周慧,李洪生,李泉泉,严俊杰,王晓刚.联合学习深度特征、可变形部分、遮挡和分类,用于行人 检 测 。 IEEE transactions on pattern analysis andmachine intelligence,40(8):1874-1887,2017。2[27] Charles R. Qi,Wei Liu ,Chenxia Wu ,Hao Su,andLeonidas J. Guibas从rgb-d数据中检测三维物体的截头体点网。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。一、三、四、五、六[28] Charles R.Qi , Hao Su , Kaichun Mo , and LeonidasJ.Guibas Pointnet:对点集进行深度学习,用于3D分类和 分 割 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2017年7月。三、四、七[29] Charles Ruizhongtai Qi,Li Yi,Hao Su,and Leonidas JGuibas. Pointnet++:度量空间中点集的深度层次特征学习。神经信息处理系统,第5099-5108页,2017年。三、七[30] 秦增义,王静璐,陆燕。Monogrnet:一个用于单目三维物体定位的几何推理网络。在AAAI人工智能会议论文集,第33卷,第8851-8858页,2019年。五、六[31] Jiaxiong Qiu , Zhaopeng Cui , Yinda Zhang , XingdiZhang,Shuaicheng Liu,Bing Zeng,and Marc Pollefeys.深度:由稀疏激光雷达数据和单色图像进行深表面法线引导的室外场景深度预测。 在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。二、五、六[32] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:利用区域建议网络进行实时目标检测。神经信息处理系统的进展,第91-99页,2015年。1[33] Zhile Ren和Erik B Sudderth.使用定向梯度的云的三维对象检测和布局预测在IEEE计算机视觉和模式识别会议(CVPR),第1525-1533页,2016年。1[34] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功