基于深度拟合度评分网络的单目三维目标检测

54 浏览量更新于2023-10-18 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1057基于深度拟合度评分网络的单目三维目标检测刘立杰1，2，3，4，陆继文1，2，3，刘伟，徐春静4，田琦4，周杰1，2，31清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心4诺亚liulj17@mails.tsinghua.edu.cn{lujiwen，jzhou}@tsinghua.edu.cn，{xuchunjing，tian.qi1}@ huawei.com摘要在本文中，我们建议学习一个深度拟合解-green评分网络用于单目3D物体检测，其目的是对建议与目标的契合度进行最终评分。与大多数现有的单目框架使用紧约束来获得3D定位不同，我们的方法通过测量投影的3D建议与对象之间的视觉拟合度来实现高精度定位。我们先把维度回归-使用基于锚点的方法确定对象的位置和方向，以便可以构建合适的3D建议。我们提出了一种基于2D线索的3D IOU推理网络，它可以完全基于2D线索来推断3D提案和对象之间的3D IOU。因此，在检测过程中，我们在3D空间中采样大量的候选对象，并将这些3D边界框单独投影到2D图像上。最佳候选日期可以通过简单地探索提案和对象之间的空间重叠来挑选出来在KITTI数据集上的实验证明了该框架的有效性。1. 介绍人们生活在一个3D的世界里，2D感知远远不能满足人们日常使用的需求。在许多应用中，如自动驾驶[4，7，23，2，14]和基于视觉的抓取[37，31，27]，我们通常需要推理对象之间的3D空间重叠，以便理解现实场景并采取进一步行动。三维物体检测是三维感知中最重要的问题之一，它需要解决包括尺寸、方向和位置的9度自由度（DoF）问题。虽然在立体声方面已经取得了很大的进步-*通讯作者图1.我们提出的方法和紧-约束方法上半部分是现有方法中常用的方法，它忽略了三维投影与目标之间的空间关系，对二维检测带来的误差非常敏感下半部分是我们提出的流水线，该流水线对3D建议和对象之间的3D空间重叠进行推理，以便获得更好的检测结果。基于[26，9，10]，基于RGBD [30，39，21，40，35]和基于点云[41，29，16，11，28，24，1，3，47]的3D目标检测方法，基于单目图像的方法尚未得到深入研究，并且大多数现有工作都集中在子问题上，例如方向估计[8，43，32]。其主要原因是在单目环境下，唯一的线索是2D图像中的外观信息，而真实的3D信息是不可用的，这使得问题是病态的。然而，在许多情况下，例如Web图像，移动应用程序[15]和胃镜检查，深度或点云的信息不可用或负担不起。此外，在某些极端情况下，其他传感器可能会损坏。因此，考虑到单目图像源的丰富性和系统对鲁棒性的要求，单目三维目标检测问题就显得至关重要。在单目3D目标检测问题中，尺寸和方向估计比位置估计更容易1058问题，因为唯一可用的信息，外观，与前两个子问题密切相关。相反，使用单个图像块直接回归位置是不实际的，因为具有相同姿态的附近和远处对象在外观上基本相同。紧约束[32，25]是单目3D对象检测问题中常用的方法，它通过将3D建议放置在2D边界框中来然而，这种严格的约束有两个明显的缺点：1）未使用图像外观提示;因此，它不能受益于训练集中的大量标记数据。2)其性能高度依赖于2D检测精度，如图1所示。通过将这些3D边界框投影到2D图像上并检查投影与对象之间的关系（拟合度），人们可以很容易地区分3D检测结果的质量，受此启发在本文中，我们首先回归的尺寸和方向的对象使用基于锚的方法，以便我们可以构建一个合适的三维建议。我们之所以强调回归步骤的重要性，是因为如果没有适当的建议，检查拟合度是不切实际的。然后，我们提出了拟合质量网络（Fitting Quality Network，简称QQQNet），仅使用2D信息来推断 3D 建议与对象之间的 3D 交于并（Intersection over Union，简称IoU）。我们的动机是，尽管3D位置独立于2D外观，但在2D图像上绘制投影结果可以为卷积神经网络（CNN）带来额外的信息，以更好地理解原始3D边界框和对象之间的空间关系。只要网络学习投影的三维包围盒模式，就能获得判断三维投影与物体关系的能力，实现高精度的三维感知。图1给出了我们的想法和现有的基于紧约束的方法之间我们可以看到，我们的方法是不敏感的2D检测结果的错误。据我们所知，我们是第一个解决单目3D检测问题，通过探索3D建议和对象之间的拟合度。我们在具有挑战性的KITTI数据集上进行了实验，并实现了最先进的单目3D对象检测性能，这证明了我们框架的有效性。2. 相关工作单目3D物体检测：单目3D目标检测比2D目标检测困难得多，这是因为2D-3D映射产生的模糊性。很多方法都迈出了第一步，大致可以分为两类：手工制作的方法，基于深度学习的方法。早期的作品大多属于手工方法，集中于设计高效的手工特征. Payet和Todorovic [33]使用图像轮廓作为基本特征，并提出了中层特征，称为边界袋（BOB）。Fidler等人 [18]扩展了可变形零件模型（DeformablePart Model，简称DEPM），并将对象类表示为由面和零件组成的可变形3D长方体。Pepik等人。 [34]将视点信息和部件级3D几何信息包含在视图中，并实现了鲁棒的3D对象表示。尽管这些手工方法经过精心设计，在某些场景下表现良好，但它们的泛化能力仍然有限。基于深度学习的方法旨在从端到端训练和大量标记数据中受益。Chen等人。 [8]在地面先验上生成了一组候选类特定对象提案，并使用标准CNN管道来获得高质量的对象检测。Mousavian等人。 [32]提出了用于方向回归和紧约束的MultiBin架构，以解决3D平移。Kundu等人。 [25]训练了一个深度CNN将图像区域映射到完整的3D形状和姿态，图像中的所有对象实例。除了这些纯粹的单目方法，还有一些其他方法使用额外的信息进行训练。Xu和Chen [46]提出融合单目深度估计模块，实现高精度定位。Chabot等人 [6]提出了用于同时车辆检测、零件定位和可见性表征的DeepMANTA（Deep Many-Tasks），但他们的方法需要零件位置和可见性注释。在本文中，我们提出了一个统一的基于深度学习的管道，它不需要额外的标签，可以使用大量的增强数据进行端到端的训练。炼盒技巧：我们的工作有一些类似的框细化技术，其重点是提高定位精度。在2D对象检测中，最常见的方法是边界框回归，该方法首先由Felzenszwalb等人提出。 [17]并且已用于许多最先进的检测器中，例如Faster R-CNN [36]和SPP-net [22]。Gidaris和Komodakis[20]提出了LocNet，通过为边界分配概率来进一步提高特定对象的定位精度。而在单目3D目标检测中，这一层次的工作一直受到限制。Xiao等人。 [45]提出使用基于区分部分的检测器来定位角点。许多作品还使用更强的表示来实现高精度的局部化。例如，Zia等人[48]使用了细粒度的3D形状模型，Xiang和Savarese [44]引入了基于分段平面对象表示的1059图2.我们提出的单目3D目标检测方法的整体流水线，它只需要一个单一的RGB图像作为输入，并可以实现场景中的物体的3D感知。我们在右边展示了一些中间结果。Pero等人 [12]建议使用详细的几何模型。在我们的例子中，我们坚持使用3D边界框表示，并学习2D图像上投影框的模式。3. 方法我们的框架只需要一个单一的图像作为输入，可以输出精确的三维检测结果，包括尺寸，方向和感兴趣的对象的位置。图2示出了整个流水线，其中我们首先执行规则的2D检测1，然后使用基于锚的回归模块基于由2D检测结果裁剪的图像块来回归每个对象的尺寸和方向对于3D定位，我们首先使用紧约束得到一个种子候选，然后执行高斯密集采样，以产生大量的候选种子候选周围的一个小范围内。为了评估这些候选对象，我们训练了一个拟合质量网络（Fitting QualityNetwork，简称SNNet）来推断大量增强样本和地面真实值之间因此，通过估计候选对象与对象之间的拟合程度，将选择具有最高得分的候选对象作为3D检测结果。我们的框架将维度和方向估计过程与位置估计分离，因为我们1我们使用流行的2D检测算法[5]来产生2D检测结果。考虑到这些任务是根本不同的（方向和尺寸都与外观相关，但位置不相关），并且尺寸和方向回归的结果对位置估计过程具有显著影响3.1. 回归模块我们的回归模块的输入是2D对象检测的裁剪检测结果，而输出是每个对象的尺寸和方向。对于尺寸，根据外观，不难推断汽车的类型，同一类型的汽车通常具有相似的长度，宽度和高度。对于方向，它有点复杂，因为有全局方向和局部方向，但直观上我们可以肯定，不同的方向将显示不同的外观。尺寸估算：为了尽可能准确地回归尺寸，我们提出了一种称为锚立方体的想法，其原理类似于MultiBin[32]。我们首先对训练数据集进行k均值聚类，找到维度的K个聚类中心，并将这些聚类中心视为3D锚长方体。在回归过程中，回归模块分别输出每个3D锚长方体的置信度和偏移量，因此输出是4K维向量（[ci，kwi，khi，kli]，i=1，.，K），最后回归2D检测MS-CNN滤波器2D限位框结果方向尺寸估计回归图像块模块取向尺寸位置估计种子候选人密集采样网络位置1060我结果是具有最高置信度的锚长方体加上相应的偏移。我们使用以下损失函数优化此模块：Ld=−logσ（ci）+[1−IoU（Ai+[wi，hi，li]，G）]（一）其中i=2表示K个锚定长方体中，第i个（一）（b）第（1）款锚长方体Ai具有与真实长方体G的最大IoU，并且[wi，hi，li]是相对于锚长方体Ai在三个不同维度上的f集。σ（·）是softmax函数：eci图3.在（a）中，汽车的全局方向都是向右的，但是当汽车从左向右移动时，局部方向和外观将发生变化。在（b）中，汽车的全局取向不同，但相机坐标中的局部取向和外观保持不变。因此，我们可以σ（ci）=Ki=1eci（二）看，外观只与本地ori有关系我们只能根据外观回归汽车的局部方向。如果我们想计算全局方向-并且函数IoU（·，·）计算3D IoU，两个中心对齐的长方体：体积（A）体积（B）在使用局部定向的情况下，我们需要知道相机和对象之间的光线方向，这可以使用对象在2D图像中的位置来计算，更多细节如下所示：IoU（A，B）=体积（A）体积（B）（三）包括在补充材料中。在等式（1）中有两项。对于第一项，它鼓励模块向具有最大IoU和地面真实维度G的锚立方体提供最高置信度，同时为其他锚立方体提供低置信度。对于第二项，它鼓励模块回归最佳锚立方体和地面真实立方体之间的偏移。我们的损失函数是体积驱动的而不是维度驱动的，其基本原理是它可以综合考虑来自三维的信息，避免两个维度有很好的估计，而一个维度没有很好的估计的情况。取向估算：那里是两取向在3D目标检测问题中，提出了全局定向和局部定向。对象的全局方向是在世界坐标下定义的，并且不会随着相机姿势而改变，而局部方向是在相机坐标下定义的，并且取决于相机如何拍摄对象。图3从鸟瞰图中给出了这两种定向的图示。在本文中，我们专注于估计的局部方向，这是在KITTI数据集进行评估，并直接相关的外观。对于方向回归，输出的范围是[−π，π]，我们使用类似于维度回归的思想，并对训练集进行k均值聚类以获得K′聚类中心。输出是一个2K′维矢量（[c′ ，nθi]，i=1，.， K′）。我们定义损失函数如下：Lo=−logσ（ci<$）+[1−cos（Θi <$+<$θi<$−θG）]（4）2值得一提的是，每个对象的i值可以在训练过程之前计算并保存在数据集中。图4.我们回归模块的架构在全连通层中有两个分支，分别用于维度回归和方向回归。其中，Θi是与地面实况局部取向θG相比的最近的锚角。损失函数Lo中的第一项与Ld相同，这鼓励模块对最近的锚点角度给予高置信度，并且第二项使用余弦函数以确保偏移θi可以很好地回归。我们基于锚点的回归背后的想法是，直接回归连续变量是非常困难的，因为值范围很大。使用基于锚点的方法，我们可以首先解决分类问题以选择最佳锚点，然后基于锚点值回归偏移量;因此，我们需要回归的值范围可以显著减小。我们在图4中展示了我们提出的回归模块的具体架构。C..L..Lconv层fc层C1061−−2− 2−ui绘制投影conv1FC4fc5fc6卷积LRN最大池化全连接图5.详细的体系结构。在预训练过程中，分类损失用于训练卷积层和全连接层。我们提出的人工神经网络的核心创新是输入部分，我们的输入图像具有额外的人工信息。3.2. 位置估计通过对长方体的尺寸和方位的估计，我们可以在三维空间中构造出一个三维长方体我们将长方体的8个顶点的原始坐标设置为：（种子候选人）第一。许多方法可以实现这一目标，例如执行均匀采样和搜索其2D投影与2D检测结果具有最大重叠的建议。在这里，我们选择使用紧Σl l l2 222l l l2 22ll2 2[25][26][27][28][29因为它快速且相对更准确。后Σ Σy= 0000− h−h−h −h（五）计算种子候选者的位置，我们可以执行z=Σ www ww2 2 2w ww w2 2 2在其周围的小范围内进行密集采样。我们模拟转换值在三个轴上的分布为三个独立的高斯分布，如下所示：其中l、h、w是物体的尺寸假设3D位置在摄像机坐标系中为T= [Tx，TY，Tz]T，根据摄像机投影定律，我们有∆x∼N(µx,σx)y（八）∆z∼N(µ,σ)Σ Σxiz zRTi其中均值和方差都是我们估计的，011231其中ui和vi是第i个顶点的2D投影坐标，K是固有矩阵，R是由全局方向θ给出的旋转矩阵：在训练集中计算3D定位误差。因此，第i个生成的样本可以表示为Si（x+xi，y+yi，z+zi，l，h，w，θ）。BSNet：BSNet的目标是评估拟合R=cosθ0sinθ0 1 0-sin θ0 余弦θ中文（简体）每个样本Si和对象之间的质量即使对于CNN来说，推断Si和对象的地面真实3D位置之间的空间关系是具有挑战性的，在将样本Si投影到2D图像上之后，CNN可以通过学习如何我们可以使用OpenCV工具包来绘制投影3D基于所述2D投影坐标在所述2D图像上的边界框;因此，我们的网络可以从这些2D投影模式中学习，并获得推理3D空间关系的能力。密集采样：我们使用抽样和评估框架。在整个3D空间中采样是耗时的，因此我们选择获得一个近似位置那么投影的边缘和角落与物体的特定部分对齐。对于定量分析，我们强制网络回归样本和对象之间的3DIoU。将对象图像块表示为I，则可将ARMNet的目标表示为：θ=argmin||F（I，Si|Θ）−IoU（I，Si）||（九）Θ其中，Θ表示CNONet的参数。conv2conv3分类损失3D IoU回归损失−−−−1062网络紧估计的3D IoU300.400.35250.300.25200.200.15150.10十点零五9080706050 400.000.00.10.20.30.40.50.60.70.80.92D Bounding Box AP（Easy）Ground-truth 3D IoU of Proposals图6.我们与基于紧约束的基线之间的3D检测性能比较由于我们在训练集中有每个对象的真实3D位置，因此我们可以通过向原始3D位置添加已知抖动来生成几乎一个问题是，我们如何保证RightNet可以捕获我们手动绘制在2D图像上为了回答这个问题，我们首先预训练我们的BSNet来执行分类任务，其中它必须决定输入图像补丁是否包含人工绘制的3D边界框投影。图5显示了我们所提出的RISNet的架构及其预训练版本。对于预训练过程，我们使用交叉熵损失进行分类任务。对于3D IoU回归，我们使用平滑L1损失，因为与L2损失相比，它对离群值不太敏感。4. 实验我们在真实世界的KITTI数据集上评估了我们的方法[19]。KITTI目标检测基准包括2D目标检测评估、3D目标检测评估和鸟瞰评估。在数据集中有7481个训练图像和7518个测试图像，并且在每个图像中，用观察角度（局部方向）、2D位置、维度、3D位置和全局方向来注释对象。然而，只有KITTI训练集中的标签被释放，所以我们主要在训练集中进行对照实验结果根据三个难度级别进行评估：容易、中等和困难，这是根据最小边界框高度、遮挡和截断等级定义的。有两种常用的 train/val 实验设置： Chen et al.[9 ， 8]（train/val 1）和Xiang et al. [42，43]（序列/值2）。这两种分割都保证了来自训练集和验证集的图像来自不同的视频。我们专注于我们的前-图7.来自10个3D IoU级别的提案的平均回归误差直方图在Car对象类别上进行实验，因为对于Pedestrian和Cyclist，没有足够的数据来训练我们的模型。4.1. 实现细节对于回归模块，我们使用ImageNet [13]预训练的VGG-16 [38]模型，输入大小为224×224，以初始化卷积层的权重。我们在尺寸估计过程中使用了四个锚长方体，在取向估计期间的Chor角。该模块使用SGD进行训练，使用10−4的固定学习率，批量大小为8。我们通过添加颜色失真、随机翻转图像和抖动来执行数据增强平移为0的2D长方体。03 x高度和宽度。对于密集采样过程，我们首先采样了1024个sam-围绕种子候选人。在丢弃其中一半以上在图像平面之外的样本之后，我们保留了640个样本用于评估。对于ImageNet，我们使用ImageNet预训练的VGG-M模型（输入大小为107×107）来初始化卷积层的权重投影使用绿色和线宽1绘制对于分类预训练过程，我们采样了256个阳性样本和256个阴性样本样本来训练网络的每次迭代，卷积层的学习率为10−4，完全连接层的学习率为10−3对于3D IoU回归，我们将标签从[0， 1]映射到[-1，1]以实现数据平衡。我们还向训练图像添加了随机轮廓上下文信息补丁以增加模型的鲁棒性。4.2. 有效性为了证明我们提出的流水线对2D检测结果不敏感，我们对MS-CNN 2D检测结果进行了抖动，并得到了一组具有不同平均精度（AP）的2D边界框。我们来-3D Bounding Box AP（简易）1063我我我表1.平均方向相似性（AOS）与KITTI数据集上最先进方法的比较方法容易中度硬序列/值1train/val 2测试序列/值1train/val 2测试序列/值1train/val 2测试3DOP [9]91.58-91.4485.80-86.1076.80-76.52Mono3D [8]91.90-91.0186.28-86.6277.09-76.843DVP [42]-78.9986.92-65.7374.59-54.6764.11SubCNN [43]-94.5590.67-85.0388.62-72.2178.68[32]第三十二话-97.5092.90-96.3088.75-80.4076.76[25]第二十五话90.7097.7089.9889.1096.5089.2579.5080.7080.07我们的方法97.2897.5792.5893.7096.7088.7279.2580.4576.85表2.2D AP与KITTI Birds Eyed View验证数据集上最先进方法的比较方法IoU = 0.5IoU = 0.7容易中度硬容易中度硬t/v 1t/v 2t/v 1t/v 2t/v 1t/v 2t/v 1t/v 2t/v 1t/v 2t/v 1t/v 23DOP [9]55.04-41.25-34.55-12.63-9.49-7.59-Mono3D [8]30.50-22.39-19.16-5.22-5.19-4.13-[32]第三十二话-30.02-23.77-18.83-9.99-7.71-5.30我们的方法32.5733.3724.6026.2921.2521.579.5010.458.028.597.717.43表3. KITTI验证数据集上尺寸估计的平均误差与最先进方法的方法序列/值1train/val 23DOP [9]0.3527-Mono3D [8]0.4251-[32]第三十二话-0.1934我们的方法0.16980.1465使用基于紧约束的基线来验证我们的方法的3D检测性能（3D AP），结果如图6所示。我们可以看到，基于紧约束的方法对2D检测AP更敏感，而我们的方法更鲁棒。在两个验证分割上进行（不同的模型使用相应的训练集进行训练）。方向和尺寸评价：为在方向评估中，我们使用KITTI 数据集的官方度量，即平均方向相似性（AOS）。我们的结果总结在表1中。从结果中，我们看到我们的方法在train/val 1和train/val 2实验设置上都达到了最先进的方法。我们可以看到，特别是对于容易和中等设置的train/val 1，我们的方法与现有的方法相比有显着的改善。对于尺寸评估，我们使用定义为的平均误差：我们还通过评估3D IoU回归性能来研究我们的CNONet模块在根据3D IoU将所有提案分为十个级别后，我们计算了平均Ea=1ΣNNi=1.（水2+水2+水2）（10）年龄对每个水平的回归误差，并绘制了图7中的直方图。我们可以看到，对于3D IoU在0.4到0.5左右的样本，平均估计误差最低，约为0.05。因此，我们可以肯定，我们的候选人网络有能力评估候选人。4.3. 与艺术我们将我们提出的方法与KITTI基准上最近提出的6种最先进的3D对象检测方法进行了比较，包括3DOP[9] ， Mono3D [8] ， 3DVP [42] ，SubCNN [43] ，Deep 3DBox [32]和3D-RCNN [25].为了公平比较，我们使用了作者报告的检测结果。所有实验均由于检测结果和地面真值不是一一对应的，因此我们必须在地面真值中找到最接近检测结果的对应对象以计算Ea。并非所有方法都提供了实验结果，因此我们仅将我们的方法与 3DOP [9] ， Mono3D [8] 和Deep3DBox [32]进行比较。我们的结果总结在表3中。我们可以看到，我们的方法具有最低的估计误差，平均维数估计误差约为0.15米，这证明了我们基于锚的回归模块的有效性。位置评价：为位置评估，我们首先报告了官方评估指标的结果1064表4.3D AP与KITTI 3D Object验证数据集上最先进方法的比较方法IoU = 0.5IoU = 0.7容易中度硬容易中度硬t/v 1t/v 2t/v 1t/v 2t/v 1t/v 2t/v 1t/v 2t/v 1t/v 2t/v 1t/v 23DOP [9]46.04-34.63-30.09-6.55-5.07-4.10-Mono3D [8]25.19-18.20-15.52-2.53-2.31-2.31-[32]第三十二话-27.04-20.55-15.88-5.85-4.10-3.84我们的方法28.1628.9821.0220.7119.9118.595.985.455.505.114.754.45图8.我们的单目3D物体检测方法的可视化结果我们绘制了二维图像和三维空间的检测结果来自KITTI鸟瞰视图评估，其中评估鸟瞰视图框的AP，其通过将3D框投影到地平面并忽略Y轴上的位置精度而获得。从表2中，我们可以看到我们的方法优于Mono3D [8]和Deep3DBox [32]，约有3%的显著改进。由于3DOP [9]是一种基于立体的方法，可以直接获得深度信息，因此其性能比纯单目方法要好得多。我们还对3D对象检测评估进行了实验，其中3D AP度量用于评估完整的3D边界框。从表4中，我们可以看到，我们的方法在纯基于单眼的方法中排名第一，并且当3D IoU阈值设置为0.7时，我们甚至优于基于立体的3DOP。4.4. 定性结果除了在2D图像上绘制3D检测框外，我们还将3D检测框投影到3D空间中以实现更好的可视化。如图8所示，我们的方法可以很好地拟合物体，并在各种场景中实现高精度的3D感知，只需一个单目图像作为输入。5. 结论在本文中，我们提出了一个统一的管道单目三维物体检测。通过使用基于锚点的回归方法，我们实现了高精度的尺寸和方向估计。然后，我们在3D空间中执行密集采样，并将这些样本投影到2D图像上。通过测量投影和物体之间的关系，我们的ONUNet成功地估计了3D IoU并过滤了合适的候选者。定量和定性的结果都表明，我们提出的方法优于国家的最先进的单目3D物体检测方法。如何扩展我们的单目3D目标检测方法的单目3D目标跟踪似乎是有趣的未来工作。确认这项工作得到了国家自然科学基金 61822603 、U1813218、U1713214、61672306和61572271的部分资助1065引用[1] A.阿斯瓦迪湖加罗特角Premebida，P. Peixoto和U. J.Nunes. Depthcn：使用3D激光雷达和con-vnet进行车辆检测。在ITSC，2017年。1[2] Y. Bai，Y. Lou，F. Gao，S. Wang，Y. Wu和L.- Y.段。用于车辆再识别的组敏感三元组嵌入。TMM ，20（9）：2385-2399，2018. 1[3] J. Beltran，C. Guindel，F. M.莫雷诺D. Cruzado，F. Gar-cia和A.德拉埃斯卡雷拉。 Birdnet：一个从激光雷达信息中检测三维物体的框架。 arXiv 预印本 arXiv ：1805.01195，2018。1[4] M. Bertozzi、A. Broggi和A. Fascioli基于视觉的智能车辆：最先进的技术和观点。Robotics and Autonomoussystems，32（1）：1-16，2000. 1[5] Z.蔡角，澳-地范河，巴西-地S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络在ECCV，2016年。3[6] F. 沙博湾Chaouch，J. 拉巴里索阿角你好，还有T.城堡。Deep manta：一个从粗到细的多任务网络，用于从单目图像进行联合2D和3D车辆分析。在CVPR，2017年。2[7] C. Chen，中国山核桃A. Seff，A. Kornhauser和J.萧深度驾驶：自动驾驶中的直接感知学习启示。在ICCV，2015年。1[8] X. Chen，K.昆杜Z.Zhang，H.马，S.Fidler和R.乌尔塔-孙。用于自动驾驶的单目3d物体检测。在CVPR，2016年。一二六七八[9] X. Chen ， K.Kundu ， Y.Zhu ，中国茶青冈 A.G.Berneshawi，H.马，S.Fi-dler和R.乌塔松用于精确对象类别检测的3D对象建议。2015年，在NIPS中。一、六、七、八[10] X. Chen，K.Kundu，Y.Zhu，H.马，S.Fidler和R.乌塔松使用立体图像进行精确对象类检测的3D对象建议。TPAMI，40（5）：1259-1272，2018。1[11] X. Chen，H. Ma，J. Wan，B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。1[12] L. Del Pero，J.鲍迪什湾 Kermgard，E. 哈特利，还有K.巴纳德使用复合3d对象模型理解贝叶斯房间。在CVPR，第153-160页，2013年。3[13] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。 Imagenet ：一个大规模的分层图像数据库。CVPR，2009。6[14] L. Duan，Y.卢，S。Wang，W. Gao和Y.瑞面向AI的智慧城市大规模视频管理：技术、标准及其他。IEEE多媒体，2018年。1[15] L- Y. Duan，V. Chen，J. Lin，Z. 小王，T.黄湾，澳-地Girod和W.高. mpeg- cdvs标准概述。TIP，25（1）：179-194，2016. 1[16] M. Engelcke，D.拉奥，D.Z. Wang，C.H. 唐和我。波斯纳Vote3deep：使用高效卷积神经网络在3D点云中进行快速对象检测。在ICRA，2017年。1[17] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。TPAMI，32（9）：1627-1645，2010. 2[18] S. Fidler，S. Dickinson和R.乌塔松利用可变形的3D长方体模型的3D目标检测和视点估计。NIPS，2012年。21066[19] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。CVPR，2012。6[20] S. Gidaris和N.小木Locnet：提高物体检测的定位精度在CVPR，第7892[21] S. 古普塔山口阿尔贝拉兹河。Girshick和J. 马利克将3d模型与杂乱场景的rgb-d图像对齐。CVPR，2015。1[22] K.他，X。Zhang，S. Ren和J. Sun.用于视觉识别的深度卷积网络中的空间金字塔池TPAMI，37（9）：1904-1916，2015。2[23] J. Janai，F. Guéne y，A. Behl和A. 盖格河自动驾驶汽车的计算机视觉：问题、数据集和最新技术。arXiv预印本arXiv：1704.05519，2017。1[24] J. Ku，M. Mozifian，J. Lee，A. Harakeh和S.瓦斯兰德从视图聚合联合生成3d建议和对象检测。arXiv预印本arXiv：1712.02294，2017。1[25] A. Kundu，Y. Li和J.M.瑞格3d-rcnn：通过渲染和比较进行实例级3d对象重建。在CVPR，2018年。二、五、七[26] B. Leibe，N. Cornelis，K. Cornelis和L.范古尔动态三维场景分析从一个移动的车辆。CVPR，2007。1[27] S. Levine ， P.Pastor ， A.Krizhevsky ， J.Ibarz 和 D. 奎伦。通过深度学习和大规模数据收集来学习机器人抓取手眼协调。IJRR，37（4- 5）：421-436，2018。1[28] B. 李用于点云中车辆检测的 3D 全卷积网络。在IROS，2017年。1[29] B. Li，T. Zhang和T.夏使用全卷积网络的3d激光雷达车辆检测。arXiv预印本arXiv：1608.07916，2016。1[30] D. Lin，S.Fidler和R.乌塔松基于rgbd摄像机的三维目标检测的整体场景InICCV，2013. 1[31] J. Mahler，J.Liang，S.尼亚兹M.拉斯基河Doan，X.刘先生，J. A. Ojea和K.金伯格Dex-net 2.0：通过深度学习，利用合成点云和分析抓取指标规划稳健抓取。arXiv预印本arXiv：1703.09312，2017。1[32] A. Mous a vian，D. Anzelo v，J. Flynn和J。好的，检查一下。使用深度学习和几何学的3D在CVPR，2017年。一二三五七八[33] N. Payet和S.托多洛维奇从轮廓到三维物体检测和姿态估计。见ICCV，2011年。2[34] B.佩皮克湾Stark，P. Gehler，and B.席勒多视图和三维可变形零件模型。TPAMI，37（11）：22322[35] C. R.齐，W. Liu，C. Wu，H. Su和L.吉巴斯基于rgb-d数据的Frus- tum点网三维目标检测。arXiv预印本arXiv：1711.08488，2017。1[36] S. Ren ， K. 赫利河 Girshick 和 J. 太阳 Faster r-cnn ：Towards real-time object detection with region proposalnetworks.在NIPS，第91-99页，2015中。2[37] A. Saxena、J. Driemeyer和A. Y. Ng.机器人利用视觉抓取新物体。IJRR，27（2）：157-173，2008年。11067[38] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv：1409.1556，2014。6[39] S. Song和J. Xiao.用于深度图像中的3d对象检测的滑动形状。2014年，在ECCV。1[40] S. Song和J. Xiao. rgb-d图像中非模态3d目标检测的深度滑动形状。在CVPR，2016年。1[41] D. Z.王和我。波斯纳在线点云目标检测中的投票。机器人：科学与系统，第1卷，2015年。1[42] Y. Xiang，中国西南地区崔，Y。Lin和S. Savarese 用于物体类别识别的数据驱动三维体素模式。CVPR，2015。六、七[43] Y. Xiang，中国西南地区崔，Y。Lin和S. Savarese用于对象建议和检测的子类感知卷积神经网络。在WACV，2017年。一、六、七[44] Y. Xiang和S. Savarese利用3d aspectlets和遮挡推理进行目标检测。在ICCVW，第530-537页，2013年。2[45] 肖杰，B. Russell和A.托拉尔巴在单视图图像中定位3d长方体。神经信息处理系统的进展，第746-754页，2012年。2[46] B. Xu和Z.尘基于多层次融合的单目图像三维目标检测。在CVPR，2018年。2[47] Y. Zeng，Y. Hu，S. Liu，J. Ye，Y.汉，X. Li和N.太阳Rt3d：用于自动驾驶的激光雷达点云实时三维车辆检测IEEE Robotics and Automation Letters，3（4）：3434-3440，2018。1[48] M. Z.齐亚，M。Stark和K.辛德勒用详细的3d物体表示法来理解场景。IJCV，112（2）：188-203，2015。2

下载后可阅读完整内容，剩余1页未读，立即下载