深度学习和几何学结合的3D边界框估计技术

121 浏览量更新于2023-10-15 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1使用深度学习和几何学的3D边界框估计Arsalan Mousavian乔治梅森大学amousavi@gmu.eduDragomirAnguelov Zoox，Inc.drago@zoox.comJanaKos在乔治梅森大学kosecka@gmu.eduJohnFlynnZoox，Inc.邮箱：john. zoox.com摘要我们提出了一种方法，从一个单一的图像的3D目标检测和姿态估计。与仅回归对象的3D取向的当前技术相比，我们的方法首先使用深度卷积神经网络回归相对稳定的3D对象第一网络输出估计3D对象的方向使用一种新的混合离散连续损失，这显着优于L2损失。第二个输出回归3D对象尺寸，其与替代方案相比具有相对较小的变化，并且通常可以针对许多对象类型进行预测。这些估计，结合由2D边界框对平移施加的几何约束，使我们能够恢复稳定且准确的3D对象姿态。我们在具有挑战性的KITTI对象检测基准[2]上评估了我们的方法，包括3D方向估计的官方度量以及所获得的3D边界框的准确性。尽管概念上很简单，但我们的方法优于更复杂和计算成本更高的方法，这些方法利用语义分割，实例级分割和平坦地面先验[4]和子类别检测[23][24]。我们的离散-连续损失还产生了Pascal3D+数据集上的3D视点估计的最新结果[26]。1. 介绍3D对象检测的问题是特别重要的机器人应用程序，需要决策，ING或与现实世界中的对象的相互作用。3D物体检测恢复6自由度姿态和尺寸，在Zoox，Inc.实习图1.我们的方法采用2D检测边界框并估计3D边界框。从图像中提取物体虽然最近开发的2D检测算法能够处理视点和杂波中的大变化，但尽管最近有一些有希望的工作，但准确的3D对象检测在很大程度上仍然是一个开放的问题。将姿态估计与最先进的对象检测器集成的现有努力主要集中在视点估计上。他们利用了这样的观察结果，即对象的外观随着视点的变化而变化，并且视点的离散化（由方位角和仰角参数化）产生了可以有区别地训练的子类别[23]。在更严格的驾驶场景中，全3D姿态估计的替代方案使用各种上下文和语义线索探索所有假设的exhaustive采样和评分[4]在这项工作中，我们提出了一种方法，估计姿态（R，T）∈SE（3）和尺寸的一个对象的三维边界框从一个二维边界框和周围的图像像素。我们简单而有效的方法适用于许多现实世界的应用，包括自动驾驶车辆。我们的方法的主要贡献是在选择的回归参数和相关的目标函数的问题。我们首先回归的方向和对象尺寸，然后将这些估计与几何约束相结合，以产生最终的3D姿态。这与尝试在一个或多个应用中使用70747075直接回归到姿势。扩展了现有技术的2D对象检测器[3]通过训练深度卷积神经网络（CNN）来回归对象的3D边界框的方向给定估计的方向和尺寸以及3D边界框的投影紧密地配合到2D检测窗口中的约束，我们恢复平移和对象虽然概念简单，我们的方法是基于几个重要的见解。我们表明，一种新的MultiBin离散连续配方的方向回归显着优于更传统的L2损失。通过回归到车辆尺寸来进一步约束3D框证明是特别有效的，因为它们相对低方差并且导致稳定的最终3D框估计。我们在KITTI [2]和Pascal 3D+[26]数据集上评估了我们的方法。在KITTI数据集上，我们将我们估计的3D框与其他最先进的3D对象检测算法的结果进行了深入比较[24，4]。官方KITTI 3D边界框估计基准我们引入了三个额外的性能指标来测量3D框的准确性：到框中心的距离，到最近边界框面中心的距离，以及使用3DIntersection over Union（3D IoU）得分测量的与地面实况框重叠的所有边界框我们证明，给定足够的训练数据，我们的方法是优于现有技术的所有上述3D指标。由于Pascal 3D+数据集没有标注物理尺寸，并且内部相机参数是近似的，因此我们仅评估视点估计精度，这表明我们的MultiBin模块在那里也实现了最先进的结果。综上所述，本文的主要贡献包括：1)一种从2D边界框估计对象的完整3D姿态和尺寸的方法，该方法使用投影几何提供的约束以及使用深度CNN回归的对象的方向和尺寸的估计。与其他方法相比，我们的方法不需要任何预处理阶段或3D对象模型。2)一种新的离散-连续CNN架构，称为MultiBin回归，用于估计对象的方向。3）用于评估3D框超出其KITTI数据集的定向准确性的三个新度量。4)一个实验评估证明了我们的方法的有效性，KITTI汽车，这也说明了回归参数的具体选择在我们的3D姿态估计框架内的重要性。5)Pas- cal 3D+数据集上的视点评价2. 相关工作已经考虑了从单个2D图像对对象实例以前作为一个纯粹的几何问题被称为透视n点问题（PPERT）。在[10]和其中的参考文献中可以找到假设图像中的2D关键点与对象的3D模型之间的对应关系的几个封闭其他方法专注于构建对象实例的3D模型，然后在图像中找到与模型最匹配的3D姿态[19，6]。随着新的挑战性数据集[2，26，25，12]的引入，3D姿态估计已扩展到对象类别，这需要处理由于姿态变化引起的外观变化和类别内的外观变化[9，15]。在[16，26]中，基于判别部分的模型（DPMs）的对象检测框架用于解决联合公式化为结构化预测问题的姿态估计问题，其中每个混合分量表示不同的方位角部分。然而，这样的方法仅预测相对于规范对象框架的欧拉角子集，而不估计对象尺寸和位置。另一个方向是利用3D形状模型的可用性，并将其用于3D假设采样和细化。例如，Mottaghiet al. [13]对对象视点、位置和尺寸进行采样，然后使用HOG特征来测量对象的绘制的3D CAD模型与检测窗口之间的相似性[29]在机器人桌面设置中探索了一种使用CAD模型对象实例的投影来估计姿态的类似方法，其中检测问题不太具有挑战性。给定从基于DPM的检测器获得的粗略姿态估计，通过估计投影的3D模型与图像轮廓之间的对应关系评估是在PASCAL 3D+或简单的桌面设置上进行的，杂波或比例变化有限。在[22]中探索了这些方法对具有显著遮挡的更具挑战性的场景的扩展，其使用从3D CAD模型中学习的3D体素模式的词典，这些模型表征了对象最近，深度卷积神经网络（CNN）已经显著提高了2D对象检测的性能，并且已经提出了几种扩展以包括3D姿态估计。在[21]中，R-CNN [7]用于检测对象，并将所检测到的区域作为输入传递到姿态估计网络。姿态网络使用VGG [20]初始化，并使用Pascal 3D+的地面实况注释进行微调以进行姿态估计。这种方法类似于[8]，区别在于为每个类别使用单独的姿势权重，以及大量具有姿势注释地面实况的合成图像用于训练。在[17]中，Poirsonet al.离散化对象视点并训练深度卷积网络，7076执行视点估计和2D检测。网络在所有类之间共享姿势参数权重。在[21]中，Tulsianiet al.探索粗略视点估计、随后的关键点检测、定位和姿态估计之间的关系。Pavlakos等人[14]使用CNN来定位关键点，他们使用关键点及其来自网格的3D坐标来恢复通过至少一个3D盒角的投影。例如，考虑一个3D角的投影 X0= [dx/2，−dy/2，dz/2]T，接触的坐标为xmin的2D边界框。这个指向-侧对应约束导致等式：dx/2ΣΣ−dy/2pose. 然而，他们的方法需要训练数据，注释的关键点。xmin=KR Tdz/2（二）最近的几种方法已经探索了3D边界框1x驾驶场景的检测，并且与我们的方法最密切相关。Xiang等[23，24]将可能的对象姿态集合聚类到视点相关的子类别中。这些子类别是通过聚类先前介绍的3D体素模式获得的[22];需要3D CAD模型来学习模式字典。子类别捕获形状，视点和遮挡模式，随后使用深度CNN进行区分分类[24]Chen等人的另一种相关方法。[4]通过对物理世界中的3D盒子进行采样来解决该问题，假设平坦地平面约束。使用高水平的上下文、形状和类别特定特征对所有上述方法都需要复杂的预处理，包括高级特征，例如分割或3D形状库，并且可能不适合具有有限计算资源的机器人。3. 3D边界框估计为了利用现有工作的成功2D对象检测的3D包围盒估计，我们使用的事实，即3D包围盒的透视投影应紧密配合在其2D检测窗口。我们假设2D对象检测器已经被训练以产生对应于投影的3D框的边界框的框。3D边界框由其中心T= [tx，ty，tz]T、尺寸D= [dx，dy，dz]和取向R（θ，φ，α）来描述，在此由方位角、仰角和滚动角来参数化。根据物体的姿态在摄像机坐标系（R，T）∈SE（3）和摄像机本征矩阵K中，Xo= [X，Y，Z，1]T在对象其中（？）x是指透视投影的x对于剩余的2D盒侧参数xmax、ymin、ymax，可以导出类似的等式。总体上，2D边界框的侧面提供对3D边界框的四个约束。这不足以约束九个自由度（DoF）（三个用于平移，三个用于旋转，三个用于长方体尺寸）。有几个不同的几何属性，我们可以从盒子的视觉外观估计，以进一步约束3D盒子。主要标准是它们应该与视觉外观紧密联系，并进一步约束最终的3D框。3.1. 回归参数对3D边界框具有强烈影响的第一组参数是围绕每个轴（θ，φ，α）的取向。除此之外，我们选择回归盒子尺寸D而不是平移T，因为尺寸估计的变化通常较小（例如，汽车的大小往往大致相同），并且不随对象方向的改变而改变：如果我们还回归取向参数，则这是期望的性质。此外，维度估计与特定对象子类别的外观密切相关，并且如果我们可以对该子类别进行分类，则可能会准确地3.2. 对应约束使用CNN和2D检测框的3D框的回归尺寸和取向，我们可以求解平移T，其相对于等式2中的初始2D检测框约束最小化重投影误差。有关如何求解平移的详细信息，请参见X=KΣ ΣR TXo（1）补充材料[1]。 2D探测器图框可以对应于3D框的八个角中的任何一个，这导致8个4= 4096个配置。各不相同-假设物体坐标系的原点是在3D边界框的中心，并且物体尺寸D是已知的，则3D边界框顶点的坐标可以简单地描述为X1=[dx/2 ， dy/2 ， dz/2]T ， X2=[−dx/2 ， dy/2 ，dz/2]T，. . . 、X8= [−dx/2，−dy/2，−dz/2]T。3D边界框紧密地适合2D检测窗口的约束重新定义。要求触摸ent配置涉及解决过约束系统，线性方程组，计算速度快，可以并行完成。在许多场景中，可以假设对象总是直立的。在这种情况下，2D框的顶部和底部仅分别对应于来自3D框的顶部和底部的顶点的投影，这将对应的数量减少到1024。因此，当相对物体滚转接近零时，7077图2. 3D框和2D边界框之间的对应关系：每幅图都显示了一个围绕对象的3D bbox。正面以蓝色显示，背面以红色显示。每个图像中作为活动约束的3D点用圆圈显示（最佳颜色显示）。垂直2D框边坐标xmin和xmax只能对应于来自垂直3D框边的点的投影。类似地，ymin和ymax只能对应于来自水平3D框侧的点投影因此，2D检测盒的每个垂直侧面可以相应地响应于[±dx/2，.，±dz/2]，并且2D边界的每个水平边对应于[.，±dy/2，±dz/2]，得到44= 256种可能的构型。在KITTI数据集中，物体俯仰角和滚动角都为零，这进一步将配置的数量减少到64。图2可视化了可能发生的2D盒边和3D盒点之间的一些可能的对应关系。4. 3D Box参数的CNN回归在本节中，我们将描述我们用于回归3D边界框方向和尺寸的方法。4.1. MultiBin方向估计仅从检测窗口裁剪的内容来估计相机参考系中的全局对象取向R∈SO（3）是不可能的，这是因为检测窗口裁剪的位置不确定。还需要图像平面内的裁剪。考虑仅由方位角θ（偏航）参数化的旋转R（θ）。图4示出了在直线上移动的汽车的示例。尽管汽车（其3D边界框）的全局取向R（θ）不改变，但是其相对于通过裁剪中心的射线的局部取向θ1改变，并且产生裁剪图像的外观的改变。因此，我们回归到这个局部方向θl。图4示出了一个示例，其中局部取向角θ1和光线角以这样的方式改变，使得它们的组合效果是汽车的恒定全局取向给定内在图3.左：汽车尺寸，汽车的高度等于dy。右：局部取向θ 1和汽车的全局取向θ的图示。相对于穿过裁剪中心裁剪的中心光线请注意，裁剪的中心可能不会穿过对象的实际中心。汽车的方向θ等于θ射线+θl。训练网络以估计局部取向θ1。图4.左：一辆汽车经过的裁剪图像右：整个场景的图像如图所示，裁剪图像中的汽车旋转，而汽车方向在所有不同的行中是恒定的。相机参数，在特定像素处的光线方向是微不足道的计算。在推理时，我们将裁剪中心的光线方向与估计的局部方向相结合，以计算对象的全局方向众所周知，使用L2损失并不适合许多复杂的多模态回归问题。L2损耗促使网络最小化所有模式的平均损耗，这导致对任何单一模式的估计都可能很差。这已经在图像着色问题的上下文中观察到，其中L2范数为衣服等物品产生不切实际的平均颜色[27]。类似地，对象检测器，如Faster R-CNN [18]和SSD [11]不会回归边界7078图5.提出了用于方向和维度估计的MultiBin估计的架构它由三个分支组成左分支用于估计感兴趣对象的尺寸其他分支用于计算每个bin的置信度，并计算每个bin的cos（θ）和sin（θ直接装箱：相反，它们将绑定框的空间划分为几个称为锚框的离散模式角度θi，ci是面元i的中心的角度，θi是需要应用于面元i的中心的变化。在推断过程中，选择具有最大置信度的箱，并通过将该箱的估计的θθ应用于该箱的中心来多仓模块有2个分支.一个用于计算置信度ci，另一个用于计算ωθ的余弦和正弦。因此，需要针对n个箱估计3n个参数。在KITTI数据集中，汽车、货车、卡车和公共汽车都是不同的类别，类别实例的对象例如，汽车和骑自行车的人的尺寸差异大约为几厘米。因此，我们不使用像上面的MultiBin损失那样的离散-连续损失，而是直接使用L2损失。作为标准，对于每个维度，我们估计相对于在训练数据集上计算的平均参数值的残差尺寸估计Ldims的损失计算如下：1Σ然后估计需要应用于每个锚框的连续偏移。Ldims=n（D−D<$−δ）2，（5）我们使用类似的想法，在我们提出的MultiBinarchitec-ture方向估计。我们首先离散化的取向角，并将其分为n个重叠的箱。对于每个仓，CNN网络估计输出角度位于第i个仓内的置信概率ci残余旋转由两个数字表示，即角度的正弦和余弦。这导致每个仓i的3个输出：（ci，cos（θi），sin（θi））。有效的余弦和正弦值通过在二维输入的顶部应用L2归一化层来获得因此，MultiBin方向的总损失为Lθ=Lconf+w×Lloc（3）置信度损失Lconf等于每个bin的置信度的softmax损失L_loc是试图最小化覆盖地面真角的每个区间中的估计角度与地面真角之间的差的损失，其中相邻区间具有重叠覆盖。在定位损失Lloc中，覆盖地面真值角度的所有箱被迫估计正确的角度。定位损失试图最小化地面实况与覆盖该值的所有bin之间的差异，这相当于最大化余弦距离，如补充材料[1]所示。定位损失Lloc计算如下：其中，D是盒子的真实尺寸，D是某一类别物体的平均尺寸，δ是相对于网络预测的均值的估计残差。我们的参数估计模块的CNN架构如图5所示。有三个分支：两个分支用于方向估计，一个分支用于尺寸估计。所有分支都来自相同的共享卷积特征，总损失为L = α × Ldims+ Lθ的加权组合。5. 实验与讨论5.1. 实现细节我们在KITTI [2]和Pascal 3D+[26]数据集上进行了实验。KITTI数据集：KITTI数据集共有7481张训练图像。我们训练MS-CNN [3]对象检测器来产生2D盒子，然后从分数超过阈值的2D检测盒子为回归3D参数，我们使用预训练的VGG网络[20]，没有FC层，并添加我们的3D框模块，如图所示。五、在该模块中，每个方向分支中的第一FC层具有256个维度，而用于维度回归的第一FC层具有512个维度。在训练期间，每个地面实况裁剪的大小被调整为224x224。为了使网络对视点变化和遮挡更加鲁棒，Lloc=−1nθΣcos（θθ θ-ci−<$θi）（4）框被抖动，并且地面实况θ1被改变以考虑到裁剪的中心射线的移动。此外，我们还添加了颜色失真，并应用了mir-其中nθ≠ 是随机覆盖图像的地面实况的箱数该网络是用7079661 2√SGD使用固定的学习率0。0001训练运行20K次迭代，批量大小为8，并通过交叉验证选择最佳模型。图6示出了用于汽车和自行车的估计3D框的定性可视化。立体，语义分割，实例分割，并且不需要如[24]和[23]中的预处理。Pascal3D+视点精度。两个度量用于视点精度：中值误差MedErr和在我们的KITTI验证集上。我们使用了两种不同的在π的我们的实验中的训练/测试部分第一次分裂是Groundtruthviewpoint Acc π. 距离ROTA-用于报告官方KITTI测试集的结果，并使用大多数可用的训练图像。第二次分割与SubCNN [24]使用的分割相同，以便进行公平比较。他们使用一半的可用数据进行验证。Pascal3D+ 数据集：该数据集由来自 Pascal VOC 和Imagenet的12个不同类别的图像组成，这些图像使用6DoF姿势进行注释。来自Pascal训练集和Imagenet的图像用于训练，并且在Pascal验证集上完成评估。与KITTI不同，内参数是近似的，因此不可能恢复真实的物理对象尺寸。因此，我们只评估3自由度的观点估计，以显示我们的MultiBin损失的有效性我们使用C×3MultiBin模块为每个C类预测3个角度。为了与[21]进行公平的比较，我们保留了VGG的fc6和fc7层，并消除了我们的MultiBin模块的单独卷积分支所有必要的输入都是使用一个以fc7为输入的全连接层生成的。我们还重用了[21]中选择的超参数来训练我们的模型。5.2. 3D边界框评估KITTI定位精度。KITTI数据集的官方3D度量是平均方向相似性（AOS），其在[2]中定义，并将2D检测器的平均因此，AP根据定义是AOS的上限。在出版时，我们是KITTI排行榜上所有AOS方法中第一个用于简单汽车示例的方法，也是所有非匿名方法中第一个用于中等汽车示例的方法。我们的结果总结在表1中，这表明我们优于所有最近公布的汽车方向估计方法。对于中型车，尽管AP相似，但我们的表现优于SubCNN[24]，而对于硬示例，尽管AP低得多，但我们的表现优于3DOP [5每种方法的AOS与AP之比代表了每种方法如何仅在方向估计上执行，同时将2D检测器性能考虑在内。我们将该评分称为定向评分（OS），其表示所有实施例的平均误差（1 +cos（θ））/2。OS可以转换回角度误差，acos（2OS−1）公式，在官方KITTI测试集上，对于我们的MultiBin模型，容易的误差为3，中等的误差为6，硬车的误差为8 我们的方法是唯一的它不依赖于计算附加特征，不计算公式为：（R，R）=||log（R1R2）||F. 的2使用地面实况边界框进行评估。表2显示MultiBin模块比离散化分类[21]以及[14]的基于关键点的方法更有效，该方法基于定位关键点并解决复杂的优化以恢复姿势。MultiBin损失分析。表3显示了为KITTI和Pascal3D+上的多盒丢失选择不同数量的箱的效果。在这两个数据集中，使用多个箱始终优于单箱变量，这相当于L2损失。在KITTI上，最佳性能是使用2个bin，而Pascal3D+的最佳性能是8个bin这是由于Pascal 3D+数据集中的视点分布更加多样化。如表3所示，过度分箱最终降低了该方法的有效性，因为它减少了每个箱的训练数据量。我们还对不同宽度的全连接层进行了实验（见表4），发现增加FC层的宽度进一步产生了一些有限的增益，甚至超过宽度256。3D边界框度量和比较。定向估计损失仅评估3D边界框参数的子集。为了评估其余部分的准确性，我们引入了3个指标，并在此基础上比较了我们的方法反对SubCNN [24] KITTI汽车。第一个度量是估计对象中心的3D坐标的平均误差。第二个度量是估计3D框到相机的最近点的平均误差。该指标对于系统需要避免撞到障碍物的驾驶场景非常重要。最后一个度量是3D交集（3D IoU），其是利用估计的3D边界框的所有参数的最终度量。为了排除2D探测器性能进行并排比较，我们只来自两种方法的检测，其中检测到的2D盒具有IoU≥0。7 .第一次会议。如图8显示，我们的方法在所有3个指标上都优于SubCNN方法[24]，这是目前最先进的方法尽管如此，3D IoU的数量明显小于2D检测的数量，tors通常在相应的2D度量上获得。这是因为3D估计是一项更具挑战性的任务，特别是随着到物体的距离增加。例如，如果汽车距离摄像机50米，则2米的平移误差对应于大约一半的汽车长度。我们的方法很好地处理了距离的增加，因为图中的框中心和最近点度量的误差。8随距离近似线性增加，与7080图6.估计的3D投影的定性图示，红色表示汽车，绿色表示骑自行车的人。方法AOS容易APOSAOS中度APOSAOS硬APOS3DOP[5]91.44%93.04%0.982886.10%88.64%0.971376.52%79.10%0.9673Mono3D[4]91.01%92.33%0.98570.8662%88.66%0.976976.84%78.96%0.9731SubCNN[24]90.67%90.81%0.998488.62%89.04%0.995278.68%79.27%0.9925我们的方法92.90%百分之九十二点九八0.999188.75%89.04%0.996776.76%77.17%0.9946表1.在官方KITTI汽车数据集上比较平均方向估计（AOS）、平均精度（AP）和方向评分（OS）定向评分是AOS和AP之间的比率。培训数据要求。我们的方法的一个缺点是它需要学习完全连接层的参数;它比使用附加信息的方法需要更多的训练数据。为了验证这一假设，我们重复了汽车实验，但将训练实例的数量限制为1100。同样的方法，实现0。表3中的9808，10828个实例只能达到0。9026在同一测试集上。此外，我们对官方KITTI集的结果明显优于[22]的分割（见表1），因为更多的训练数据用于训练。类似的现象也发生在KITTI自行车任务中。骑自行车的实例的数量远远少于汽车实例的数量（1144个标记的骑自行车的人对18470个标记的汽车）。因此，没有足够的训练数据来学习全连接层的参数。虽然我们的纯数据驱动的方法在骑自行车的人身上取得了有竞争力的结果，但它不能优于使用附加功能和假设的其他方法。图7.Pascal3D+数据集上的估计姿势的可视化SubCNN的超线性退化。为了评估估计汽车尺寸的重要性，我们评估了使用平均尺寸而不是估计它们的方法的变体。评估表明，回归的尺寸使所有的3D指标的差异为了便于与该问题的未来工作进行比较，我们在http://bit.ly/2oaiBgi上提供了[22]的分割上的估计3D框。5.3. 内隐紧急注意在本节中，我们将网络使用的汽车和自行车部件与[28]类似，一个小的灰色补丁在图像周围滑动，对于每个位置，我们记录估计和地面真实方向之间如果图像的特定部分被补丁遮挡导致显著不同的输出，则意味着网络关注该部分。图9示出了由于几个汽车检测的变灰位置而导致的输出差异的这种热图。看起来电视网关注的是7081Aero自行车船瓶总线车椅子表姆比凯沙发火车电视是说MedErr（[21]）13.817.721.312.95.89.114.815.214.713.78.715.413.6MedErr（[14]）8.013.440.711.72.05.510.4N/AN/A9.68.332.9N/AMedErr（我们的）13.612.522.88.33.15.811.912.512.312.86.311.911.1Accπ（[21]）6加速度π（我们的）60.810.770.590.930.980.890.800.620.880.820.800.800.80750.780.830.570.930.940.900.800.680.860.820.820.850.8103表2. Pascal3D+上使用Ground Truth框的视点估计图8. KITTI汽车的3D盒子指标。左：长方体中心的平均距离误差，单位为米。中间：估计从3D框到相机的最近距离时的误差，该距离与驾驶场景的影响时间成比例。右图：预测的3D边界框和地面实况3D边界框之间的3D IoU。显式标记的关键点地面实况。另一个优点是，我们的网络学习特定于任务的局部特征，而人类标记的关键点不一定是任务的最佳关键点。图9. 用于方向估计的模型的学习注意力的可视化。热图显示对方向估计贡献最大的图像区域。该网络关注汽车的某些有意义的部分，如轮胎、车灯和后视镜。数据集箱数124816KITTI OSPascal3D +Accπ60.890.650.980.720.970.780.970.810.960.77表3.在KITTI和Pascal3D+数据集上，仓数对视点估计的影响FC641282565121024OS0.95830.96070.98080.98540.9861表4.FC宽度对定向精度影响不同的物体部件，如轮胎，车灯和汽车侧镜。我们的方法似乎学习了类似于其他方法使用的关键点的局部特征，6. 结论和今后的方向在这项工作中，我们将展示如何从一个单一的视图中恢复已知的对象类别的3D绑定盒。使用一种新的MultiBin损失进行方向预测，并有效地选择框尺寸作为回归参数，我们的方法估计稳定和准确的3D边界框，而无需额外的3D形状模型，或具有复杂预处理管道的采样策略。一个未来的方向是探索在我们的方法中增强RGB图像输入的好处另一个是探索视频中的3D盒估计，这需要有效地使用时间信息，并且可以预测未来对象的位置和速度。引用[1] 补充材料。http://bit.ly/2oYMpuw网站。三、五[2] P. L. A. Geiger和R.乌塔松我们准备好自动驾驶了吗KITTI视觉基准套件。CVPR，2012。一、二、五、六[3] Z.蔡角，澳-地范河，巴西-地Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络在ECCV，2016年。二、五[4] X. Chen，K.昆杜Z.Zhang，H.马，S.Fidler和R.乌尔塔-孙。用于自动驾驶的单目3d物体检测。在IEEE CVPR，2016年。一、二、三、七7082[5] X.Chen ， K.Kundu ， Y.Zhu ，中国茶青冈A.Berneshawi，H.马，S.Fidler和R.乌塔松用于精确对象类别检测的3D对象建议2015年，在NIPS中。六、七[6] V. Ferrari，T. Tuytelaars和L.好极了从单个或多个模型视图中同时进行对象识别和分割。International Journalof Computer Vision（IJCV），62（2）：159-188，2006.2[7] R. 格希克，J。D. T. Darrell和J.马利克丰富的特征库，用于精确的对象检测和语义分割。CVPR，2015。2[8] S. Hao，Q.查尔斯湖Yangyan和G.列奥尼达为cnn渲染：使用用渲染的3d模型视图训练的cnn的图像中的视点估计。在IEEE计算机视觉国际会议（ICCV），2015年12月。2[9] A. Kar，S. Tulsiani，J. Carreira和J.马利克从单个图像重建特定类别的对象CVPR，2015。2[10] V. Lepetit，F. Moreno-Noguer和P.呸时间复杂度为O（n）的问题。国际计算机视觉杂志，2009年。2[11] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。Ssd：单发多盒探测器。在ECCV，2016年。4[12] K. Matzen和N.很聪明Nyc3dcars：地理环境中的3D车辆数据集。InICCV，2013. 2[13] R. Mottaghi，Y. Xiang和S. Savarese一种由粗到细的三维姿态估计和子类别识别模型。 IEEE InternationalConference on Computer Vision and Pattern Recognition，2015。2[14] G. Pavlakos，X.Zhou，中国古柏A.陈，K.G. Derpanis和K.丹尼-小精灵。6-从语义关键点的DOF对象姿态。在ICRA，2017年。三六八[15] B. 佩皮克湾斯塔克山口Gehler，T.Ritschel，和B.席勒野外3d物体类别检测。CVPR，2015。2[16] B.佩皮克湾Stark，P. Gehler，and B.席勒将3d几何图形教授给可变形零件模型。CVPR，2012。2[17] P. Poirson，P.Ammirato，A.Berg和J.科塞卡快速单镜头检测和姿态估计。在3DV，2016年。2[18] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。在CVPR，2016年。4[19] F. Rothganger，S.拉泽布尼克角Schmid和J.庞塞使用局部仿射不变图像描述符和多视图空间约束的3d对象建模和识别。IJCV，66（3）：231-259，2006. 2[20] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。二、五[21] S. Tulsiani和J.马利克视点和关键点。在CVPR，2015年。二三六八[22] Y. Xiang，中国西南地区崔，Y。Lin和S. Savarese数据驱动的三维立体声模型在物体类别识别中的应用。在2015年学习代表国际会议上二、三、七[23] Y. Xiang，中国西南地区崔，Y。Lin和S. Savarese 用于物体类别识别的数据驱动三维体素模式。在2015年IEEE计算机视觉和模式识别国际会议上。一、三、六[24] Y. Xiang，中国西南地区崔，Y。Lin和S.Savarese 子类别-用于对象建议和检测的感知卷积神经网络。在arXiv：1604.04693。2016. 一二三六七[25] Y. Xiang ，中国西南地区金， W 。 Chen ， J. Ji ， C.Choy，H.苏河，巴西-地莫塔吉湖Guibas和S.SavareseObjectnet3d：用于3D对象识别的大型在ECCV，2016年。2[26] Y.湘河，巴西-地Mottaghi和S.萨瓦拉塞超越Pascal：野外三维物体检测基准。InWACV，2014. 一、二、五[27] R. Zhang，P.Isola和A.埃夫罗斯彩色图像着色。在ECCV，2016年。4[28] B. Zhou，中国古柏A.科斯拉A.拉佩德里萨A.Oliva和A.托拉尔巴目标检测器出现在深场景cnn中。在2015年学习表示国际会议上。7[29] M. Zhu，K.G. Derpanis，Y.Yang，S.Brahmbhatt，M.张先生，C. Phillips，M. Lecce和K.丹尼尔迪斯用于抓取的单图像三维物体检测和姿态估计。在IEEE ICRA，2013年。2

下载后可阅读完整内容，剩余1页未读，立即下载