深度多任务网络用于从单目图像进行2D和3D车辆分析

73 浏览量更新于2023-10-15 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2040Deep MANTA：一个从粗到精的多任务网络，用于从单目图像进行2D和3DFlorian Chabot1，Mohamed Chaouch1，Jaonary Rabbioa1，Ce'lineT eulie` re2，Thierry Chateau21CEA-LIST视觉与内容工程实验室，2帕斯卡研究所，布莱斯帕斯卡大学1{florian.chabot，mohamed.chaouch，jaonary.rabarisoa}@ cea.fr2{celine.teuliere，thierry.chateau}@ univ-bpclermont.fr摘要在本文中，我们提出了一种新的方法，称为深度MANTA（深度多任务），多任务车辆分析，从一个给定的图像。介绍了一种鲁棒的卷积网络，用于同时进行车辆检测、零件局部化、可见性表征和三维尺寸估计。它的架构基于一种新的从粗到精的对象建议，可以提高车辆检测。此外，Deep MANTA网络能够定位车辆部件，即使这些部件不可见。在推理中，网络的输出由实时鲁棒姿态估计算法用于精细方向估计和3D车辆定位。我们在实验中表明，我们的方法优于单目国家的最先进的方法车辆检测，方向和三维定位任务上非常具有挑战性的KITTI基准。1. 介绍在过去的几年里，交通场景分析已经得到了改进，这要归功于深度学习方法，它为多种应用铺平令人印象深刻的2D对象检测[33，15，14]最近的工作已经提供了与场景内容相关的重要信息，但还不允许描述3D真实世界场景中的对象。在本文中，我们感兴趣的是在自动驾驶汽车的背景下从单目图像进行2D和3D车辆分析。这是一个相关的研究领域，因为目前大多数汽车都配备了一个单一的摄像头.对于自动驾驶车辆，基于从场景图像提取的信息来理解交通并预测关键情况是至关重要的。为了恢复周围车辆的速度和方向，三维车辆定位和方向与时间描述相结合是必要的。此外，为了正确理解交通，以精细的方式描述周围的车辆是很重要的比如说，图1. 系统输出。顶部：2D车辆边界框，车辆部件定位和部件可见性。在本例中，红点对应可见部分，绿点对应遮挡部分，蓝点对应自遮挡部分。底部：3D车辆边界框定位和3D车辆部件定位。摄像头用蓝色表示。需要强光的正确定位来解释车辆方向指示器，为此需要了解车辆部件的最后，为了解释整个场景，还需要获得车辆部件的可见性的表征因此，将知道车辆是否被其他车辆或环境障碍物隐藏。在这里，我们提出了一种方法，给定一个单一的图像，提供准确的车辆检测，车辆部分定位，车辆部分的可见性，精细定位，3D定位和3D模板（3D尺寸）。图1展示了我们方法的输出。我们的第一个贡献是使用车辆的特征点对3D车辆信息进行编码。其基本思想是可以使用单目图像来恢复3D车辆信息，因为车辆是具有众所周知的几何形状的刚性对象。我们的方法定位车辆的部分，即使这些部分是隐藏的，由于闭塞，截断或自遮挡的图像。这些部件2041使用回归而不是使用部分检测器。通过这种方式，该方法预测隐藏部分的位置，这对于鲁棒的3D信息恢复至关重要。我们使用的3D车辆数据集组成的3D网格与真实的尺寸。为每个3D模型注释多个顶点这些3D点对应于车辆部件（如车轮、前灯等），并为每个3D模型定义3D形状。该方法的主要思想是为每个检测到的车辆恢复这些3D点（2D形状）在输入然后，为每个检测框选择最佳对应的3D模型。在2D形状和所选择的3D形状之间执行2D/3D匹配以恢复车辆取向和3D位置。第二个贡献是介绍了深度粗到细多任务卷积神经网络，称为深度MANTA。该网络输出精确的2D车辆边界框、2D形状、零件可见性和3D车辆模板。它的建筑有几处独到之处。首先，受Region proposal network[33]的启发，MANTA模型能够提出粗略的2D边界框，然后通过多遍搜索迭代细化，以提供准确的其次，该网络基于多任务概念。这意味着相同的特征向量可以用于预测许多任务。我们同时优化六个任务：区域规划、检测、2D盒回归、零件定位、零件可见性和3D模板预测。最后一个贡献与训练数据集有关。深度神经网络需要许多样本和标签才能有效地学习。此外，手动注释不可见的车辆部件是非常挑剔的，几乎是不可能的。为此，我们提出了一种使用3D模型的半自动标注过程，以在真实图像上生成标签，用于深度MANTA训练。来自3D模型的标签（几何信息、可见性等）会自动投影到真实图像上，从而提供大型训练数据集，而无需进行劳动密集型注释工作。在下一节中，将回顾相关工作。第3节解释了所提出的模型。最后，我们证明了我们的方法在非常具有挑战性的KITTI数据集上优于与车辆检测、定向和3D局部化相关的单目最先进方法[12]。2. 相关工作对象分析是一个很好的研究课题，我们将其分为两大类：2D对象检测/粗略姿态估计和3D对象检测/精细姿态估计。2D物体检测和粗略姿态估计。有两种方法可以执行2D对象检测。第一个是标准的滑动窗口方案，许多检测系统[10，34]。第二个是基于2D对象建议的方法[15，14，38，5，1]。对象建议方法的目标是提出几个具有高客观性置信度得分的框。然后将这些pro-bands提供给能够对对象和背景进行分类的检测器。对象生成方法的主要优点是处理时间，因为这可以合理地减少搜索空间。同时，深度卷积神经网络（CNN）已经证明了其在许多计算机视觉领域的有效性，例如对象分类[36，16，19，37]，对象检测[15，14，33]和场景分割[26，9]。因此，对象预测方法以及CNN的成功导致人们直接学习与下游检测网络共享权重的区域建议网络（RPN）[33，43，40，18]。RPN提供了在深度特征图上计算的感兴趣的强对象置信区域。实验表明，这种方法提高了检测精度。所提出的方法使用RPN框架，但使用几个步骤的二维边界框细化，以显着提高对象检测性能。2D对象检测通常与姿态估计相关联，并且许多方法解决这两个问题。他们通常将观察范围划分为几个bin以学习多类模型，其中每个bin对应于一个类[27，41，47，22，29]。这些方法允许获得关于对象的粗略信息并且不提供连续视点估计。3D物体检测和精细姿态估计。到在2D推理的基础上，设计了几种在3D空间中检测车辆的方法，并给出了相应的仿真结果。一个详细的3D对象表示。其中一部分包含拟合3D模型[23，32，2，17]，活动形状模型[44，46，45，24，42]或预测3D体素模式[39]以恢复精确的3D姿态和详细的对象表示。这些方法通常使用提供2D边界框和粗略视点信息的初始化步骤。最近，人们提出使用在使用单眼图像[7]或视差图[8]时生成的3D对象提案。在这些方法中，3D对象提议被投影在2D边界框中，并被给予基于CNN的检测器，该检测器联合预测对象提议的类别和对象精细取向（使用角度回归）。在所提出的方法中，使用鲁棒的2D/3D车辆部件匹配找到车辆精细定向估计：2D/3D姿态映射是使用所有车辆部件（可见或隐藏）计算的，与其他方法（如[44，46，45，24]）相比，这些方法关注可见部件。这显然提高了方位估计的精度。3. 深层MANTA方法在本节中，我们描述了从单目图像进行2D/3D车辆分析的方法。我们的系统有两个主要步骤。首先，输入图像通过Deep MANTA网络，该网络输出2D评分边界框、相关车辆几何形状（车辆部件2042. ..MMMM图2. Deep MANTA方法概述。整个输入图像在Deep MANTA网络内转发。具有相同颜色的Conv层共享相同的权重。此外，这三个卷积块对应于现有CNN架构的拆分。网络提供对象提议{Bi，1}，其被迭代地细化（{Bi，2}，然后是最终检测集{Bi，3}）。将2D部件坐标{Si}、部件可见性{Vi}和模板相似性{Ti}与最终检测到的车辆集合{Bi，3}相关联。一然后执行非最大抑制（NMS）。它去除冗余检测并提供新的集合{Bj，Sj，Vj，Tj}。使用这些输出，推断步骤允许使用模板相似度Tj来选择最佳对应3D模板，并且然后执行使用关联的3D形状进行2D/3D姿态计算。坐标， 3D模板相似性）和零件可见性罚款为三维=（wm，hm，lm）其中wm，hm，lm是特性.深度MANTA网络架构在第3.3节中详述。第二步是使用Deep MANTA输出和3D车辆数据集来恢复3D方向和位置的推理。该步骤详见第3.4节。在这种方法中，我们使用一个3D形状的数据集和一个3D模板。这两个数据集在尺寸、类型和形状方面对车辆的可变性进行了编码。这些数据集见第3.1节。在第3.2节中，我们为单目图像中的给定车辆定义所采用的2D/3D车辆模型。3.1. 3D形状和模板数据集我们使用与几种类型的车辆（轿车、SUV等）相对应的M对于每个3D模型m，我们注释N个顶点（称为3D部件）。这些部件对应于相关车辆区域。对于一个3D模型m，我们将其在规范视图中对齐的3D形状表示为3D模型的宽度、高度和长度被记录。图3显示了来自3D形状数据集{S<$3d}m∈{1，.，M}和3D模板数据集{t<$3d}m∈{1，..，M}。图3. 3D模板和3D形状数据集的一些示例。每个3D模型m（第一线）与3D模型m相关联。板t<$3d（第二行）和3D形状S<$3d（第三行）。的3DM mS<$3d=（p1，p2，..，其中pk=（xk，yk，zk）对应于第k部分的3D坐标。与3D模型m相关联的3D模板（即，3D维度）被解压缩。形状对应于手动注释的顶点。第一阶段：深层MANTA网络第一级：区域提案网络对象提议Conv层Conv层RPN i，1第2级：第一次提炼更精细的对象建议ROI转换池化层Conv层2D箱子回归i，2第3级：第二次精炼二维箱回归分类ROI转换池化层Conv层零件坐标零件可见性范本相似性年月1日Si Vi NMS第二阶段：深层MANTA推断Tj 选择最好的3D模板. . .Sj2D/3D匹配，3d3dJ JBj2043MMMMMMMmCMMJJ3.2. 2D/3D车辆模型我们用2D/3D模型在单目图像中表示每辆车。它由以下属性正式定义：（B，B3d，S，S3d，V）B=（cx，cy，w，h）是图像中的2D车辆边界框，其中（cx，cy）是中心，（w，h）分别表示B3d=（cx，cy，cz，θ，t）是由其3D中心（cx，cy，cz）、其方向θ和其3D薄板试验=（w，h，l）对应于其3D真实尺寸。S={qk=（uk，vk）}k∈{1，.，N}是车辆2D零件坐标，在图像中标注 S3d={pk=（xk，yk，zk）}k∈{1，.，N}是车辆 3D 部件在 3D 真实世界坐标系中V={vk}k∈{1，.，N}是零件可见性向量，其中vk表示第k个零件的可见性类别。定义了四种可见性等级：（1）如果在图像中观察到该部分，则是可见的，（2）如果该部分被另一物体遮挡，则是遮挡的，（3）如果该部分被车辆遮挡，则是自遮挡的，以及（4）如果该部分在图像之外，则是截断的。图4示出了2D/3D车辆模型的示例。(a)（b）第（1）款工作（与第一级共享一些权重），并通过偏移变换进行细化。第二组K个对象B2={Bi，2}i∈{1，...，K}的建议。最后一次重复该操作以提供边界框B3的最终集合。这三个层次的细化如图所示-ure2. 该过程与Faster-RCNN [33]的不同之处在于，我们的迭代细化步骤克服了大对象尺度变化的约束，并提供了更准确的检测。此外，在我们的方法中，ROI池区域提取的第一个卷积特征图保持高分辨率检测硬车辆。多任务预测。深度MANTA架构输出最终边界框集合B3={B1，3}i∈{1，.，K}。对于每个边界框Bi，3，MANTA网络还返回所有2D车辆部件坐标Si、部件可见性Vi和3D模板相似性Ti。模板相似性向量Ti被定义为Ti={rm}m∈{1，.，M}。rm=（rx，ry，rz）对应于应用于3D图像的三个缩放因子。模板t3d以拟合检测到的车辆的真实3D模板i。该向量对检测到的车辆与所有3D模板{t<$3d}m∈{1，.，M}的三维模板数据集。在该方法的该阶段，执行非最大值这提供了一组新的K′检测和相关属性{Bj，Sj，Vj，Tj}j ∈ {1，.，K′}。3.4.深层MANTA推断推理步骤使用Deep MANTA网络输出，3D形状数据集 {S<$3d}m∈{1， ...， M} 和 3D 模板数据集{t<$3d}m∈{1，..，M}以接收3D信息。给定由下式提供的车辆检测j，在深度MANTA网络中，推理包括两个步骤。在第一步中，我们选择最接近的3D模板c∈{1，. M}在3D模板数据集{t<$3d}m∈{1，.，M}（c）第（1）款（d）其他事项使用模板相似度Tj={rm}m∈{1，.，M}re-被网卷了。F或3D tem的每个样本t3d图4.一个2D/3D车辆模型的示例。（一）边界框B，（b）2D零件坐标S和零件可见性V：可见零件（红色）、遮挡零件（绿色）和自遮挡零件（蓝色）。（c）3D边界框B3d和（d）相关联的3D形状S3d。3.3. 深度MANTA网络Deep MANTA网络旨在使用由粗到细的边界框建议来检测车辆，并输出其他更精细的属性，例如车辆部件定位，部件可见性和模板相似性。由粗到精的前进。给定整个输入图像，M板数据集，我们应用缩放变换rm。所得到的3D模板由{t3d}m∈{1，.，M}。最好的3D模板c是使t3d和t<$3d之间的距离最小化的模板：c=argmind（t<$3d，t3d）。m∈{1，..，M}换句话说，最好的3D模板是由Deep MANTA网络预测的更接近（1，1，1）在第二步骤中，使用3D匹配来应用2D/3D匹配。形状S′3d。它被重新缩放以适合3D模板tj=t3d。C c网络返回第一组K个对象建议B1={Bi，1}i∈{1，...，K}作为由[ 33 ]提出的区域提议网络。然后从要素中提取这些区域映射并使用[14]介绍的ROI池化到固定大小。提取的区域在网络中转发然后，执行姿态估计算法，以使用标准2D/3D匹配将重新缩放的3D形状S3d与2D形状Sj匹配[20]。最后一步提供3D边界框B3d和3D部件坐标S3d。图2中的最后一个块说明了推理步骤。2044我，我我，我我我我，我我，我我，我4. 深度MANTA训练本节定义了MANTA网络的所有任务和相关的损失函数。在下文中，我们考虑三个细化水平l∈ {1，2，3}和五个细化水平l ∈ { 1，2，3 }。函数最小化：Lrpn、Ldet、Lparts、Lvis和Ltemp。其中λcls和λreg分别是箱分类和箱回归的正则化参数部分损失。使用地面实况部分S =（q1，...，qN）和与级别l处的对象建议i相关联的框Bi，l，归一化车辆部件Si，l=（q<$1，.，qN）计算如下：Lrpn是在[33]中定义的RPN损失函数。 Ldet是以识别车辆为中心的检测损失函数Q=（uk−cxi，l，wi，lvk− cyi，l）.hi，l和背景边界框以及回归边界，包装盒。Lparts是车辆部件定位对应的损失。Lvis是与零件可见性相关的损失L温度预测的归一化部分是S。部分损失函数定义为：是与模板相似性相关的损失。我们使用更快的-RCNN框架[33]基于RPN学习端到端l零件（i）=λ部分Ci，lR（S）-Si，l）MANTA模型。给定输入图像，网络联合优化最小化全局函数：L=L1+L2+L3与其中λ是部分损失的正则化参数。能见度下降。这种损失仅在最终细化级别l= 3上优化。地面实况可见性向量Vi=V被分配给对象提议i。预测的可见度矢量是V。可见度损失函数是L1= L RPN，我罚款为：222Lvis（i）=λvisCi，3P（V，Vi）L=Ldet（i）+ Lparts（i），i我3Σ3 3L=Ldet（i）+ Lparts（i）+ Lvis（i）+Ltemp（i），我其中 i 是建议对象的索引这三个损失对应于深层MANTA架构的三个细化级别：级别越细，学到的信息量越大4.1. 许多任务丢失功能在这里，我们将详细介绍其中λ是可见性损失的正则化参数模板相似性损失。这种损失仅在最终细化级别l= 3上优化。我们不是直接优化3D模板t的三维，而是使用3.3中解释的3D模板数据集将其编码为向量T。对于训练，log函数应用于T的每个元素以更好地归一化（因此相似度值在[-1，1]中）。地面实况模板模拟ilarity vector vectorTi=T被分配给对象属性。我是阿吉预测的模板相似性向量是T。的上面介绍的全局函数。在下文中，每一个Ob-在每个细化级别的对象建议l由i索引模板相似性损失函数定义为：它由它的盒子Bi表示，l=（cx我，我，cy我，我，wi，l，hi，l）。Ltemp（i）=λtempCi，3R（T −Ti）选择最接近地面实况车辆框B到Bi，l还选择相关的地面实况部分S、地面实况可见性V和地面实况模板t（参见第3.2节）。我们将标准log softmax损失表示为P，将[14]中定义的鲁棒SmoothL1损失表示为R。检测丢失。在细化级别l处的对象建议i被分配给类标签Ci，l。如果对象建议是车辆，则Ci，l为1，否则为分类标准是框Bi ， l 和地面实况框 B之间的重叠。 DeepMANTA网络为该提案返回的预测类是C。目标框回归向量R0i，l=（δx，δy，δw，δh）也定义如下：其中λtemp是模板相似性损失的正则化参数。注意，如果对象提议i不是正的（即Ci，l= 0），则与边界框回归、部件位置、可见性和模板相似性相关联的损失函数为空，因为在背景区域上优化车辆属性没有意义。4.2. 半自动标注使用半自动注释过程来提供有用的标签以训练我们的Deep MANTA网络（车辆δx=（cx我，我-cx）/wδw=log（wi，l/w）零件坐标、零件可见性、3D模板）。为了执行注释过程，我们只需要一个弱注释的δy=（cyi，l−cy）/h δh=log（hi，l/h）Deep MANTA网络返回的预测回归向量为1000。检测损失函数定义为：提供车辆的3D边界框的真实数据集，3D CAD数据集。为此，我们使用由M个3D汽车模型组成的3DCAD数据集。我们手动-L2045勒代（i）=λCLSP（C），C我，我）+λregCi，l∗我，我-在每个3D模型上标注N个顶点对于每辆车，弱注释的真实数据集，我们自动LR（2046(a)（b）（c）（d）（e）图5.半自动注释过程。（a）真实图像上的弱注释（3D边界框）。（b）绿色的最佳对应3D（c）这些3D模型在图像中的投影。（d）对应的可见性网格（每种颜色代表一个部分）。（e）最后注释（部分定位和可见性）。红点：可见部分，绿点：闭塞部分，蓝点：自我封闭的部分。3D模型数据集中的最佳对应3D模型。这通过选择其3D边界框最接近图像中的真实3D车辆边界框（就3D尺寸而言）的3D模型来完成。将与所选CAD相关联的3D部件投影到图像上以获得2D部件坐标。使用可见性网格计算每个投影零件的可见性。该网格是低分辨率3D模型，其中每个面与带注释的车辆3D部件相关联图5说明了这个过程。5. 实验在本节中，我们将在具有挑战性的KITTI目标检测基准上评估所提出的方法，该基准专用于自动驾驶[12]。该数据集由7481张训练图像和7518张测试图像组成。给出了标定矩阵。由于测试集的地面实况注释没有发布，我们使用训练集的训练/验证分割来验证我们的方法。为了将我们的方法与其他最先进的方法相比较，我们使用两个train/val分割：[40，39]使用val1，[8，7]使用val 2。这是一种手段，比较我们的方法，这些方法的任务，最初没有评估的KITTI基准。我们使用由[11，6]提供的由M= 103个3D车辆模型组成的3D CAD数据集进行半自动注释。我们在每个3D模型上标注N= 36个车辆部件。我们使用Googlenet [36]和VGG16 [35]架构训练Deep MANTA，并使用标准的随机梯度下降优化。Deep MANTA使用在ImageNet上学习的预训练权重进行初始化。我们使用7个纵横比和10个比例的RPN，在每个特征图位置提供70个锚点，如[40]所建议的。在训练过程中，如果一个对象属性与地面实况框的重叠大于0.7，则该对象属性被认为是正的。对于实验，除了λparts= 3的部分定位任务之外，所有正则化参数λ都被设置为1。这些参数的选择将在本节的最后讨论。我们提出了几个任务的结果：二维车辆检测，定位和定向、3D定位、2D零件定位、零件可见性和3D模板预测。在所有呈现的结果中，我们使用200个对象建议和0.5的重叠阈值用于非最大抑制。根据KITTI基准[12]提出的三个难度级别（简单，中等和困难）的结果2D车辆检测和定位。我们使用平均精度（mAP），重叠标准为0.7，以评估2D车辆检测。我们使用平均方向相似性（AOS）来评估KITTI基准[12]提出的车辆方向。表1显示了这两个任务在两个train/val分割上的结果。表2显示了KITTI测试集的结果。我们可以看到，我们的方法在两个train/val分割以及测试集上的两个任务上都优于其他方法此外，我们的方法耗时更少。这是由于输入图像的分辨率。许多最先进的基于对象建议的方法[40，7，8]在KITTI数据集上将输入图像放大3倍。这样做是以不丢失关于空间缩减的特征图的信息。我们的粗到细的方法克服了这种信息的损失，并允许在初始分辨率的输入图像还评估了深MANTA的由粗到细的架构，结果如表3所示。我们将提出的Deep MANTA与其他两个网络进行比较。第一行是一个不使用细化步骤的网络，其中池化区域在第5级卷积的特征图上提取（如原始的Faster- RCNN [33]）。第二行是没有细化步骤的网络，其中池化区域在第一级卷积中提取。我们可以看到，在第一个卷积层上提取最后一行是所呈现的深度MANTA架构（具有细化步骤和在第一卷积图上提取的区域这些结果表明，从粗到细的架构增加了检测和方向估计（中等增加约4%）。2047APAOS方法类型时间容易中度硬容易中度硬3DVP [39][33]第三十三话SubCNN [40]3DOP [8]Mono3D [7]单单声道单声道立体声单声道40 S2 s2 S3 S4.2秒80.48/-82.91/-95.77/-- /94.49- /95.7568.05/-77.83/-86.64/-- /89.65- /90.0157.20/-66.25/-74.07/-- /80.97- /80.6678.99/-- -94.55/-- /92.98- /93.7065.73/-- -85.03/-- /87.34- /87.6154.67/-- -72.21/-- /78.24- /78.00我们的GoogleNet我们的VGG16单单0.7 s2 s97.90/97.5897.45 /97.291.01 /90.8991.47/91.8583.14/82.7281.79 /85.1597.60/97.4497.10 /97.0990.66 /90.6691.01/91.5782.66/82.3581.14 /84.72表1.KITTI值集上的2D车辆检测（AP）和定向（AOS）结果两个验证集的结果：val 1/val 2。APAOS容易中度硬容易中度硬LSVM-MDPM-sv [10，13]68.256.4844.1867.2755.7743.59ACF-SC [3]69.1158.6645.95---MDPM-un-BB [10]71.1962.1648.43---DPM-VOC+VP [31]74.9564.7148.7672.2861.8446.54[30]75.9465.9553.5673.5064.4252.40[28]第二十八话84.1475.4659.7183.4174.4258.833DVP [39]87.4675.7765.3887.4675.7765.38[21]第二十一话84.8075.9460.7033.7930.7724.75[25]第二十五话84.7576.4559.70---更快的R-CNN [33]86.7181.8471.12---3DOP [8]93.0488.6479.1091.4486.1076.52Mono3D [7]92.3388.6678.9691.0186.6276.84SDP + RPN [43]90.1488.8578.38---美国有线电视新闻网[4]90.0389.0276.11---SubCNN [40]90.8189.0479.2790.6788.6278.68我们的Googlenet95.7790.0380.6295.7289.8680.39我们的VGG1696.4090.1080.7996.3289.9180.55表2.KITTI测试集上的2D车辆检测（AP）和定向（AOS）结果3D 定位。我们使用 [39] 提出的平均定位精度（ALP）度量。它是用定位精度代替AOS中的方向相似性如果3D位置与地面实况3D位置的距离小于阈值，则表4给出了阈值距离为1米和2米时两个列车/列车分离的结果我们的Deep MANTA方法明显优于其他单眼方法[7，39]用于3D本地化任务（与Mono3D相比约高出16%[7]）。图6显示了Deep MANTA和Mono 3D的召回率/3D定位精度曲线[7]。与使用立体声信息的3DOP[ 8 ]相比，Deep MANTA性能在2米的阈值误差距离处是等效的，但在1米处精度较低：与使用视差信息的3DOP方法相反，深度MANTA仅使用单个图像。3D模板、零件定位和可见性。我们还评估了零件定位精度，零件可见性分类精度以及3D模板预测。给出一个正确的检测，我们使用以下三种方法。对于零件本地化，零件被认为是本地的-图6.Mono 3D使用的val2上1米（左）和2米（右）精度的调用/3D定位精度曲线[7]。如果到地面实况部分的归一化距离小于阈值（20个像素），则将其化。距离使用[45]提出的固定边界框高度（155像素）可见性度量是四个可见性类别的准确度。最后，我们通过比较三个预测尺寸（w，h，l）与地面真实3D框尺寸（wgt，hgt，lgt）来评估3D模板预测。2048APAOSMethode细化ROI池化打开容易中度硬容易中度硬深海蝠鲼没有没有conv5conv180.6495.1962.4586.8553.8678.6279.6894.9861.4986.5252.5878.05是的conv197.5890.8982.7297.4490.6682.35表3. 验证集val2上的2D车辆检测（AP）和方向估计（AOS）的粗到精比较。这些实验显示了细化步骤的重要性以及为区域提取选择的特征图的影响1米2米方法类型时间容易中度硬容易中度硬3DVP [39]单40 S45.61/-34.28/-27.72/-65.73/-54.60/-45.62/-3DOP [8]立体声3 s- /81.97- /68.15- /59.85- /91.46- /81.63- /72.97Mono3D [7]单4.2秒48.31- /38.98- /34.25- /74.77- /60.91- /54.24我们的GoogleNet单0.7 s70.90/65.7158.05/53.7949.00/47.2190.12/89.2977.02/75.9266.09/67.28我们的VGG16单2 s66.88 /69.7253.17 /54.4444.40 /47.7788.32 /91.0174.31 /76.3863.62 /67.77表4. KITTI valset上的3D定位精度（ALP），精度为1米和2米。两个验证集的结果：val1/val2。由KITTI提供 3D模板（w，h，l）被视为正确，如果|wgt−w|0<的情况。2和|hgt−h|0<的情况。2和|lgt−l|0<的情况。二、任务很多。其次，我们可以看到，λ部分对于3D定位是非常重要的学习wgthgtlgt表5显示了这些任务的良好性能度量容易中度硬零件本地化97.5490.7982.64零件可见性92.4885.0876.903D模板94.0486.6278.72表5. 零件定位、零件可见性、验证集val2上的3D模板评估。多任务和正则化参数。表6显示了不同正则化参数集的结果。这些结果还旨在比较Deep MANTA方法与在较少任务上优化的网络的性能。在表6中，D对应于检测任务，P对应于零件定位任务，V对应于零件可见性任务，T对应于模板相似性任务。使用这些符号，表6的第一行是仅在检测任务上训练的深度MANTA（λparts= λvis= λtemp= 0）。由于没有训练部件局部化和模板相似性，因此在这种情况下无法预测取向和3D定位。第二行是在没有可见性任务（ λvis= 0 ）和 λparts= 3 的情况下训练的 DeepMANTA。第三行是完整的Deep MANTA（所有任务），但正则化参数与部分定位相关λparts= 1。最后，最后一行是λparts= 3的深MANTA（在所有上述结果中呈现的）。这些结果很有趣，原因有几首先，我们可以看到，增加学习任务的数量（即丰富车辆描述）不会显著影响性能（检测和定位精度略高，但3D定位精度略低）。这证明了多任务概念的相关性：神经网络能够学习一个可用于预测的特征表示λparts= 3的深度MANTA改进了3D定位a-1米的距离精度可提高6%。APAOS1 m2 mD89.86---DPT /λ部件= 389.7389.3958.3778.11DPVT /λ部件= 189.5889.2751.4773.93DPVT /λ部件= 390.5490.2357.4477.58表6. 学习任务的数量以及不同正则化参数的影响。该表给出了1米和2米精度（ALP）的车辆检测（AP）、定向（AOS）和3D定位的结果给定的结果是两个验证集和三个难度水平（简单，中等，困难）的平均值。详情见正文6. 结论总之，我们提出了一种新的方法，联合2D和3D车辆分析从单目图像。它基于多任务 CNN （ DeepMANTA），该CNN使用多个细化步骤提出精确的2D车辆边界框。MANTA架构还为每次检测提供车辆部件坐标（即使这些部件被隐藏）、部件这些精细特征然后用于使用鲁棒的2D/3D点匹配来恢复车辆取向和3D局部化。我们的方法优于最先进的车辆检测和精细方向估计方法，并明显增加了车辆3D定位相比，单目方法。一个观点是将该框架适用于其他刚性对象，并构建多类Deep MANTA网络。2049引用[1] P. Arbel a'ez，J. Pont-T uset，J. Barron，F. Marques和J.马力。多尺度组合分组CVPR，2014年。2[2] M. Aubry，D. Maturana，A.埃夫罗斯湾Russell和J.西维克3D椅子：使用CAD模型的大数据集的基于示例部件的2D-3D对准。CVPR，2014年。2[3] C. Cadena，A.迪克和我里德一个快速，模块化的场景理解系统，使用上下文感知对象检测。ICRA，2015年。7[4] Z.蔡角，澳-地范河，巴西-地Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络ECCV，2016。7[5] J. Carreira等人用于自动对象分割的约束参数最小切割。2010年，加拿大残疾人协会。2[6] L- C. Chen，S.菲德勒，A. L. Yuille和R.乌塔松打败土耳其人：从弱三维监督自动图像标记。2014. 6[7] X. Chen，K.昆杜Z.Zhang，H.马，S.Fidler和R.乌尔塔-孙。用于自动驾驶的单目3d物体检测。CVPR，2016年。二、六、七、八[8] X.Chen ， K.Kundu ， Y.Zhu ，中国茶青冈A.Berneshawi，H.马，S.Fidler和R.乌塔松用于精确对象类别检测的3D对象建议NIPS，2015年。二、六、七、八[9] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标注的分层特征。PAMI，2013年。2[10] P. F. 费尔岑斯瓦尔布河B. Girshick，D.McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。PAMI，2010年。二、七[11] S. Fidler，S. Dickinson和R.乌塔松利用可变形的3D长方体模型的3D目标检测和视点估计。NIPS，2012年。6[12] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。CVPR，2012年。二、六[13] A.盖革角Wojek和R.乌塔松物体和场景布局的联合三维估计。NIPS，2011年。7[14] R.娘娘腔。快速R-CNN。ICCV，2015年。一、二、四、五[15] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014年。一、二[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，2016年。2[17] J.J.Lim，A.Khosla，and A. Torralba. FPM：基于零件的精细姿态模型和3D CAD模型。ECCV，2014年。2[18] T. 孔氏A.Yao，Y.Chen和F.太阳超网络：走向精确的区域建议生成和联合对象检测.CVPR，2016年。2[19] J. Krause，H. Jin，J. Yang，and L.飞飞无零件注释的细粒度识别。CVPR，2015年。2[20] 诉Lepetit，F.Moreno-Noguer，and P.Fua.Epnp：pnp问题的精确IJCV，2009年。4[21] B. Li，T. Wu和S.- C.竹基于层次与或模型的背景与遮挡相结合的车辆检测。ECCV，2014年。7[22] J. Liebelt和C.施密特基于三维几何模型的多视角目标类别检测。2010年，加拿大残疾人协会。22050[23] J. Lim，H. Pirsiavash和A.托拉尔巴分析宜家对象：精细姿态估计。 ICCV，2013年。2[24] Y.-- L. Lin，V. Morariu，W. Hsu和L.戴维斯三维模型拟合与细粒度分类的联合优化。ECCV，2014年。2[25] C.长，X。Wang，G.华，M. Yang和Y.是林书精确的目标检测与位置松弛和regionlet重新定位。ACCV，2014年。7[26] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015年。2[27] R. Lopez-Sastre，T.Tuytelaars和S.萨瓦拉塞重新访问可变形零件模型：目标类别姿态估计的性能评估。ICCV，2011年。2[28] E. On-Bar和M. M.特里维迪学习通过聚类外观模式来检测车辆。T-ITS，2015年。7[29] B. Pepi，M. Stark，P. Gehler，and B.席伦将3d几何图形教授给可变形零件模型。CVPR，2012年。2[30] B.佩皮克湾Stark，P. Gehler，and B.席勒用于对象类别检测的遮挡模式。CVPR，2013年。7[31] B.佩皮克湾Stark，P. Gehler，and B.席勒多视图和三维可变形零件模型。TPAMI，2015。7[32] B. 佩皮克湾斯塔克山口诉Gehler，T.Ritschel，和B.席勒野外3d物体类别检测。CVPR，2015年。2[33] S. Ren，K.赫利河B. Girshick和J.太阳更快的r-cnn：用区域建议网络实现实时目标检测。NIPS，2015年。一、二、四、五、六、七[3

下载后可阅读完整内容，剩余1页未读，立即下载