基于学习的图像物体距离估计方法及其在自动驾驶中的应用

110 浏览量更新于2023-10-13 收藏 2.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3839从单目图像经住一方美国纽约大学多媒体与视觉计算实验室纽约大学阿布扎比分校{jingzhu，yfang}@ nyu.edu摘要环境感知包括目标检测和距离估计，是自动驾驶的关键任务之一。目标检测一直是计算机视觉领域的研究热点，但距离估计在计算机视觉中的应用却很少。观察到传统的逆透视映射算法对于远离相机或弯曲道路上的物体表现不佳，在本文中，我们通过开发第一个端到端的基于学习的模型来直接预测图像中给定物体的距离，从而解决具有挑战性的距离估计问题。除了引入基于学习的基础模型之外，我们还设计了一个具有关键点回归器的增强模型，其中定义了投影损失以执行更好的距离估计，特别是对于靠近相机的对象。为了便于对这一任务的研究，我们构建了扩展的KITTI和nuScenes（迷你）对象检测数据集，每个对象都有一个距离我们的实验表明，我们提出的方法优于替代方法（例如，传统的IPM、SVR）对特定于对象的距离估计的改进，特别是对于对象在弯曲道路上的挑战性情况。此外，性能裕度意味着我们的增强方法的有效性。1. 介绍随着计算机视觉领域的发展，视觉环境感知是自动驾驶汽车发展的关键部分，它包括目标分类、检测、分割和距离估计。虽然研究人员在提高视觉识别的准确性方面付出了很多努力，但他们主要集中在更流行的任务上，例如对象分类，检测和分割[29，27，17]。除了识别道路上的物体外，它还可以识别输入：RGB图像+边界框（对象图像位置）输出：对象类别+距离（以米为单位）图1：给定RGB图像和对象的边界框（图像位置）作为输入，我们的模型直接预测图像中每个对象的距离（以米为单位）和类别标签。我们的模型可以很容易地推广到任何视觉环境接收系统，通过附加到成熟的二维检测器。重要的是估计相机传感器和所识别的对象之间的距离（例如，汽车、行人、骑自行车的人），其可以为汽车提供避免碰撞的关键信息，为安全驾驶和更重要的是调整其速度，作为传感器融合和路径规划的提示。然而，特定于对象的距离估计任务很少受到计算机视觉界的关注。随着卷积神经网络的出现，研究人员使用深度学习技术在传统的2D计算机视觉任务上取得了显着进展，例如对象检测，语义分割，物体分割，场景重建[4，30，31，16]，但我们未能找到任何深度学习应用于特定对象的距离估计。主要原因之一可能是缺乏提供从室外道路场景捕获的图像中的每个对象的距离的数据集。在本文中，我们专注于解决有趣但具有挑战性的对象特定的距离估计问题，表示通讯作者。自动驾驶（如图所示） ①的人。我们有-3840服务于大多数当前现有的机器人系统或自驾驶系统通过采用传统的逆透视映射算法来预测物体距离。它们首先在图像中的对象上定位一个点，然后使用相机参数将定位的点（通常在绑定框的下边缘上）投影到鸟瞰视图坐标中，并且最后从虽然这种简单的方法可以预测保持在摄像机前面的物体的合理距离，但它在以下情况下表现不佳：1）物体位于摄像机的侧面或弯曲的道路上，以及2）物体远离摄像机（超过40因此，我们正在寻求开发一种模型，以利用深度学习技术的优势来解决上述具有挑战性的案例我们的工作是开发一种端到端的基于学习的方法，直接预测RGB图像中给定对象的距离我们建立了一个基本模型，从RGB图像中提取特征，然后利用ROI池为每个对象生成一个固定大小的特征向量，最后将ROI特征输入到距离回归器中，以预测每个对象的距离。虽然我们的基础模型能够提供有前途的预测，但它仍然不能满足自动驾驶的精度要求。因此，我们创建了一个增强的模型，用于更精确的距离估计，特别是对于靠近相机的物体特别地，在增强模型中，我们设计了一个关键点回归器来预测部分3D关键点坐标（X，Y）。它与预测距离（Z）一起形成完整的3D关键点（X，Y，Z）。利用相机投影矩阵，我们定义了投影的3D点和图像上的地面实况请注意，关键点回归量和投影损失仅用于训练。训练后，给定一个带有对象（边界框）的图像，可以直接从我们训练模型的输出中提取特定于对象的距离。在推断期间不存在相机参数干预。为了验证我们提出的方法，我们基于公共可用的KITTI对象检测数据集[10]和新发布的nuScenes（迷你）数据集[1]构建了一个扩展数据集，通过使用其相应的LiDAR点云和相机参数计算每个对象的距离。为了定量地衡量我们的工作和替代方法的性能，我们采用深度预测任务的评估指标作为我们的测量。我们报告了定量的结果，并可视化的定性比较的一些例子在我们构建的特定对象距离数据集上的实验结果表明，我们基于深度学习的模型可以成功预测给定对象的距离，其性能优于其他方法，例如传统的逆透视映射算法和支持向量回归机此外，对于靠近相机的物体，我们的增强我们提出的模型的推理运行时间是传统IPM的两倍。总之，我们工作的主要贡献包括：• 为了解决对象特定的距离估计挑战，例如，为了测量远离相机或弯曲道路上的物体，我们提出了第一个基于深度学习的方法，该方法具有一个新的端到端框架（作为我们的基础模型），可以直接预测RGB图像上给定物体的距离，而无需任何相机参数干预。• 我们进一步设计了一种具有关键点回归的增强方法，其中引入投影损失以改善特定于对象的距离估计，特别是对于靠近相机的对象。• 为了便于对该任务的训练和评估，我们构建了扩展的KITTI和nuScenes（迷你）对象特定距离数据集。实验结果表明，我们提出的方法实现了优越的性能比其他方法。2. 相关工作特定目标距离估计在自动驾驶视觉环境接收中起着非常重要的作用。在本节中，我们简要回顾了距离估计的一些经典方法以及深度学习模型在2D视觉感知中的进展。距离估计许多现有的距离估计工作主要集中在建立一个模型来表示图像上的点之间的几何关系和它们在真实世界坐标上的对应物理距离。估计给定对象（图像中有一个点或边界框）距离的经典方法之一是使用逆透视映射（IPM）算法将图像点转换为相应的鸟瞰由于IPM的缺点，它会失败的情况下，物体位于40米以上的距离或在弯曲的道路上。另一个基于视觉的距离估计工作[13]学习了支持向量机回归器，以预测给定边界框的宽度和高度的特定对象的距离。DistNet[14]是最近尝试构建一个用于距离估计的网络，其中作者利用基于CNN的模型（YOLO）进行边界框预测，而不是用于距离估计的图像特征学习。与IPM类似，他们的距离回归器只研究了将具有一定宽度和高度的边界框映射到距离值的几何关系。相比之下，我们的目标是建立一个模型，直接预测从学习的图像特征的距离。3841RGB图像输出图2：我们的基础模型的框架，它由三个组件组成：一个特征提取器，用于生成整个图像的特征图，一个距离回归器，用于直接预测与对象特定ROI特征的距离，以及一个多类分类器，用于预测ROI特征的类别。除了上述方法，其他一些作品试图通过利用一些辅助信息来解决这个具有挑战性的问题。一些基于标记的方法[2，26]首先分割图像中的标记Feng et al.[8]提出了一种基于矩形图案预测物理距离的模型，其中需要矩形的四个图像点来计算相机校准。然后，他们使用计算出的相机校准来预测物体上任何给定点的距离。虽然先前的工作令人印象深刻，但它们需要将标记或图案放置在图像中以进行距离估计，这限制了它们在自动驾驶中的通用化。2D视觉感知虽然最近没有采用深度学习技术来学习用于视觉单眼对象特定距离估计的鲁棒图像特征的工作，但深度学习技术已成功应用于许多其他2D视觉感知任务（例如，2D视觉感知任务）。目标检测，分类，分割，单目深度估计）具有出色的性能[32，3，6，33]。R-CNN系列作品[12，11，24，15]是提高准确性并减少对象检测，分类和分割的处理时间消耗的先驱。SSD [20]和YOLO模型[22，23]也是流行的端到端框架，用于检测和分类RGB图像中的对象。他们的模型可用于解决自动驾驶的一些视觉感知任务，如检测和分类，但他们的模型无法预测物体的然而，这些卓越的工作启发我们建立一个有效的端到端模型，用于单目特定目标的距离估计。另一方面，单目深度估计可以是一个问题接近我们的对象特定的距离估计任务。最近，许多研究人员已经创建了一些监督甚至无监督模型来预测给定单眼彩色图像的密集深度图，并提供更精确的细节[7，18，19，9]。他们的工作是激励，但他们通常花费更多的内存和处理时间，无论是培训还是测试。对于自动驾驶的视觉感知来说3. 我们的方法针对经典逆映射算法在距离估计上的局限性，提出了一种基于学习的一个模型，直接预测给定的RGB图像和对象边界框的物理距离此外，我们设计了一个增强的模型与关键点回归更好的对象特定的距离估计。3.1. 基方法我们的基本模型由三个部分组成，即，一个特征提取器，一个距离回归器和一个多类分类器（如图所示）。2）的情况。特征提取器在我们的模型中，RGB图像被送入图像特征学习网络，以提取整个RGB图像的特征图。我们利用流行的网络结构（例如，vgg16，res50）作为我们的特征提取器。CNN最后一层的输出将被最大池化，然后提取为给定RGB图像的特征图距离回归器和分类器边界框CNN特征提取器+距离回归分类器L类距离LdistROI池FCFC足球俱乐部FCsoftmax软加3842我我RGB图像输出图3：我们的增强模型的框架，它包含四个部分，一个特征提取器，用于为整个RGB图像生成特征图，一个关键点回归器，用于预测3D坐标上的关键点位置，一个距离回归器，用于直接预测距离，以及一个多类分类器，用于预测类别标签。关键点回归器和距离回归器的输出在投影关键点和地面实况关键点之间定义投影损失，以实施更好的距离估计。将来自特征提取器的特征映射和对象边界框（暗示图像中的对象位置）映射到ROI池化层中，以生成固定大小的特征向量Fi来表示图像中的每个对象。的然后通过距离回归传递池化特征以预测每个对象距离和类别标签。距离回归器包含三个全连接（FC）层（对于vggl 6，层的大小为{2048，512，1}，对于res 50，层的大小为{1024，512，1}）。在最后一个全连接层的输出上应用softplus激活函数，以确保预测距离（表示为D（Fi））是积极的。对于分类器，有一个全连接（FC）层（神经元大小等于数据集中的类别数），后跟softmax函数。假设分类器的输出为C（Fi）。我们的损失-比例回归器Ldist和分类器Lcla可以写为：1XNminLbase=Lcla+λ1Ldis t.（三）我们使用ADAM优化器来获得beta值β = 0时的最优网络参数。五、学习率初始化为0。001，并在10个时期后呈指数衰减将λ1设置为1。0时，训练我们的框架工作。注意，分类器网络仅在训练期间使用。通过暗示对象类与其实际大小和形状之间的相关性的先验知识，分类器鼓励我们的模型学习可以用于估计更准确距离的特征训练后，我们的基础模型可以用于直接预测给定任何RGB图像和对象边界框作为输入的对象特定距离。3.2. 增强方法虽然我们的基础模型能够从ROI特征图预测有希望的特定对象距离，但它仍然不是Ldist=Ni=1smoothL1（d−D（Fi）），（1）满足自动驾驶的精度要求，特别是对于靠近照相机的物体。因此，我们认为，L类=1XNNi=1交叉熵（y_i，C（F_i）），（2）我们设计了一种具有关键点回归器的增强方法，以通过引入投影约束来优化基础模型，并因此实施更好的距离预测。其中N是物体的数量，d和y是地面如图3、我们的增强型模型的管道我我第i个对象的真值距离和类别标签。模型学习和推理我们同时训练特征提取器、距离回归器和分类器，包括四个部分，特征提取器，关键点回归器，距离回归器和多类分类器。特征提取器我们利用与基本模型中使用的相同的网络结构来提取RGB图像仅用于培训关键点边界框（+关键点）边界框距离回归CNN特征提取器+分类器L类距离Ldist3D关键点投影矩阵P投影损失L3D点FC关键点回归FCFCROI池FCFCFCFCtanhsoftmaxsoftplus3843我D我∗功能.通过对象边界框，我们可以使用ROI池来获得对象特定的特征Fi（参见第2节）。第3.1节）。关键点回归量关键点回归器K学习预测3D相机坐标系中的近似关键点位置。距离回归器的输出可被视为相机Z坐标上的值，因此关键点回归器仅需要预测两个坐标值（X，Y），表示为K（Fi）.它包含三个完全连接（FC）层，大小分别为{2048，512，2}、{1024，512，2}，用于vgg 16和res50。因为我们没有地面的真相，对于3D关键点，我们选择使用相机投影矩阵P将生成的3D点（[K（Fi），D（Fi）]）投影回图像平面。然后，我们计算地面实况2D关键点kk与投影点（P·[K（Fi），D（Fi）]）之间的误差。为了鼓励模型更好地预测较近物体的距离，我们将权重关于投影损失L3D点的地面实况距离，每个图像的深度值，而没有任何对象信息。它们都没有提供明确的对象特定的距离注释。因此，我们从KITTI和nuScenes（mini）构建了两个扩展的对象检测数据集，具有用于自动驾驶的地面真实对象特定距离。KITTI和nuScenes（迷你）数据集作为自动驾驶的知名基准数据集之一，KITTI [10]为对象检测任务提供了一个有组织的数据集，包括RGB图像，边界（2D和3D）框，图像中对象的类别标签以及每个图像的相应velodyne点云，这对于我们构建特定于对象的距离数据集是理想的。同样，新发布的nuScenes（mini）[1]也包含所有信息（即，RGB图像，边界框，velodyne点云）用于我们的数据集构建。目标距离地面实况生成如图所示在图4a中，为了生成RGB图像中的对象的对象特定距离地面实况，我们首先使用其3D边界框参数从对应的velodyne点云中分割对象点;然后对所有的L3D点=1XNNi=11 ||P·[K（Fi），D（Fi）]−k||二、（四）我基于深度值分割点;最后从排序列表中精确第n个深度值作为给定对象的地面真实距离。在我们的例子中，距离回归器和分类器对于距离回归器和分类器，我们利用相同的网络结构以及训练损失Ldist（等式2）。1）和Lcla（Eq.（2）作为基础模型。距离回归器中的网络参数也通过投影损失L3D点进行了优化.网络学习和推理我们同时训练特征提取器、关键点回归器、距离回归器和分类器，minLenhance=Lcla+λ1Ldist+λ2L3Dpoint.（五）我们使用与基础模型相同的优化器、beta值和学习率设置。 λ1、λ2设为10。0，0。05. 我们只使用相机投影矩阵P，关键点回归器和分类器进行训练。在测试时，给定RGB图像和边界框，我们学习的增强模型直接预测对象特定的距离，而无需任何相机参数干预。我们使用流行的深度学习平台PyTorch [21]实现我们的（基础和增强）模型，并在配备Intel Xeon E5-2603 CPU和NVIDIA Tesla K80 GPU的机器上运行它们。4. 训练数据建设训练深度神经网络用于特定于对象的距离估计任务的主要挑战之一是缺乏具有RGB图像中每个对象的距离注释的数据集。现有的对象检测数据集仅提供边界框和对象类别注释，而密集的深度预测数据集提供像素级n=0。1×（分割点的数量），以避免从噪声点提取深度值此外，我们预计velodyne点（用于地面实况距离提取）到它们对应的RGB图像平面，并且获得它们的图像坐标作为关键点地面实况。我们将特定于对象的距离和关键点的地面真实值附加到KITTI / nuScenes（迷你）对象检测数据集标签中，并与RGB图像一起构建我们的数据集。由于KITTI和nuScenes（mini）都只在其对象检测数据集中为训练集提供地面真值标签，因此我们为训练集中的所有样本生成距离和关键点地面遵循[5]中的分割策略，我们将KITTI训练中的样本以1：1的比例设置为两个子集（训练/验证）。总共有3，712个RGB图像，包含23，841个对象在训练子集中，3768个RGB图像中有25052个验证子集中的对象。所有对象被划分为9类，即，汽车，骑自行车的人，行人，杂项，坐着的人，电车，卡车，面包车，DontCare。我们生成的地面实况对象特定距离在[0，80]米之间变化图4b显示了在我们整个构建的数据集中生成的对象特定距离和对象类别的分布。我们可以发现，距离大多在5M到60M之间，汽车是数据集中的主导类别。对于nuScenes（迷你）数据集，我们将样本随机分为两个子集，其中1，549个ob-对200幅训练图像进行了分类，对199幅验证图像中的1457个目标进行了分类所有对象被标记为8类（汽车，自行车，行人，摩托车，公共汽车，拖车，卡车，建筑车辆），距离从2米到105米不等。3844分段点数量的对象我我我6K5K4K3KRGB图像和对象边界框2K1K0K距离（米）我们构建的数据（RGB图像、边界框、关键点和特定于对象的距离）Velodyne点云汽车DontCare行人面包车自行车卡车杂项电车人_坐0K5K10K 15K 20K 25K 30K数量的对象(a) 我们数据集构建的管道对于RGB图像中的每个对象，我们从相应的velodyne点云中分割其3D点，并提取第n个点的深度值我们将第n个点投影到图像平面以获得2D关键点坐标。将提取的距离和第n个velodyne点的2D关键点坐标作为扩展添加到KITTI / nuScenes（迷你）对象检测数据集中。(b) 生成的对象特定距离的分布（顶部），以及我们构建的基于KITTI的对象特定距离数据集（底部）中的不同对象类别。图4：我们的数据集构建策略和分布。图4a是我们如何用生成的地面实况对象特定距离构建我们的数据集的流水线，而图4b是我们如何使用生成的地面实况对象特定距离构建我们的数据集的流水线。图4b示出了所生成的基于KITTI的对象特定距离和对象类别的分布。5. 评价在本节中，我们通过与其他方法的比较来评估我们提出的模型。我们在构建的数据集的训练子集上训练我们的模型，同时在验证子集上测试它们。评估指标我们的目标是预测对于尽可能接近地面真实距离的对象因此，我们采用[7]提供的评估指标它包括绝对相对差（Abs Rel）、平方相对差（SquaRel）、均方误差根（RMSE）和均方误差根根据预测距离的对数和地面真实距离的对数（RMSE对数）计算的平方误差。令di和di表示地面真实距离和预测距离，我们可以计算误差为反透视映射算法（IPM）是汽车环境中最经典的车距预测方法之一。[28]使用摄像机参数来近似正常RGB图像与其鸟瞰图像之间的变换矩阵。我们采用MATLAB计算机视觉工具包中的IPM来获得RGB图像的转换矩阵（从验证子集）。在使用IPM变换矩阵将对象边界框的下边缘的中间点投影到它们的鸟瞰视图坐标之后类似于最近的工作[13]，我们计算训练子集中每个边界框的宽度和高度，并使用地面真值距离训练SVR。之后，我们得到验证集中阈值：%d国际科学技术联合会max（di/di，di/di）=δ<阈值，通过提供边界框的宽度和高度受过训练的俄对外情报局绝对相对差异（绝对相对值）：1 X|/d，|/d∗,对于我们提出的模型，我们利用vgg16和res50作为Nd∈N1X∗2∗我们的基本和增强模型的特征提取器我们训练了我们的模型20个epoch，批量大小为1平方相对差（Squa Rel）：NSd∈N||/d，||/d,在用水平翻转的训练图像增强的训练数据集训练后，我们将RGB图像RMSE（线性）：S1X||diNd∈N-d||二、我将边界框放入我们的训练模型中，并将距离回归器的输出作为验证子集中每个对象的估计RMSE（log）：1X||logdiNd∈N-log d||二、我KITTI数据集上的结果我们在构建的KITTI数据集上对所有评估结果进行了定量比较+距离11.35米类别3845基本（vgg16）增强（vgg 16）表1：在我们构建的基于KITTI对象检测的数据集的val方法越高越好越低越好9表2：我们的模型训练的比较与-75、对分类器进行（平均）KITTI距离估计。3Vgg 16型号越高越好越低越好15 10 15 20 25 30 35 40 45 50 55 60距离：米图5：基于KITTI的数据集中不同距离的对象的平均RMSE（越小越好）。评估指标见表1。请注意，在计算误差时，我们不包括DontCare对象的预测距离。除了8类对象之间的平均误差外，我们还提供了三个特定类别的性能，即，汽车、行人、骑自行车者，用于综合分析。从表中可以看出，与IPM和SVR相比，我们提出的模型能够以更低的相对误差和更高的精度预测距离此外，我们的增强模型在所有比较方法中表现最好，这意味着引入关键点回归和投影约束的有效性。此外，我们的模型在汽车，行人，骑自行车的对象上表现得很好，但平均性能稍差。我们对每个类别的结果进行了调查，发现我们的模型在训练样本较少的某些类别上表现相对较差，如人坐，电车。图5清楚地示出了增强模型对具有不同距离的对象的改进G除了定量比较之外，我们还使用我们提出的模型可视化了一些估计的对象特定距离，以及地面真实距离和使用替代IPM和SVR进行比较的预测。6. 支持向量机的结果表明，根据边界框的宽度和高度来估计距离是困难的。IPM通常对于接近或严格在相机前面的对象表现良好，而它通常预测远离相机的对象的不正确的距离，例如城市环境示例中的骑自行车的人，高速公路和弯曲道路图像上的毛皮车。然而，我们的两个模型都可以预测这些物体的更准确的另一个具有挑战性的情况是预测弯曲道路上物体的距离。IPM在车辆转弯时失效，而我们的模型可以成功地处理它们。此外，我们的增强模型预测一个更精确的对象特定的距离，更少的时间。我们的模型（vgg16）的平均推理时间为16。2ms/图像，比SVR（12. 1ms），但速度是IPM（33. 9ms）。δ<1。25δ<1。252δ<1。253绝对相对值Squa RelRMSERMSE日志支持向量回归机（SVR）[13]0.3450.5950.8231.49447.74818.9701.494反向透视映射（IPM）[28]0.7010.8980.9540.4971290.509237.6180.451我们的基础模型（res50）0.7820.9270.9640.1780.8434.5010.415车我们的基础模型（vgg16）0.8460.9470.9810.1500.6183.9460.204我们的增强模型（res50）0.7960.9240.9580.1880.8434.1340.256我们的增强模型（vgg16）0.8480.9340.9620.1610.6193.5800.228支持向量回归机（SVR）[13]0.1290.1820.2851.49934.56121.6771.260反向透视映射（IPM）[28]0.6880.9070.9570.340543.223192.1770.348我们的基础模型（res50）0.6490.8960.9660.2471.3154.1660.335行人我们的基础模型（vgg16）0.5780.8610.9600.2891.5174.7240.312我们的增强模型（res50）0.7340.9630.9880.1880.8073.8060.225我们的增强模型（vgg16）0.7470.9580.9870.1830.6543.4390.221支持向量回归机（SVR）[13]0.2260.3930.7011.25131.60520.5441.206反向透视映射（IPM）[28]0.6550.7960.9150.3229.54319.1490.370我们的基础模型（res50）0.7440.9380.9760.1961.0974.9970.309骑车人我们的基础模型（vgg16）0.7400.9420.9790.1930.9124.5150.240我们的增强模型（res50）0.7660.9470.9810.1730.8884.8300.225我们的增强模型（vgg16）0.7680.9470.9740.1880.9294.8910.233支持向量回归机（SVR）[13]0.3790.5660.6761.47290.14324.2491.472反向透视映射（IPM）[28]0.6030.8370.9350.390274.78578.8700.403我们的基础模型（res50）0.5030.7760.9050.3353.0958.7590.502平均我们的基础模型（vgg16）0.5870.8120.9180.3112.3587.2800.351我们的增强模型（res50）0.5500.8340.9370.2712.3638.1660.336我们的增强模型（vgg16）0.6290.8560.9330.2511.8446.8700.314RMSE（米）基本无分类器δ10.482δ2δ 30.692 0.802ARSRRMSE0.658 7.900 9.317RMSE日志0.573基w分类器0.5870.812 0.9180.311 2.3580.351增强的w/o分类器0.4860.738 0.8440.541 5.555 8.7470.512增强w分类器0.6290.856 0.9330.251 1.844 6.8700.3143846GTSVRIPMBMEM(a) 城市环境（b）公路（c）弯道图6：使用我们提出的基础模型（BM）和增强模型（EM）估计距离的示例。我们还提供了地面真实距离（GT），使用IPM和SVR预测的距离进行比较。我们的模型可以成功预测具有挑战性的情况下的距离，例如超过40米或弯曲道路上的物体。表3：基于nuScenes（迷你）数据集的（平均）对象特定距离估计的比较。6. 结论方法俄罗斯对外关系部[13]越高越好δ1δ2δ30.308 0.652 0.833低越好ARSRRMSE RMS13.19718.480 0.846在本文中，我们讨论了重要但具有挑战性的E测井自治环境中特定目标的距离估计问题IPM [28]0.441 0.772 0.8751.498 1979.375 249.849 0.926开车这是第一次尝试利用深度学习技术-分类器的目的是鼓励我们的模型学习类别区分特征，这些特征有助于更好地估计对象的距离。我们在有和没有分类器的情况下训练我们的（vgg16）模型，然后计算验证集中样本的估计距离的误差。在与表1中相同的评价指标下，预测结果性能的提高证明了我们的分类器学习对象距离估计模型nuScenes数据集上的结果在构建的nuScenes（迷你）数据集的训练子集上训练我们提出的模型之后，我们使用表1中的相同测量来计算测试子集中的对象的距离估计误差和准确度（如表3中所报告的我们的增强模型在所有比较对象特定距离估计的方法用于对象特定距离估计的方法我们引入了一个基础模型来直接预测给定RGB图像和对象边界框的距离（以米为单位）。此外，我们设计了一个增强的模型与关键点投影约束的更精确的估计，特别是对接近相机的对象。我们在从KITTI和nuScenes（mini）扩展的新构建的数据集上训练了我们的模型，并为RGB图像中的每个对象提供了地面真值距离。实验结果表明，我们的基本模型是能够预测的距离与替代方法IPM和SVR的优越性能，而我们的增强模型获得了最好的性能，所有比较的方法。7. 确认作者要高度感谢来自XMotors.ai的研究团队为这个拟议的研究方向带来灵感所做的贡献我们感谢Dr.Husam Abu-haimed及Dr.谷俊立为启动这项研究工作提供了宝贵的投入。我们也特别感谢博士。Husam Abu-haimed博士顾俊丽博士付冬冬博士及李博士。感谢连国钦在答辩期间的精辟论述和评论。基础模型（res50）0.310 0.621 0.8460.466 7.59315.703 0.492基础型号（vgg16）0.393 0.697 0.9140.404 5.59212.762 0.420增强模型（res50）0.367 0.683 0.8770.340 5.12614.139 0.433增强型号（vgg16）0.535 0.863 0.9590.270 3.04610.511 0.3133847引用[1] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuscenes：用于自动驾驶的多模态数据集。arXiv预印本arXiv：1903.11027，2019。[2] Yu-Tao Cao ， Jian-Ming Wang ， Yu-Kuan Sun ， andXiao-Jie Duan. 基于圆标记的距离测量，一个摄像头软件工程讲义，1（4）：376，2013。[3] Jiaxin Chen，Jie Qin，Li Liu，Fan Zhu，Fumin Shen，Jin Xie，and Ling Shao.深度草图形状散列与分段3d随机查看。在IEEE计算机视觉和模式识别会议上，2019年6月。[4] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割在IEEE计算机视觉和模式识别会议集，第4013-4022页[5] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集，第1907-1915页，2017年。[6] 戴国贤、谢进、范铸、方毅。基于草图的三维形状检索的深度相关度量学习。2017年第31届AAAI人工智能会议。[7] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度神经信息处理系统的进展，第2366-2374页，2014年[8] Yifei Feng，Xiaobo Lu，Xuehui Wu，and Min Cai.一种新的偏转角图像距离检测算法。2016年第二届IEEE计算机与通信国际会议（ICCC），第746-750页。IEEE，2016.[9] Ravi Garg ，Vijay Kumar BG ，Gustavo Carneiro ，andIan Reid.用于单视图深度估计的无监督CNN：几何学拯救了我们。在欧洲计算机视觉会议上，第740-756页。施普林格，2016年。[10] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。[11] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[12] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[13] Fat i hGoükc e、GoüktuürkUücoluk、ErolSahin和SinanKalkan。微型无人机的视觉检测与距离估计。传感器，15（9）：23805[14] MuhammadAbdulHaseeb，JiannyuGuan，DanijelaRistic′-Durrant和Ax elGr aéser。Disnet：一种从单目相机估计距离的新方法在第十届智能车辆规划、感知和导航研讨会上，2018 IEEE/RSJ智能机器人与系统国际会议（IROS）。[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[16] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集，第3588-3597页，2018年[17] Shu Kong和Charless C Fowlkes。用于实例分组的循环像素嵌入在IEEE计算机视觉和模式识别会议论文集，第9018-9028页[18] Fayao Liu，Chunhua Shen，and Guosheng Lin.用于从单个图像进行深度估计的深度卷积神经场。在IEEE计算机视觉和模式识别会议论文集，第5162-5170页[19] Fayao Liu，Chunhua Shen，Guosheng Lin，and Ian Reid.使用深度卷积神经场从单目图像学习深度。IEEEtransactionsonpatternanalysisandmachineintelligence，38（10）：2024[20] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[21] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS-W，2017年。[22] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别集，第779-788页[23] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好，更快，更强。在IEEE计算机视觉和模式识别会议论文集，第7263-7271页[24] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年[25] Mahdi Rezaei，Mutsuhiro Terauchi，and Reinhard Klette.强光照条件下的车辆检测和距离估计IEEE transactionson intelligent transportation systems，16（5）：2723[26] A罗伯茨，威尔N布朗，克里斯托弗霍利特。基于单摄像机精确标记的距离测量在2015年新西兰图像和视觉计算国际会议上，第1-6页IEEE，2015年。[27] 亚历克斯·泰克曼和塞巴斯蒂安·特伦自动驾驶及其他领域的实际物体《先进机器人及其社会影响》，第35-38页。IEEE，2011年。[28] S Tuohy，D O'Cualain，E Jones和M Glavin。汽车环境中的距离确定3848opencv中的透视图映射。在IET爱尔兰信号和系统会议（ISSC 2010），第100IET，2010年。[29] Masaru Yoshioka，Naoki Suganuma，Keisuke Yoneda，and Mohammad A

下载后可阅读完整内容，剩余1页未读，立即下载