3D对象检测改进的PointRCNN及在自动驾驶中的应用-2022

86 浏览量更新于2023-12-09 1 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

认知机器人2（2022）242使用改进的PointRCNN进行3D对象检测Kazuki Fukitani，Ishiyama Shin，Huimin Lu，Shuo YangShuo，TohruKamiya，Yoshihisa Nakatoh，Seiichi Serikawa日本福冈九州工业大学工学部ABsTRA cT近来，二维物体检测（2D物体检测）已经被引入到诸如建筑物外部诊断、犯罪预防和监视以及医疗领域的许多应用中。然而，距离（深度）信息是不够的室内机器人导航，机器人抓取，自主运行，等等，与传统的目标检测。因此，为了提高3D对象检测的准确性，本文提出了一种改进的Point RCNN，这是一种使用RPN的基于分割的方法，并且在自动驾驶识别任务中常用的KITTI数据集上的3D检测基准测试中表现良好。建议的改进是在生成3D box候选的第一阶段改进网络，以解决频繁误报的问题。具体来说，我们在pointnet++的网络中添加了一个Squeeze和EX citation（SE）Block，它在第一阶段执行特征提取，并将激活函数从我是Mish。在KITTI数据集上进行了EX实验，该数据集通常用于自动驾驶研究，并使用AP进行所提出的方法优于传统的方法的百分之几的所有三个困难的水平。1. 介绍最近，二维物体检测（2D物体检测）已经被引入到各种应用中，例如建筑物外部诊断、犯罪预防和监视以及医疗应用[1]。然而，2D对象检测对于诸如自动驾驶的一些应用是不足够的。这就是距离（深度）信息。例如，二维物体检测，如图1.1的左图所示，虽然它可以识别出在图像中有一辆车在它前面。因此，也考虑到对象的深度信息的3D对象检测（3D对象检测）已经出现。 3D物体检测是预测物体在三维空间中的位置信息（三维矩形物体的位置、大小和角度）的任务。与二维物体检测相比，三维物体检测对于室内机器人导航、机器人抓取和自主运行等许多任务都是必不可少的。特别是，自动驾驶中的安全导航需要准确检测道路上的车辆、行人、自行车和其他物体。更准确的物体检测使我们能够确定我们的车将如何移动此外，即使在物体重叠的情况下，系统也必须能够准确地检测物体拥挤在一起，如车辆，行人，自行车和道路上的其他物体用于自动驾驶，分散的零件用于机器人抓取。有一种基于分割的方法用于使用区域建议网络（RPN）的3D对象检测，该方法适用于具有重叠对象或密集对象的复杂场景。[3]这就是为什么我们专注于使用RPN的基于分割的方法。因此，在本文中，我们实验性地使用了PointRCNN，这是一种使用RPN的基于分割的方法，在KITTI数据集上的3D检测基准通常用于自动驾驶中的识别任务，以实现高度准确的三维物体检测。∗ 通讯作者。电子邮件地址：dlmz1shuoy@gmail.com（新加坡）Yang）。https://doi.org/10.1016/j.cogr.2022.12.001接收日期：2022年9月13日;接收日期：2022年12月5日;接受日期：2022年12月6日2022年12月10日在线提供2667-2413/© 2022作者。Elsevier B. V.代表KeAi Communications Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表认知机器人期刊首页：http://www.keaipublishing.com/en/journals/cognitive-robotics/K.深谷岛申，H. Lu等人认知机器人2（2022）242243图一点一 2D（左）和3D（右）对象检测。图2.1. PointRCNN架构[17].2. 相关作品与图像中的对象检测类似[4]，3D对象检测方法可以分为两大类：基于区域建议网络（RPN）的方法和单次拍摄方法。[3]在下文中，描述了每个类别的具体方法。2.1. RPN方法首先，生成可能包含对象的多个区域（也称为提案），然后从每个区域提取特征以确定每个提案的类别标签。根据生成建议书所使用的方法，分为三类：基于多视图、基于分割和基于截头体。2.1.1. 基于多视图的方法如图2.1所示，来自不同视图地图的每个建议的特征（例如，融合LiDAR前视图、鸟瞰这些方法通常在计算上是昂贵的。Chen等人[5]从BEV（鸟瞰图）地图生成了一组高度准确的3D候选体然后，如图2.1（a）所示，我们结合这些不同视点的区域特定特征来预测方向性3D边界框。该方法在300个建议的情况下达到了99.1%的召回率，IoU（Intersection over Union）为0.25，但速度太慢，不适合实际使用。随后，已经开发了两种方法来改进基于多视图的3D对象检测方法，但是这里省略它们2.1.2. 基于分割的方法首先，我们利用现有的语义分割技术去除大部分背景点，然后，如图2.1（b）所示，我们为前景点生成大量高质量的建议，以节省计算。与基于多视图的方法[4]相比，该方法实现了更高的召回率，并且适用于具有遮挡的复杂场景（即，前景中的对象隐藏背景中的对象）和密集对象。Yang等人[6]使用2D分割预测前景像素K.深谷岛申，H. Lu等人认知机器人2（2022）242244网络，并将它们投影到点云上，以删除大多数背景点。然后，他们设计了一个名为PointsIoU的新标准，为预测的前景点生成建议，并减少建议的冗余和模糊性2.1.3. 截头体法首先利用已有的二维目标检测器生成目标的二维候选区域，然后对每个候选区域提取三维金字塔候选区域。虽然该方法可以高效地生成3D目标位置候选，但由于分步流水线，性能受到2D图像检测器的限制F-PointNets[7]是这方面的先驱。对于每个二维区域，生成圆锥候选区域，应用PointNet[8]（或PointNet++[9]）学习每个三维圆锥的点云特征，并进行3DBOX估计。2.2. 单次激发方法使用一级网络，直接预测类别概率，并回归3D边界框。与第2.1节中描述的基于RPN的方法一样，它不需要生成建议或后处理。因此，该方法更快。根据输入数据的类型，这些方法分为三类：基于BEV的，基于离散化的和基于点的。2.2.1. 基于多视图的方法该方法主要以BEV作为输入; Yang等人[10]用等距单元离散场景的点云，以类似的方式对反射进行编码，从而得到规则的表示。然后应用全卷积网络（FCN）网络来估计对象的位置和方位角。该方法优于大多数单次激发方法（例如，VeloFCN[11]，3D-FCN[12]，Vote 3Deep[13]），同时以28.6 fps运行2.2.2. 离散化方法它将点云转换为规则的离散表示，并应用CNN来预测对象类别和3D边界框。Li等人[14]提出了第一种使用FCN进行3D对象检测的方法。他们将点云转换为2D点云映射并使用2D FCN来预测对象的边界框X和置信水平。随后，他们[15]将点云分解为具有长度，宽度，高度和通道尺寸的四维张量，并将基于2D FCN的检测技术扩展到三维域，以实现三维物体检测。3D FCN方法[15]实现了与[14]相比，精度提高了20%以上，但由于数据的3D卷积和稀疏性，需要大量的计算时间。2.2.3. 基于点的方法该方法将原始点云作为直接输入。3DSSD[16]是这方面的先驱工作。该方法引入了距离FPS（D-FPS）和特征FPS（F-FPS）的融合采样策略，并删除了耗时的特征传播（FP）层和[133]的细化模块。然后使用候选生成（CG）层来充分利用代表点，其被进一步馈送到使用3D中心度标签的无锚回归头以预测3D边界框X。3. PointRCNN3.1. 通过点云分割自下而上生成建议二维物体检测方法可以分为一阶段和两阶段方法。单阶段方法通常快速但直接地估计对象的边界BOX，而无需任何细化，而两阶段方法首先估计可能包含对象的多个区域（也称为建议），并且在第二阶段中进一步细化边界BOX。然而，由于3D搜索空间巨大且格式不规则，两阶段方法从2D到3D的直接扩展并不明显的点云。因此，Shi[17]等人提出了一种准确且鲁棒的3D边界框候选生成算法，阶段1的子网络，基于整个场景中的点云的分割。他们发现，3D场景中的物体是自然分离的，而不会相互重叠。所有3D对象的分割掩模可以通过注释直接获得他们的3D边界框。也就是说，3D长方体中的3D点被认为是前景点。因此，他们提出了一种自下而上的方法来生成3D提案。具体来说，系统会逐点学习几何图形，以便分割原始数据。在学习特征之后，原始点云被分割，并且3D提案被同时生成。从分割的前景点生成。（分割前景点允许网络获取语义信息，并促进提案的生成，从而可以同时执行这两项任务3.1.1. 学习点云表示PointNet++[9]被用作骨干网络来学习区分点特征以描述原始点云。K.深谷岛申，H. Lu等人认知机器人2（2022）242245��1 − ��否则��你好，你好��∈��3.1.2. 前景点分割为了预测相关对象的位置和方向，可以从前景点获得必要的信息。通过分割和训练前景点，点云网络可以获得精确的逐点预测信息，这也有利于生成3D边界体。因此，我们直接从前景点生成3D提案。换句话说，我们同时执行前景点的分割和3D边界框的生成。给定由点云网络编码（编码）的逐点特征，我们添加一个用于估计前期掩码的分割头和一个用于生成3D建议的BOX回归头。对于点云分割，我们从3D真值块获得真值分割掩模。一般来说，前景点的数目远低于背景点的数目点在一个大的户外场景。因此，为了处理类不平衡的问题，我们使用焦点损失[18]并将其表示为如下所示：��（（3.1）在训练过程中，点云的分割保留在原始论文的默认设置中，即，λ=0.25和λ=2。3.1.3. 基于面元的三维包围盒生成如上所述，添加BOX回归头以使用前景点的分割和自底向上方法来生成3D建议。在训练期间，BOX回归头仅从前景点回归3D边界box的位置。尽管框X不是从背景点回归的。这些点为生成因为它们是点云网络中的接收场。在LiDAR坐标系中，3D边界框X由（，）表示，其中（，，）是对象中心位置，（，，）是对象大小，并且是从鸟瞰视图的对象方向。��为了约束生成的3D建议，我们使用基于bin的回归损失来估计对象。如图3.2所示，每个前景点周围的区域沿着X和Z轴被分成一系列离散的仓，以估计对象的中心位置。具体地，针对当前前景点的每个X轴和Z轴定义搜索范围S，并且每个1D搜索范围被划分为均匀长度的bin以表示X-Z平面中的不同对象中心（bin，bin）。代替具有平滑L1损失的直接回归，使用具有X和Z轴交叉熵损失的基于bin的分类来获得更准确和鲁棒的中心定位。X轴或Z轴局部化损失由两项组成，一项用于沿X轴和Z轴的箱分类，另一项用于分类箱内的残差回归。对于沿垂直Y轴的中心位置y，我们在回归中直接使用平滑L1损失，因为大多数对象的y值在非常小的范围内。为了获得准确的y值，使用L1损失就足够了因此，本地化目标可以表述如下：��（��）=[��−��（��）+��]，��（��）=[��−��（��）+��]，��（��）=1（��−��（��）+��−��（��）. （1），n��（1），n（2）��(��)=��−��(��)其中，（（），（��），（��））是感兴趣的前景点的坐标，（（），（）��，（）��）是相应对象的中心坐标，（）和（）是沿X和Z轴的地面真值箱的分配，（）和（）是地面真值箱的残差��真值，以进一步细化分配的bin内的位置，C是用于归一化的bin的长度。方位和大小（θ，θ，θ）的估计目标与[19]中相同。将方向2θ划分为n个箱，并且如在θ和θ的预测中那样计算箱分类目标θ θ（θ）和残差回归目标θ θ（θ）。对象θsize（）（（）θ（）（10））中每个类的平均对象大小，��通过计算残差直接回归，��整个训练集。在推断阶段，对于基于面元的预测参数，我们首先选择具有最高预测置信度的面元中心，并通过添加预测残差参数来细化它们。��对于其他直接回归的参数，如λ，��并且，我们将预测残差添加到它们的初始值。使用不同的损失项进行学习，3D边界框回归的总损失矩阵可以公式化如下��（（（（）（））+（（），（）），（）=∑��（第3.3条）�� =1个��∈{��∑（（）+（））��其中，pxpos是前景点的数量，pxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxpxp��p，（p）（）��其中，L1和L2是如上计算的基础值，L3表示交叉熵分类损失，L3表示平滑L1损失。��为了消除冗余的3D边界框，执行基于来自鸟瞰视图的方向IoU的非最大值抑制（NMS）0.85的阈值为鸟瞰view IoU用于训练，留下NMS之后的前300个节点用于训练第二级子网。对于推理，我们使用定向NMS，IoU阈值设置为0.8，并保留前100个框以改进第二阶段的子网络��∈{��K.深谷岛申，H. Lu等人认知机器人2（2022）242246图3.第三章。使用PointRCNN的对象检测，基于bin的位置估计的说明[17]。3.2. 基于正则变换的三维包围盒精化在获得3D建议后，目标是基于先前生成的3D建议来细化BOX3.2.1. 基于面元的三维包围盒生成为了了解每个3D提案的更多特定局部特征，我们将3D点和相应的点特征从第一阶段根据每个盒的位置。对于每个3D提案，我们将其稍微放大，以创建一个新的box =（x，x��编码来自上下文的附加信息。在这种情况下，x是一个常数值，用于放大X的大小。��对于每个点p=（n（n），n（n），n（n）），执行内部/外部测试以确定点p是否在扩展的3D提议��好吧如果是，则该点及其特征被保留以用于框的细化。�� 与内部点p相关联的特征是它��的3D点坐标（��（��），��（��），��（��））∈��3，激光反射强度��（��）∈ R，在第一阶段中预测的分割掩模��（��）∈ {0，1}，C维学习点特征表示��（��）∈��。为了在放大的BOX图中区分预测的前景和背景点，我们包括分割掩码m（p）。��通过学习，学习到的点特征也包含有价值的信息，用于分割和建议生成。��没有这些内部点的提案将在下一阶段被删除K.深谷岛申，H. Lu等人认知机器人2（2022）242247√��4Δ��4Δ��2‖��∈��‖ ��‖��∈��3.2.2. 正则变换使用在第一阶段获得的具有高召回率的建议，属于每个建议的汇集点被转换到相应的3D建议的规范坐标系，以便仅估计参数的残差。如图3.3所示，一个3D方案的规范坐标系为：a) 原点位于方案的中心b) 局部Xc) Y建议的所有汇集点的坐标p需要通过适当的旋转和平移转换为规范坐标系通过使用正则坐标系，可以学习更好的局部空间特征，在BOX调整阶段的每个建议。3.2.3. 用于框建议细化的如第3.2节所述，BOX平差子网络将变换后的局部空间点（要素）��第一阶段和它们的全局语义特征，用于进一步的BOX和置信度调整。��虽然正则变换允许对局部空间特征进行鲁棒学习，但它不可避免地丢失了每个对象的深度信息。例如，由于LiDAR传感器的角扫描分辨率是恒定的，所以远处的物体通常具有比附近的人少得多为了补偿这种丢失的深度信息，到传感器的距离，即��（��点p的特征值中包含（（））2+（（））2+（（））2对于每个提议，首先将其关联点的局部空间特征sp和extr a特征s[��（��），��（��），��（��）]连接起来并给予一些完全连接的层，这些层将局部特征编码为与整体特征（）相同的维度��。下一个是根据[9]中的结构，局部和全局特征被级联并馈送到网络，以获得用于下一个置信度分类和BOX微调的判别特征向量。3.2.4. B.装箱建议书整修相同的基于bin的回归损失用于细化提案。当3D IoU大于0.55时，将真值框X分配给3D建议，用于训练框X的细化。 3D建议和对应的3D真值体都被变换到规范坐标系。也就是说，3D建议值x=（x，y）和3D真值x =（x，y）。��= (��−��,�� − ,�� −�� ,ℎ��, �� , �� ,�� − �� ) are, transformed into the following:��̃��=(0,0,0,ℎ��,��, �� ,0),��̃��=(��− ,�� − �� ,�� − �� , ℎ , �� , �� , �� −)(3.4)��第i个建议的中心位置的学习目标（�� 、�� 、�� 、�� 、�� ）的设置方式与Eq. (3.2) 除了用较小的搜索范围S来缩小Δe��3DpΔr��oposΔa��l的位置。Δ efo��l owΔin��g表显示了分析结果。此外，由于池化稀疏点通常不能提供关于建议大小（大小，长度，长度）的足够信息，��（��，��，��）直接回归到训练集中每个类别的平均对象大小。ΔℎΔ��Δ��对于方向调整，我们假设提案的方向与其真实值boX之间的角度差Δ θ −Δθ在[−θ，θ]范围内，因为提案与其真实值boX之间的三维IoU至少为0.55。��然后，我们将m/2划分为4个仓大小为m的离散仓4，并基于仓如下预测定向目标值[��-+]��=2（−+−（�� （+））因此，第二级子网络的总损耗可以用公式表示如下：��=1‖∑（，��）+1∑（）��（3.6）其中，是来自第一阶段的3D建议集，是用于存储回归的正建议的3D建议集，是估计的置信度，其中，置信��度是对应的标签，置信度是监督预测置信度的交叉熵损失，��类似于��（��）和��（��）的等式。（3）与上文所述的由联合国开发计划��署和��联合国开发计划署计算的新目标一致。最后，具有鸟瞰图IoU阈值为0.01的定向NMS4. 拟议方法在本章中，我们描述了PointRCNN的问题，第3章中描述的先前研究，以及SE（Squeeze and EX citation）Block[7]和用于改进它的激活函数MishΔ��=��（3.5）K.深谷岛申，H. Lu等人认知机器人2（2022）2422484.1. 关于PointRCNN首先，PointRCNN是一种两阶段方法，如第3章所述，其中在第一阶段生成可能包含对象的多个3D区域（也称为建议），并在第二阶段中细化3D边界框X（修改位置和方向）。第二阶段。当我们实现这种方法进行对象检测时，如图4.1所示，我们发现当背景中没有任何东西时，对象经常被错误地检测为对象，即，背景未被检测为对象。这被认为是由于第一阶段的特征提取较差。因此，我们建议改进pointnet++[9]的网络，它在第一阶段执行特征提取。为了改进网络，我们使用SE（Squeeze and EX citation）Block和Mish激活函数。4.2. SE（挤压和激励）阻滞[20]通常，在CNN的卷积层中，在输入通道进行卷积之后，它们都相等地输出到通道。相比之下，SE Block并不相等地输出卷积层的每个通道，而是自适应地对它们进行加权。以这种方式，可以提高识别特征添加此块不会增加超过1%的计算复杂度，并且可以适用于各种现有模型（任何CNN模型）。以下数字说明详情。顾名思义，SE块可以用三个步骤来解释：Squeeze和EX引用，然后将Squeeze和EX引用的输出相乘。4.2.1. 挤压全局平均池用于计算维度为1 × 1X C的特征。换句话说，特征的数量变窄了下（��图） 4.2）。4.2.2. 激发瓶颈机制计算有效通道的权重。（图��中）（第4.2段）• 通过应用完整的串联层将挤压层的输出压缩为C/r维向量（r为超参数）。• 在应用ReLU之后，它再次应用于所有耦合层，并转换回C维向量。• 上述C维向量经过sigmoid并转换为0和1之间的权重4.2.3. 将SE块的输出C维向量乘以输入特征张量的每个通道（��图1）。（第4.2段）PointRCNN还使用pointnet++作为其骨干网络。Pointnet++是Pointnet的改进版本，它将先前聚类的邻域点输入到PointNet。换句话说，要改进pointnet++的网络，我们可以改变pointnet的网络。在pointnet网络的mlp（Multi-layer perceptron）中加入SE模块（图4.6）4.3. 米什[19]在当前的深度神经网络中，ReLU通常用作隐藏（中间）层的激活函数。然而，除了ReLU之外，还设计了各种替代激活函数。Mish函数是2019年提出的激活函数，在CIFAR 100等几个基准测试中，它的得分一直高于使用ReLU的网络米什函数是一个函数，当函数的输入值小于或等于零时，其输出值几乎为零，并且当输入值大于时，其输出值几乎与输入值相同（最大值为∞），零. 该方程表示如下：��（��(��)=��(1 +��)从图4.7（左）的图表中可以看出，该曲线与ReLU的曲线相似，除了它是连续的，平滑的和非单调的。此外，曲线通过（0，0）作为基点，但它是平滑的，因此它首先向下侧（躁狂侧）凸出一点。由于此功能，当ReLU中的输入为负时，权重参数不会更新，因为导数为零，而在Mish中，即使输入为负，导数也不为零，因此可以更新权重参数。Mish的导数如图所示。 4.7（右）和变化比ReLU更平滑。由于这个特性，ReLU在微分之后是不连续的，这可能会在使用梯度的优化方法中导致意想不到的问题，而Mish在∞阶导数之前是连续的，这不是问题。出于这些原因，我们将PointRCNN的激活函数从ReLU更改为Mish。5. 实验在本章中，将第4章中描述的SE（Squeeze and EX citation）Block和Mish函数添加并修改到PointRCNN中，并进行对照实验。K.深谷岛申，H. Lu等人认知机器人2（2022）242249见图4。KITTI数据集[20]，挤压和EX引用块[18]，EX将SE块添加到残差块的样本。pointnet++架构[9]，pointnet架构[8]，pointnet的mlp组件，Mish函数的图形（左），Mish函数的导数的图形（右）。K.深谷岛申，H. Lu等人认知机器人2（2022）242250见图4。继续5.1. 实验环境实验环境如表5.1所示。5.2. 数据集在这个实验中，我们使用KITTI数据集[20]进行对照实验。KITTI数据集由汽车周围的所有场景组成，如图5.1所示。我们使用了3712个训练数据和3769个测试数据。数据集根据要检测的对象的重叠程度，将其分为三个难度级别（容易、中等和困难）5.3. 评价指标本节描述了用于评估本文提出的方法的对象检测性能的度量。作为评估指标，我们采用AP（平均精度），这是一个常用的指标，用于对象检测，也用于K.深谷岛申，H. Lu等人认知机器人2（2022）242251表5.1实验环境。OSUbuntu 20.04 LTSCPU英特尔®酷睿TMi7- 11700@2.50GHzRAM31.2 [GB]GPUNVIDIA GeForce RTX 3080VRAM10 [GB]表5.2TP，FP，FN，TN.积极负积极真阳性（TP）假阳性（FP）负真阴性（TN）假阴性（FN）KITTI基准。在描述AP之前，我们先解释IoU（Intersection over Union）、TP（True Positive）、FP（False Positive）、FN（FN（假阴性），TN（真阴性），精确度和召回。以下是必要的。因此，以下是一个逐步的解释。5.3.1. 激发在解释AP之前，我们首先解释IoU（Intersection over Union）。IoU是评价框重叠程度的指标，名叫杰卡德·科切奇。其计算方法如下：（5.1）IoU是一个指标，正确答案的方框和预测的方框重叠越多，IoU就越好。它取1到0之间的值，如果它们完全重叠，则取1，如果它们完全不重叠，则取0。在本实验中，我们将IoU设置为True如果自动机的IoU≥0.7，其他情况下为False。5.3.2. TP，FP，FN，TN [25]假设预测边界BoX（预测边界BoX）是预测BoX，并且地面实况边界BoX（地面实况边界BoX）是正确BoX，则在对象检测的情况下的TP、FP、FN和TN如下。表5.2为结果的表格表示• TP：预测的BBoX与许多正确的BBo x相关，并与IoU≥ 0.7重叠（检测时• FP：预测的BBoX与任何正确的BBo x相关，与IoU 0.7重叠不足（检测到但错误）• FN：正确答案BBoX与任何预测的BBoX无关（未检测到但错误）• TN：真阴性（TN）未被定义，因为存在无数可能的情况，其中未检测到非阳性BBoX（即，未检测到是正确的）。5.3.3. [21]第二十一话精确度（拟合优度）是指在IoU大于0.7的情况下正确预测的所有预测（所有预测边界框，而不仅仅是IoU）的百分比，以及实际存在汽车（TP）的预测部分（TP + FP）的百分比的预测部分（TP + FP），其中汽车实际存在。复制率）是边界框中被预测为接近实际正确结果（地面实况边界BoX），IoU为0.7或更大，即，模型识别实际正确结果（TP + FN）的程度。它也由以下等式表示精度=��为正确（IoU≥ 0.7）检测（5.2）电子邮件��回忆=��所有预测BBoX=所有预测BBoX的数量所有正确BBoX的K.深谷岛申，H. Lu等人认知机器人2（2022）242252��1个��1个��图五. 改进EX样品。5.3.4. 美联社[25]AP（平均精度）是表示当m个标签正确时，模型能够从m个标签中检测到多少个标签的平均值标签出现。它也被称为平均精度，可以如下获得AP = 1∑[_��_]�� = 1∑（5.4）��其中N是在时间j由模型正确识别的正确标签（对象）的总数。__是在时间j出现的那些标签（对象）中正确识别的正确标签（对象）的数量。是在时间j出现的正确识别的标签（对象）的数量。��5.4. 评价指标在这个实验中，使用KITTI数据集，我们提出了传统的方法，提出的方法1将SE Block添加到网络中，提出的方法2将激活函数从ReLU更改为Mish，以及提出的方法3添加SE Block并将激活函数更改为Mish。方案3被用作方法3，并且在对照实验中测试了四种在第一阶段，用于基于面元的3D候选体生成的超参数设置如下：尺寸n= 0.5 m，以及方位面元的数量n = 12。在基于面元的3D候选块细化的第二阶段中，我们将搜索区域设置为S = 1.5 m，定位面元大小设置为θ= 0.5 m，方向面元大小为θ= 10°，点云池化上下文长度为θ= 1.0 m。上述参数的取值与原论文中的相同。K.深谷岛申，H. Lu等人认知机器人2（2022）242253图五. 继续表5.3实验结果。AP[%]容易中度硬运行时间[s]常规方法82.2974.6174.460,1999建议方法185.30（+3.01）75.95（+1.34）75.76（+1.30）0.2011建议方法284.83（+2.54）76.24（+1.63）76.39（+1.93）0.2039建议方法386.63（+4.34）77.07（+2.46）76.83（+2.37）0.2094传统PointRCNN的两个阶段的子网络分别训练。第一阶段的子网络训练了200个epoch，批量大小为8，学习率为0.002。第二阶段的子网络训练70epoch，批量大小为4，学习率为0.002。5.5. 实验结果按照第5.4节所述进行了EX实验，并使用AP进行了准确度比较。实验结果见表5.3。表5.3表明，所有提出的方法都提高了所有三个标准的准确性特别地，作为所提出的方法1和2的组合的所提出的方法3在所有标准中具有最高的准确度虽然执行时间K.深谷岛申，H. Lu等人认知机器人2（2022）242254与传统方法相比，所提出的每一种方法的时间都增加了几毫秒，一样的图图5.2、5.3和5.4显示了图像改进的示例。这里，绿色边界框是真值，红色边界框是推断结果。5.6. 考试表5.2显示，所有提出的方法都提高了所有三个标准的准确性：容易，中等和困难。以下是对每种方法的讨论。所提出的方法1的准确性提高的原因被认为是由于考虑到通道之间的关系的挤压和EX引用（SE）块的加权而减少了假阳性和不可检测的情况。此外，由于SE块的特性，该块的添加仅使计算复杂度增加约1%，执行时间与传统方法几乎相同，仅增加+0.0012秒。所提出的方法2的准确性提高的原因被认为是Mish的特征比ReLU更平滑地变化，学习进行得很好，并且误报和不可检测的数量减少。在所提出的方法2中，运行时间几乎与传统方法相同，仅增加了+0.004秒。所提出的方法3在所有三个标准中具有最高的准确性。由于所提出的方法3是所提出的方法1和2的组合，因此可以将提高每个方法的精度的因素视为提高所提出的方法3的精度的因素。换句话说，考虑SE块的通道与比ReLU更平滑地改变的Mish的特征之间的关系的加权被认为，这导致更好的学习和更少的误报和遗漏，这反过来又提高了所提出的方法3的准确性。所提出的方法3在执行时间上也几乎没有变化，与传统方法相比仅增加了+0.0095秒6. 结论本文对基于点云的3D目标检测方法Point RCNN进行了改进，以提高检测精度3D物体检测所提出的方法是在第一阶段改进网络，该阶段生成3D box的候选者以解决频繁误报的问题。具体来说，我们将Squeeze和EX citation（SE）Block添加到pointnet++的网络中，在第一阶段执行特征提取，并将激活函数从ReLU更改为Mish。实验结果表明，所有提出的方法在三个难度水平上都比传统方法高出几个百分点（AP是作为评价指标）。其中，SE Block的加入与激活功能的改变相结合， Mish在准确性方面表现出最好的改进。此外，与传统方法相比，执行时间仅增加了几毫秒，并且几乎保持不变。确认本论文得到了国家自然科学基金No.62206237、日本植物卫生研究所No.22K12093和日本植物卫生研究所No.22K12093的部分资助。22K12094引用[1] https://products.sint.co.jp/aisia-ad/blog/image-recognition-ai-front-line网站。[2] https://hktech.hatenablog.com/entry/2018/12/17/232439网站。[3] Y. Guo，H.王，英-地Hu，H.柳湖，加-地Liu，M.Bennamoun，3D点云深度学习：一项调查，IEEE TPAMI（2019）。[4] L. Liu，W.欧阳X. Wang，P. Fieguth，J. Chen，X. Liu，M. Pietikainen，Deep learning for generic object detection：a survey，IJCV（2020）。[5] X. Chen，H.妈，J。万湾，澳-地Li，T.Xia，用于自动驾驶的多视图3D物体检测网络，CVPR，2017。[6] Z. Yang，Y.孙习Liu，X.Shen和J. Jia，“IPOD：Intensivepoint-based objectdetector for point cloud”，arXiv预印本arXiv：1812.05276，2018。[7] C.R.齐，W. Liu，C. Wu，H. Su，L. J. Guibas，从RGB-D数据中进行3D对象检测的Frustum PointNets，CVPR，2018年。[8] C.R. Qi，H.Su，K.Mo，L.J.Guibas，PointNet：3D分类和分割点集的深度学习，CVPR，2017。[9] C.R. 齐湖，加-地Yi，H.Su，L.J.Guibas，PointNet++：度量空间中点集的深度层次特征学习，NeurIPS，2017。[10] B. 杨，W.洛河，巴西-地Urtasun，PIXOR：从点云进行实时3D对象检测，

下载后可阅读完整内容，剩余1页未读，立即下载