高斯YOLOv3：自动驾驶目标检测与定位不确定性建模的高精度快速算法

194 浏览量更新于2023-10-13 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

502高斯YOLOv3：基于定位不确定性的自动驾驶快速准确目标检测器Jiwoong Choi1、Daywei Chun1、Hyun Kim2和Hyuk-Jae Lee11首尔国立大学2首尔国立科技大学{jwchoi，jjeonda}@ capp.snu.ac.kr，hyunkim@seoultech.ac.kr，hjlee@capp.snu.ac.kr摘要目标检测算法的使用在自动驾驶车辆中变得越来越重要，并且高精度和快速推理速度的目标检测对于安全自动驾驶是必不可少的。在自动驾驶期间，来自错误定位的假阳性（FP）可能导致致命事故并阻碍安全和有效的驾驶。因此，在自动驾驶应用中需要本文提出了一种提高检测精度，同时支持实时操作的方法，建模的边界框（bbox）YOLOv3，这是最具代表性的一级检测器，高斯参数和重新设计的损失函数。此外，本文提出了一种预测的本地化不确定性，表明bbox的可靠性的方法通过在检测过程中使用预测的定位不确定性，所提出的方案可以显着降低FP和增加真阳性（TP），从而提高精度。与传统的YOLOv3相比，所提出的算法高斯YOLOv3在KITTI和Berkeley deep drive（BDD）数据集上分别将平均精度（mAP）提高尽管如此，该算法能够以超过42帧每秒（fps）的速度进行实时检测，并且比具有类似fps的先前方法具有更高的准确性。因此，该算法最适合自动驾驶应用。1. 介绍近年来，深度学习已被积极应用于各个领域，包括计算机视觉[9]，自动驾驶[5]和社交网络服务[15]。传感器和GPU以及深度学习算法的发展加速了基于人工智能的自动驾驶汽车的研究。一种具有自动驾驶功能的自动驾驶车辆，无需驾驶员干预，它必须准确地检测汽车、行人、交通标志、交通信号灯等。以确保安全和正确的控制决策[25]。为了检测这些物体，自动驾驶车辆中通常使用各种传感器，例如相机、光检测和测距（激光雷达）以及无线电检测和测距（雷达）[27]。在这些不同类型的传感器中，相机传感器可以根据纹理和颜色特征准确识别物体类型，并且比其他传感器更具成本效益[24]。特别地，使用相机传感器的基于深度学习的对象检测在自动驾驶车辆中变得更加重要，因为它在对象检测方面实现了比人类更好的准确性水平，因此它已经成为自动驾驶系统中的基本方法[11用于自主车辆的对象检测算法应满足以下两个条件。首先，要求道路对象的高检测精度。其次，实时检测速度对于车辆控制器的快速响应和减少的延迟是必不可少的。基于深度学习的对象检测算法（其在自动驾驶车辆中是不可缺少的）可以分为两类：两级和一级检测器。两级检测器，例如Fast R-CNN [8]、Faster R-CNN [22]和R-FCN [4]进行第一阶段的区域建议生成，然后是第二阶段的对象分类和bbox回归。这些方法一般显示出较高的准确性，但具有检测速度慢和效率较低的缺点。单级检测器，例如，SSD [17]和YOLO [19]同时进行对象分类和bbox回归，而无需区域建议阶段。这些方法一般检测速度快、效率高，但准确度较低。近年来，为了利用这两种方法的优点并补偿它们各自的缺点，结合各种方案的物体检测器已被广泛研究[1，11，29，28，16]。MS-CNN [1]是一种两级检测器，通过对各种中间网络层进行检测来提高检测SINet [11]也是一个两级检测器，可以使用尺度不敏感网络进行快速检测。CFENet [29]是一个单阶段检测器，使用全面的特征增强-503基于 SSD 的检测模块，提高了检测的准确性。Refinedet [28]也是一个单阶段检测器，通过应用锚点细化模块和对象检测模块来提高检测精度。另一个一级检测器RFBNet [16]应用感受野块来提高准确性。但是，使用输入分辨率512× 512或更高，其广泛应用于目标检测算法以实现高精度，先前研究[1，11，29，28]无法满足30 fps以上的实时检测速度，这是自动驾驶应用的先决条件。即使在[16]中实时检测是这表明，这些先前的方案在准确性和检测速度之间的权衡方面是不完整的，并且因此在它们应用于自动驾驶系统方面具有限制。此外，大多数常规的基于深度学习的对象检测算法的最关键问题之一是，尽管bbox坐标（即，bbox坐标）是基于深度学习的对象检测算法的最关键问题之一。定位）是已知的，则Bbox结果的不确定性是未知的。因此，传统的对象检测器不能防止误定位（即，，FP），因为它们输出bbox的确定性结果而没有关于不确定性的信息。在自主驾驶中，FP表示bbox在不是地面实况（GT）的对象上的不正确检测结果，或者bbox在GT上的不准确检测结果，而TP表示bbox在GT上的准确检测结果FP在自动驾驶下非常危险，因为它会导致意外制动等过度反应，这可能会降低驾驶的稳定性和效率，并导致致命事故[18，23]以及在确定准确的物体检测时的混乱。换句话说，预测检测到的bbox的不确定性并将该因素与对象分数和类别分数一起考虑以减少FP并防止自动驾驶事故是极其重要的。出于这个原因，已经进行了关于预测深度学习中的不确定性的各种研究。Kendall等人[12]提出了一种在深度学习中使用贝叶斯神经网络进行不确定性预测的建模方法。Feng等人[6]应用Kendall等提出了一种预测不确定性的方法。’s然而，Kendall等人提出的方法。[12]和Fenget al. [6]仅预测不确定性的水平，在实际应用中不使用此因素。Choi等人[2]提出了一种使用高斯混合模型实时预测不确定性的方法，并将该方法应用于自动驾驶应用。然而，它被应用于转向角，而不是对象检测，并且因此对复杂的分布进行建模，增加了计算复杂度。He等人[10]提出了一种预测不确定性的方法，并将其用于对象去保护然而，由于他们专注于两阶段检测器，他们的方法不能支持实时操作，并且存在bbox重叠问题，因此不适合自动驾驶应用。为了克服先前目标检测研究的问题，本文提出了一种基于YOLOv3 [21]的适用于自动驾驶的新型目标检测算法。YOLOv 3可以通过一次推理检测多个对象，因此其检测速度非常快;此外，通过应用多级检测方法，它可以补充YOLO [19]和YOLOv 2 [20]的低精度。基于这些优势，YOLOv3适用于自动驾驶应用，但通常实现的精度低于两阶段方法。因此，在保持实时对象检测能力的同时提高精度是至关重要的。为了实现这一目标，本文提出了一种通过将YOLOv3的bbox坐标建模为高斯参数（即，均值和方差），并重新设计bbox的损失函数。通过这种高斯建模，可以估计YOLOv3中bbox回归任务此外，为了进一步提高检测精度，提出了一种通过在检测过程中利用bbox的预测定位不确定性来因此，这项研究是第一次尝试在YOLOv3的本地化不确定性建模，并利用这个因素在一个实际的方式。因此，所提出的高斯YOLOv3可以处理自动驾驶应用中的此外，由于所提出的方法仅在YOLOv3检测层的bbox中建模（即，输出层），额外的计算成本可以忽略不计，所提出的算法因此保持了实时检测速度在512× 512的输入分辨率下，尽管在性能上有了显著的改进，但仍能达到42 fps以上相比基线算法（即，，YOLOv3），所提出的高斯YOLOv3在KITTI [7]和BDD [26]数据集上分别将mAP提高了3.09和3.5。此外，在KITTI和BDD数据集上，该算法分别将FP降低了41.40%因此，在准确性和检测速度之间的权衡方面，所提出的算法适用于自动驾驶，因为它显著提高了检测准确性，并解决了误定位问题，同时支持实时操作。2. 背景YOLO [19]通过将图像划分为网格单元来检测对象，而不是两级检测器中使用的区域建议方法YOLO输出图层的要素图为504图像网格一种检测汽车预测框第0方框1 方框2+添加边界框坐标均p0客观性评分P1. . .课成绩*串联预测框(a)（b）第（1）款图1：（a）YOLOv3的网络架构和（b）其预测特征映射的属性被设计为输出bbox坐标、对象性分数和类分数，并且因此YOLO使得能够利用单个推断来检测多个对象。因此，检测速度比常规方法快得多然而，由于网格单元的处理为了解决这些问题，已经提出了YOLOv2[20]。与YOLO相比，YOLOv2通过对卷积层使用批量归一化，并应用锚框，多尺度训练和细粒度特征来提高检测精度。然而，对于小的或密集的对象，检测精度仍然较低。因此，YOLOv2不适合自动驾驶应用，其中对密集的道路对象和交通标志和信号灯等小对象需要高精度为了克服YOLOv2的缺点，已经提出了YOLOv3[21]。 YOLOv3由卷积层组成，如图1a所示，并由深度网络构建，以提高准确性。YOLOv3应用残差跳过连接来解决深度网络的消失梯度问题，并使用上采样和串联方法来保留小对象检测的细粒度特征。最突出的特征是以与特征金字塔网络中使用的类似方式在三个不同尺度下进行检测[13]。这允许YOLOv3检测各种大小的对象。更详细地，当R、G和B三个通道的图像输入到YOLOv3网络中时，如图1a所示，关于对象检测的信息（即，Bbox坐标、对象性分数和类分数）从三个检测层输出。三个检测层的预测结果被组合并使用非最大值抑制进行处理。之后，确定最终检测结果。因为YOLOv3是一个完全卷积的网络，对于像YOLOv2 [20]这样的1×1和3×3小型卷积滤波器，检测速度与YOLO [19]和YOLOv2 [20]一样快。因此，在取舍方面在精度和速度之间，YOLOv3适用于自动驾驶应用，并广泛应用于自动驾驶研究[3]。然而，一般来说，它仍然具有比使用区域提议阶段的两阶段检测器更低的准确度。为了弥补这一缺点，由于YOLOv3的复杂性比两级检测器的复杂性小，因此可以通过将用于提高精度的附加方法应用于YOLOv3来设计用于自动驾驶应用的更有效的检测器[21]。本文提出的YOLOv3的高斯建模和损失函数重建可以通过减少训练过程中噪声数据的影响来提高精度，并预测定位不确定性。此外，通过使用该预测的定位不确定性，可以进一步提高检测精度。上述方面的详细描述在第3节中提供。3. 高斯YOLOv33.1. 高斯建模如图1b所示，YOLOv3 [ 21 ]的预测特征图每个网格有三个预测框，其中每个预测框由bbox坐标组成（即，、tx、ty、tw和th）、对象性分数和类别分数。YOLOv3输出对象（即，对象是否存在于Bbox中）和类（即，对象的类别），作为0和1之间的分数。然后基于这两个值的乘积来检测对象。与对象和类信息不同，bbox坐标作为确定性坐标值而不是分数输出，因此检测到的bbox的置信度是未知的。此外，客观性得分并不能很好地反映bbox的可靠性。因此，它不知道014+1836…618597 98………79 84869196…103…**809210481输入图像卷积图层上采样图层路径图层检测层... 另外的层938210594106PNPobjtxtytwth505ijkijkijkijkijkbbox的结果有多不确定。相比之下，通过所提出的方法预测的bbox的不确定性用作bbox分数，并且因此可以用作bbox有多不确定的指示符。结果见第4.1节。在 YOLOv3 中， bbox 回归是提取 bbox 中心信息（即，，t x和t y）和bbox大小信息（即，，tw和th）。因为只有一个正确答案（即GT），不需要复杂的建模来预测定位不确定性。换句话说，bbox的不确定性可以使用tx、ty、tw和th的每个单个高斯模型来建模。对于其输出由高斯参数组成的给定测试输入x，输出y的单个高斯模型如下：图2：Rithm。建议的算法的预测框中的分量p（y|x）= N（y; µ（x），Σ（x）），（1）其中µ（x）和Σ（x）分别是均值和方差函数。为了预测bbox的不确定性，将预测特征图中的每个bbox坐标建模为平均值（μ）和方差（μ），如图2所示。bbox的输出为µtx、µtx、µty、µty、µtw、µtw、µth和µth。考虑到YOLOv3中检测层的结构，tx、ty、tw和th的高斯参数预处理如下：µtx=σ （ µtx ）， µty=σ （ µty ）， µtw=µtw ， µth=µth（二）tx=σ（需要10个9因此，对检测速度的惩罚是非常低的，因为计算成本仅增加了0.04%，与之前的mod-fold相比。Eling。相关结果见第4节。3.2. 损失函数对于训练，YOLOv3 [21]使用bbox的平方误差损失之和，以及对象和类的二进制交叉熵损失由于bbox坐标通过高斯建模作为高斯参数输出，因此bbox的损失函数被重新设计为负对数似然（NLL）损失，而对象和类别的损失函数不变。为bbox重新设计的损失函数如下：（3）ΣWΣH ΣKtw=σ（1Lx=−i=1j=1k=1γijklog（N（xG|µ tx(x ijk),（五）σ（x）=.（四）（1 +exp（−x））检测层中每个坐标的平均值是bbox的预测坐标，每个方差表示每个坐标的不确定性。 µtx和µty，(2)必须表示bbox在网格，其因此利用（4）中的sigmoid函数被处理为0和1之间的值。（3）中的每个坐标的方差在YOLOv3中，bbox的宽度和高度信息通过tw，th，bbox先验和指数函数进行处理[21]。换句话说，µ tw 和μ th 在（2）中，这表明tw和th的（x（xijk））+ε），其中Lx是t x坐标的NLL损失，并且其它（即，、Ly、L w和L h）与L x相同，除了每个参数之外。 W和H分别是每个宽度和高度的网格的数量，K是锚点的数量。此外，μ tx（x ijk）表示t x坐标，其是所提出的算法的检测层的输出，在（i，j）网格中的第k个锚点处。此外，也是检测层的输出，指示tx坐标的不确定性，并且x G是t x坐标的GT。bbox的GT计算如下：YOLOv3不作为sigmoid函数处理，因为它们可以具有负值和正值。Gijk =xG×W−i，yG=yG×H−j（6）用于预测bbox不确定性的单高斯建模仅适用于图1a所示的YOLOv3检测层的bbox坐标。因此，我们认为，01 -02 -2016刘晓波（wG×IW焕光），h G=log（hG×IHHK），（7）算法的总计算复杂度不会显著增加。 512× 512输入分辨率和十个类，YOLOv 3需要99×109 FLOPs;如何-其中，xG、yG、wG和hG是在一个实施例中的GT bbox的比率IW和IH是调整大小后的图像的宽度和高度，Aw和AhP0P1. . .包围盒坐标客观性评分课成绩txμtxxtyμtyywμtwwthμthhPnPobjX一一tx ΣtxμtyΣty μtw Σtw μthΣth506表示调整大小后的图像的宽度和高度K K以往，在一个单一的高斯建模bbox后，99.04×k-th锚箱先验，分别。在YOLOv3中，507ijk以网格为单位计算bbox，并且基于锚框计算bbox的大小，因此相应地处理GT以用于训练。ω标度×δ目标CR. 表示高斯YOLOv 3的检测标准，σ（Object）是对象性得分，σ（Classi）是第i个类的得分。此外，定位不确定性的Uncertaintyaver表示预测 bboxγijk=ijk2（八）坐标定位不确定性具有介于零和一之间的值，例如对象性分数和类别分数，ω scale= 2−w G× h G。（九）（8）中的ω尺度是基于图像中的GT bbox的宽度和高度比来计算的，如（9）中所示。它在训练过程中根据对象大小提供不同的权重。另外，（8）中的δobj是仅当在预定义的锚点中存在最适合于当前对象的锚点时才被应用以包括在损失中的参数当GT和（i，j）网格中的第k个锚框的交集大于并集（inter-section over union，IOU）最大时，该参数被指定为值1，如果没有合适的GT，则该参数被指定为值0.对于数值稳定性在对数函数中，ε被赋值为10−9。因为YOLOv3使用平方误差损失之和对于bbox，它无法处理训练期间的噪声数据然而，bbox重新设计的损失函数可以通过训练期间不一致数据的不确定性来惩罚损失也就是说，模型可以通过关注一致的数据来学习。因此，重新设计的bbox损失函数使模型对噪声数据更具鲁棒性[12]。通过这种损失衰减[12]，可以提高算法的准确性。3.3. 利用定位不确定性所提出的高斯YOLOv3可以获得bbox的不确定性的图像中的每个检测对象。因为它不是整个图像的不确定性，所以可以将不确定性应用于每个检测结果。YOLOv3在对象检测期间仅考虑对象性分数和类别分数，并且在检测过程期间不能考虑bbox分数，因为bbox坐标的分数信息是未知的。然而，高斯YOLOv3可以输出定位不确定性，这是bbox的得分因此，在检测过程中，可以将定位不确定性与该算法将定位不确定性应用于YOLOv3的检测标准，从而通过检测过程过滤预测结果中具有高不确定性的bbox以这种方式，最终选择具有对象性、类和bbox的高置信度的因此，高斯YOLOv3可以降低FP并增加TP，这导致提高检测精度。所提出的考虑定位不确定性的检测准则如下：CR. = σ（对象）×σ（i类）×（1 −不确定性平均值）。（十）并且定位不确定性越高，预测的Bbox的置信度越低。在第4节中描述了提议的高斯YOLOv3的结果。4. 实验结果在实验中，使用了自动驾驶研究中常用的KITTI数据集[7]和最新发布的自动驾驶数据集BDD数据集[26]KITTI数据集由三个类组成：汽车、骑自行车的人和行人，并且包括用于训练的7，481个图像和用于测试的7，518个图像。因为没有GT用于测试，所以训练集和验证集是通过将训练集随机分成两半来制作的[25]。BDD数据集由十个类组成：自行车，公共汽车，汽车，摩托车，人，骑手，交通灯，交通标志，火车和卡车。训练集、验证集和测试集的比例为7：1：2。在本文中，一个测试集被用来进行性能评估。一般来说，KITTI数据集的IOU阈值（TH）对于汽车设置为0.7，对于骑自行车者和行人设置为0.5 [7]，而BDD数据集的IOU TH对于所有类别都是0.75[26]。在YOLOv3和高斯YOLOv3训练中，批量大小为64，学习率为0.0001。使用KITTI和BDD的每个训练集的k均值聚类来提取锚定大小。培训和评价中使用的锚钉见表1。其他研究使用每个算法的官方代码中的默认设置进行训练。实验在NVIDIA GTX 1080 Ti上进行，配备CUDA 8.0和cuDNN v7。4.1. 利用定位不确定性的验证图3显示了KITTI和BDD验证集的bbox的IOU和本地化不确定性之间的关系这些结果被绘制为汽车，这是所有数据的主导类，并使用所提出的算法预测的定位不确定性。为了显示典型趋势，IOU除以0.1的增量，并计算每个范围的IOU平均值和局部化不确定度平均值，并将其用作代表值。如图3所示，随着两个数据集中定位不确定性的降低，IOU较大的IOU指示预测的bbox的坐标更接近GT的坐标。基于这些结果，所提出的算法的定位不确定性有效地表示预测bbox的置信度。因此，有可能通过利用局部化来处理508KITTI训练套件锚0锚1锚210.9第一检测层（49，240）（82，170）（118，206）第二检测层（45，76）（27，172）（67，116）第三检测层（13，30）（23，53）（17，102）BDD训练集第一检测层（73，175）（141，178）（144，291）第二检测层（32，97）（57，64）（92，109）第三检测层（7，10）（14，24）（27，43）表1：训练集的锚框的结果。所提出的算法预测的calization不确定性4.2. 高斯YOLOv3的性能评估为了证明所提出的算法的优越性，其性能（即，准确性和检测速度）与其他研究[1，11，17，28，29，16，21]进行了比较在KITTI验证集的实验中，其他研究[1，11，17，28，16，21]使用每个算法的官方发布代码进行训练和评估在CFENet [29]的情况下，使用KITTI对象检测领导板的结果，在BDD测试数据的实验中，SSD [17]、CFENet [29]和Re- fineDet [28]的BDD测试集的结果在CFENet [29]中指定，因此这些研究的模拟结果来自[29]，而剩余的比较研究[1，11，16，21]使用官方发布的代码进行训练和评估，因为这些代码研究尚未开发为BDD数据集的目标，因此在以前的研究中没有使用BDD数据集进行评估。为了公平比较一级检测器，输入分辨率设置为CFENet [29]。两阶段检测器使用每个官方发布的代码的默认分辨率。每个数据集的官方评估方法为了比较的准确性，mAP，这已被广泛用于在以前的研究中的对象检测，被选中。表2显示了使用KITTI验证集的所提出的算法和其他方法的性能。所提出的算法，高斯YOLOv3的mAP，提高了3.09相比，YOLOv3，和检测速度为43.13 fps，这使得实时检测与YOLOv3略有差异。高斯YOLOv3比RFBNet [16]快3.93 fps，RFBNet [ 16 ]在除YOLOv3之外的先前研究中具有最快的操作速度，尽管高斯YOLOv3的mAP优于RFBNet [16]的mAP超过10.17。此外，虽然高斯的mAP分辨率为512×512的YOLOv3 比 SINet [11]低1.81，SINet [ 11 ]的精度最高，前面的方法，值得注意的是，0.80.70.60.50.40.30.20.10.06 0.10.140.18 零点二二 0.26 0.30.34 零点三八定位不确定性图3：KITTI和BDD验证集上的IOU与定位不确定性。所提出的方法比SINet [11]的方法好1.8倍由于在准确度和检测速度之间存在权衡，因此为了进行公平比较，改变所提出算法的输入分辨率并考虑SINet的fps进行评估[11]。实验结果表明在表2的最后一行中示出的具有704× 704分辨率的高斯YOLOv3的mAP在24.91 fps下为86.79，并且因此，高斯YOLOv3在准确性和检测速度方面优于SINet [11表3示出了所提出的方法和用于BDD测试集的其他方法的性能高斯 YOLOv3 相比 YOLOv3 提高了 3.5mAP，检测速度为42.5 fps，与YOLOv3几乎相同。此外，高斯 YOLOv3 比 RFBNet [ 16 ] 快 3.5 fps ，RFBNet[16]在除YOLOv3之外的先前研究中具有最快的操作速度，尽管高斯YOLOv3的准确性优于RFBNet[16] 3.9 mAP。此外，与CFENet[ 29]相比，CFENet[29]的准确率最高，与先前的方法相比，表3的最后一行中具有736× 736输入分辨率的高斯YOLOv3的性能示出了1.7的更好的mAP和1.8的更快的操作速度。1.5 fps，因此，高斯YOLOv3在准确性和检测速度方面优于CFENet [29此外，在COCO数据集[14]上，高斯YOLOv3的AP特别地，AP 75（即，严格度量）为39.0，比YOLOv3高4.6这些结果表明，该算法在一般数据集上的性能优于YOLOv3，也优于KITTI和BDD。基于这些实验结果，因为所提出的算法可以显着提高准确性，与YOLOv3相比，在速度上的损失很小，高斯YOLOv3优于以前的方法。KITTIBDDIOU509检测算法平均精密度（%）汽车行人骑自行车mAP（%）FPS输入大小EMHEMHEMH美国有线电视新闻网[1]92.5490.4979.2387.4681.3472.4990.1387.5981.1184.71 8.131920×576SINet [11]99.1190.5979.7788.0979.2270.3094.4186.6180.6885.42 23.981920×576SSD [17]88.3787.8479.1550.3348.8744.9748.0052.5151.5261.29 28.93512×512[第28话]98.9690.4488.8284.4077.4473.5286.3380.2279.1584.36 27.81512×512CFENet [29]90.3390.2284.85-------0.25-[第16话]87.4188.3583.4165.8561.3057.7174.4672.7369.7573.44 39.20512×512[21]第二十一话85.6876.8975.8983.5178.3775.1688.9480.6479.6280.52 43.57512×512高斯YOLOv390.6190.2081.1987.8479.5772.3089.3181.3080.2083.61 43.13512×512高斯YOLOv398.7490.4889.4787.8579.9676.8190.0886.5981.0986.79 24.91704×704表2：使用KITTI验证集的性能比较E、M和H分别表示容易、中等和困难YOLOv3高斯变化表3：使用BDD测试集的性能比较。4.3. FP和TP的视觉和数值评估对于高斯YOLOv3的视觉评估，图4和图5分别显示了KITTI验证集和BDD测试集的基线和高斯YOLOv3的检测示例。检测TH为0.5，这是YOLOv3的默认测试TH。图4的第一行和图5的第一列中的结果表明，高斯YOLOv3可以检测YOLOv3无法找到的对象这是因为本文提出的YOLOv3的高斯建模和损失函数重构可以在学习过程中提供损失衰减效应，从而提高了bbox的学习精度，增强了对象性。接下来，图4的第二行和图5的第二列中的结果示出了高斯 YOLOv3 可以补充YOLOv3发现的不正确的对象检测结果。此外，图4的第三行和图5的第三列中的结果示出高斯YOLOv3可以准确地检测由 YOLOv3 不准确地检测到的对象的bbox。基于这些结果，高斯YOLOv3可以显着降低FP和增加TP，并且因此，驾驶稳定性和效率得到改善，并且可以防止致命事故。对于高斯YOLOv 3的FP和TP的数值评估，表4显示了FP和TP表4：FP和TP的数值评估对于基线和高斯YOLOv3。检测TH与前面提到的相同。KITTI和BDD验证集用于计算FP和TP，因为GT在验证集中提供。为了更准确的测量，使用BDD的官方评估代码计算两个数据集的FP和TP，因为当bbox在一定大小内时，KITTI官方评估方法不计算FP。对于KITTI和BDD验证集，与YOLOv3相比，高斯YOLOv3分别将FP降低了41.40%和40.62%。TP分别提高7.26%和4.3%。应该注意的是，FP的降低防止了不必要的意外制动，TP的增加防止了物体检测错误导致的致命事故。总之，对于与自动驾驶车辆的安全性相关的FP和TP，高斯YOLOv3显示出比YOLOv3更好的性能。基于第4.1、4.2和4.3节中描述的结果，所提出的算法优于以前的研究，并且最适合于自动驾驶应用。5. 结论物体检测算法的高精度和实时检测速度对于自动驾驶车辆的安全性和实时控制是极其重要的。已经进行了与基于摄像头的自动驾驶相关的各种研究，但基于检测算法最大平均接入点（%）FPS输入大小美国有线电视新闻网[1]5.76.01920×576SINet [11]9.018.21920×576SSD [17]14.123.1512×512[第28话]17.422.3512×512CFENet [29]19.121.0512×512[第16话]14.539.0512×512[21]第二十一话14.942.9512×512YOLOv3发生率（%）KITTI验证集FP数量1,681985-41.40TP数量13,57514,560+7.26GT数量17,60717,6070BDD验证集FP数量86,38051,296-40.62TP数量57,26159,724+4.30GT数量185,578185,5780510图4：KITTI验证集上基线和建议算法的检测结果。第一列显示YOLOv3的检测结果，而第二列显示高斯YOLOv3的检测结果。图5：BDD测试集上基线和建议算法的检测结果。第一行和第二行分别显示YOLOv3和高斯YOLOv3的检测结果，每种颜色都与特定的对象类别相关。准确度和操作速度之间的折衷。为此，本文提出了一种目标检测算法，实现了自动驾驶的准确性和速度之间的最佳权衡通过高斯建模、损失函数重构和定位不确定性的利用，该算法在保持实时性的同时，提高了定位精度，提高了定位精度，显著降低了定位误差。与基线相比，所提出的高斯YOLOv3算法分别将KITTI和BDD数据集的mAP提高了3.09和3.5。此外，由于所提出的算法具有更高的精度比类似的fps的大量研究，所提出的算法是优秀的，在精度和去噪之间的权衡检测速度因此，所提出的算法可以显着改善基于摄像机的自动驾驶目标检测系统，因此，预计将有助于自动驾驶应用的广泛使用。确认这项工作得到了韩国国家研究基金会（NRF）的支持，该基金由韩国政府（ MSIT ）资助（编号：2009）。2019R1F1A1057530）和“产业技术创新项目”通过贸易，工业和能源部（MOTIE）（10082585，2017）。511引用[1] Zhaowei Cai，Quanfu Fan，Rogerio S Feris，and NunoVas-concelos.用于快速目标检测的统一多尺度深度卷积神经网络。欧洲计算机视觉会议，第354-370页。施普林格，2016年。[2] Sungjoon Choi ， Kyungjae Lee ， Sungbin Lim ， andSonghwai Oh.不确定性感知学习从示范使用混合密度网络与采样自由方差建模。2018年IEEE机器人与自动化国际会议（ICRA），第6915-6922页。IEEE，2018年。[3] AleksaC´or o vi c´ 、 VeliborIl ic´ 、 Sin isˇ aDuri c´ 、MalisaMarijan和BogdanPav ko vi c´。利用yolo算法实时检测交通肇事在2018年第26届国际论坛（TELFOR），第1-4页。IEEE，2018年。[4] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展，第379-387页，2016年[5] 戴雪蕊。Hybridnet：一种用于自动驾驶的快速车辆检测系统。信号处理：图像通信，70：79 -88，2019。[6] Di Feng，Lars Rosenbaum，and Klaus Dietmayer.实现安全自动驾驶：在激光雷达3d车辆检测的深度神经网络中捕获不确定性。2018年第21届智能交通系统国际会议（ITSC），第3266-3273页。IEEE，2018年。[7] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。[8] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[10] Yihui He，Xiangyu Zhang，Marios Savvides，and KrisKi- tani. Softer-nms：重新思考边界框回归以实现准确的对象检测。arXiv预印本arXiv：1809.08545，2018。[11] Xiaowei Hu，Xuemiao Xu，Yongjie Xiao，Hao Chen，Shengfeng He，Jing Qin，and Pheng-Ann Heng. Sinet：一种用于快速车辆检测的尺度不敏感卷积神经网络。IEEE Transactions on Intelligent Transportation Systems，20（3）：1010[12] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？神经信息处理系统的进展，第5574-5584页，2017年[13] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[14] Tsung-Yi Lin，Michael Maire，Serge Belongie，JamesHays ， PietroPerona ， DevaRamanan ， PiotrDolla'r ，andCLa wrence齐特尼克微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[15] 刘峰，刘冰泉，孙成杰，刘明，王小龙.社交网络服务中链接预测的深度学习方法。在神经信息处理国际会议上，第425Springer，2013.[16] 刘松涛，黄迪，等.接收域块网，用于准确和快速的目标检测。在欧洲计算机视觉会议（ECCV）的会议记录中，第385[17] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[18] Aarian Marshall假阳性：自动驾驶汽车和知道什么重要的痛苦。有线运输，2018年。[19] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别集，第779-788页[20] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好，更快，更强。在IEEE计算机视觉和模式识别会议论文集，第7263-7271页[21] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3：一个渐进的改进。arXiv预印本arXiv：1804.02767，2018。[22] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年[23] Young-Woo Seo、Nathan Ratliff和Chris Urmson。基于自监督航空影像分析的停车场结构提取。2009年第二十一届国际人工智能[24] Junqing Wei，Jarrod M Snider，Junsung Kim，John MDolan，Raj Rajkumar，and Bakhtiar Litkouhi.一个可行的自动驾驶研究平台。2013年IEEE智能车辆研讨会（IV），第763IEEE，2013。[25] Bichen Wu ， Forrest Iandola ， Peter H Jin ， and KurtKeutzer. Squeezedet：用于自动驾驶的实时对象检测的统一、小型、低功耗全卷积神经网络。在IEEE计算机视觉和模式识别研讨会会议论文集，第129-137页[26] Fisher Yu ， Wenqi Xian ， Yingying Ch

下载后可阅读完整内容，剩余1页未读，立即下载