没有合适的资源?快使用搜索试试~ 我知道了~
15263基于相机和毫米波雷达融合程宇伟1、2、徐胡2、3、刘益民11清华大学、2ORCA-Uboat、3西北工业大学网址:chengyw18@mails.tsinghua.edu.cn,xuhu@mail.nwpu.edu.cn,网址:www.example.com,yiminliu@tsinghua.edu.cn摘要近年来,无人水面车辆(USV)在各种应用中经历了增长。随着水下机器人的应用场景从典型的海洋区域向内陆水域扩展在我们的工作中,我们专注于内陆水域中USV的相对未探索的任务:水面上的小物体检测对于安全自主导航和USV的某些任务(例如漂浮废物清理)至关重要。针对基于视觉的目标检测方法的局限性,提出了一种基于雷达-视觉融合的水面小目标检测方法该方法采用一种新的毫米波雷达点云表示格式,将RGB图像与雷达数据进行深层次多尺度融合,有效利用雷达数据的特点,提高了水面小目标检测我们在我们收集和发布的真实世界的漂流瓶数据集上测试了该实验结果表明,与基于视觉的方法相比,该方法显著提高了平均检测精度,达到了最先进的性能。此外,所提出的方法执行鲁棒性时,单传感器退化。1. 介绍近年来,无人水面车辆(USV)引起了越来越多的关注,并逐渐用于水面上的各种自主活动,例如海洋研究[7]、运输[41]、水质监测[19]、漂浮废物清除[32,36,1]等。安全导航和高效自主操作、准确和鲁棒的环境感知对于USV是至关重要的。水面小目标检测是水下机器人环境感知的一项重要任务。它图1.概述了所提出的用于USV的小物体检测的方法。该方法利用RGB图像和毫米波雷达数据的融合进行水下航行器的小目标检测,可以应用于水下航行器可以应用于USV以避开像浮标和礁石的小障碍物,并且在USV的某些任务中起重要作用,视觉可以提供丰富的语义信息,被广泛用于无人艇的目标检测。然而,与道路上的自动驾驶车辆不同,水面上基于视觉的小物体检测存在三个主要挑战- 水面上的光反射如图2(a)所示,水面上的强光反射可导致高照度和过曝光图像。像漂浮的瓶子这样的小物体可以被水晕遮蔽,或者由于过度曝光而与背景融合。- 周围景物反射干扰。如图2(b)所示,在一些情况下,例如内陆水域中的小物体检测,河岸上的建筑物和植被的反射增加了将目标与背景分离的复杂性。- 探测距离短。长探测距离可以显著提高无人艇的航行安全性和工作效率然而,由于目标的尺寸较小,当目标远离相机时,RGB图像中目标的占用像素的数量变得少得多,如图2(c)所示。随着对自动驾驶车辆的环境感知需求的增加,除了基于视觉的系统之外,基于其他传感器(如15264(a)(b)(c)第(1)款图2.检测小物体的挑战:强光反射干涉。周围景物反射干扰。体积小,检测范围短。图3.附图示出了投影到图像上的雷达点云的3个连续帧。目标点云和杂波点云分别用绿框和黄框起来。可以看出,小尺寸漂浮瓶的点云是不稳定的此外,水杂波会干扰检测系统。毫米波(MMW)雷达在自动驾驶中显示出巨大的价值[49]。与基于视觉的系统相比,毫米波雷达对照明条件更鲁棒,并提供了看到长距离的可能性[24]。尽管如此,如图3所示,对于基于毫米波雷达的水面上小物体检测的实际应用,仍有困难需要克服:- 来 自非 金属 目 标的 微弱 回 波。 雷达 散 射截 面(RCS)表示雷达可探测目标的程度。通常,由金属材料制成的大尺寸目标具有更大的RCS,并且更易于检测。非金属小目标雷达散射截面(RCS)较低,雷达反射较弱,大大增加了探测的难度- 由水面杂波引起的干扰为了检测水面上的漂浮瓶,雷达通常被安装在相对较低的高度。由于设备高度较低,雷达更易受水波的影响,造成对目标的误探测。- 缺少语义信息。与RGB图像相比,雷达提供的语义信息非常少。因此,利用雷达数据对目标进行分类是具有挑战性的。可以看出,对于水面上的小物体检测,通过单个传感器实现的性能存在瓶颈。最近,已经发布了用于自动驾驶中的对象检测和跟踪的nuScenes数据集[4]。该数据集包含图像和毫米波雷达点云数据,对基于雷达-视觉深层次融合的自动驾驶目标检测研究具有重要的推动作用然而,对于水面上的小目标检测据我们所知,基于图像和雷达深层次融合的水面场景目标检测为了提高水面小目标检测的鲁棒性,充分利用毫米波雷达点云数据,本文对雷达数据的有效利用进行了探索在真实世界场景中收集的数据集上进行评估,我们的模型达到了90.05%的平均检测准确率,并显着超过YOLOv4 [2]基线(78.46%的平均准确率)。此外,鲁棒性评估的结果表明,我们的模型仍然保持了良好的性能,当一个单一的传感器退化。综上所述,本文主要做了以下几个方面的工作:1. 第一种基于雷达视觉融合的方法,可应用于USV的小目标检测与传统的方法相比,我们的方法可以显着提高检测性能。2. 毫米波雷达点云与RGB图像深层次融合的新方法。通过提出一种新的雷达点云表示格式和一种结合不同注意机制的模型,该方法在检测水面小目标时达到了最新的精度,并表现出良好的鲁棒性3. USV的实时目标检测系统,对浮动瓶的真实世界数据集进行了广泛的评估。此外,我们发布了我们的代码以及用于水面上小物体检测的雷达视觉数据集,以使多模态融合物体检测研究社区受益。2. 相关工作2.1. USV的目标检测基于视觉的方法通常用于海洋USV在海面上的物体检测[50]。公共新加坡海洋数据集[25]和基于它的基准[21]特别支持基于视觉的海洋物体检测研究[34,15,29]。此外,提出了基于图像和激光雷达数据融合的方法,以提高海洋USV目标检测的准确性和鲁棒性[35,44]。对于海洋USV,大型物体如渡船和船舶是最常见的检测目标。15265最近,内陆水域的USV由于其潜在的应用价值而受到更多的关注,例如,Roboat项目[41,42],其旨在使用USV在城市水道中进行自主运输。狭窄的陆地水域环境对水下机器人的目标检测提出了更高的要求和表面反射、高照明和波浪干扰使得更难以检测通常可能出现在内陆水域中的小物体,如小石头、为了USV在内陆水域的安全航行,Hammedi等人。[11]在其内陆对象检测数据集上评估了常见的基于视觉的算法,所述内陆对象检测数据集包含河边、船只等类别。然而,在其数据集中没有得出特定的小对象。据我们所知,USV的小物体检测仍然是相对未开发的领域。2.2. 基于雷达-视觉融合的目标检测在高水平的自动驾驶中,为了提高检测的准确性、鲁棒性和实时性,基于传感器融合的方法已经被广泛用于物体检测。毫米波雷达能够在恶劣天气条件下稳健地提供目标的位置和速度信息,而视觉系统提供了丰富的语义信息,但容易受到恶劣条件的影响。因此,视觉和雷达的融合被广泛用于自动驾驶中的目标检测。早期的雷达-视觉融合主要是基于目标级的融合。采用最近邻算法(NN)和联合概率数据关联(JPDA)等数据关联方法对独立的雷达和图像检测流水线的目标级输出进行融合Wang等人。[43]通过识别雷达检测提供的单眼图像的感兴趣区域(ROI)内的车辆来实现道路车辆检测和跟踪。对象级融合松散耦合的视觉和雷达信息。在这种情况下,可以确保检测系统的鲁棒性,因为当一个传感器发生故障时,另一个传感器仍然可以工作。然而,目标级融合会带来信息损失,不能充分利用两个传感器的信息。随着深度学习的发展,雷达-视觉的深层融合(数据级和特征级)越来越受到关注。雷达点云是典型毫米波雷达信号处理流水线的最终输出,也是一种易于获取的数据。因此,对于深层次的雷达-视觉融合,大多数工作是基于雷达点云。最近,一些作品[23、16、13、45、5、22、20、6]探索使用图像和雷达的特征级融合用于自主车辆中的对象检测。在特征级融合中,必须从不规则、稀疏的毫米波雷达点云中提取特征。[20]将雷达点云转换为BEV图像,并使用CNN进行特征提取。图4. FMCW雷达信号处理链。第[23,16,13,45,5,6]将雷达点云投影到RGB图像平面作为雷达稀疏图像,然后提取特征。对于RGB图像和雷达数据的融合,[23,13,5,20]直接融合了从图像中提取的特征两种模式。[16,45,6,22]通过引入注意机制改进了融合的性能由于雷达数据缺乏语义信息,在基于深层次雷达-视觉融合的目标然而,对于水面上的小目标检测,视觉信息的鲁棒性降低了很多。因此,充分利用毫米波雷达数据的鲁棒性,更好地利用雷达数据提供的信息,提高基于传感器融合的目标检测性能,是一个值得深入研究的课题。3. 我们的方法3.1. 毫米波雷达管线雷达点云生成。毫米波雷达系统发射调频连续波(FMCW)并捕获反射波。如图4所示,采样的差拍信号首先经由距离FFT和多普勒FFT被传递到距离-多普勒矩阵(RDM)。然后,在检测器处理块中,检测RDM中具有较强能量的单元。常规FMCW信号处理链中最常见的检测器是恒虚警率(CFAR)检测器,其根据周围噪声水平和称为阈值因子的缩放因子来确定检测阈值。最后,对于每个检测到的小区,通过利用多个Rx天线的回波信号来执行到达方向(DOA)估计。因此,我们获得由具有不同位置的多个检测到的对象组成的所谓的点云雷达点云可以表示为一组点,并且每个点可以表示为(x,y,z,v,p),其中x,y,z表示雷达点云的XYZ坐标数据,v表示多普勒速度,并且p表示点的能量。雷达点云投影RGB 图像为二维(2D)垂直平面,而雷达数据是15266∈--Σ√图5. 用相机高度h、相机俯仰角θ和雷达Y轴距离y计算zrZ轴雷达距离的位置补偿投影法。通常转换成二进制雷达点地图[5]。为了更好地利用雷达数据,我们提出了一种新的雷达输入格式:受人群密度计数任务中使用的地面实况生成方法的启发,雷达点密度图(RPDM)[46]。将每个雷达点投影到图像平面上以生成RPDM。RPDMR3×H0×W0.如果在RPDM中的像素ui处投影有雷达点,则将其表示为δ函数δ(uui)。因此,具有N个雷达点的RPDM可以表示为函数NF(u)=δ(u−ui)*Gσ0i=1(u) ·(ri,vi,pi)T,(2)(a)(b)(c)第(1)款图6.不同投影方法的结果。雷达点云(绿点)被投影到图像上。(a)显示了直接透视投影法的结果。(b)显示了固定高度投影法的结果。(c)示出了我们的位置补偿投影方法的结果可以看出,我们的方法表现出更好的投影精度比其他两种方法。位于三维(3D)坐标系中。为了消除两种模式之间数据格式的差异并简化融合学习过程[5],我们通过投影将3D坐标系下的雷达点云转换为2D坐标系下的图像平面数据。然而,水面上USV的雷达点云投影存在两个主要挑战。首先,与激光雷达点云不同,毫米波雷达点云在Z坐标中是不准确的[16]。此外,与在道路上不同,当USV在水上航行时,相机的视角总是变化的。因此,受固定高度透视投影法[5]的启发,我们提出了一种新的位置补偿投影法来解决这些问题。由于摄像机高度的变化对点云Z坐标的影响相对摄像机视角的变化较小如图5所示,给定相机的固定高度和来自IMU的俯仰角,我们可以使用下式计算Z坐标中的点的新值zrHzr=z1+z2=cosθ+y*tanθ,(1)其中h是相机的高度,θ是俯仰角。投影结果如图6所示。与透视投影法和定高投影法相比,本文提出的位置补偿投影法在水面上的表现更好。雷达点密度图 雷达点投影是其中Gσ0是方差为σ0的高斯核,ri=xi2+yi2+zi2)表示距离,vi、pi分别表示第i个雷达点的多普勒速度和能量。活泼地RPDM的图示如图7所示。将原始雷达点云数据转换到RPDM上,雷达输入不仅包含雷达点云的空间分布信息,而且还包含雷达点云的多普勒速度和能量。另一方面,通过密度分布表征,RPDM比二进制雷达点地图[16]具有更丰富的梯度特征,并且可以通过卷积神经网络(CNN)更有效地学习。3.2. 融合模型架构一个强大的鲁棒性小目标检测模型是基于相机和毫米波雷达的互补相互作用针对水面小目标检测的鲁棒性要求和毫米波雷达数据的特点,提出了一种雷达图像时空融合网络(RISFNet),用于不同尺度下相邻帧雷达数据与单帧RGB图像的融合。考虑到雷达对弱反射目标的不稳定性,我们采用雷达点的相邻帧作为雷达主干的输入此外,受大多数一级检测网络[30]的启发,我们生成不同大小的图像和雷达特征图以将它们融合,以便检测模型可以检测不同大小的对象。如图7所示,RISFNet模型主要由三个模块组成:骨干,特征融合块和特征金字塔网络(FPN)[17]。对于图7(a)中所示的主干块,我们选择两个主干来分别从图像和RPDM中提取特征。融合块(如图7(b)所示)利用时间位置编码以及自关注块来融合多帧雷达数据,并采用全局关注模块来融合多尺度雷达和图像特征。最后,融合特征被馈送到图115267Ft−n+1的t0× ×××× ×∈∈∈∈−tk∈∈tkK∈KC×H×W∈7(c)预测三个尺度下的检测结果接下来,我们将详细介绍RISFNet模型中的重要模块。骨干RGB图像和RPDM具有不同的特点,RGB图像包含更丰富的信息。因此,使用不同的骨干网络的雷达和图像特征提取可以提高图像的识别效率′R1×H ×W,然后通过级联运算将不同帧的雷达特征图合并为一个融合雷达特征F雷达′ ′ =c. Ft+MLPk(Ft)Σ(4)模型 与复杂的有分量的图像相比-F雷达=猫。F′′ ′t−n+2,···,F′Σ,(5)骨网络,我们选择的雷达骨干网络是轻量级的,适合于从RPDM中提取特征。如图7(a)所示,对于图像骨干 网络, 我们采 用与YOLOv4 [2]中使 用的名 为CSPdarknet53的相同骨干架构CSPdarknet53网络提取三种不同大小的图像特征。对于雷达特征提取,我们使用轻型VGG-13骨干网[33]该网络将不同帧的雷达主干输入转换成具有相同大小图像特征的雷达特征。图像和RPDM的输入大小为都是416 416 3.提取的图像和雷达特征的最终大小为51213 13、512 26 26、256 52 52。时间位置编码。 针对当前帧中小目标雷达点云具有不稳定性和闪烁性的特点,以及水杂波在不同帧中随机分布的特点,采用时间位置编码,融合RPDM的过去帧,增强当前帧中的RPDM。然而,RPDM的过去帧与当前时刻的RGB图像之间存在空间较早的雷达帧具有较大的误差。因此,参考自然语言处理任务中使用的位置编码[40],我们采用类似的位置编码方法来添加雷达数据的时间信息然后,具有时间编码的第t个帧雷达数据Ftk的特征图被计算为:其中FtkR表示第tk帧雷达数据的特征图,C、H、W分别表示特征图的通道、高度和宽度(C、H、W的值在不同的特征尺度下不同),MLPk是针对Ftk的独立多层感知器。cRC/n×1×1表示合并前减少信道的卷积模块,cat表示级联运算。全球注意力阻断。注意阻滞的最终目的是通过互补的传感器相互作用实现适应。虽然经典融合算法(例如,贝叶斯滤波器或固定滞后平滑器)可以通过将物理模型结合到算法设计中来实现这样的自适应,它们在复杂的非线性特征空间中执行困难并且需要更好的设计。多层全局注意力网络观察所有传感器通道,并更好地利用互补的传感器行为,这可以提高融合模型的鲁棒性[47]。因此,与拼接图像特征F 图 像相比,RC× H × W和雷达特征F雷达RC× H × W直接转化为一个“大”向量,采用全局通道注意块[ 12 ]赋予多模态融合目标检测模型对不确定环境的适应能力。当摄像机或雷达发生故障,模型得到的传感器数据不佳时,全局注意力块会调整摄像机或雷达融合,以减少模型性能的下降。如图FTK =Ftk ·sin。(n+k)/nΣ,(3)在图7(e)中,我们使用共享MLP块来生成融合特征F融合由图像特征F图像和雷达特征F雷达。其中,η是雷达帧的总数,tk是tem。简言之,全局信道注意力融合被计算为:雷达帧的poral顺序位置,k[0,n+1]。自我注意障碍。自我关注的概念最初设计用于自然语言处理和IM-F融合=σ.W1τ.W0。 MaxPool(Fimage)ΣΣ年龄转换任务[9]。与自主筛选信息特征的自过滤过程类似,自注意块让各个传感器分支首先自适应,并且通常用作控制信息流并启用模型自适应的有前途的方法[6]。众所周知,雷达数据包含真实目标点和杂波点。杂波点导致错误的目标信息,并且可能导致检测结果中的误差。在这种情况下,我们需要增强真正的目标点,削弱杂波点之前融合雷达数据与RGB图像。此外,还利用自注意块学习雷达点+W 1τ。W 0。MaxPool(F雷达)Σ,其中σ表示S形函数,τ表示ReLU函数。图像和雷达输入共享MLP权重W0RC/16×1×1和W1RC×1×14. 实验4.1. 数据集漂浮废物清洁是USV的最流行的应用之一,并且像漂浮瓶的塑料废物是清洁USV的检测系统的常见目标塑料瓶体积小,RCS低,可F、15268×个×个×个×个Ft0+F图像F雷达不0当前帧矩 x张量乘法Ft−1...Ft−n+1++CF雷达W0W 1Maxpool Conv(C/16× 1 × 1)ReLUSigmoidConv(C× 1 × 1)tCConcat操作标不多层感知器Conv(C/n× 1 × 1)D.自我关注XX–n+1+添加操作e.全球关注(256×52×52X的t0C小目标预测(512×13×13图像(416× 416×不X(512X52X52)0t…(512×26×26X图像主干的t0全球关注C中目标预测(256×52×52)X(1024X26X26)的t0...相邻帧RPDM(416×416× 3)*n不…不-n+1(512×13×13)不不的位置编码自我关注X0t 不1- 1不n-n+ 1C(512×26×26)大目标预测X(1024X13X13)不不 0t.. -1雷达主干网范围密度图多普勒速度密度图能量密度图a.骨干B.特征融合C. FPN预测图7. RISFNet模型架构。更好地呈现水面上的小物体检测中的挑战。因此,我们选择了漂浮瓶作为检测目标来测试我们的模型。我们用于训练和评估的数据集收集在现实世界的内陆水域,包括河流和湖泊。一个摄像机以15Hz收集1280 720RGB图像。IMU以10Hz收集姿态信息。对于毫米波雷达,我们使用德州仪器77Ghz FMCW雷达AWR1843。雷达的最大作用距离设定为30m,距离分辨率为0.04m。雷达最大速度为4.10m/s,速度分辨率为0.03米/秒。雷达帧速率也是10Hz。来自不同传感器的数据我们共收集了12000帧同步图像和雷达数据。为了避免高相似度连续帧引起的收益递减和模型过拟合,我们首先对数据进行下采样,最终选择了1895帧雷达数据和RGB图像。通过使用LabelImg工具[39]手动注释数据,并重复验证以确保注释质量。总共有3164个标记对象。根据Coco数据集[18]中常用的定义,占据面积小于32 × 32像素的对象被视为小对象。<在我们的数据集中,总共有1946个小物体。4.2. 实施和细节将数据集按4:1的比例分为训练集和测试集。在训练期间,可以使用多尺度数据增强方法,例如图像大小调整,图像放置和图像左右翻转用于我们的训练图像和RPDM,并且我们还随机调整图像的色调饱和度值。在实验中,我们采用过去的三个雷达帧数据生成雷达骨干输入RPDM。对于RPDM生成,我们将高斯核大小设置为101 × 101平方,方差σ0为30。为了保持模态之间的特征尺度一致性,我们通过在训练集上计算的 平 均 值 和 标 准 差 来 缩 放 每 个 模 态 我 们 使 用 与YOLOv4 [2]中相同的损失函数,其包含位置CIoU损失[48]、置信度损失和分类损失。在训练中,我们使用从VOC数据集[10]预训练的模型CSPDarknet53用于图像主干。我们的实现基于PyTorch,并在4个Nvidia GTX 1070 GPU上训练,初始学习率设置为1 e-3,批量大小设置为4。该网络使用ADAM优化器[14]训练 100个epochs,权重衰减为5 10−4,使用小批量StepLR下降算法,步长= 1,gamma = 0.9。在测试过程中,我们的RISFNet模型在嵌入式设备的VICE英伟达Jeston TX2的平均运行速度约为每秒6帧(FPS)。由于水下机器人的速度远低于自主车辆,我们的模型可以满足水面目标检测的实时性要求5. 定量评价5.1. 与单一模态的为了验证使用两种模态的融合在检测精度上的改进,我们将我们的方法与15269表1.使用我们的方法和基于单模态的方法在真实世界数据集上的结果。* AP35和AP50分别表示IoU阈值为35%和50%时表2.使用我们的方法和其他雷达视觉融合模型在真实世界数据集上的结果。方法AP35AP50CRF-Net [23]79.63%57.74%Li等人[16个]85.28%64.64%RISFNet(我们的)90.05%75.09%在真实世界数据集上使用单一模态的方法如表1所示,我们将RISFNet与基于RGB图像的4种所有基线方法和我们的方法中使用的训练集和测试集都是相同的。至于基线方法的训练设置,我们使用推荐的结果表明,与基于单传感器的方法相比,视觉与雷达数据融合的小目标检测性能有明显提高5.2. 与其他融合模型的比较。为了验证与自动驾驶中使用的其他基于雷达视觉融合的方法相比,使用我们的方法检测小物体的改进,我们使用公共代码在我们的数据集上测试了[23]和[16我们数据集中的结果如表2所示。此外,参考最近的工作,我们还在nuScenes数据集上测试了我们的方法[3]。我们将我们的方法与[16]进行比较,使用与他们工作中使用的相同的迷你数据集实现。[16]的平均精度(mAP)为24.3%,我们的方法的mAP为28.25%。结果表明,我们的方法也表现良好,在现实世界的场景下,而不是在内陆水域,如道路上的自动驾驶。(a) 阈值=6(b)阈值=11(c)阈值=20图8.图示出了投影到图像上的不同CFAR阈值下的同一帧的雷达点云(a)(b)第(1)款图9. (a)该图显示了不同雷达CFAR检测器阈值下的平均精度(AP)。我们的融合模型的AP是高于AP的模型,仅依赖于视觉信息,尽管雷达退化。(b)该图显示了我们的模型的AP和不同图像亮度下的视觉基线。我们的模型达到了更高的精度,并表现出更好的鲁棒性时,图像退化。5.3. 鲁棒性分析该方法的鲁棒性对多传感器的深度融合预期当一个传感器劣化或甚至变得完全不可用时,融合模型的性能应该比使用单个传感器更好。因此,我们测试如何执行的条件下,雷达或图像退化分别。在我们的实验中,我们仍然使用在正常数据集上训练的模型。雷达退化。对于雷达点云,雷达信号处理流水线中所使用的探测器参数是至关重要的。通常,检测器的阈值被调整以满足不同任务和应用场景的要求。较高的阈值通常导致有效目标的稀疏点云。如果阈值太高,目标将无法被检测到,这意味着雷达数据在传感器融合中的贡献很小。反之,如果阈值太低,则会有更多的水杂波点,导致对检测系统的干扰。为此,通过改变雷达恒虚警检测器的门限进行鲁棒性分析(如图8所示)。结果示于图9(a)中。可以看出,当雷达数据退化(有效目标点减少或杂点增加)时,我们的模型仍然优于仅依赖于视觉信息的模型图像退化。对于RGB图像,我们主要考虑光照条件的变化对图像的影响模态方法AP35AP50图像[31]第三十一话77.35%57.58%YOLOv4 [2]78.46%57.04%有效检测[37]78.62%58.52%FCOS [38]68.71%58.56%雷达Danzer等人[八]《中国日报》VoteNet [26]25.44%36.98%18.81%百分之二十点15270表3.采用不同雷达数据输入格式的模型的检测精度雷达点云表示AP35AP50RPDM(我们的)90.05%75.09%RPDM(仅密度图)82.48%63.93%RPDM(仅范围密度图)88.80%72.20%RPDM(仅速度密度图)83.67%64.01%RPDM(仅能量密度图)84.59%66.85%点云(PointNet [27])87.12%60.06%点云(PointNet++[28])87.64%69.55%雷达稀疏图像[5]87.12%69.58%线形雷达图像[16]85.15%66.48%在真实的户外环境下。结果示于图9(b)中。当改变输入RGB图像的亮度时,模型的精度降低,但仍高于仅使用相机的模型的精度。平台与环境。 对于现实世界的appli-阳离子,我们评估了所提出的方法的鲁棒性的两个条件下,USV的速度和水波干扰的增加。由于水下机器人的速度不断提高,在数据采集过程中,水下机器通过对雷达数据帧速率进行下采样,模拟出更高的速度(4 m/s)我们的方法的结果是89.98%(AP35)。对于水波干扰,我们分别在我们的数据集中的波浪场景数据上测试我们的模型,结果为89.22%(AP35)。5.4. 消融研究输入雷达数据格式。我们评估了不同的雷达点云输入格式如何影响模型的性能。对于直接使用3D点云的特征提取方法,我们使用PointNet [27]和PointNet++[28]。从表3可以看出,所提出的RPDM能够更好地表示雷达点云信息。模型架构。首先,对于主干块,我们测试了分别从雷达数据和图像中提取特征,以及使用一个主干从两个传感器的级联数据中提取特征结果示于表4中。可以看出,分别从雷达数据和图像中提取特征更有效。此外,我们只使用单帧雷达数据评估模型的性能。如表4所示,时间位置编码和自注意块对于增强雷达数据是有效的。最后,我们评估的模型的性能,而不引入全局注意力模块,以测试其影响。实验结果表明,全局注意模块对检测准确率的贡献较小表4.模型结构的消融研究结果消融方式AP35AP50RISFNet(我们的)90.05%75.09%仅使用一个主干82.81%63.68%使用单帧雷达数据88.34%68.83%不使用位置编码89.72%72.24%不使用自我注意88.72%71.38%不使用全球关注88.95%70.40%图10.我们的方法在测试数据集上的检测结果:蓝色框是地面实况,绿色框是IOU阈值为0.5的检测结果。我们的方法表现出良好的性能在内陆水域的小物体检测。活泼然而,当我们评估退化的传感器数据的模型,没有全局注意模块的模型的AP35为87.34%,而该模块的模型的AP35为90.05%,这表明全局注意模块可以提高模型的鲁棒性可视化。检测结果的可视化如图10所示。可以看出,我们的方法在具有挑战性的情况下显示出强大的鲁棒性,例如:波浪的河流(雷达退化情况),这使得雷达数据包含来自水的聚类点以及在不同天气和光照条件下的亮或暗场景(图像退化情况)。6. 结论在本文中,我们研究了内陆水域USV的一项相对未探索的任务:小目标检测提出了一种有效表示雷达点云的新方法,以及一种基于雷达-视觉融合的目标检测模型。我们的模型采用了深层次的融合RGB图像和多帧毫米波雷达数据在多尺度。在基于真实世界的漂浮瓶检测数据集的实验中,与基于视觉的目标检测方法相比该方法可应用于自主驾驶和移动机器人的鲁棒雷达视觉融合的目标检测。未来,我们计划进一步扩展我们发布的水面小物体数据集。将增加激光雷达等传感器,以支持使用各种模态融合的物体检测研究,并进一步提高小物体检测系统的准确性和鲁棒性。15271引用[1] Abir Akib,Faiza Tasnim,Disha Biswas,Maeesha BinteHashem , Kristi Rahman , Arnab Bhattacharjee , andShaikh Anowarul Fattah.无人漂浮垃圾收集机器人。在TENCON 2019-2019 IEEE区域10会议(TENCON),第2645-2650页。IEEE,2019。1[2] Alexey Bochkovskiy,Chien-Yao Wang,and Hong-YuanMark Liao. Yolov4:目标检测的最佳速度和准确性。arXiv预印本arXiv:2004.10934,2020。二五六七[3] 放大图片作者:Holger Caesar,Varun Bankiti,AlexH.Lang,Sourabh Vora,Venice Erin Liong,Qiang Xu,Anush Krishnan,Yu Pan,Giancarlo Baldan,and OscarBeijbom.nuscenes:用于自动驾驶的多模态数据集。arXiv预印本arXiv:1903.11027,2019。七个[4] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes:自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集,第11621-11631页,2020年。二个[5] 西蒙·查德威克威尔·马登保罗·纽曼使用雷达和视觉的远距 离 车 辆 检 测 。 2019 年 国 际 机 器 人 与 自 动 化 会 议(ICRA),第8311-8317页。IEEE,2019。三、四、八[6] Shuo Chang , Yifan Zhang , Fan Zhang , XiaotongZhao,Sai Huang,Zhiyong Feng,and Zhiqing Wei.毫米波雷达与视觉传感器空间注意力融合障碍物检测传感器,20(4):956,2020. 三、五[7] Joseph Curcio John Leonard和Andrew Patrikalakis一种用于合作自主研究的低成本自主水面平台。在Proceedingsof OCEANS 2005 MTS/IEEE,第725-729页中。IEEE,2005年。一个[8] 安德烈亚斯·丹泽、托马斯·格里贝尔、马丁·巴赫和克劳斯·迪特迈尔。 雷达数据中的二维汽车检测。 2019年IEEE智能交通系统会议(ITSC),第61-66页IEEE,2019。七个[9] Dou Zi-Yi , Zhaopeng Tu , Xing Wang , LongyueWang,Shuming Shi,and Tong Zhang.基于协议路由的神经机器翻译的动态层聚合。在AAAI人工智能会议论文集,第33卷,第86-93页,2019年。五个[10] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303-338,2010。六个[11] Wided Hammedi , Metzli Ramirez-Martinez , PhilippeBrunet , Sidi-Mohamed Senouci , and Mohamed AyoubMes-sous.陆地导航中基于深度学习的实时目标检测。在2019年IEEE全球通信会议(GLOBECOM)上,第1-6页IEEE,2019。三个[12] 杰虎,李申,孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集,第7132-7141页,2018年。五个[13] Vijay John和Seiichi Mita Rvnet:单目摄像机和雷达的深度传感器融合,用于在具有挑战性的环境中进行基于图像的障碍物检测环太平洋研讨会15272图像和视频技术,第351-364页。Springer,2019年。三个[14] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。六个[15] Sung-Jun Lee,Myung-Il Roh,Hye-Won Lee,Ji-SangHa,Il-Guk Woo,et al.使用实时目标检测神经网络的无人水面车辆的基于图像的船舶检测和分类。第28届国际海洋与极地工程会议国际海洋和极地工程师协会,2018年。二个[16] 李良群,谢元良。一种基于雷达和摄像机传感器的特征金字塔融合检测算法。2020年第15届IEEE信号处理国际会议(ICSP),第1卷,第366IEEE,2020年。三、四、七、八[17] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页,2017年。四个[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740Springer,2014. 六个[19] Dario Madeo、Alessandro Pozzebon、Chiara Mocenni和Duccio Bertoni。低成本无人水面航行器用于全面水质监 测 。 IEEE Transactions on Instrumentation andMeasurement,69(4):1433-1444,2020。1[20] Michael Meyer和Georg Kuschk。基于深度学习的汽车雷达和摄像头三维目标检测。2019年第16届欧洲雷达会议(EuRAD),第133IEEE,2019。三个[21] Sebastian Moosbauer,Daniel Konig,Jens Jakel,andMichael Teutsch.海洋环境中基于深度学习的目标检测基准。在IEEE/CVF计算机视觉和模式识别研讨会会议记录中,第0-0页,2019年。二个[22] 拉明·那巴提、齐海荣。Rrpn:用于自动驾驶车辆中物体检测的在2019年IEEE图像处理国际会议(ICIP),第3093-3097页IEEE,2019。三个[23] Felix Nobis、Maximilian Geisslinger、Markus Weber、Jo- hannes Betz和Markus Lienkamp。基于深度学习的雷达和相机传感器融合架构,用于目标检测。2019年传感器数据融合:趋势,解决方案,应用(SDF),第1-7页。IEEE,2019。三、七[24] Sujeet Milind Patole,Murat Torlak,Dan Wang,andMur-taza Ali.汽车雷达:信号处理技术综述。IEEESignal Processing Magazine,34(2):22二个[25] Dilip K Prasad、Deepu Rajan、Lily Rachmawati、EshanRaja- bally和Chai Quek。用于海洋环境中目标检测和跟 踪 的 光 电 传 感 器 的 视 频 处 理 : 调 查 。 IEEETransactions on Intelligent Trans- portation Systems,18(8):1993-2016,2017。二个15273[26] Charles R Qi,Or Litany,Kaiming He,and Leonidas JGuibas.点云数据中三维目标检测的深度霍夫投票。在IEEE/CVF计算机视觉国际会议集,第9277-9286页,2019年。七个[27] Charles R Qi, Hao Su ,Kaichun Mo , and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。在IEEE计算机视觉和模式识别集,第652八个[28] Charles R Qi,Li Yi,Hao Su,and Leonidas J Guibas.Point- net++:度量空间中点集上的深度层次特征学习。arXiv预印本arXiv:1706.02413,2017。八个[29] Dal
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功