高清雷达距离-多普勒频谱的快速傅立叶变换训练模型

187 浏览量更新于2023-10-25 收藏 2.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17021用于多任务学习的Julien Reb ut1Arthur Ouaknine1，2W aqas Malik3P atrickPe' rez11：Valeo.ai，巴黎，法国 2：Te' le' comParis，巴黎，法国 3：ValeoNorthAmericaInc.，加利福尼亚州圣马特奥图1. 我们的RADIal数据集概述。RADIal包括一组3个传感器（摄像头，激光扫描仪，高清雷达），并配备GPS和车辆的CAN跟踪;以原始格式记录25 k同步样本。(a)摄像机图像，投影激光点云为红色，雷达点云为靛蓝色，车辆注释为橙色，自由驾驶空间注释为绿色;（b）带有边界框注释的雷达功率谱;（c）自由驾驶空间鸟瞰图注释，车辆用橙色边界框注释，雷达点云用靛蓝色标注，激光点云用红色标注;（d）覆盖雷达点云和激光点云的笛卡尔坐标距离方位图;（e）红色的GPS轨迹和绿色的里程轨迹重建。摘要凭借其对恶劣天气条件的鲁棒性和测量速度的能力，雷达传感器已经成为汽车领域的一部分超过二十年。最近的进展，对高清晰度（HD）成像雷达驱动的角度分辨率低于度，从而接近激光扫描性能。然而，高清雷达提供的数据量和估计角位置的计算成本仍然是一个挑战。在本文中，我们提出了一种新的高清雷达传感模型，FFT-RadNet，消除了计算距离-方位-多普勒3D张量的开销，而是学习从距离-多普勒频谱中恢复角度。快速傅立叶变换- RadNet被训练来检测车辆和分割自由驾驶空间。在这两项任务中，它与最新的基于雷达的模型竞争，同时需要更少的计算和内存。此外，我们还从各种环境（城市街道，高速公路，乡村道路）中的同步汽车级传感器（摄像头，激光，高清雷达）收集并注释了2小时的原始数据。这个独特的数据集，昵称为 “Radar，LiDAR等 "的 RADIal ，可在https://github.com/valeoai/RADIal上获得。1. 介绍汽车雷达自90年代末以来一直在生产。他们是首选，最实惠的传感器，自适应巡航控制，盲点检测和自动紧急制动功能。然而，它们的角分辨力较差，这阻碍了它们在自动驾驶系统中的应用.实际上，这样的系统需要高水平的安全性和鲁棒性，通常通过恢复机制来实现。虽然通过融合几种方式来改善感知，但只有当每个传感器都达到足够的和可比较的性能时，整体组合才能起作用。高清晰度（HD）成像雷达已经出现以满足这些要求。通过使用密集的虚拟天线阵列，这些新传感器在方位角和仰角（分别为水平和垂直角位置）并产生更密集的点云。随着深度学习的快速发展和公共驾驶数据集的可用性，例如。，[4，6，12]，基于视觉的驾驶系统的感知能力（物体、结构、标记和标志的检测，深度的估计，其他道路使用者的运动的预测）已经得到了显著的这些进步迅速扩展到深度传感器，如激光扫描仪（LiDAR），在特定架构的帮助下处理3D点云[19，42]。17022雷达数据PEiesce数据集年规模ADCRADRA或RDPC多普勒雷达天线莫达里特塞昆安诺类型nuScenes [4]2019大✗✗✗✓✓LDCLO✓3D盒子阿斯提克斯[24]2019小✗✗✗✓✓HDCL✗3D盒子雷达机器人汽车[1]2020大✗✗✓✗✗SCLO✓✗卡拉达[31]2020小✗✓✓✓✓LDC✓2D框，分段。辐射[38]2020介质✗✗✓✗✗SCLO✓二维盒子[17]第十七话2020介质✗✗✓✓✗SCLO✓✗萨格勒布[27]2020小✗✗✓✓✓HDCL✓二维盒子CRUW [41]2021介质✗✗✓✗✗LDC✓点位置雷达场景[36]2021大✗✗✗✓✓HDCO✓逐点RADDet [43]2021小✗✓✓✗✓LDC✓二维盒子径向（我们的）2022介质✓✓✓✓✓HDCLO✓2D框，分段。表1. 公开的雷达驾驶数据集。数据集是雷达是低清晰度（“LD”）、高清晰度（“HD”）或扫描（“S”）的，其数据以不同的表示形式发布，相当于不同的信号处理管道：模数转换器（ADC）信号、距离-方位-多普勒（RAD）张量、距离-方位（RA）视图、距离-多普勒（RD）视图、点云（PC）。多普勒信息的存在取决于雷达传感器。其他传感器模态是相机RADIal是唯一一个提供高清雷达的每种表示的数据集，结合了相机，LiDAR和里程计，同时提出了检测和自由空间分割任务。令人惊讶的是，与其他传感器相比，在这种情况下采用深度学习进行雷达处理的速度要慢得多。这可能是因为数据的复杂性和缺乏公共数据集。事实上，最近在基于雷达的车辆感知领域的关键贡献有趣的是，最近的作品利用的距离-方位角（RA）表示的雷达数据（无论是在极坐标或笛卡尔坐标）。类似于鸟瞰然而，一个几乎没有提到的缺点是，RA雷达地图的生成产生了显著的处理成本（数十GOPS，见第6.5节），这损害了其在嵌入式硬件上的可行性。虽然新型高清雷达提供了更好的分辨率，但它们使这种计算复杂性问题变得更加严重。由于HD雷达的前景，我们的工作攻击这个问题，以提高其实用性。具体而言，我们建议：（1）FFT-RadNet，一种优化的深度架构，以降低的成本处理HD雷达数据，用于两种不同的感知任务，即车辆检测和自由空间分割;（2）在性能，复杂性和内存占用方面比较各种雷达信号表示的经验分析;（3）RA-DIal，第一个原始HD雷达数据集，包括几个其他汽车级传感器，如表1所述。本文的组织结构如下：第二、三部分介绍了雷达的背景和相关工作; FFT-RadNet和RADIal分别在第4节和第5节中介绍;实验报告见第6节，第7节总结。2. 雷达背景雷达通常由一组发射和接收天线组成。发射器发射电磁波，电磁波被环境中的物体反射回接收器。在汽车工业中的标准[3，13]，调频连续波（FMCW）雷达发射称为啁啾的调频信号序列。发射和接收之间的频率差因此，该距离经由沿着线性调频脉冲序列的快速傅里叶变换（FFT）（范围- FFT）来提取。沿时间轴的第二FFT（多普勒-FFT）提取相位差，其捕获反射器的径向速度。这2个FFT的组合为每个接收天线（Rx）提供了距离多普勒（RD）频谱可以通过使用多于一个Rx来估计到达角（AoA）。由于Rx天线之间的小距离，观察到接收信号中的相位差。通常的做法是沿着信道轴应用第三FFT（角度FFT）来估计该AoA。雷达分辨距离和速度相同但角度不同的两个目标的能力称为雷达的角分辨率。它与天线孔径成正比，即第一个和最后一个天线之间的距离。多输入多输出（MIMO）方法[9]通常用于在不增加物理孔径的情况下提高角分辨率：角分辨率增加了一个因素2为每个添加发射-丁天线（Tx）。将NTx和NRx分别表示其Tx和Rx信道的数量，MIMO系统构建了一个MIMO系统。17023·O·NTxNRx天线的虚拟阵列。为了防止发射的信号干扰，发射机在同一时间发射相同的信号，但在两个连续的天线之间有轻微的相移。这种方法的缺点是每个反射器的签名在RD频谱中出现N次Tx，使得数据交织。为了将AoA转换成有效角度，需要校准传感器。第三FFT的替代方案是在复数域中将RD谱与校准矩阵相关，以估计角度（方位角和仰角）。对于RD张量的单个点，该操作的复杂度为（NTxNRxBABE），其中BA和BE是校准矩阵中分别用于方位角和仰角的离散化仓的数量。对于距离-方位角-仰角-多普勒中的4D表示，需要对RD张量的每个点执行该操作。1因此，对于嵌入式HD雷达，传统的信号处理方法在计算量和内存占用方面都过于资源贪婪，不能应用。因此，对于驾驶辅助3. 相关工作雷达数据集。传统雷达在成本和性能之间提供了良好的权衡。虽然它们提供精确的距离和速度，但它们的方位分辨率低，导致在分离近距离物体时的模糊性。最近的数据集包括经过处理的雷达表示，例如整个距离-方位-多普勒（RAD）张量[31，43]或该张量的单个视图-这些表示需要大的带宽来传输以及大的存储器存储。因此，包括具有大量样本的几种模态的数据集（如nuScenes [4]）仅提供雷达点云，这是一种较轻的表示。然而，它是一个有限的处理表示，它是偏向于信号处理流水线。其他几个数据集使用360毫米扫描雷达[1，17，38]。然而，它的角分辨率是有限的，与传统的雷达，它不提供多普勒信息。如前所述，最近的HD雷达成功地达到了an azimuth angular resolution below the degree using largearrays of virtual antennas. Zendar数据集[27]为这样的雷达提供了距离-多普勒和距离-方位角视图。Astyx [24]和RadarScenes [36]数据集都包含作为点云处理的高清雷达数据。据我们所知，目前还没有开源的高清雷达数据集提供原始数据和摄像头，1考虑HD雷达0. 方位分辨率超过180°时代和激光雷达在各种驾驶环境中的应用，我们的数据集正在填补这一空白。表1总结了公开的雷达驾驶数据集的特征。雷达目标探测低清晰度（LD）雷达已被用于许多应用，如手势识别[10]、大门处的物体或人员检测[15]和空中监控[26]。对于汽车应用，选择RAD张量的单个视图作为特定神经网络架构的输入，以检测所考虑视图中的对象不同的是，[44]使用雷达视图来定位相机图像中的对象，[2]提出了一种两阶段方法来估计仅使用RD视图检测到的对象的方位角。已经设计了特定架构来摄取RAD张量的聚集视图以检测RA视图中的对象[11，23]。整个张量也被认为是-德，无论是在RA和RD视图的对象检测[43]或用于相机图像中的对象定位[32]。由于已应用的预处理，雷达点云包含的信息比RAD视图然而，[7，35]探索了使用LR雷达进行2D物体检测的这种表示，[25]表明HD雷达点云可以在此任务中优于LiDAR。这些作品都没有提到生成RAD张量或点云的预处理成本，这是理所当然的。事实上，HD雷达不能被前面提到的方法使用，因为它甚至不适合以[11]为例，应用于HD雷达，每次篡改的输入数据将占用450MB，需要4。5 1010FLOPS2仅用于一个高程（11个高程中的一个据我们所知，以前没有能够利用原始高清雷达数据进行扩展的端到端对象检测工作雷达语义分割。由于缺乏标注数据集，雷达表示的语义分割RA视图一直是多类[16]和自由空间[29]分割的研究主题。在[30]中考虑了整个RAD张量的多视图分割。还探索了雷达点云分割，以估计LD [22，39]或HD [33，34，37]雷达的鸟瞰图占用网格。再一次，这些方法中没有一种可以缩放到原始HD雷达数据以执行例如自由空间分割。此外，还没有以前的工作，无论是自由驾驶空间分割或语义分割，只使用高清雷达信号的RD视图。此外，没有现有的多任务模型，同时执行雷达目标检测和语义分割。接下来，我们详细介绍了我们的方法，以减少内存和复杂性，使用原始高清雷达信号执行车辆检测和自由驾驶空间分割。水平视场（FoV）和11个仰角，需要498个GFLOPS需要计算。2作为比较，ResNet50在256 px图像上需要4·109FLOPS。17024×D×Max×图2. 可训练MIMO预编码器。考虑三个发射器（NTx=3）和两个接收器（NRx=2），对象的签名在RD光谱中可见N Tx次。预编码器使用Atrous卷积来组织和压缩信号，在少于N个Tx·N个Rx输出通道中使用。4. FFT-RadNet架构我们的方法受到汽车限制的激励：必须使用汽车级传感器，并且嵌入式硬件上只有有限的处理/内存资源可用。在这种情况下，RD频谱是HD雷达唯一实用在此基础上，我们提出了一个多任务的体系结构，它由五个模块组成（见图1）。3）：• 预编码器将RD张量重组和压缩成有意义的紧凑表示;• 一种将低分辨率语义信息与高分辨率细节相结合的共享特征金字塔网络（FPN）编码器• 距离-角度解码器，其从所述特征金字塔构建距离-方位潜在表示;• 用距离-方位坐标• 预测自由驾驶空间的分割头。4.1. MIMO预编码器如第2节所述，MIMO配置为每个接收器实现一个复RD频谱。这导致维度（BR，BD，NRx）的复杂3D张量，其中BR和BD分别是距离和多普勒重要的是，要...理解一个给定的反射物体，比如前面的一辆汽车，是如何R表示该物体到雷达的实际径向距离，D表示用多普勒效应表示的相对径向对于每个接收器，其信号将是可见的N个Tx时间，每个发射器一个。更具体地，将在距离-多普勒位置（R ，（D+k ，k）[Dmax]）k=1···NTx处测量，其中k是多普勒频移（由发射信号中的相移k引起），Dmax是可以测量的最大多普勒。所测量的多普勒值以该最大值为模这种信号复杂性要求重新安排RD张量，这将有助于随后利用MIMO信息（以恢复角度），同时保持数据量处于控制之下。为此，我们提出了一种新的可训练的预编码器，该预编码器执行输入张量的这种紧凑重组（图2）。2）。为了最好地处理其沿多普勒轴的特定结构，我们首先使用适当定义的Atrous卷积层，其在正确的位置收集Tx和Rx信息。其用于一个输入信道的核的大小是1NTx，因此由Tx天线的数量定义，并且其膨胀量为δ=λBD，对应于多普勒频移λ的多普勒频点的数量。输入信道的数量是Rx天线的数量NRx。第二个卷积层，具有3 3内核，学习如何组合这些通道并压缩信号。两层预编码器与所提出的架构的其余部分端到端地训练。4.2. FPN编码器使用金字塔结构来学习多尺度特征是对象检测[20]和语义分割[45]中的常见做法。我们的FPN架构使用4个块，分别由3、6、6和3个残差层组成[14]。这些残差块的特征图形成特征金字塔。这一经典的编码器已被优化考虑到的性质的数据，同时控制其复杂性。信道维度实际上被选择为在整个距离范围上最好地编码方位角（即，在远距离处高分辨率和窄视场，在近距离处低分辨率和宽视场）。为了防止丢失小对象（通常是RD频谱中的几个像素）的签名，FPN编码器对每个块执行2 ×2下采样，导致张量大小在高度和宽度上总共减少对于类似的原因，并避免相邻Tx之间的重叠3×3卷积核。4.3. 距离-角度译码器距离-角度解码器旨在将输入特征图扩展到更高分辨率的表示。这种放大通常通过多个反卷积层来实现在我们的例子中，表示是17025××∈联系我们−图3. FFT-RadNet概述。FFT-RadNet是一个轻量级的多任务架构。它不使用任何RA映射或RAD张量，这将需要昂贵的预处理。相反，它利用包含所有距离、方位角和仰角信息的复杂距离-多普勒频谱。该数据由MIMO预编码器进行解交织和压缩。FPN编码器提取特征的金字塔，距离-角度解码器将其转换成潜在的距离-方位角表示。基于此表示，多任务头最终检测车辆并预测自由驾驶空间。由于轴的物理性质而不寻常：输入张量的尺寸分别对应于距离、多普勒和方位角，而将被发送到后续任务头的特征图应对应于距离-方位角表示。因此，我们交换多普勒和方位角轴以匹配最终的轴排序，然后放大特征图。然而，与方位角轴相比，距离轴具有更小的尺寸，因为在每个残差块之后，距离轴被抽取2倍，而方位角轴（以前的信道轴）增加。在这些操作之前，我们将11卷积应用于从编码器到解码器的特征图在交换轴之前，它会将方位角通道的尺寸调整反卷积层仅放大范围轴，产生与来自先前金字塔级别的特征图连接的特征图。应用两个Conv-BatchNorm-ReLU层的最终块，生成最终的距离-方位角潜在表示。分辨率为0。8米的范围和0。方位角为8°（即、1/4和1/8的原始分辨率。在距离和方位角上）。该单元大小足以分离两个靠近的对象。然后，回归部分精细地预测与检测到的对象相对应的距离值和方位值。为此，一个独特的3 × 3卷积层输出两个特征图，对应于最终的范围和方位角值。该双重检测头使用多任务损失进行训练，该多任务损失由应用于所有分类位置的焦点损失和仅应用于阳性检测的回归的“平滑L1”损失组成假设x是一个培训考试 -ple ， yclass0 ， 1BR/4×BA/8 及其分类基础和 yr gR2×BR/4×BA/8为相关回归的基础真值。FFT-RadNet的探测头预测了一个探测图y∈[0，1]BR/4×BA/8和相关的回归映射y∈r g∈R2×BR/4×BA/8.其训练损失如下：4.4. 多任务学习侦查任务。检测头的灵感来自Pixor [42]，这是一种高效且可扩展的单级模型。需要Ldet（x，yclas，yreg）=focal（yclas，yclas）+βsmooth-L1（yreg−yreg），其中β>0是平衡超参数。（一）RA潜在表示作为输入，并使用分别具有144、96、96和96个过滤器的四个Conv-BatchNorm层的第一公共序列来处理它。然后将该分支划分为分类路径和回归路径。分类部分是具有sigmoid激活的卷积层，其预测概率图。该输出对应于每个“像素”的二进制分类，为了减少计算的复杂性，它预测了一个粗略的RA地图，其中每个单元都有一个分割任务。自由驾驶空间分割任务被制定为像素级的二进制分类。分割掩码的分辨率为0。4米的范围和0。方位角2米它对应于原始距离和方位角分辨率的一半，同时仅考虑整个方位角FoV的一半（在[ 45°，45°]内）。RA潜在表示由两个Conv-BatchNorm-ReLu块的两个连续组处理，分别产生128和64个特征图。最后的1×1卷积输出a17026ΣΣ242D特征图，然后是S形激活，以估计每个位置可驾驶的概率。设x是一个训练样本，y∈{0，1}BR/2×BA/4是它的唯一热基当雷达和LiDAR都同意来自它们各自的点云的对象位置时。最后，进行手动验证以拒绝或确认标签。免费的真理与真理 seg ∈[0，1]BR/2×BA/4预测软检测空间标注是在凸轮上全自动完成的，地图分割任务使用二进制交叉熵损失来学习：时代影像在Cityscape上预先训练的DeepLabV 3 + [5]已经在我们数据集的一个小的手动注释部分上使用2个类（自由空间和occu-occu）Lfree（x，yseg）=（r，a）∈BCE（yseg（r，a），yseg（r，a）），（2）该模型对每个视频帧进行分割，并将得到的分割掩模从摄像机坐标系投影式中，λ =<$1，BR）×<$1，BA）。最后，已经可用的车辆边界框被子-从自由空间掩码中删除隔离区的质量端到端的多任务培训。的全FFT-RadNet模型通过最小化先前检测和分割损失的组合来训练：LMTL=Ldet（x，yclass，yreg）+λLfree（x，yseg），（3）Xw.r.t. MIMO预编码器、FPN编码器、RA解码器和两个头的参数;λ是平衡两个任务的正超参数。5. 放射数据集如表1所示，公开可用的数据集不提供LD雷达和HD雷达的原始雷达信号。因此，我们建立了一个新的数据集RADIal，用于研究汽车高清雷达。由于RADIal包括3种传感器模态所用传感器套件的规格详见补充资料。除摄像头外，所有传感器均符合汽车级标准。除此之外，还提供了车辆的GPS位置和完整的CAN总线（包括里程计）传感器信号以原始格式同时记录，不进行任何信号预处理。在HD雷达的情况下，原始信号是ADC。根据该ADC数据，可以生成所有常规雷达表示：距离-方位-多普勒张量、距离-方位和距离-多普勒视图或点云。RADIal包含约1-4分钟的91个序列，总共2小时。这总计约25，000个同步帧，其中8，252个帧标记有9，550辆汽车（详见补充文件）。Ve hicles的注释由图像平面中的2D框以及到传感器的真实世界距离和多普勒值（相对径向速度）组成。雷达信号的注释难以实现，因为RD谱表示对于人眼没有意义。车辆检测标签首先通过摄像头和激光扫描仪自动生成。RetinaNet模型[21]用于从相机中提取对象propos-als。然后，对这些建议进行了验证由于我们采用的自动方法以及从相机到真实世界的投影不准确，因此分割掩模有限。6. 实验6.1. 培训详情所提出的架构已经在RA-DIal数据集上训练，专门使用RD谱作为输入。RD频谱由复数组成，在将其传递到MIMO预编码器之前，我们沿着信道轴堆叠其实部和虚数据集已被分为训练集、验证集和测试集（约70%、15%和15%），使得来自相同序列的帧不能出现在不同的集合中。我们手动将测试数据集分为“难”和“易”两种情况。困难情况主要是雷达信号被扰动的情况，例如，通过与其他雷达的干扰、重要的旁瓣效应或金属表面上的显著FFT-RadNet架构使用第4.4节中详细描述的多任务损失进行训练，并根据经验设置以下超参数：λ= 100，β= 100和γ= 2。训练过程在100个epoch期间使用Adam优化器[18]，初始学习率为10- 4，每10个epoch衰减0.9。6.2. 基线所提出的架构已经比较，最近的贡献在雷达界。第3节中介绍的大多数计算方法都是为LD雷达设计的，由于内存限制，不能与HD雷达数据进行缩放。相反，选择具有相似复杂性的基线，考虑其输入表示（距离-方位角或点云），以进行公平比较。输入表示（RD，RA或点云）生成的整个训练，验证和测试集使用传统的信号处理管道。点云目标检测。Pixor [42]方法已被用于在雷达点云体素化为3D体积后检测车辆，17027××× − × −雷达整体容易硬输入AP（%）↑ AR（%）↑ R（m）↓ A（）↓ AP（%）↑ AR（%）↑ R（m）↓ A（）↓ AP（%）↑ AR（%）↑ R（m）↓ A（）↓模型◦◦◦皮克斯[42]PC96.4632.320.170.2599.0228.830.150.1993.2838.690.190.33皮克斯[42]RA96.5681.680.100.2096.8688.020.090.1695.8870.100.120.27FFT-RadNet（我们的）路96.8482.180.110.1798.4991.690.100.1392.9364.820.130.26表2. 在RADIal Test分割上的目标检测性能。用点云（“PC”）或距离-方位（“RA”）表示训练的Pixor与仅需要距离-多普勒（“RD”）作为输入的所提出的FFT-RadNet之间的比较。我们的方法在50% IoU阈值的平均精确度（“AP”）和平均召回率（“AR”）方面获得了与基线相似或更好的整体性能它还达到了类似或更好的范围轻松硬图4. 在简单和困难样本上的对象检测和自由空间分割的定性结果。相机视图（第1行）仅供视觉参考;RD光谱（第2行）是模型的唯一输入;两项任务均显示地面实况（第3行）和注意，由于车辆俯仰变化，可能存在从相机到真实世界的自由驾驶空间的投影误差。[0米，103米] [ 40米，40米] [ 2. 5米，2. 0米]雷达周围（纵向，横向和垂直范围），采样0。每个方向1米。因此，该输入3D网格的大小为1030 800 45。Pixor是一个轻量级架构，旨在实现实时。然而，它的输入表示生成96MB的数据，这对嵌入式设备来说是一个挑战。使用RA张量进行目标检测。如第3节所述，几种方法[11，23]使用RAD张量的视图作为输入。然而，对于高清雷达数据，内存使用量太大。正如[23]所示，仅使用RA视图可以提高目标检测的性能我们将我们的方法与没有体素化模块的Pixor架构进行了比较。它将RA表示作为输入，以半径表示，大小为512×896，范围值为[0m，103 m]，方位角为[-90，90]。自由空间分割。我们选择PolarNet [29]来评估我们的方法。它是一个轻量级的architec- ture旨在处理RA地图和预测自由空间。我们尽我们所能重新实现了它。6.3. 评估指标对于对象检测，考虑到交叉点，使用平均精度（AP）和平均召回率（AR）。雷达输入预测相机地面实况17028过度联盟（IoU）阈值为50%。对于语义分割，平均IoU（mIoU）度量用于二进制分类任务（空闲或占用）。该度量是在缩小的[0m，50 m]范围上计算的，因为超过该距离，路面的边界几乎不可见。6.4. 性能分析目标检测。表2中报告了对象检测的性能。我们观察到，使用距离多普勒作为输入的FFT-RadNet优于使用PC作为输入的Pixor基线（Pixor-PC），并达到比昂贵的Pixor-RA基线略好的性能。的位置型号雷达输入 mIoU（%）↑整体容易难[29]第29话：我的世界FFT-RadNet RD74.0 74.6 72.3表3. 自由驾驶空间分割性能。FFT-RadNet成功地近似了雷达数据中的角度信息，同时达到了比PolarNet更好的性能。请注意，这种性能是通过FFT-RadNet同时执行对象检测来实现的，因为我们的模型是多任务的。与Pixor-RA相比，在距离和方位角上的精度都是相似的，甚至在角度上更好这些结果方法输入大小(MB)↓#参数。（106）↓复杂度（GFLOPS）↓AoA程序模型表明我们的方法成功地学习了方位角，PCL Pixor98.306.938741从数据中提取。从制造业的角度来看，注意RA Pixor1.756.9245岁*761这将带来节省成本的机会，FFT-RadNet16.003.790584在所提出的框架中不再需要传感器的校准。在简易测试集中，与Pixor-RA相比，FFT-RadNet输送了+1.6%AP和+3.6% AR。然而，在硬测试集上，Pixor-RA表现最好。RA方法不会与硬样本斗争太多，因为数据由已经解决这些情况中的一些的相比之下，点云输入的性能比所有其他输入低得多。事实上，由于远距离点的数量有限，召回率很低。自由驾驶空间分割。表3中提供了自由驱动空间分割的性能。我们观察到FFT-RadNet的平均IOU显著优于这在一定程度上是由于RA图中缺乏高程信息，而高程信息存在于RD频谱中。6.5. 复杂性分析FFT-RadNet的设计首先是为了摆脱将ADC数据转换为稀疏点云或更密集表示（RA或RAD）的信号处理链，而不会影响信号的丰富性。由于输入数据仍然相当大，我们设计了一个紧凑的模型，以限制操作数量方面的复杂性此外，预编码器层显著地压缩输入数据。已进行消融研究，以确定特征图大小与模型性能之间的最佳权衡如Tab.所示FFT-RadNet是唯一不需要AoA估计的方法正如在第二节中所解释的。2中，预编码器层压缩包含所有信息的MIMO信号以恢复方位角和仰角。点云方法的AoA为av上约1000个点的稀疏云生成3D坐标表4. 复杂性分析。所提出的方法达到了输入的大小，模型的参数的数量和计算复杂度之间的最佳折衷。注意，RA Pixor方法（*）的AoA处理仅考虑单个仰角，否则对于整个BE=11仰角集合，其高达496 GFLOPS。在应用Pixor 进行对象检测之前，它可以实现 8 个GFLOPS的计算。为了产生RA或RAD张量，AoA针对RD图的每个单箱运行，但仅考虑一个高程。因此，这样的模型不能估计诸如桥梁或丢失的货物（低对象）之类的对象的高度。对于一个海拔高度，复杂度约为45 GFLOPS，但对于所有11个海拔高度，复杂度将增加到495 GLPOPS。我们已经证明，FFT-RadNet可以削减这些处理成本，而不会影响估计的质量。7. 结论我们介绍了FFT-RadNet，一种用于处理和分析HD雷达信号的新型可训练架构。我们证明，它有效地消除了昂贵的预处理，以估计RA或RAD表示的需要。相反，它检测和估计对象的位置，同时直接从RD频谱分割自由驾驶空间。FFT- RadNet的性能略优于基于RA的方法，同时降低了处理要求。实验是在RADIal上进行的，RADIal是一个新的数据集，它是这项工作的一部分，包含汽车级传感器信号（高清雷达，摄像头和激光扫描仪）的序列。同步的传感器数据以原始格式提供，以便可以评估各种表示，并可以进行进一步的研究，可能采用基于融合的方法。17029引用[1] Dan Barnes ， Matthew Gadd ， Paul Murcutt ， PaulNewman，and Ingmar Posner. Oxford Radar RobotCar数据集：牛津RobotCar数据集的雷达扩展。在ICRA，2020年。二、三[2] Daniel Brodeski，Igal Bilik，and Raja Giryes.深层雷达探测器。在RadarConf，2019年。3[3] 格雷厄姆M布鲁克。了解毫米波调频连续波雷达。ICST，2005年。2[4] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan ， Yu Pan ， Gi- ancarlo Baldan ， andOscar Beijbom.nuScenes：用于自动驾驶的多模式数据集。在CVPR，2020年。一、二、三[5] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。6[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。1[7] 安德烈亚斯·丹泽、托马斯·格里贝尔、马丁·巴赫和克劳斯·迪特迈尔。使用PointNets在雷达数据中进行2D汽车检测。在ITSC，2019年。3[8] Xu Dong ， Wang Pengluo ， Zhang Pengyue ， andLangechuan Liu.汽车雷达中面向概率的目标检测。在CVPR Worshops，2020年。3[9] B·J·唐内特和I·D·朗斯塔夫。MIMO雷达，技术和机会。在EuRAD，2006年。2[10] S. Franceschini ， M. Ambrosanio ， S. Vitale ， F.Baselice，A.吉富尼湾Grassini和V.帕斯卡齐奥通过雷达传感器和卷积神经网络进行手势识别。在RadarConf，2020年。3[11] Xiangyu Gao，Guanbin Xing，Sumit Roy，and Hui Liu.RAMP-CNN：一种用于增强汽车雷达目标识别的新型神经网络。在传感器，2020年。三、七[12] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。IJRR，2013年。1[13] 安托万·加勒布雷达成像中非平稳运动目标。博士论文，巴黎电信2[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，2015。4[15] Xinrui Jiang ， Ye Zhang ， Qi Yang ， Bin Deng ， andHongqiang Wang.基于毫米波阵列雷达的多通道三维卷积神经网络步态识别。传感器，2020年。3[16] Prannay Kaul，Daniele De Martini，Matthew Gadd，andPaulNewman.RSS-Net:weakly-supervisedmulti-classsemantic segmentation with FMCW radar.第四，2020年。3[17] Giseop Kim ， Yeong Sang Park ， Younghun Cho ，Jinyong Jeong ， and Ayoung Kim. Mulran ： Multimodalrange dataset for urban place recognition. 在 ICRA ， 2020年。二、三17030[18] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。6[19] 亚历克斯 ·H Lang ， Sourabh Vora ， Holger Caesar ，Lubing Zhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。在CVPR，2019年。1[20] 放大图片作者：林宗毅，彼得 · 多尔，罗斯 ·B.Girshick，KaimingHe，Bharath Hariharan，and Serge J.贝隆吉用于对象检测的特征金字塔网络。在CVPR，2017年。4[21] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andP i otrDoll a'r. 密集目标检测的焦面损失。InICCV，2017. 6[22] 雅各布·隆巴切，基利安·劳特，马库斯·哈恩，尤尔根·迪克曼，克里斯蒂安·沃勒.语义雷达网格。2017年第四期。3[23] Bence Major、Daniel Fontijne、Amin Ansari、Ravi TejaSukhavasi 、 Radhika Gowaikar 、 Michael Hamilton 、Sean Lee、Slawomir Grzechnik和Sundar Subramanian。使用距离-方位-多普勒张量深度学习的汽车雷达车辆检测。在ICCV研讨会，2019年。三、七[24] Michael Meyer和Georg Kuschk。用于基于深度学习的3d物体检测的汽车雷达在EuRAD，2019年。二、三[25] Michael Meyer和Georg Kuschk。基于深度学习的汽车雷达和摄像头三维目标检测在EuRAD，2019年。3[26] Casian Miron，Alexandru Pasarica，and Radu Pastefte.用于多模态鸟瞰图目标分类的高效cnn结构。在CVPR研讨会，2021年。3[27] 作者：王庆明，戴然然，许建.用于动态对象半监督学习的高分辨率雷达数据集在CVPR研讨会，2020。二、三[28] Weichong Ng ， Guohua Wang ， Siddhartha ， ZhipingLin，and Bhaskar Jyoti Dutta.深度学习在汽车雷达中的距离-多普勒检测InIJCNN，2020. 3[29] Farzan Erlik Nowruzi 、 Dhanvin Kolhatkar 、 PrinceKapoor 、 ElnazJahaniHera vi 、 FahedAlHassanat 、RobertLag anie` re 、 Julien Rebut 和 Waqas Malik 。Polarnet：在极地地区使用汽车雷达加速了深层开放空间的分割在VEHITS，2021年。三、七、八[30] 阿瑟·瓦克宁，阿拉斯代尔·N·e·沃森，帕特里克·佩雷斯，佛罗伦萨·图平，朱利安·雷布特。多视角雷达语义分割。ICCV，2021。3[31] 阿瑟·瓦克宁，阿拉斯代尔·纽森，朱利安·雷布特，弗洛伦斯·图平，和帕特里克·佩雷斯。Carrada数据集：带有距离-角度-多普勒注释的照相机和自动在ICPR，2021。二、三[32] 放大图片作者：Andras Palffy，Jiaao Dong，Julian F. P.Kooij和Dariu M.加夫里拉使用3D雷达立方体的基于CNN的道路用户检测。在RAL，2020年。3[33] Robert Prophet ， Anastasios Dkillannis ， Juan-CarlosFuentes-Michel，Ingo Weber，and Martin Vossiek.用于汽车雷达的3D占用网格的语义分割在

下载后可阅读完整内容，剩余1页未读，立即下载