雷达感知的时间关系在自动驾驶中的应用

87 浏览量更新于2023-10-25 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17071利用雷达感知的时间关系实现自动驾驶李培昭1*，王璞2，Karl Berntorp2，刘鸿福11布兰迪斯大学，三菱电机研究实验室{peizhaoli，hongfuliu} @ brandeis.edu，{pwang，berntorp} @ merl.com摘要我们考虑使用汽车雷达传感器的自动驾驶中的物体识别问题。与激光雷达传感器相比，雷达在全天候条件下具有成本效益和鲁棒性，可用于自动驾驶的感知然而，雷达信号在识别周围物体时遭受低角度分辨率和精度。为了增强汽车雷达的能力，在这项工作中，我们利用时间信息从连续的自我为中心的鸟瞰雷达图像帧的雷达目标识别。我们利用对象存在和属性（大小、方向等）的一致性，并提出了一个时间关系层来明确地对连续雷达图像内的对象之间的关系进行在目标检测和多目标跟踪中，我们显示了我们的方法相比几个基线方法的优越性1. 介绍自动驾驶利用传感技术进行鲁棒的动态物体感知，并依次使用感知进行可靠和安全的车辆决策[34]。在各种感知传感器中，相机和激光雷达是用于周围物体识别的两个主要传感器摄像头提供交通场景的语义丰富的视觉特征，而激光雷达提供高分辨率的点云，可以捕获物体的反射。与摄像头和激光雷达相比，雷达在汽车应用中具有以下独特优势雷达主要工作在77GHz，发射毫米波长的电磁波来估计物体的距离、速度和角度。在这样的波长下，它可以在雨，雾，雪和灰尘等条件下穿透或衍射微小颗粒，并在这些恶劣的天气条件下提供远距离感知[35]。相比之下，激光雷达以更短的波长发送的激光可能会从这些微小颗粒上反弹，这导致操作范围显着减少。与照相机相比，雷达还能适应光照条件，夜晚和太阳眩光。此外，雷达提供了一种经济有效且可靠的选择*在MERL图1.展示两个连续的雷达图像和来自辐射数据集的相应相机记录[20]。从上到下，我们展示了正常、有雾和下雪天气下的示例边界框是对象的地面实况注释，其颜色暗示对象ID。绘制的箭头显示对象的外观和属性在短时间内的一致性长度、宽度和方向。以补充其他传感器。根据Luminar的积极估计，激光雷达的成本预计在500 - 1000美元之间[1]。相比之下，汽车雷达预计在2022年将低于100美元[8]。然而，作为雷达辅助的汽车感知的缺点，方位角和仰角域中的高角分辨率是必不可少的。在最近开放访问的汽车雷达数据集中，1μ m的方位分辨率变得可用，而仰角分辨率仍然落后。在1μ m的方位分辨率下，短距离内物体的语义特征，可以观察到角和形状，而由于横向分辨率，远距离处的对象仍然可以是模糊的。总之，雷达定位和识别物体的能力仍然落后于全级别自动驾驶。从算法的角度来看，已经采取了一些最近的努力来利用和增强汽车雷达以用于对象识别[14]提出了一种使用距离-方位角-多普勒测量的深度学习[16]第十六话17072Σ通过同步雷达和激光雷达信号进行探测。类似地，[12，30]利用多模态感测融合。除了深度学习之外，贝叶斯学习还试图用雷达点云来解决扩展对象跟踪问题[28，31]。上述工作主要集中在用于鲁棒感知的多模态传感融合[12，16，30]。不同的是，在本文中，我们采取我们的尝试，以提高感知只使用雷达信息，这需要较少的感知资源，并避免了复杂的多模态传感器之间的信号同步过程。在本文中，我们认为以自我为中心的鸟瞰雷达点云在笛卡尔坐标系，其中像素值表示的反射强度。我们开发了一种方法来增强雷达感知使用时间信息。基于图1中的观察，我们假设雷达在连续帧内检测到的相同物体是一致的，并且具有几乎相同的属性，例如物体因此，通过对象级相关性，可以通过先前/未来帧来促进在一个帧处的检测。为了补偿雷达传感器引起的模糊和低角分辨率，我们涉及到时间性和incor- porate定制的时间关系层，以显式地处理连续帧之间的对象级关系。时间关系层在潜在的对象通俗地说，该层链接时间相似的对象并传输它们的表示，并且类似于特征平滑。因此，时间关系层可以插入对象时间一致性的归纳偏差。之后，对象热图（指示对象的中心）和相关属性被推断在来自时间关系层的更新的特征表示上在这项工作中，我们考虑了自动驾驶中使用雷达的物体识别问题，这是一种具有独特优势的关键替代传感技术我们强调我们工作的主要贡献如下：• 我们用附加的时间信息来促进雷达感知，以补偿雷达传感器引起的模糊和低角分辨率。• 我们设计了一个定制的时间关系层，其中网络插入了一个归纳偏见，在连续的帧中相同的对象应该共享一致的外观和属性。• 我们评估我们的方法在辐射数据集上的目标检测和通过与基线方法的综合比较，我们展示了我们的方法带来的一致的改进。2. 雷达感知：背景汽车雷达主要使用调频连续波形（FMCW）来检测物体和发电机，(a) 发送器（Tx）(b) 接收器（Rx）图2.基于FMCW的汽车雷达。在多个物理域上生成点云。如图2（a）所示，其通过其M个发射天线中的一个发射FMCW脉冲序列：Q−1sm（t）=cm（q）sp（t-nTPRI）ej2πfct，（1）q=0其中m和q是用于发射天线和脉冲的索引，Tpri是脉冲重复间隔，fc是载波频率（例如，79GHz），并且sp（t）是基带FMCW 波形（如图2 （a ）中的正弦曲线所示）。一个物体在R0的范围内，具有径向速度vt和远场空间角（即，方位角、仰角或两者）在图2（b）的N个接收器RF链（包括低噪声放大器（LNA）、本地振荡器（LO）和模数转换器（ADC））中的每一个处对接收到的FMCW信号引入幅度衰减和相位调制。来自目标的感应调制由图1中的基带信号处理块（包括在距离、多普勒和空间域上的快速傅立叶变换（FFT）第2段（b）分段。所有这些过程导致一个多维光谱。通过将频谱与自适应阈值进行比较的恒虚警率（CFAR）检测步骤，在距离、多普勒、方位角和仰角域中生成雷达点云[3，10，25]。考虑到计算和成本的限制，汽车雷达制造商可以在全四维的子集中定义雷达点云例如，传统的汽车雷达在距离-多普勒域中生成检测点，而一些汽车雷达在距离-多普勒-方位角平面中生成点[17]。在辐射数据集中[20]17073前HM∈||∈F·CC+pSSθSSSSCθc xyθC K×Σ Σ∈∈在本文中，雷达点云被定义在具有360°视场的距离-方位平面中。将得到的极坐标点云进一步转换为以自我为中心的笛卡尔坐标系，然后转换为标准的沿着通道维度与来自浅层的那些相连接三个跳跃连接插入到网络中，以驱动特征包含四个不同层次的语义最后一个从背面看的特征表示体素化可以将点云转换成图像。骨神经网络的结果是Z，Z∈RC×H×W，3. 具有时间性的雷达感知我们在图3中展示了我们的框架。对应于图3从上到下，在随后的部分中，我们介绍了从两个连续帧中提取时间特征，时间关系层，学习方法，然后扩展到多目标跟踪。我们澄清以下符号。θ表示其中s是空间维度上的下采样比率锡永我们在附录A中增加了一个说明性的数字3.2.对象时态关系我们设计了一个时间关系层来模拟连续帧中潜在对象之间的时间关系层从两个帧接收多个特征向量，每个向量表示雷达图像中的潜在对象我们应用一个神经网络中的可学习参数，以及简化-滤波模块Gpre-hm：RC×H×W→R1×H×W在fea-阳离子，我们用θ统一了所有模的参数符号我们使用一个括号后的三维矩阵来表示在某些坐标的特征收集过程。考虑一个特征表示Z∈RC×H×W图Zc和Zp选择用于关系建模的前K个Zc中的潜在物体的坐标集Pc通过以下等式获得其中C、H和W表示通道、高度和宽度，分别设P表示一个坐标（x，y）或一个集合P：={（x，y）|Gpre-hm（Z）≥[G（Z）]}，（3）二维坐标{（x，y）}K的基数其中[Gpre-hm（Z）]是Gpre-hm（Z）中的第K个最大值等于K且x，y∈R。Z[P]表示在θcKθcH W沿宽度和高度维度由P指示的坐标系，返回的特征为RC或RK×C。3.1. 时间特征提取将单个雷达框架表示为IR1×H×W。我们连接两个连续的雷达图像：当前帧和它的前一帧，沿通道维，在输入级的时间信息当前帧和前一帧的信道级联时间输入图像可以分别写为Ic+p和Ip+cR2×H×W.下标中的“当前”c和“先前”p的顺序我们通过将公式化的输入转发到下式来获得两个帧的特征表示：骨干神经网络工作Fθ（·）：Zc：=Fθ（Ic+p），Zp= Fθ（Ip+c）。（二）骨干网络θ（）建立在标准深度卷积神经网络中（例如，ResNet），并且模型参数被共享用于处理两个输入Ip+c和Ic+p。为了在特征表示中共同涉及高层语义和低层细节，我们在神经网络中的不同尺度下在特征之间建立跳过连接。具体而言，对于一个跳过连接，我们从深层对池化特征进行上采样，以通过双线性插值将其大小与包括卷积、非线性激活和批量归一化在内的一系列操作随后应用于上采样特征。接下来，上采样的特征是在空间s上，下标xy表示在坐标（x，y）处取值。显然，Pc的基数是Pc=K。通过将Zp代入Eq.（3），Pp对Zp也可以类似地得到.我们不包括来自由于后续注意力机制的计算复杂度向值K二次增长，因此所有坐标都进入时间关系层。通过将坐标集Pc和Pp带入特征表示，表示，我们有选择性特征矩阵为：Hc：=Zc[Pc]，Hp：= Zp[Pp]。（四）顺序地，令Hc+p：=Hc，Hp<$R2K×C表示形成时间关系层的输入的两个帧中的前K个所选特征的矩阵级联。我们补充的位置编码到特征向量之前，通过Hc+p到时间关系层。原因是卷积神经网络不将绝对位置信息包含到输出特征表示中，因为CNN享有平移不变性。然而，位置在对象时间关系中是至关重要的，因为在两个连续帧中处于一定空间距离的对象更可能相关联并且将共享相似对象同一物体之间的空间距离取决于帧速率和车辆的运动，并且可以通过数据驱动的方法来学习。将HposR2K×（C+Dpos）表示为通过特征级联由位置编码补充的特征，其中Dpos是位置编码的维度。位置编码从标准化的2D坐标投影（x，y）通过线性映射在[0，1]p17074√××−···0，1K，KK，KHl+1=softmaxv（H1pC+p图3.具有时间性的雷达目标识别框架从左到右，我们的方法采取两个连续的雷达帧，并提取时间特征，从每一帧。然后，我们选择可能是潜在对象的特征，并学习它们之间的时间一致性。最后，几个回归目标进行更新的特征的训练。有了上面的公式，我们就有了对跨框架关系建模的主要对于单个第l个时间关系层，我们使用上标l表示输入特征，使用l+1表示输出功能：在Eq.（5），我们顺序地应用前馈函数，该前馈函数由两个线性层、层归一化和特征上的快捷方式组成。关系建模是建立在多个时态关系层上的，具有相同的设计。最后，我们将更新后的特征H1+ 1和H 2 + 1进行分割。.M + q（Hl，pos）k（Hl，pos）C从Hl+1重新填充特征向量，C+pdc+p（五）在对应的空间坐标Pc和Pp上。下一小节中的回归是在其中q（）、k（）和v（）是应用于特征的线性变换层，并且分别被称为查询、键和值。d是查询和键的维度，用于缩放它们之间的点积掩蔽矩阵M∈R2K×2K定义为：M：=σ·.<$1K，K，0K，K<$−12K<$，（6）其中，1K，K是大小为K的全一矩阵K，0K，K是大小为K K的全零矩阵，12K是大小为2K的单位矩阵，σ是一个负常数，在我们的实现中设置为（1e+10），以保证通过softmax输出的值接近零。对角矩阵1K、K禁用来自同一帧的特征之间的注意，而非对角矩阵0K、K允许跨帧注意。此外，单位矩阵12K解锁对象的自我注意力。自注意背后的逻辑是，由于对象可以移出范围，因此在连续帧中不能总是保证相同的对象同现，因此当对象仅在一个帧中丢失时，自注意是期望的。值得注意的是，位置编码只附加到键和查询上，而不附加到值上，因此输出特性不涉及局部性。其他技术细节遵循Transformer [24]的设计，为了简化，这里我们省略了详细的描述。执行对象后，时间注意力跨越重新填充的特征表示。讨论上述特征操作与Transformer [24]有一些相似之处。Transformer是为语言表征学习而设计的，如果两个词在训练语料库中共享相关性，包括共存性，词位置和语义，则意图将词映射到相似的潜在表征。堆栈架构中的多头注意力操作可以理解为平滑语义相似单词的特征[4，6，11]。在我们的上下文中，在连续帧中具有相同ID的物体的特征应该是相关的并且共享类似的潜在表示。这一点尤其重要，因为潜在表示存储了所有与对象相关的属性，并将用于随后的解码目的，如3.3节所述。对连续帧中同一目标的两个特征向量进行平滑处理，满足了我们的基本时间一致性假设，并且可以增强由于雷达模糊而导致的目标信息在一帧中部分丢失时3.3. 学习我们从热图中选取对象宽度、长度、方向和中心坐标偏移）。C+pC+p）的情况下，Zc和Zp17075X拉克什茨萨科夫茨yθG→·θG.| |θNHNhi=1我我NL1θGT我我θGTNL1θGTXy1Σ。Σ为了定位对象，热图中峰值的2D坐标被认为是对象的中心热图由模块Ghm获得：RC×H×W→骨干网络中的偏移下采样可能会导致每个对象的中心坐标偏移。热图中的中心坐标是整数，而真正的坐标是1×高×宽θs s由于空间原因，Nates很可能不在热图网格中Rss后跟一个sigmoid函数。我们生成通过将2D径向基函数（RBF）内核放置在每个地面实况对象的中心下采样为了补偿偏移，我们计算第k个对象的地面实况偏移量为：而RBF核中的参数σ被设置成比例物体的宽度和长度。考虑到雷达图像中物体的稀疏性，我们使用焦点损失[13]来平衡ok：=KKs−sck k，s−s、（11）地面实况中心和背景的回归，以及其中ck和ck是第k个中心坐标，s是下驱动预测的热图以近似地面实况x y热图令hi和hi表示第i个坐标处的地面实况和预测采样率，括号[ ]是整数的舍入操作。具有0：RCR2，中心位置偏移的回归可以类似地表示为：NL：=-1。1（1−h<$）αlog（h<$）我Lo：=1毫米光滑（<$Go（Z[Pk]）−ok<$）。（十二）k=1+1h<$=1（1−hi）βh<$αlog（1−h<$i）<$，训练所有上述回归函数组成最终的通过线性组合的训练目标其中，α和β是超参数，并根据经验选择。分别与2和4进行比较，遵循先前的工作[32]。同样的损失函数进行pre-hm，以纠正关系建模的特征选择。在-因此，在热图上设置阈值以将对象中心与背景区分开。应用非最大抑制以避免过多的边界框。宽度长度我们从位于特征图中心坐标的特征向量通过另一个回归头Gb：RC→R2预测定向边界框的宽度和长度。设Pk表示第k个地面实况对象bk的中心的坐标（x，y）包含第k对象，Z是Zc和Zp的统一符号。我们拥有：NLb：=Smooth<$Gb（Z[Pk]）−bk<$，（8）k=1minL：=Lh+Lb+Lr+ Lo.（十三）θ为了简化，我们省略了每项的平衡因子对于每个训练步骤，我们的训练过程计算损失L，并同时对当前帧和前一帧进行反向计算站在当前帧处，当前帧中的对象接收来自过去的信息以用于对象识别。另一方面，从先前帧的角度来看，对象利用来自最近未来帧的时间信息。因此，优化可以被视为朝向两个连续帧的双向前向-后向训练。现在，我们不将当前框架扩展到多个帧，因为中间帧不具有用于时间特征提取的输入图像的适当的协调顺序（既不是从过去到未来，也不是从未来到过去），并且会降低训练效率。其中L1平滑损失定义为：0的情况。5x2，如果x1<平滑L1（x）：=|-0。| − 0. 5否则（九）3.4. 扩展到多对象跟踪我们的框架可以很容易地扩展到在线多对象跟踪，通过调整类似的跟踪过程[36]。对于多目标跟踪，我们添加回归方位所有车辆在鸟瞰图中都会显示一个方位。[0°，360°）的角度范围可以通过物体的取向与本车辆的方位之间的偏差来测量。我们回归角度θ的正弦和余弦值，Gr：RC→R2：Lr ： =1<$Smooth （ <$Gr （ Z[P k] ） − （ sin（<$），cos（<$））<$）。指向中心特征向量，以预测当前帧和先前帧中保持相同跟踪ID的对象的中心之间的2D移动偏移。在跟踪译码中，我们简单地使用欧几里德距离来完成关联我们将多目标跟踪的详细说明和算法推迟到附录B。4. 实验4.1. 实验装置.（七）C17076Nk=1L1θgt（十）数据集我们使用雷达数据集辐射[20]在我们的前，在推理阶段，方向可以通过sin（sin）和cos（cos）经由arctan（sin（sin）/cos（cos））来预测。原因如下：（1）它含有高17077××表1. 辐射数据集上的对象检测实验结果TRL是“时态关系层”的缩写斯普利特：火车好天气斯普利特：火车好和坏天气RetinaNet-OBB-ResNet34 50.79±3.1035.61±3.357.67±1.7148.09±3.8531.10±3.376.93±1.60RetinaNet-OBB-ResNet34-T.52.52±4.6837.30±3.358.75±1.5042.95±3.463.98±1.55中心点-OBB-效率NetB 4 61.15±1.23 51.43±1.4520.31±1.7354.97±2.5942.37±2.1413.15±0.98CenterPoint-OBB-ResNet18 58.69±3.0949.41±2.9419.02±1.8055.83±3.2844.48±3.1914.43±2.56CenterPoint-OBB-ResNet34 59.42±1.9250.17±1.9118.93±1.4653.92±3.4442.81±3.0413.43±1.92BBAVectors-ResNet18 59.38±3.4750.53±2.0719.72±1.1056.84±3.4545.43±2.8715.07±1.76BBAVectors-ResNet34 60.88±1.7951.26±1.9919.86±1.3655.87±2.9044.61±2.5714.67±1.45Ours-EfficientNetB4-w/o TRL 60.77±0.9750.93±1.2720.31±1.7354.97±2.5942.37±2.1413.15±0.98我们的高效NetB 4-w. TRL 61.59±1.5450.98±1.5217.91±1.4855.28±2.3243.05±2.6313.48±2.01Ours-ResNet18-w/o TRL 57.48±4.82 47.90±4.7716.85±2.9855.64±2.3244.48±2.7615.10±1.68Ours-ResNet18-w. TRL 62.79±2.0153.11±1.9620.57±1.4758.87±3.3146.42±3.2415.59±2.31Ours-ResNet34-w/o TRL 60.98±1.89 49.98±2.2818.89±1.4657.21±3.7645.93±3.5215.51±2.71Ours-ResNet34-w. TRL63.63± 2.0854.00± 2.1621.08± 1.6656.18± 4.2743.98± 3.7514.35± 2.15表2.目标检测与[20]的比较。[20]的结果直接从原始论文中复制。split：train good weathermAP@0.5FasterRCNN-ResNet50 [20] 45.31[20]第二十届中国国际汽车工业展览会Ours-ResNet18-w. TRL 48.02Ours-ResNet34-w. TRL48.66它可以提供高分辨率的雷达图像;（2）它提供了具有对象跟踪ID的注释良好的定向边界框;以及（3）它记录了恶劣天气下的各种真实驾驶场景。Radiate由在恶劣天气（包括太阳、夜晚、雨、雾和雪）下记录的视频序列组成。从高速公路到城市，驾驶场景各不相同数据格式雷达图像生成的点云，其中像素值表示雷达信号反射的强度。Radiate采用机械扫描Navtech CTS 350-X雷达，提供360毫米高分辨率距离-方位图像，频率为4Hz。目前，雷达不提供多普勒或速度信息。整个数据集共有61个序列，我们遵循官方的3个分割：在好天气下训练（31个序列，22383帧，仅在好天气，晴天或阴天），训练好天气和坏天气（12个序列，9749帧，好天气和坏天气条件），以及测试（18个序列，11305帧，各种天气条件）。我们分别在前两个训练集上训练模型，并在测试集上进行评估两个分裂的数值结果我们还全面审查了其他公共雷达数据集，并讨论了为什么目前它们不适合我们在第5节中的实验。基线我们实现了几个检测器，这些检测器在视觉对象检测中得到了很好的证明，以供比较。这些检测器包括：Faster-RCNN [18]，RetinaNet [13]，[37]和BBAVectors [32]。使用不同的骨干网络进行比较[7，22]。交通探测器不是为定向物体设计的。为了使它们适合定向对象检测，我们手动在锚点或回归上添加额外的维度来预测对象的方向角度我们在表1中的检测器名称的末尾将自适应表示为为了突出时态建模的好处，我们将时态输入添加到基线，其中表示具有两个连续帧的输入，并且对于多个对象跟踪，我们将CenterTrack [36]包括在与我们使用相同跟踪算法的定向对象上进行比较。实现我们遵循[20]并将行人和行人组从检测和跟踪目标中排除，因为在这两种对象中仅观察到非常少的反射。我们也不像[20]那样区分对象类别，因为雷达信号呈现的车辆类别之间没有显著差异（例如，卡车和公共汽车）。关于计算，与定向矩形相关的操作，如定向边界框的重叠计算，使用DOTA基准工具包[27]在CPU中进行，而深度神经网络的其余部分在单个RTX3090上运行。对于表1中的所有数值结果，我们在输入图像上应用大小为256 256的中心裁剪，这有助于我们使用我们的计算资源进行全面评估，并且数字平均超过10个随机种子。对于表2和表3中的结果，我们保留原始分辨率，大小为1152 1152，以便与[20]中的结果进行公平比较。我们将两个连续帧之间的帧间隙设置为3用于检测，1用于跟踪，位置维度Dp为mAP@0.3mAP@0.5mAP@0.7mAP@0.3mAP@0.5mAP@0.7RetinaNet-OBB-ResNet1852.50±1.8137.83±1.828.46±0.6149.44±1.3231.57±1.546.97±1.241707864，时间关系层的数量为2，批量大小为64，裁剪图像的梯度累积为每2步，学习率为5e-4，权重衰减为1 e-2，Adam优化器具有5个训练时期。我们采用平均平均精度（mAP ）与交集，工会（IoU）在0。3，0。5，0。7用于评价定向目标检测。对于多目标跟踪，我们采用一系列MOT度量[15]，包括MOTA，MOTP，IDSW，Frag.，MT和PT，但推迟描述附录B由于篇幅限制。4.2. 结果与分析检测我们在表1和2中报告检测结果。我们的方法在不同级别的IoU阈值之间的两个训练分割上始终获得更好的结果此外，有或没有时间关系层的性能之间的差距进一步证实了连续帧中建模时间对象一致性的贡献。关于两个训练分割，直观地说，在训练中添加更多的天气条件可以增强检测和跟踪的鲁棒性，因为测试集包含各种天气。然而，对于雷达，在不同天气之间的数据呈现没有显著差异。两个训练分裂之间的裕度主要来自于训练样本数量的裕度。关于图像大小的差异，当涉及更大的检测范围时，性能略有下降。这种下降来自于横向分辨率，其中更远的物体可能会遭受更严重的模糊。跟踪我们报告多目标跟踪的结果在表3中，与基线相比，我们的方法实现了更好的性能。对于基线方法，中心跟踪还通过在推断阶段期间将先前帧和先前图像的热图添加到输入中来考虑时间信息他们使用地面实况热图进行训练，并使用预测的热图进行推断。这种学习可以很好地用于RGB视频跟踪，因为检测大多是准确的。然而，到目前为止，雷达上的检测还不能达到这样的精度，因此在训练和推理中打破了热图的对齐。有或没有时态关系层的跟踪性能突出了建模时态对象级关系的有效性。可视化我们在图4中展示了目标检测和多目标跟踪的可视化结果，更多的可视化结果附在附录C中。我们观察到，许多预测在注释中出现了轻微的变化。除了正确的预测，值得注意的是，我们的模型带来了一些假阳性的预测。然而，当观察这些误报时，它们很有可能是盒子内的一簇反射，可以被视为幽灵物体。这可能是造成这些假阳性的主要原因同时，我们的模型遗漏了一些物体在外太空。由于低角分辨率，错过的对象的反射淹没在静态环境的反射如何增强对鬼影和模糊的检测将是一个有趣的问题。我们在附录D中添加了一个实验，以分析时间关系层中选择性特征实证结果对K.5. 相关工作自动驾驶中的雷达感知在自动驾驶中采用雷达越来越受到关注本文从算法和雷达资源两个方面对近年来的一些工作进行了综述。该工作[14]提出了一种使用距离-方位角-多普勒测量的汽车雷达目标检测的深度学习方法。[16]专注于传感器融合，并提出一种方法，将同步雷达和激光雷达信号用于物体检测。[12，30]还利用自动驾驶中的多模态传感融合。除了深度学习，贝叶斯学习也被用于使用雷达的扩展对象跟踪[28，31]。我们的工作只利用雷达信号，但增强了识别与物体的时间一致性，这是以前的工作没有探索我们在附录E中对当前的雷达数据集进行了简短的回顾。时间连续性视频帧可以为目标识别提供时空线索。[26]利用一个特征库来扩展时空动作定位的时间范围[21]和[2]将来自短或长时间依赖性的对象级关联插入Faster-RCNN [18]，以捕获对象检测中的其他技术，如视频像素流或3D卷积[29，38，39]，适用于视觉丰富的视频序列，但太重，不适用于雷达图像。我们的工作共享相同的哲学，使用沿时间范围的时空对象级相关性然而，上述所有研究都集中在RGB视频数据上，而不是面向对象的设计。如果物体正在接近或离开相机的范围，则物体不同的是，我们将重点放在自动驾驶中的雷达数据上，其中与RBG视频数据相比，基于云的鸟瞰点图像提供了显著的对象属性我们设计了一个无锚的具有时间性的一级检测器基于中心的检测器适合于鸟瞰视图呈现，因为从该视图没有对象重叠，因此中心特征完全暴露以表示对象。此外，我们不探索长距离依赖性，而是将一致性限制在仅一个连续帧中，因为如果时间尺度太长，车辆可以移出范围，因此没有更多的时间关系可用。17079表3. Radiate数据集上的多目标跟踪实验结果TRL是“时态关系层”的缩写分裂：火车好天气MOTA↑MOTP↑IDSW↓碎片↓MT↑PT↑CenterTrack-ResNet180.13010.7026873920269254CenterTrack-ResNet340.14550.7005802831282279Ours-ResNet-18-不含TRL0.32930.7135513593151324Ours-ResNet-18-w. TRL0.33590.7349349498145330Ours-ResNet-34-不含TRL0.35690.7080557640179362Ours-ResNet-34-w。TRL0.37910.7188474527219332图4.Radiate数据集上雷达感知的可视化上面的两个图显示了对象检测，而下面的四组连续可视化显示了多个对象跟踪。在检测中，绿色边界框是地面实况注释，而红色是模型预测。在多对象跟踪中，边界框是模型预测，颜色表示对象ID，绘制的箭头显示对象的移动。图源方面，左边的探测图来自夜-1-4，右边的探测图来自雨-4-0。从左到右，从上到下，跟踪序列是从城市-7-0，雨-4-0，雾-6-0，和路口-1-10。多目标跟踪视觉多目标跟踪[15]的一个成熟范例是检测跟踪[9，19，23]。检测到的对象边界框由外部检测器提供，然后基于对象外观或运动的数据关联技术应用于检测，以关联多个连续帧中的候选对象中的相同对象。多目标跟踪的最新发展将检测器转换为跟踪算法，以联合检测和跟踪目标[5，33，36]。我们遵循纯粹基于欧氏距离成本的简单跟踪规则[33，36]，将我们的框架扩展到多对象跟踪。因此，[33，36]仅在多个时间步处将帧堆叠为输入，而我们的网络显式地考虑了对象级的一致性。6. 结论我们研究了自动驾驶中使用雷达的物体识别问题。基于连续帧内的同一对象应该是一致的并且共享几乎相同的属性的假设，我们促进了来自视频帧的具有时间性的雷达感知。我们设计了一个插入时态关系层的框架来显式地对对象级一致性进行建模通过在目标检测和多目标跟踪中的实验，验证了该方法的有效性。确认作者要感谢PetrosT. 感谢 Boufounos 、 Toshiaki Koike-Akino 、 HassanMansour和Philip V. Orlik的有益讨论。17080引用[1] 艾伦·奥恩斯曼Luminar计划在2021年为Nvidia的自动驾驶汽车平台提供激光传感器。1[2] Sara Beery、Guanhang Wu、Vivek Rathod、Ronny Votel和Jonathan Huang。上下文r-cnn：用于每相机对象检测的长期时间上下文。在IEEE/CVF计算机视觉和模式识别会议论文集，第13075-13085页，2020年。7[3] I.比利克岛Longman，S. Villeval和J. Tabrikian。自动驾驶汽车雷达的兴起：信号处理解决方案和未来的研究方向。IEEE信号处理杂志，36（5）：20-31，2019年9月。2[4] Yihe Dong ， Jean-Baptiste Cordonnier ， and AndreasLoukas.注意力并不是你所需要的全部：纯粹的注意力随着深度的增加而呈指数级下降。arXiv预印本arXiv：2103.03404，2021。4[5] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。检测跟踪和跟踪检测。在IEEE计算机视觉国际会议论文集，第3038-3046页，2017年。8[6] 宫成月，王帝林，李梦，维卡斯·钱德拉，刘强。通过抑制过度平滑来改善视觉变换器训练arXiv 预印本arXiv：2104.12753，2021。4[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。6[8] Jessie Lin和Hana Hu Digitimes Research：79GHz将取代24GHz用于汽车毫米波雷达传感器，2017年。1[9] 姜小龙、李培昭、李燕京、甄仙童。基于图神经的端到端数据关联框架，用于在线多目标跟踪。arXiv预印本arXiv：1907.05315，2019。8[10] J. Li和P. Stoica。MIMO雷达信号处理John Wiley Sons，2008年。&2[11] 李培昭，顾久祥，Jason Kuen，Vlad I.赵汉东，拉吉夫·杰恩，瓦伦·曼朱纳塔，刘洪福. Selfdoc：自我监督的文档表示学习。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第5652二零二一年六月。4[12] Teck-Yian Lim ， Amin Ansari ， Bence Major ， DanielFontijne ， Michael Hamilton ， Radhika Gowaikar ， andSundar Subramanian. 用于高级驾驶员辅助系统中车辆检测的雷达和摄像头早期融合。在2019年第33届神经信息处理系统会议上的自动驾驶机器学习研讨会上。二、七[13] 林宗义，普里亚·戈亚尔，罗斯·格希克，何开明，和彼得·多尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年五、六[14] 本·梅杰丹尼尔·方蒂涅阿明安萨里Ravi TejaSukhavasi，Radhika Gowaikar，Michael Hamilton，SeanLee，Slawomir Grzechnik，and Sundar Subramanian.车辆使用对距离-方位角-多普勒张量的深度学习的汽车雷达检测IEEE/CVF计算机视觉研讨会国际会议论文集，2019年。1、7[15] 安东·米兰，劳拉·里尔-塔克斯，伊恩·里德，斯特凡诺·罗斯和康拉德·辛德勒。Mot16：多目标跟踪的基准测试。arXiv预印本arXiv：1603.00831，2016。七、八[16] 钱坤，朱士林，张新宇，李尔然。使用互补激光雷达和雷达信号在雾天中进行多模式车辆检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第444-453页，2021年。一、二、七[17] Karthik Ramasubramanian和Brian Ginsburg。AWR 1243传感器：高度集成的76-在德州仪器技术报告中，第1-12页2[18] 任少卿、何开明、罗斯·格尔希克、孙健。Faster r-cnn：Towards real-time object detection with region proposalnetworks. 神经信息处理系统的进展， 28 ： 91-99 ，2015。六、七[19] 萨缪尔·舒特，保罗·韦尔纳扎，崔元根，还有曼莫汉·钱德拉克.用于多目标跟踪的深度网络流在IEEE计算机视觉和模式识别会议论文集，第6951-6960页，2017年。8[20] Marcel Sheeny 、 Emanuele De Pellegrin 、 SaptarshiMukherjee 、 Alireza Ahrabian 、 Sen Wang 和 AndrewWallace。Radiate：用于汽车感知的雷达数据集。arXiv预印本arXiv：2010.09076，2020。一、二、五、六[21] Mykhailo Shvets，Wei Liu，and Alexander C Berg.利用视频对象检测提案之间的长距离时间关系。在IEEE/CVF国际计算机视觉会议论文集，第97567[22] Mingxing Tan and Quoc Le. Efficientnet：重新思考卷积神经网络的模型缩放。国际机器学习，第6105PMLR，2019年。6[23] Siyu Tang， Mykhaylo Andriluka ，Bjoern Andres ，andBernt Schiele.多人跟踪通过解除多切割和每个人的重新识别。在IEEE计算机视觉和模式识别会议论文集，第3539- 3548页8[24] Ashish Vaswani ， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的神经信息处理系统进展，第5998-6008页，2017年4[25] Pu Wang ， Petros Boufounos ， Hassan Mansour ， andPhilip V. Orlik.慢时间MIMO-FMCW汽车雷达检测与不完善的波形分离。在2020年IEEE声学，语音和信号处理国际会议上，第8634-8638页，2020年。2[26] Chao-Yuan Wu，Christoph Feichtenhofer，Haoqi Fan，Kaiming He，Philipp Krahenbuhl，and Ross Girshick.用于详细视频理解的长期特征库。在IEEE/CVF计算机视觉和

下载后可阅读完整内容，剩余1页未读，立即下载