鲁棒多模态多目标跟踪及其在自动驾驶系统中的应用

171 浏览量更新于2023-10-12 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2365鲁棒多模态多目标跟踪张文伟1，周慧2，孙舒阳3，王哲2，石建平2，陈昌来11南洋理工大学，商汤科技2，牛津大学3{wenwei001，ccloy}@ ntu.edu.sg，{zhouhui，wangzhe，shijianping}@sensetime.com，shuyang. eng.ox.ac.uk摘要多传感器感知是保证自动驾驶系统可靠性和准确性的关键，而多目标跟踪（MOT）通过跟踪动态目标的连续运动来改善这一点。用于多传感器多对象跟踪的大多数当前方法中心照相机），或者通过在后处理中融合来自多个传感器的结果而不充分利用固有信息而不够准确。在这项研究中，我们设计了一个通用的传感器不可知的多模态MOT框架（mmMOT），其中每个模态（即，传感器）能够独立地执行其角色以保持可靠性，并且可以通过新颖的多模态融合模块进一步提高其准确性。我们的mmMOT可以以端到端的方式进行训练，可以对每个模态的基本特征提取器和跨模态的邻接估计器进行联合优化。我们的mmMOT还首次尝试在MOT的数据关联过程中对点云的深度表示进行编码。我们进行了广泛的实验，以评估具有挑战性的KITTI基准和报告国家的最先进的性能所提出的框架的有效性。代码和模型可在https://github.com/ZwwWayne/mmMOT 上获得。1. 介绍可靠性和准确性是自动驾驶系统的两个基本要求。动态物体感知对于自动驾驶至关重要为了提高其可靠性，可以采用多模态传感器来提供松散耦合的独立线索，以防止图1（a）所示的故障。为了提高准确性，可以将来自多个对象跟踪的序列信息合并，并且更好的多传感器信息可以加强最终得分，如图1（b）所示。在本文中，我们提出了多模态多目标跟踪（mmMOT）框架，它通过一种新的融合（一）（b）第（1）款图1.图（a）可靠性：相机在曝光过度或传输过程中崩溃时会失效。图（b）准确度：多传感器信息可以增强感知能力。图像将被裁剪，并以彩色和放大的方式进行最佳查看。模块的多个传感器和提高精度与注意力引导的多模态融合机制。传统方法设计多模态（即，多传感器）MOT框架，并保持可靠性和准确性。大多数传统方法[1，9，12，25]使用相机，LiDAR或雷达，通过卡尔曼滤波器或贝叶斯框架融合手工制作的特征。它们的准确性受到手工特征的表达能力的限制。另一种方法流使用深度特征提取器[11]，这显著提高了准确性。然而，他们专注于图像级深度表示来关联对象轨迹，并且仅在检测阶段使用LiDAR。如果相机关闭，则这种绑定方法在这项工作中，我们设计了一个多模态MOT（毫米MOT）框架，可扩展到相机，激光雷达和雷达。首先，它遵循松耦合机制，在多传感器信息的提取和融合过程中保证了高可靠性。具体地，从每个传感器独立地提取多模态特征，然后应用融合模块来融合这些特征，并将它们传递到邻接估计器，邻接估计器能够基于每个模态执行推断。其次，为了使网络能够同时学习从不同的模态进行推断，我们的mmMOT以端到端的方式进行训练，因此，LiDAR图像LiDAR假阴性假阴性过度暴露2366多模态特征提取器和跨模态邻接估计器被联合优化。最后，我们首次尝试在MOT的数据关联过程中使用点云的深度表示，并取得了有竞争力的结果。我们对融合模块进行了广泛的实验，并在KITTI跟踪数据集上评估了我们的框架[13]。在没有花里胡哨的情况下，我们在在线设置下实现了KITTI跟踪基准[13]的最先进结果，纯粹依靠图像和点云，并且我们的结果与单一模态（在传感器故障条件下）相同的模型也具有竞争力（仅差0.28%概括起来，我们的贡献如下：1. 我们提出了一个多模态MOT框架与一个强大的融合模块，利用多模态信息，以提高可靠性和准确性。2. 我们提出了一种新的端到端训练方法，可以实现跨模态推理的联合优化3. 我们首次尝试将点云的深层特征应用于跟踪，并获得了有竞争力的结果。2. 相关工作多目标跟踪框架。MOT的最新研究主要遵循检测跟踪范式[6，11，38，50]，其中感兴趣的对象首先由对象检测器获得，然后通过数据关联链接到轨迹中。数据关联问题可以从各种角度来解决，例如，最小费用流[11，20，37]，马尔可夫决策过程（MDP）[48]，部分过滤[6]，匈牙利分配[38]和图切割[44，49]。然而，这些方法中的大多数不是以端到端的方式训练的，因此许多参数是启发式的（例如，成本的权重）并且易受局部最优的影响。为了在最小成本流框架内实现端到端的学习，Schulter等人。[37]通过平滑线性规划应用双层优化，深度结构模型（DSM）[11]利用铰链损失。然而，它们的框架不是为跨模态而设计的。我们通过邻接矩阵学习来解决这个问题。除了不同的数据关联范例，相关特征也被广泛地探索以确定检测的关系。当前以图像为中心的方法[11，35，38，50]主要使用图像块的深度特征。手工制作的特征偶尔用作辅助输入，包括但不限于边界框[15]、几何信息[27]、形状信息[38]和节奏信息[45]。3D信息也是有益的，因此可以通过3D检测[11]进行预测，或者通过神经网络[36]或几何先验[38]进行RGB图像估计。Osep等人。[25]融合了来自RGB图像、立体声、视觉里程计和可选场景流的信息，但它不能在端到端中进行训练方式所有上述方法都必须与相机一起工作，因此缺乏可靠性。相比之下，我们的mmMOT独立地从每个传感器提取特征（深度图像特征和点云的深度表示），每个传感器都扮演着同样重要的角色，并且它们可以解耦。所提出的注意力引导融合机制进一步提高了准确性。点云的深度表示。用于跟踪的点云的传统用途是测量距离[31]，提供2.5D网格表示[2，10]或导出一些手工制作的特征[42]。他们都没有充分利用数据关联问题的点云的固有信息。最近的研究[3，7，24]已经证明了在自动驾驶中使用3D点云作为感知特征的价值。为了学习点云的良好深度表示，PointNet [29]和PointNet++ [30]使用对称函数处理原始非结构化点云。我们在我们的框架中采用了这种有效的方法。其他研究，如PointSIFT [17]提出了一个方向编码单元来学习点云的SIFT样特征，3DSmoothNet [14]学习体素化平滑密度值表示。还有一些方法[46，47]将点云投影到球体，因此2D CNN可以用于分割任务。物体检测。一个对象检测器也是一个重要的组成部分，在跟踪检测范例。自Faster R-CNN [33]以来，用于2D对象检测的深度学习方法已经有了显著的改进[23，32，43]3D对象近年来，检测受到越来越多的关注。为了利用图像和点云，一些方法[8，18]从不同视图聚合点云和图像特征，而F-PointNet [28]从图像中获得平截头体建议，然后应用PointNet [29]使用点云进行3D对象定位。存在仅使用点云的最先进的方法[19，39，51一阶段检测器[19，51]通常在体素化表示上应用CNN，而两阶段检测器（如Point RCNN [39]）首先通过分割生成建议，然后在第二阶段进行细化。我们的mmMOT适用于2D和3D物体探测器。3. 多模态多目标跟踪我们提出了一种多模态MOT（mmMOT）框架，它通过独立的多传感器特征提取来保持可靠性，并通过模态融合来提高准确性从最小成本流的角度来看，它通常遵循广泛采用的具体来说，我们的框架包含四个模块，包括对象检测器，特征提取器，邻接估计器和最小成本流优化器，如图所示。2（a）、（b）、（c）、（d）。首先，使用任意对象检测器来定位感兴趣的对象。我们使用PointPillar[19] 为了方便。第二，特征提取器提取236700010000000011000010线性规划WJKJJKWXVGG-16新的，新的新的埃森恩德×开始、结束估算3×��×��W W链路00链接0输入3D检测器融合模块×3×��×��×��3×�� ×��亲和力估计0000置信度估计器真的真的PointNet(a) 检测(b) 特征提取(c) 邻接估计(d) 优化重复连接卷积块全局平均池化相关操作图像特征LiDAR特征融合特征图像优化的二进制变量LiDAR优化的二进制变量融合优化的二进制变量图2.mmMOT的流水线特征提取器首先从图像和LiDAR中提取特征，鲁棒融合模块融合多传感器特征。接下来，相关算子为每个检测对产生相关特征，邻接估计器通过该相关特征预测邻接矩阵。所有预测的分数都被优化以预测二进制变量Y。每个传感器的特征独立用于每次检测所有这些y链构成邻接矩阵Ai∈RN×M，（第3.2节），之后应用融合模块进行融合其中A i=y链路。另外两个变量ynew，yendjk jk jj并将单一模态特征传递到相邻ES-估计器（第3.3节）。邻接估计是模态不可知的。它推断出最小成本流图计算所需的分数邻接估计器的结构和相关的端到端学习方法将在第3.4节中演示。最小成本流优化器是一个线性规划求解器，它根据预测得分找到最佳解决方案（第3.5节）。3.1. 问题公式化我们的mmMOT遵循检测跟踪范例来定义数据关联成本，其作为最小成本流问题来解决[11，20，37]。采取以在线MOT设置为例，假设N和M检测在两个C。指称框架，分别表示检测是轨迹为了方便起见，我们将邻接矩阵扁平化为向量Y链接，并收集与Ytrue，Ynew，然后，所有这些变量都被压缩成一个向量Y=Y真，Y链接，Y新，Y结束，其中包括所有网络流中边的状态对于每个二进制变量在Ytrue、Ylink、Ynew、Yend中，相应的分数分别由置信度估计器、亲和度估计器、开始和结束估计器预测。这些估计量形成邻接估计量，我们在图2所示的多任务学习网络中求解它们。3.2. 单模态特征提取器在在线设置中，仅涉及两个连续帧中的检测。为了估计它们的邻近程度，i+1，表示为X i=x i|j = 1，···，N ，并且Xi+1为.一期+1K| k = 1,···, M Σj分别表示每个首先从相应的图像中提取表示或点云。每一种形式的特点检测与四种类型的二进制变量相关联，这个范式。我们按照深度结构化模型（DSM）的符号引入它们[11]。首先，对于任何xj，二进制变量ytrue指示检测是否为真阳性。第二，二进制变量y_link指示第一帧中的第j次检测和第k次检测在第二帧中属于相同的轨迹，并且大小为1×D×（N+M）的张量，其中D=512是向量长度，N + M是两帧中的检测总数。图像特征提取器。在从2D或3D检测器获得2D边界框时，与每个检测相关联的图像块被裁剪并调整大小为边长为224像素的正方形以形成一批。所有1111111111011111111111111111111111111111111111110000000000000000110000000010011111011111111111000000110001110 000 000 000 000001 10 0000 00000 00 0110 00000 00 0001 102368我我F保险丝我我我鲁棒融合模块X图像融合模块LiDAR融合模块A图像融合LiDAR图像CONCAT融合LiDAR图像融合模块B融合图像拉齐姆ipts融合模块C融合LiDAR吉吉LiDAR图像特征融合特征LiDAR Convolution Add的功能图3.鲁棒融合模块和三个多模态融合模块。鲁棒融合模块可以应用融合模块A、B和C中的任何一个来产生融合模态。与传统的融合模块不同，鲁棒融合模块产生单一模态和融合模态作为输出。融合模块A对多模态特征进行融合，模块B采用线性组合的方法进行融合，模块C引入注意力机制对传感器特征的重要性进行自适应加权这些贴片形成大小为（N+M）×的4D张量。3×224×224。我们使用VGG-Net [40]作为图像特征属于同一检测的点的特征被汇集在一起。点云的特征向量对于每次检测具有512的长度。3.3. 强大的多模态融合模块为了更好地利用多传感器功能，同时保持跟踪每个单一传感器的能力，我们的鲁棒融合模块被设计为具有融合多个模态的功能，以及处理来自单一模态的原始功能的能力。强大的融合模块。邻接估计器中的操作是批次不可知的，因此我们在批次维度中连接单个模态和融合模态以确保只要存在输入模态，邻接估计器就仍然可以工作。该设计使得所提出的鲁棒融合模块能够在传感器故障期间跳过融合过程或融合剩余的模态（如果仍然存在多个传感器），并且将它们传递到邻接估计器，从而整个系统可以与任何传感器组合一起工作。在形式上，我们表示fea-不同模态的真向量作为{Fs}S，其中is=0提取器的骨干。为了利用不同级别的特征，我们修改了skip-pooling [4]，以便将不同级别的特征传递到顶部，如中图2.有关跳过池的详细信息，请参见传感器的数量为S，融合特征表示为F保险丝。在我们的公式中，融合模态的特征具有与单个模态相同的大小鲁棒融合模块连接{Fs}S和F沿批is=0i花絮点云特征提取器。我们的贡献之一是将点云的深度表示应用到MOT的数据关联过程虽然与单个检测相关联的LiDAR点云可以通过3D边界框轻松获得可以使用F-PointNet [28]获得3D边界框，或者使用其他几何信息和先验直接估计3D边界框[36，38]。在这项研究中，我们选择不在3D空间中定位检测相反，受F-PointNet[28]的启发，我们利用所有的点云，维度并将它们馈送到邻接估计器。他们形成大小为（S+1）×D×（N+M）的张量。鲁棒融合模块可以采用任意融合模块，我们研究了三个融合模块，如图3所示。以两个传感器的设置为例，融合模块A简单地将多个模态的特征连接起来;模块B将这些特征添加在一起;模块C引入注意机制。融合模块A。一种常见的方法是连接这些特征，并使用具有权重W的逐点卷积来调整输出向量的长度，使其与单个传感器的特征相同，如下所示由2D边界框投影的平截体。这导致了高度的灵活性和可靠性，并节省计算，i=WCONCAT. F0，···，FS、（1）得到3D包围盒。点云形成大小为1×D×L的张量，其中L是所有边界盒中所有点的总数，D=3是点云信息的维数。我们根据经验发现点其中，ω表示卷积运算，并且CONCA T（·）表示级联操作。聚变模块B另一种直观的方法是将这两个特征与加法融合在一起，我们重新投影每个模态的特征并将它们添加到一起，如下所示：云只提供边际改进，因此我们只使用了3D空间中的坐标。我们修改了香草PointNet[30]，以从点云中提取每个检测的特征，如图中所示的PointNetF保险丝=. ΣSs=0ΣWs、（二）ure2.为了增强每个边界框中点的全局信息，我们采用了PointNet中最初为分割任务设计的全局特征分支[30]，并且我们发现PointNet中的平均池化效果优于最大池化。在池化期间，只有其中，Ws表示第s个传感器通过增加多传感器信息融合模块，融合模态的相关特性它有利于邻接估计器处理不同的2369我attattG我JKJKJKF=0我我JKJK因为相关操作是乘法或减法，所以相关操作可以是模态聚变模块C模块C引入了用于引导来自不同传感器的信息融合的注意机制，因为传感器的信息的重要性点云有限元当光照条件较差时，图像的真实性可能更重要，而当点云在雨天受到影响每个传感器的注意力图Gs首先计算如下：G s=σ（W s（3）图像特征LiDAR特征融合特征逐点卷积平均池化图4.亲和度估计器和开始和结束估计器的结构。亲和度估计器使用以下公式估计邻接性：我爱我其中W是卷积参数，σ是信号。逐点卷积开始和结束估计器收集每个检测的相关性特征，以检查检测是否moid函数我们希望W学习预测即时通讯，是为了让预测更可靠重要性取决于特征本身，而乙状结肠函数将注意力地图标准化为0到1的范围。然后，信息融合如下：由于相关操作处理批次维度中的多模态，并且在每次检测时执行保险丝1我是s=0iΣSGs（WsFs），（4）s=0对于两帧之间的一对，相关特征图的大小为3×D×N×M。我们使用2D逐点卷积，如图4所示。这使得网络汉-其中，G表示逐元素乘法，并且Gs的总和被作为用于归一化的分母。3.4. 深度邻接矩阵学习给定提取的多模态特征，邻接估计器基于每个模态推断最小成本流图[11，37]中的置信度、亲和度、开始和这些特征对于邻接估计器的每个分支是共享的，即置信估计器、亲和估计器、开始和结束估计器。通过将其作为二进制分类任务来学习置信度估计器的模型是很简单的。我们专注于另外两个分支的设计相关操作。为了推断相邻性，需要每个检测对的相关性。相关操作是批次不可知的，因此它可以处理交叉模态，并且逐通道应用操作以利用神经网络。交换性质在理论上有利于学习成对数据，因为它不知道Fi和Fi+1的阶数。本工作因为它只需要确定F_jk是否指示链路，所以单独地处理每个相关特征由于卷积是批次不可知的，因此它可以对模态的任何组合起作用，并且输出邻接矩阵将具有尺寸为3×1×N×M。由于这三种预测具有相同的目标，我们将监督信号应用于这使得能够对每个模态的特征提取器和交叉模态的亲和度估计器进行联合优化。在推断期间，如果传感器组合改变，则亲和度估计器不需要修改，这允许灵活性和可靠性。开始和结束估算器。开始和结束估计器估计检测是否被链接，因此为了效率，它们的参数被共享给定相关性特征Fjk，在通过平均池化收集每行或每列中的一个检测的所有相关性信息之后，估计器还使用逐点卷积来推断一个检测是否如图4所示被链接。由于池化层是批次不可知的，开始和结束估计器对于不同的传感器设置也是灵活的。在推理过程中，JK比较以下三个简单而有效的操作符• 元素乘法：Fjk=Fi<$Fi+1，• 减法：Fjk=Fi−Fi+1，..我们只是在第一次检测中为新的检测分数填充零，帧和最后一帧中的检测结束分数，因为它们不能从相关性特征图中估计。排名机制。我们表示原始输出，• 绝对减法：F jk=. F i− F i+1。.jk神经网络的最后一层为o i，我们发现一个jk逐元素乘法等效于深度，也应该是js，s=1，. Mwise相关滤波器[21]，其中滤波器大小为1×1。以及tk，t=1，. N，但直接取A i我不减法测量两个向量的距离通过采用减法的绝对值，该运算是可交换的，并且与检测的时间顺序无关，这使得网络更健壮。亲和力估计然后，所获得的Fjk被亲和度估计器用于预测邻接矩阵Ai。利用这些全局信息，因此我们设计了一个机制来解决这个问题。具体来说，我们对输出矩阵中的每一行和每一列应用softmax函数，并将这两个矩阵聚集起来以获得最终的邻接矩阵。在这项工作中，我们研究了三种操作来组合两个softmax特征图：max，开始估算W3×��×��新的亲和力估计相关特征联系我W3×��×��×��3×1×��×��埃森恩结束估算3×��×��W=O2370eoOeo乘法和平均。以乘法为例，介绍排序机制如下：我我jk jk作为训练集，剩余的11个序列作为验证集。训练/验证集分割完全基于这些序列的帧数，以使训练集的总帧数a i= ×。（五）jkNs=0我ejsMit=0tk（3975）接近验证集（3945）。我们提交我们的测试集结果，模型仅在分割训练上训练损失函数。整个框架可以在多任务学习框架中以端到端的方式学习。我们对分类分支采用交叉熵损失，对其他两个分支采用L2损失，因此总损失函数可以写如下：L=Llink+αLstart+γLend+βLtrue，（6）其中α、γ和β表示每个任务的损失权重我们根据经验设定α=γ=0。4，β=1。5在本文的所有实验中。3.5. 线性规划在从神经网络获得预测分数之后，框架需要从最小成本流图中找到最优解。有几个事实可以作为Y中这些二元变量之间的线性约束。首先，如果检测是真阳性，则其必须与前一帧中的另一个检测或新轨迹的开始相关联因此，对于当前帧中的一个检测和其前一帧中的所有检测，线性约束可以如下形式定义：ΣN公平竞争[36]。数据集中的每辆车都用3D和2D边界框进行了注释，这些边界框在不同的帧中具有唯一的ID，这使我们能够获得检测器预测的每个检测的地面真实邻接矩阵。我们计算每个检测和地面实况（GT）边界框之间的交集（IoU），并将一个GT框的ID分配给一个检测，如果一个检测的IoU大于0.5，并且在其他检测中具有最大的IoU。此设置与KITTI Benchmark的测试设置一致。 KITTI 基准 [13] 评估了依赖于标准 MOT 指标CLEAR MOT [5] 和 MT/PT/ML [22] 的跟踪算法的性能。这组指标测量检测的召回率和精确度，并计算身份转换和轨迹碎片化的数量。它还计算了大多数跟踪或大多数丢失的对象，并提供了一个整体跟踪精度（MOTA）。实施详情。我们首先使用PointPillar1 [19]的官方代码来产生检测。整个跟踪框架是用PyTorch实现的[26]。图像外观模型Normalization [16]在ImageNet-1 k上预训练[34]。为k，ytrue=ylink + ystart.（七）线性规划，我们使用混合整数规划-kj=0 jk k由Google OR-Tools提供的Ming（MIP）求解器二、我们对称地，对于前一帧中的一个检测和当前帧中的所有检测，线性约束可以定义如下：ΣM使用ADAM优化器以6e-4的学习率和超收敛策略训练模型40个历元[41]。如果置信度得分低于0.2，我们手动将得分设置为-1，这将强制任何具有低置信度的检测。j，ytrue=y链接+y结束。（八）在线性规划中可以忽略的置信度。jk=0 jk j这两个约束可以以矩阵形式折叠以产生CY=0，其已经编码了所有有效的trajec-tory。然后将数据关联问题公式化为整数线性规划，如下：arg max =Θ（X）Y4.1. 消融研究为了评估所提出的方法并证明关键组件的有效性，我们使用最先进的检测器PointPillar [19]在在线设置下对 KITTI 基准 [ 13 ] 进行了消融研究。我们发现PointPillar探测器产生大量yS.T. CY = 0，Y ∈ {0，1}|Y|、（九）预测得分低的假阳性检测，因此我们丢弃得分低于0.3的检测这不疼检测的mAP，但在训练中节省了大量内存其中，Θ（X）是包括由邻接估计器预测的所有得分的平坦化向量。4. 实验数据集。我们的方法在具有挑战性的KITTI跟踪基准[13]上进行评估。该数据集包含21个训练序列和29个测试序列。我们选择10个序列点云跟踪能力。我们设定了一个二维跟踪器作为我们的基线，它只使用二维图像块作为线索，并使用乘法作为相关运算器在数据关联，没有排名机制。我们首先比较了图像和李的有效性-1https://github.com/nutonomy/second.pytorch2https://developers.google.com/optimizationeo2371表1.不同模式的比较。“平截头体”表示在平截头体中使用点云。鲁棒模块X指示在鲁棒融合模块中使用融合模块X。方法模态MOTA↑ ID-s↓ FP↓FN↓图像74.88454951 1387基线锥台点云75.5075.7038736291894614181393合奏77.54158949 1388图像75.40396951 1387鲁棒模块A点云76.13317948 1392融合77.57177910 1406图像75.17421951 1387鲁棒模块B点云74.55490951 1387融合77.621938501444图像74.86456951 1387鲁棒模块C点云74.94452946 1398融合78.18129895 1401模块A融合77.31176934 1412模块B融合77.31212913 1396模块C融合77.62142945 1400DAR点云，并评估采用点云的两种方法：使用平截头体或边界框中的点云。从表1中的基线行可以观察到，使用截头体中的点云产生与使用边界框中的点云竞争的结果。结果表明点云即使在2D检测的情况下也是适用的（如第3.2节中所讨论的），因此所提出的框架适用于具有任意模态的2D或3D检测器。更令人惊讶的是，所有点云方法的性能都优于图像基线，这表明了点云深度表示的有效性强大的多模态融合模块。我们比较了鲁棒融合模块A、B和C的有效性。基线由使用单个传感器的跟踪器组成，即相机或LiDAR;我们分别训练和评估每种模态为了形成更强的基线，我们集成了图像模型（MOTA74. 88）和边界框中的点云模型（MOTA 75. 70），并产生更好的结果（MOTA 77。54）。如表1所示，只有鲁棒融合模式-尽管所有融合方法都优于单融合方法，但具有注意机制的规则C显著优于总体结果。表2.2D跟踪器与进一步修改的比较修改MOTA↑ ID-s↓ FP↓FN↓乘法74.884549511387减法75.274109511387绝对减法77.761439411387Softmax w mul75.084319511387Softmax w max76.243139401387Softmax w add77.402348911387表3.进一步改善融合结果。’Correlation’ in- dicates相关性排名MOTA↑ ID-s↓ FP↓FN↓78.181298951401C79.18238731418CC80.08137901411融合模块。我们进一步比较了普通融合模块的结果，其仅将融合模态输出到邻接估计器，因此跟踪器不能在多模态设置下使用单一模态进行跟踪。表1的最后一行中的结果显示，所提出的鲁棒模块始终优于基线模块A、B和C，具有处理单一模态的附加能力。结果表明，mmMOT在保持可靠性的前提下，获得了更多的有利监测信号，从而进一步提高了监测精度。4.2. 进一步分析相关运算符我们进一步对3.4节中讨论的相关函数进行实验，并在2D基线上比较三种不同相关函数的有效性。如表2所示，减法变量总是比乘法变量执行得更好，并且具有可交换属性的绝对减法执行得最好。排名机制。我们还研究了排名机制的有效性，并研究了三种不同的变体：Softmax w mul、Softmax w max、Softmax w add，它们分别表示通过乘法、argmax、加法来组合softmax输出。从表2中我们可以看出，排名机制可以改善MOTA传感器基线。结果表明，找到一个多传感器输入的鲁棒融合模块由于具有鲁棒融合模块的每种方法也提供单个传感器的预测，因此我们在表1中比较了每种鲁棒融合模块的单个传感器结果。如可以观察到的，虽然所提出的鲁棒模块能够有效地融合多模态，但是它可以在与基线（其中进行关于单模态的专用训练）相一致的情况下保持关于单模态的竞争性能。这种融合的可靠性在文献中是新的。至少增加0.2，增加softmax输出可以在MOTA中产生约2.5的改进。3D检测的最佳结果。进一步改进了融合模型的结果。根据表2中的结论，我们使用绝对减法进行相关运算，并使用softmax激活加法进行排名机制。我们在表3中比较了每种修饰的功效。绝对减法相关性使融合模型的MOTA提高2372表4.KITTI跟踪基准测试集的比较仅报告已发布的在线方法方法MOTA↑MOTP↑前↑回忆↑FP↓FN↓ID-s↓碎片↓MT↑ML↓DSM [11]76.1583.4298.0980.23578732829686860.008.31extraCK [15]79.9982.4698.0484.51642589634393862.155.54PMBM [36]80.3981.2696.9385.011007561612161362.776.15[45]80.5781.8198.7283.3740562176164356.777.38[第48话]83.0482.7498.8286.11391526917236560.6211.38[38]第三十八话84.2485.7397.9588.80705424746894473.232.77mmMOT-正常84.7785.2197.9388.81711424328475373.232.77mmMOT丢失图像84.5385.2197.9388.81711424336883273.232.77mmMOT-丢失点云84.5985.2197.9388.81711424334780973.232.77012301234.3. KITTI结果图5.失效案例分析。5中的每一行包括视频中的四个连续帧。首先，对于距离较远的物体，2D引起的早期误差我们实现国家的最先进的和有竞争力的结果我们-从MOT-BeyondPixels [38]提供的RRC-Net [32]中进行2D检测。我们使用PointNet [30]来处理平截头体中的点云，并使用VGG-16 [40]来处理图像补丁。补充材料中提供了更多细节。表4将我们的方法与其他已发表的最先进的在线方法进行了比较。我们首先使用所有模态测试mmMOT，即mmMOT正常。然后，我们模拟传感器故障的情况下，只通过单一的模态相同的模型，命名为mmMOT-lose图像/点云。在这两种情况下，我们的mmMOT都超过了MOTA上所有其他已发布的最先进的在线方法。所提出的通过模态融合的方法在具有相同检测方法的情况下通过少得多的ID开关（少184个）而超过先前的最佳方法MOTBeyondPixels [38]值得注意的是，我们的单模态结果仍然表现得更好，并且我们没有使用检测的边界框和形状信息，而MOTByondPixels则使用。PMBM [27]、JCSTD [45]和IMMDP [48]表现出较少的ID开关，但错过了大约一千到两千次检测。那些错过的检测不仅对于检测而且对于跟踪都是困难的示例，因此如果它们使用相同的检测，则它们可能会表现出比我们的方法更高数量的ID切换。我们的方法与每一种方式都超越了DSM [11]和extraCK[15]具有更少的假阴性和ID开关，即，即使给出更难的示例，我们的方法也会产生更少的错误。4.4. 故障案例分析我们观察到几种可能导致mmMOT失败的情况统计结果见补充资料，示例见图检测器将导致假阴性检测，如第一行中ID为9的汽车如果轿厢被错过但被恢复，则该错误还可能导致ID切换，如第一行中具有ID 6的轿厢和第二行中具有ID 7的轿厢所示。第二，照明也影响性能，例如，在第二排的黑色车在阴影中ID为9。第三，闭塞还导致困难，例如，探测器错过了第一排ID为7的汽车。部分观察使汽车难以区分，例如，在第一排中具有ID 5和7的汽车都仅具有观察到的黑色后部，因此推断为相同。为了进一步解决由遮挡、照明和长距离引起的挑战，可以进一步利用检测中的多模态来防止早期错误，或者利用更多信息（例如，多模态）来防止早期错误。时间信息）以加强预测。5. 结论我们提出了mmMOT：一个多模态多对象跟踪框架.我们首先尝试避免单传感器不稳定，同时通过深度端到端网络保持这种功能对于安全的自动驾驶至关重要，但一直被社会所忽视我们的框架以端到端的方式学习邻接矩阵学习，因此可以同时学习从任意模态进行推断此外，该框架首次将LiDAR点云的深度表示引入数据关联问题，增强了多流框架鸣谢本工作由Sense- Time Group Limited、新加坡MoEAcRF Tier 1 （ M4012082.020 ）、 NTU SUG 和 NTUNAP提供支持。2373引用[1] AlirezaAsvadi，PedroGirao，PauloPeixoto，andUrbanoNunes.使用RGB和LIDAR数据进行3D对象跟踪。InITSC，2016. 1[2] Alireza Asvadi ， Paulo Peixoto 和 Urbano Nunes 。使用2.5D运动网格检测和跟踪运动目标。ITSC，2015年。2[3] MinBai ， Gelle' rtMa'ttyus ， NamdarHomayounf ar ，ShenlongWang，Shrinidhi Kowshika Lakshmikanth，andRaquel Urta-sun.深度多传感器车道检测。在IROS，2018年。2[4] 肖恩·贝尔角劳伦斯·齐特尼克，卡维塔·巴拉，罗斯·B。娘娘腔。内外网：用跳跃池和递归神经网络检测上下文中的对象。在CVPR，2016年。4[5] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。多目标跟踪性能评估：CLEAR MOT度量.EURASIP J.图像和视频处理，2008年。6[6] Michael D.Breiberg，Fabian Reichlin，Bastian Leibe，Es-ther Koller-Meier，and Luc J.范古尔从单个未校准的摄像机通过检测进行在线多人跟踪。IEEE TPAMI，2011年。2[7] Sergio Casas ， Wenjie Luo ， and Raquel Urtasun.IntentNet：学习从原始传感器数据预测意图InCoRL，2018.2[8] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia. 用于自动驾驶的多视图 3D 物体检测网络。在CVPR，2017年。2[9] Hyunggi Cho，Young-Woo Seo，B.诉K. Vijaya Kumar和Ragunathan Rajkumar。城市驾驶环境中运动目标检测与跟踪的多传感器融合系统。InICRA，2014. 1[10] Jaebum Choi ， Simon Ulbrich ， Bernd Lichte ， andMarkus Maurer.使用3D激光雷达传感器进行多目标跟踪。InITSC，2013. 2[11] 戴维·弗罗萨德和拉奎尔·乌塔松通过检测进行多传感器3D跟踪的端到端学习。在ICRA，2018年。一二三五八[12] Ric ardoOmarCh a'v ezGar c'ıaandOl i vierAycard. 运动目标检测与跟踪的多IEEE TITS，2016. 1[13] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。二、六[14] 周彩发，詹戈伊契奇.Wegner和Andreas Wieser。完美匹配：具有平滑密度的 3D 点云匹配。 CoRR ，abs/1811.06879，2018。2[15] 古尔泰金·冈杜兹和坦库特·阿卡曼一种轻量级的在线多目标车辆跟踪方法。2018年第四期。二、八[16] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。CoRR，abs/1502.03167，2015。6[17] Mingyang Jiang，Yiran Wu，and Cewu Lu. PointSIFT：一个类似SIFT的网络模块，用于3D点云语义分割。CoRR，abs/1807.00652，2018。2[18] Jason Ku 、 Melissa Mozifian 、 Jungwook Lee 、 AliHarakeh和Steven L.瓦斯兰德从视图聚合联合生成3D建议和对象检测。在IROS，2018年。2[19] 亚历克斯 ·H Lang ， Sourabh Vora ， Holger Caesar ，Lubing Zhou ， Jiong Yang ， and OscarBeijbom.PointPillars ：从点云中检测物体的快速编码器。CoRR，abs/1812.05784，2018。二、六[20] Philip Lenz，Andreas Geiger，and Raquel Urtasun. Fol-lowme：高效的在线最小成本流跟踪与有限的内存和计算。ICCV，2

下载后可阅读完整内容，剩余1页未读，立即下载