三维连体跟踪的形状补全及应用分析

108 浏览量更新于2023-10-18 收藏 1MB PDF 举报

点云处理

自动驾驶汽车

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11359利用形状补全实现三维连体跟踪Silvio Giancola*、Jesus Zarzar* 和Bernard Ghanem沙特阿拉伯阿卜杜拉国王科技大学（KAUST）{silvio.giancola，jesquijandro.zarzartorano，bernard.ghanem}@ kaust.edu.sa摘要点云由于其稀疏性而难以处理，因此自主车辆更多地依赖于外观属性而然而，3D LIDAR感知可以在具有挑战性的光线或天气条件下为城市导航提供关键信息。在本文中，我们研究的通用性形状完成三维目标跟踪激光雷达点云。我们设计了一个连体跟踪器，它将模型和候选形状编码成一个紧凑的潜在表示。我们regulize的编码，通过强制执行的潜在表示解码成一个对象模型的形状。我们观察到，3D对象跟踪和3D形状完成相辅相成。学习一个更有意义的潜在代表，-tation显示更好的歧视能力，导致改善跟踪性能。我们使用汽车3D边界框在KITTI跟踪集上测试我们的方法。我们的模型达到了76.94%的成功率和81.38%的精度为3D对象跟踪，与形状完成正则化导致3%的改善，在这两个指标。图1.我们的跟踪模型结合了自动编码器的暹罗网络连体网络将稀疏3D形状编码为潜在表示z，其中属于同一对象的形状具有高余弦相似性。通过正则化我们的跟踪器来自动编码模型形状，我们强制编码器将点云映射到有意义的表示中。通过解码候选形状来可视化正则化的效果。命令他们的动议预见危险。自动驾驶汽车需要同时感知环境的外观和几何成分，以推断语义信息1. 介绍自动驾驶正在改变我们对人类交通的设想。将全自动驾驶汽车引入我们的城市意味着与现有车辆共享道路。因此，自动驾驶车辆在驾驶任务中超越人类是必要的。了解城市环境和人类驾驶过程对于智能体能够实现并超越人类驾驶性能至关重要。因此，自动驾驶车辆需要超越人类感知，以便应对无限的不可预测情况。自动驾驶车辆通过了解其环境来调整其驾驶策略。道路检测模块[11，6]和路标识别模块[19，54]向汽车指示在哪里以及如何驾驶。物体检测方法[8，42]约束车辆* 两位作者对这项工作做出了同样的贡献。需要驾驶。RGB摄像机通过从单个RGB摄像机[55，64]或立体视觉[61，9]推断深度来提供外观和几何信息。深度和形状完成[36，23]通常用于改善RGB传感器的有限感测能力。替代地，LIDAR系统以更准确的方式直接感测几何形状。LIDAR传感器对光线和天气条件的敏感度较低，因此它们在更大范围的驾驶条件下提供更可靠的信息。然而，LIDAR生成稀疏的点云，不容易适用于传统的CNN处理。大多数当前的作品通过体素化3D空间[29，21]或将点云投影到平面空间[53，27，10，51]来预处理3D点云以用于CNN然而，这些方法丢失了细粒度的几何细节。值得注意的是，只有少数作品直接处理点云[43，1]。我们认为，外观信息不足以达到优于人类的驾驶性能，尤其是在具有挑战性的驾驶环境中。Φ模型形状解码模型仅可视化Φ候选形状Ψ解码的最佳候选Cos. SIM.Ψ21360在这项工作中，我们提出了一个在线的三维物体跟踪方法的基础上纯粹的激光雷达。首先，我们利用几何特征计算稀疏点云使用Achlioptas等人提出的形状完成网络。[1]的文件。这些特征在连体网络中用于创建潜在表示，其中余弦相似性将部分对象点云与模型形状相匹配。然后，我们通过自动编码器网络来正则化编码，以生成几何上有意义的潜在表示。我们希望通过丰富的潜在表示与给定对象的语义几何信息，提高跟踪性能目前，追踪工作面临的主要挑战涉及（a）相似性度量，（b）模型更新，以及（c）遮挡处理。我们的3D跟踪器通过以下方式解决这三个方面：（a）使用Siamese网络，该网络已被证明在2D视觉对象跟踪上实现最先进的性能，适用于处理3D LIDAR点云，（b）利用刚体中的形状不变性，通过及时聚合其形状来生成更完整的模型，以及（c）强制我们的模型理解形状，而不考虑形状的遮挡建成贡献：我们的贡献是三方面的。（i）据我们所知，我们提出了第一个应用于点云而不是图像的3D暹罗跟踪器。（ii）我们建议正则化连体网络的潜在空间，使其类似于形状复杂网络的潜在空间。（iii）我们表明，使用语义信息正则化我们的网络可以更好地进行区分和跟踪。为了确保可重复性并促进未来的研究，所有源代码，训练的模型权重和数据集结果都是公开的1。2. 相关工作我们的工作从基于Siamese网络的对象跟踪，基于自动编码器的形状表示和完成以及搜索策略中获得了见解。视觉目标跟踪。跟踪是通过时间识别物体轨迹的任务，无论是在图像[28，37]还是在3D空间[34，48]中。视觉跟踪关注连续帧中的图像块，这些图像块代表视觉属性[28]、物体[39]、人[34]或车辆[17]。这个问题通常通过检测跟踪来解决，其中在第一帧之后构建模型表示，并且构建搜索空间以权衡计算成本和密集空间采样。早期的跟踪工作是基于相关滤波[2]，但目前性能更好的方法依赖于深度CNN [24]和暹罗网络[5]。Bertinetto等[3]介绍了用于视觉对象跟踪的Siamese网络他们提出了一个完全卷积的Siamese网络，并实现了状态-1https://github.com/SilvioGiancola/ShapeCompletion3DTracking最先进的VOT基准性能[28]。最近的Siamese跟踪器估计边界流[31]，使用上下文结构[20]，注意力[57]，分心[65]，语义信息[63]，三重损失[14]和区域建议网络[32]来提高跟踪性能。据我们所知，我们的工作是第一个3D适应暹罗网络的3D点云跟踪。3D对象跟踪。3D对象跟踪从几何角度处理跟踪。它不是使用2D边界框（BB）来跟踪外观属性，而是使用3D BB中包含的几何来计算目标在3D世界中的位置。3D对象跟踪要么关注RGB-D信息[48]，通过模仿2D对象跟踪方法但具有额外的深度通道[4，33]，要么关注纯粹的几何特征[49，34]。最近的工作使用LIDAR点云的鸟瞰视图（BEV）解决3D跟踪[35，60]。Luo等人[35]将多个BEV帧输入到深度CNN以执行检测、跟踪和运动预测。Yang等[60]使用了多达35个通道的BEV帧。然而，这些方法通过在BEV中投影点云而激光雷达从一个单一的角度感知环境，导致自遮挡，即。不完全观察[13]。注意，在图像上，遮挡导致噪声观测。此外，跟踪假设第一帧的BB先验，并且由于对象是刚性的，因此其在连续帧中的3D空间中的范围保持恒定。形状表示。3D形状是要管理的复杂实体，因为它们通常是稀疏的并且位于连续空间中，不像存储在密集和离散矩阵中的图像。一些工作集中在寻找有效的几何表示[52]，如占用网格和TSDF立方体。它们通常用于3D重建[41，18]，但遭受大规模内存低效，并且需要空间离散化，这会丢失细粒度细节。最近的工作使用自动编码器压缩3D形状，以有效地处理几何信息[58，56，12]。它们通常将形状编码-解码为不同的表示。这些自动编码器提供了一个紧凑的潜在形状表示低至10维。或者，Kunduet al. [30]使用RGB信息使用FastRCNN [44]和可区分的Render-and-Compare损失来解码车辆的密集3D网格。Achlioptas等[1]提出使用基于PointNet [43]的高效自动编码器解决形状完成，用于点云到点云自动编码。他们将部分点云回归到完整的形状。或者，Stutzet al. [50]提出了一种基于两阶段训练过程的占用网格形状完成网络。此外，Engelmannet al.[15]提出了一种能量最小化方法，在立体图像中同时对齐形状和姿势。搜索策略。在视觉对象跟踪中使用的搜索空间通常是密集的（穷举的）。Bertinetto等[3]第一章313615使用相关性过滤方法来获得整个搜索空间的相似性得分。然而，穷举搜索空间策略实际上不能转移到连续和密集的3D空间。这通常通过依赖卡尔曼滤波器、粒子滤波器或高斯混合模型来解决，以通过提供候选对象建议来减小搜索空间[45，62]。在每一帧处，根据概率分布对参数进行采样。只有选定的粒子被观察到，图2.我们的编码器将N= 2048点的点云作为输入。使用具有ReLU和BN的3层1D CNN将点云编码为K维（K= 128）潜在向量z。z z根据观察结果更新分布再-CosSim（z，z）=zz（一）cently，Karkuset al.[25]提出了一种可学习的粒子滤波器22网络在我们的实验中，我们选择解开搜索空间和相似性函数，在2D跟踪中完成的常见实践，通过使用实验中详细描述的穷举搜索的近似。3. 方法在这里，我们提出了一个3D暹罗跟踪器，其潜在空间的正则化跟踪器被正则化以学习包含语义上有意义的信息的编码。我们的网络概述如图1所示。3.1. 暹罗追踪器我们的3D暹罗跟踪器将一系列点云（tracklet）作为输入，其中存在给定的对象，以及与第一帧中对象位置对应的初始3D BB。对于时间t处的帧，一组可以-didate形状{xt}被编码为潜在向量{zt}，追踪损失对于训练中使用的任何给定帧，我们指定x为跟踪对象的点云，是通过连接tracklet中所有帧上的对象点云获得的地面实况模型我们训练我们的Siamese网络以根据等式（2）回归候选形状x和模型形状x之间的距离的函数。 x和x的姿态由平面上物体的3个自由度（tx，ty，α）来参数化。距离d（·，·）被认为是L2-范数参数化姿势之间的差异的10.02·102角度α（以度为单位）的权重因子为1，以与以米为单位的tx和ty具有相同的比例。我们选择可微函数ρ（·）为高斯函数，其中μ=0，σ=1。 ρ（·）的目的是软化在i v e样本处的n e g和n eg之间的距离。当距离为零时，ρ（·）取值为1，并随着距离的增加而衰减距离增加。然后我们回归我们的相似性度量使用如等式（ 2 ）中所示的 MSE 损失来计算 S i m（·，·）。C c与来自模型形状xx xt的潜在向量xzt相比。选择最佳候选对象作为当前最大限度地减少这种损失鼓励我们的编码器增加部分和完整形状之间的相似性相同。帧，并且模型形状x_y相应地被更新。编码我们的编码器Φ（·）是受前人工作的启发而设计的1Σ。.L=Σ。ΣΣ2（二）Achlioptas等人关于形状完成的研究。[1]的文件。该编码器trXCosSimφ（x），φ（x<$）−ρd（x，x<$）由3层1D卷积和ReLU层[40]和BN层[22]，过滤器尺寸[64，128，K]，如图2所示。最后一个BN层的输出之后是跨点的最大池化以获得K维潜在向量。我们发现K=128对于隐向量是合适的大小，因为它提供了计算效率、隐空间紧凑性和跟踪性能之间通过随机丢弃或复制点，我们对网络的输入进行了预处理，使其具有N=2048个点，因此在训练中使用小批量。请注意，KITTI数据集中超过96%的车辆的点小于2048。与[1]的网络相比，我们利用更紧凑但有效的潜在空间和更浅的网络来减小整个模型的参数范围从140K到125K。相似性度量编码器Φ（x）从点云x中提取潜在表示z。为了比较一对形状x和x′，我们按照等式（1）测量它们各自的潜在向量z和x′z之间的余弦相似性。3.2. 形状完备正则化重要的是要正则化的暹罗网络，以嵌入到潜在的代表性生成的性质，在歧视是有用的形状。这样的嵌入有助于概括训练中没有看到的情况。我们的正则化强制连体网络这样的表示空间嵌入了有价值的语义特征，这些语义特征以紧凑、有意义和有效的表示来定义要跟踪的对象。我们提供了定性证据，即通过我们的模型学习的表示空间通过解码潜在表示来保持所需的语义特征，如图4所示。通过表1中获得的改进的跟踪性能给出了定量证据。译码我们的解码器（z）受到Achlioptas等人所采用的形状补偿网络的启发。[1]的文件。我们的解码器由两个完全连接的层组成，一维转换一维转换+ReLU +ReLU+BN +BN一维转换+ ReLU+ BN最大池NX3NX64Nx128NxKn31362CCCC将K=128维潜在向量z=Φ（x）分解为表示重建形状x=Φ（x）的M个3D点的M × 3个值。我们使用M=2048和大小为1024的隐藏层，总共为1026。4M参数。或者，Achlioptaset al.[1]解码成4096个点的密集形状，这需要两倍多的pa-我们解码器网络中的参数。完成损失。添加完成损失作为我们的暹罗网络的正则化器，通过强制执行潜在表示来保持跟踪类的语义信息，提高了网络的性能。虽然其他作品使用地球移动器跟踪损失强制编码的部分形状类似于它们各自的编码模型，并且完成损失强制编码模型保持语义信息以实现其解码。因此，这种正则化用于加强暹罗网络学习的潜在空间，以保持有意义的形状语义信息。两个损失如等式（4）中共同最小化，其中完井损失由λcomp加权。我们使用Adam优化器[26]来训练我们的模型，初始值为学习率为1e−4，β1为0.9，批量大小为64。我们在每个平台降低验证的学习率损失使用耐心为3和比率为0。1.一、L=Ltr+λcompLcomp（4）3.4. 测试由于我们对在线跟踪感兴趣，因此逐帧推断3D轨迹。tracklet的第一个BB中包含的形状用于初始化模型形状x x x。我们通过在时间t查看帧中的一组候选形状并将它们与我们的Siamese网络进行比较来跟踪对象选择具有最大余弦相似性得分的候选者作为帧的目标对象。然后，通过将所选候选形状附加到模型形状来更新该模型形状该更新步骤使得模型对漂移敏感，因为选择不佳的候选者导致更差的模型，该模型随后选择更差的候选者。L组分=ΣΣminxi−xj2+min<$x<$i−x<$j<$2（三）didates 在2D Siamese中遇到同样的问题跟踪，通常通过根本不更新模型来解决i∈x3.3. 培训x<$j∈x<$2x<$j∈x<$i∈x2然而，我们表明，我们的模型表现更好时，模型在每帧更新。在这三个领域里，我们竭尽全力地寻找候选人，我们使用ShapeNet [7]通过从“car”类中获取5997个样本来预训练我们的编码器- 解码器网络工作流（ Φ（·））我们的模型通过最小化两个轨道进行微调完成和完成损失。首先，我们裁剪并居中位于对象的地面真值BB { b t } t ∈ [ 1，.，T]的所有帧。然后，我们将裁剪并居中的对象点云，以生成对齐的模型形状xxx。在地面实况对象周围在时间t的点云，我们裁剪C个候选BB的集合，以便创建候选形状{xt}c∈[1，..，C]。候选BB是从多元高斯分布中采样的。三个平面自由度（tX，tY，α）以当前对象的地面实况BB为中心。模型形状x和候选形状集{xt}c∈[1 ， ... ， C]被编码成它们各自的潜在表示{z ，t}c∈[1，...，C]。候选者的潜在表示{ z t } c ∈[1，.，C]，模型潜在表示是根据-等式（1）。相似性分数根据等式（2）回归到它们的相对高斯距离。同时，模型形状x被自动编码为x，并且x和x之间的倒角损失被最小化，如等式（3）所示。请注意，我们将模型形状x**自动编码为自身，而不是像形状完成那样编码候选形状。这迫使潜在向量解码成最完整的汽车形状，我们有可用的，即。e. 模型形状xxx。自由度的增加将导致非常高的计算成本。因此，利用穷举搜索的近似来生成候选形状。近似穷举搜索允许我们通过假设地面真值框将被包括作为候选者之一来评估我们的暹罗网络的判别性能，这与穷举搜索的情况一样。这是2D跟踪器中我们的穷举搜索是通过使用以当前地面真值为中心的三个自由度（tX，tY，α在我们的实验中，我们比较了不同的采样方法，如卡尔曼滤波器，粒子滤波器，高斯混合模型，这将被用来提供我们的跟踪器在一个更现实的设置可以didates。4. 实验我们使用KITTI跟踪数据集的训练集[17]进行实验。其划分如下：场景0 - 16用于训练，场景17 - 18用于验证，场景19 - 20用于测试。我们通过为每个场景中出现的汽车的每个实例生成tracklet来适应KITTI的3D单对象跟踪Tracklet是通过连接场景中出现给定汽车实例的一组帧来创建的。对于每个轨迹片段，仅第一帧包括地面实况BB。对于我们的任务，我们使用一次通过评估（OPE）[28]评估单个对象跟踪它将重叠定义为BB31363以其地面真实值和误差作为两个中心之间的距离。使用重叠和误差AUC定义成功和精度指标对于我们的3D对象跟踪目的，我们预测3D BB，因此我们将精度估计为0到2m的3D误差的AUC。我们通过在tx和ty的[-3，3]m和[-10，10]o的网格上采样，在当前帧中穷尽地生成候选项对于α，分辨率分别为1m和10o的网格以当前地面实况BB至ap为中心接近彻底搜查实验使用PyTorch 0.4.1在11GB NVidiaGTX1080Ti GPU上运行。4.1. 消融研究我们在表1中介绍了我们的方法的消融研究，强调了3D暹罗追踪器的形状完成正则化的重要性。提供了五种不同情况的结果：（i）使用随机权重初始化我们的网络，（ii）我们的网络在ShapeNet上进行了预训练，（iii）我们的网络经过训练，仅最小化完成损失，（iv）我们的网络通过仅使用我们的跟踪损失作为常规的暹罗跟踪器进行训练，以及（v）我们的网络在跟踪和完成损失的情况下进行训练。我们观察到，单独最小化完成损失或跟踪损失的训练比ShapeNet上的预训练和随机初始化提供了更好的结果。此外，结合这两个损失提高跟踪器表1.针对我们正在训练的不同损失进行消融研究。我们报告了在5次运行中平均的不同损失的OPE成功/精度指标。最佳结果以粗体显示。消融成功精度(i)训练前（随机）39.0641.79(ii)在ShapeNet44.5449.38(iii)我们的65.3670.62(iv)我们的73.9678.68(v)我们的76.9481.38完成损失。图3（顶部）显示了当正则化参数λcomp变化时获得的详细结果。由于对完成损失给予较少的权重，性能从仅使用完成损失获得的结果移动到仅使用跟踪损失获得的结果。在两个损失处于相同数量级的点处获得最佳折衷。这发生在λcomp介于1e-5和1e-6，在这里我们获得峰值性能。潜在表示维度。图3（底部）显示了改变潜在表示z的大小如何影响性能。可以观察到，潜在表示通常表现得更好。这是由于较大的潜在表征编码更多的表达能力。然而，这在大约K=128维的尺寸处达到最大值。更大的潜在代表-图3.针对形状完成的不同正则化λcomp（顶部）和潜在表示大小K（底部）的烧蚀研究。我们报告了在5次运行中平均的不同λ comp和K值的OPE成功/精度指标。表示需要更昂贵的计算，但是当将32维的潜在表示与128维的表示进行比较时，差异并不显著。因此，最好使用提供最佳跟踪性能的表示，即。K=128。重建业绩。表2显示了使用[50]中我们的方法（v）优于纯完备性方法（iii），表明完备性也受益于跟踪过程中提供的不同观点。然而，我们的解码器还没有达到目前最先进的水平。表2.完成KITTI Tracking的表演方法（三）（iv）（v）[第十五条][50个]Comp. [m]0.1880.6900.1790.1300.078定性结果。图4示出了关于解码形状Φ（x）的定性结果。我们可以观察到，用于跟踪的训练仅导致包含大量噪声的解码点云。在ShapeNet上预训练的模型已经针对形状完成的训练仅提供作为原始候选形状的更完整版本的形状重建。通过我们的形状完成使跟踪规则化-31364图4.模型完成示例（从左到右）：（i）候选点云，（ii）当用ShapeNet预训练时的解码的候选点云，（iii）当仅用完成损失训练时的解码的候选点云（λcomp= ∞），（iv）当仅用跟踪损失训练时的解码的候选点云（λcomp = 0）（针对完成训练的解码器用于公平地估计）。−6（v）在跟踪和完成损失（λ comp = 1 e）的情况下训练时的解码候选点云）.如果λcomp=1e−6，则提供了类似于仅使用形状完成的重建然而，模型训练因为形状完成仅更紧密地跟随候选形状正则化损失能够改善跟踪结果，同时保留足够的类信息，以便从其潜在向量重构编码形状。图5示出了从针对在exhaustive搜索周围获得的一组样本的余弦相似性获得的激活。我们观察到，随机初始化的模型在任何地方都会产生高分，因此提供了一个很差的区分。在ShapeNet上预训练的模型能够比随机初始化更好地辨别要跟踪的形状，但仍然会被环境分散注意力我们的模型能够很好地区分地面实况车和周围区域;只有在地面实况盒附近才有高激活请注意，我们期望获得的激活的理想形状是以地面真实值BB为中心的高斯形状，如在训练中回归的那样。4.2. 模型融合与形状聚合当我们跟踪目标时，我们构造并更新目标形状的模型x。默认情况下，模型作为点云维护。我们在迭代t之后对模型的更新步骤包括将帧xt中的跟踪形状的点与当前模型连接起来。另一种方法是通过对潜在表示进行平均来维护模型。我们研究融合点云或潜在表示的影响，以及不同类型的聚合在时间上的两种表示的影响在我们的方法中，我们测试了不同形状的融合和聚合我们在表3中报告了主要结果。早期/晚期融合。我们通过连接形状点云xt（早期融合）或聚集潜在形状表示zt（后期融合）来更新模型。早期融合需要大量内存来存储模型形状。后期融合允许对点云进行更有效的内存表示，因为我们只需要保留一个潜在向量来表示整个形状。由于模型在测试过程中不会被多次编码，因此它在计算上也更有效。图5. exhaustive搜索空间网格上的模型余弦相似性分数的热图：从下到上：（i）使用随机权重模型激活，（ii）在预训练模型（ShapeNet）上激活，（iii）我们的模型。表3.不同数据融合和模型聚合的OPE成功率/精度。所有结果均为5次运行的平均值。最佳代表性聚合以粗体显示。融合数据表示早期融合PC后期融合潜仅第一个形状54.6/64.254.6/64.1仅以前的形状64.5/69.764.4/69.6第一和prev。形状75.4/82.769.1/78.1所有以前的形状76.9/81.463.9/73.2中位合并– /59.7/67.6最大池化– /71.5/75.631365形状聚合。我们研究不同类型的形状聚合。特别地，我们尝试仅使用第一帧中的形状、仅使用先前形状、第一和先前形状的聚合以及所有先前形状的聚合。我们还研究通过计算向量在时间上的平均值、中值或最大值来聚合潜在表示。分析. 如表3所示，连接点云（早期融合）的性能通常优于融合潜在向量（后期融合）。这主要是由于我们的设计，以处理任意形状的2048点采样的完成损失。我们不包括任何会训练我们的网络聚合潜在向量的损失因此，后期融合的性能不如连接点云。仅使用第一帧或前一帧的聚合不能很好地执行。特别地，在单个帧中属于所讨论的对象的点的数量可能非常小，这阻碍了正确的形状表示。如果这发生在第一帧中，它将意味着一个坏的初始表示。当使用前一帧进行跟踪时，低点数将引起漂移。融合第一帧和前一帧的性能非常好，并提供最佳精度。我们认为，这两个遥远的表示相互补充，特别是通过限制在第一帧中的平移漂移量给定的初始不良表示。第一帧中的形状通常包含有限数量的点，因为它们是从很远的距离感测的。它们提供了非常不完整的形状信息，但仍然有助于大致定位其位置，尽管不是其取向。全模型不可避免地会产生漂移，而前一帧与前一帧的融合在一定程度上避免了初始漂移，从而提高了精度。对于潜在表示，中值池化不如平均池化有效，但最大池化提供了最佳性能。我们认为它与编码器网络末端的最大池化层交互良好。通过连续最大池化形状但这并不像早期融合那样有效。4.3. 搜索空间由于3D空间的连续性和立方性，在3D中定义有效的搜索空间是非常困难的。因此，当需要非常精细的搜索空间时，穷举搜索变得不可行为了克服这个限制，我们使用卡尔曼滤波器，粒子滤波器和高斯混合模型来产生候选。我们应用我们的网络使用更现实的搜索空间，不使用地面实况BB，而不是穷举搜索近似。我们认为，我们的模型具有良好的区分-这是一个很好的解决方案，但受到候选人质量的限制为了支持我们的主张，我们报告了通过使用候选对象到地面真实对象BB的距离（最佳可能的相似性度量）对候选对象进行评分所获得的结果，结果示于表4中。可以观察到，我们的模型达到了与通过选择最接近地面真实的候选人获得的性能相似的性能，这强调了我们的相似性度量用于区分的有效性。表4.不同搜索空间的OPE成功率和精度。所有结果均为5次运行的平均值。融合数据代表早期PC晚潜最接近空间卡尔曼滤波41.3/57.937.4/52.143.7/58.3粒子滤波34.2/46.433.3/44.938.4/49.5GMM（k=25）35.6/49.134.0/46.137.9/49.34.4. 与基线的为了比较我们的3D跟踪方法，我们创建了两个基线，因为这个特定任务没有3D跟踪方法。我们采用最先进的3D检测方法和2D跟踪器作为基线这些基线的结果与我们使用穷举搜索的最佳模型和我们使用卡尔曼滤波器的最佳模型一起报告在表5中。使用3D BB上的3D IOU和BEV BB上的2D BEV IOU报告评估指标。表5.在BEV帧上使用3D OPE（3D BB）和2D OPE进行基线比较测试OPE3DOPE2D吻合钉CA– /31.60 /29.30AVOD跟踪63.16 /69.7467.46 /69.74我们的-卡尔曼滤波40.09 /56.1748.89 /60.13我们的-详尽76.94 /81.3876.86 /81.373D检测。对于3D检测基线，我们将AVOD-FPN [29]检测器与在线匹配算法配对。AVOD-FPN利用LIDAR点云和RGB图像来获得3D检测。我们在tracklet中对每一帧都使用检测，并通过逐帧匹配对象来实现逐检测跟踪。帧t中的对象被选择为具有最高重叠的BB其中BB在帧t-1中被跟踪。2D追踪器。当应用于BEV数据时，我们与普及的2D吻合器CA跟踪器[2，38BEV图像是通过将点投影到地平面中来从我们的轨迹小程序中的点云中提取的。然后将生成的2D tracklet馈送到吻合器CA跟踪器。该方法提供了一个仅LIDAR的跟踪器作为我们方法的公平基线，该方法也仅依赖于LIDAR输入。31366分析. 表5显示了与跟踪基线的比较结果。我们的详尽模型比两个基线都更好，而使用卡尔曼滤波器的模型能够优于2D跟踪器。5. 讨论在完整的模型上训练。在我们的实验中，我们自动编码一个完整的模型形状，通过连接所有的点云在一个轨迹。然后，我们将属于与我们的模型相同的对象的候选形状替代方案将是强制在不同时间属于对象的部分形状彼此相似，并且强制不属于对象的部分形状与属于对象的部分形状不相似。特别地，我们尝试提供时间t处的对象作为我们的暹罗网络的目标，以代替完整模型。然而，使用完整模型作为目标获得了更好的结果使用来自相同时间t的对象进行训练的一个自然扩展是连接来自不同时间的相同tracklet的不同形状组合。这种增强是可能的，因为我们训练我们的网络，以完成形状，即。对于来自不同视图的遮挡是不变的。这是使用单个帧作为模型进行训练与使用整个轨迹片段创建用于暹罗网络的模型形状之间的中间步骤然而，这种增强以指数方式增加了训练时间，并且没有为我们的跟踪结果提供进一步的改进。在没有自动编码完整模型的情况下，每帧中没有足够的点来学习汽车的正确形状地面包括在汽车模型中。该模型在Shape Net上进行预训练，Shape Net具有完整的形状，没有道路等噪声点。在我们的测试中，我们将BB缩放了1.25倍，因为原始BB在汽车周围太紧，并且汽车的部分边界位于其BB之外。这种考虑占表演的10%。出于这个原因，可以在图4中看到道路，但我们相信包括道路不会对形状表示产生负面影响。我们还考虑了0的固定偏移量。5米，效果不遮挡的稳健性。仅在跟踪损失的情况下，我们的方法（iv）执行76的成功/精度。9/80。1和72。8/77。KITTI中完全可见和遮挡样品的平均值分别为4加上形状补全，我们的方法（v）达到79。9/83。2和74。6/80。5，两种情况下都有改善。动态场景的鲁棒性。我们计算了KITTI中要跟踪的每辆车的动力学，并报告了平均距离d=0。742m，与[17]的图10和图11我们将样本分成静态（d <0. 7m）和动态（d> 0. 7个月）我们报告的成功/精度指标相当相似，为76。4/80。5和76。7/83。2分别。对称性大多数汽车只能从一侧看到。我们试图利用汽车对称性的先验知识，以进一步完成汽车的形状。然而，这种方法并没有被证明是有效的，特别是因为BB没有很好地居中，并且在我们的模型中引入了更多的噪声。高斯采样我们在训练过程中通过从多变量高斯分布中采样来采样偏移随机提高性能，因为网络能够从各种目标分数中学习。固定偏移网格仅提供用于跟踪损失的离散数目的缺乏多样性的训练会导致测试过程中的表现较差。时机我们的模型平均需要1.8ms来评估147个候选人。我们不考虑生成和准备候选点和模型点云以进行评估所花费的时间。这使我们能够在部署期间尽可能多地增加GPU允许的候选数量，同时仍然能够实时处理点云。6. 结论在本文中，我们提出，据我们所知，第一个3D暹罗跟踪器应用于点云，而不是图像。我们利用一个有效的编码能够嵌入有意义的语义先验由于形状复杂的正则化。我们表明，用语义信息正则化我们的网络会导致更好的识别和跟踪性能。此外，我们还提供了有关模型构建的见解，如早期/晚期融合和帧中的形状聚集。我们在3D和2D BEV中与基线进行比较，表明我们的搜索引擎能够通过使用详尽的搜索设置来超越基线。因此，我们提出了一个纯粹的3D替代跟踪汽车在城市环境中，并表明，几何导向的方法能够实现良好的性能。未来的工作还将包括改进相似性度量和模型更新，包括类似于区域建议网络中使用的建议损失，基于点云质量的更智能的模型点云选择。进一步的工作将包括扩展到多目标跟踪和3D对象检测，通过利用基于我们的3D暹罗网络的相似性度量。可替代地，3D连体跟踪可以适于不同类别的对象、铰接形状表示和2D对象跟踪。致谢：本出版物基于阿卜杜拉国王科技大学（KAUST）赞助研究办公室（OSR）支持的工作，奖励号为RGC/3/3570-01-01。31367引用[1] P. Achlioptas、O.迪亚曼蒂岛Mitliagkas和L. Guibas三维点云的学习表示与生成模型。2018. 一、二、三、四[2] L. 贝尔蒂内托Valmadre，S.戈洛代茨岛Miksik和P.H.乇Staple：用于实时跟踪的补充学习器在IEEE计算机视觉和模式识别会议论文集，第1401-1409页二、七[3] L.贝尔蒂内托瓦尔马德雷J. F.亨里克斯A. Vedaldi和P. H.乇用于对象跟踪的全卷积连体网络。见ECCV，第850-865页。施普林格，2016年。2[4] A. Bibi，T. Zhang和B.加尼姆具有自动同步和配准的基于3d部件的稀疏跟踪器。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。2[5] J. 布罗姆利岛Guyon，Y. LeCun，E. Sa？ckinge r和R.Shah. 使用“连体”时间延迟神经网络的签名验证。神经信息处理系统进展，第737-744页，1994年。2[6] L. Caltagiroone、M.贝隆湖Svensson和M.韦德基于全卷积神经网络的激光雷达-摄像机道路检测融合。arXiv预印本arXiv：1809.07941，2018。1[7]A. X. 张氏T.A. 芬克豪泽湖J. 吉巴斯山口汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. Shapenet：一个信息丰富的3D模型存储库。CoRR，abs/1512.03012，2015。4[8] X. Chen，H. Ma，J. Wan，B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在IEEE CVPR，第1卷，第3页，2017年。1[9] X. Cheng，P. Wang，and R.杨使用卷积空间传播网络学习深度。arXiv预印本arXiv：1810.02695，2018。1[10] H. Chu，W.- C. M. K.昆杜河Urtasun和S.菲德勒Sur-fconv：桥接rgbd图像的3d和2d卷积。在IEEE计算机视觉和模式识别会议论文集，第3002-3011页，2018年。1[11] H. Dahlkamp，A. Kaehler，D. Stavens，S. Thrun和G. R.布拉德斯基沙漠地形下的自监督单目道路检测。在机器人领域：科学与系统，第38卷。费城，2006年。1[12] A.戴角，澳-地R. Qi和M.尼斯纳使用三维编码器预测器cnn和形状合成的形状完成。正在进行IEEE会议计算机视觉和模式识别（CVPR），第3卷，2017年。2[13] Z. Deng 和 L. 扬 · 拉特克。 3D 物体的非模态检测在CVPR，2017年。2[14] X. Dong和J. Shen.用于目标跟踪的连体网络中的三重态损失。在ECCV，2018年9月。2[15] F. Engelmann ，J. S tu？kle r和B. Leibe 基于三维形状先验的城市街道场景联合物体姿态德国模式识别会议，第219-230页。施普林格，2016年。二、五[16] H.范，H. Su和L.吉巴斯一种从单幅图像重建三维物体的点集生成网络。在CVPR，第2卷，第6页，2017年。4[17] A. Geiger，P. Lenz，C. Stiller和R.乌塔松视觉与机器人技术的结合：Kitti数据集。IJRR，32（11），2013. 二四八[18] S. Giancola ， J. Schneider ， P. Wonka 和 B. S. 加尼姆Kinect融合重建管道中绝对方向测量的集成在IEEE会议上关于计算机视觉和模式识别（CVPR）工作坊，2018年6月。2[19] J. Greenhalgh和M.米尔梅迪道路交通标志的实时检测与识别。 IEEE Transactions on Intelligent TransportationSystems，13（4）：1498-1506，2012。1[20] A.他，C. Luo，X. Tian和W.小曾。用于实时目标跟踪的双重连体网络。在IEEE计算机视觉和模式识别会议（CVPR）中，2018年6月。2[21] B.- S.华，M.- K. Tran和S.- K.杨逐点卷积神经网络。在IEEE计算机视觉和模式识别会议上，第984-993页，2018年。1[22] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。 arXiv 预印本 arXiv ：1502.03167，2015。3[23] M. 亚里茨河 De Charette，E. Wirbel，X. 佩罗顿，以及F. Nashashibi 稀疏和密集数据与cnn：深度完成和语义分割。2018年IEEE，2018年。1[24] I. Jung，J. Son，M. Baek和B.韩实时mdnet。在ECCV，2018年9月。2[25] P. Karkus，D. Hsu和W. S.李你粒子滤波网络及其在视觉定位中的应用. arXiv预印本arXiv：1805.08975，2018。3[26] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。4[27] I. Kostrikov，Z. Jiang，中国粘蝇D. Panozzo，D. Zorin和J.布鲁娜地面网络。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。1[28] M.作者：J. Matas，A

下载后可阅读完整内容，剩余1页未读，立即下载