点云刚体运动估计的深度网络模型及数据集构建与鲁棒性评估

103 浏览量更新于2023-10-19 收藏 1.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7962PointFlowNet：基于点云的刚体运动估计的学习表示Aseem Behl Despoina Paschalidou Simon Donne 'Andreas GeigerAutonomousV Vision Group，MPI for Intelligent Systems and University of Tubingen{aseem.behl，despoina.paschalidou，simon.donne，andreas.geiger}@ tue.mpg.de摘要尽管基于图像的3D场景流估计取得了重大进展，但这些方法的性能尚未达到许多应用所需的保真度。同时，这些应用通常不限于基于图像的估计：激光扫描仪提供了传统相机的流行替代品，例如在自动驾驶汽车的背景下，因为它们直接产生3D点云。在本文中，我们建议使用深度神经网络从这种非结构化点云中估计3D运动。在一个单一的向前传递，我们的模型联合预测3D场景流以及3D边界框和刚体运动的场景中的对象。虽然从非结构化点云估计3D场景流的前景是有希望的，但它也是一个具有挑战性的任务。我们证明了刚体运动的传统全局表示禁止CNN进行推理，并提出了一种平移等变表示来规避这个问题。为了训练我们的深度网络，需要一个大型数据集。因此，我们使用虚拟对象增强KITTI的真实扫描，逼真地建模遮挡并模拟传感器噪声。与经典和基于学习的技术进行了彻底的比较，突出了所提出的方法的鲁棒性。1. 介绍对于像自动驾驶汽车这样的智能系统来说，精确地了解周围环境是关键。值得注意的是，为了对未来做出预测和决策，导航和规划等任务需要了解环境的3D几何形状以及场景中其他智能体的3D运动3D场景流是这种3D运动的最通用的表示;它将速度矢量与每个测量点的3D运动相关联。传统上，3D场景流是基于校准的立体装备的两个连续图像对来估计的[17，39，40]。虽然场景流方法的准确性在过去十年中已经大大提高[24]，其中，大多数领先的技术需要几分钟或几小时来预测3D场景流。其次，基于立体的场景流方法存在一个根本缺陷，即“双视图几何的诅咒”：可以表明，深度误差随着到观察者的距离二次增长[20]。这导致了自动驾驶汽车中经常出现的基线和物体深度问题，如图所示。1（顶部）。因此，大多数现代自动驾驶汽车平台都依赖LIDAR技术来实现3D几何感知。与相机相比，激光扫描仪仅用一个传感器就能提供360度的视场，通常不受照明条件的影响，并且不会受到立体相机的二次误差行为的影响。然而，虽然LIDAR提供精确的3D点云测量，但是估计两次这样的扫描之间的运动是一项重要的任务。由于点云数据的稀疏性和非均匀性，以及缺少外观信息，使得数据关联问题变得复杂。此外，由扫描仪产生的特征图案，例如图1中的圆环。1（底部），随着观察者移动，很容易误导局部对应估计算法。为了应对这些挑战，我们提出了PointFlowNet，一个通用模型，用于从成对的非结构化3D点云中学习3D场景流。我们的主要贡献是：• 我们提出了一个端到端的可训练模型，用于联合3D场景流和刚性运动预测以及来自非结构化LIDAR数据的3D对象检测，如捕获的从一辆（自动驾驶）汽车。• 我们表明，全球表示是不适合刚性运动预测，并提出了一个局部平移等变表示，以减轻这个问题。• 我们使用虚拟汽车来增强KITTI数据集，考虑到遮挡和模拟传感器噪声，以提供更多（真实）的训练数据。• 我们证明了我们的方法与最先进的方法相比是我们的代码和数据集可在项目网页1.基于图像场景流方法很少使其成为机器人应用其原因有两个方面。1https://github.com/aseembehl/pointflownet7963图1：动机。为了鼓励在自动驾驶的背景下使用LIDAR传感器，我们使用KITTI 2015数据集[24]中的场景，对最先进的基于图像的场景流方法ISF [3]（顶部）和基于LIDAR的PointFlowNet左列显示了这两个方法的输出右列显示入口的放大版本。虽然基于图像的结果受到“两视图几何形状的此外，ISF依赖于图像空间中的实例分割来检测对象：边界处的深度估计误差导致对象被分成两个3D集群（例如，红色汽车）。为了清楚起见，我们只可视化点的一个子集。2. 相关工作在下面的讨论中，我们首先根据预期输入对相关方法进行分组;我们以讨论基于学习的解决方案来结束本节来自图像序列的场景流：3D场景流估计的最常见方法是恢复两个校准的立体图像对之间的对应性。早期的方法使用由粗到细的变分优化来解决问题[2，17，37，39由于从粗到细的优化通常在存在大位移的情况下表现不佳，因此已经提出了将场景分解为刚性移动的3D补丁集合的倾斜平面模型[22，24，25，42]。结合语义的好处虽然基于图像的场景流估计的现有技术已经显著进步，但是其准确性固有地受到如先前提到的和在图1中示出的双视图几何结构的几何特性的限制来自RGB-D序列的场景流：当每像素深度信息可用时，两个连续的RGB-D帧足以估计3D场景流。最初基于图像的变分场景流方法被扩展到RGB-D输入[15，30，45]。Franke et al.[11]相反，提出使用一组卡尔曼滤波器来跟踪KLT特征对应。在球形3D补丁上利用PatchMatch优化，Hornacek等人。[16]恢复3D刚体运动的密集场。然而，虽然结构化光扫描技术（例如，Kinect）能够捕捉室内环境，密集的RGB-D序列很难在像我们这样的室外场景中获得。此外，结构化光传感器遭受与立体技术相同的深度误差特性。来自3D点云的场景流：在机器人领域，从3D点云进行运动估计到目前为止主要采用经典技术。几个作品[6，34，36]通过使用粒子滤波器[6，34]或EM [36]更新的粒子表示移动对象，将占用图扩展到动态场景。其他人使用均值漂移[1]，RANSAC [7]，ICP [26]，CRF[38]或贝叶斯网络[14]来解决3D检测和跟踪问题相比之下，Dewan et al.[8]提出了一种3D场景流方法，其中局部SHOT描述符[35]通过CRF相关联，该CRF包含局部平滑度和PointFlowNetISF [3]7964刚性假设虽然已经取得了令人印象深刻的结果，但所有上述方法都需要大量的工程和手动模型规范。此外，局部形状表示（如SHOT [35]）通常在存在噪声或模糊输入的相比之下，我们使用通用的端到端可训练模型来解决场景流问题，该模型能够直接从数据中学习局部和全局统计关系因此，我们的实验表明，我们的模型相比，上述经典的方法。基于学习的解决方案：虽然在文献中已经提出了几种用于立体声[19，21，46]和光流[9，18，33]的基于学习的方法，但是在学习场景流估计方面几乎没有先前的工作。一个明显的例外是SceneFlowNet [23]，它将FlowNet [9]和DispNet [23]的特征结合起来，用于基于图像的场景流估计。相比之下，本文提出了一种新的端到端的可训练的方法，从非结构化的三维点云场景流估计。最近，Wang et al.[43]提出了一种新的连续卷积运算，并将其应用于三维分割和场景流。然而，他们不考虑刚性运动估计，这是这项工作的主要重点。3. 方法我们首先正式定义我们的问题。设 Pt∈RN×3和Pt+1∈RM×3分别表示第t帧和第t+ 1帧处的输入3D点我们的目标是估计[2019- 05 - 15][2019 - 05 - 15][2019 - 05 - 在本文中，我们利用特征编码最近提出的周等人。[48]，其展示了从点云进行3D对象检测的最新结果。我们简要地总结了这种编码，但请读者参考[48]以了解更多细节。我们将每个输入点云的3D空间细分为等间距的体素，并根据它们所在的体素对点进行分组为了减少相对于LIDAR点密度的偏差，对包含多于T个点的所有体素随机采样固定数量的T个点。每个体素都使用一堆体素特征编码（VFE）层进行处理，以捕获其包含点的局部和全局几何属性由于LIDAR扫描中超过90%的体素往往是空的，因此我们只处理非空体素并将结果存储在稀疏的4D张量中。我们注意到，替代表示，例如，那些直接编码原始点云[13，43]的方法可能是体素表示的可行替代方案。然而，由于表示不是本文的主要焦点，我们将把这种调查留给今后的工作。3.2. 上下文编码器由于街道场景中的对象被限制在地平面上，因此我们仅估计该平面上的对象和运动：我们假设3D对象不能位于彼此之上，并且直接位于彼此之上的3D场景点经历相同的3D运动。这对于我们的自动驾驶场景是一个有效的假设，并且大大提高了内存效率。[48]第一部分• 3D场景流V∈R3与三维刚体运动上下文编码器垂直下采样体素特征Ri∈R3×3我，ti∈R3，通过使用三个3D卷积与垂直步幅2映射。帧t处的参考点云，以及• 场景中每个移动物体的位置、方向、大小和刚性运动（在我们的实验中，我们只关注汽车）。我们的方法的整体网络架构如图2所示。该网络包括五个主要组成部分：（1）特征编码层，（2）上下文编码层，（3）场景流估计、自我运动估计和3D对象检测层，（4）刚性运动估计层和（5）对象运动解码器。在下文中，我们提供了对这些组件中的每一个以及损失函数的详细描述。3.1.特征编码器特征编码层将原始点云作为输入，将空间划分为体素，并用特征向量描述每个最简单的聚合形式是二值化，其中包含至少一个点的任何体素设置为1，所有其他体素都为零。然而，通过聚合上的高阶统计量可以获得更好的结果。生成的3D要素地图通过堆叠剩余的高度切片作为特征图以产生2D特征图。所得到的2D特征图被提供给2D卷积层的三个块。每个块的第一层通过步幅为2的卷积对特征图进行下采样，然后是步幅为1的一系列卷积层。3.3. 三维检测、自我运动与三维场景流接下来，网络分为三个分支，分别用于自我运动估计，3D对象检测和3D场景流估计。由于只有一个观察者，自我运动分支通过将卷积层与步幅卷积层交织来进一步下采样特征图，并最终使用完全连接的层来回归3D自我运动（在地平面中的移动和围绕垂直方向的旋转）。对于其他两个任务，我们使用上卷积对各个块的输出进行上采样：对于3D对象检测，达到原始分辨率的一半，并且对于3D场景流估计，达到全分辨率。所得到的特征被堆叠并映射到训练目标，每个训练目标具有一个2D卷积层。我们回归一个3D向量，7965图2：网络架构。特征编码器将原始LIDAR点云作为输入，将点分组为W×H×10体素，并输出128D特征图（为清楚起见，图中未显示特征图的大小），这些特征图被连接并传递给上下文编码器。上下文编码器通过交织来具有跨越的卷积层的卷积和“平坦化”第三维（地面以上的高度），即，我们假设3D对象不能位于彼此之上，并且投影到地平面中相同位置的3D场景点经历相同的3D运动。不同分辨率的特征图被上采样、堆叠并馈送到解码分支。在场景流解码器中针对每个输入体素计算3D场景流，并且将结果传递到刚性处理器。运动解码器，它为每个点推断刚体变换与此同时，自我运动回归因子，进一步通过将卷积层与跨步卷积层和末端处的全连接层交织来对特征图进行下采样，以回归自我车辆的刚性运动。此外，对象解码器预测位置和大小（即，3D边界框）。最后，对象运动解码器将逐点刚体运动作为输入，并通过将检测到的3D对象上的刚体运动场合并来预测对象刚体运动。场景流的体素，并遵循[48]进行对象检测：对一组建议边界框的似然性进行回归，并对正建议框和对应的地面实况框之间的残差（平移、旋转和大小）进行回归。如果一个提议边界框具有最高的与地面真值检测的交集（IoU，在地平面中），或者如果它与任何地面真值框的IoU大于0.6，则它被称为正边界框，如[48]所示。3.4. 刚体运动解码器我们现在希望从先前估计的3D场景流中推断每像素和每对象的刚体运动对于孤立的单个点，存在无限多个刚体运动来解释给定的3D场景流：这种模糊性可以通过考虑局部邻域来解决。不幸的是，不可能使用卷积神经网络来回归以全局世界坐标表示的刚体运动，因为场景流和全局刚体运动之间的转换取决于场景中的位置：虽然卷积层是平移等价的，但是要学习的映射不是平移等价的。相同的流动区域会导致不同的全局刚体运动，这取决于体积中的位置，以及完全卷积的网络。工作不能模拟这一点。本文首先证明了世界坐标系中的刚体运动不是平移等变的。随后，我们在局部坐标中介绍了我们提出的刚性运动表示，并证明它是平移等变的，因此可以进行完全卷积推理。假设世界坐标系W中的一个点p，并设A表示原点为A的局部坐标系，如图2所3a. 场景流向量v由刚体运动（RA，tA）解释，表示在具有原点oA的局部坐标系A中，当且仅当：v=[RA（p−oA）+tA）]−（p−oA）（1）现在假设第二世界位置q，也具有如图1所示的场景流v3a. 令B表示原点为oB的第二局部坐标系，使得p和q在它们各自的坐标系中具有相同的局部坐标，即，p-oA=q-oB。我们现在证明以下两个主张：1. 不存在在世界坐标系W中表示的刚体运动RW，tW，其解释对于p和q两者的场景流v，除非RW=I。2. 任何刚体运动（RA，tA）解释场景流系统A中p的v对系统B中q也是如此。7966WWWWWWWWWWWWWWWWWvpvQOAoB(a) 地方坐标系（A，B）和世界坐标系（W）（b）定量比较图3：刚性运动估计。在（a）中，指数A和B表示原点oA处的点p和q的坐标系，B，分别。相同的场景流v可以用相同的刚体运动（RL，tL）局部地解释，但是需要不同的翻译/=tq 在全局坐标系中。一个简单的例子（b）提供了经验证据，翻译不能用CNN在全局坐标中学习使用全局坐标，平移误差增加与旋转幅度显著相关（绿色）。使用局部坐标（橙色）时，误差不会增加为了实现这一目标，我们引入符号（Rp，tp），我们在图3中提供了一个简单的合成实验W W表示在世界坐标系W中由vp引起的刚体运动。权利要求1以实证的方式证实这一分析。为了实现这一目标，我们通过随机刚性运动扭曲10×10点的网格，然后尝试从结果场景流中推断这些刚性运动：正如预期的那样，只有使用p，q∈R3，p−oA=q−oB，oAoB：本地坐标请注意，参考系统的变化vp=vq=RppWpWI=Rq或f=tq或=Rq=I（二）只影响平移分量，而旋转分量组件不受影响。受前面分析的启发，我们让CNN预测局部坐标中的刚性运动，然后是一个确定性层，将局部坐标转换为全局坐标，如下所示：根据vp= vq，我们得到Rp p+ tp− p= Rqq+tq−qRL=RWtL=（RW−I）oL+tW（四）W WRp p+ tpW=RqW（p−o）+tq 公司简介RW=RLtW=（I-RW）oL+tLW W W在我们的例子中，世界坐标系的原点（Rp— RQ）p=（ I−Rq）o+（tq— tp）与LIDAR扫描仪重合，并且局部坐标系的原点位于每个体素的中心。式中，ω o=oA−oB。现在，我们假设Rp= Rq并且tp=tq（在所有其他情况下，3.5. 物体运动解码器实现）。在这种情况下，我们有o=Rpo。然而，表示非零旋转的任何旋转矩阵都没有实特征向量。因此，当oA/=oB时，这个等式只有在Rp是单位矩阵时才能满足。□权利要求2最后，我们将3D对象检测和刚性运动估计的结果我们首先使用检测阈值τ应用非最大值抑制（NMS），产生一组3D边界框。为了估计每个检测的刚体运动，我们将预测的刚体运动集中在p，q∈R3，p−oA=q−oB，oAoB：相应的体素（即，边界框中的体素v=R（p-oA）+t+（p-oA）=v=R（q−oB）+t+（q −oB）（三）通过计算中值平移，旋转请注意，这仅在刚体运动已转换回世界坐标时才可能。第二个命题的证明简单地从p − o A= q − o B开始。□第一个证明显示了在全局坐标中表示的刚体运动的非平稳性，而第二个证明显示了在局部坐标中表示的刚不R7967体运动是静止的，因此可以通过平移等变卷积神经网络来学习。3.6. 损失函数本节描述我们的方法所使用的损失函数。虽然似乎希望直接在对象级别定义刚性运动损失，但由于需要通过非最大值抑制步骤进行区分以及难以与地面实况对象相关联，这是复杂的。7968KJJJBGBG此外，在体素之间平衡对象损失的影响比直接在体素级别应用所有损失函数要复杂得多因此，我们使用辅助体素级损失函数.我们的损失包括四个部分：L=αL流量+βLrigmo+γLego+Ldet（5）这里，α、β、γ是用于平衡任务特定损失函数的相对重要性的正常数。我们现在更详细地描述特定于任务的损失函数。场景流量损失：场景流损失被定义为在每个体素处预测的场景流与真实场景流之间的平均距离1Σ¨∗ ¨图4：增强。基于3D网格模拟LIDAR测量将导致在透明表面（如窗户（左））进行测量，而实际LIDAR扫描仪则测量内部点。我们的模拟通过考虑模型透明度并从真实的KITTI扫描中学习噪声模型来复制LIDAR扫描仪的行为（右）。其中ppos和pneg表示posi的softmax输出。L流量=vj−vj（六）金升站negK1个积极建议框ak和消极建议框al，J分别。 rk∈ R7和r∈ R7表示回归其中vj∈ R 3和vj∈ R 3表示体素j处的回归估计和地面实况场景流，K是非空体素的数量。刚性运动损失：刚性运动损失被定义为在局部坐标系中预测的平移tj∈R2与其地面真实值t∈R2之间的平均误差，以及预测的旋转θj以及每个体素j处的基础真值θ。估计和地面真实残差向量（平移，旋转，tion和size）。Mpos和Mneg表示正和负建议框的数量。Lcls表示二进制交叉熵loss，而Lreg表示平滑的距离函数。我们参考[48]以了解更多细节。4. 实验评价我们现在评估我们的方法在1Σ¨∗¨ ¨∗¨KITTI对象检测数据集[12]以及扩展的Lrigmo=K<$tj−tj<$1+λ<$θj−θj<$1（7）J版本，我们通过模拟每个场景中的虚拟对象来增强。其中λ是平衡两项的相对重要性的正常数。从世界坐标到局部坐标的转换由下式给出（也参见等式：四、RL=RW（θj）tL=（RW（θj）−I）pj+tW（8）其中pj∈ R 2指定体素j在W世界坐标中的XY平面中的位置，并且RW（θj）是对应于围绕Z轴的旋转θ j的旋转矩阵。自我运动丧失：类似地，自我运动损失被定义为预测背景之间的距离平移tBG∈R2及其基真值t∈ R 2∈R2，4.1. 数据集KITTI：为了评估我们的方法，我们在KITTI对象检测数据集中使用了61个训练集序列[12]，总共包含20k帧。由于KITTI中没有基于点云的场景流基准，我们在原始训练集上进行了实验。为了实现这一目标，我们将原始训练集分为70%的训练序列，10%的验证序列，20%的测试序列，确保来自同一序列的帧不会用于不同的分割。增强型KITTI：然而，官方的KITTI对象预测旋转θBG®BG及其地面实况θBG：检测数据集缺少具有不同运动范围的汽车为了生成更突出的训练示例，我们生成一个Lego=tBG−t1+λθBG−θ1（9）检测损失：在[48]之后，我们定义检测损失如下：逼真的混合现实LiDAR数据集，通过考虑真实LIDAR扫描的特征，利用一组高质量的汽车3D CAD模型[10]。我们在这里讨论我们的工作流程。我们首先使用RANSAC 3D平面拟合来拟合地平面;这允许我们1个职位用于检测障碍物，从而检测可驾驶区域。在第二Ldet=M+POSK1Lcls（pk，1）+Lreg（rk，rk） Σ Lcls（p阴性，0）7969（十）第一步，我们随机将虚拟汽车放置在可驾驶区域，并模拟一个新的激光雷达扫描，其中包括这些虚拟汽车。我们的模拟器使用从真实环境中学习的噪声模型M阴性LLKITTI扫描仪通过拟合条件高斯分布7970Eval.训练场景流（m）物体运动自我运动表1：KITTI和增强KITTI验证数据集的消融研究，分别缩写为K和AK。Eval.场景流（m）物体运动自我运动表2：KITTI和增强KITTI测试集与基线的比较，分别缩写为K和AK基于KITTI激光雷达扫描，对射线的水平和垂直角度进行了分析。我们的模拟器还通过忽略透明表面上的缺失估计值，其概率等于CAD模型提供的透明度值此外，我们通过跟踪每个点和LIDAR之间的射线来移除原始扫描中被增强汽车遮挡的点，并移除射线与汽车网格相交的点最后，我们使用Ackermann转向几何的简单近似对增强汽车的刚性运动进行采样我们生成20k这样的帧，每个场景有1到3辆增强的移动汽车我们将序列分为70%的训练，10%的验证，20%的测试，类似于我们对原始KITTI数据集的分割4.2. 基线方法我们将我们的方法与四种基线进行比较：使用CRF的基于点云的方法[8]，两种点匹配方法和迭代最近点[4]（ICP）基线。Dewan等人[8]估计每个点的刚性运动。为了达到对象级运动和自我运动，我们将对象检测和背景上的估计合并起来由于它们仅估计点的子集的有效场景流，因此我们仅对这些估计进行评估[8]，因此比较本身就偏向于它们。方法利用3D描述子匹配算法，通过在两个时间步内寻找3D特征的对应关系，得到参考点云中每个点的场景流估计。我们评估两种不同的描述符： 3D Match[47]，一种在KITTI和快速点特征直方图特征（FPFH）上训练的可学习3D描述符[31]。基于每个点的场景流，我们将刚体运动拟合到每个对象和背景，再次使用我们的管道中的对象检测进行公平的比较。迭代最近点（ICP）[4]使用基于SVD的点对点算法输出将两个点云相互我们通过将第一点云中每个检测到的3D对象的点拟合到整个第二点云中来估计对象刚性运动。评估指标：我们量化的性能使用several- eral指标适用于检测到的对象和背景。为了量化独立于检测精度的估计的精度，我们仅在真阳性检测上评估对象运动。• 对于3D场景流，我们使用预测和地面实况之间的平均端点误差。• 类似地，我们列出了所有检测到的物体的平均旋转和平移误差，以及观察者自我运动的所有场景的平均旋转和数据集数据集FGBG所有腐（rad）Tr.（m）腐（rad）Tr.（m）KK0.230.140.140.0040.300.0040.09KK+AK0.180.140.140.0040.290.0040.09K+AKK0.580.140.180.0100.570.0040.14K+AKK+AK0.280.140.160.0110.480.0040.12数据集方法FGBG所有腐（rad）Tr.（m）腐（rad）Tr.（m）KICP+检测0.560.430.440.226.270.0040.44K3D匹配+检测0.890.700.710.0211.800.0040.68KFPFH+检测3.834.244.210.29914.230.1354.27KDewan等人+Det.0.550.410.410.0080.550.0060.39K我们0.290.150.160.0040.190.0050.12K+AKICP+检测0.740.480.500.2266.300.0050.49K+AK3D匹配+检测1.140.770.800.0271.760.0040.76K+AKFPFH+检测4.004.394.360.31113.540.1224.30K+AKDewan等人+Det.0.600.520.520.0140.750.0060.46K+AK我们0.340.180.200.0110.500.0050.157971(a) （b）我们的结果(c)Dewan et al.[8]+Det.（d）国际比较方案+Det.图5：我们的方法与增强KITTI示例中表现最好的基线方法的定性比较为了清楚起见，我们只可视化点的一个子集其他结果见补充资料。4.3. 实验结果模拟扩增的重要性：为了量化我们提出的LIDAR模拟器在使用额外汽车进行逼真增强方面的价值，我们将在原始KITTI对象检测数据集上训练的方法与在KITTI和Augmented KITTI上训练的方法的性能进行了比较。表1显示了本研究的结果。我们的分析表明，使用KITTI和增强KITTI的组合进行训练可以显著提高性能，特别是在评估增强KITTI验证集中更多样化的车辆直接场景流与物体运动：我们还评估了直接估计场景流和从密集或对象级刚性运动估计计算场景流之间的差异。虽然从刚性运动估计计算的场景流在质量上更平滑，但在整体准确性上没有显着差异。与基线的比较：表2总结了KITTI测试装置的完整性能比较。注意，与Dewan et al.[8]如前所述，对他们有利，因为我们只评估他们认为准确的点的准确性。无论如何，我们的方法优于所有基线。此外，我们观察到，基于ICP的方法表现出很大的误差为对象的运动。这是因为对象具有很少的点：ICP在这些方面的表现往往很差，但虽然它们对密集评价的影响很小，但它们构成了一个相对重要的指标。基于对象的评估的更大部分。目视检查（图5）表明基线方法预测了对背景运动的合理估计，但未能估计动态对象的运动;相比之下，我们的方法能够正确地估计这些运动。这进一步加强了在具有许多增强汽车和具有挑战性和多样化运动的场景中训练我们的方法的重要性关于执行时间，我们的方法需要0.5秒来处理一个点云对。相比之下，Dewan et al.（4秒），基于3D Match和FPFH的方法（分别为100和300秒）需要更长的时间，而ICP解决方案也需要0.5秒但表现相当差。5. 结论在本文中，我们提出了一个基于学习的解决方案，估计场景流和刚体运动从非结构化的点云。我们的模型同时检测点云中的对象，估计密集的场景流和刚性运动的云中的所有点，并估计对象刚性运动的所有检测到的对象以及观察者。我们已经证明了全局刚性运动表示不适合完全卷积估计，并建议使用局部表示。我们的方法优于所有评估的基线，在更短的时间内产生更准确的对象运动。6. 确认这项工作得到了NVIDIA研究礼物的支持。7972引用[1] A. Asvadi，P. Girao，P. Peixoto和U.努内斯使用RGB和LIDAR数据进行3D对象跟踪。正在进行IEEE会议智能交通系统（ITSC），2016年。[2] T. Basha，Y.Moses和N.Kiryati。多视点场景流估计：一种以视点为中心的变分方法。International Journal ofComputer Vision（IJCV），101（1）：6[3] A. 贝尔岛H. Jafari，S.K. Mustikovela，H.A. Alhaija，C. Rother和A.盖革边界框、分割和对象坐标：在自动驾驶场景中，识别对于3d场景流估计有多重要？在IEEE国际会议上。计算机视觉（ICCV），2017年。[4] P. Besl和H.麦凯一种三维形状配准方法IEEE Trans. onPattern Analysis and Machine Intelligence （ PAMI ），14：239[5] X. Chen，H. Ma，J. Wan，B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。正在进行IEEE会议计算机视觉和模式识别（CVPR），2017年。[6] R. Danescu，F. Oniga和S.内德维奇使用基于粒子的交通网格对驾驶环境进行建模和跟踪。 IEEE Trans. 智能交通系统（TITS），12（4）：1331 -1342，2011。[7] A. Dewan，T.卡塞利茨湾D. Tipaldi和W.Burgard 三维激光雷达扫描中基于运动的检测与跟踪在proc IEEE国际会议机器人和自动化（ICRA），2016年。[8] A. Dewan，T.卡塞利茨湾D. Tipaldi和W.Burgard 三维激光雷达扫描的刚性场景流。IEEE International Conf.智能机器人和系统（IROS），2016年。[9] A.多索维茨基山口Fischer、E. Ilg，P. Haeusser，C. 哈齐尔巴斯诉 Golkov ， P.v.d. Smagt ， D.Cremers 和 T. 布洛克斯Flownet：使用卷积网络学习光流。在IEEE国际会议上。计算机视觉（ICCV），2015年。[10] S. Fidler，S. Dickinson和R.乌塔松利用可变形的3D长方体模型的3D目标检测和视点估计。神经信息处理系统进展（NIPS），2012年12月。[11] 联合弗兰克角Rabe，H. Badino和S.格里克6D-Vision：立体和运动的融合，实现强大的环境感知。 DAGMSymposium on Pattern Recognition（DAGM），2005年。[12] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？KITTI视觉基准测试套件。正在进行IEEE会议计算机视觉和模式识别（CVPR），2012年。[13] F. Groh，P. Wieschollek，and H. P. A.伦施Flex-卷积（超越网格世界的百万级点云学习）。在亚洲会议上。计算机视觉（ACCV），2018年12月。[14] D. Held，J.Levinson，S.Thrun和S.Savarese 结合三维形状、颜色和运动的鲁棒国际机器人研究杂志（IJRR），35（1-3）：30[15] E. Herbst，X. Ren和D.狐狸. RGB-D流：使用颜色和深度的密集3D运动估计。在Proc. IEEE国际会议。机器人和自动化（ICRA），2013年。[16] M. Hornacek，A. Fitzgienic和C.罗瑟SphereFlow：来自RGB-D对的6 DoF场景流。正在进行IEEE会议计算机视觉和模式识别（CVPR），2014年。[17] F. Huguet和F.德弗奈从立体序列中估计场景流的变分方法。在IEEE国际会议上。计算机视觉（ICCV），2007年。[18] E. Ilg，N. Mayer，T. Saikia、M. Keuper，A. dosovitskiy和T.布洛克斯流动网络2.0：利用深度网络的光流估计的演进。 Proc. IEEE Conf. 计算机视觉和模式识别（CVPR），2017年。[19] A. Kendall，H.Martirosyan、S.Dasgupta和P.Henry. 深度立体回归的几何和上下文的端到端学习在IEEE国际会议上。计算机视觉（ICCV），2017年。[20] P. Lenz，J. Ziegler，A. Geiger和M.罗瑟城市环境中运动目标检测的稀疏场景流分割在proc IEEE智能车辆研讨会（IV），2011年。[21] Z. Liang，Y.冯，Y.Guo，H.柳湖，加-地乔，W.陈湖，澳-地Zhou和J.张某通过先验和后验特征恒定性学习深度对应。arXiv.org，1712.01039，2017.[22] Z. Lv，C.Beall，P.Alcantarilla，F.Li，Z.Kira和F.德拉特一种持续优化的方法，用于高效和准确的场景流。在欧洲会议上。计算机视觉（ECCV），2016年。[23] N. 迈耶，E.Ilg，P.Haeusser，P.费希尔，D.Cremers，A.Doso-vitskiy和T.布洛克斯一个大型数据集，用于训练卷积网络进行视差，光流和场景流估计。正在进行IEEE会议计算机视觉和模式识别（CVPR），2016年。[24] M. Menze和A.盖革自动驾驶车辆的对象场景流在procIEEE会议计算机视觉和模式识别（CVPR），2015年。[25] M.门策角Heipke和A.盖革车辆与场景流的联合三维估计。ISPRS图像序列分析研讨会（ISA），2015年。[26] F. Moosmann和C.斯蒂勒三维距离数据中通用目标的联合自定位与在Proc. IEEE国际会议。机器人和自动化（ICRA），2013年。[27] P. Purkait，C. Zhao和C.扎克Spp-net：带有合成视图的深度绝对姿态回归arXiv.org，1712.03452，2017.[28] C. R. Qi，H. Su，K. Mo和L.吉巴斯Pointnet：对点集进行深度学习，用于3D分类和分割。在proc IEEE会议计算机视觉和模式识别（CVPR），2017年。[29] C. R.齐湖，加-地Yi，H. Su和L.吉巴斯Pointnet++：度量空间中点集的深度层次特征学习神经信息处理系统进展（NIPS），2017年。[30] J. Quiroga ，T. Brox，F. Devernay 和J. L. 克劳力基于RGB-D图像的稠密半刚性场景流估计。在欧洲会议上。计算机视觉（ECCV），2014年。7973[31] R. B. Rusu，N. Blodow和M.比兹用于三维配准的快速点特征直方图。在Proc. IEEE国际会议。机器人和自动化（ICRA），2009年。[32] H. Su ， V.Jampani ， D. 孙习 Maji 、 E.Kalogerakis ，M.Yang和J.考茨Splatnet：用于点云处理的稀疏网格网络正在进行 IEEE 会议计算机视觉和模式识别（CVPR），2018。[33] D.太阳，X.杨，M. Y. Liu和J. Kautz. Pwc-net：使用金字塔、扭曲和成本体积的光流正在进行IEEE会议计算机视觉和模式识别（CVPR），2018年。[34] G. Tanzmeister，J. Thomas，D. Wollherr和M.巴斯使用统一证据环境表示的动态环境中基于网格的映射和跟踪在proc IEEE国际会议机器人和自动化（ICRA），2014年。[35] F. Tombari，S. Salti和L.迪斯蒂法诺。用于局部表面描述的直方图的独特签名。在欧洲会议上。计算机视觉（ECCV），2010年。[36] A. K. 乌沙尼河W. 沃尔科特，J.M. 墙和R.M. Eustice一种从激光雷达数据中实时估计瞬时场景流的学习方法。IEEEInternational Conf. on Robotics and Automation（ICRA），2017。[37] L. Valgagalan，A. Bruhn，H.作者：J. Stoll，和C.希奥博尔特从立体序列联合估计运动、结构和几何。在欧洲会议上。计算机视觉（ECCV），2010年。[38] J. van de Ven，F. Ramos和G. D.提帕尔迪扫描匹配、运动目标检测和运动估计的综合概率模型。在proc IEEEInternationalConf.onRoboticsandAutomation（ICRA），2010年。[39] S. Vedula、S. Baker，P. Rander，R. Collins和T.卡纳德三维场景流。在proc IEEE会议计算机视觉与模式识别（CVPR），1999年。[40] S. Vedula，P. Rander，R. Collins和T.卡纳德三维场景流。 IEEE Trans. 模式分析和机器智能（PAMI），27（3）：475 -480，2005年。[41] C. Vogel，K.Schindler和S.罗斯基于刚体运动先验的三维场景流在IEEE国际会议上。计算机视觉（ICCV），2011年。[42] C. Vogel，K.Schindler和S.罗斯基于分段刚性场景模型的三维场景流International Journal of Computer Vision（IJCV），115（1）：1[43] S. Wang，S. Suo，W.- C. Ma，A. Pokrovsky和R.乌塔松深度参数连续卷积神经网络。在proc IEEE会议计算机视觉和模式识别（CVPR），2018年6月。[44] A. Wedel，T. Brox，T.沃什角Rabe，U.弗兰克，还有D.克莱姆斯用于3D运动理解的立体场景流计算。International Jo

下载后可阅读完整内容，剩余1页未读，立即下载