没有合适的资源?快使用搜索试试~ 我知道了~
无标签优化刚性场景流的方法及其在自动驾驶环境中的应用
12770RSF: 无标签的优化刚性场景流从3D点云中0David DengUC Berkeley0davezdeng8@berkeley.edu0Avideh ZakhorUC Berkeley0avz@berkeley.edu0摘要0我们提出了一种在自动驾驶环境中优化两个连续点云上的物体级刚性三维场景流的方法,而无需任何注释标签。我们的方法不使用点对点的流向量,而是将场景流表示为全局自我运动和一组具有自己刚性运动的边界框的组合,利用动态场景中常见的多体刚性。我们通过基于最近邻距离的新型损失函数和可微分的边界框公式共同优化这些参数。我们的方法在不需要任何注释的情况下,在KITTI场景流和nuScenes上实现了最先进的准确性,甚至超过了监督方法。此外,我们还展示了我们的方法在运动分割和自我运动估计方面的有效性。最后,我们通过消融研究可视化了我们的预测结果,并验证了我们的损失函数设计。01. 引言0理解场景中的三维运动是计算机视觉和机器人领域中的一个重要问题。三维场景流是一种低级运动表示,它被描述为场景中所有点的三维运动场。随着激光雷达和深度传感器的普及,从点云中估计场景流已成为一个越来越重要的问题。最近在点集上的深度特征学习的进展[37, 38, 6, 55,22]引发了对场景流估计的深度学习方法的兴趣[27, 48, 13,50, 54, 12, 51, 32, 1,33]。然而,由于真实世界的场景流注释很难获取,许多这些方法依赖于合成数据集[29],并且通常不能很好地推广到真实世界数据,特别是激光雷达扫描数据。此外,大多数这些方法未能利用大多数场景中存在的刚性,即大多数场景的动态可以分解为多个刚性运动的运动。它们预测无约束的点对点运动向量,导致不准确和物理上不一致的预测。鉴于这些缺点,我们提出了一种新的物体0我们提出了一种物体级别的刚性三维场景流估计方法,该方法在自动驾驶环境中通过优化全局自我运动和一组具有自己刚性运动的边界框来实现,而无需使用任何注释标签。我们开发了一种新的损失函数和可微分的边界框公式来优化这种新的场景流参数化。我们在KITTI [30, 31,11]和nuScenes[4]数据集上展示了我们方法的有效性。特别是,我们的方法在KITTI场景流数据集上的端点误差比当前最先进的方法低2倍。总之,我们的主要贡献是:0•我们在自动驾驶环境中提出了一种新的目标函数,用于优化物体级别的刚性场景流,而无需任何注释标签。0• 我们开发了一种可微分的3D边界框公式来优化我们的场景流参数。0•我们的方法通过将预测的运动限制为刚体,产生了物理上合理且可解释的场景流。0• 我们的方法在没有标签监督的情况下准确地检测出运动物体。0• 我们的方法在KITTI场景流和nuScenes上明显优于现有技术。02. 相关工作0监督场景流。场景流一词最早在[44]中提出。传统方法主要通过立体和RGB-D [15, 49, 20, 14, 40, 45, 46,47]来预测场景流,尽管有些方法使用了激光雷达[43]。随着深度学习的兴起,神经网络成为图像场景流估计的主要工具[19, 52, 53, 16, 17]。[27]通过将FlowNet架构[9,18]与深度点云特征学习的进展[37,38]相结合,首创了基于点云的深度场景流估计。他们在合成数据[29]上以监督方式训练模型,并将其推广到真实世界数据[10]。随后的研究工作主要集中在从点云中进行监督式场景流估计12780图1:单个边界框的损失函数概述。蓝色块中的项是可优化的场景流参数b:边界框参数,T:边界框的刚性变换,Tego:自我运动变换,c:边界框的置信度得分,图中引用了我们的可微分边界框近似。从P1中,我们可微地选择边界框内的点,并使用T和Tego对它们进行变换。然后,我们计算两个变换后的点集与P2之间的最近邻距离。最后,我们分别将两个最近邻距离乘以c和1-c加权,并将它们相加以计算损失。0点云训练框架:[13]和[50]使用稀疏排列晶格和代价体积分别开发了更快、更准确的网络架构。[54]将场景流预测为全局自我运动和一组残差流向量。[36]通过借鉴最优传输的思想,将场景流估计框架化为对应问题。[39]利用高阶CRF将场景流输出约束为局部平滑和刚性。最后,[51]使用循环网络来迭代地改进场景流预测。0自监督场景流:由于从合成到真实世界数据集的领域转移,以及在真实LiDAR扫描中难以获取场景流注释的困难,最近关于点云场景流估计的工作探索了自监督方法。[33]是第一个利用最近邻和循环一致性损失的方法。[41]和[35]开发了使用Chamfer距离与平滑性和形状约束相结合的损失函数。[51, 54,1]使用类似的损失函数,但[51]使用循环网络架构,而[54,1]除了流向量外还预测自我运动。这些方法都没有利用动态场景的多体刚性属性。最近,[24]提出了一种方法,对点云进行超分割,并为每个片段计算刚性变换,但没有结合任何对象的概念。0场景流优化:最近一些工作不是实时预测场景流,而是使用离线优化方法来估计场景流。特别地,[35]直接在推断时通过优化自监督损失函数来优化每个点云,[25]训练一个神经网络来预测场景流,使用网络作为隐式平滑正则化项。0优化器:我们的方法属于这一类别,但与之前的方法不同,我们在对象级别上优化场景流。0物体场景流:虽然多体刚性是场景流估计中常用的先验知识,但大多数现有方法都需要某种形式的注释。[34, 26, 28,53]从立体、图像或RGB-D预测物体级场景流。[26, 28,53]需要注释的分割标签,[34]专注于物体检测。[32]是第一个从点云中预测物体级场景流的工作,但它需要场景流、物体检测和自我运动标签。最近,[12]提出了一种弱监督的物体级场景流估计方法,只需要自我运动和前景/背景标签,[8]在此基础上利用了循环更新网络。除了[34]之外,所有上述方法在训练时都需要注释标签。我们的方法是第一个在场景流估计中利用动态场景的刚性而又不需要标注监督的方法。03. 方法03D场景流估计的目标是给定一对点云P1∈R3×N1,P2∈R3×N2,预测它们之间的场景流,场景流定义为一组向量F∈R3×N1,表示点在P1中的运动到其在P2中对应位置的运动。注意,两个点云之间可能没有直接的对应关系。03.1. 运动表示0以往的研究通常直接预测场景流,将其参数化为一组点对点的运动向量。然而,这种参数化方法高度不受约束,无法充分利用大多数场景中存在的刚性特性。我们Dnn(P1, P2)[i] = minp2∈P2 ||p2 − P1[i]||22(1)where [i] denotes the ith point. However, the NND of pointsinside a bounding box bi is a step function with respect tobi and therefore non-differentiable. In order to optimize biover the NND, we propose a novel, differentiable boundingbox approximation.Fundamentally, a bounding box is a membership func-tion in 3D space. Each point in the domain of the functionis mapped to either 1 or 0 depending on whether it is insideor outside the box. In the simplified case of a 1 dimensionalbounding box or “bounding line”, the membership functionwould be the difference of two shifted unit step functions,as shown in Figure 2a. Inspired by [7], we can replace thestep functions with sigmoid approximations to make themdifferentiable, shown in Figure 2b, resulting in a 1D differ-entiable bounding box:box1D(x) =11 + ek(x+ l2 ) −11 + ek(x− l2 )(2)box3D(x, y, z) =�d∈{xb,yb,zb}(11 + ek(d+ld2 ) −11 + ek(d−ld2 ) )(3)12790(a)0(b)0(c)0(d)0图2:1维和3维中不可微分与可微分边界框的可视化:(a)不可微分的1维边界线;(b) 可微分的1维边界线;(c)不可微分的3维边界框;(d) 可微分的3维边界框。0相反,我们将场景流参数化为全局自我运动和一组包含移动物体的边界框的组合,每个边界框都有自己的刚性运动。具体而言,我们的目标是计算全局自我运动Tego = {Rego ∈SO(3), tego ∈ R3} ∈ SE(3);一组k个边界框B ={bi}k,其参数化为b = (c, x, y, z, w, l, h,θ),其中c是一个表示边界框是否包含移动物体的置信度分数,x、y、z是边界框的中心,w、l、h是边界框的尺寸,θ是一个朝向角度;以及一组k个刚性变换,形式为Ti = {Ri ∈SO(3), ti ∈ R3} ∈SE(3),每个边界框对应一个刚性变换。由于我们专注于自动驾驶环境,我们假设边界框的俯仰角和横滚角均为零。有关我们运动参数化的更多细节,请参阅补充材料。在自动驾驶的背景下,边界框通常足以捕捉移动物体的形状。我们选择使用边界框来参数化对象,而不是像以前的工作中使用分割掩模,是因为与点流向量类似,分割掩模高度不受约束,并且可以表示不连贯的对象,例如场景中两个相对的点之间有两个分离的点的对象。另一方面,优化边界框将对象约束为具有物理合理点集,显著减少了优化空间的维度。03.2. 概述0我们提出的损失函数计算P1到P2的变换点的最近邻距离(NND),其中点对点的NND定义为:03.3. 可微分边界框0然而,边界框bi内的点的NND是一个关于bi的阶跃函数,因此不可微分。为了优化NND中的bi,我们提出了一种新颖的可微分边界框近似方法。从根本上讲,边界框是一个在3D空间中的成员函数。函数域中的每个点被映射为1或0,取决于它是否在边界框内或外。在简化的情况下,对于1维边界框或“边界线”,成员函数将是两个平移单位阶跃函数的差,如图2a所示。受[7]的启发,我们可以用sigmoid近似替换阶跃函数,使其可微分,如图2b所示,从而得到一个可微分的1维边界框:0其中 l 是盒子的宽度,k 是控制 S型斜率陡峭度的参数。为了推广到3D,我们沿着边界框的三个轴的每个轴取1D边界线的乘积,得到了一个3D边界框成员密度场,如图2d所示。结果为:Lnn = cN1�i=1ˆwi ∗ (Dnn(Rpi + t, P2) + ϵ)+(1 − c)N1�i=1ˆwi ∗ Dnn(Regopi + tego, P2)= cLfg + (1 − c)Lbg(4)Lshape = ∆2w + ∆2l + ∆2h(5)Lheading = ||θxy − txy||22(6)Langle = θ2(7)Lmass = −N1�i=1wi(8)L = Lnn + λshapeLshape + λheadingLheading+λangleLangle + λmassLmass(9)12800其中 x b , y b , z b 是 x, y, z 转换为边界框的局部坐标系,ld 是边界框沿着维度 d的宽度。盒子在地面平面上初始化为网格。我们将盒子的形状初始化为近似于汽车的形状,使用[22]中的锚定尺寸。每个盒子的航向角、旋转和平移分别初始化为0、单位矩阵和�0。更多细节,请参考补充材料。03.4. 损失函数0我们提出的损失函数是独立计算的每个盒子损失的总和,为了简单起见,我们将重点放在单个盒子 b 的损失上,写作:0其中 c 是盒子的置信度。ˆ w i 是 ˆw 的第 i个元素,一个通过平滑边界框近似计算的归一化权重向量,用 Equation 3 在 P 1 上计算得到的 b 的近似值,p i 是 P 1中的第 i 个点,R 和 t 是 b 的相关旋转和平移,N 1 和 N 2表示 P 1 和 P 2 中的点的数量,ϵ是一个常数惩罚,稍后将进行描述。最后,L fg 和 L bg分别表示前景损失和背景损失。前景损失是在 P 1 通过 T i变换后 b i 中的点的可微 NND,背景损失是在 P 1 通过 Tego 变换后的可微 NND,描述了在 b i中的点属于动态刚体对象或静态对象的情况下的NND。在优化过程中,不知道给定的盒子是否包含移动或静态对象,因此为了模拟这种不确定性,我们将最终的损失写为这两个项的和,由 c 和 1 − c 权衡,其中 c ∈ (0 , 1)。如果前景损失小于背景损失,盒子很可能包含动态对象,并且为了最小化总体损失,c 将收敛到1。同样,如果背景损失较小,c 将收敛到0。同时,如果置信度高,来自该盒子的损失将主要传播梯度以优化 T,如果置信度低,损失将优化 Tego,确保主要使用静态对象进行自运动优化。在推理过程中,我们通过阈值 c确定哪些盒子包含移动对象。由于自运动在所有边界框之间共享,因此比每个盒子的刚性运动更受限制。当一个边界框包含场景的静态部分时,我们经验性地发现前景刚性运动几乎与自运动相同,但趋于一个0几乎没有更小的损失。这导致许多静态背景物体错误地具有高置信度。为了解决这个问题,我们对前景项添加了一个小的常数惩罚ϵ。这个值可以解释为被认为是动态的对象需要穿越的最小距离。03.5. 辅助项0除了上面描述的主要损失函数之外,我们还加入了一些辅助项。由于我们将使用案例特定于自动驾驶数据集,我们广泛假设移动物体是汽车,并基于此假设构建了某些辅助项。0框尺寸正则化 我们对边界框形状应用一个小的惩罚项 Lshape ,将其约束为一个平均汽车大小:0其中 ∆ w , ∆ l , ∆ h是边界框宽度、长度和高度的基本参数,详细描述在补充中。0方向项因为汽车面向它们的运动方向,我们应用一致性损失 Lheading ,强制边界框的方向指向与它们的运动方向相同。0其中 θ xy是一个参数化方向的2D向量,进一步在补充中描述,t xy 是t 在地面平面上的 x 和 y 分量。0角度项移动的汽车不会发生大的旋转,因此我们对旋转角度 θ 由 R引起的幅度应用一个小的惩罚项 L angle 。0质量项 我们还应用一个质量项 L mass,鼓励边界框内有更多的点。如果一个框包含一个移动物体的一部分,这个项鼓励它完全收敛在它周围。如果它不包含移动物体,对于使自运动估计更加稳健,框内包含许多背景点也是有帮助的。0其中 w i 是不可微分边界框的归属权重的未归一化向量的第i 个元素。0结合这些术语,我们的最终每个框的损失是StereoKITTILidarKITTInuScenesfi = Ripi + ti − pi(10)12810表1:场景流评估。0数据集 方法 监督/方法0训练数据 EPE3D ↓ 精度3DS ↑ 精度3DR ↑ 异常值 ↓0FlowNet3D [27] 完全 FT3D 0.177 0.374 0.668 0.5270HPLFlowNet [13] 完全 FT3D 0.117 0.478 0.778 0.4100PointPWCNet [50] 完全 FT3D 0.069 0.728 0.888 0.2650FLOT [36] 完全 FT3D 0.056 0.755 0.908 0.2420EgoFlow [54] 完全 FT3D 0.069 0.670 0.879 0.4040FlowStep3D [51] 完全 FT3D 0.055 0.805 0.925 0.1490HCRF-Flow [39] 完全 FT3D 0.053 0.863 0.944 0.1800WeaklyRigidFlow [12] 完全 FT3D 0.042 0.849 0.959 0.2080PointPWCNet [50] 自身 FT3D 0.255 0.238 0.496 0.6860EgoFlow [54] 自身 FT3D 0.415 0.221 0.372 0.8100FlowStep3D [51] 自身 FT3D 0.102 0.708 0.839 0.2460SLIM [1] 自身 RawKITTI 0.121 0.518 0.796 0.4020SLIM * [1] 自身 RawKITTI 0.067 0.77 0.934 0.2490RigidFlow [24] 自身 FT3D 0.062 0.724 0.892 0.2620Chamfer * 优化 - 0.991 0.056 0.071 0.9420PointPWCNet [50] 优化 - 0.657 0.357 0.405 0.720NSFP [25] 优化 - 0.036 0.912 0.961 0.1540NSFP * [25] 优化 - 0.034 0.914 0.962 0.1510我们的 优化 - 0.035 0.932 0.971 0.1460我们的 * 优化 - 0.017 0.973 0.989 0.0960PointPWCNet [50] 完全 FT3D 0.390 0.387 0.550 0.6530FLOT [36] 完全 FT3D 0.653 0.155 0.313 0.8370WeaklyRigidFlow [12] 弱 SemKITTI 0.094 0.784 0.885 0.3140ExploitingRigidity [8] 弱 SemKITTI 0.071 0.824 0.913 0.2950Chamfer * 优化 - 0.944 0.022 0.057 0.9920PointPWCNet [50] 优化 - 0.734 0.248 0.347 0.8450NSFP * [25] 优化 - 0.142 0.688 0.826 0.3850我们的 * 优化 - 0.085 0.883 0.929 0.2390Chamfer * 优化 - 0.879 0.035 0.082 0.9760PointPWCNet * [50] 优化 - 0.615 0.199 0.328 0.860NSFP * [25] 优化 - 0.177 0.374 0.668 0.5270我们的 * 优化 - 0.107 0.717 0.862 0.3210* 使用整个点云的方法。其他所有方法都会将点云下采样到8,192个点。0其中每个 λ是控制相应损失影响的超参数。总损失是所有框的 L的总和。03.6. 推理0为了选择包含运动物体的框,我们首先过滤掉包含少于 nmin 个点的边界框,其中 n min是依赖于给定数据集的点云密度的阈值。然后我们应用非极大值抑制,并保留得分为0.85或以上的框。我们将这些框分类为动态框。使用动态框,我们通过将每个点分配给其所在的最可信框来分割 P 1,因为框之间可能仍然存在一些重叠。最后,我们将每个框的刚性变换应用于其点,并将自我运动应用于剩余的背景点以计算场景流。0其中 p i 是 P 1 中的第 i 个点, f i 是其场景流预测, R i和 t i 是其关联的旋转和平移。04. 结果0我们在各种场景流估计、运动物体分割和自我运动估计的数据集上进行定量和视觉评估,与当前最先进的方法进行比较。此外,我们还通过消融研究探索了我们设计选择的影响。04.1. 数据集0mIoU = 0.5(12820表2:StereoKITTI上的运动分割结果。0方法 mIoU ↑ 准确率 ↑0SLIM [1] 42.9 60.1 我们的 86.692.90该数据集中的对象是汽车。该数据集有两个设置:StereoKITTI和LidarKITTI。StereoKITTI是传统设置,其中点云是从立体视差图生成的,因此具有对应关系。大多数现有方法在此设置上进行评估。LidarKITTI是一个更具挑战性的设置,其中点云由Velodyne64束激光雷达捕获。它们更稀疏,没有直接的对应关系。通过将LiDAR点投影到StereoKITTI视差图上并使用相关的场景流注释,分配了地面真实场景流向量。为了公平比较,我们采用了[13]引入的常见数据预处理步骤,通过简单的阈值处理在传感器下方1.4米处移除地面点,并裁剪距离传感器35米以上的任何点。我们在所有数据集和实验中都使用了这个步骤。由于训练过程中的内存限制,大多数基于学习的先前方法也会将点云下采样到8,192个点。我们高效的实现使我们能够使用整个点云,因此在StereoKITTI上,我们报告使用8,192个点和所有点的性能。每个数据集中未下采样点云的典型大小在补充材料中详细说明。在LidarKITTI上,我们在整个LiDAR扫描中优化我们的场景流参数,并在车辆前方具有场景流注释的点上进行评估。我们发现,仅在车辆前方的点上进行优化会导致在点云边界处出现误报检测,这是由于裁剪引起的。当使用整个360°点云时,这个问题在一定程度上得到缓解。0nuScenes [4]nuScenes是一个比KITTI更具挑战性的数据集,包含稀疏的LiDAR扫描和更复杂的驾驶场景。我们使用由[25]发布的nuScenes的子集,其中包含使用RANSAC去除地面点的310个点云对。使用跟踪注释绘制地面真实流向量。0SemanticKITTI [2]我们在SemanticKITTI上评估我们的自我运动预测,这是一个从KITTI里程计数据集中策划的大规模自动驾驶数据集。它由21个带有地面真实姿态注释的LiDAR帧序列组成。由于数据集的规模,我们只在随机的500个点云对上进行评估。我们还使用SemanticKITTI评估我们的方法的运动分割准确性;详见补充材料。0FlyingThings3D (FT3D) [29]FlyingThings3D是一个由场景流组成的大型合成数据集0表3:在SemanticKITTI上的自我运动估计评估。0方法 旋转误差 ( ◦ ) ↓ 平移误差 (m) ↓ 旋转准确性 ↑ 平移准确性 ↑0ICP [3] 0.244 0.122 0.906 0.878 我们的方法 0.235 0.107 0.9160.940通过在空间中随机移动的CAD模型生成注释。虽然我们的方法不使用FT3D,但之前的监督方法使用它进行训练。0RawKITTI [10]RawKITTI包含来自KITTI数据集的约38,000个原始LiDAR扫描。[1]使用它进行自我监督训练。04.2. 评估指标0为了评估场景流,我们使用3D端点误差(EPE3D)作为标准指标,它是预测场景流和地面真实场景流之间的平均l2距离。我们还采用了[27,13]中的以下指标:严格准确性(Acc3DS):EPE3D <0.05 m或相对误差 <5%的点的百分比;宽松准确性(Acc3DR):EPE3D < 0.1m或相对误差 < 10%的点的百分比;异常值:EPE3D > 0.3m或相对误差 >10%的点的百分比。为了评估运动分割,我们将所有移动点分为一个单独的类,并报告平均交并比(mIoU)和分割准确性:0T P + F P + F N + T N0T N + F P + F N ) (11)0准确性 = T P + T N0T P + F P + F N + T N (12)0对于自我运动估计,我们报告预测的平均旋转和平移误差(以度和米为单位),以及旋转和平移准确性,定义为旋转误差 < 0.5 ◦和平移误差 < 0.1 m的场景百分比。04.3. 基准0我们将我们的工作与以下监督、自我监督和基于优化的场景流估计方法进行比较:FlowNet3D [27],HPLFlownet[13],Point- PWCNet [50],FLOT [36],EgoFlow[54],FlowStep3D [51],HCRF-Flow[39],WeaklyRigidFlow [12],SLIM [1],NSFP[25],RigidFlow [24]和ExploitingRigidity[8]。此外,我们直接优化场景流,使用两个代表性的自我监督损失函数:(i)Chamfer距离,用于[35,51](ii)来自[50]的自我监督损失,它将平滑性和拉普拉斯项添加到Chamfer距离中。我们将运动分割结果与SLIM[1]进行比较,它是一种最先进的自我监督方法。12830(a) 我们的 StereoKITTI0(b) NSFP StereoKITTI0(c) PointPWCNet StereoKITTI0(d) 我们的 LidarKITTI0(e) NSFP LidarKITTI0(f) PointPWCNet LidarKITTI0(g) 错误的色条0图3:在KITTI中,我们的方法、NSFP和PointPWCNet损失函数在直接优化下的场景流预测可视化。颜色表示预测的EPE3D,红色表示高误差,紫色表示低误差。对于StereoKITTI,颜色范围为0-0.5 m误差,而对于LidarKITTI,范围为0-1m。在这个场景中,自车向前行驶,两辆车从相反方向靠近。我们的方法能够准确预测立体设置中两辆车的流向,并且在LiDAR设置中更接近的一辆车。NSFP在移动物体上表现不佳,而PointPWC预测的流动局部平滑,但不连贯。0图4:边界框/分割的可视化。检测到的移动物体显示在边界框内,并根据分割结果进行着色。背景点为青色。0与我们的方法不同,SLIM只预测二进制的运动分割掩码,并且对于动态点,它预测点对点的流向量而不是刚性运动。对于自我运动估计,我们使用ICP [3]作为基准。04.4. 场景流评估0我们在StereoKITTI、LidarKITTI和nuScenes上报告了我们的结果和基准,见表1。在不依赖任何标注数据的情况下,我们的方法在所有数据集上的大多数指标上显著优于最先进的监督、自监督和优化基准。特别是在利用StereoKITTI上的所有点时,我们的方法的EPE3D比以前的最先进方法低2倍,而使用8,192个点时,我们的方法在所有指标上仍然优于所有其他降采样方法。在LidarKITTI设置中,[8]的EPE3D低于我们的方法,但我们的准确性更高。与其他无标签的基于优化的方法相比,我们的方法表现最好,其EPE3D比[25]低1.7倍。同样,在更具挑战性的数据集nuScenes上,我们的方法表现良好,平均误差为0.107m,明显优于[25]。与基准相比,我们的方法在StereoKITTI上的表现优于LidarKITTI。因为StereoKITTI不存在相同领域的训练数据,所以StereoKITTI的基准必须在推理过程中克服领域转移。另一方面,LidarKITTI方法利用了KITTI中丰富的LiDAR数据和标签,而我们的方法不需要。这解释了为什么我们的方法在StereoKITTI上比LidarKITTI的基准更大幅度地优于基准。∇bLshapeLmassLheadingLangleEPE3D ↓Acc3DS ↑Acc3DR ↑Outliers ↓✓✓✓0.2840.740.7590.319✓✓✓✓0.2180.4730.6780.457✓✓✓✓0.4010.660.6630.406✓✓✓✓0.0240.9590.9840.116✓✓✓✓0.0170.9740.9890.096✓✓✓✓✓0.0170.9730.9890.096Our motion segmentation results are shown in Table 2.Our approach significantly outperforms [1] in both metrics.Qualitatively, we found that [1] often only segments partsof moving objects, while our method reliably segments en-tire objects. In the supplement, we also evaluate on Se-manticKITTI and compare against a state-of-the-art super-vised baseline [5]. While the baseline achieves better accu-racy than our method, it requires per-point annotated super-vision. Refer to the supplement for more details.12840表4:在StereoKITTI上对各种损失项和设计选择进行消融研究。� b 表示我们是否使用可微分或不可微分的边界框。0我们的运动分割结果如表2所示。我们的方法在两个指标上显著优于[1]。从定性上来看,我们发现[1]通常只分割移动物体的一部分,而我们的方法可靠地分割整个物体。在补充材料中,我们还在SemanticKITTI上进行了评估,并与最先进的监督基准[5]进行了比较。虽然基准的准确性优于我们的方法,但它需要每个点的注释监督。更多细节请参阅补充材料。04.5. 运动分割评估04.6. 自我运动评估0我们在SemanticKITTI上的自我运动结果如表3所示。我们在所有指标上都优于ICP,平均旋转误差为0.235◦,平均平移误差为0.107m。需要注意的是,由于LiDAR扫描的已经接近对齐,以及一些场景中没有移动物体,ICP在SemanticKITTI上表现异常出色。04.7. 可视化0我们通过在KITTI的一个场景上可视化预测结果,将我们的方法与NSFP [25]和PointPWCNet[50]损失函数这两种最先进的优化方法进行了定性比较,如图3所示。如图所示,我们的方法产生了最准确的预测。特别是,NSFP在预测动态物体时表现困难,而PointPWCNet生成局部平滑的预测,但无法展现物体级的刚性。尽管三种方法的主要监督信号都是NND,但我们的方法通过直接约束场景流的刚性来实现更准确的预测。此外,我们在图4中可视化了我们预测的边界框和分割掩码。我们的方法能够准确地检测出场景中的移动物体。从可视化中可以注意到我们的heading和mass损失的效果,因为边界框是围绕着物体中心和方向进行的。0与移动物体一起的更详尽的可视化,请参见补充材料。04.8. 消融研究0为了评估我们的设计选择,我们进行了消融研究,如表4所示。我们发现可微分的边界框、形状正则化和质量项对我们的性能有重要贡献。没有可微分的边界框,框的形状和位置不会更新。没有形状正则化,质量项会导致框变得过大。没有质量项,框会收敛到没有点的空区域。方向和角度项也略微提高了准确性。在StereoKITTI上,角度项实际上略微降低了准确性,但通常情况下,特别是在激光雷达设置中,它提高了优化的稳定性。04.9. 限制0我们的方法面临一些限制。作为一个优化框架,我们的方法不适用于实时推理。此外,我们目前的公式只适用于可以合理使用框来参数化的自动驾驶设置。最后,尽管我们的方法在性能上达到了最先进的水平,但我们仍然在输入点云的稀疏、遮挡和无特征部分,特别是在激光雷达领域遇到困难。更多细节请参见补充材料。05. 结论0我们首次提出了一种利用动态场景的多体刚性而无需标注场景流或分割标签的方法。我们的方法在KITTI场景流基准和nuScenes上实现了最先进的性能。随着深度传感器和激光雷达的普及,我们的工作将有助于处理它们生成的原始、未标记的点云。未来,我们希望将我们的方法与实时推理的学习相结合,并推广到任意的3D场景。0参考文献0[1] Stefan Baur, David Emmerichs, Frank Moosmann, Peter Pinggera, Bjorn Ommer, andAndreas Geiger.Slim:自监督激光雷达场景流和运动分割。在国际计算机视觉会议(ICCV)中,2021年。[7] J´ozsef D´aniel Dombi and Zsolt Gera. The approximationof piecewise linear membership functions and lukasiewiczoperators. Fuzzy Sets Syst., 154:275–286, 2005.12850[3] Paul J Besl和Neil D McKay.3D形状配准方法。在传感器融合IV:控制范例和数据结构中,卷1611,第586-606页。国际光学和光子学学会,1992年。0[2] J. Behley, M. Garbade, A. Milioto, J. Quenzel, S. Behnke, C.Stachniss, and J. Gall.SemanticKITTI:用于激光雷达序列的语义场景理解数据集。在国际计算机视觉会议(ICCV)中,2019年。0[5] X. Chen, S. Li, B. Mersch, L. Wiesmann, J. Gall, J. Behley, and C.Stachniss.3D激光雷达数据中的移动物体分割:一种利用时序数据的基于学习的方法。IEEE机器人与自动化快报(RA-L),6:6529-6536,2021年。0[4] Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan,Giancarlo Baldan, and Oscar Beijbom.nuscenes:用于自动驾驶的多模态数据集。在计算机视觉和模式识别(CVPR)中,2020年。0[7] J´ozsef D´aniel Dombi和Zsolt Gera.分段线性隶属函数和lukasiewicz运算符的近似。模糊集系统,154:275-286,2005年。0[6] Christopher Choy, JunYoung Gwak, and Silvio Savarese.4D时空卷积网络:Minkowski卷积神经网络。在计算机视觉和模式识别(CVPR)中,第3075-3084页,2019年。0[8] Guanting Dong, Yueyi Zhang, Hanlin Li, Xiaoyan Sun, andZhiwei Xiong.利用刚性约束进行激光雷达场景流估计。在计算机视觉和模式识别(CVPR)中,第12776-12785页,2022年6月。0[9] Alexey Dosovitskiy, Philipp Fischer, Eddy Ilg, PhilipHausser, Caner Hazirbas, Vladimir Golkov, Patrick Van DerSmagt, Daniel Cremers, and Thomas Brox. Flownet:使用卷积网络学习光流. In 计算机视觉国际会议 (ICCV) ,第2758-2766页, 2015.0[10] Andreas Geiger, Philip Lenz, Christoph Stiller, and RaquelUrtasun. 视觉与机器人相遇: KITTI数据集. 机器人研究国际期刊 ,32(11):1231–1237, 2013.0[11]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功