点云场景流估计中的合成数据的域自适应方法

157 浏览量更新于2023-10-26 收藏 18.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

(i)(ii)shape deformationcorrespondence deviation(ii)(i)72330点云的变形和对应感知无监督合成到真实场景流估计0赵进1 雷银杰1，* Naveed Akhtar2 李海峰3 Munawar Hayat401四川大学 2西澳大学 3中南大学 4蒙纳士大学0jinzhao@stu.scu.edu.cn yinjie@scu.edu.cn naveed.akhtar@uwa.edu.au0lihaifeng@csu.edu.cn munawar.hayat@monash.edu0摘要0对于自动驾驶中的动态场景导航，点云场景流估计具有实际重要性。由于很难获得场景流标签，当前的方法在合成数据上训练模型，并将其转移到真实场景中。然而，现有合成数据集与真实场景之间存在较大差异，导致模型转移效果差。我们在解决这个问题上做出了两个主要贡献。首先，我们开发了一个点云采集器和场景流注释器，用于GTA-V引擎，以自动获取多样化的真实训练样本，无需人工干预。借此，我们开发了一个大规模的合成场景流数据集GTA-SF。其次，我们提出了一个基于mean-teacher的域自适应框架，利用目标域的自动生成的伪标签。它还明确地融入了形状变形正则化和表面对应细化，以解决领域转移中的失真和错位问题。通过大量实验证明，与最广泛使用的FT3D数据集相比，我们的GTA-SF数据集显著提升了模型对三个真实数据集（即Waymo、Lyft和KITTI）的泛化能力。此外，我们的框架在六个源-目标数据集对上实现了卓越的自适应性能，平均缩小了60%的领域差距。数据和代码可在https://github.com/leolyj/DCA-SRSFE上获得。01.引言场景流估计旨在从两个连续的输入帧中预测3D运动场。作为2D光流的推广，场景流表示物体的3D运动，并可用于预测其未来的运动，在机器人导航和自动驾驶中具有意义。在早期，场景流是从立体或RGB-D图像中估计的[13, 44, 45,49]。随着3D感知和数据驱动技术的最新进展，直接从点云中学习场景流已经引起了重要的研究关注[2, 7, 8, 17, 24,32]。获取场景流估计的训练数据需要对场景中每个点进行3D运动向量注释，这是非常具有挑战性的。一种实用的解决方案是使用合成数据进行训练，其注释可以直接生成。然而，对于点云的合成数据进行场景流估计的训练，并在真实数据上进行测试，即合成到真实场景流估计（SRSFE），面临着两个主要挑战。首先，点云上的SRSFE研究仍处于初级阶段，目前缺乏充分捕捉该任务的真实世界动态的合成数据。唯一的公开点云SRSFE合成数据，即FlyingThings3D[27]（FT3D），是通过从ShapeNet[38]中随机移动的3D对象进行采样生成的。这个简化的过程导致数据中的非自然场景流，见图1（a）。其次，0*通讯作者：雷银杰（yinjie@scu.edu.cn）0第一帧第二帧预测结果真值0(a) FT3D [27]（左）和Waymo [17, 40]（右）之间的差异0(b) 在FT3D [27]上训练并在Waymo [17,40]上测试导致的不准确预测结果（即将估计的场景流添加到第一帧）0图1.合成到真实场景流估计（SRSFE）的挑战。 (a)现有的合成数据集FT3D [27]（左）堆叠并移动ShapeNet[38]对象进行数据生成，导致与真实数据（右）明显不同的非自然场景，例如Waymo [17, 40]。 (b)由于领域转移，SRSFE无法保持局部结构和准确运动，导致形状变形和对应偏差。缺乏适当的合成数据集和SRSFE性能下降促使我们的工作。0获得了重要的研究关注[2, 7, 8, 17, 24,32]。获取场景流估计的训练数据需要对场景中每个点进行3D运动向量注释，这是非常具有挑战性的。一种实用的解决方案是使用合成数据进行训练，其注释可以直接生成。然而，对于点云的合成数据进行场景流估计的训练，并在真实数据上进行测试，即合成到真实场景流估计（SRSFE），面临着两个主要挑战。首先，点云上的SRSFE研究仍处于初级阶段，目前缺乏充分捕捉该任务的真实世界动态的合成数据。唯一的公开点云SRSFE合成数据，即FlyingThings3D[27]（FT3D），是通过从ShapeNet[38]中随机移动的3D对象进行采样生成的。这个简化的过程导致数据中的非自然场景流，见图1（a）。其次，72340SRSFE必须克服由于合成到真实设置引起的不可避免的领域差异。近年来，对无监督领域自适应（UDA）进行了广泛的研究，该方法将模型调整到未见过的无标签数据以减轻领域差异问题。然而，大多数现有的UDA方法[3, 4, 6, 9, 10, 41,42]都是针对2D任务设计的，以解决图像纹理、颜色和光照变化引起的领域差异问题。对于点云来说，关于UDA的研究相对较少[34,53-56]。对于SRSFE来说尤其如此，迄今为止还没有系统的研究可用。与其他静态点云任务相比，SRSFE对于学习动态点之间的相关性有特殊要求。因此，现有的UDA方法不容易转移到这个任务上。在本文中，我们解决了上述两个问题。首先，我们提出了一个合成点云场景流数据集GTA-V SceneFlow（GTA-SF），以解决数据集的缺乏问题。我们的数据利用GTA-V引擎[5]模拟激光雷达扫描，并通过对齐引擎渲染的相同实体来自动注释场景流。与FT3D相比，GTA-SF具有更逼真的场景和点云表示。其次，为了弥合合成到真实的领域差异，我们提出了一个专门为SRSFE任务设计的UDA框架。观察到“形状变形”和“对应偏差”是SRSFE性能下降的关键因素-图1（b），我们的技术在均值教师策略下学习变形和对应关系。我们通过刚性形状约束教师预测，并引导变形感知的学生模型学习理想的场景流。为了解决对应偏差，我们利用对象表面关系让模型在真实数据上学习更好的对应关系。我们的大量实验证明，我们的数据集GTA-SF在现实世界的数据上表现出了显著的泛化能力，而且所提出的框架在减小点云SRSFE问题的领域差异方面非常有效。简而言之，我们的贡献可以总结如下0•我们首次（据我们所知）对合成到真实场景流估计的点云进行了系统研究，以弥合领域差异。0•我们开发了一个点云序列收集器和场景流注释器，用于GTA-V引擎，并创建了一个大规模数据集GTA-SF用于SRSFE任务。0•我们提出了一种均值教师领域自适应框架，用于点云SRSFE，明确解决形状变形和对应偏差。0•经过大量实验证明，我们的GTA-SF更接近真实数据，能够在真实数据集上获得更好的性能，并且我们的技术在多个数据集上始终优于常见的UDA方法。02. 相关工作点云上的场景流估计：场景流估计问题最早在[43]中引入并定义为点的3D运动场。早期的工作[11, 13, 44-46,49]从立体图像或RGB-D序列[13, 44, 45,49]中估计3D场景流。最近，随着3D传感器的普及，越来越多的技术专注于直接从3D点云中学习场景流[7, 8, 20, 22,24, 30, 32, 50,52]。例如，Liu等人[24]利用PointNet++[33]进行特征提取，并提出了一个用于跨帧几何关系学习的流嵌入层。在[8]中，Gu等人利用半正交格点投影，并设计了一个用于两个连续帧的双边卷积层。在[23,32]中，利用最优传输来指导场景流学习。Wei等人[50]构建了点-体素相关场，以捕捉点之间的局部和远程关系。Gojcic等人[7]提出了一种弱监督方法，通过仅使用二进制背景分割和自运动注释来学习刚性场景流。在[30,52]中也可以找到自监督方法的场景流估计实例。尽管从3D点云中估计场景流显示出了很大的潜力，但真实数据和合成数据之间的领域差异极大地降低了当前模型在实际环境中的泛化能力。我们在提出的框架中解决了这个限制。无监督领域自适应（UDA）：旨在将在源领域上训练的模型推广到无标签目标领域。UDA在2D视觉任务上表现出了显著的性能。对于3D点云，UDA也被用于形状分类[1,34]、语义分割[15, 31, 51, 55]和目标检测[26, 48, 53, 54,56]。在这些贡献中，Qin等人[34]提出通过全局和局部特征对齐来学习领域不变的点云表示。Yi等人[55]使用表面完成网络将源和目标点云转换为规范域，并训练了一个共享的分割网络。Yang等人[54]采用了基于记忆库的伪标签生成和课程数据增强的自训练方法来进行3D检测的UDA。Luo等人[26]通过采用多级一致性正则化来解决目标域中不准确的框尺度问题，采用师生范式。总的来说，成功应用UDA需要解决特定任务的领域转移挑战。对于合成到真实的场景流估计任务，在现有文献中尚未解决这个问题。因此，这是本文的主要贡献。合成到真实的迁移学习：使用合成数据进行训练广泛用于避免繁琐的注释过程[16, 21, 27,35-37]。游戏引擎，例如Grand Theft AutoV（GTA-V），已被证明对于生成各种2D视觉任务的合成数据非常有用，例如语义分割。++72350教师模型0学生模型0源域0CR DR0D变形正则化（DR）0对应关系细化（CR）0C0s F0ˆ tF0t F0P pseudo Ψ0warpˆ P0warpP0warpP02 tP01 2 (, ) t t PP01 2 (ˆ, ) t tP P01 2 (, ) s s PP0stu �0teach �0(warp) f DR P0(warp) f DR P0gt F0目标域0C指数移动平均聚类 Ψ非对称变换损失计算 + 添加EMA0EMA0损失0EPC损失0L0学生场景流第一帧第二帧教师预测 DR后的教师预测教师场景流0图2.框架示意图：我们的教师模型Φteach是学生模型权重Φstu的指数移动平均（EMA）。源域的第一帧和第二帧P1s和P2s作为输入提供给学生模型，其中有地面真实场景流Fgt进行监督。学生模型还期望目标域输入（P1t，P2t）的变换版本（ˆP1t，P2t）提供给教师模型。最终，在教师模型的场景流预测Ft和学生模型的ˆFt之间施加端点一致性（EPC）。对于EPC，首先将两个预测与输入的第一帧相加，得到Pwarp和ˆPwarp。然后，对教师预测进行变形正则化和对应关系细化，从而提供高质量的伪标签Ppseudo来计算EPC损失。0图像分割[36]，光流[21,35]，目标检测[16]和人群计数[47]。最近，GTA-V还被用于生成用于3D物体检测[14]，语义分割[51]和3D网格重建[12]的点云数据。对于场景流估计，现有的合成数据集FT3D[27]构建了具有ShapeNet[38]对象沿随机3D轨迹移动的场景。尽管有用，但这种场景与真实世界情景之间的显著差异导致模型在真实数据上的泛化能力较差。我们通过利用GTA-V生成更逼真的场景流数据集来解决这个问题。03. 方法论03.1. 问题的形式化对于我们的问题，我们考虑了一组标记数据，S = {(Pis,Pis+1, Figt) | Nsi =1}，表示源域中的点云帧和它们之间的真实场景流。我们有|S| = Ns个样本可用于源域。相应地，我们有一组T = {(Pit,Pit+1, Fitest) | Nti =1}，表示目标域中的连续帧和样本数量Nt。对于T，场景流Fitest是未知的。合成到真实场景流估计的目标是计算一个估计器Λ(S, Pit) →Fitest，对于T中的每个Pit∈T，使得源域仅限于合成数据，而目标域是真实世界。由于所考虑的S和T之间存在较大的领域差异，估计器Λ(.)需要对领域差距具有鲁棒性。我们采用无监督领域自适应（UDA）范式来解决这个问题。该问题被称为合成到真实场景流估计（SRSFE）。03.2. 技术概述教师-学生范式我们的点云SRSFEUDA框架的示意图如图2所示。我们的框架采用学生模型Φstu和教师模型Φteach。在文本中，我们交替使用这些符号来指代模型权重以简洁起见。在我们的技术中，我们应用反向传播来更新Φstu，而对于Φteach，我们使用Φstu的指数移动平均（EMA）来迭代地更新权重。0Φ更新teach ← αΦteach + (1 − α)Φstu，(1)0其中α是平滑系数，决定教师模型的更新速率。非对称变换我们通过最终强制学生模型的预测与目标域中已知的教师输入的变换匹配来鼓励学生模型的域不变性。由于场景流是从动态点云序列中学习的，两个连续帧之间的相关性在场景流估计中起着关键作用。考虑到这一点，我们定义了一个非对称变换操作Ψ(.,.)，用于输入（即两个连续的点云帧）。运算符Ψ随机地对输入的第一帧应用变换，并保持第二帧不变。我们考虑全局旋转和平移对Ψ(.,.)进行全局旋转和平移，从而改变位置而不破坏对象的形状。考虑到P1t作为第一帧和P2t作为下一帧的输入，变换如下进行0Ψ(P1t, P2t) = (ˆP1t, P2t), (2)0其中ˆP1t是P1t的变换版本。通过Ψ(.,.)，模型能够稳健地理解相关性的概念+CR�72360理想情况下，给第一帧添加场景流应该提供第二帧的估计。添加场景流的第一帧被称为“变形帧”。我们可以通过强制要求两个模型的目标域变形帧预测相似来促进教师-学生一致性。为此，我们引入了终点一致性（EPC）的概念，其中Pwarp = P1t + Ft，ˆPwarp = ˆP1t +ˆFt，其中Ft和ˆFt分别是教师和学生模型的预测场景流。由于教师模型为学生模型提供伪标签，我们提出改进伪标签的质量以在目标域上教授更好的学生。为此，对于教师预测，变形帧进一步通过变形规范化（§3.3）进行处理以保持刚体形状。我们还提出了后续的对应关系细化（§3.4）以更好地对齐对象的表面。通过强制要求学生对原始目标域输入（应用Ψ后）的预测与教师模型的预测一致，我们有效地鼓励学生对输入扰动的鲁棒性，同时促进学生对目标域的变形和对应关系的意识。03.3. 变形规范化（DR）0对于SRSFE问题，通过合成数据诱导的模型必须推广到真实世界的数据。由于合成数据通常无法真实地捕捉到真实世界的细节，模型可能无法完全理解目标域中的对象形状在所需的粒度级别上。这导致场景流向量具有扭曲的对象形状。为了解决这个问题，我们设计了一个用于刚体的变形规范化（DR）模块作为变形校正器。具体而言，对于教师模型的变形点云Pwarp，我们首先将其分割成几个不同的聚类{Cl |Ncl=1}，其中Nc是聚类的数量。然后，我们使用Kabsch算法[18]从P1t到Pwarp估计每个聚类Cl的刚体运动(Rl,tl)，其中Rl∈R3×3和tl∈R3表示旋转和平移矩阵。然后，重构的聚类C'l被获得为0C'l = �(C1l ∙ Rl + tl) | nli=1�，(3)0其中，C1l表示Cl中对应的点在Plt中的位置，nl是Cl中的点的数量。我们将应用DR后的教师变形结果Pwarp重构为fDR(Pwarp)={C'l |Ncl=1}。然后，EPC确保学生变形结果ˆPwarp和fDR(Pwarp)之间的一致性。这鼓励学生模型对形状扭曲的意识，从而使其能够学习适应目标域的自适应变形。稍后，通过对应关系的细化改进fDR(Pwarp)。0t P2 表面对应关系不对齐的表面0(warp) DR CR f P0添加刚体运动0第一帧第二帧预测0教师场景流DR CR形变正则化对应关系细化0DR0CR02L0图3.所提出的DR和CR的示意图，用于使用教师模型流生成高质量的伪标签，DR改善了对象形状，CR通过细化局部几何改善了表面对应关系。03.4.对应关系细化(CR)0理想情况下，SRSFE模型必须能够在目标域中保持连续帧中对象之间的正确对应关系。然而，源域中的合成对象具有明显的边界和几何简化的表面，而真实世界的对象形状要复杂得多。当模型应用于目标域时，这对于自动保持所需的对应关系是有问题的。为了解决这个问题，我们在模型中明确鼓励跨帧表面对应关系。让我们简要考虑输入(P1t,P2t)中的第二帧P2t作为目标帧。场景流Ft识别出将第一帧P1t移动到第二帧P2t的每个点的平移。在我们的设置中，如果场景流向量被正确估计，Pwarp和P2t中的对象将具有相同的表面。因此，估计的场景流的准确性直接取决于跨帧匹配的几何表面匹配程度。为了考虑跨帧表面对应关系，我们使用拉普拉斯坐标[39]记录3D表面的局部几何特征。我们首先计算扭曲点云Pwarp中每个点pjwarp的拉普拉斯坐标L1，如下所示：0L1(pj warp) = 10|N(pj warp, P warp)|0K个0k = 0||pk warp - pjwarp||, (4)0其中N(pj warp, P warp)计算P warp中pjwarp的K个最近邻点，pk warp∈N(pj warp, Pwarp)。然后通过查询第二帧P2t中的相邻点来扩展到跨帧对应关系0L2(pj warp) = 10|N(pj warp, P2t)|0K个0k = 10||pk2 - pj warp||, (5)0其中N(pj warp, P2t)表示P2t中pjwarp的相邻点，pk2∈N(pj warp, P2t)。L1(pjwarp)和L2(pj warp)之间的差异将为表面提供线索′l p′lLsource (Φstu) = ||Fs − Fgt||1.(8)LEPC (Φstu) = ||ˆPwarp − (fDR(Pwarp) + δCR)||1. (9)Lstu (Φstu) = Lsource (Φstu) + LEPC (Φstu) .(10)fi =(pi − Pei) · R−1ei · ˙Rei + ˙Pei− pi,(11)72370不对齐，可以用于改进教师模型的伪标签。由于DR将单个对象分离和重建，我们进一步计算每个重建聚类C'l的改进向量，以保持刚体形状0C'l = C'l + 10�0||L2(pu) - L1(pu)||, (6)0其中�Cl表示改进的聚类，NCl是聚类C'l中的点数。在对单个聚类进行改进后，我们将改进的扭曲点云表示为Ppseudo，它是最终的伪标签，通过以下方式获得：0Pseudo = f DR(P warp) + δ CR = {C'l | Ncl=1}, (7)0其中δCR表示我们的CR的改进向量。通过使用CR改进重建的点云，调整教师场景流以获得更好的表面对齐，从而使教师模型流能够为扭曲的点云提供更可靠的伪标签，随后在学生训练中利用这些伪标签。我们在图3中说明了DR后应用CR来改进伪标签的过程。03.5. 网络训练0我们的网络由学生模型 Φ stu 和教师模型 Φ teach组成。在每次迭代中，Φ stu 使用在源域上定义的监督损失L source 和在目标域上的一致性损失 L EPC 进行训练。Lsource 是学生估计的场景流 F s 与真实场景流 F gt 之间的L 1 损失，即0对于 L EPC ，我们使用学生的变形结果 ˆ P warp和经过DR和CR处理的教师 P warp 之间的 L 1 损失，即0学生模型的总损失 L stu 如下所示0对于教师模型，我们使用公式（1）在每次迭代后更新其权重 Φ teach 。04. GTA-V场景流动（GTA-SF）数据集0本文的另一个重要贡献是策划了一个大规模的合成场景流数据集，使用GTA-V[5]生成。下面，我们首先描述了我们在GTA-V引擎中自动收集连续LiDAR点云并为其注释场景流标签的方法（§4.1）。然后，我们将我们的数据集与现有的合成场景流数据集进行比较，讨论其属性（§ 4.2）。04.1. 数据收集0我们使用基于Scrip Hook V 1和PreSIL[14]的GTA-V引擎[5]收集数据。具体来说，我们首先在道路上建立一个自动驾驶汽车的场景。然后，我们在汽车顶部安装一个合成的LiDAR收集器，并以预定义的频率（例如10Hz）收集点云。借助Scrip HookV的帮助，我们能够与GTA-V进行交互，并加载每个点的属性（例如位置，所属实体）。为了注释场景流向量，我们遵循Jund等人的刚性假设[17]，并计算每个实体的刚性运动。在游戏运行过程中，每个个体对象都被分配一个唯一的实体ID，被视为刚体。我们可以通过加载其实体e i的位置{x，y，z}和姿态{α，β，γ}来直接计算每个点p i的场景流f i ，如下所示：0其中P e i 和R e i分别是当前帧中实体的位置和旋转矩阵，而˙P e i 和˙R e i是下一帧中的位置和旋转矩阵。对于下一帧中没有对应实体的点，我们计算它们的场景流类似于实体运动。具体来说，LiDAR的位置和姿态与所附汽车保持一致，并且自车运动被计算为未匹配实体的场景流。对于场景流估计，地面点是无信息的。因此，现有的方法通过高度阈值处理手动去除它们[8，24]。由于道路并不总是平坦的，阈值处理会导致错误，包括不希望的去除前景物体点。在GTA-SF中，我们通过利用实体信息系统地去除地面点，即去除属于地面实体的点，以提高数据质量。04.2. 数据集属性0提出的GTA-SF是一个用于真实场景流估计的大规模合成数据集。它包含54,287对连续点云，并密集注释了场景流。与现有的合成数据集相比，GTA-SF收集了更加真实的点云，规模更大，并且注释的场景流超出了点对应假设以适应物理真实性。在多样性方面，GTA-SF涵盖了各种场景，包括市区、高速公路、街道和其他驾驶区域，而不仅仅是人工场景。点云沿着六条不同的路线收集，涵盖了各种户外区域。此外，收集到的点云在场景流学习方面具有高质量，因为无意义的地面点已经被仔细去除。我们在补充材料中提供了更详细的说明和定量分析。01 http://www.dev-c.com/gtav/scripthookv/72380表1. FT3D [27]和我们的GTA-SF之间的比较。0帧标签场景0FT3D [27] 23,464个虚幻物体堆叠GTA-SF（我们的）54,287个逼真的车辆驾驶0FT3D [27] 我们的GTA-SF0Waymo [17, 40] Lyft [19] KITTI [28, 29]0合成真实0第一帧第二帧0图4. 合成数据集FT3D [27]和GTA-SF以及真实数据集Waymo [17,40]，Lyft [19]和KITTI [28,29]的视觉比较。与FT3D相比，我们的GTA-SF更加逼真。0据我们所知，FlyingThings3D（FT3D）[27]是唯一被广泛使用的用于点云场景流估计的合成数据集。它包含19,640个训练样本和3,824个测试样本，与我们的GTA-SF相比，尺寸较小。它通过堆叠来自ShapeNet[38]的3D对象并在两个帧之间随机移动它们来构建场景。然而，这种策略对于真实世界场景来说是不自然的。表1显示了GTA-SF和FT3D之间的简要比较。图4显示了FT3D和我们的GTA-SF的视觉比较。我们还在补充材料中提供了更全面的说明。我们在第5.3节的实证评估中也验证了GTA-SF在合成和真实世界数据之间显著缩小了领域差距。05. 实验 5.1.真实世界数据集0Waymo。Waymo开放数据集（WOD）[40]包含158,081个训练帧和39,987个验证帧的带有3D物体检测注释的点云，是在真实世界中捕获的。[17]通过使用对象的跟踪边界框来扩展WOD的场景流注释。请注意，Waymo在计算场景流之前进行了自我运动补偿。它只考虑对象的绝对移动，并将静止对象点的注释设置为零。然而，先前的数据集[27-29]没有对自我运动进行补偿。绝对运动和由自我运动引起的相对运动同时估计。为了公平比较，我们遵循先前的数据集，并根据WOD提供的姿态信息检索点的自我运动向量。Lyft。Lyft Level5数据集[19]包括18,900个训练帧和3,780个验证帧的LiDAR点云。它通常用于3D物体检测，不提供场景流标签。由于给定了检测标签和传感器参数，我们按照[17]的方法为Lyft生成场景流标签，而不进行自我运动补偿。KITTI。KITTI Scene Flow2015 [28,29]是场景流估计的一个流行基准。我们按照[8]中的预处理步骤生成带有场景流注释的点云，其中包含142对帧。0表2. 在Waymo [17,40]上使用不同源数据集预训练的现有方法的测试EPE3D（m）。0源 → 目标 FlowNet3D HPLFlowNet FLOT PV-RAFT0FT3D → Waymo 0.3546 0.2505 0.3299 0.2621 GTA-SF → Waymo 0.15890.1146 0.1081 0.0585 Waymo → Waymo 0.1067 0.0501 0.0680 0.04330在Lyft上，我们遵循[17]的方法，在不进行自我运动补偿的情况下，为Lyft生成场景流标签。KITTI。KITTI Scene Flow2015 [28,29]是场景流估计的一个流行基准。我们按照[8]中的预处理步骤生成带有场景流注释的点云，其中包含142对帧。05.2. 评估设置0实施细节。对于真实世界数据集，我们首先将它们转换为相同的坐标系，并删除高度小于0.3m的地面点。有关我们的框架的实施细节，请参阅补充材料。比较方法。我们与以下方法进行比较。(1)基线表示在源域上预训练模型，直接在目标域上进行评估。(2) MMD[25]采用最大均值差异（MMD）进行跨域特征对齐。(3)Self-Ensemble[4]采用带有学生和教师估计的场景流向量之间的L1损失的均值教师。(4)Oracle在目标域上训练完全监督模型。评估指标。根据[8,24, 32,50]，我们采用四个评估指标。这些指标是在估计的场景流F和地面真值Fgt之间计算的。EPE3D（EPE）（m）：|| F -Fgt || 2计算估计场景流向量与地面真值之间的l2距离。ACCStrict（AS）（%）：EPE3D <0.05m或相对误差<5%的点的百分比。ACCRelax（AR）（%）：EPE3D <0.1m或相对误差<10%的点的百分比。Outliers（Out）（%）：EPE3D > 0.3m或相对误差>10%的点的百分比。05.3. 实验结果0合成数据集的比较。我们首先通过评估最近的方法FlowNet3D [ 24 ]，HPLFlowNet [ 8 ]，FLOT [ 32 ]和PV-RAFT [50]来验证合成到真实领域差距的存在。我们在三个数据集上对它们进行训练：FT3D [ 27 ]，GTA-SF和Waymo [ 17 , 40]，然后在Waymo上进行评估。我们在表2中的实验结果显示，与直接在Waymo上进行训练相比，FT3D上训练的模型面临着严重的性能差距。这验证了合成和真实数据集之间存在较大的领域差距。与FT3D和GTA-SF相比，我们发现GTA-OutS→RR→ROracle0.050174.8292.2040.880.105868.9287.0422.68----OutS→RR→ROracle0.050174.8292.2040.880.105868.9287.0422.68----R→ROracle0.043384.7095.0733.09FT3DWaymoR→ROracle0.043384.7095.0733.09R→ROracle0.068072.7889.6641.94FT3DWaymoR→ROracle0.068072.7889.6641.9472390表3. 对六个源-目标对进行性能比较。我们使用HPLFlowNet [ 8 ]作为基线，直接从源到目标进行转移。比较考虑了从合成到真实（S →R）和从真实到真实（R →R）的转移。EPE（m），AS（％），AR（％）和Out（％）是场景流估计评估指标。‘-’表示由于没有提供训练数据，KITTI上的Oracle结果不可用。 S → R的最佳结果以粗体显示。↓和↑分别表示负极性和正极性。E，D和C分别表示EPC，DR和CR。0方法GTA-SF −→ Waymo GTA-SF −→ Lyft GTA-SF −→ KITTI0基线[ 8 ] 0.1061 32.35 66.21 65.35 0.1802 28.36 73.66 34.93 0.0932 52.29 81.39 33.75 MMD [ 25 ] 0.1068 37.24 68.85 66.91 0.1563 41.9178.51 31.35 0.0877 45.87 79.45 41.69 自我集成[ 4 ] 0.0981 44.05 71.05 62.10 0.1681 32.80 75.59 34.05 0.0869 51.11 79.18 37.49 我们的(E)0.0894 38.68 75.68 61.68 0.1506 38.75 80.22 29.06 0.0848 51.01 81.18 37.52 我们的(E+D) 0.0887 40.60 77.30 60.70 0.1454 41.11 81.4929.06 0.0748 54.11 86.53 31.58 我们的(E+D+C) 0.0683 58.57 87.98 47.40 0.1277 56.35 85.50 24.62 0.0464 80.53 96.85 18.750方法FT3D −→ Waymo FT3D −→ Lyft FT3D −→ KITTI0基线[ 8 ] 0.2477 31.59 57.22 77.08 0.8486 13.18 30.42 79.10 0.1169 47.83 77.76 41.03 MMD [ 25 ] 0.2179 24.12 55.09 79.52 0.7158 10.4829.21 80.05 0.1165 37.42 78.46 42.75 自我集成[ 4 ] 0.2342 33.20 55.54 78.72 0.7366 13.20 32.52 77.23 0.1166 41.88 77.15 44.11 我们的(E)0.2339 28.44 55.76 77.84 0.7330 10.22 29.24 80.35 0.1193 40.50 75.75 46.25 我们的(E+D) 0.2091 29.56 56.18 78.97 0.5092 13.25 35.6174.52 0.0992 46.86 81.95 37.83 我们的(E+D+C) 0.1251 48.87 78.40 57.29 0.4442 25.90 51.61 58.59 0.0516 79.37 96.81 18.040表4. 将来自合成数据集的PV-RAFT [ 50]基线与Waymo进行比较。我们的UDA框架在消除PV-RAFT的领域差距方面取得了显著的性能。↓和↑分别表示负极性和正极性。0方法EPE ↓ AS ↑ AR ↑ Out ↓ GTA-SF → Waymo0S → R Baseline [ 50 ] 0.0585 71.38 90.74 42.15 我们的 0.047479.93 94.14 35.610S → R Baseline [ 50 ] 0.2620 43.59 68.25 63.21 我们的 0.121962.29 82.53 47.710SF → Waymo的性能差距要小得多。 Lyft和KITTI在Tab.3中也显示出类似的趋势，从而证明我们的GTA-SF更适用于真实数据。0合成到真实的转移。在表3中，我们将我们的合成到真实场景流估计领域自适应方法与HPLFlowNet [ 8]基线，Oracle和两种通用UDA方法（即MMD [ 25]和Self-Ensemble [ 4]）进行比较。六个源-目标对的结果表明了我们方法的卓越性能，以及它在EPE方面能够将基线和Oracle之间的性能差距大大缩小60％。请注意，由于没有提供训练数据，KITTI上的Oracle结果不可用，我们在EPE方面也取得了55.86％的改进。与通用UDA方法相比，我们的框架在所有四个评估指标上都超越它们，因为我们的技术使场景流估计器能够进行形变。0表5. 将合成数据集的 FLOT [ 32 ] 基线与 Waymo进行比较。我们的UDA框架与FLOT兼容，并在消除领域差距方面表现出一致的性能。↓ 和 ↑ 分别表示负极性和正极性。0方法 EPE ↓ AS ↑ AR ↑ Out ↓ GTA-SF → Waymo0S → R 基线 [ 32 ] 0.1081 45.36 75.72 57.41 我们的方法 0.088859.15 82.58 49.960S → R 基线 [ 32 ] 0.3299 27.07 48.20 78.63 我们的方法 0.143252.19 75.69 56.360目标域中的形变和对应性分析。此外，与FT3D相比，我们观察到GTA-SF转移模型的性能差距较小。我们的框架还显示出与其他主流场景流估计器的显著兼容性。如表4和表5所示，它在GTA-SF → Waymo和FT3D →Waymo上实现了优越的领域适应性能，这与HPLFlowNet一致。表4显示了我们的框架在GTA-SF → Waymo和FT3D→Waymo上与PV-RAFT的领域适应性能。我们可以将EPE的性能差距缩小62.04%至72.50%。表5上的结果也显示了FLOT的类似趋势。05.4. 消融研究0我们以HPLFlowNet为基准进行消融研究，评估我们框架中各个组件对整体性能的贡献。AT0.071954.8488.3147.7772400表6. Mean Teacher (MT) 在我们的框架中的贡献。↓ 和 ↑分别表示负极性和正极性。0设置 EPE ↓ AS ↑ AR ↑ Out ↓0无 MT 0.0768 51.17 85.72 53.81 有 MT 0.0683 58.57 87.9847.400表7.对非对称变换（AT）和增强方法进行消融研究。对称变换（ST）对两个帧使用相同的变换。T和R分别表示平移和旋转。↓ 和 ↑分别表示负极性和正极性。0方法 EPE ↓ AS ↑ AR ↑ Out ↓0T + R 0.0702 55.28 88.27 47.730DR和CR的有效性。我们通过逐步添加DR和CR来研究我们框架中两个关键模块（即DR和CR）的有效性。在表3中，Ours（E）表示我们的基线，使用端点一致性而没有DR和CR。在表中，DR和CR的添加分别用+D和+C表示。可以看出，DR在所有源-目标数据集对上都能提升性能。进一步添加CR后，我们的框架在从FT3D到真实数据集的性能上实现了39.4%至56.8%的改进，以及从GTA-SF到真实数据集的15.21%至45.28%的改进。这证明了DR和CR在我们的框架中的明显贡献。MeanTeacher的有效性。我们的框架采用平均教师来为无标签的目标域提供伪标签。为了验证我们教师模型的有效性，我们进行了实验，将其替换为与学生模型相同的模型，将EMA中的α设置为0。表6显示，在移除教师模型后，我们框架的性能下降。这表明了平均教师提供正面监督的贡献。非对称变换的有效性。我们提出了非对称变换（AT）作为我们框架中学生模型的增强策略。AT使用随机增强方法转换输入点云对的第一个帧。表7进行了消融研究，评估了AT的有效性。与对两个输入帧使用相同增强方法的对称变换（ST）相比，AT能够获得更好的性能。我们分析了AT中不同增强方法的效果。与仅使用平移（T）或平移+旋转（T +R）相比，仅使用旋转（R）可以获得最佳结果。这使得旋转成为SRSFE的更适合的增强方法，因为它能够产生与驾驶转向相符的真实场景流。变形和对应性分析的分析。基于0(a) 在FT3D上训练的基线 (b) 在GTA-SF上训练的基线 (c) 我们的GTA-SF到Waymo (d) 真实数据0第二帧预测真实数据0完美对应错误对应0无变形严重变形0图5. Waymo数据集上的定性比较. (a)在FT3D上训练的基线严重变形物体并提供错误的对应关系-红框.

下载后可阅读完整内容，剩余1页未读，立即下载