三维点云的矢量场形变方法提高物体检测的领域泛化

183 浏览量更新于2023-10-25 收藏 18.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1729503D-VField:三维物体检测中点云的对抗性增强用于领域泛化0Alexander Lehner � , ◦ , 1 , 2 Stefano Gasperini � , 1 , 2 Alvaro Marcos-Ramiro 2 Michael Schmidt 20Mohammad-Ali Nikouei Mahani 2 Nassir Navab 1 , 3 Benjamin Busam 1 Federico Tombari 1 , 401 慕尼黑工业大学 2 宝马集团 3 约翰霍普金斯大学 4 谷歌0摘要0由于三维点云上的物体检测依赖于点之间的几何关系，非标准的物体形状可能会影响方法的检测能力。然而，在安全关键的环境中，对域外和长尾样本的鲁棒性对于避免危险问题至关重要，例如对损坏或罕见汽车的误检测。在这项工作中，我们通过在训练过程中对点云进行形变来大幅改善三维物体检测器对域外数据的泛化能力。我们使用3D-VField实现这一目标：一种通过对抗学习得到的矢量场对物体进行合理形变的新型数据增强方法。我们的方法将三维点限制在它们的传感器视线上滑动，既不添加也不删除任何点。所得到的矢量是可转移的、与样本无关的，并且保持形状和遮挡。尽管只在标准数据集（如KITTI）上进行训练，但使用我们的矢量场进行增强显著提高了对不同形状物体和场景的泛化能力。为此，我们提出并分享了CrashD：一个包含多种撞车场景的逼真损坏和罕见汽车的合成数据集。在KITTI、Waymo、我们的CrashD和SUNRGB-D上进行了大量实验，展示了我们的技术对域外数据、不同模型和传感器（如激光雷达和ToF相机）以及室内外场景的泛化能力。我们的CrashD数据集可在https://crashd-cars.github.io上获取。01. 引言0� 作者贡献相等。◦ 联系作者：Alexander Lehner(alexander.lehner@tum.de)。该工作部分由德国经济事务和能源部（资助号19A19005B）和VDA KI-Absicherung项目资助。0域外样本基准：PointPillars 3D-VField [我们的方法]0图1. 在KITTI [13]上训练的PointPillars[18]模型在来自提出的CrashD数据集的域外样本上进行预测，包括没有和有我们的对抗性增强的情况。CrashD包含罕见的（顶部）和损坏的（底部）车辆，从而产生自然的对抗性示例[17]。由于模型在CrashD上没有进行微调，由于不同的物体形状，标准的PointPillars模型产生了两个假阴性和一个假阳性。图片由BeamNGGmbH提供。0物体检测、语义分割和全景分割等基于学习的方法已经取得了广泛的进展，但近年来的一个趋势是将重点放在确保这些强大方法在关键场景（如自动驾驶和机器人技术）中的安全应用上[27]。这导致了对模型鲁棒性和泛化性能的追求[12,22,37]，特别是对抗域外数据的泛化性能，这在现实世界中是自然发生的[17]。这些方法包括域自适应[39]和泛化[37]、不确定性估计[11]、模拟[4]和对抗性改变[35]。由于角落案例很难在动态的现实场景中捕捉到，当前的数据集只包含有限数量的角落案例，如果有的话[5]，大多数这些案例都属于域外。然而，在安全关键的环境中，处理长尾和域外样本对于训练过程中的危险问题非常重要[5]。虽然已经有一些研究在图像领域解决了其中一些问题[4, 11, 16,26]，但这仍然是一个挑战。172960对于3D点云而言，大多数领域尚未开发[35]，这也是由于点云本身的挑战，因为它们是无序、稀疏和不规则采样的。然而，作为3D传感器（如LiDAR、ToF相机）的输出，点云在高度自动化中特别有用，其中的鲁棒性和冗余性与安全性相互交织。在这种情况下，真实的非标准对象，如损坏和罕见的汽车，或来自不同地区的汽车，可能会导致误报，如图1所示，因为3D检测器所依赖的点间几何形状与通常不同。虽然这些示例在现实世界中可能自然发生[17]，但它们也可以通过对抗性攻击人为生成[14]。这种方法显示了模型的脆弱性，可以通过改进鲁棒性来解决。最近的对抗性点云变形方法[35]已经解决了这个问题，以提高对域外数据的泛化能力。然而，尽管现有的对抗性变形策略[19,40]是有效的攻击方法，但它们是特定于样本的，缺乏广泛适用性，并且由于没有考虑3D传感器，它们在空间上大多数是无约束的[19]。在这项工作中，我们通过在训练过程中对点云进行变形，大大提高了3D物体检测器对域外数据的泛化能力。我们提出了3D-VField：一种新颖的对抗性增强方法，通过广泛适用和样本无关的向量场（即与给定空间中一组点相关联的向量集合）来学习变形点云。我们的变形保持了整体物体形状，只是沿视线滑动点，并且不添加或删除任何点。在学习了向量场之后，我们将其用于数据增强来改变物体。本文的主要贡献可以总结如下：0•我们提高了对自然对抗性示例的认识，例如由损坏和罕见汽车所代表的示例，以及它们欺骗流行的3D物体检测器的能力。0•我们提出了3D-VField：一种基于向量场的传感器感知对抗性点云变形方法，能够通过数据增强提高3D物体检测器对域外样本的泛化能力。0•我们引入并公开发布了CrashD：一个由损坏和罕见汽车组成的数据集。对KITTI [13]、Waymo [33]、我们的CrashD和SUN RGB-D[30]等四个室内外数据集进行了广泛实验，证明了我们方法的广泛适用性。02. 相关工作0我们的工作是关于对点云进行对抗性增强，以提高3D物体检测器的泛化能力。在本节中，我们对这些相关领域的现有方法进行简要概述。02.1. 提高泛化能力0对于任何基于学习的方法来说，对未见数据的泛化能力都是非常理想的特性[37]。未见数据包括模型未经过训练的任何样本，包括域外和域内数据（例如验证集），具体取决于域偏移的大小。特别是，域泛化处理的是在没有任何关于目标域的知识的情况下提高性能，与具有目标数据访问权限的域自适应相对应[39]。这些工作可以分为两大类：对模型本身进行操作的方法和对输入数据进行操作的方法。在前一类方法中，常用的是模型正则化策略，用于减少过拟合[31]或处理域泛化[3]。模型不确定性的估计也被发现对域外数据有益[11]。此外，可以通过搜索算法找到特定的体系结构以提高鲁棒性[22]。另一类方法通过操作输入数据来实现泛化。为此，可以利用预训练和多任务学习来改进域外样本的性能[2]。此外，可以包含合成数据以提高罕见类别的准确性[4]。数据增强方法[16,32,45]也属于这一类别。其中，有对抗性方法，通过以对抗方式学习到的改变输入的增强数据来提高泛化能力[26,35,36]。我们在这项工作中提出的方法处理的是域泛化问题（即不使用任何目标信息），属于数据类别，具体而言是对抗性方法，详细介绍在第2.2节中。02.1.1 3D目标检测的泛化性质0在泛化性质的背景下，一些研究致力于3D目标检测任务，这也是本文的重点。Simonelli等人[29]通过创建虚拟视图将对象与其距离进行归一化，以更好地适应图像域中不同深度的样本。Tu等人[35]通过对LiDAR点云进行对抗性示例，改善了对带有车顶物体的汽车的泛化性能。Wang等人[39]使用域适应来填补多个国家和不同LiDAR传感器之间的差距。02.2. 对抗性示例0对抗性示例是设计用于导致模型错误预测的输入修改[14,34]。许多研究在图像领域探索了对抗性示例[9, 23, 24, 41,44]，其中对人类来说不可察觉的像素扰动能够欺骗目标模型。Alaifari等人[1]使用不同的对抗性向量对图像进行变形。172970视线03D传感器0之前的工作输入3D-VField [我们的]0平滑性保持0图2.与我们的方法相比，之前的工作引入的对抗性变形。其他方法添加、删除或移动点，但约束较小。我们的方法只沿视线滑动点，同时保持形状和遮挡。0为每个样本学习的字段。Wang等人[38]提出了对抗性变形场，以在空间上改变图像像素并欺骗分类器。然而，这个主题在点云中仍然大多未被探索，特别是由3D传感器（如LiDAR、ToF相机）捕获的点云。02.2.1 对抗性点云0对于3D点云的对抗性方法可以分为三类：如果添加点则为生成，如果删除点则为去除，如果仅移动点则为扰动。然后，我们从对域外样本的泛化性质的角度介绍这些方法。生成和去除：Xiang等人[40]开创了对抗性点云的先河，提出了一系列方法，其中一些方法添加点以欺骗形状识别。Cao等人[8]展示了基于LiDAR的方法对场景中添加的对抗性物体的脆弱性。类似地，Tu等人[35]在汽车上方添加了对抗性网格。另一系列工作探索了传感器攻击，通过欺骗设备添加点[7]。相反，去除方法通过对抗性学习来丢弃一些关键点[43]。扰动：Xiang等人[40]还提出了前两种对抗性扰动方法。一种是迭代梯度L2攻击，它是从图像领域的PGD进行的改编[20]，通过L2范数进行最小变形的优化。另一种方法是Chamfer攻击，它使用原始对象与变形对象之间的Chamfer距离（CD）来减小攻击的可察觉性[19]。CD通过计算每个点到变形点云的最近邻距离的总和来测量。使用这个距离函数鼓励对象表面上的点位移。我们的方法与迭代梯度L2攻击密切相关，但我们不为每个样本的每个点学习一个向量。相反，我们学习一个独立于样本的向量场，并引入进一步的约束来改进我们的变形。Liu等人[19]研究了比Xiang等人更明显的扰动，同时通过相应地改变相邻点来产生连续的形状。Cao等人[6]进行了3D打印。0对抗性物体用于欺骗多模态（LiDAR和相机）检测器。泛化性质：针对ModelNet数据集[15, 19,40]提出了一些关于对抗性点云的研究，该数据集包含一组合成的3D点云，类似于各种物体形状。由于ModelNet不是使用3D传感器创建的，这些基础研究通常会产生不现实的输出[19,40]，这些输出并不旨在改善模型的泛化性能，而是为了对点云进行对抗性攻击[40]。此外，这些机制是样本特定的，使得它们的适用性有限[15, 19,40]。相反，Tu等人[35]研究了在车顶上合成的独立于样本的网格对象（如独木舟和沙发）对LiDAR目标检测的影响。此外，他们以对抗性方式攻击这些网格，并使用它们来保护检测器，从而提高其对带有车顶物体的未见样本的鲁棒性和泛化能力。我们的工作与所有样本特定的方法[1, 19, 40,43]不同，因为我们构建了一组高度可传递和通用的扰动。与Tu等人的工作相比，我们的目标是改善对域外样本的泛化性能。然而，与他们的工作相比，如图2所示，我们不添加任何点，使我们的方法成为一种扰动方法。此外，与Tu等人不同，我们的方法不对物体或传感器的类型做任何假设，因此我们的方法具有更广泛的适用性，从室内到室外设置。此外，我们的方法与上述所有方法的不同之处还在于它通过可传递的学习向量场生成对抗性点云，这一点尚未得到探索。03. 方法0现在我们根据对点云进行变形以考虑自然对象变化的方法来说明我们的方法，从而通过对抗性增强来提高3D对象检测器对领域外数据的泛化能力。如图3所示，我们通过对抗性学习一个矢量场（第3.1节）来实现这一目标。训练完成后，可以冻结该矢量场，然后应用于任何先前见过或未见过的对象，只需将其缩放以匹配目标大小并限制点的移动以保持形状和遮挡（第3.2节）。我们将其应用于变形其类别的所有对象，作为数据增强（第3.3节）。03.1. 对抗性学习的矢量场0我们在一个三维边界框内创建一个均匀间隔的三维向量网格。由于目标是在不添加或删除点的情况下扰动点云，因此矢量是这组点位移的直接表示。这mi =�kj=172980传感器感知0对抗性变形、变形的对象点测器预测0反向传播03D传感器0每个对象都使用相同的学习到的矢量场0图3. 所提出的3D-VField的概述。我们首先对矢量场进行对抗性学习，以合理地变形对象并考虑约束条件。稍后，修改后的场景被用作增强，以提高对未见过的物体形状的泛化能力。0允许紧凑和可转移，因为相同的学习到的矢量场可以应用于任何目标对象。为了构建这样一个矢量场，我们将默认边界框Bo的空间离散化，步长为t，以获得三维空间中的根坐标f，并为每个根分配一个空矢量v = (x, y,z)。Bo由宽度w、高度h、长度l、方向角α和中心c = (x, y,z)定义。对抗性损失我们使用二元交叉熵损失来抑制所有相关的边界框提议，参考[35]。我们将一个提议视为相关的，如果预测的置信度得分s >0.1。Q是相关提议q的集合，其中每个q都有一个置信度得分s。我们通过s与提议q�的3D IoU加权来最小化s：0Ladv = 0q,s ∈ Q − IoU(q�, q)log(1 − s). (1)0通过在训练矢量场时反复降低置信度分数，检测器会错过对象或预测出错的边界框。在训练过程中，我们将相同的矢量场应用于每个场景中的每个目标对象，以最小化整个数据集上的损失。在每个优化步骤中，矢量会更新，导致目标对象的不同变形点云，最终导致不同的预测结果。当Ladv平滑收敛时，检测器的性能会下降，而矢量场则会针对其进行优化。训练完成后，这些矢量可以用于数据增强。03.2. 对象变形0在应用矢量场之前，我们将其缩放以匹配目标对象的大小。通过这些矢量来操作点，我们根据以下描述限制它们的移动。光线一致性为了在生成变形时保持传感器的物理约束和泛化能力，我们采用了一个简单的传感器模型，其中3D点只能沿光线移动。我们首先计算3D传感器与每个点之间的光线ui，它确定了每个点的变形方向。然后，我们通过将其最近的矢量vi投影到光线ui上来计算每个pi的变形矢量ri。因此，点只能通过ri移动。0规范化变形我们通过限制矢量的∥v∥∞ <ϵ来限制点的扰动，这遵循标准的PGDL∞攻击[20]。然后，我们通过采样多个k个相邻矢量来确保对象表面上的形状平滑，以移动给定的3D点。对于每个第j个最近邻，我们计算对象的每个点pi与其最近矢量vij之间的欧氏距离dij。每个点的最终位移mi通过将变形矢量rij与其对应的距离dij加权计算得到：0k (2)0这样可以使相邻点之间的深度差异更加渐进，因为具有相反方向的相邻向量会导致受影响点的几乎没有移动。因此，形状的平滑性得到保持，产生的不规则变形较少。相对旋转我们发现在数据集中使用单个向量场会导致变形量非常小。由于各种物体的姿态不同，其向量会指向各个方向，降低了其效果。为了解决这个问题，并允许相邻向量之间有更大的对齐度，我们首先根据物体与传感器之间的相对方向将数据集中的所有物体进行聚类，然后学习 G个不同的向量场，每个聚类一个。03.3. 对抗性数据增强0在训练物体检测器时，我们使用对抗性学习的向量场作为数据增强来扰动输入点云。这增加了鲁棒性，因为学习到的变形在结构上是一致的，因此比标准的增强方法（例如缩放、翻转、旋转）更能够模拟不同国家的汽车形状，例如来自不同国家的车辆。我们通过学习 N个不同的向量场来增加变异性，每个旋转 G 个（第 3.2节）。在训练过程中，我们随机选择场景中的一个物体，并使用相对旋转的 N个可能向量场中的一个随机选择来对其进行变形。172990变异性确保模型学习正常和变形的对象，并且每个样本在训练过程中可以以不同的方式变形，从而防止过拟合到特定的变形。04. 实验和结果04.1. 实验设置0数据集我们在四个不同的数据集上进行了实验。其中三个是基于自动驾驶激光雷达的：KITTI[13]、Waymo开放数据集[33]和我们提出的合成CrashD，我们将在下面介绍。此外，我们还在室内SUNRGB-D数据集[30]上应用了我们的方法，展示了其广泛的适用性。KITTI是德国的一个流行的3D物体检测基准。我们采用了一个标准的划分[18]，其中包括3712个训练和3769个验证激光雷达点云，我们使用了汽车类别，并报告了标准的easy、moderate和hard。我们在KITTI上评估了在没有任何微调的情况下训练的模型在Waymo和我们的CrashD上的泛化能力，这对于自动驾驶来说尤为重要。Waymo数据集是在美国各地记录的具有挑战性的大规模真实场景集合。它具有不同的天气和照明条件，如雨天和夜晚。此外，在补充材料中，我们还展示了我们的技术在时间飞行（ToF）相机上的广泛适用性，使用了SUNRGB-D数据集。CrashD数据集为了量化在域外样本上的泛化能力，我们制作了一个名为CrashD的合成数据集。由于包括正常、旧、运动和损坏等各种类型的汽车，它包含了各种合理的车辆形状，因此可以作为有价值的域外测试。具体而言，碰撞是使用逼真的模拟器[21]单独生成的，并根据强度（即轻度、中度、重度）以及损坏类型（即清洁（即未损坏）、线性（即前后）和T型（即侧面）进行区分。通过一个配置成模仿KITTI的64束激光雷达捕获了随机自动生成的15340个场景。每个场景呈现1到5辆车，可见损坏，在修复并放置在相同位置以收集清洁集之前。总共有46936辆车。我们将这些数据公开发布，作为在KITTI[13]、Waymo[33]或类似数据集上训练的模型的域外评估基准。更多细节可以在补充材料中找到。评估指标我们使用标准的AP评估物体检测性能，对于KITTI和CrashD，使用3DIoU阈值为0.7，对于Waymo，使用0.5，对于SUNRGB-D，使用标准的0.25。为了衡量对抗性扰动的质量，我们遵循Tu等人的方法[35]。0攻击成功率（ASR）指标。它衡量了经过对抗性改变后成为假阴性的物体的百分比。对于ASR，我们认为如果物体的3DIoU大于0.7，则检测到该物体。网络架构我们使用了四种不同的3D物体检测器。PointPillars [ 18]从鸟瞰图中将场景垂直分列（即柱子），使用PointNet进行特征提取。Second [ 42]对点云进行体素化，并使用学习的体素特征编码。Part-A 2Net [ 28]是PointRCNN的扩展，用于预测改进准确性的物体内部部位位置。VoteNet [ 25]（补充材料）基于PointNet++和Hough投票。前三个主要用于自动驾驶，VoteNet用于室内。实现细节我们在 B o中构建了每个矢量场，其中 w = 1 . 8 m，h = 1 . 6 m，l =4 . 6 m，步长为 t = 20cm，每个矢量场有1656个矢量。如果没有另外说明，我们将对象按照相对旋转分为 G = 12 组，并设置 N =6。在扰动阶段，我们根据其 k = 2个最近矢量移动点，并仅沿着传感器光线进行变形。对于PGD优化，我们使用学习率为0.05的Adam。距离阈值设置为ϵ = 30cm。每个矢量都是从均匀分布中随机初始化的，取值范围为-1cm到1cm。我们使用PyTorch和MMDetection3D [10 ]在单个NVIDIA Tesla V100 32GBGPU上训练了所有模型。之前的工作和基线我们专注于目标检测，并与其他对抗性方法进行比较。除非另有说明，否则所有模型都应用于PointPillars [ 18]。作为点扰动方法，我们使用了迭代梯度 L2 [ 40]和Chamfer攻击 [ 19 ]。对于生成，我们使用了 [ 40 ]添加了10％和 [ 43 ]去除了10％的物体点。为了公平比较，我们在相同的KITTI数据集拆分 [ 18 ]上训练了所有模型， ϵ = 30cm，然后我们使用相同的设置改变了点云作为数据增强（即，随机选择一个场景中的一个物体进行增强）。此外，我们将我们的方法与 [ 39 ]的领域自适应统计归一化（SN）策略相结合。根据 [ 39]，在目标数据集（即Waymo和CrashD）中计算平均框尺寸后，我们相应地缩放了源（即KITTI）点云，并使用这些改变的目标感知源数据对训练模型进行微调。04.2. 定量结果0对抗方法和泛化表 10在泛化的背景下，我们的3D-VField与其他对抗性方法（如迭代梯度 L2 [ 40 ]和Chamfer攻击 [ 19 ]，对抗生成 [ 40]以及对抗去除 [ 43 ]）在PointPillars [ 18]上的应用进行了比较。KITTIWaymoCrashDPointPill. [18]PointPillars [18]88.2477.1174.55-40.8665.2043.6734.1422.48173000AP AP 正常 AP 罕见架构方法简单模型困难 ASR AP 清晰碰撞清晰碰撞0无增强 [ 18 ] 70.00 61.88 56.23 - 30.68 1.79 0.93 3.92 2.330无目标采样 [ 18 ] 83.83 74.14 68.30 - 37.85 50.36 36.44 28.70 20.020迭代梯度 L2 [ 40 ] 86.24 76.92 73.84 � 95.9 39.86 58.65 41.86 35.92 23.690Chamfer攻击 [ 19 ] 87.15 77.05 74.07 � 99.8 40.54 56.84 39.56 36.29 24.730对抗生成 [ 40 ] 86.12 76.39 73.18 � 91.6 40.55 57.75 38.03 35.73 24.180对抗去除 [ 43 ] 86.51 76.85 74.04 � 86.1 40.32 66.52 48.88 41.42 28.1003D-VField [我们的] 87.05 77.13 75.55 63.4 44.61 67.95 52.87 43.40 30.370SN dom. adapt. [39] - - - - 49.27 79.42 72.59 60.53 48.230[我们的] + SN [39] - - - - 51.32 92.14 87.28 86.26 76.420Second [42] Second [42] 88.93 78.68 76.87 - 42.45 72.73 56.74 41.85 32.8403D-VField [我们的] 88.87 78.56 76.81 54.9 43.51 76.54 60.51 47.47 36.140Part-A 2 [28] Part-A 2 [28] 89.60 79.16 78.52 - 49.76 83.05 63.25 74.03 52.3303D-VField [我们的] 89.65 79.26 78.62 50.5 56.08 88.80 73.80 81.10 61.340表1. 在没有任何微调的情况下，对在KITTI[13]上训练的模型进行与域外数据的比较，即Waymo验证集[33]和我们的CrashD数据集，以及在KITTI验证集上的比较。每种方法都应用了数据增强（对于对抗性方法，ASR是在其对抗性示例上测量的），或进行域适应（仅在本文中的SN[39]），并报告了APs。→：从KITTI转移。�：由于是样本特定的，对抗性方法必须在KITTI的验证集上进行训练。0与我们的3D-VField的对抗性示例相比，与PointPillars相比并没有降低整体领域内的AP，但在域外泛化方面带来了许多好处。正如Wang等人[39]所示，从KITTI到Waymo的转移特别具有挑战性，因为德国和美国的车辆形状和大小不同，而且点密度高出50％，视野更窄[33]。这个测试评估了生成的变形与在不同国家发现的真实车辆形状的质量。在Waymo上，我们的3D-VField相对于PointPillars和其他对抗性方法以及Part-A2[28]提供了超过9％的相对改进，证明了我们的传感器感知在真实且具有挑战性的域外数据上的好处。在表1的右侧，我们报告了在提出的CrashD上的结果。可以看出，尽管从KITTI转移，对于所有方法来说，对于正常的普通汽车，AP相对较高，可能是因为这些样本并不特别困难。然而，当损坏这些完全相同的车辆并将它们放置在相同的位置（碰撞）时，检测性能下降。这表明方法将这些车辆与在KITTI上学习的车辆相关联所需的努力，并将它们证明为自然的对抗性示例。类似地，对于罕见的车辆（即旧车和跑车），AP下降得更多，量化了从正常车辆到罕见车辆的域转移。罕见的碰撞车辆通过结合两个域外方面（即罕见和损坏）0对于所有方法来说，这些都是最困难的，将AP从正常清洁降低了三分之二（PointPillars）。然而，我们的方法在所有转移和类别上都显著改进了检测器和其他对抗性方法。这可以归因于我们的对抗性增强在训练数据中引入了多样性，同时具有传感器感知性。特别是，传感器感知性确保了变形的点云仍然是合理的，从而更好地类似于可能的域外样本，例如Waymo和CrashD。在其他对抗性方法中，只有去除点[43]改善了对CrashD的泛化能力，可能是因为它保留了整体点云。然而，[43]在Waymo上没有好处，因为Waymo具有更密集的点云和更具挑战性的真实场景。0与数据增强相结合作为对抗性数据增强，我们的3D-VField并不是替代其他增强策略的选择，而是可以与其他策略结合使用。在表1中，我们展示了常见的数据增强技术对PointPillars[18]检测结果的影响。不使用增强（无增强）严重降低了APs，特别是在IoU 0.7的CrashD上（表1）。在IoU0.5时，这导致正常清洁的AP为65.59，而基线[18]提供了98.91。引入标准增强（无对象采样，例如翻转和旋转）有所改善，但添加流行的对象采样[18]（PointPillars）进一步提高了APs。此外，我们的增强方法173010# G K. ASR ↑ K. mod. → Waymo # vectors01 55.08 77.32 40.43 10K 12 63.37 77.13 44.61120K 360 44.84 77.06 40.30 3.6M0表2.我们的3D-VField在KITTI（K.）上训练，使用不同数量的相对旋转G。→：转移无微调。0实验结果显示，我们的方法显著改善了所有转移任务的性能，而不会降低领域内的性能。与域自适应方法[39]不同，我们的方法不使用任何目标信息来解决域泛化问题。然而，类似于其他数据增强策略，我们的3D-VField可以与域自适应技术相结合。如表1所示，这种组合进一步提升了在具有挑战性的域外数据上的性能。通过通过统计归一化（SN）[39]来改变物体的尺寸，Waymo数据集上的AP得到了提高。当与SN相结合时，由于大量的误报和漏报，我们相对于使用SN的PointPillars保持了超过2%的优势。此外，对于CrashD数据集，特别是最难的稀有碰撞组，AP显著提高。结果显示，尽管相对于PointPillars[18]，AP大幅增加，但仅使用SN并没有达到检测器的全部潜力。只有当与我们的方法相结合时，AP才能在normalcrash组上翻倍，并在rarecrash组上增加三倍以上，而不使用任何额外的目标信息。这显示了这种组合的好处，并再次强调了通过数据增强引入对抗性变形物体来提高对域外样本的泛化能力的附加价值。对抗性方法作为攻击就ASR而言（表1），我们的方法不如其他对抗性方法（即迭代梯度L2[40]，Chamfer攻击[19]，对抗性生成[40]和去除[43]）强大。然而，这是可以预期的，因为我们的向量场是独立于样本的，而它们的点对点变形是样本特定的。由于这个原因，它们的变形必须直接在KITTI验证集上进行学习，ASR也是在该验证集上进行测量的。然而，非常高的ASR意味着变形后的物体是无法识别的，这并不有助于泛化。我们的方法的目标不是使检测器完全错过被攻击的物体（高ASR），而是通过变形来改善对域外数据的性能。为了实现这个目标，扰动的物体需要同时具有足够的变化以增加训练数据的多样性，并且不会与训练分布相差太远以避免混淆检测器。我们通过学习我们的向量场找到了这种平衡。0KITTI → W. → CrashD 方法 mod. ASR n.,cleanr.,crash0P.P. [18] 77.11 - 40.86 65.20 22.48 未学习 76.3610.1 41.62 62.94 21.75 解锁 76.82 97.7 40.95 60.4327.55 光线条件 76.35 59.5 41.03 59.82 29.16 完整77.13 63.4 44.61 67.95 30.370表3.我们的方法对变形约束的消融实验，与PointPillars（P.P.）[18]进行比较。在KITTI上训练。→：转移无微调；W.：Waymo。0通过我们添加的约束条件，对物体形状和传感器真实性进行对抗性保留。在表1中，我们还比较了我们的3D-VField与不同的3D目标检测器（即PointPillars [18]，Second[42]和Part-A2[28]）配对时的性能。值得注意的是，使用提出的对抗性增强技术显著提高了Part-A2在Waymo数据集上的AP。Part-A2相对于其他检测器的优势可以归因于其对部件的感知[28]，这可能使其关注最相关的物体部件（例如车轮）及其与识别域外设置中的汽车的关系。对于Second[42]，尽管使用相同的设置和框架，其在KITTI数据集上的性能低于[10]中报告的性能。这种降低的AP影响了基线[42]和我们的方法。然而，添加我们的对抗性变形显著提高了这三个检测器对域外数据的泛化能力，尽管我们的向量场仅针对PointPillars进行训练。这表明了我们技术的广泛适用性和可转移性。特异性-泛化权衡表2显示，通过改变相对旋转量G的数量，可以在泛化、攻击特异性（即对训练数据过拟合的样本的强度）和存储（即向量数量）之间进行权衡。G=12提供了一个良好的平衡。当G=# ofobjects时，我们的方法将变得样本特定，继承了[19,43]的较弱泛化能力。尽管这些方法需要在验证集上进行训练，从而实现较高的ASR（表1），但我们的向量是在训练集上学习的。因此，当G较高时，我们的方法在训练数据上过拟合，这在验证集上进行评估时是可见的。我们的增强策略仅学习了1656个用于扰动物体的3D向量。然而，通过使用G=12和N=6进行训练，向量的数量增加到了120K。相比之下，样本特定的迭代梯度L2 [40]和Chamfer[19]攻击分别需要1090万和1260万个向量进行训练和验证。这表明了我们的3D-VField的易用性。Waymo→KITTICrashD→173020域外样本 / GT 3D-VField [我们的]0基准：PointPillars w/迭代梯度L2对抗增强0图4. 对来自提出的CrashD（顶部）和Waymo [33]（底部）的具有挑战性的域外样本的预测。基于在KITTI上训练的PointPillars[18]模型（未进行微调）。迭代梯度L2 [40]和我们的方法通过对抗性增强进行训练。0消融研究中的变形约束由于我们引入了传感器感知和表面平滑约束到我们的变形中，我们研究了它们对于泛化到域外数据的影响。在表3中，当将变形限制为ϵ = 30cm时，我们报告了这种比较。可以看出，不学习扰动，但应用所有的约束（无学习）已经是一种有益的增强技术，因为它改善了对Waymo的转移。相反，去除所有约束，但学习矢量场（解放）会导致强ASR达到97.7%。这显著提高了CrashD罕见汽车的AP。当使用传感器感知（射线约束）进行变形时，ASR减少，但在最困难的转移设置（即罕见碰撞）上的AP得到了改善。我们的完整模型3D-VField添加了距离平滑（第3.2节），提供了更优越的转移能力。此外，将最大变形ϵ增加到40或60cm，将ASR提高到73.3%和87.1%，但增强会分别使KITTI的AP降低1%和1.7%。这意味着更高的变形不具有很好的泛化性，因为它们的可信度降低，而30cm提供了一个很好的折衷方案。04.3. 定性结果0在图4中，我们比较了从KITTI到CrashD和Waymo[33]的标准Point-Pillars[18]的转移预测，使用了我们的方法和迭代梯度L2对抗方法[40]进行增强，后者在对抗性变形方面与我们最接近（第2节）。对于CrashD，如第4.2节的定量结果所示，迭代梯度L2方法相比不使用任何对抗性增强[18]提供了更好的检测效果，但我们的3D-VField效果更好，对于左侧的损坏汽车，其边界框更加对齐。该图还显示了CrashD中存在的严重损坏情况，以及对抗性增强如何帮助检测这些具有挑战性的样本。对于困难的转移KITTI→Waymo（第4.2节），可以看到所有方法都难以检测到停车场左侧点数较少的汽车。此外，Point-Pillars [18]忽略了3辆可识别的汽车，数量较多0点的数量，而使用迭代梯度L2进行增强导致2个点缺失和2个额外点的检测，尽管边界框对齐不准确。相反，尽管缺失了更多的点，我们的方法能够识别这些可见的汽车。0Chamfer攻击 3D-VField [我们的] 原始点云0图5.我们的方法和Chamfer攻击[19]在KITTI验证集[13]上对一辆汽车进行的示例变形。0图5证实了Chamfer攻击[19]在表1中所示的强ASR对应于无法识别的物体。它还提供了我们的对抗性矢量场引入的轻微变形的示例。通过保持汽车的整体形状和表面，我们的方法可以更好地泛化到未见过的数据。有关室内环境、可迁移性、噪声鲁棒性、CrashD的详细评估以及关于分组和聚合策略、训练过程中变形对象数量的各种消融研究，请参阅补充材料。05. 结论0在本文中，我们提出了3D-VField：一种用于点云的对抗性增强方法，以提高在自然对抗性示例和域外数据（如罕见的、损坏的汽车或来自不同地区的车辆）上的物体检测性能。为此，3D-VField生成了可信的形状，用作数据增强。广泛的实验证明了所提方法的高泛化性和可迁移性，从室内到室外环境，在真实数据和合成数据上都表现出色。此外，我们提出并发布了CrashD：一个新的基准，用于挑战域外数据上的3D物体检测器，包括各种损坏和罕见的汽车。173030参考文献0[1] Rima Alaifari, Giovanni S. Alberti, and Tandri Gauksson.ADef: 一种构建对抗性变形的迭代算法.在国际学习表示会议论文集中，2019年. 2, 30[2] Isabela Albuquerque, Nikhil Naik, Junnan Li, NitishKeskar, and Richard Socher.通过多任务自监督预训练改善超出分布的泛化能力.arXiv预印本arXiv:2003.13525，2020年. 20[3] Yogesh Balaji, Swami Sankaranarayanan, and Rama Chel-lappa. Metareg: 利用元正则化实现领域泛化.在神经信息处理系统进展中，第31卷，页码998-1008，2018年.20[4] Sara Beery, Yang Liu, Dan Morris, Jim Piavis, AshishKapoor, Neel Joshi, Markus Meister, and Pietro Perona.合成示例改善罕见类别的泛化能力.在IEEE/CVF冬季计算机视觉应用会议论文集中，页码863-873，2020年. 1, 20[5] Daniel Bogdoll, Jasmin Breitenstein, Florian Heidecker,Maarten Bieshaar, Bernhard Sick, Tim Fingscheidt, andMarius Zollner. 自动驾驶中的边缘案例描述：目标和挑战.在IEEE/CVF国际计算机视觉研讨会论文集中，页码1023-1028，2021年. 10[6] Yulong Cao, Ningfei Wang, Chaowei Xiao, Dawei Yang,Jin Fang, Ruigang Yang, Qi Alfred Chen, Mingyan L

下载后可阅读完整内容，剩余1页未读，立即下载