旋转等变三维物体检测网络（EON）：实现对象级旋转等方差的改进

79 浏览量更新于2023-10-25 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1456旋转等变三维物体检测于红星斯坦福大学斯坦福大学李逸清华大学上海启智研究院摘要旋转等方差最近已成为3D深度学习社区中强烈期望的属性然而，大多数现有的方法都集中在关于全局输入旋转的等方差上，而忽略了旋转对称性具有其自身的空间支持的事实。具体来说，我们考虑在3D场景中的对象检测问题，其中对象边界框应该是等变的对象姿态，独立于场景运动。这表明了一个新的期望属性，我们称之为对象级旋转等方差。为了将对象级旋转等变合并到3D对象检测器中，我们需要一种机制来提取具有局部对象级空间支持的等变特征，同时能够对跨对象上下文信息进行建模。为此，我们提出了等变对象检测网络（EON）与旋转等方差悬浮设计，以实现对象级等方差。EON可以应用于现代点云对象检测器，如VoteNet和PointR-CNN，使它们能够在场景规模输入中利用对象旋转对称性。我们在室内场景和自动驾驶数据集上的实验表明，通过将我们的EON设计插入到现有的最先进的3D物体检测器中，可以获得显着的改进。项目网址：https://kovenyu.com/EON/。1. 介绍3D物体检测是各种下游应用（包括增强现实、机器人和自动驾驶）中的基本问题。在设计3D物体检测网络方面的研究工作已经显示出对于室内[17，27]和室外场景[21，29]的巨大有效性然而，现有的3D对象检测器不能在其设计中显式地处理对象旋转等方差三维检测中的物体旋转等变性在形状的旋转不变性和方向的等变性中得到了很好的体现例如，无论对象在输入场景中如何定向，与对象相关联的检测结果（通常表示为定向的边界框）应当以相同的方式定向，同时保持相同的形状。显式输入点云无等方差对象级等方差图1.目标检测中的旋转对称性包括包围盒的等方向性和不变形状。对象级旋转等变检测器显式地对这些强先验进行建模，并内在地生成定向边界框以跟随对象旋转，同时保持相同的框形状。然而，非等变检测器可能遭受盒形状变化和盒取向的未对准变化。对这些强先验的建模节省了对昂贵的数据扩充的需要，并且可以增加检测模型的表达性和辨别能力，而不会大量增加参数的数量和引入额外的优化挑战。最近的趋势是通过等变网络[4，25，26]（EN）明确利用旋转等变。其主要思想是通过设计使等变几何特征分别携带形状信息和方向信息。旋转等变网络已经被探索用于对象分类和姿态估计[2，7，13]，但尚未用于3D对象检测。一个主要的挑战是，现有的EN主要探讨旋转等方差关于完整的视觉输入，而等方差旋转的整个场景是不理想的对象检测，因为个别对象的方向可以是独立的场景。因此，目前还不清楚如何实现对象级旋转等方差，以及如何在杂乱场景中有益于3D对象检测。我们确定了两个关键的技术挑战，对对象级的等变模型设计：如何确定对象级的空间支持，以提取局部等变特征，以及如何聚合上下文信息。更大的骗局-1457文本（例如附近的对象）有助于识别对象，特别是在有噪声或不完整的原始点云中。然而，如果处理不当，上下文信息很容易破坏例如，当检测到椅子时，由于高的同现概率，附近桌子的存在可以提供有用的上下文。然而，如果椅子保持静止而桌子改变其方向，则椅子特征也可能受到意外影响。我们提出了等变对象检测网络（EON），以利用对象级的等方差进行3D检测。我们的核心设计叫做旋转等方差悬架。为了正确地确定对象级空间支持，我们让我们的模型只提取中间阶段的等变特征。这是基于大多数3D检测网络以分层方式提取特征的观察结果[14，17，21]，其中早期阶段关注局部特征，而后期阶段覆盖更多的上下文级别信息。计算等变特征仅在中间阶段产生对旋转等变的局部空间支持，并且模型可以自适应地学习以调整其有效空间支持[15]。为了允许聚合上下文信息，我们通过将每个等价特征分解为对象方向假设（方向信息）和不变的对象框架特征（形状信息），在先前的中间阶段暂停我们的模型在后期阶段不断聚合对象框架由于只有对象框架特征（即，没有对象定向信息）在中间阶段之后被聚集，可以在不破坏对象级等方差的情况下对更大的上下文进行建模我们的方法遵循大多数自下而上检测器采用的模块化设计，因此可以轻松插入最先进的3D物体检测器。我们已经使用各种骨干和模型在室内和室外3D对象检测基准上测试了我们的方法。我们发现EON显著提升了先前最先进的3D对象检测器的性能（ScanNetV 2上为+9.0 mAP，SUN RGB-D上为+3.1 mAP，KITTI数据集上为+1.4 mAP）。总之，我们的贡献有三个方面：• 据我们所知，这是第一个探索3D物体检测的旋转等方差的工作• 我们提出了等变目标检测网络（EON），结合了一种新的设计称为旋转等变悬浮，利用对象级等变，在3D检测。我们的EON可以很容易地插入到最先进的自下而上的3D物体探测器中。• 在室内和室外数据集上，我们通过提高以前最先进的3D检测器的2. 相关工作3D物体检测。3D对象检测的大多数当前最先进的方法直接将3D数据（例如点云、激光雷达和来自它们的体素化网格）作为输入，并生成3D定向边界框（OBB）以表示对象[11，16，17，20它们中的大多数遵循自下而上的设计，其中骨干网络从密集的输入数据中提取稀疏的区域特征集，并且检测头提出候选OBB（一阶段）或感兴趣区域（两阶段）用于进一步细化。半成品包括VoteNet [17]及其后续产品。VoteNet的主干设计包括两个PointNet++，中间有一个投票，以帮助聚合对象表面点。H3DNet [30]使用3D模型和几何损失改进了VoteNet预测MLCVNet [27]还允许VoteNet通过自我关注来聚合全局上下文信息另一种方法直接受到2D自下而上检测器的启发，例如PointRCNN [21]，Voxel-Net[31]，PointPillar [11]和CenterPoint [29]。然而，这些现有的方法没有明确地利用对象旋转等方差在其模型中。我们的方法是基于这种流行的自下而上的模块化设计，我们专注于装备这些国家的最先进的检测模型与对象级的等方差。旋转等方差网络。从Group Equivariant ConvolutionalNetwork [4]的开创性工作中，利用组等变性进行深度网络变得越来越受欢迎。现有的旋转等方差方法可以大致分为两类：基于滤波器轨道和基于滤波器从群等变卷积[3，4]中推导出，基于滤波器轨道的方法将旋转群离散化，并为群等变计算构建一组群变换核（基于滤波器设计的方法本质上设计旋转等变基函数（例如，广义傅立叶基函数[5，25]），并用这些基函数组成它们的网络[5，7，8，25]。我们的方法受到基于滤波器轨道的等变点网络[2]（EPN）的启发，EPN引入了对点云上SE（3）群等变卷积的易于处理的近似。然而，EPN专注于单对象任务，并实现关于完整视觉内容的等变性。我们的目标是物体级的等方差的场景中的3D检测。最近，有一些作品试图利用旋转等方差进行空间图像检测[10，28]。虽然他们专注于2D图像，我们的目标是3D对象级的等变检测。3. 初步为了计算旋转等变特征，我们的方法从最近最先进的等变网络，等变点网络（EPN）[2]中找到灵感，该网络是为单个对象设计的。我们简要回顾EPN，并提供1458EQVEQV对等方差性的直观解释EPN实现旋转等变的关键思想是将每个点的特征向量f ∈ RC扩充为等变特征feqv∈ RC×|G|w.r.t. 一个离散SO（3）子群G.等变特征中的每个向量元素feqv（g）∈RC通过将f旋转g−1∈G来计算，然后将其传递到计算层。我们可以证实这种旋转--计算操作确实生成与任何g∈G等变的feqv。直观地说，这意味着，如果输入旋转了某个g0∈G，则其等变特征feqv将经历循环移位而不改变任何值，变为f′，使得f′（g′）=feqv（g），其中g′和g满足g′=g0<$g。换句话说，将输入x∈R3旋转g0会导致定义在等变特征上的在这种情况下，“旋转”被定义为移位）。对于正式的表达和严格的推导，我们建议读者陈等人。[2]的文件。*这样的等方差网络提取非常有表现力的equivariant功能的输入旋转。然而，由于等方差设计是关于整个输入点云而没有空间尺度概念，因此EPN在消费3D场景时无法处理对象级等方差。受EPN的启发，我们通过这种特征增强策略（有时称为特征轨道或过滤器轨道）实现旋转等方差。然而，与EPN相比，我们的方法允许在全场景规模输入中学习对象级等变特征以进行检测。4. 等变目标检测网络我们的目标是在3D检测器中显式地消除对象旋转等效性，以增加网络的表现力和辨别力。我们的目标是模块化设计，使我们能够直接为最先进的3D检测模型配备对象级旋转等方差。我们将我们的方法基于流行的自下而上的检测器设计，这些设计已被许多最先进的点云对象检测器采用，例如VoteNet [17]，Point-Pillar [11]，PointRCNN[21]和CenterPoint [29]。这些方法通常包括三个模块：种子特征提取，其中主干将点云处理成一组密集的特征，总结空间区域的区域上下文聚合（如投票聚类[17]，地图视图卷积[11，29]和RoI池[21]）以产生一组稀疏的特征，以及OBB（定向边界框）生成，从每个区域特征中提出候选。我们在图2的顶部显示了一个插图。我们调整这些模块的对象级等方差。*我们实际上对任何平移等变骨干网络采用了EPN的广义版本，包括卷积骨干，如KPConv [24]和MLP骨干，如PointNet++ [19]。虽然EPN公式是从连续卷积推导出来的，但它的离散化实现也有一个等价的公式。也就是说，旋转过滤器等效于反向旋转输入点云。在我们的设计中有两个关键挑战。第一个问题是如何确定一个适当的局部空间支持度，以便将旋转等方差限制在对象级别。第二个是如何在不破坏对象级等变性的情况下聚合上下文我们提出了等变目标检测网络（EON），它结合了我们的旋转等方差悬浮机制，以解决这两个挑战。我们在图2的底部显示了EON的示意图。4.1. 概述我们的主要思想是，我们让我们的模型计算equivariant功能的中间阶段，预计将与对象级的功能。在这个中间阶段之后，我们仅聚合上下文几何信息，因为上下文方向可以打破对象级旋转等同性。为此，我们将等变特征分解为对象框架中的方向假设和不变特征以下上下文聚合将仅发生在不变几何特征上（即，等方差“悬置”）。然后，我们从聚合的不变特征生成OBB建议，因此OBB建议也表示在局部对象帧而不是全局场景帧中。最后，我们使用对象特征定向（即，参见图2底部的说明。人们可以在概念上验证理想情况下的对象级当对象在静态场景中旋转时，关联的对象级特征方向以相同的方式改变，而对象框架特征保持不变。因此，对象帧OBB建议对于旋转是不变的，并且因此场景帧OBB在与对象等变地旋转时不请注意，这种等变设计不仅有利于等变检测结果，更重要的是允许学习更好的几何对象特征[2，4，7]。我们将我们的想法建立在自底向上的检测器设计上（图2）。种子特征提取EON提取等变种子特征，并在大规模上下文信息交换的区域聚集阶段之前暂停等变。由于这种暂停发生在中间阶段，因此深度检测网络可以自适应地调整有效的空间支持[15]。区域上下文聚合。为了对上下文进行建模，EON通过预测方向和提取对象帧种子特征来分解每个等变种子特征。理想地，对象帧种子特征应该对对象姿态是不变的，因此，只有对象帧种子特征被馈送到区域聚合模块中，以捕获有用的上下文信息，例如对象的同现。OBB生成。最后，对象级等变OBB1459′′GG输入种子特征提取自下而上的3D探测器区域上下文聚合例如：投票、地图视图转换、RoI池等。种子特征区域特征定向包围盒一代输出等变目标检测网络（EON）等变种子特征提取区域上下文聚合例如：投票，地图视图转换，对象框架ROI池化等种子特征对象框架区域特征等变OBB一代输入等变种子特征（待分解）保持方向输出方向区域取向图2.我们的技术方法概述顶部：我们的方法基于流行的自下而上的检测器设计，包括三个模块（即，种子特征提取、区域聚集和OBB生成）。底部：（等变种子特征提取）在我们的模块化设计中，我们将等变计算保持到期望捕获对象级信息的种子特征。（分解区域上下文聚合）为了保持对象级等变，我们将等变种子特征分解为方向假设和对象帧不变特征。我们聚合不变的几何特征，但不聚合方向（它们是“悬浮的”）。（等变OBB生成）我们从区域特征生成对象帧OBB，并恢复它们的方向假设以将它们旋转回场景帧。生成模块恢复定向信息。它在对象帧中生成建议，并使用预测的方向将建议转换回场景帧在下文中，我们将详细介绍EON4.2. 等变种子特征提取EON提取等变种子特征，并期望它们捕获对象级信息。在下文中，为了使符号简洁，我们关注单个层的单点输出。将它们扩展到完整的点云和整个网络非常简单。G iv enalayern：RN×C′→RC，它将一些输入点特征X∈RN×C′映射到一个点特征f∈RC（例如KPConv [24]或PointNet [18] ），其等变计算将 Xeqv∈RN×C×|G| 到feqv=<$（Xeqv）∈RC×|G|定义为：feqv（g）=f（Xeqv（g））∈RC，g∈G，（1）其中G是SO（3）的离散子群。比如说，如果仅考虑沿单个轴的旋转，即，SO（2），离散化可以是{0，π/2，π，3π/2}。和X方程∈ RN×C×|G|表示输入等变要素并且输入点的数量N可以变化。对于第一层，其中输入X∈RN×C′是非等变点，我们将其预扩充为Xeqv，使得Xeqv（g）=T−1[X]，其中T−1表示g的逆旋转。我们遵循EPN [2]，在|G|通道的每一层，以进一步增加表现力。我们的配方允许对大多数检测主干进行直接替换。该等变计算是针对骨干种子特征提取网络执行的对象感知的等变特征分解。我们期望等变种子特征提取模块捕获对象级几何特征。因此，我们在此模块之后暂停等变特征计算，让深度网络自适应地学习适当的有效感受野[15]。为了暂停等变，我们将每个等变特征feqv分解为在对象框架finv中表示的不变特征，以及对象框架w.r.t.场景框架。然而，尽管对象框架和方向对于前景对象是很好定义的因此，我们提出了对象感知的特征轨道分解，区分前景和背景点。具体来说，我们将前景点定义为内部点1460OBB，所有其他点作为背景点。为了预测种子点的对象性，我们可以联合训练附接到种子特征的分割头然后，我们的对象感知特征分解产生对象框架特征：.feqv（g）∈RC，如果它是对e-基的选择.对于没有显著模式的区域，建议可能是低质量的并被过滤掉，或者根本不与任何目标相关联因此，它们对结果的负面影响很小。4.4. 等变OBB生成给定对象框架区域特征及其方向，inv=maxpool（{fEQV（g）}g∈G）∈RC，否则（二）我们的对象级等变OBB生成模块在场景帧中产生OBB。这分为两个步骤。首先，我们使用其中，g表示通过定向的预测的定向g在头 H 上的状态分类 i ， g_i=argmaxgH （ feqv（g）），maxpool表示在所有g∈G上的最大池化。请注意，我们滥用术语背景点。使用softmax分类损失联合训练预测头H我们通过将每个地面实况OBB的定向角度离散为|G|bin，然后将bin标签分配给OBB内的所有点。用于背景点，方向是未定义的，我们在向前传递的其余部分忽略它们。4.3.分解区域上下文聚合在最先进的3D检测器中，上下文聚合模块总结了大空间体积内的特征，允许随后的OBB生成提取有用的上下文信息。示例包括VoteNet [17]中的投票聚类，PointRCNN [21] 中的 RoI 池，以及 CenterPoint [29] 和PointPillar [11]中的Map- view卷积。在我们的区域上下文聚合模块中，我们的目标不仅是聚合上下文几何信息，但也保持对象级的等变性。因此，我们有两个技术目标。第一个目标是为一组稀疏的区域聚集不变的种子特征我们使用检测器中的原始对于每个区域，它将区域内的种子特征作为输入，并输出对象帧不变的区域特征。第二个目标是保留区域的感兴趣对象的取向，并过滤掉上下文取向。理想情况下，区域中的感兴趣对象是根据分配给区域中心点的建议标签定义的，例如PointRCNN [21]和CenterPoint [29]中使用的目标分配方法。在这种情况下，输出的感兴趣对象取向h是在区域的中心点处的预测i。然而，对于使用基于IoU阈值的目标分配的检测器，区域的感兴趣对象不是自然定义的，因为来自区域的提议与附近的地面实况OBB动态关联。在这种情况下，我们在区域中取模式方向。这个想法是如果该区域中的大多数前景点来自同一对象，则建议很可能也主要针对该对象。因此，我们可以通过一个模式来原始模块然后，我们使用区域方向将OBB变换回场景帧具体地说，给定中心（或角点）cinv∈R3和方向θinv，我们通过用θ=θi n v−h替换方向，用c = R−1cinv替换中心，将盒子转换为场景框架，其中R是h的旋转矩阵。5. 实验在本节中，我们将我们的EON设计应用于具有各种骨干的现代检测模型，并在几个室内和室外基准上显示5.1. 实验装置数据集。我们采用ScanNetV 2数据集[6]和SUN RGB-D数据集[23]进行室内3D检测。ScanNetV2提供了1513个室内扫描和语义分割标签。对于基准定向对象检测，我们使用来自Scan2CAD [1]的检测标签，该标签为CAD模型提供与扫描中的常见对象对齐的定向边界框我们报告了9个类别的性能，这些类别有200多个实例，并将所有其他类别的性能归入SUN RGB-D数据集包含约5 K RGB-D图像，其中包含37个对象类的amodal定向框。我们遵循与VoteNet相同的设置[17]，并报告SUN RGB-D的10个类的性能。对于室外3D检测，我们使用KITTI [9]进行评估，其中包含7481个训练样本和7518个测试样本。我们遵循KITTI的原始评估方案。实作详细数据。我们为三个3D检测器实现了我们的EON 设计，包括 VoteNet [17] 和 Liu 等人的基于Transformer 的最先进方法 [14] 对于室内场景，PointRCNN [21]对于室外场景。我们插入我们提出的模块来替换它们的原始模块，并将结果模型表示为EON-VoteNet，EON-Liu等人，EON-PointRCNN至于种子特征提取模块，所有三种方法最初都使用PointNet++ [19]作为其主干。为了证明我们的EON对不同主干的适用性，我们使用KPConv [24]作为VoteNet的主干。我们在补充中然后，我们替换原始的种子特征提取模块，如第2节所述四点二。到F1461为了预测每个等变种子特征的方向，我们使用两层MLP用于头部H。由于大多数物体都受到重力约束，我们只考虑一个自由度（即，yaw）在旋转组中。我们将其离散化为4个bin进行分类。为了预测前景分割，我们使用另一个两层MLP头进行二进制分类。VoteNet的区域聚合模块包括为每个种子点生成空间平移（“投票”）的投票阶段由于分组发生在场景帧中，因此我们将投票反向旋转到场景帧以进行分组。区域取向h由模式选择确定。 PointRCNN的区域聚合模块是一个RoI池，其中感兴趣的对象被很好地定义。其方向h使用生成RoI的种子点。对于所有其他设置，例如检测头，输入分辨率，预处理，超参数和训练配置，我们遵循作者提供的实现。我们也使用相同的设置为我们的EON进行公平的比较。5.2. 室内数据集对于室内场景的3D检测，我们将EON- VoteNet与ScanNetV 2和SUN RGB-D数据集上的VoteNet进行了比较ScanNetV2。对于ScanNetV2数据集，我们在表1中显示了验证集的比较结果。正如我们所看到的，EON显著优于vanilla方法，VoteNet的mAP提高了6.3%，基于Transformer的Liu等人的mAP提高了9.0%。[14]值得注意的是，对于从顶视图看“薄”的对象，例如显示器，性能增益特别显著我们认为一个主要原因是，对于这些ob-beth，准确的方向预测是至关重要的，因此对象级的等方差设计踢在帮助。对于像垃圾桶这样的小对象也获得了显著的提升（+17.9%/7.4%AP），这可能是由于对象级等方差带来的更准确的投票方向，从而更好地确定小对象SUN RGB-D。我们还验证了我们的EON在SUN RGB-D数据集上的有效性，其中与ScanNetV 2中的扫描相比，单视图导出的点云非常不完整。SUN RGB-D更困难，因为部分点云不仅对检测本身提出了挑战，而且对方向估计提出了挑战。我们在表2中显示了SUNRGB-D数据集的比较结果。我们得出了与ScanNetV2相同的观察结果，[2]VoteNet ： github.com/facebookresearch/votenet ，com-mit：2f6d6d3.Liu等人：https://github.com/zeliu98/Group-免费-3D，提交：ef 8b7 bb.Po in tR CNN ：github. com/open- mmlab/OpenPCDet，版本：0.3.0，提交：c9 d31 d3。在所有类别上的表现都优于VoteNet，尽管在方向预测方面存在困难，但mAP仍提高了3.1%同样，对于书架（+8.9%AP）和浴缸（+10.2%AP）等精简对象类别5.3. 户外数据集对于户外场景，我们通过为PointRCNN配备我们的模块设计（表示为EON-PointRCNN）来评估我们在KITTI 3D对象检测数据集上的EON。我们在表3中显示了KITTI验证集的比较。我们观察到，我们的EON-PointRCNN在汽车和行人的所有难度级别上都优于普通模型。性能提升在行人类别上最为显著，其中对于容易、中等和困难子集， AP 增益分别为 3.02% 、5.15%、2.90%我们推测，这可能是因为当对象方向具有较大变化时，对象级旋转等方差更有用，这是室内对象和室外场景中的行人的情况。因此，我们的EON设计在KITTI上的室内场景和行人上具有显著的性能增益。至于汽车和骑自行车的人，他们大多是轴对齐的，方向变化较小。因此，性能增益不太显著。请注意，EON-PointRCNN和EON-VoteNet采用不同的骨干网络（分别为PointNet++和KPConv）。室内/室外场景和不同型号的一致改进验证了我们的EON作为模块化设计的广泛适用性。5.4. 分析为了提供一些关于我们的EON如何帮助3D检测的见解，我们对Scan-NetV 2数据集进行了几次分析实验我们展示了关于使用类别级姿态估计、方向离散化、暂停与池化、对象旋转增强以及补充材料中的参数的时间和数量的进一步分析在哪里暂停等方差暂停。我们在EON中的核心设计是在区域聚集阶段暂停等变以提取对象级等变特征。我们通过在早期或后期阶段暂停等效性来评估我们在VoteNet上的设计，包括在倒数第二个骨干层（表示为“FullEON” keeps equivariant我们在表4中示出了结果。我们得出两个主要意见。首先，我们的EON与使用全场景级等效性相比非常有利。这表明旋转等方差对完整视觉内容在对象检测中没有多大帮助，因为当场景上下文的其余部分保持不变时，目标对象可以任意旋转第二，我们的设计暂停平等-1462异常取向杂乱的场景杂乱的场景大型薄物体大型薄物体中等大小的薄物体小物体小物体图3. ScanNetV2数据集上的定性结果。每一行描述了一个典型的情况，其中对象级等方差设计显示出有希望的改进。颜色信息不用于模型，而仅用于可视化。方法垃圾桶显示别人浴缸椅子内阁书架表沙发床地图[第17话]27.422.811.640.184.147.545.372.367.485.450.4EON-VoteNet（我们的）45.335.816.449.186.351.951.075.068.787.256.7Liu等人[14个]51.116.524.238.888.049.233.169.763.789.752.4EON-Liu等人（我们的）58.553.327.645.884.957.168.382.845.889.461.4表1.使用Scan2CAD检测标签的ScanNet V2验证集的性能（AP 25）比较。在区域聚合的变量计算产生最好的结果，支持我们的假设，输入区域聚合大致对应于对象级别。定性比较。我们在图3中展示了定性示例，以描述我们的EON显示出很大的效果。在图3的第一列第一行中，我们展示了我们的EON-VoteNet能够检测到具有不寻常方向的物体在所示的例子中，黑色的椅子是面对墙壁，这是罕见的。如果没有对象级等价物，GroundTruthVoteNetEON-VoteNet（我们GroundTruthVoteNetEON-VoteNet（我们1463方法床头柜厕所椅子浴缸梳妆台书桌表书架沙发床地图[第17话]58.489.974.568.834.626.148.522.365.984.957.4EON-VoteNet（我们的）60.091.675.979.035.427.249.631.268.186.760.5表2.在SUN RGB-D数据集上比较VoteNet与我们的EON设计业绩由AP25衡量。方法汽车（IoU=0.7）行人（IoU=0.5）骑自行车的人（IoU=0.5）表3.KITTI 3D检测确认集的结果AP的IoU阈值对于汽车分别为0.7，对于行人/骑自行车者分别为0.5。方法mAP@0.25mAP@0.5PreEON-VoteNetFullEON-VoteNet 52.7 26.9EON-VoteNet（我们的）56.7 36.5表4.评价在何处暂停Scan-NetV 2数据集上的等方差（带有Scan 2CAD检测标签）。从设计上看，VoteNet错过了这些椅子。尽管如此，配备EON，它成功地检测到一个非常不寻常的椅子面临。请注意，EON-VoteNet能够检测到一个书架，也是在一个不太常见的方向。在第二列中，我们展示了一个杂乱场景的结果，在这个场景中，许多类似的椅子挤在一起，它们之间的方向略有不同。虽然基线投票网可以检测到大多数椅子，但它们的形状是扭曲的。这可能部分是由于椅子实例之间的不同方向。相比之下，我们的 EON-VoteNet产生了一个几乎相同的形状在整个定向的椅子，显示出明确处理对象旋转对称的承诺在第三列中，我们展示了另一个杂乱的场景，6张类似的桌子紧挨着。同样，我们的EON-VoteNet能够检测到几乎相同形状的桌子，而VoteNet产生形状不同的盒子。在第四列和第二行的前两列中，我们展示了EON-VoteNet对VoteNet改进最显著的薄对象（包括显示器和书架）的检测这与我们在表1和表2中的定量观察结果一致。在第二行的最后两列中，我们展示了我们的EON-VoteNet在检测垃圾桶等小物体方面的鲁棒性甲骨文案例探索。为了探索我们的EON可以在多大程度上潜在地改进基线方法，我们在表5中展示了一个Oracle案例探索。在Oracle模型中，我们在训练和测试中使用地面实况方向标签（离散化为4个bin）和前景分割该预言模型显示， AP25 和 AP50 的基线 VoteNet 有+19.4%/+18.7%的大幅改善。当仅使用地面实况定向标签或分割时，性能提升也是因此，我们可以期待进一步的改进。方法mAP@0.25mAP@0.5VoteNet [17] 50.4 28.3EON-VoteNet（我们的）56.7 36.5Oracle（ori.）64.0 42.9Oracle（seg.）65.3 40.6Oracle（ori. 和seg.）69.8 47.0表5.与带有Scan2CAD检测标签的ScanNetV2数据集上的Oracle模型进行比较。以及可能来自外部域定制模型的更好的方向预测和分割预测。6. 结论在这项工作中，我们将探讨如何利用对象级的旋转等方差的3D对象检测。为此，我们提出了等变对象检测网络（EON），其核心设计是在特征学习骨干的中间阶段暂停旋转等变。我们将我们的设计应用于室内和室外场景的各种骨干和模型。我们的实验表明，EON可以不断提高国家的最先进的检测器，指示的有效性，明确建模对象级的检测模型的等方差。局限性。一个主要的限制是联合学习的方向/分割预测可能不如单独处理的准确。正如预言机实验所表明的那样，虽然我们目前的实现已经可以从对象级等方差中受益，但还远远没有达到潜在的最大收益。尽管如此，我们的研究结果表明，利用对象级等方差的3D检测的承诺。另一个限制是我们假设沿重力轴的一维旋转虽然扩展到3D旋转很简单，但进一步探索它可能对机器人操作等场景有益。鸣谢。这项工作得到了高通创新奖学金、斯坦福HAI、集成设施工程中心、丰田研究所（TRI）、三星、Autodesk、亚马逊和Meta的部分支持。这部分工作是在俞宗怡访问上海启智研究所时完成的。容易中度硬容易中度硬容易中度硬[21]第二十一话88.3978.2977.4764.1255.9351.3587.8172.7167.25EON-PointRCNN（我们的）89.1178.6177.5567.1461.0854.2587.3373.3667.411464引用[1] Armen Avetisyan ， Manuel Dahnert ， Angela Dai ，Manolis Savva，Angel X Chang，and Matthias Nießner.Scan 2cad：学习rgb-d扫描中的cad模型对齐在CVPR，2019年。5[2] Haiwi Chen，Shichen Liu，Weikai Chen，Hao Li，andRandall Hill.三维点云分析的等变点网络。在CVPR，2021年。一、二、三、四[3] Taco Cohen，Maurice Weiler，Berkay Kicanaoglu，andMax Welling.规范等变卷积网络与二十面体卷积神经网络。在ICML，2019。2[4] 塔可·科恩和麦克斯·威林群等变卷积网络。InICML，2016. 一、二、三[5] Taco S Cohen ， Mario Geiger ， Jonas K ？hler ， andMaxWeelling.球形cnns。 arXiv：1801.10130，2018. 2[6] Angela Dai ， Angel X Chang ， Manolis Savva ， MaciejHalber，Thomas Funkhouser，and Matthias Nießner.扫描网：丰富的注释三维重建的室内场景。在CVPR，2017年。5[7] Congyue Deng ， Or Litany ， Yueqi Duan ， AdrienPoulenard，Andrea Tagliasacchi，and Leonidas Guibas.向量神经元：SO（3）-等变网络的一般框架。ICCV，2021年。一、二、三[8] Carlos Esteves ， Christine Allen Blanchette ， AmeeshMakadia和Kostas Daniilidis。用球面cnn学习so（3）等变在ECCV，2018。2[9] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。CVPR，2012。5[10] 韩家明，丁健，薛楠，夏桂松。Redet：用于空中目标探测的旋转等变探测器。在CVPR，2021年。2[11] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom. Pointpillars：用于从点云检测对象的快速编码器。在CVPR，2019年。二三五[12] Jiaxin Li，Yingcai Bi，and Gim Hee Lee.离散旋转等方差点云识别。在ICRA，2019年。2[13] 李小龙，翁怡佳，李毅，列奥尼达斯·古巴斯，阿琳·阿布·阿琳，宋舒然，王鹤。利用se（3）等效性进行自监督类别级对象姿态估计。arXiv：2111.00190，2021。一、二[14] 刘泽、郑章、岳曹、韩虎、辛通。通过变压器进行无组三维物体检测。ICCV，2021。二五六七[15] Wenjie Luo ， Yujia Li ， Raquel Urtasun ， and RichardZemel. 理解深度卷积神经网络中的有效感受野。InNeurIPS，2016. 二、三、四[16] 潘旭然、夏卓凡、宋世济、李尔然、郜荒。用pointformer进行三维物体检测在CVPR，2021年。2[17] Charles R Qi，Or Litany，Kaiming He，and Leonidas JGuibas.点云数据中三维目标检测的深度霍夫投票在ICCV，2019年。一二三五七八[18] Charles R Qi ， Hao Su ， Kaichun Mo ， and Leonidas JGuibas. Pointnet：对点集进行深度学习，用于3D分类和分割。在CVPR，2017年。41465[19] Charles R Qi，Li Yi，Hao Su，and Leonidas J Guibas.Point- net++：度量空间中点集的深度层次特征学习。arXiv：1706.02413，2017年。三、五[20] Shaoshuai Shi，Chaoxu Guo ，Li Jiang ，Zhe Wang ，Jianping Shi，Xiaogang Wang，and Hongsheng Li. Pv-rcnn：用于3D对象检测的点-体素特征集抽象在CVPR，2020年。2[21] Shaoshuai Shi，Xiaogang Wang，and Hongsheng Li.从点云生成和检测三维物体。在CVPR，2019年。一二三五八[22] Weijing Shi和Raj Rajkumar Point-gnn：用于点云中3d对象检测的图形神经网络。在CVPR，2020年。2[23] Shuran Song，Samuel P Lichtenberg，and Jianxiong Xiao.Sun rgb-d：一个rgb-d场景理解基准测试套件。CVPR，2015。5[24] Hugues Thomas ， Charles R Qi ， Jean-EmmanuelDeschaud ， BeatrizMarcote gui ， FrancoisGoulette ，andLeonidasJGuibas.Kpconv：点云的灵活和可变形卷积。在CVPR，2019年。三、四、五[25] Nathaniel Thomas ， Tess Smidt ， Steven Kearnes ，Lusann Yang，Li Li，Kai Kohlhoff，and Patrick Riley.张量场网络：用于3d点云的旋转和平移等变神经网络。arXiv：1802.08219，2018。一、二[26] DanielEWorrall ， StephanJGarbin ， DaniyarTurmukham- betov，and Gabriel J Brostow.谐波网络：深度平移和旋转等方差。在CVPR，2017年。1[27] Xian Xie ， Yu-Kun Lai ， Jing Wu ， Zhoutao Wang ，Yiming Zhang，Kai Xu，and Ju

下载后可阅读完整内容，剩余1页未读，立即下载