神经双边滤波：点云自顶向下实例分割的改进方法

83 浏览量更新于2023-10-15 收藏 4.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

551NeuralBF：神经双边滤波用于点云上的自顶向下实例分割Weiwei Sun1，3*Daniel Rebain1 Renjie Liao1VladimirTankovich3 Soroosh Yazdani3Kwang Moo Yi1AndreaTagliasacchi2，31英属哥伦比亚大学2西蒙弗雷泽大学3谷歌研究https://neuralbf.github.io摘要我们介绍了一种方法，为实例建议生成的三维点云。现有技术通常在单个前馈步骤中直接回归建议，导致不准确的估计。我们表明，这是一个关键的瓶颈，并提出了一种基于迭代双边滤波与学习内核的方法。遵循双边过滤的精神，我们考虑每个点的深度特征嵌入以及它们在3D空间中的位置。我们通过合成实验表明，我们的方法在为给定的兴趣点生成实例pro-pronunciation时带来了巨大的改进我们进一步验证了我们的方法具有挑战性的ScanNet基准，实现最佳的实例分割性能之间的子类别的自上而下的方法。1. 介绍实例分割是语义3D理解的关键组成部分，其应用包括机器人操作[16，45，31，27，30]和自动驾驶。ing [36，50，3，44，29].实例分割的基本步骤mentation [13，46，43，42，19]的目的是生成一组可靠的实例建议。对于自然图像，最先进的方法通常遵循自上而下的范式[43，42]，其中首先检测候选实例建议，然后通过非最大抑制（NMS）对其进行修剪相反，自底向上方法[21，41]学习每点嵌入，然后用于将点聚类到不相交的建议集合中。令人惊讶的是，当我们将我们的领域改为点云（3D）时，自然图像（2D）中自上而下方法的主导地位并没有得到重申，其中自下而上的方法主导着公共排行榜[40，1]。虽然他们*部分工作在Google实习期间完成。图1.Teaser- （（底部）我们的技术可以应用于真实世界ScanNet场景的大规模实例分割，从而在自顶向下方法中获得最佳性能。执行良好，自下而上的方法在聚类步骤中严重依赖于手工制作的算法，例如空间距离阈值[19]和平均实例大小[1]的指定。尽管如此，由于性能差距，最近的3D计算机视觉文献自然集中在试图提高自下而上技术性能的创新贡献上，而自上而下方法的研究相对不足。因此，人们不得不思考为什么在接近2D与3D实例分割方面存在如此显著的差异，以及是否有可能设计出一种有竞争力的自上而下的方法。在这项工作中，我们认为，一个关键的瓶颈存在于点云的建议生成过程中。早期的作品遵循与自然图像相似的过程，552边界框是回归的[24，17，49，48]，但这种回归通常不会导致足够准确的预测。我们在一个简单的合成数据集上消除了这些技术，展示了它们如何导致弱性能（即，mAP <50%），而我们实现了近乎完美的结果。我们的自上而下的技术产生的建议associi-用于输入点云上的给定查询;参见图1。我们将建议编码为亲和度分数：点云的[0，1]逐点标记，其以查询点为条件（即，当查询点改变时，亲和度分数改变）。我们从自底向上的方法[40]中得到启发，如果两个点在空间和语义类上都“接近”，则确定它们属于同一实例;见图1与自下而上的方法不同，自下而上的方法将利用双空间亲和力将所有点分组到不同的聚类中[19，40]，我们的建议生成步骤识别与给定查询相关的点语义相似度比较语义特征的相似性，以便从不同的对象类型中分离点空间亲和性负责绑定实例的空间范围，以便将语义相似的对象彼此分离。因此，查询条件亲和度可以分解为两个项，自然地将我们引导到神经双边过滤器公式。在表示空间亲和力时，我们注意到在2D图像域轴对齐边界框中采用的占主导地位的表示。虽然可以用3D边界框参数化空间亲和性，但这需要仔细处理SE（3）等方差[7，26，32]，或者仔细预测旋转[22]。我们通过引入可微凸包的使用来避免这个问题[5]例如提案。请注意，凸包是边界框的通用逼近器，能够隐式地对旋转的边界框进行建模。从不同的角度来看，我们的技术将凸模型作为场的水平集，可以被视为第一种尝试将神经场[47]快速增长的区域应用于3D实例分割的方法。捐款. 我们验证了我们的方法在合成和真实数据集上的有效性，• 我们介绍了一个简单的合成数据集，揭示了一个主要的瓶颈，在实例建议生成点云;• 我们提出了实例分割的问题，即生成云中的点与查询点的亲和力;• 我们将亲和度的计算公式化为一个神经双层过滤器，并演示了迭代公式如何提高其性能;• 我们引入了使用坐标网络表示凸域来模拟我们的神经双边滤波器中的空间亲和性• 总的来说，这些贡献产生了一种方法，在ScanNet上自上而下的点云实例分割方法中位居榜首2. 相关作品本文简要介绍了二维和三维物体分割的最新研究成果，并对均值漂移和双边核方法进行了评述有关3D实例分割的调查，请参见[16]，2D实例分割请参见[12]。2D实例分割。自顶向下方法[13，46]预测图像中采样位置的冗余实例建议，这通常需要NMS消除重叠。Mask-RCNN [13]检测一组边界框作为初始实例提案，然后应用分割模块和NMS输出最终掩码。Po-larMask[46]通过使用“中心先验”来增强性能-靠近对象中心的位置往往会预测更好的边界框。SOLO [42，43]预测每个位置的实例掩码，避免了对分割模块的需求。这类似于我们的方法，我们也输出实例掩码，而没有分割模块。其他主流实例分割管道[21，4]遵循自下而上的范例，将像素聚类为片段作为实例建议，导致性能通常低于自上而下的方法。3D实例分割。与2D IM相比，年龄领域，自底向上的方法主导3D实例分割基准。PointGroup [19]首先使用语义预测和中心投票标记点，然后将点聚类为片段作为实例提案。后续工作[1，40]在不同方面进一步增强了聚类方法。HAIS [1]开发了层次聚类，以获得更好的实例建议。SoftGroup [40]建议使用软语义分数对点进行分组，并通过建议细化模块引入混合自上而下/自下而上技术。自底向上的方法依赖于对象大小和距离阈值等参数，而自顶向下的方法在性能上很大程度上滞后自顶向下方法[48，49]依赖于精确的边界框预测作为初始实例建议。更详细地说，3DBoNet [48]直接预测一组固定的3D边界框，而GSPN [49]提出了一种合成和分析策略来预测更好的边界框。神经双边滤波将双边滤波与神经网络相结合的想法主要是在过滤和增强自然图像的背景下[18，10，28]。然而，据我们所知，尽管点云的经典点云处理层确实存在，但学习的双边滤波尚未应用于3D点云的背景[8]。553Ⓢ⇠ⓈKKK2·K·CC（六）GT2QQ图2. 概述-（a）给定查询（），我们回归相应实例的边界外壳;（b）与语义分割一起，这定义了整个点云上的亲和函数;（c）该亲和度可以是阈值以生成候选实例提议;（d）然后通过非最大抑制对实例提议进行分组以生成场景的实例分割。3. 方法给定D维空间P={pn}中N个点的点云和相应的C维特征F={fn}=F（P;<$F），通过深度学习返回计算骨与可学习的参数F，我们通过回归包围体生成实例建议（即，一个con-RD中的vex hull），其中q[1，N]是查询的索引。为了与分割特征结合在一起，包围体在查询（p，f）和图3. 空间相似性-语义特征在分离两个实例时是一致的：（左）各向同性亲和核w.r.t.查询点将错误地将左侧实例上的点分配给右侧实例，而不管带宽选择;（右）非各向同性核不会遭受这个缺点。整个点云，它可以被阈值化，以生成一个实例建议（第3.1节）。这些实例建议，然后聚集经典的非最大值抑制（NMS）生成所需的实例分割。3.1. 亲和力定义如图1所示，点云中的点对查询（pq，fq）的亲和度可以直观地定义为两个亲和度的元素乘积• 特征空间中的亲和度：点云中的点是否与查询属于同一类;• 几何空间中的亲和性：点云中的点是否与查询属于同一空间区域。更正式地，我们将亲和度函数A（q）定义为：A（q）=Ap（q）<$Af（q），（1）Af（q）[n]=e×p（-kf·Kf（q，n）），（2）Ap（q）[n]=exp（-kp·Kp（q，n）），（3）其中是逐元素乘积，[n]索引数组的第n个元素，并且是控制内核带宽的超参数然后，我们可以通过直接尝试在给定随机抽取的查询点的情况下再现目标亲和度来学习内核f和p的参数，其内部参数在下文f我们通过以下方式来衡量两个点是否具有相似的语义类：Kf（q，n）=k$（fq;n$）-$（fn;n$）k2.其中，$（;n$）是具有参数的小投影层✓ $从（任务）中提取语义相似性特征不可知的）主干特征f.p虽然经典的双边滤波采用各向同性核来考虑空间相似性（即，具有可调带宽的高斯），这对于例如分割来说不是最佳的。我们在图3中说明了我们的直觉，其中相同语义类的两个对象的接近度意味着没有以查询点为中心的各向同性内核可以用于隔离所需的实例。我们实现这一点，同时保留交换对称1：Kp（q，n）=C（pn-pq;n（fq;n））+C（pq-pn;n（fn;n）），其中，m（;m）是具有参数的小投影层✓其从通用主干特征F中提取空间相似性特征。这就引出了一个问题，设计函数（x;f）。一个潜在的解决方案是定义一个坐标神经网络[47]，其形状由特征f描述，并在位置处1亲和力应该是对称的，因为如果点p属于Eq[1，N] <$A（q）-A（q）<$1.（四）n在pq相同的情况下，我们理想地应该有K（q，n）<$K（n，q）。554CC222··一KK一HL不2（七）>0，否则（边界距离）。X.我们选择使用CvxNet [5]这个选择非常合适，因为：• 凸包是一种拓扑等价的，但更灵活和详细的替代2D/3D边界框，在2D/3D对象检测/实例分割中使用的核心表示，使它们成为我们问题的特别适合的选择;• 与作为多层感知器实现的协调神经网络相比，CvxNet类超网络生成非常小的输出网络，并且更有效率，允许我们使用更大的小批量大小，从而导致更快的训练。我们在第3.2节中进一步详细描述了的设计，它将满足关于特征f指定的凸域的以下基本性质：（=0如果x在由f定义的凸内，1：输入：2：q[1，N]d查询索引3：PRNDd（const）云位置4：FRNNCd（const）云特征第五章：函数NEURALB ILATERAL FILTER6：p（0）=pq=P[q]7：f（0）=fq=F[q]8：对于t= 1，. ..，没做9：A（t-1）（q）=（p（t-1），f（t-1））10：A（t-1）（q）=A（t-1）（q）/A（t-1）（q）111：p（t）=A（t-1）（q）P12：f（t）=A（t-1）（q）F13：结束14：返回nA（T）（q）十五： end function图4. 神经双边过滤器（第3.3节）-矢量化查询点的位置和特征。最后，最终注意力A（T）（q）用于dowstream任务。3.2. 凸参数化C（x;f）从f，通过一个完全连接的解码器（共享参数D ），我们德我韦的没有r-mals {nh2RD|knhk2=1，h <$[1，H]}指定H个半空间方向，以及它们与原点o 2 R D的距离{dh2R+}：o ， {nh} ， {dh}=D （ f;φD ），（8）并且将x与第h个超平面的距离定义为：权重由来自（1）的亲和度定义给出注意，点云P和对应的特征F保持不变，仅查询受到影响。稍微滥用一下标记法，我们将A（t）（q）表示为查询q的第t次迭代时的af {\displaystylea f {\displaystyle a f}}。结果简单地是，在数据流处理中不是在时间A（0）（q）=（q），而是使用A（T）（q）3.4. 培训为了训练我们的网络，我们优化：Hh（x）=nh·（x+o）+dh，（9）可以组装成一个（近似的，见[5]）dis-h（x +o），arg min$，L亲和性+Lsem+Lpoly + L位移。（十三）从凸多面体的距离函数为：f（x;f）= max{Hh（x）}，（10）最终导致我们的凸空间邻近：C（x;f）=max（x;f），0），（11）在这些损失中，亲和力是我们的核心损失，而其余的则提供了对网络的“跳过连接”监督，以促进学习。由于我们的方法执行迭代推断，因此我们贴现（k=0）。8）后期迭代的贡献然后，如果需要，可以将其转换为指示函数（即，[5]一个是。L亲和力=Eq[1，N]Xt=1 ↵t¨A（吨）（q）-A （q）（14）O（x; f）= sigmoid（-x（x; f））。（十二）3.3.神经双边滤波器C（x;f）GT555QQ（1）与双边滤波[14，39]中的核的乘积的相似性启发了我们研究迭代推理的使用。具体来说，给定一个查询，我们同时考虑查询位置和特征，其中平流语义监督。为了鼓励（5）中的语义特征仅表示语义相似性，我们通过将中间逐点主干特征映射到语义逻辑来注入语义信息（参见图5），并使用地面真值标签sgt：Lsem=Eq<$[1，N ]<$CrossEntropy（sq，sgt）<$（15）556DQDQSSK不D·DQO（t）gt2SS⌘Q··Q不fqsqP（0）Q（T）Q用32个神经元，然后用C神经元的线性层输出语义特征。注意，在迭代过程中，我们直接更新查询不需要重用语义分支。嵌入层是C神经元的线性层。对于投影层，我们使用一个小投影层，并依赖于推理p三维凸多面体。具体来说，我们使用一个简单的恒等式mapping层作为mapping层，我们发现这已经足够好图5. 架构-点云由后台处理-bone以产生fq =f（0），然后由我们的内核处理该f q = f（0）。我们通过地面实况语义分类标签监督s q，其中1是2层MLP，2是线性层。实例质心监督。为了最小化的学习复杂度，我们激励预测的凸包相对于稳定的坐标系2来表达。我们使用地面实况实例原点cgt并监督预测的原点相对偏移：Xt<$（t）gt<$多面体网工作（;D）在（6）中。网络工作由两个MLP块组成。第一块-一个具有128个神经元的ReLU激活的MLP然后，我们将残差添加到f，并利用第二个块-具有128个神经元的三层ReLU激活的MLP-来预测正常值和偏移。为了预测平面偏移dh，我们使用[9]中的策略，并将偏移值离散为范围[0，8]米内的32个相等的bin，并通过分类得分的加权和获得预测值。我们用12个平面来表示每个3D凸多面体，在精度和计算负荷之间取得了很好的平衡，计算负荷随着L移位=Eq<$[1，N]↵t=1<$（pq+oq）-cq<$1（16）飞机最后，在（2）和（3）中，ΔF=1，ΔP=50。形成训练批次。在可能的情况下，其中f集合o（t）是从D（f（t））计算的。凸占用监督。请注意，（14）中的亲和度监督仅惩罚那些被错误标记为凸壳外部的点。为了纠正这一点，让gt（p）是属于查询q的凸包的点p的地面实况占用，然后我们惩罚：Lpoly=EEX！k= O （ p-p;f时间复杂度 O（p）点云中的所有点都是不切实际且低效的，因为它将在存储器和计算两者中产生二次增加。我们使用一批四个场景，并在训练过程中随机抽取32个随机点/场景，以形成单个训练样本。该算法的计算复杂度和空间复杂度与采样查询数成线性关系。我们进一步设置均值漂移迭代的次数T=2，我们在第二节中消除了这一点。四点三。Q nt=1q，nn qqQ2（十七）训练与RAFT [37]一样，我们分离了不同迭代之间的梯度流以稳定训练。我们使用亚当优化器[20]和余弦退火进行学习在哪里！q，n是控制类不平衡的术语：如果在q对应的站姿有Q个点，场景有N个点，那么！q ，n=1/Q，如果点n属于实例，并且！ q ， n=1/（N-Q），否则。3.5.实现细节我们简要讨论核心实现细节。网络架构。对于骨干网，我们利用[19，1]中的U-Net类骨干网，它是用稀疏卷积[11]。我们设定了骨架特征f至32，如[1]中。在（5）中的投影是$（;n$），在（6）中的投影是n（;n）。层$由语义层（ 1）和嵌入层（ 2）组成。语义层利用两层MLP将骨干特征转换为语义得分②如果两个点a和b属于同一个实例，则预测的凸原点oaob，同一个半空间配置可以用于一个实例内的所有查询;注意，这类似于NASA中的坐标框架归一化[6]。率[25]，初始学习率为0.001。我们进一步遵循现有实例分割方法的标准数据增强/体素化方案所有损失项的系数均设为1。非最大抑制。为了获得ScanNet数据集的最终实例分割结果，我们使用标准非最大值抑制[43，35]来删除冗余建议。更详细地说，我们按照置信度得分顺序访问输入候选提案的队列;参见第二节。四点二。对于每个候选提案，我们计算所有其他候选提案的IoU，并合并/修剪那些IoU高于0.25的提案。4. 结果在我们的结果部分，我们：• 秒4.1 – validate our method in a controlledS1S2…$UNet…ƒNBFFFK557-线段圆平均值mAP AP50AP25mAP AP50AP25mAP50AP25BBox46. 4±1。1677±1。9698±1。1212±1。454. 7±2。 390. 6±0。 3338±0。9612±1。7802±0。754.第五十三章1±1。6779±1。5804±1。2280±0。8640±0。7892±0。七点四十一。0±1。0710±0。7848±0。853.第一次约会9±1。四六八。2±1。6690±1。1319±1。9711±1。791. 7±0。 5429±1。2697±1。2803±0。5BBoxw/center + GT filtering 65. 3±1。七七九。3±1。5801±1。五点四十一4±1。一百七十五。4±1。490。3±0。553. 3±1。 1773±0。685. 2±0。9我们的是95.9±0. 397.6±0. 497.9±0. 398.2±0. 598.9±0. 399.3±0. 397.1±0. 298.3±0. 298.6±0. 1表1. 查询条件实例建议生成-我们通过运行评估管道五次来报告平均精度的平均值和标准差• 秒4.2-• 秒4.3 – perform an4.1. 合成数据集我们创建了一个由直线、圆和随机噪声组成的2D合成数据集;参见图6。对于每个场景，我们随机放置16个图元，这些图元是从2D空间中随机生成的线段和圆的大池（总共10k）中采样的我们对前景实例采样4096点，对背景噪声采样512点。为了使不同大小的实例保持相似的点密度，我们使每个实例的点数与原始实例的长度成比例。我们在训练时实时生成这些场景，并保留100个场景用于测试。我们将2D坐标限制在[4，4]范围内，以匹配ScanNet场景的典型大小，使我们能够在合成和真实场景中重用相同的主干。指标.对于数据集，为了表明实例提案是一个瓶颈，我们对它们的直接评估感兴趣，而不需要任何下游的非最大抑制（NMS）启发式算法。我们为点云中的每个实例随机选择一个点，并测量为所选点生成的建议的质量。一旦提供了建议，我们就使用ScanNet基准测试[2]中使用的标准度量-AP50和AP25，它们分别是以50%和25%的交集（IoU）阈值计算的准确度，以及mAP，这是不同阈值范围从50%到95%的平均AP，步长为5%。基线。常用的基线是直接预测每个实例的边界框，在该边界框内应用后处理[24，17，49，48]。为此，类似于GICN [24]，我们训练了一个2层MLP，它预测绑定框，通过其相对于查询的两个角进行参数化。我们进一步与VoteNet [33]进行比较，其中首先回归给定查询点的空间偏移，然后相对于偏移回归边界框角。对于这些基线，边界框通常包含来自噪声或其他类（线与圆）的点，因此我们利用主干的语义预测来过滤这些点。BBox BBox w/center prediction Ours图6. 定性/合成-注意，红色的大点是抽样查询。我们对不同实例建议检测到的点进行着色。黑点是背景点或由两个以上实例提案检测到的点。从每一个实例中提出建议。显然，这不会完美地过滤掉相同类实例重叠的情况;因此，我们进一步提出了一个oracle基线，它使用地面实况语义和实例标签作为过滤的oracle，从而模拟了基于边界框的方法的理想后处理步骤。我们使用10k次迭代进行训练，这足以让所有方法收敛到这个简单的数据集。结果-选项卡。图1和图6。我们的方法明显优于基线。尽管在2D图像中的边界框提议是成功的，但是这些方法在这个简单的合成数据集上实现了令人惊讶的低性能，即使当采用地面实况滤波另一方面，我们的方法提供了近乎完美的结果，正如人们对这样一个简单数据集的期望。对于基线，如图2中的示例所示。6.我们发现，许多建议都略有偏离，有些完全偏离。虽然边界框位置/大小的小误差对于2D图像中的检测来说并不重要，但对于从边界框外部附近的对象表面采样的点云来说，它们可能是灾难性的，558----图7. 可视化空间内核对于每个凸包，洋红色线是学习的半平面。红色多边形是半平面之间的交点。点以空间相似性着色，其中红色表示较大相似性，而蓝色表示较小相似性。方法验证测试地图AP50AP25地图AP50 AP25[第19话]三十四8五十六7 七十一3四十763岁6七十七。8底向上[23]第二十三话四十九4六十四3 74岁050块669岁。878岁9美国[1]四十三5六十四4 75. 6四十五769岁。9八十3[15]第十五话三十五4五十七6 七十二939岁5六十四1七十六。1[40]第四十话-67岁678岁950块4七十六。一百八十六点五[17]第十八话. 七点三十五七点十六分1382558标准评估管道并报告标准度量，与用于2D合成数据的标准度量相同。为了评估我们用于点云的自顶向下实例分割管道的方法，我们引入了文献[38，43，42，24]中常用的基本后处理步骤，以及用于为每个实例建议提供置信度分数的评分函数，如基准协议所要求的。值得注意的是，与“矩阵NMS”[42]和使用“中心先验”[24，38]的查询采样等技巧相比，我们的后处理步骤相对简单具体地，我们首先使用（5）中的$（fi）分割出所有然后，我们从预测的前景点中采样256个查询点，并生成256个实例提案。当对查询进行采样时，我们应用最远点采样[34]以确保最大覆盖率。然后，我们通过将非最大抑制（NMS）应用于IoU阈值为30%的实例提案来删除冗余实例提案。我们像[1]中那样对整个管道进行端到端的500个epoch训练。置信度得分。由于基准协议要求实例提案具有相关联的置信度分数，因此我们基于语义分割分数（由sq提供）和MLP为每个提案提供置信度分数具体来说，我们训练了一个两层MLP，IoU的损失为`1最终的置信顶向下[49]第四十九话337853四点半6[48]第四十八章：一个人3488687我们的36.0 55.5 71.1 35.3 55.5 71.8通过将回归的IoU值与平均语义分割相乘，表2. Quantitative/ScanNetV 2-实例细分基准;我们的方法为自顶向下类别提供了最佳性能。对于较宽松的阈值，我们的方法表现稍差，这可以通过高级后处理来改善。对齐可能会删除几何图形的整个部分。例如图在图6左上方，右下方的圆用边界框检测，如果只考虑边界框，则该边界框将被认为是准确的，但是该圆的大部分点云点位于外部，因为该框略小于实际圆。可视化空间内核-图。7 .第一次会议。我们可视化学习的空间内核。如图所示，学习的空间内核形成了一个多面体，该多面体根据需要紧密地限制了问题中的实例。这些学习的内核使我们的方法能够轻松地在空间上分离不同的实例，即使不考虑语义。这种简单的分离是不可能的，例如，使用标准的欧几里得距离，因为在直线上或圆上彼此远离的点会与其他附近的点混淆。4.2. ScanNetV2上的实例分段ScanNetV2 [2]数据集总共包含1613个场景，其中1201、312和100个场景分别专用于训练、验证和测试。我们用斯坦-信心我们还使用这些置信度得分和NMS来过滤背景点，这些背景点通常具有较低的前景语义置信度。放弃低信任度提案。除上述之外，我们还放弃了具有低置信度值的建议（即语义置信度低于0.1或估计IoU小于0.2的提案）。此外，我们放弃了具有不同的预测标签的pro-task和查询点的建议。这些建议来自于通常位于不同类的两个不同实例相遇的点，因此是不可靠的。最新技术水平比较-表2和图8.与最先进的方法相比，我们的方法显示出有希望的结果。在纯自顶向下的方法中，我们的方法达到了最高的性能，验证了我们的实例建议生成的有效性。我们通过更好的后处理步骤为未来的工作留下进一步的改进。虽然我们的方法比最新的自底向上方法或混合方法[40]表现得更差，但我们注意到这些方法经过了大量微调以实现SOTA基准测试结果，而我们的方法不是。请注意，我们的自顶向下方法击败了CVPR 2020 [19]前后的领先自底向上方法SOTA考虑到自顶向下方法具有有趣的特性（例如，他们在图像基准测试中的主导性能[43，42]和更好的生成，559LLLLLL损失，无L聚乙烯，无L移位不含L扫描电镜充mAP 95. 42±0。7995。38±0。3495。06±0.6296.80±0. 35图8. Qualitative/ScanNet数字1 2 3 4mAP94. 46±0。55 96.80±0. 3596. 54±0。40 96. 18±0。68第0个iter第1个iter第2个iter图9. 消融：迭代次数T-（底部）我们的算法在少量迭代后将查询（红点）转移到质心。化能力），并且值得进一步探索，我们相信我们的工作提供了例如点云分割的进展4.3. 消融迭代次数-图。9 .第九条。我们的算法能够在两次迭代中将查询点转移到每个实例的中心。这导致来自同一实例的查询共享类似的坐标框架，从而降低了表示复杂性，如NASA [6]所述。这是有益的，因为较少的迭代次数减少了训练的GPU内存负载。超过两次迭代的训练似乎只是导致训练变得不稳定，并引入轻微的性能下降。损失-图10个。与建议的正则化，我们的算法学习更紧密的实例多面体（ W/ 聚和偏移量）和语义相似性（W/SEM），导致显着提高性能。请注意，由于我们为每个语义类别评估AP，因此我们为没有语义预处理的模型提供了地面实况语义标签图10. 消融：损失措辞（即，W/O最后，请注意，即使没有保利和偏移，我们的算法仍然可以学习多面体，大致细分实例。5. 结论我们提出了一个点云的实例建议方法。我们将实例建议制定为查询条件注意力模型，并采用神经双边过滤来提供比直接回归更准确的建议。我们通过合成数据证明，提案生成过程确实是一个瓶颈，我们的方法可以显着改善。我们进一步证明了我们的方法在ScanNet数据集上的潜力，在自上而下的方法中实现了具有竞争力的性能。限制和未来的工作。虽然我们已经清楚地表明存在瓶颈，并且可以避免，但当与精心设计的管道（例如分段）结合时，其益处并没有显著地显现出来。我们相信，这种潜力还有很大的实现空间，类似于自顶向下的方法是自然图像的主导策略[43，42]。确认这项工作得到了加拿大自然科学和工程研究委员会（NSERC）发展基金、NSERC合作研究和发展基金、谷歌、加拿大数字研究联盟和不列颠哥伦比亚大学高级研究计算的支持。560引用[1] Shaoyu Chen，Jiemin Fang，Qian Zhang，Wenyu Liu，and Xinggang Wang. 用于3D实例分割的分层聚合。ICCV，2021。[2] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。扫描：室内场景的丰富注释3D重建。在CVPR，2017年。[3] Bert De Brabandere，Davy Neven，and Luc Van Gool.面向自动驾驶的语义实例分割。在CVPRW，2017年。[4] Bert De Brabandere，Davy Neven，and Luc Van Gool.基于判别损失函数的语义实例分割。CVPRW，2017年。[5] Boyang Deng、Kyle Genova、Soroosh Yazdani、SofienBouaziz 、 Geoffrey Hinton 和 Andrea Tagliasacchi 。Cvxnet：可学习的凸分解。在CVPR，2020年。[6] Boyang Deng ， JP Lewis ， Timothy Jeruzalski ， GerardPons- Moll，Geoffrey Hinton，Mohammad Norouzi，andAndrea Tagliasacchi.美国宇航局：神经关节形状近似。在ECCV，2020年。[7] Congyue Deng ， Or Litany ， Yueqi Duan ， AdrienPoulenard，Andrea Tagliasacchi，and Leonidas J Guibas.矢量神经元：so（3）-等变网络的一般框架。IEEE/CVF计算机视觉国际会议论文集，第12200-12209页，2021年[8] Shachar Fleishman，Iddo Drori，and Daniel Cohen-Or.双侧网格去噪。ACM TOG，2003年。[9] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归在CVPR，2018年。[10] Mi c ha e？ lGharbi ，Ji a wenChen ，JonathanTBarron ，SamuelWHasino f f，andFre？doDurand. 用于实时图像增强的深度双边学习ACM TOG，2017年。[11] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在CVPR，2018年。[12] 古文超，白霜，空凌星。基于深度神经网络的二维实例分割综述IVC，2022年。[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。InICCV，2017.[14] 何开明，孙建，唐晓鸥。引导图像滤波。 IEEETPAMI，2012年。[15] 何通，沈春华，安东·范登亨格尔。Dyco3d：通过动态卷积对3D点云进行健壮的实例分割。在CVPR，2021年。[16] Yong He ， Hongshan Yu ， Xiaoyan Liu ， ZhengengYang ， Wei Sun ， Yaonan Wang ， Qiang Fu ， YanmeiZou，and Ajmal Mian.基于深度学习的3D分割：一个调查。arXiv预印本，2021年。[17] Ji Hou，Angela Dai，and Matthias Nießner. 3d-sis：Rgb-d扫描的3d SE-MANIC实例分割。在CVPR，2019年。[18] Varun Jampani、Martin Kiefel和Peter V.盖勒学习稀疏高维滤波器：图像滤波，密集CRF和双边神经网络。在CVPR，2016年。[19] 李江，赵恒双，史少帅，刘舒，傅志荣，贾佳雅.点组：用于3D实例分割的双设置点在CVPR，2020年。[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。ICLR，2014年。[21] Shu Kong和Charless C Fowlkes。递归像素嵌入的实例分析.在CVPR，2018年。[22] Jake Levinson 、 Carlos Esteves 、 Kefan Chen 、 NoahSnavely 、 Angjoo Kanazawa 、 Afshin Rostamizadeh 和Ameesh Makadia。深旋转估计的svd分析。NeurIPS，33：22554[23] Zhihao Liang，Zhihao Li，Songcen Xu，Mingkui Tan，and Kui Jia.基于语义超点树网络的三维场景实例分割。ICCV，2021。[24] Shih-Hung Liu，Shang-Yi Yu，Shao-Chi Wu，Hwann-Tzong Chen，and Tyng-Luh Liu.点云高斯实例分割的学习. arXiv预印本，2020年。[25] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：随机梯度下降与热重启。ICLR，2017年。[26] Shitong Luo ， Jiahan Li ， Jiaqi Guan ， Yufeng Su ，Chaoran Cheng，Jian Peng，and Jianzhu Ma.通过学习方向进行信息传递的等变点云分析。在IEEE/CVF计算机视觉和模式识别会议论文集，第18932-18941页[27] Lucas Manuelli ， Wei Gao ， Peter Florence ， and RussTedrake.kpam：类别级机器人操作的关键点启示。在ISRR，2019年。[28] Mehdi Khoshboresh Masouleh和Reza Shah-Hosseini。融合深度学习与自适应双边滤波器的遥感影像建筑物轮廓提取。应用遥感杂志，2018年。[29] Andres Milioto ， Jens Behley ， Chris McCool 和 CyrillStachniss。用于自动驾驶的激光雷达全景分割2020年IEEE/RSJ智能机器人和系统国际会议（IROS），第8505-8512页。IEEE，2020年。[30] DouglasMorrison，Adam W Tow ，Matt Mctaggart ， RSmith，Norton Kelly-Boxall，Sean Wade-Mccue，JordanErskine，Riccardo Grinover，Alec Gurman，T Hunn，etal.推车员：赢得了亚马逊机器人挑战赛的低成本机械手。在2018年IEEE国际机器人与自动化会议（ICRA）上，第7757IEEE，2018年。[31] 小川贵也和真下智宏。使用地图数据和实例分割相结合的室外增强现实中的遮挡处理。在2021年IEEE国际混合和增强现实辅助研讨会（ISMAR-Adjunct）上，2021年[32] Omri Puny、Matan Atzmon、Heli Ben-Hamu、Edward JSmith、Ishan Misra、Aditya Grover和Yaron Lipman。不变和等变网络设计的帧平均法。arXiv预印本arXiv：2110.03336，2021。[33] Charles R Qi，Or Litany，Kaiming He，and Leonidas JGuibas. 深度Hough投票用于点云中的3D对象检测在CVPR，2019年。[34] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集的深度层次特征学习。NeurIPS，2017。561[35] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：用区域建议网络实现实时目标检测。神经IPS，2015年。[36] KshitijSirohi ， RohitMohan ， DanielBüscher ，WolframBur-gard，and Abhinav Valada.效率：高效的激光雷达全景分割。 IEEE Transactions on Robotics ，

下载后可阅读完整内容，剩余1页未读，立即下载