没有合适的资源?快使用搜索试试~ 我知道了~
PointGroup:一种用于3D实例分割的自底向上的架构
4867PointGroup:用于3D实例分割的李江1赵恒双1史绍帅1刘舒2傅志荣1贾雅嘉1,21香港中文大学2SmartMore@ cse.cuhk.edu.hksliu@smartmore.comssshi@ee.cuhk.edu.hk摘要实例分割是场景理解的一项重要任务相对于成熟的二维点云,三维点云物体分割还有很大的改进空间。在本文中,我们提出了PointGroup,一个新的端到端的自底向上的架构,特别是专注于更好的分组点,通过探索对象之间的空隙空间我们设计了一个双分支网络来提取点特征并预测语义标签和偏移量,用于将每个点移向其各自的实例质心。一个聚类组件随后利用原始和偏移移位的点坐标集,利用它们的互补强度。此外,我们制定了ScoreNet来评估候选实例,然后使用非最大抑制(NMS)来去除重复。我们在两个测试数据集ScanNet v2和S3DIS上进行了广泛的实验,在这些数据集上,我们的方法达到了最高的性能,分别为63.6%和64.0%,与之前最好的解决方案在IoU阈值为0.5的mAP方面达到的54.9%和54.4%相比。1. 介绍实例分割是一项基本且具有挑战性的任务,不仅需要预测场景中每个对象的语义标签,还需要预测场景中每个对象的实例ID。它最近已经引起了很大的兴趣,给出了关于自动驾驶、机器人导航等的室外和室内环境的潜在应用。卷积神经网络提高了2D实例分割的性能[10,17,29,5]。然而,给定无序和非结构化的3D点云,2D方法不能直接扩展到3D点,使得后者仍然非常具有挑战性[49,19,53]。在本文中,我们解决了具有挑战性的3D点云实例分割任务,通过探索3D对象之间的空隙空间,以及语义信息,以更好地分割单个对象。*同等贡献。输入实例预测图1:我们的ScanNet v2方法的3D实例分割示例。不同的颜色。具体而言,我们设计了一个自底向上的端到端的框架命名为PointGroup的三维实例分割,更好地分组的点的关键目标我们的流水线是首先提取每个点的语义预测,并进行有效的点分组,以收获候选对象实例。我们利用语义分割主干提取描述性特征,并预测每个点的语义标签。与分割头并行,我们采用偏移分支来学习相对偏移,以将每个点带到其各自的地面实况实例质心。通过这种方式,我们将同一对象实例的点移向同一质心并将它们聚集得更近,从而能够更好地将点分组为对象并分离同类的附近对象。利用预测的语义标签和偏移量,我们采用一种简单而有效的算法将点分组到聚类中。对于每个点,我们将其坐标作为参考,将其与附近具有相同标签的点分组,并逐步扩展组。重要的是,我们在两个单独的通道中考虑两个坐标集-原始点位置和那些被预测偏移量移动的坐标集。我们称这个过程为“双设定点法”。这两种类型的结果相互补充,以实现更好的性能。此外,我们设计了ScoreNet来评估和挑选候选组。最后采用非最大值抑制法去除重复预测。我们对具有挑战性的ScanNet v2 [8]和S3DIS [2]数据集进行了广泛的实验。PointGroup在这两个方面都实现了最高的准确性 对于扫描-4868Net v2 , 我 们 在 测 试 集 上 的 性 能 在 mAP50 方 面 为63.6% ,比 之前的 最佳 解决方 案高8.7%[23]。对 于S3DIS,我们实现了64.0%的mAP50,69.6%的mPrec50和69.2%的mRec50,大大优于所有以前的方法。总之,我们的贡献有三个方面。• 我们提出了一个自底向上的三维实例分割框架,命名为PointGroup,来处理挑战性的三维实例分割任务。• 提出了一种基于对偶坐标集的点聚类方法,原来的和移动的集合。与新的ScoreNet一起,对象实例可以更好的分割。• 该方法在各种具有挑战性的数据集上取得了最先进的结果,证明了其有效性和通用性。2. 相关工作3D场景中的深度学习2D图像像素是规则网格,因此可以通过卷积神经网络自然处理[24,22,42,46,18]。相比之下,3D点云在3D空间中是无序和分散的,导致点云场景理解的额外困难[37,41]。有几种方法可以处理数据不规则性。多层感知(MLP)式网络,例如,PointNet [35,37],直接应用MLP和最大池化来获取3D中的局部和全局结构。然后将学习到的特征用于点云分类和分割。其他方法[51,48,57,52,21]通过动态上下文聚合和注意力模块增强局部区域的特征除了直接处理不规则输入外,还有几种方法将无序点集转换为有序点集以应用卷积运算。PointCNN [26]学习点重新加权和排列的顺序变换。一些其他方法[30,43,47,39,13,7]对齐和体素化点云以产生用于3D卷积的规则3D有序张量多视图策略[36,44,45]也被广泛探索,其中3D点云被投影到2D视图中进行视域处理。2D实例分割实例分割的目的是发现场景中的前景对象,并为每个对象实例添加唯一的标签。总的来说,有两条主线。第一种是基于检测或自顶向下的,它直接检测对象实例。早期的作品[14,15]使用MCG [1]的建议进行特征提取。[9,10,16]的方法采用池化特征以实现更快的处理。Mask R-CNN [17]被广泛认为是一种有效的方法,在检测框架中具有额外的分割头,如Faster R-CNN [38]。进一步的工作[29,6,5]增强了实例分割的特征学习。另一条线是基于分割或自底向上的,其中像素级语义分割是在像素分组之后执行的,以找到对象实例。Zhang 等人[56,55]利用MRF进行本地补丁合并。Arnab和Torr [3]使用CRF。Bai和Urtasun [4]结合了经典的分水岭变换和深度学习来生成能量图,以区分个体物质。Liu等[28]使用一系列神经网络从像素构建对象。3D实例分割随着可用的大规模3D标记数据集[8,2],3D点云的实例分割变得重要。与2D情况类似,当前的3D方法也可以分为两行。基于检测的方法提取3D边界框,并且在每个框内,利用掩模学习分支来预测对象掩模。Yang等[53]提出了3D-BoNet,它可以直接预测每个实例的3D边界框和点级掩码。Li等[54]提出GSPN,它采用综合分析策略来生成实例分割的建议。Hou等人[19]将多视图RGB输入与3D几何结构相结合,以端到端的方式联合推断对象边界框和相应的实例掩码。首先,基于分割的方法预测语义标签,并利用点嵌入将点分组到对象实例中。Wang等人[49]通过基于PointNet++等主干预测的语义分割对点进行聚类来设计SGPN。Liu和Fu-rukawa [27]预测了不同尺度下相邻体素之间的语义标签和亲和力,以将实例分组。Phm等人[33]使用多值CRF模型开发多任务学习框架,以联合推理语义和实例标签。 Wang等人[50]学习 语义感知点级实例嵌入,以利于语义和实例任务的学习。La-houd等。[23]引入了一种多任务学习策略,其中相同实例的点被分组得更近,而不同的聚类彼此分离得更远。与上述方法不同的是,本文提出了一种新的三维实例分割方法PointGroup我们提出的模型主要包含两个部分-整体框架是可区分的。它可以以端到端的方式进行联合优化和训练。3. 我们的方法3.1. 体系结构概述为了获得3D对象的实例级分割标签,我们考虑两个问题。一是分开4869���×1NMS(c)得分网(N点)颜色(colors)×3U-Net语义分支F×1(b)分组部分pq布拉奇(坐标)×3(a)骨干网×���偏移分支O3×3+团簇=������((M个群集)(坐标)Q(移动坐标)最终预测实例图2:网络架构的图示。它有三个主要组成部分-(a)骨干网络,(b)集群部分,和(c)ScoreNet。首先,我们使用主干网络来提取每点特征F,然后使用两个分支来产生偏移向量O ={o i}和语义标签S ={s i}。然后,我们引入了一种聚类方法来分组点到候选双坐标集上的簇,即,原始集合P和移位的Q,它们分别产生CP和Cq最后,我们使用ScoreNet来生成聚类得分Sc。颜色集合f={fi}用作骨干的输入特征将三维空间中的内容分解为单个对象,二是确定每个对象的语义标签。与2D图像不同,在3D场景中不存在视图遮挡问题,并且在3D中分散的对象通常被空隙空间自然地分隔开。因此,我们建议将3D对象的这些特征进行分类,以根据语义信息将3D内容分组为对象实例图2概述了我们的方法的架构,在同一个质心周围乱糟糟的因此,通过基于移位坐标集Q={qi}的聚类,我们可以更好地分离附近的对象,即使它们具有相同的语义标签。然而,对于靠近对象边界的点,预测的偏移可能不准确。因此,我们的聚类算法采用原始坐标P和偏移坐标Q。 我们表示聚类结果C作为Cp={Cp,.,C p}1百万人三个主要组成部分,即,脊柱,尖端的关节,且Cq={C q,., C Q},这是集群discov-1百万q一部分,和ScoreNet。骨干网络的输入(图2(a))是N个点的点集P每个点具有颜色fi =(ri,gi,bi)和3D坐标pi =(xi,yi,zi),其中i ∈ {1,., N}个。主干提取每个点的特 征 Fi 我 们 将 骨 干 网 的 输 出 特 征 表 示 为F={Fi}∈RN×K,其中K是信道数。然后,我们将F馈送到两个分支中,一个用于语义分割,另一个用于语义分割。用于预测每点偏移矢量以将每个点移向其相应对象实例的质心令si和oi=(xi,yi,zi)分别表示点i的预测语义标签和偏移向量分别基于P和Q。这里,Mp和Mq分别表示Cp和Cq中的簇的数量,并且M=Mp+Mq表示总数。最后,我们构建了ScoreNet(图)。 2(c))来处理所提出的点聚类C = Cp<$Cq,并产生每个聚类建议的分数。然后将NMS应用于这些具有分数的建议,以生成最终实例预测。在下文中,我们将实例预测表示为G={G1 , ... , G Mpred} ∈ C 和 作为I={I1 , . ,IMgt}。这里,Gi和Ii是P的子集,而Mpred和Mgt表示G中的实例数和我,分别。 此外,我们使用NI和NG来表示我我在获得语义标签之后,我们开始基于对象之间的空隙空间将点分组到实例聚类中。在点聚类部分(图。2(b)),我们引入了一种聚类方法,如果它们具有相同的语义标签,则将彼此接近的点分组到同一个聚类中。 但是,直接基于点坐标集P={pi}可能无法分离3D空间中彼此靠近的同类对象并错误地组合它们,例如,两张并排挂在墙上的照片。因此,我们使用学习的偏移oi将点i移向其相应的实例质心,并获得移位坐标qi=pi+oi∈R3。对于属于同一对象实例的点,不同于pi,移动后的坐标qiIi和Gi中的点的数量。3.2. 骨干网我们可以使用任何点特征提取网络作为骨干网络(图1)。第2(a)段)。在我们的实现中,我们对点进行体素化并遵循[13]的过程来构建具有子流形稀疏卷积(SSC)和稀疏卷积(SC)的U-Net [25,40]然后,我们从体素中恢复点,以获得逐点特征。U-Net很好地提取了上下文和几何信息,为后续处理提供了有区别的逐点特征F。然后,我们基于逐点特征F构建两个分支来预测每个点的语义标签si和偏移向量oi。4870N我我语义分割分支我们将MLP应用于F以产生语义分数 SC={sc1 , ., 对于N 个类类 上的N 个点, scN}∈RN×N类,以及通过交叉熵损失Lsem来正则化结果。点i的预测语义标签si是具有最大得分的类,即,si=argmax(sci)。偏移预测分支偏移分支对F进行编码以产生N个偏移向量O ={o1,., o N} ∈ RN×3。对于属于同一实例的点,我们通过L1回归损失来约束它们的学习偏移,算法1聚类算法。N是点数。M是算法找到的聚类数输入:聚类半径r;聚类点数阈值Nθ;坐标X ={x1,x2,...,x N} ∈ RN×3;语义标签S ={s1,.,s N} ∈ RN.输出:聚类C ={C1,...,C M}。1:初始化一个长度为N的数组v(visited),数组中的所有元素都为零2:初始化空簇集C3:对于i= l至N,do4:如果Si是一个stuff类(例如,墙),然后1Lo reg=0ImiΣ||·m i,(1)||·mi,(1)我5:vi= 16:对于i= 1到N,7:如果vi== 0,则其中m={m1,...,m N}是二进制掩码。如果点i在实例上,则m i = 1,否则mi=0。Ci是点i所属的实例的质心,即,8:初始化空队列Q9:初始化空集群C10:vi= 1;Q.enqueue(i); addi toC11:whileQis notemptyc=1g(i)Σj∈Ig(i)pj,(2)12:k=Q.dequeue()13:f或j∈[1,N],其中||XJ-x k||2 N θ,则我g(i)是实例Ig(i)中的点数。17:将C添加到C上述机制类似于投票生成器-[34]第三十四话然而,而不是回归边界框的基础上投票的几个subsample种子点,我们预测每个点的偏移向量,以收集周围的实例点一个共同的实例质心,为了更好地集群相关点到同一个此外,我们观察到从点到其实例质心的距离通常具有较小的值(0到1m)。图3b给出了ScanNet数据集中此类距离分布的统计分析。考虑到不同类别的不同对象大小,我们发现网络很难回归精确的偏移,特别是对于大尺寸对象的边界点,因为这些点距离实例质心相对较远。为了解决这个问题,我们制定了一个方向损失来约束预测偏移矢量的方向。我们遵循[23]将损失定义为负余弦相似性的一种手段,即,18:返回C我们算法的核心步骤是,对于点i,我们得到以xi(点i的坐标)为中心的半径为r的球内的点,并将具有与点i相同语义标签的点分组到相同的聚类中。这里,r用作聚类中的空间约束,使得距离大于r的两个类别内对象不被分组。在这里,我们使用广度优先搜索将同一实例的点分组到一个集群中。在我们的实现中,对于场景中的点,可以在聚类之前并行地找到r球内的相邻点,以提高速度。如SEC所示。3.1中,我们将聚类算法分别应用于原始坐标集P和移位集Q,以产生簇集CP和Cq。P上的聚类可能会将附近的对象错误分组,1oiLodir=−Im i||o我||2·ci-pi||2||2·m i.(三)相同的类,而Q上的聚类没有这个问题,但可能无法处理大对象的边界点我们共同使用P和Q来寻找候选聚类,因为它们具有互补的特性。分析这种损失与偏移向量范数无关,并且确保了这些点向它们的实例质心移动。3.3. 聚类算法给定预测的语义标签和偏移向量,我们准备将输入点分组为实例。为此,我们引入了一个简单而有效的聚类算法。在算法1中有详细说明。单独使用P、单独使用Q、或同时使用P和Q的群集性能在第2节中给出。第4.2.2条。3.4. ScoreNetScoreNet的输入是候选聚类C ={C1,...,其中M表示候选聚类的总数,并且C i表示第i个聚类。此外,我们使用N i来表示Ci中的点数。的目标I.N48711我M我1×KcM×KcM个群集(a) ScoreNet布拉奇布拉奇布拉奇(b) 距离分布图3:(a)ScoreNet的结构。(b)从点到ScanNet数据集[8](包括训练集和验证集)中各自实例质心的距离分布。ScoreNet是为每个聚类预测一个分数,以指示相关聚类建议的质量,以便我们可以在NMS中精确保留更好的聚类,从而进行比较。其被公式化为1ΣMpqLc评分 =−(sclog(sc)+(1−sc)log(1−sc))。(七)碳纤维强度 和C.咪呀咪呀首先,对于每个聚类,我们从F ∈ RN×K(由主干提取的特征)收集点特征,并形成FCi={F h(Ci,1),.,Fh(Ci,Ni)},其中h将Ci中的点索引映射到对应的点指 数 P. 类似地 , 我 们 将 C i中的点的 坐 标 表 示 为PCi={ph(Ci,1),., ph(Ci,Ni)}.为了更好地聚合聚类信息,我们取FCi和PCi作为初始特征和坐标,并以与我们在骨干网络开始时所做的相同的方式对集群进行语音化。 每个体素的特征是从该体素中的点的初始特征平均汇集。然后,我们将它们馈送到一个带有SSC和SC的小型U-Net中,以进一步编码特征。然后执行群集感知的最大池化以生成单个群集要素向量f Ci E ∈R每个集群。 最后的聚类得分i=13.5. 网络训练与推理训练我们以端到端的方式训练整个框架,总损失为L=Lsem+Lo dir+Lo reg+ Lc score。(八)推理在推理过程中,我们对具有预测得分Sc的聚类C执行NMS,以获得最终的实例预测GC。IoU阈值根据经验设置为0.3。 因为我们基于语义信息,聚类的语义标签正是聚类点所属的类别。Sc={s c,.,s c} ∈ RM可得为1MSc=Sigmoid( MLP(FC)),(4)其中FC={f C1,.,f CM}∈R. ScoreNet的结构如图所示3a.受[25,20]的启发,为了反映分数中聚类的质量,我们使用软标签来代替二进制0/1标签来监督预测的聚类分数,0iouiθlsc=1ioui>θh,(5)4. 实验我们提出的PointGroup架构是有效的,例如3D点云分割。为了证明其有效性,我们对两个具有挑战性的点云数据集ScanNet v2 [8]和S3DIS [2]进行了广泛的实验。在这两个方面,我们在3D实例分割任务上都实现4.1. 实验环境ScanNet v2 [8]数据集包含1,613个带有3D对象实例注释的扫描。数据集分为1θh−θl ·(ioui−θl)否则训练,验证和测试集,每个集有1,201,312,其中,在我们的实现中,θl和θh根据经验分别设置为0.25和0.75,ioui是聚类Ci和地面实况实例之间的最大Inter-section over Union(IoU),iou i= max({IoU(C i,I j)|I j∈I})。( 6)然后我们使用二进制交叉熵损失作为我们的得分损CQC得分网所分担重量。1CQC1���1×1×3P2Ci���i×���P2Ci���i×3体素化U-NetP2Ci1×100C.C.M联系C.C.M���1000每个体素MaxPoolMLP + Sigmoid布拉奇���×1…………4872失,和100次扫描。18个对象类别用于实例分割评估。对于消融研究,我们在训练集上进行训练,并在验证集上报告结果。为了与其他方法进行比较,我们在训练集上进行训练,并在测试集上报告结果。S3DIS [2]数据集在六个区域进行了3D扫描,总共有271个场景。每个点被分配13个语义类中的一个标签。所有13个类都用于实例4873方法平均AP50浴缸床书橱。橱柜椅子柜台窗帘书桌门其他。图片冰箱。S.窗帘水槽沙发桌座便器窗口SGPN [49]0.1430.2080.3900.1690.0650.2750.0290.0690.0000.0870.0430.0140.0270.0000.1120.3510.1680.4380.1383D-BEVIS [11]0.2480.6670.5660.0760.0350.3940.0270.0350.0980.0990.0300.0250.0980.3750.1260.6040.1810.8540.171R-PointNet [54]0.3060.5000.4050.3110.3480.5890.0540.0680.1260.2830.2900.0280.2190.2140.3310.3960.2750.8210.245DPC [12]0.3550.5000.5170.4670.2280.4220.1330.4050.1110.2050.2410.0750.2330.3060.4450.4390.4570.9740.233D-SIS [19]0.3821.0000.4320.2450.1900.5770.0130.2630.0330.3200.2400.0750.4220.8570.1170.6990.2710.8830.235MASC [27]0.4470.5280.5550.3810.3820.6330.0020.5090.2600.3610.4320.3270.4510.5710.3670.6390.3860.9800.276PanopticFusion [32]0.4780.6670.7120.5950.2590.5500.0000.6130.1750.2500.4340.4370.4110.8570.4850.5910.2670.9440.35[53]第五十三话0.4881.0000.6720.5900.3010.4840.0980.6200.3060.3410.2590.1250.4340.7960.4020.4990.5130.9090.439MTML [23]0.5491.0000.8070.5880.3270.6470.0040.8150.1800.4180.3640.1820.4451.0000.4420.6880.5711.0000.396PointGroup(我们的)0.6361.0000.7650.6240.5050.7970.1160.6960.3840.4410.5590.4760.5961.0000.6660.7560.5560.9970.513表1:具有AP50评分的ScanNet v2测试集上的3D实例分割结果。我们提出的PointGroup方法产生最高的平均AP50,远远优于所有最先进的方法。所有数字均来自2019年11月15日的ScanNet基准。评价总的来说,我们在两种设置下评估我们的模型:(i)区域5用于测试,而所有其他区域用于训练;以及(ii)六重交叉验证,即每个区域被视为测试集一次。评估方法我们使用广泛采用的评估指标-平均精度(mAP)。具体而言,AP25和AP50表示IoU阈值分别设置为25%和50%的AP分数。此外,AP平均得分,IoU阈值设置为50%至95%,步长为5%。此外,[50,53]的方法报告了S3DIS上的平均精确度(mPrec)和平均召回率(mRec)的性能,我们也包括这些结果进行比较。实现细节我们将体素大小设置为0.02 m。在聚类部分,我们设置聚类半径r为0.03m,最小聚类点数Nθ为50。在训练过程中,我们使用亚当求解器,基本学习率为0.001。对于数据集中的每个场景,由于GPU内存限制,我们将最大点数设置为250k。如果场景中的点超过250k,我们会随机裁剪部分场景,并根据裁剪区域中的点数量在测试过程中,我们将整个场景输入网络,而不进行裁剪。具体地,S3DIS中的场景具有高的点密度。有些场景甚至有数百万个点。因此,对于每个S3 DIS场景,我们在每次裁剪之前随机子采样1/4点。4.2. ScanNet的评价4.2.1基准测试结果我们首先报告PointGroup模型在ScanNet v2测试集上的性能,如表1所示。PointGroup实现了63.6%的最高AP50得分,大大优于所有以前的方法。与以前的最佳解决方案[23]相比,获得54.9%AP50评分,我们的结果高出8.7%(绝对)和15.8%(相对)。对于每个类别的详细结果,PointGroup在总共18个类别中的13个类别中排名第一。4.2.2消融研究我 们 在 ScanNet 验 证 集 上 进 行 消 融 研 究 , 以 分 析PointGroup中的设计和参数选择基于不同坐标集的聚类表2示出了在聚类中仅使用原始坐标P、仅使用移位坐标Q以及使用P和Q两者单独使用P对点进行聚类可能会将具有相同语义标签的两个接近对象错误地分组到同一实例中。因此,对于两个对象可能彼此非常接近的类别(例如,椅子和图片),单独在P上聚类并不能很好地执行Q上的聚类通过聚集实例质心周围的实例点并扩大聚类之间的空间然而,由于偏移预测的不准确性,特别是对于大对象的边界点(例如,窗帘和计数器),单独在Q上聚类并不能完美地执行。图图4显示了使用来自不同坐标集的聚类训练的模型的定性结果-(i)仅P,(ii)仅Q,以及(iii)P和Q。我们可以观察到(i)中的问题是错误地将墙上的图片(ii)的情况成功地将图片分离成单独的实例。然而,它在对象边界区域周围遭受不准确性。(iii)的情况需要(i)和(ii)两者的力量。 在对偶点集(P和Q)上进行聚类,以及ScoreNet的精确分数来选择最终的实例聚类,我们结合了P和Q上聚类的优势,以获得最佳性能。在聚类算法中我们使用不同的r值。性能变化如表3所示。小的r对点密度敏感。对物体的扫描可能在不同部分具有不一致的点密度。具有这样的r的聚类可能无法在低密度部分中生长。相反,较大的r会增加将两个相邻的同类物体组合成一个的风险我们根据经验将r设为0.03(米)。4874方法度量是说浴缸床书橱。橱柜椅子柜台窗帘书桌门其他。图片冰箱。S.窗帘水槽沙发桌座便器窗口AP0.2830.4140.3270.2440.1670.4930.0830.2690.0890.1930.2860.2050.2070.3730.2260.3610.2510.6840.231原件PAP500.5070.6920.6470.4810.3470.6850.2310.5080.3080.3840.4530.3590.3010.6320.5370.6600.5310.9610.413AP250.6590.8400.7640.5970.4960.7910.5880.6140.6860.5290.6000.4320.4010.6600.7750.7770.7210.9950.601AP0.3280.4990.3830.2480.2170.7130.0080.2410.1650.2160.3180.2110.2380.4220.2920.3830.3620.7990.194偏移QAP500.5290.7380.6940.5500.4350.8840.0350.3890.4100.4130.5010.3630.3660.6170.5900.6480.5710.9480.375AP250.6770.8630.7950.6990.6170.9310.4260.5410.6970.5380.6230.4460.3660.7650.8260.8480.6690.9990.533AP0.3480.5970.3760.2670.2530.7120.0690.2660.1400.2290.3390.2080.2460.4160.2980.4340.3850.7580.275两个PQAP500.5690.8050.6960.5490.4810.8770.2240.4490.4160.4200.5300.3770.3720.6440.6110.7150.6290.9830.462AP250.7130.8650.7950.7440.6730.9250.6480.6160.7410.5480.6540.4820.3830.7110.8280.8510.7421.0000.636表2:在ScanNet v2确认集上使用不同坐标集的消融结果。采用原始坐标和移位坐标进行聚类可以产生最佳的3D实例分割性能。输入(i)仅P(ii)仅Q(iii)P和Q移位坐标。图4:通过(i)仅在P上进行聚类训练的模型产生的实例预测,(ii)仅在偏移坐标Q上进行聚类训练,以及(iii)两者最后一列示出了用Q表示的(iii)的预测实例,其中填充点被忽略。方法平均AP平均AP50平均AP25r= 2cm0.2850.5010.651r= 3cm0.3480.5690.713r= 4cm0.3370.5520.700r= 5cm0.3420.5520.699点数总时间BBP和Q上的聚类SCNNMSBQp CLp BQqCLq1239,2618653329516957017682245,557261177525552143186,85756728144945319562460,07127118063715556avg132,93749124338838309541表3:具有不同半径的r在ScanNet v2验证集上。ScoreNet的消融我们还消融了ScoreNet,它用于评估每个候选聚类的质量第3.4段)。在这里,我们直接使用ScoreNet的输出分数来对计算AP的实例进行排名。除了对实例质量进行回归外,另一种方法是直接使用实例内部相关实例类别的平均语义概率作为质量置信 度 。 通 过 这 种 方 法 , AP/AP50/AP25 的 结 果 为30.2/51.9/68.9 ( % ) , 这 比 ScoreNet 的 结 果(34.8/56.9/71.3(%))差。这表明,建议的ScoreNet是至关重要的和必要的,以改善实例分割的结果,通过提供精确的分数NMS。4.2.3运行时分析我们的方法每次都将整个场景作为输入。它的运行时间取决于点的数量和场景的复杂度. 对于运行时分析,我们从ScanNet v2验证集中随机抽取了四个场景表4报告了运行时细分。聚类表4:推断时间(ms)。BB表示主链+两个支链; BQ表示球查询;下标p和q分别表示P和Q上的聚类,CL表示我们的聚类算法; SCN表示ScoreNet。方法AP50mPrec50mRec50[49]第四十九话-0.3600.287[50]第五十话-0.5530.424PointGroup†0.5780.6190.621[49]第四十九话0.5440.3820.312PartNet‡ [31]-0.5640.434[50]第五十话-0.6360.475[53]第五十三话-0.6560.476PointGroup0.6400.6960.692表5:S3DIS验证集上的实例分割结果。标记为†的方法在区域5上进行评估;标记为的方法在6重交叉验证上进行评估在Q上(移位)通常比在P上聚类花费更多的时间(原始),因为移位的点可以有更多的邻居。4.3. S3DIS的评价我们还在S3DIS数据集上评估了我们提出的PointGroup模型除了采用AP50作为评价之外,4875输入语义GT语义预测。实例GT实例预测值图5:ScanNet v2(上图)和S3DIS(下图)上的语义和实例分割结果的可视化。对于实例预测,不同的颜色表示不同的实例,语义结果表示实例的类别度量,我们还在表5中包括mPrec50和mRec50结果,其中我们使用0.2的得分阈值来去除一些低置信度聚类。PointGroup在所有三个评估指标方面都达到了最高绩效。对于区域5的结果,点组在AP50上获得57.8%,在 mPrec50 上 获 得 61.9% , 在 mRec50 上 获 得 62.1% 。mPrec50和mRec50分别比ASIS高6.6和19.7分[50对于6倍交叉验证的结果,关于AP50,PointGroup比 SGPN [49]高9.6个点,这是一个很大的差距。mPrec50和mRec50得分分别比第二好的解决方案高4分和21.6分[53]。PointGroup在不同挑战性数据集上的最佳方法的大改进证明了其有效性和通用性。在这两个数据集上的PointGroup的几个视觉图示包括在图中。五、我们观察到,所提出的方法很好地捕捉3D几何信息,并获得精确的实例分割掩模。5. 结论我们提出了PointGroup用于3D实例分割,具体重点是通过以下方式更好地分组点:探索对象实例之间的中间空间和点语义标签。考虑到两个类别内对象可能非常接近的情况,我们设计了一个双分支网络,分别学习每点的语义标签和每点的偏移向量,用于将每个点移向其各自的实例质心。然后,我们基于原始点坐标和偏移移位的点坐标对点进行聚类。它结合了两个坐标集的互补强度,以优化点编组精度。此外,我们引入了ScoreNet来学习评估生成的候选聚类,然后引入NMS来避免在输出最终预测实例之前出现重复。PointGroup取得了有史以来最好的成绩。在我们未来的工作中,我们计划进一步引入一个渐进的细化模块,以减轻语义不准确的问题,影响实例分组,并探讨结合弱或自我监督技术,以进一步提高性能的可能性。鸣谢本研究计划获香港特别行政区研究资助局部分资助(研究资助计划编号:香港中文大学14201717)。4876引用[1] 巴勃罗·阿贝·拉伊兹、乔迪·蓬-图塞特、乔纳森·T·巴伦、费 兰·马克斯和吉滕德拉·马利克.多尺度组合分组CVPR,2014。[2] 放大图片创作者:Iro Armeni,Ozan Sener,Amir R.Zamir,Helen Jiang,Ioannis Brilakis,Martin Fischer,and Silvio Savarese.大规模室内空间的3D在CVPR,2016年。[3] Anurag Arnab和Philip HS Torr。使用动态实例化网络的逐像素实例分段。在CVPR,2017年。[4] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR,2017年。[5] Kai Chen,Jiangmiao Pang,Jiaqi Wang,Yu XiaoLi,Shuyang Sun,Wansen Feng,Ziwei Liu,Jianping Shi,Wanli Ouyang,et al.实例分段的混合任务级联。在CVPR,2019年。[6] Liang-Chieh Chen,Alexander Hermans,George Papan-dreou,Florian Schroff,Peng Wang,and Hartwig Adam.Masklab:通过语义和方向特征细化对象检测进行实例分割在CVPR,2018年。[7] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空ConvNets:Minkowski卷积神经网络。在CVPR,2019年。[8] 戴安琪,天使X. Chang,Manolis Savva,Maciej Hal-ber , Thomas Funkhouser , and Matthias Nießner.ScanNet:室内场景的丰富注释3D重建。在CVPR,2017年。[9] 戴季峰、何开明、孙建。用于联合对象和填充物分割的卷积CVPR,2015。[10] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR,2016年。[11] Cathrin Elich , Francis Engelmann , Jonas Schult ,Theodora Kontogianni,and Bastian Leibe. 3d-bevis:鸟瞰图实例分割。arXiv:1904.02199,2019。[12] Francis Engelmann,Theodora Kontogianni,and BastianLeibe.扩张点卷积:关于点卷积的感受野。arXiv:1907.12046,2019.[13] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用子流形稀疏卷积网络进行3D语义分割。在CVPR,2018年。[14] Bharat hHariharan,PabloArbela' ez,RossGirshick,andJi-tendra Malik.同时检测和分割。2014年,在ECCV[15] 巴布罗,巴拉特·哈里哈兰,还有罗斯·B,他是阿贝·拉伊兹。吉尔·希克和吉坦德拉·马利克。用于对象分割和细粒度定位的超列CVPR,2015。[16] Zeeshan Hayder,Xuming He,and Mathieu Salzmann.边界感知实例分割。在CVPR,2017年。[17] Kaimi ngHe,Geor giaGkioxari,PiotrDolla'r,andRossGir-shick.面罩R-CNN。InICCV,2017.[18] Kaiming He,Xiangyu Zhang,Shao
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功