没有合适的资源?快使用搜索试试~ 我知道了~
点云语义分割中的点云布局与语义仿射变换
11819SemAffiNet:用于点云分割的王梓怡1,2,饶永明1,2,余旭敏1,2,周杰1,2,陆继文1,2*1清华大学2北京国家信息科学技术wziyi20@mails.tsinghua.edu.cn; raoyongming95@gmail.com;yuxm20@mails.tsinghua.edu.cn;{ jzhou,lujiwen}@tsinghua.edu.cn摘要传统的点云语义分割方法通常采用编码器-解码器结构,其中中间层特征被局部聚合以提取几何信息。然而,过度依赖于这些类别无关的局部几何表示可能会引起来自不同类别的外观相似或空间相邻的局部部分之间的混淆。为了解决这个问题,我们认为,中层特征可以进一步增强语义信息,并提出语义仿射变换,属于不同类别的类特定的仿射参数的中层点的功能进行在此基础上,我们提出了一种用于点云语义分割的Se- mAffiNet,它利用Transformer模块中的注意机制,隐式和显式地捕获局部区域内的全局结构我们在Scan-NetV 2和NYUv 2数据集上进行了大量的实验,并在各种3D点云和2D图像分割基线上评估了语义仿射变换,定性和定量的结果都证明了我们所提出的方法的优越性和推广能力。代码可在https://github.com/wangzy22/SemAffiNet上获得。1. 介绍点云语义分割是结构表示学习[11,45,56]和计算机视觉中的立体场景理解[15,27,49它的目的是分割场景空间到语义有意义的区域的基础上继承的构象和几何知识的点云布局。它在自动驾驶、机器人操作和虚拟现实中的成功应用一直激励着研究人员开发更细粒度和更精确的解决方案。*通讯作者图1. Semantic-Affine Transformation语义仿射变换左图是输入点云,不同的颜色表示不同的类别。我们选择一个局部部分(红色圆圈)并提取其中级特征,从而得到右上角的图。不同类别的点的某些表示在嵌入空间中相互纠缠,这可能是由外观相似性或空间相邻性引起的。我们建议对这些中级特征进行语义仿射变换,预测每个类别检索的特定仿射参数。因此,一旦获得中级点的分类预测,我们就可以通过语义仿射变换将来自同一类别的点拉得更近,同时将来自不同类别的点推开,如右下图所示。最近的点云分割方法通常采用编码器-解码器架构作为图像语义分割[4,6,7,51,69],范围从基于体素的-[2019 - 04 - 19][2019 - 04 - 19][2019 - 04][2019 -04-19][2019 - 04-19尽管编码器-解码器架构很流行,但仍然存在局部混淆问题,如图1所示。一方面,存在来自不同类别但具有相似形状的局部部分,例如相似的11820椅子和桌子的腿。另一方面,相邻的局部部分在输入空间中混合,并且可能在分割期间混淆模型,留下模糊的分割边界。原因有二:在特征处理期间大量使用局部聚合,以及中间级特征的类不可知性质。 In thecommonly- used encoder-decoder architecture, the mid-level features of the decoder are locally aggregated viaconvolution or set ab- straction. 感受野的限制为视觉上相似的局部部分产生相似的特征向量,并且聚集操作导致空间上相邻的局部部分的纠缠中级特征。因此,仅使用几何信息是不够的,并且编码器-解码器架构需要更多的知识来分离相似和纠缠的局部表示。这个问题的一个可能的解决方案是减轻对地理知识的依赖,并引入额外的语义信息来丰富中级特征。然而,大多数现有文献未能在编码器-解码器架构的网络设计中充分利用语义知识,因为语义注释主要用于数据扩充[8,44,65]或对最终预测的监督[45,46,56]。因此,来自中间层的中级特征仅通过梯度下降进行隐式或弱监督,使其几乎与类别无关。为了解决局部混淆问题,我们提出了语义仿射变换,用编码语义信息的类特定仿射参数来变换中级解码器特征,这明确地将来自同一类别的特征拉得更近,并将来自不同类别的特征推开。通过这种方式,我们增强了中间层特征的语义表示能力,提高了语义分割性能。基于所提出的语义仿射变换,我们设计了一 个 名 为 SemAffiNet 的 语 义 感 知 网 络 , 并 引 入 了Transformer [55]来管理语义信息。Transformer编码器通过自注意技术隐式地跨模态传递几何信息,而Transformer解码器中的类查询的特殊设计执行显式语义感知推理以通过交叉注意机制预测语义仿射参数我们在ScanNetV2 [14]数据集上进行了大量实验,并超过了之前最先进的BPNet [26]基线。我们还对NYUv2 [43]数据集进行了评估,以验证SemAffiNet模型的通用化能力。作为SemAffiNet的核心,本文提出的语义-仿射变换在各种设置下的3D点云和2D图像分割基线上进行了评估,揭示了本文提出的变换的泛化能力。总之,本文的贡献可以概括如下:(1)提出了语义-仿射变换,增强了编码器-解码器分段架构中的中级特征。(2)我们提出SemAffiNet执行语义感知分割显式和隐式通过特殊设计的Transformer模块。(3)在不同的数据集上进行了实验,验证了该方法的优越性和泛化能力2. 相关工作点云语义分割。现有的点云语义分割方法可以分为四类:基于体素的模型、基于点的模型、基于投影的模型和混合模型。基于体素的方法旨在将3D空间划分为有序的体素,并将2D卷积编码器-解码器架构转换为3D条件,由VoxNet [40]领导。大量的时间开销和内存成本已通过后续研究解决,包括稀疏卷积[11,20],有效的数据结构迁移[32,50]和新颖的体素化技术[52,67,71]。基于点的方法直接处理点并聚合局部信息,而不是使用传统的常规卷积核,由PointNet [45]和PointNet++ [46]领导。目前基于点的方法已经成为点云识别任务的主流,并已发展成许多分支,包括基于MLP的[16,18,25,45,46],基于卷积的[34,54,60,61]和基于图的[33,56]。基于投影的方法主要是为了有效处理而设计的,包括图像投影[1,13]和球面投影[2,42、58、59]。混合方法是将不同的处理方法相结合或融合不同的模态信息的更复杂的系统。一些方法将来自基于体素的方法的长范围相关性和来自基于点的方法的精细细节结合[10,37,53,63],而其他方法融合2D和3D知识[26,48]。语义感知分割。由于语义信息对分割任务至关重要,因此一些工作精心设计了特殊的语义感知方法来提高语义分割性能[19,39,47]。一些方法旨在不同地推理相同类别对和不同类别对之间的上下文关系。用于图像分割的Depen- dencyNet [35]在三个语义级别上统一了依赖性推理:类内、类间和全球。CGANet [39]用于点云分割,在相同类别和不同类别之间使用不同的聚合策略另一些方法则提出了多尺度监督,实现综合语义引导.在2D视觉中,CPM [57]周期性地引入中间监督,而MSS-net [30]提出逐层损失。在3D视觉中,RFCC [19]提出了对解码器层的所有级别的全方位监督。与上述方法不同的是,本文的方法通过语义仿射11821XXSemAffiNet语义仿射变换模块图2.建议的网络体系结构的图示。(a)显示了SemAffiNet的管道,它由两个主干分支(灰色),一个隐式语义感知模块(ISAM,深蓝色)和两个显式语义感知模块(ESAM,浅蓝色虚线)组成。此外,ESAM由Transformer解码器和语义仿射变换模块组成,这在(b)中进一步示出。我们计算类特定的仿射参数的加权和,以获得中级点的语义仿射参数,中级分类置信度作为线性组合权重。转换为中级功能。因此,我们不需要增加模型规模的不同聚合模块。此外,我们对中间层的语义指导比仅仅多级监督更强。用于分割的Transformer。Transformer [55]在许多计算机视觉任务中取得了巨大成功,例如分类[17,36],检测[5]和重建[64]。最近的研究采用了Transformer中的注意力机制,以利用长程相关性进行更深层次的上下文理解和更好的分割结果[21,68,70]。Maskformer[9]提出了一种掩码分类模型,该模型利用Transformer来预测二进制掩码,并统一了语义级和实例级分段。SOTR [22]提出基于Transformer atten- tion模块动态生成实例分割掩码。虽然我们在SemAffiNet中使用了与Maskformer类似的掩模分类结构,但我们将此想法从2D图像处理迁移到3D点云理解,这并不简单。此外,我们提出了语义仿射变换,以进一步加强掩模分类管道,这带来了更多的进展,掩模分类根据我们的消融研究。3. 方法在接下来的部分中,我们将首先概述3.1节中提出的SemAffiNet。那么我们将详细介绍了该架构,在3.2节中介绍了所提出的语义仿射变换,在3.3节中揭示了我们如何将其包装成即插即用的显式语义感知模块,并在3.4节中介绍了辅助隐式语义感知模块。最后,我们将在3.5节中介绍损失函数设计。3.1. 概述我们精心设计了SemAffiNet来对传统编码器-解码器模型的中级特征进行语义仿射变换。图2示出了总体架构,其可以分为以下三个部分:(1)骨干,(2)显式语义感知模块(ESAM),(3)隐式语义感知模块(ISAM)。首先,SemAffiNet的主干选择是灵活的,我们提出的模块可以很容易地添加到任何编码器-解码器分割架构。我们选择由2D和3D模态的两个编码器-解码器分支组成的BP-Net [26详情请参阅BPNet文件或我们的补充材料。最重要的是,ESAM将我们提出的语义仿射转换包装成一个即插即用模块,该模块使用专门设计的Transformer解码器显式地利用中级特征中的语义信息。如图2所示,我们采用两个ESAM模块,中级特征类别特异仿射参数中级类别预测语义仿射参数⊗加权总和点水平类别掩膜骨干TransformerISAM像素级类别掩膜EsamE点云编码器解码器⊗逐点分割三维E语义仿射变换模块图像编码器解码器⊗每像素分割D2d11822JJK一JKKKLK 联系我们JJKKJjk kJJJJJJ JJJKiΣiJjj1j 2jN{∈ ≤ ≤ ≥ ≤}KK分类置信向量ai:Si=aisi,Bi=aibi(1)一旦用零均值和单位协方差进行归一化fi=(fi−µ(fi))/σ(fi)可以进一步增强,图3.语义-仿射变换(Semantic-Affine Transformation)(a)是中层点的原始表示(b)是联合国-语义仿射变换以获得语义感知中-lev el特征fi,其用于替换fi:为不同的类别设计不同的尺度和偏见。(c)中的箭头方向表示回归的类特定仿射Jfi=Sifi+BiJ(二)参数(d)显示了中级特征的语义仿射变换结果,这些特征更有利于分类。蓝色虚线方块分别管理来自不同领域的语义知识。Transformer解码器利用交叉注意机制来获得更好的语义感知的长程依赖关系,而下面的语义感知转换模块利用类特定的仿射参数来转换骨干解码器的中级特征最后但并非最不重要的是,ISAM利用自注意机制,在Transformer编码器,以提高高层次的功能,从骨干编码器和输入ESAM的输出。ISAM融合了多模态信息,实现了隐式语义感知。3.2. 语义仿射变换由于语义仿射变换是本文的主要贡献,我们将首先介绍它的概念和技术细节。其核心思想是预测每个类别的语义仿射参数,然后根据其分类预测确定每个点的仿射参数。假设有N个类,第i层的中级特征fi的形状为(ni,di),表示第i层有ni个点,每个点用一个d-dim特征向量表示.从第3.3节中,我们可以预测层i上每个点p i的类别,并获得分类置信向量ai=[ai,ai,···,ai],0≤a≤1,1≤j≤n i,1≤k≤N,K=1,其中ai表示属于类别k的层i处的点pj的置信度。同时,我们回归了第i层每个类的语义仿射参数,包括比例因子si=siRdi,1KN,si0、1L我和of fsetbiasbi=biRdi,1KN. 进一步的技术这些语义感知的学习过程的细节参数可以在3.3节中找到。然后,我们可以通过线性组合获得层i上每个点pj的语义特定仿射参数Si,Bi。请注意,我们实现了一个软语义仿射参数分配,它引入了线性组合,而不是将搜索空间限制在s,b的精确值内的硬组合。换句话说,硬分配策略仅考虑类别预测的最高置信度得分其原因是中间层点是其自身及其相邻下层邻居的聚合结果,并且邻居可能具有与中心查询点不同的类别。因此,当较低级别中的对应片位于边缘时,中间级别点pi我们将在3.5节中进一步讨论这个问题。我们在图3中说明了语义仿射变换的原理。在(a)中,来自不同范畴的点的原始表示彼此纠缠在一起。然后,我们训练一个网络来捕捉不同类别之间的尺度和偏差的潜在区别,如(b)所示。然后,我们用语义仿射参数来表示这些区别,这些参数在(c)中被证明为ar-row方向。最后,在(d)中,语义仿射变换显式地将具有相似类别分布的中级特征相反,对于具有不同类别分布的中层特征,它们在尺度和偏移量上的差异使它们进一步分开。根据上面的讨论,语义仿射变换的最重要的先决条件是双重的。第一个是精确的类别预测器,预测中级点的准确类别分布。第二个是一个强大的语义感知模块,回归- ING代表仿射变换参数为每个类。在第3.3节中,我们展示了多层Transformer解码器可以满足这两个先决条件。3.3. 显式语义感知模块我们的目标是将上面介绍的语义感知转换的可学习参数包装到一个即插即用模块中,该模块可以在大多数编码器-解码器风格的语义分割架构中实现。我们提出 了 一 个 显 式 语 义 感 知 模 块 ( ESAM ) 作 为 多 层Transformer解码器模块,以联合和显式地推断-J J基于每个点的语义类掩码和语义仿射参数来确定仿射参数族si,bi。11823∈K≤≤J联系我们JKJKJ(Q,K,V)=dVJK联系我们Transformer解码器中的交叉注意。ESAM的输入是高级特征f0,它是骨干编码器的输出特别地,我们设计了N个可学习的类查询q(c)来查询语义特定的知识。然后ESAM的每一层都利用注意力机制从f0推理语义信息:注意softmax。QKT(3)K其中dk是缩放因子,Q、K、V是查询、键和值矩阵。我们采用类查询q(c)作为Q,而K,V是f0的映射嵌入。从ESAM的每一层,我们可以获得dh维的类特定特征hRN×dh,其编码来自q(c)的类语义知识和来自f0的场景的几何知识。语义仿射参数。基于ESAM的多层Transformer解码器结构,我们利用ESAM中间层的中间输出来计算图4.ShadowNet的插图,旨在跟踪多热点地面实况标签的中级点。列(a)示出了主干编码器中步幅操作的局部聚合Col- umn(b)表示我们如何根据较低层上对应面片的类分布来记录较高层上点的类分布。而点特征测量点和类之间的相似性。因此,该点被归类为最相似的类。另一方面,类掩码更灵活地实现以预测中间级点的类别。一旦获得M,点积运算比MLP前向计算更轻量。因此,类掩码预测更适合与我们提出的语义仿射变换相结合。总之,ESAM显式预测语义类骨干解码器:si= MLP(h u),bi= MLP(hu),掩码和语义仿射参数k k k k其中1k N表示类别k,并且存在一个-骨干解码器中间层i和ESAM中间层u之间的一对一和保序映射。原则使用更深ESAM层u的输出特征来计算更深骨干解码器层i的语义仿射参数。有关我与你之间的详细通信,请参阅补充材料。然后使用结果尺度和偏置参数s、b来执行第3.2节中介绍的语义仿射变换。语义类掩码。每个点分类N个类的分割掩码M =mkRdm,1kN通过ESAM最终层的输出h-1计算:mk=MLP(h−1)。然后,我们在类掩码m k和每点特征fi={fi∈Rdi,1≤j≤ni}上实现点积,以计算置信矩阵Ai=ai:ai=m kfi,其中ai指示属于类k的骨干解码器的层i处的点pj的置信度,并且在第3.2节中使用。注意,在传统的逐点分割方法中,例如FCN [38]或编码器-解码器风格架构UNet [51],来自解码器的最后一层的逐点特征f-1由MLP块进一步处理作为分割头,以获得逐点类预测。然而,代替经由完全连接的层线性组合通道方式的值以预测类置信度,我们利用每点特征来实现上述掩模预测和点产生以分类中间级和最终点特征。预测类掩码的优点有两个方面。一方面,类掩码具有更明确的解释意义。每个掩码mk表示类k的隐式特征,并且mk之间的点积具有可学习类查询的Transformer解码器。每个类查询表示一个类别,并查询场景几何表示中的类特定信息。然后使用语义类掩码来执行更灵活和轻量级的多级逐点分类,而语义仿射参数被应用于变换骨干解码器的中级特征。3.4. 隐式语义感知模块除了ESAM,显式原因语义信息通过专门设计的学习类查询在Transformer解码器,我们还设计了ISAM隐式开发和融合多模态的语义知识。在我们的实现中,2D高级特征f0,2d和3D高级特征f0,3d被级联在一起以形成混合Transformer编码器输入f0,mix。然后,通过输入混合特征f0,mix的三个不同的线性变换来获得查询、键和值矩阵。因此,在模态间和模态内两者处执行等式(3)中的自注意力计算,以获得更有代表性的高水平特征f0 ,2d和f0 ,3d 。一方面,通道内的自我注意的原因,从同一个通道的局部部分之间的长距离的依赖关系,附加全局信息的局部部分功能。另一方面,通道间自我注意捕捉来自不同通道的部分之间的相似性,创建软对应,并将来自其他通道的知识融合到局部特征中。因此,ISAM的输出特征既获得了长期的全局知识,又获得了多模态信息,使其具有更强的鲁棒性和代表性。因此,隐式语义意识11824J'j'j1=min(1,J通过域内和域间自关注来实现,其中与关键字语义更相似的查询对更新值矩阵贡献更大。3.5. 损失函数在传统的监督分割方法之后,我们使用交叉熵损失进行香草2D每像素分割和3D每点分割。此外,由于我们预测骨干解码器中中级点的类别标签,因此我们计算中级分割的二进制交叉熵损失。 为了获得骨干解码器的中级地面真值,我们设计了ShadowNets来跟踪其对应的骨干编码器。 如图4所示,编码器中的步幅操作聚集点{pi}表1. ScanNetV2数据集上的定量结果。我们将3D和2D mIoU与我们的基线方法BPNet进行了比较。我们还将3D mIoU与使用点云作为输入的其他作品进行了比较。标有 * 的方法使用额外的2D图像输入。在层i处的局部片Pi内到元点Pi+1j′j ′高层i+1。假设点的独热标签pi是li,那么我们的ShadowNet将元点分配给J J多热标签li+1,其记录其在较低层i处的对应贴片Pi:i+1j′pi∈Pi (4)表2. NYUv2 2D图像分割结果(13类任务)。我们将我们的SemAffiNet与典型的基于RGB-D的方法进行了jj′以这种方式,多热点地面实况标签表示中间级别层处的点的类别分布。4. 实验在本节中,我们在各种数据集上进行了广泛的实验,以验证所提出的语义仿射变换和SemAffiNet架构的优越性,计算类平均交集(mIoU)作为评估指标。在第4.1节中,我们将介绍SemAffiNet的定量和定性结果,并将其与以前的作品进行比较。然后在4.2节中,我们将在不同条件下对3D点云和2D图像分割基线进行语义仿射变换,以证明其泛化能力。此外,在第4.3节中,我们将提供消融研究,以证明每个申报模块的有效性。最后,在4.4节中,我们将讨论我们提出的方法的局限性。此外,实验设置(包括数据集介绍和实施细节)可参见补充材料。4.1. 主要结果遵循BPNet [26],我们在ScanNetV2上进行语义分割实验,在验证集上评估2cm和5cm体素设置。定量结果如 表 1 所 示 。 在 5cm 设 置 下 , SemAffiNet 分 别 超 过BPNet基线1.5%和3.1%,和联合2D-3D方法在密集像素分类精度度量上的应用。基线结果来自BPNet [26]论文,[14]的结果是11类任务。方法准确度(%)SceneNet [23]52.5Hermans等人 [24]54.3[41]第四十一话[14]第十四话3DMV [15] 71.2BPNet [26] 73.5SemAffiNet(我们的)78.33D mIoU 和 2D mIoU 指 标 。 在 2cm 设 置 下 , Se-mAffiNet在3D和2D分割结果上分别优于BPNet 2.0%和1.5%。我们还超越了其他以前的3D语义分割方法,这些方法将点云作为输入[11,19,20,44,46,54,60,62]或使用点云和辅助2D图像作为输入[29,66]。除了主要关注3D点云分割的ScanNetV2之外,我们还对由RGB图像和相应深度图组成的NYUv2 [43]数据集进行了实验。我们根据相机姿态将深度图像转换为伪点云,并采用SemAffiNet。遵循BPNet [26],我们采用13类配置并报告密集像素分类精度。实验结果如表2所示,我们的SemAffiNet远远优于这些基线方法3D mIoU(%)2D mIoU(%)[46]第四十六话53.5–[60]第六十话61.0–[62]第六十二话63.5–MVPNet*[29]66.4–KPConv [54]69.2–SparseConvNet [20]69.3–RFCR [19]70.2–[66]第六十六话72.0–MinkowskiNet [11]72.2–M[44]第四十四话73.6–BPNet* [26](5cm)70.665.1SemAffiNet*(5cm)72.168.2BPNet*(2cm)72.572.7SemAffiNet*(2cm)74.574.211825图5. SemAffiNet在ScanNetV2点云语义分割任务上的定性结果。第一列和第二列是输入点云和对应的地面实况标签。第三和第四列分别是BPNet基线和我们的方法SemAffiNet的分割结果如第一行红色矩形所示,SemAffiNet能够识别椅子,而BPNet不能。From the second line, SemAffiNet correctly identifies that the object in the red rectangle is not chair, while BPNet fails.最后一行显示了类别和可视化颜色之间的对应关系。这证明了它的优越性。定量结果如图5所示。从第一行示例中,我们的SemAffiNet能够识别BPNet基线未能正确分割的微妙椅子。从第二行示例中,我们的SemAffiNet正确地分类了视觉上类似于椅子的其他家具对象。从这些定性结果中,我们可以证明SemAffiNet优于BPNet基线。一方面,它具有识别容易与背景混淆的细微局部的另一方面,它可以正确地将视觉上与其他类别相似的对象分类。4.2. 语义仿射变换的效果除了SemAffiNet架构之外,我们还通过将其包装为即插即用模块ESAM并将其插入到各种3D点云和2D图像编码器-解码器分割基线中来独立地评估语义仿射变换。点云方法又可分为基于体素的方法和基于点的方法。对于基于体素的3D分割方法,考虑到其效率和高性能,我们选择MinkowskiNet [11]作为基线。我们在5cm和2cm体素化设置下对ScanNetV2 [14]验证集进行语义分割,结果如表3的前两行所示。通过将ESAM插入Minkowsk-iNet,我们在3D mIoU结果上达到了更高的性能。对于基于点的3D分割方法,我们选择KPConv [54](刚性)作为基线,因为它是表3.将ESAM插入各种语义分割基线的定量结果。前两行显示了ScanNetV2数据集上基于3D体素的MinkowskiNet的结果。第三行显示了基于S3 DIS数据集上基于3D点的KP-Conv的 结 果 。 最 后 两 行 显 示 了 基 于 2D Cityscapes 数 据 集 的SemanticFPN的结果。方法数据集mIoU(%)MinkowskiNet(5cm)[11]ScanNetV267.4+ESAMScanNetV268.8MinkowskiNet(2厘米)ScanNetV272.2+ ESAMScanNetV274.0KPConv [54]S3dis65.8+ ESAMS3dis66.7[31]第城市景观76.1+ESAM城市景观77.2SemanticFPN(Res101)城市景观77.4+ ESAM城市景观79.0最经典的基于点的方法,并且在许多最近出版的论文中作为基线进行了分析[19,44]。我们对S3DIS [3]数据集进行语义分割,结果如表3的第三行所示。定性结果证明了ESAM的改进,证明了语义仿射变换在基于体素的11826表4.在5cm体素化下,对ScanNetV2验证数据集上SemAffiNet设计的个体贡献进行消融研究消融开始↓IDXVNF.FCF.M.FCM.MBNAdaIN SA保险丝2D mIoU3D mIoU骨干查看地图一B35✓✗ ✗✓✗ ✗✗✗✓✗ ✗✓✗ ✗✗✗65.165.570.670.1Esam多层次分割CDe555✗ ✓✗✗ ✓✓✗ ✓✗✗✗✓✓✗ ✗✓✗ ✗✓✗ ✗✗✗✗65.865.467.270.370.670.8SemAffineFG55✗ ✓ ✗✗ ✓ ✗✓✓✗ ✓✗✗✗ ✓✗✗66.868.071.271.8ISAM多模态H5✗ ✓ ✗✓✗ ✗ ✓✓68.272.1SemAffiNet查看地图我3✗ ✓ ✗✓✗ ✗ ✓✓68.370.7以及基于点的点云分割方法。对 于 2D 图 像 分 割 方 法 , 我 们 选 择 经 典 的SemanticFPN [31]作为基线,实现ResNet-50和ResNet-101设置。我们对Cityscapes [12]数据集进行语义分割,结果如表3的最后两行所示。定量结果表明,ESAM不局限于3D域,在不同的设置下,对2D分割基线的改善效果是一致的。4.3. 消融研究为了测量每个SemAffiNet模块的贡献,我们在5cm设置下对ScanNetV2确认套件进行消融研究ESAM可分为两个部分: 多层次分割与语义仿射转化(SA)。对于多级分割,我们增加了中间层分割(M)。)除最终水平分段(F. 用掩码分类器(M)代替全连接分类器(FC)ISAM模块保险丝多 模 态 信 息 ( Multi-Modality Information , 简 称MMS)。消融结果如表4所示,我们得出结论,每个块都对整体进展做出了自己的贡献,其中语义仿射变换是最有效的。除了对SemAffiNet的子模块进行消融之外,我们还通过将其替换为自适应实例规范化(AdaIN)[28]来进一步探索语义仿射变换的优越性,其仿射参数完全通过梯度下降学习,缺乏明确的语义指导。比较表4中的行e、f、g,AdaIN(行f)与vanilla批归一化(行e)相比几乎没有带来改进。然而,语义仿射变换(g线)产生更显着的进展。此外,我们还进行了消融实验的数量的2D视图(VN)。根据a,b行,向BPNet [26]基线添加视图不会导致更好的结果,而是增加了计算负担。原因可能是当处理3个视图时,网络的潜力被耗尽然而,根据我们的实验(第h行和第i行),我们的SemAffiNet在3D语义上表现更好将视图编号从3增加到5时进行分割。实验结果表明,我们的SemAffiNet揭示了更多的语义知识,具有更大的潜力。4.4. 限制尽管所提出的语义仿射变换是一种增强点云特征语义认知能力的通用表示学习技术,但在更广泛的点云理解任务上迁移和执行它是一个重要的问题。由于我们需要对中层点进行逐点监督,因此当逐点注释不可访问时,我们需要开发弱监督或无监督学习技术。5. 结论在本文中,我们提出了语义仿射变换,明确映射的中级功能的骨干解码器,以更语义不同的嵌入。基于这种技术,我们建立了一个语义感知的分割网络SemAffiNet。ESAM通过Transformer解码器使用可学习的查询令牌显式预测类掩码并回归语义仿射参数,而ISAM通过自注意机制融合多模态信息。我们在ScanNetV2数据集上使用SemAffiNet进行实验,并优于以前最先进的BPNet。我们还证明了语义仿射变换的泛化能力,通过将其包装成一个即插即用的ESAM,并在各种设置下对3D点云和2D图像分割基线我们相信,语义仿射转换将推动社区的相关工作,其简单的实现和合理的见解。确认这 项 工 作 得 到 了 国 家 自 然 科 学 基 金 62125603 和U1813218的部分 资助,以及 北京人工智 能研究院(BAAI)的部分资助。11827引用[1] Eren Erdal Aksoy 、 Saimir Baci 和 Selcuk Cavdar 。Salsanet:用于自动驾驶的激光雷达点云中的快速道路和车辆分割。在IEEE智能车辆专题,第926-932页,2020年。2[2] Inigo Alonso,Luis Riazuelo,Luis Montesano,and AnaC Murillo. 3d-mininet:从点云学习2D表示,以实现快速高效的3D激光雷达语义分割。IEEE Robotics andAutomation Letters,5(4):5432- 5439,2020。2[3] Iro Armeni,Ozan Sener,Amir R Zamir,Helen Jiang,Ioannis Brilakis,Martin Fischer,and Silvio Savarese.大规模室内空间的三维语义解析。在CVPR,第1534-1543页,2016年。7[4] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。TPAMI,39(12):2481-2495,2017。1[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在ECCV,第213-229页,2020中。3[6] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI,40(4):8341[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv:1706.05587,2017. 1[8] Yunlu Chen , Vincent Tao Hu , Efstratios Gavves ,Thomas Mensink,Pascal Mettes,Pengwan Yang,andCees GM Snoek. Pointmixup:点云的增强。在ECCV,第330-345页,2020中。2[9] 作者:Alexander G. Schwing,and Alexander Kir- illov.每像素分类并不是语义分割所需的全部arXiv,2021。3[10] Ran Cheng,Ryan Razani,Ehsan Taghavi,Enxu Li,and Bingbing Liu. 2-s3 net:稀疏语义分割网络的自适应特征选择的注意特征融合。在CVPR中,第12547-12556页,2021年。2[11] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积:Minkowski卷积神经网络。在CVPR中,第3075-3084页,2019年。一、二、六、七[12] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,2016年。8[13] Tiago Cortinhal George Tzelepis 和 Eren Erdal Aksoy 。Salsanext:激光雷达点云的快速、不确定性感知语义分割在ISVC,第207-222页,2020年。2[14] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet:室内场景的丰富注释3D重建。在CVPR中,第5828-5839页,2017年。二六七[15] 安吉拉·戴和马蒂亚斯·尼斯纳3dmv:用于3d语义场景分割的联合3d多视图预测。在ECCV,第452-468页,2018年。1、6[16] 邓双和董秋蕾。Ga-net:用于点云语义分割的全局注意力网络。IEEE Signal Processing Letters,2021。2[17] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. arXiv预印本arXiv:2010.11929,2020。3[18] 范思琪,董秋蕾,朱风华,吕义生,叶培军,王飞跃。Scf-net:学习空间上下文特征用于大规模点云分割。在CVPR中,第14504-14513页,2021年。2[19] 龚靖宇、徐嘉辰、辛坦、宋海川、曲燕云、元燮、马丽庄。通过渐进感受野分量推理的全监督点云分割。在CVPR中,第11673-11682页,2021年。二六七[20] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。在CVPR中,第9224-9232页,2018年。一、二、六[21] Meng-Hao Guo,Jun-Xiong Cai,Zheng-Ning Liu,Tai-Jiang Mu , Ralph R Martin , and Shi-Min Hu. 点 云Transformer。Computational Visual Media,7(2):187-199,2021。3[22] 郭 若 豪 , 牛 丹 彤 , 曲 廖 , 李 振 波 。 Sotr : 使 用transformers分割对象。在ICCV,第7157-7166页,2021年。3[23] AnkurHanda、VioricaPatraucean、VijayBadrinarayanan、Si-mon Stent和Roberto Cipolla。通过合成数据了解真实世界的室内场景。在CVPR中,第4077-4085页,2016年。6[24] Alexander Hermans,Georgios Floros,and Bastian Leibe.基于rgb-d图像的室内场景密集三维语义映射在ICRA,第2631-2638页,2014年。6[25] Qingyong Hu,Bo Yang,Linhai Xie,Stefano Rosa,Yulan Guo,Zhihua Wang,Niki Trigoni,and Andr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功