基于体素网格网络的3D语义分割

105 浏览量更新于2023-10-15 收藏 1.68MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15488VMNet：基于体素网格网络的Geodexi-Aware三维语义分割Zeyu HU*1、Xuyang Bai1、Jiaxiang Shang1、Runze Zhang2、Jiayu Dong2、Xin Wang2、Guangyuan Sun2、HongboFu†3和Chiew-Lan Tai11香港科技大学2光速量子工作室、腾讯3香港城市大学摘要近年来，由于强大的3D CNN，基于稀疏体素的方法已经成为用于室内场景的3D语义分割的最先进的方法。尽管如此，由于忽略了底层几何结构，基于体素的方法在空间上接近的对象上遭受模糊的特征，并且由于缺乏测地线信息而难以处理复杂和不规则的几何结构鉴于此，我们提出了体素网格网络（VMNet），一种新的3D深度架构，利用欧氏和测地线信息的体素和网格表示操作。直观地，从体素提取的欧几里得信息可以提供表示附近对象之间的交互的上下文线索，而从网格提取的测地线信息可以帮助分离空间上接近但具有断开的表面的对象。为了将这样的信息从两个域，我们设计了一个域内注意有效的功能聚合模块和域间atten- tive模块的自适应特征融合。实验结果验证了VMNet的有效性：具体而言，在用于室内场景的大规模分割的具有挑战性的ScanNet数据集上，它的性能优于最先进的SparseConvNet和MinkowskiNet（在mIoU中为 74.6% vs 72.5% 和 73.6% ），网络结构更简单（17M vs 30M和38M参数）。代码发布：https：//github.com/hzykent/VMNet1. 介绍由于近年来RGB-D扫描方法的巨大进步[63，27，10]，使用手持式消费级设备可靠地跟踪和重建3D表面已经成为可能。使用这些方法，具有重建表面和语义注释的大规模3D数据集现在是可用的[8，4]。然而，与3D表面重建相比，3D场景理解，即，理解重建场景的语义，仍然是一个相对开放的研究问题。*腾讯光速量子工作室†通讯作者图1. 体素化导致的测地线信息丢失的说明。考虑到椅子扶手处的绿点，在输入3D网格表面（左）上，可以容易地收集其测地线邻居（蓝色），并且不同对象的点自然地分离。在体素化（右）之后，测地线信息被丢弃，并且仅可以提取对底层表面不可知的欧几里得邻居（红色）。扫描部分取自ScanNet数据集[8]。受到2D CNN在图像语义分割中的成功的启发[5，36]，研究人员非常关注通过在规则网格上执行体积卷积将此想法直接扩展到3D [39，66，44]。具体而言，首先将表面重建投影到离散的3D网格表示，然后应用3D卷积滤波器通过在相邻网格体素上滑动内核来提取特征[54，62，72]。这样的特征可以在欧几里德域中平滑地传播以积累强上下文信息。不幸的是，基于密集体素的方法需要密集的计算能力，因此仅限于低分辨率情况[35]。为了处理大规模数据，已经提出了稀疏体素卷积[17，7]，以通过忽略不活动的体素来降低计算要求。受益于有效的稀疏体素卷积，已经构建了复杂的网络，在几个3D语义分割基准上取得了领先的结果[8，4]，并且大幅优于尽管取得了显著的成就，基于体素的方法是不完美的。它们的主要局限之一是由体素化过程引起的测地线信息损失（参见图1B）。①的人。最近的公共数据集如Scan-Net [8]以高质量三角形网格的形式提供3D场景重建，其中表面信息被自然编码。在这些网格上，不同对象的顶点被很好地分离，并且是测地线15489输入网格SparseConvNet我们的地面实况未分类墙地板橱柜床椅子沙发桌子门窗书架画柜书桌窗帘冰箱浴帘卫生间水槽浴缸其他家具图2. 基于体素的方法的局限性。（上图）“椅子”的一些点（下）在具有复杂和不规则几何形状的区域（例如，“表”的基础部分可以通过边缘连接性容易地聚集特征。然而，体素化过程省略了所有网格边缘并且仅保留网格顶点的欧几里得位置。因此，在体素上操作的卷积滤波器首先，这些过滤器生成相似的功能，体素是接近的欧几里德域，即使这些体素可能属于不同的对象，并在测地线域遥远如图1的顶部示例所示。2，这些模糊的特征对空间上接近的对象产生次优预测。其次，在没有关于形状表面的测地线信息的情况下如图1的下部示例所示。在图2中，该属性对于具有复杂和不规则几何形状的区域上的分割是有问题的。我们讨论了基于体素的方法在上下文学习中的优势以及它们在测地线信息丢失方面的问题。设计一种重新解决问题的方法，同时通过利用欧几里得和测地线信息来保留这些优点，这是很有吸引力的。一种可能的解决方案是将体素和原始网格分别作为欧几里德和测地线信息的源。因此，很自然地会问这两种表示如何在一个共同的体系结构中结合为了解决这个问题，我们提出了体素网格网络（VMNet），一种新的深层次架构的测地线感知三维语义分割。从网格表示开始，为了在欧几里得域中提取信息丰富的上下文特征，我们首先对输入网格进行体素化并应用稀疏体素卷积。接下来，为了结合测地线信息，将提取的上下文特征从欧几里德域投影到测地线域，具体地，从体素投影到网格顶点。这些投影特征被进一步融合和聚合，以结合欧几里得和测地线信息。为了构建能够有效地学习包含来自两个域的信息的有用特征的这种深度架构，关键是设计适当的方式来聚合域内特征和融合域间特征。鉴于自注意力算子在特征处理中的巨大成功[59，41，34]，因此我们提出了VMNet的两个关键组件：域内注意聚合模块和域间注意融合模块。前者的目的是聚合的投影特征在原始网格上，以纳入测地线信息，后者的重点是有效的融合从两个领域的特征。我们进行了大量的实验，以证明我们的方法在流行的ScanNet v2基准[8]和最近的Matterport3D基准[4]上的有效性VM-Net优于现有的基于稀疏体素的方法Spar-seConvNet [17]和MinkowskiNet [7]（mIoU中为74.6%vs 72.5%和73.6%），在ScanNet数据集上具有更简单的网络结构（17 M vs 30 M和 38 M 参数），并在Matterport 3D数据集上设置了新的最先进技术。总而言之，我们的贡献有三个方面：1. 我们提出了一种新的深度架构，VMNet，它的体素和网格表示，杠杆老化的欧氏和测地线信息。2. 我们提出了一个域内注意的聚合模块，有效地细化测地线功能，通过边缘连接。3. 我们提出了一个域间注意融合模块，它自适应地结合了欧氏和测地线的功能。2. 相关工作在本节中，我们首先回顾了3D语义分割的相关工作，根据其固有的卷积类别进行组织，然后讨论了注意力机制在3D语义分割中的应用15490稀疏转换稀疏转换稀疏转换稀疏转换下采样下采样上采样上采样体素化体素顶点投影域间注意融合域间注意融合域内注意聚集域内注意聚集网格简化网格简化网格解合并网格解合并图3.体素网状网络（VMNet）概述。以彩色网格作为输入，我们首先将其栅格化，并应用基于体素的稀疏卷积来提取欧氏域中的上下文信息。然后，这些特征从体素投影到顶点，并且在测地线域中进一步聚合和融合，从而产生独特的每顶点特征。为了简单起见，这里忽略了编码器和解码器之间的跳过连接，并且仅示出了三个层级的分层体素下采样和网格简化。详细的网络结构见补充部分A。2D-3D 执行3D语义分割的常规方式是首先通过来自各种视点的3D形状的2D投影来表示3D形状，然后利用来自2D域的现有图像分割技术和架构[30，29]。而不是选择从全局投影的角度来看，一些研究人员提出将局部邻域投影到局部切平面，并用2D卷积处理它们[57，68，23]。将RGB帧作为附加输入，其他研究人员已经提出了通过2D-3D投影组合2D和3D特征的方法[9，20]。尽管这些方法可以容易地受益于图像分割技术（主要基于2D CNN）的成功，但是它们通常需要大量的附加2D数据，涉及复杂的多视图投影过程，并且严重依赖于视点选择。这些方法中的一些已经尝试通过网格纹理[23]或点法线[57]隐含地利用测地线信息。他们取得了相当不错的结果，但未能充分利用测地线信息。点转换稀疏转换部分由于在深度神经网络中处理网格边缘的困难，大多数现有的3D语义分割方法将原始点云或变换的体素作为输入[3，30，50，1，47，43，45]。基于点的方法将卷积核应用于使用k-NN或球面搜索获得的点的局部邻域[70，61，60，55，22，65，21]。已经提出了基于点的卷积核的许多设计[31，28，58，37，69]。在基于体素的方法的情况下，原始3D数据首先被转换成体素表示，然后由标准CNN处理[39，44，62，72，24]。为了解决基于体素的操作的立方存储器和计算消耗问题，最近的工作已经努力提出有效的稀疏体素卷积[17，7，56]。在基于点和基于体素的方法中，特征仅在欧几里得空间上聚合。相比之下，我们还考虑底层对象表面的测地线信息。GraphConv. 图卷积网络可以分为频谱网络[12，53]和局部滤波网络[38，2，40]。光谱网络在干净的合成数据上工作良好，但对重建噪声敏感，因此不适用于3D语义分割。局部过滤网络定义手工制作的坐标系，并在补丁上应用卷积运算。对于3D语义分割，这些方法通常在点云的局部邻域上执行[26，32]，因此忽略了底层几何形状。我们的方法属于SparseConv和Graph-Conv类别。这是类似的精神，最近的工作Schult等人。[51]，它结合了基于欧几里得和基于测地线的图卷积。然而，我们不是像[51]中那样连接从不同卷积滤波器获得的特征，而是首先在欧几里得域中积累强上下文信息，然后在测地线域中自适应地融合和聚合几何信息，从而获得显著更好的分割性能（参见第4.3节）。关注对于3D语义分割，大多数现有方法实现了对点云的局部邻域进行操作以进行特征聚合[15，60]或对下采样点集进行操作以进行上下文增强[67，64]的注意力层。在我们的工作中，而不是在点云上操作，我们建立了细心的运营商应用于三角网格。此外，与以前的作品，在一个单一的域中的处理功能，我们提出了一个域内模块和域间模块。3. 方法在本节中，我们首先在3.1节中介绍网络体系结构。然后，在第3.2节中描述基于体素的上下文特征聚合分支。第3.3节和第3.4节描述了所提出的用于域内特征聚合和域间特征聚合的15491M联系我们Σi=1SMSMMMM MMSM·SMGVM域内注意层聚合模块图4. 体素顶点投影的2D图示。顶点（x1，y1）和（x2，y2）共享同一组相邻体素，但它们的投影特征通过三线性插值（对于2D情况为双线性插值）而不同。融合最后，我们讨论了两个著名的网格简化方法，它们在第3.5节中构建了用于多级特征学习的网格层次结构。3.1. 网络架构VMNet处理两种类型的3D表示：体素和网格。如图所示3、网络由两个分支组成：根据其操作域，我们图5. 域内注意聚合模块的图示。（左）域内注意层对网格顶点进行操作，通过边缘连接聚合测地信息。（右）聚合模块由两个具有跳过连接的注意层组成。3.2. 基于体素的上下文特征聚合体素化在网格级别0处，在省略所有边缘连通性的情况下，网格顶点（Vi，fi）的输入特征（颜色）通过对所有特征fi进行平均而被变换成体素单元V u，v，w，所述特征fi的对应坐标为Vi：（xi，yi，zi）落入体素单元（u，v，w）中：n将上面的分支表示为欧氏分支，将下面的分支表示为测地线分支。fu，v，w=1B[floor（x Nu，v，wi·r）=u，（一）为了在欧几里得域中积累上下文信息，以网格作为输入，首先对着色顶点进行体素化，然后将其馈送到欧几里得分支。基于稀疏的基于体素的卷积，我们构建了一个类似于U-Net [48]的编码器-解码器结构，其中编码器与解码器对称，包括两者之间的跳过连接基于多层次稀疏体素的特征映射（S0，… Sl，... SL）可以从解码器中提取。虽然这些上下文特征为场景理解提供了有价值的因此，为了并入测地线信息，将累积的上下文特征从欧氏域投影到测地线域以用于进一步处理。ing（第3.2节）。在测地线分支中，我们准备一个简化网格（0，...，我... L），其中简化网格l的每个级别对应于稀疏体素l的下采样级别。保存网格简化过程的轨迹图以进行解池网格级别之间的操作。在解码过程的第一级（级L），将特征从体素L投影到网格顶点L，然后通过域内注意聚合（第3.3节）进行细化。的测地线特征L被解集到下一个水平L-1。在每一个随后的水平l，从投影的欧几里得特征l和未合并的测地线要素的特征首先通过域间注意融合（第3.4节）自适应地组合，然后在解池到下一级之前详细的网络结构请参见补充部分A。floor（yi·r）=v，floor（zi·r）=wi·fi，其中r表示体素分辨率，B[ ]是顶点Vi是否属于体素单元（u，v，w）的二进制指示符，并且Nu，v，w是落入该单元中的顶点的数量[35]。上下文特征聚合。为了积累上下文信息，我们基于体素卷积构建了一个简单的U-Net [48]我们采用[56]提供的稀疏实现。体素顶点投影。利用在欧几里得域中聚集的上下文特征，在每个级别l处，我们将体素l的特征变换回顶点l以用于在测地线域中的进一步处理。受先前作品[35，56]的启发，我们利用其相邻八个体素上的三线性插值来计算每个顶点通过这种方式，即使对于共享同一组相邻体素的顶点，投影特征也是不同的投影的2D图示如图12所示。4.第一章3.3. 域内注意聚合模块在上下文特征聚合和体素顶点投影之后，为了有效地细化投影特征，我们设计了一个在测地线域上操作的域内注意聚合模块。如图5（左），在每个网格级别，我们对图=（，E）由底层网格引起.请注意，我们忽略了水平上标l以便于阅读-能力我们的域内注意力层基于标准标量注意力[59]，它通常用于3D语义分割中的点云，但不用于三角形（u1，v 2）（u 2，v 2）（x1，y 1）（x2，y 2）（u1，v 1）（u2，v1）：具有测地线特征的顶点域内注意层层规范ReLU域内注意层层规范ReLU15492我我SMGV我k k kk域间注意层融合模块顶点Vi的融合特征ffuse被计算为：ffuse=ρinter（feuc）+Σω αinter（fgeo），ikij∈Niijkj（三）Tψ inter（fgeo）kikj：具有测地线特征的顶点：具有欧几里得特征的顶点01-02√d），图6. 域间注意融合模块的图示。（左）域间注意力层自适应地组合网格顶点上的测地线特征和欧几里得特征。（右）域间注意力层生成的融合特征图进一步与原始测地线特征图和投影的欧几里得特征图通过级联进行组合。网孔。具体地，在层k处，具有输入特征fgeo的顶点Vi的输出特征f’geof′geo=ρintra（f geo）+Σωijαintra（f geo），其中N1是顶点V1的与用于域内聚合的一个相同的单环邻域与域内注意力不同，域间注意力系数ω ij以欧几里得和测地线特征为条件，使得网络能够自适应地融合来自两个域的特征。如图6（右），所提出的域间attentive融合模块将欧几里得特征和测地线特征两者这些特征被馈送到一个域间注意层，然后是层规范化和ReLU激活。在被传递以进行进一步处理之前，融合的特征图被连接iki王空军j∈Ni（二）用投影的欧几里得特征图和原始的φintra（fgeo）测地线特征图kikj01-02√d），3.5.网格简化其中Ni是顶点Vi的单环邻域。函数ρintra、αintra、φintra和ψintra是逐顶点的为了构建用于多层次特征学习的深度架构，我们生成一个网格层次（M0，…我，…ML）日益简单的，相互连接的其中，ωij是注意系数，d是输出特征通道的大小。由于位置信息自然地嵌入在基于体素的上下文特征聚合步骤中，因此我们不明确地实现位置编码函数。我们的注意力层的灵感来自于[52]中的实现，其在抽象图上操作用于半监督节点分类，而我们的方法在3D网格图上操作用于测地线特征聚合。在域内注意层的基础上，我们设计了一个聚合模块，该模块在每个简化的网格级别上执行两个注意特征聚合步骤（见图1）。5（右））。3.4. 域间注意力融合模块操作体素和网格表示提出了一个需求的欧氏和测地线特征融合。为了自适应地结合两个领域的功能，我们提出了一个域间的注意融合模块。如图2所示。6（左），每对稀疏体素级之间和网格级别（除L级外），我们每-在与用于域内聚合的图相同的图=（，E）上形成注意融合（级别上标l是忽略）。然而，与处理相同域中的特征的域内注意力不同，域间注意力将从体素投影的测地线特征fgeo和欧几里得特征feuc两者作为输入。在层k处，通过合并跟踪地图简化网格的每个级别对应于下采样的3D稀疏体素的级别。对于网格简化，存在来自几何处理域的两种众所周知的方法：顶点聚类（VC）[49]和二次误差度量（QEM）[16]。在顶点聚类过程中，具有固定边长的立方体单元的3D均匀网格被放置在输入图上，并且落入相同单元的所有顶点被分组。这生成均匀采样的简化网格，可能具有拓扑变化和非流形面。相反，QEM方法根据由这种折叠引入的几何失真的近似误差来递增地折叠网格边缘，并且因此对网格拓扑具有显式控制。由于我们的目标是提取有意义的测地线信息，我们更喜欢QEM方法，因为它具有更好的拓扑保持性。然而，在原始网格上直接应用QEM方法会导致噪声区域中的高频信号[51]。因此，我们应用VC方法的原始网格的前两个网格级别，然后应用QEM方法的其余网格级别。我们在4.4节中介绍了网格简化方法的消融研究。图像说明可参见补充章节B。4. 实验为了证明我们所提出的方法的有效性，我们现在提出各种实验进行欧氏特征最短连线特征域间注意层层规范ReLU15493两个大规模的三维场景分割数据集，其中包含各种室内场景的网格点云。我们首先介绍我们在第4.1节中使用的数据集和评估指标，然后在第4.2节中介绍用于复制的实现细节。我们在第4.3节中报告了ScanNet和Matterport3D数据集的结果，在第4.4节中报告了消融研究的结果。4.1. 数据集和指标ScanNet v2 [8]. ScanNet数据集包含各种室内场景的3D网格点云。每个场景提供有语义注释和由纹理网格表示的重建表面。该数据集包含20个有效的语义类。我们分别使用1201、312和100次扫描的公共训练、验证和测试分割来执行所有实验。Matterport3D [4]. Matterport 3D是一个包含90个建筑物规模场景的大型RGB-D数据集与ScanNet类似，提供了每个建筑物的完整该数据集包含21个有效的语义类。根据以前的工作[51，45，55，57，9，23]，我们将整个数据集分别分为大小为61，11和18的训练，验证和测试集。指标. 为了进行评价，我们使用与先前工作中介绍的相同的方案[51，45，7，17]。我们报告了ScanNet的平均类交集（mIoU）结果和Matterport3D的平均类准确性。在测试过程中，我们将语义标签投影到原始网格的顶点上，并直接在网格上进行测试。4.2. 实现细节在本节中，我们将讨论实验的实现细节VMNet是用Python和PyTorch（Geometric）编写的[14，42]。所有的实验都在一个NVIDIA Tesla V100 GPU上进行数据准备我们在没有裁剪的全网格上执行训练和推理。对于VMNet的欧几里德分支，以2cm的分辨率对输入网格进行体素化为了相应地计算测地线分支的分层网格级别对于每个剩余的级别，应用QEM方法来简化网格，直到顶点数量减少到其先前网格级别的30%。为了更好的泛化能力，在训练期间对所有网格级别的边缘进行随机采样。我们使用顶点颜色作为唯一的输入功能，并应用数据增强，包括随机缩放，围绕重力轴旋转，空间平移和色度抖动。培训详情。我们通过使用Momentum SGD最小化交叉熵损失来训练网络端到端，其中Poly调度器从学习速率1 e-1开始衰减。2http://kaldir.vc.in.tum.de/scannet_benchmark/方法mIoU（%）转换类别TangentConv [57]43.8SurfaceConvPF [68]44.23DMV [9]48.3[23]第二十三话JPBNet [6]56.663.42D-3DMVPNet [25]64.1V-MVFusion [29]74.6BPNet*[20]74.9[45]第四十五话33.9FCPN [46]44.7[33]第三十三话45.8DPC [13]MCCN [19]59.263.3PointConvPointConv [65]66.6KPConv [58]68.4JSENet [21]69.9SparseConvNet [17]72.5稀疏转换MinkowskiNet [7]73.6SPH3D-GCN [32]61.0HPEIN [26]DCM-Net [51]61.865.8GraphConvVMNet（我们的）74.6稀疏+图形转换表1. ScanNet测试上的联合评分平均交叉点[8]。详细的结果可以在ScanNet基准测试网站2上找到。* 表示并发工作。4.3. 结果和分析定量结果。我们在表1中展示了我们的方法与最近的竞争方法在ScanNet基准[8]上的性能。所有方法都按方法的固有卷积类别分组，如表1所示，我们的方法得到74.6%的mIoU分数，与现有的最佳性能图卷积方法相比，实现了8.8%的mIoU的显著性能增益DCM-Net [51]和1.0% mIoU，与领先的稀疏卷积方法相比，即，MinkowskiNet [7].我们的方法实现了与SOTA 2D- 3D方法BPNet [ 20 ]相当的结果，BPNet [20]是CVPR 2021上利用2D和3D数据的并行工作，而VMNet仅将3D数据作为输入。为了公平比较，OccupSeg [18]的结果未在此表中列出，因为它使用额外的实例标签进行训练。我们还在新的Matterport3D数据集[4]上评估了我们的算法，并在表2中报告了结果。VMNet实现了整体最先进的结果，在平均类准确率方面比以前的最佳方法高出1%由于一些方法仅在这两个数据集中的一个中报告结果，因此表1和表2中列出的方法是不同的。定性比较。图7显示了我们的定性结果。15494信息mIoU（%）仅地理位置58.1仅Euc71.0VMNet（Geo+Euc）73.3基线帧内除其他mIoU（%）✓70.2✓✓72.1✓✓✓73.3表2.Matterport3D测试的平均类别准确度得分[4]。使用与ScanNet基准测试相同的网络定义。转换类别：（I）2D-3D，（II）PointConv，（III）VoxelConv，（IV）GraphConv，（V）Sparse+Graph Conv。操作者mIoU（%）向量注意力72.3边缘转换72.6标量注意力73.3方法mIoU（%）仅限VC72.3仅QEM72.9VC + QEM73.3表3. 运行时复杂度与基于SOTA稀疏体素的方法的比较。为了进行公平的比较，我们报告了它们的原始版本（Ori）和我们使用与VMNet相同类型的稀疏卷积（TS）的实现的延迟。表4. 烧蚀研究：（左）欧几里得和测地线信息;（右）网络组件。ScanNet验证集上的结果与仅在欧几里得域中操作的基于SOTA稀疏体素的方法SparseConvNet相比，VMNet为位置接近的对象生成更多独特的特征，并且由于组合的欧几里得和测地线信息，可以更好地更多定性结果见补充章节C。复杂性我们将我们的方法与两种基于SOTA稀疏体素的方法进行比较，即， SparseConvNet [17] 和MinkowskiNet [7]，因为它们的运行时复杂度。我们从ScanNet验证集中随机选择一个场景，并通过平均100次向前传递的推理时间来计算延迟结果尽管基于稀疏体素的方法的精度不依赖于稀疏卷积的因此，我们使用与VMNet相同版本的稀疏卷积（torchsparse [56]）如表3所示，VM-Net以最少数量的参数实现最高的mIoU分数。这意味着，与单独在欧氏域中提取特征相比，组合欧氏和测地线信息导致更有效的特征聚合，即使具有更简单的网络结构。VMNet的延迟略高于我们对其他两种方法的新实现。这是由未优化的投影操作引起的，其留给未来改进。更多的复杂性比较可以在补充章节D中找到。表5.消融研究：（左）细心的操作员;（右）网格简化。4.4. 消融研究在本节中，我们将进行一些受控实验，以证明在VMNet中构建模块的有效性，并检查VMNet设计中的一些特定决策。由于ScanNet的测试集无法用于多个测试，因此所有实验都在验证集上进行，保持所有超参数相同。欧几里得和测地线信息。在第三节中，我们提倡欧氏信息和测地线信息的结合。为了研究它们的影响，我们将VMNet与两个基线网络进行了比较：“仅Euc”是基于在体素上操作的稀疏卷积的U-Net结构，并且“仅Geo”具有相同的结构，但是基于在网格上操作的所提出的域内注意层。为了公平比较，我们保持这些基线的层数与VMNet的欧几里得分支相同，但增加它们的通道数以确保所有比较的方法具有相似的参数大小。如表4（左）所示，VMNet的性能优于两个基线，显示了组合来自两个域的信息的优势网络组件。在表4（右）中，我们评估了我们的方法的每个组件的有效性。如表所示，通过将域内attentive聚合模块与基线相结合，我们可以将性能提高1.9%。这种改进是通过对网格进行特征细化引入测地线信息而从域间注意融合模块，我们进一步获得约1.2%的性能提高，从两个域的自适应融合的功能细心的操作员。在第3.3节和第3.4节中，我们采用标准标量注意力[59]来构建域内注意力聚合模块和域间注意力融合模块。在表5（左）中，我们评估了影响。方法mAcc（%）猫壁地板驾驶室床椅子沙发表门风SHFpicCntr书桌Curt细胞弗里格显示辛劳水槽浴其他TangentConv [57]46.8我56.087.741.573.660.769.338.155.030.733.950.638.519.748.045.122.635.950.749.356.416.63DMV [9]56.1我79.695.559.782.370.573.348.564.355.78.355.434.82.480.194.84.754.071.147.576.719.9[23]第二十三话63.0我63.691.347.682.466.564.545.569.460.930.577.042.344.375.292.349.166.080.160.686.427.5[55]第五十五话26.7II90.895.730.319.977.636.919.833.615.815.70.00.00.012.375.70.00.010.64.120.31.7[45]第四十五话43.8II80.181.334.171.859.763.558.149.628.71.134.310.10.068.879.30.029.070.429.462.18.5扫描完成[11]44.9III79.095.931.970.468.741.435.132.037.517.527.037.211.850.497.60.115.774.944.453.521.8DCM-Net [51]66.2IV78.493.664.589.570.085.346.181.363.443.773.239.947.960.389.365.843.786.049.687.531.1VMNet（我们的）67.2V85.994.456.289.583.770.054.076.763.244.672.129.138.479.794.547.680.185.049.288.029.0方法参数（M）延迟Ori（毫秒）TSmIoU（%）SparseConvNet [17]30.171210272.5MinkowskiNet [7]37.862910573.6VMNet（我们的）17.5-10774.615495MMM输入网格SparseConvNet我们地面实况未分类墙地板柜床椅沙发桌门窗书架画柜书桌窗帘冰箱浴帘卫生间水槽浴缸其他家具图7. ScanNetVal的定性结果[8]。用于比较的关键部分用红色虚线框突出显示。不同形式的细心操作者在我们的体系结构中的作用。“Scalar Attention” refers to the operators used in VMNetas presented in Equations “向量注意力”表示标量注意力的变体，其中注意力权重不是标量而是向量，其可以调制各个特征通道。它被广泛采用在3D点云上操作的先前基于注意力的方法[60，71]。此外，我们在流行的EdgeConv [61]上实现了非注意基线构建，该方法最初被提出用于对3D点云的kNN图进行操作。如表中所示，VMNet中使用的标量注意力实现了优于非注意力基线 “EdgeConv”0.7% 和注意力变体 “VectorAttention”1.0%的最佳结果。有趣的是，非注意力基线一个可能的原因是“矢量注意力”自适应地调制每个单独的特征通道，并且在我们的情况下，该属性似乎是过拟合的网格简化。在第3.5节中，我们讨论了两种用于多级特征学习的网格简化方法顶点聚类（VC）和我们在前两层网格上采用VC方法去除噪声区域的高频信号，然后在其余网格上采用QEM方法，以获得更好的拓扑保持特性。为了证明我们的选择，我们训练了三个具有相同网络定义但在不同网格层次结构上执行的模型，并在表5（右）中比较了它们的性能。“VC+QEM” refersto the mesh对于VC方法使其大小与体素的长度相同在对应的体素级S1中。对于对于每个网格层l，QEM方法简化网格，直到顶点数减少到其前一网格层的30l−1。如表所示，我们见证了结果之间存在1.0%的显著性能差距“VC+QEM”和“仅限VC”。我们假设通过QEM方法简化的网格提供的更忠实的测地线信息导致性能增益。我们还注意到，“仅QEM”的性能这可能是由于在原始网格上直接应用QEM方法所产生的高频噪声造成的。5. 结论在本文中，我们提出了一种新的三维深层架构的室内场景的语义分割，命名为体素网状网络（VMNet）。针对基于体素的方法中缺乏对测地线信息的考虑的问题，VMNet利用体素中的语义上下文信息广泛的实验表明，VMNet在具有挑战性的ScanNet和Matter-port 3D数据集上实现了最先进的结果，在强基线上显着改善。我们希望，我们的工作将激发进一步的调查，结合欧几里得和测地线信息的想法，新的域内和域间模块的发展，以及应用geodies-aware网络的作品，以其他任务，如3D实例分割。鸣谢。本研究获香港城市大学策略性研究资助（项目编号：7005729）。15496引用[1] Yizhak Ben-Shabat 、 Michael Lindenbaum 和 AnathFischer。3dmfv：使用卷积神经网络实时进行三维点云分类。IEEE Robotics and Automation Letters，3（4）：3145-3152，2018。三个[2] Da videBoscaini ， JonathanMasci ， EmanueleRodola` ，andMichael Bronstein.用各向异性卷积神经网络学习形状对应关系。神经信息处理系统的进展，第3189-3197页，2016年。三个[3] AlexandreBoulch ， BertrandLeSaux 和 NicolasAudebert。使用深度分割网络的非结构化点云语义标注。3DOR，2：7，2017。三个[4] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niessner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：从室内环境中的rgb- d数据中学习。2017年3D视觉国际会议（3DV）。一、二、六、七[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2017。一个[6] Hung-Yueh Chiang，Yen-Liang Lin，Yueh-Cheng Liu，and Winston H Hsu.一个统一的基于点的三维分割框架在3D视觉国际会议（3DV）中，第155-163页IEEE，2019。六个[7] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空卷积：Minkowski卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第3075-3084页，2019年。一二三六七[8] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，2017年。一、二、六、八[9] 安吉拉·戴和马蒂亚斯·尼斯纳3dmv：用于3d语义场景分割的联合 3d 多视图预测在欧洲计算机视觉会议（ECCV）的论文集，第452-468页三六七[10] AngelaDai ， MatthiasNie ßner ， MichaelZoll höfer ，ShahramIzadi，and Christian Theobalt.Bundlefusion：使用动态表面重新整合的实时全局一致3d重建。ACMTransactions on Graphics （ ToG ）， 36 （ 4 ）： 1 ，2017。一个[11] Angela Dai ， Daniel Ritchie ， Martin Bokeloh ， ScottReed，JürgenSturm，andMatthiasNießner.Scancomplete：用于3D扫描的大在IEEE计算机视觉和模式识别会议论文集，第4578-4587页，2018年。七个[12] Michae¨lDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展，第3844-3852页，2016年。三个[13] Francis Engelmann，Theodora Kontogianni，and BastianLeibe. 扩张点卷积：关于感受野大小3D点云上的点卷积。在2020年IEEE机器人与自动化国际会议（ICRA），第9463-9469页。IEEE，2020年。六个[14] Matthias Fey和Jan E.伦森使用PyTorch Geometric进行快速图形表示学习在ICLR关于图形和流形表示学习研讨会，2019。六个[15] 费边湾作者声明：Daniel E.Worrall，Volker Fischer，and Max Welling.Se（3）-变压器：三维旋转翻译等变注意网络。在神经信息处理系统的进展，2020年。三个[16] 迈克尔·加兰和保罗·S·赫克伯特。使用二次误差度量的曲面在 Proceedings of the 24th annual conference onComputer graphics and interactive techniques，pages 209-216，1997中。五个[17] 本杰

下载后可阅读完整内容，剩余1页未读，立即下载