球形向量网络：三维网格分类和全景图像分割

62 浏览量更新于2024-01-18 收藏 1.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于旋转等变自注意球面矢量网络的三维网格分类和全景图像分割陈昊，赵洁宇宁波大学电气工程与计算机科学学院，宁波315000阿提奇莱因福奥文章历史记录：2022年12月13日收到2023年3月30日修订2023年3月31日接受2023年4月5日在线发布保留字：球面矢量网络部分-整体关系旋转-等变Self-attention三维网格分类球面图像语义分割A B S T R A C T球面信号存在于行星数据、激光雷达扫描和三维物体数字化等许多应用当球形数据被简单地投影到二维平面上，然后使用卷积神经网络（CNN）时，由于投影引起的失真和无效的平移等方差，文献中存在的先前算法的性能很差。本文提出了一种具有旋转等变自注意机制的球形向量网络用于部分-整体关系学习，以避免一定程度的失真。具体地说，我们首先以球形卷积网络作为前端网络来获得初级向量，然后通过提出的旋转等变自注意机制来实现向量之间的部分-整体关系，从而获得能够代表实体存在概率和方向的高级向量.实验结果表明，在刚性ModelNet 40数据集下，当训练集不旋转而测试集任意旋转时，该方法与前端网络相结合，使前端网络的三维网格分类精度提高了9%.类似地，在非刚性SHREC 15数据集下，前端网络的3D网格分类精度提高了12.2%此外，我们的方法相比，最近的方法在球形图像的语义分割任务，实现了2.2%的平均像素精度和1.3%的平均交叉工会的改善。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍近年来，随着全方位传感器的逐步商业化，越来越多的计算机视觉任务及相关领域需要在球域上处理信号例如，全景商业相机提供360° RGB 图像，全景视频由无人机和自动驾驶汽车捕获（Benseddik等人，2020），或地球表面的大气和洋流信号（Racah等人， 2017年）。更重要的*通讯作者。电子邮箱：1901100014@nbu.edu.cn（H.Chen），zhao_jieyu@nbu.edu.cnwww.example.com Zhao）.沙特国王大学负责同行审查主要数据表示由于其不规则性而难以使用标准CNN，因此它们被转换为规则的球形信号进行处理。标准CNN最近在计算机视觉任务中取得了巨大成功（Li等人，2021年; Guo等人，2021年a）。为了发挥标准CNN在球面信号域的有效性，Coors等人（2018）和Zhao等人（2018）将球面信号投影到规则平面上，以适应标准CNN的特征提取模式，但它们将球面域转换为平面域必然会导致一定程度的失真（Marc Eder等人，2020年），这严重影响了标准CNN的性能。为了直接在球域中操作以解决投影引起的信号失真，研究人员（Cohen et al.，2018; Esteves等人，2020）从理论上研究了传统CNN，认识到传统CNN的成功主要是由于卷积算子的平移等方差。为此，他们提出了各种新的球面卷积算子，并用旋转等方差代替了标准卷积算子的平移等方差。https://doi.org/10.1016/j.jksuci.2023.03.0241319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comH. Chen和J. Zhao沙特国王大学学报2然而，与传统卷积神经网络类似，球面卷积神经网络具有两个感知缺陷：（1）球面卷积神经网络受到卷积核大小的限制，其只能更多地关注局部旋转等变特征，而忽略全局旋转等变特征（Yin et al.，2019年; Wang等人， 2020年）。(2)在球面卷积神经网络中，神经元的活性由权向量和激活向量这不是对视觉中非常重要的协方差结构建模的好方法（ Hinton ，2021）。为了解决第一个缺陷，我们需要神经网络具有像人类视觉系统（Hinton，1979）那样的部分-整体层次结构，也就是说，通过在姿势之间建立姿势关系来概括未知姿势是一种有效的方式。一个部分和整体的姿态。然而，传统的标量神经网络不能动态分配神经元，很难构建一个部分-整体的层次结构。因此，胶囊网络（Mensah等人，2022），以向量为核心表示。此外，神经网络的向量值单元表示可以有效地保护3D对象的特征（Chen等人，2022年）。第二个缺陷可以通过在激活向量之间构建自注意机制来纠正。受上述工作的启发，本文提出了一种称为自注意球向量网络的网络（详见图1我们的网络的核心是一个向量神经元表示，以尽可能多地表示完整的局部信息。我们通过所提出的球形自注意算法在不损失旋转等方差的情况下构建向量之间的部分-整体层次结构，以捕获全局信息。由于本文提出的自注意球面向量网络可以组合成多个经典球面CNN作为前端模块，可以处理球面信号的各种任务。为了验证我们提出的网络架构的有效性，我们主要进行了实验上的三维网格分类和全向图像语义分割任务。Fig. 1.概述我们提出的方法。该方法结合了胶囊网络和自注意机制的思想。首先以球面信号为输入，利用球面卷积网络形成主矢量;然后使用所提出的旋转等变自注意算法获得类向量。该方法模仿人类视觉系统，构造了一个旋转等变的自注意部分-整体层次结构，这对于未知姿态的三维网格分类和提高球面信号的特征提取能力具有重要意义.我们的主要贡献概括如下：为了有效地保持球形信号的旋转等变特征，我们设计了一种新的球形卷积神经网络的旋转等变向量值单元表示.我们提出了一个球面自注意算法来构建部分-整体层次。我们还从理论上证明了所提出的算法的旋转等方差。在三维网格分类和球面图像语义分割任务上的评价实验表明，自注意球面向量网络比原始标量球面卷积网络具有更强的特征提取能力我们的文章结构如下。第2节介绍了相关的工作。第3节介绍了基于快速傅立叶变换（FFT）的球面向量网络（Drivel和Healy，1994）和具有Clebsch-Gordan矩阵的旋转等变球面自注意算法（Weiler等人，2018）学习球形信号，然后是第4节中的3D网格分类和全景图像分割的结果。第五部分是论文的结论。2. 相关作品如何设计一种健壮的、通用的网络结构以适应分类和分割的要求，已成为当前的研究热点。在本节中，我们主要介绍我们的相关网络架构。2.1. 球形CNN近年来，出现了几种球形卷积神经网络，以便能够直接提取球形域中的特征，以解决投影引起的信号失真。Cohen等人（2018）将2D等变卷积神经网络扩展到等变球形卷积神经网络，该网络在球形域上处理球形信号。Esteves等人（2020）通过球谐基扩展了以前的球形卷积网络，并提出了一种新的谱域池。Jiang等人（2019）提出了一种有效的卷积核，用于通过使用参数化微分算子来处理球形信号。Shen等人（2021）通过使用可定向偏微分算子设计了一个球形等变卷积神经网络。 Mitchel等人（2022）提出了一种新的莫比乌斯等变球面卷积神经网络。然而，上述工作更多地集中在卷积核的设计上，而忽略了从局部到整体的层次结构的建立，这在人类视觉系统中尤为重要。2.2. 胶囊网络为了允许神经网络覆盖图像的大区域而不丢弃该区域中实体的精确位置信息（Mensah等人，2022; De Sousa等人， 2022），近年来已经提出了各种路由算法。Sabour等人（2017）提出了使用动态路由算法结合部分和整体的胶囊网络，Hinton等人（2018）提出了●●●H. Chen和J. Zhao沙特国王大学学报3Y2C×2½]2½]2½]ð Þ×ð ÞMJMS2c¼1ZX.ΣC期望最大化路由算法，Bahadori和Taha（2018）提出了一种基于奇异值分解的路由算法，Wang和Liu（2018）提出了一种具有类聚类目标函数的路由算法。为了从理论上确保胶囊网络的等变性，Lenssen等人（2018）提出了一种组等变胶囊网络。胶囊网络已经取得了令人鼓舞的成果，2D表1主要符号和说明。符号描述R; T 3× 3旋转矩阵a;b;cZYZ欧拉角C球形信号B球面网格图像分类（Ma等人，2021年; Jaiswal等人， 2018）和seg-M球谐函数心理学（LaLonde和Bagci，2018年。）近年来。因此，一些努力已经开始探索用于3D的 3D胶囊网络。Q; K; V嵌入特征矩阵qi; ki;vi查询向量、键向量和值向量Wq;Wk;Wv学习权重矩阵对象分类 Cheraghian和Petersson（2019）提出了一个W旋转等变矩阵新层称为ComposeCaps，它取代了由置换不变量引起的空间关系的丢失，学习了一种新的有用的胶囊映射，可以被胶囊网络利用Zhao等人（2020）提出了一种用于处理点云的3D胶囊网络。该算法从输入点云中获得稀疏的局部参考系集，并通过新的四元数动态布线程序建立端到端变换。 Chen等人（2022）基于3D网格模型设计胶囊网络，其使用网格模型的局部形状信息和拓扑来表示胶囊。虽然上述方法通过使用胶囊网络在3D视觉领域做出了贡献，但它们没有将胶囊的概念应用于球形信号处理。2.3. Transformer网络原始的Transformer网络（Vaswani等人， 2017）在自然语言处理方面取得重大突破，近年来，研究人员将其应用于图像分类等计算机视觉任务（Dosovitskiy et al.， 2021）和物体检测（Carion等人，2020; Kim等人，2021年），与CNN相比，性能有了显著提高。为了更适合图像任务，Liu等人（2021）提出了一种使用滑动窗口的多级视觉Transformer。Xie et al.（2021）在此基础上引入了自监督学习 Cao等人（2021）对该方法进行了扩展，提出了类似于U-Net架构的Transformer用于医学图像分割，取得了较好的效果。在3D视觉领域，几个前沿也在研究Transformer网络的可行性。Lin等人（2021）提出了一种使用变换器的端到端人体姿势和网格重建。Guo等人（2021 b）提出了一种名为点云Transformer的新框架，用于点云学习。 Han等人（2021）提出了一种新的点云表示学习架构，称为双Transformer网络（DTNet），它可以通过同时聚合精心设计的点方向和通道方向多头自注意模型，从位置和通道角度获得更丰富的上下文语义依赖。受上述工作中使用的局部贴片结构的启发，我们构造了一个球形Transformer来处理各种球形信号而不丢失旋转等变。3. 自注意球向量网络在本节中，我们将首先回顾球面卷积的基本原理（Cohen等人，2018; Esteves等人， 2020年）。然后，我们将最后，我们Q K VQkm型Clebsch-Gordan矩阵N;D向量的通道数和向量利润损失交叉熵损失和骰子损失yr;yf真实标签和预测标签wc对应于cc类的发生频率3.1. 球面卷积基础S2表示范数为1的点x R 3的集合。S2是一个二维流形，可以用球面坐标a2½0;2p]和b2½0;p]来表示。从数学上讲，卷积-定义为（Cohen et al.， 2018年）的情况：½uωf]ðRÞ¼ZXuc.R-1xB2fcB2xB2dxB21其中u是卷积核，f是S2上的球形信号;C是特征的数量（在我们的实验中，C= 6），R是3 3旋转矩阵这是定义通过ZYZ-欧拉角a0; 2p;b 0;p，和c0; 2p。SO3表示旋转的集合。旋转群是一个三维流形，可以用ZYZ-欧拉角a2½0;2p];b2½0;p]和c2½0;2p]表示。在数学上，SO_（13）上的卷积被定义为（Cohen et al.， 2018年）的情况：C½uωf]ðRÞ¼uc R-1TfcTdT2第3页第1页其中u是卷积核，f是SO3上的实值信号，C是特征的数量。R和T都是3 ×3旋转矩阵。3.2. 球面向量模球面卷积神经网络需要球面信号作为输入。对于3D网格分类，我们通过使用光线投射获得3D模型的球形信号（详细参见图4）。对于球形图像语义分割，我们遵循（Jianget al.，2019）对原始等矩形图像进行采样，得到球面信号（详见图7）。球形向量模块包含球形卷积层和球形卷积向量层。我们的球形卷积层如下（Cohen等人，2018年），建立S2Conv区块。为了降低球面卷积的时间复杂操作，我们可以通过使用快速傅里叶变换（FFT ）（ Drivel 和Healy，1994）计算S2上的球面卷积：球形向量网络与旋转等变自在三维网格分类2和球面图像语义分割。为了便于理解本节中的数学符号，我们在表1中给出了主要的数学符号。其中u是卷积核，f是S上的球面信号，学习傅立叶系数。YJ<$x<$是球谐函数，-J6M6J和J;M2N。然后，我们可以得到球形特征S2H. Chen和J. Zhao沙特国王大学学报4ð Þð Þ× ××我.ΣJ2novjj2f 0;. . . ;N-1gl/l2（Drivel和Healy，199 4）。如果输入f在2RC×2B×2B中，则它可以2我纪‘PK我‘PV我expq>kj0;806i;j6N-15：加权和：vl=1/4aij0vi;806i;j06Nl-1QQKKVV我我我我我我我pdk我我我我JÞ2米长JS上的地图通过使用快速傅里叶逆变换（IFFT）Wð7Þ获得fC×2B×2B×2B通过球形卷积层，J<$Jm-kji <$-J输出2R其中u其中，B是带宽，C是通道数不同于（Cohen et al.，2018年），我们的球形卷积向量层用于通过使用N个通道的500个球形卷积D维向量来获得旋转等变主向量。即每个ð Þ是的。Qkm2R2k1×2m1是克莱布施-戈尔丹马特里塞和YJ2R2J<$1是球谐函数.算法1.球面自注意算法主向量包含DSO300个球形卷积单元，B带宽。SO 3上的球面卷积也可以通过使用FFT和IFFT来计算，以获得特征图（见图1）。 2详细）。总的主向量具有N2 B2 B2 BD维向量，每个向量与输入：第l层的第i个主向量x lji2 f 0;. ;Nl-1g，和旋转等变的矩阵W ′;W′和W′。Q K V在2B×2B×2B的网格中相互连接。如果输入f在2RC×2B×2B×2B中，1：计算查询：qi<$W那么它可以得到f2 RN×D×2B×2B×2B通过球面卷积'P0QI出来2：计算密钥：ki1/WD是向量的维数。3.3. 自注意球向量模3：计算值：vi1/4WPexpq>ikj00l我这是由于其独特的自我注意机制。第一步是得到值V，键K和查询Q，其中值V，键K6：挤压激活功能：vl1¼Jlvl1伊 ¨2和查询Q来自相同的输入特征向量，但是具有不同的l1 vj 伊嵌入式然后，查询Q和键计算K，并通过softmax执行概率最后，将概率值乘以值V。马特实际上，该基本自注意机制函数f被定义为：输出：第j层L1JF.Wqx;Wkx;Wvx1/4softmax.Q>Pink！V4本文重新定义了多头atten的计算，根据上述旋转等变矩阵W其中，x是维度为dm的输入特征向量。Q; K和它是球形自注意算法。我们有V2RDk×dm是嵌入式特征矩阵.哪里exp.Q>KV8>Wq x¼ Q; Wk x¼ K和Wv x¼ V。到被特异性，Wq; Wk和WvR dk×dm是学习的权重矩阵。为了共同注意从不同表征空间并行收集的信息，自我注意fQ;K;V哪里exp.QK机制也可以扩展到多头自注意机制我们表示这个多头自我注意函数f由Q¼Conca t.W0;. . . ;WK¼Conca t.W0;. . . ;Wf Q; K; V Ch0;.. . ; h m W c5哪里V¼Conca t.W0;. . . ;W其中，x是维度为dm的输入特征向量。Whi½f.Wqx;Wkx;Wvx;i¼0;.. . ;m6Q K V都是旋转等变矩阵（在我们的实验中，0~3）。其中，x是维度为dm的输入特征向量。Q; K和V2 Rdk×dm是嵌入式特征矩阵其中，Wq x¼ Qi; Wk x¼Ki和Wv x¼ Vi.到被具体地，W q; W k; W v2 R dk×dm和W c2 R mdk×dm，i 1/4 0;. ;m是学习的权重矩阵。从我们对自我注意机制的简要描述中可以看出，多头注意在自我注意机制中起着重要的作用。受启发，我们利用向量间的多头自注意机制，部分-整体层次关系。此外，为了确保如图3（b）所示，旋转等变神经网络是一个这样，如果对象被旋转并馈送到网络，则生成特征等效于将相同的旋转应用于该特征。换句话说，旋转等变网络可以识别任何方向上的对象，而不依赖于大量的旋转增强数据。我们现在准备证明了球面自注意算法是旋转等变的。定理1球面自注意算法U在算法1中定义，满足T RU。x1×1U。TRxl，其中TR表示旋转转型多头自注意机制的旋转等变性nism，我们引入一个旋转等变矩阵WR×代替原来的线性矩阵。在数学上，它可以被定义为（Weiler等人， 2018年）的情况：证据证明在附录A中给出。综上所述，可以得出结论，所提出的球形自注意算法是旋转等变的。为了定性地说明这一点，可以定义等方差误差P矢量图层，其中N是矢量的通道号4：注意权重：aij0 ¼原始Transformer在自然语言编程中H. Chen和J. Zhao沙特国王大学学报5我我ð Þð Þð Þð Þ. . ΣΣ图二、提出了一种用于三维网格分类的自关注球形向量网络的编码器框架首先利用光线投射法将三维网格模型预处理成球形信号，然后利用球形向量模块和自注意球形向量模块得到类向量，用于计算边缘损失。图三. (a)不同分辨率下的旋转等变误差和（b）高级矢量的旋转等变可视化。图（b）的第一行显示了球形信号x，它通过我们的方法f，然后通过旋转矩阵R，得到高级向量的二维特征图。第二行显示了球形信号x，它通过旋转矩阵R，然后通过我们的方法f，得到高级向量的二维特征图最后的二维特征图显示/RxR/x，这意味着我们的方法是旋转等变的。误差std.T RU。xl-U。TRxl我12个矢量网络。如图 5、在编码结构中，我们1/4标准U xlÞ我们在图3（a）中绘制了不同分辨率下随机旋转的平均同变误差。我们看到，在我们的球形自注意算法之后，输出是旋转等变的。3.4. 网络架构如图2所示，我们已经构建了我们的球形向量层和自注意力球形向量层。对于3D网格分类，我们首先使用经典的球形卷积网络（Cohen等人，2018）作为骨干，然后使用所提出的自注意球向量算法获得高级向量（详细信息见附录B）。最后，高级向量执行SO 3积分（Cohen等人，2018），以获得指示存在的活动类向量。每个类的实例（Sabour等人，2017年）。对于球形图像语义分割，我们还构建了一个新的网络结合的U-Net架构与建议的自注意球，使用线性插值对相等的信号进行矩形图像到球体上，然后使用S2Conv，SO3Conv和球面自注意算法来获得潜在的空间表示。解码器通过三线性插值构造一个与编码器对称的结构，然后在SO3空间中进行gamma方向的积分，得到SO2空间中的向量，根据向量的长度来表示每个类的存在概率最后，我们使用最近邻插值来获得全景图的语义分割结果。由于这些架构已经在各种视觉任务中得到验证，因此将它们应用于处理球形信号是合理的3.5. 损失函数在实验中，我们的方法使用监督学习。详细介绍了三维网格分类和球面图像语义分割H. Chen和J. Zhao沙特国王大学学报6×¼X.- 是的Σiiii¼¼××T¼- -一种不MRFRMFD分别在本节中。3D网格分类的全损失函数可以写为：L满杯13杯其中Lm是边际损失。球面图像语义分割的全损失函数可以写为：L满升其中Lc是交叉熵损失，Ld是骰子损失。kc和kd分别表示交叉熵损失和骰子损失的比例差数损失我们使用激活向量的长度来表示类c存在的概率为了最大化激活向量的长度，我们使用单独的保证金损失：c¼Tcmax0;m-jjvcjj2k1-T max0;jjvjj-m-（Lian等人， 2015）数据集，其中SHREC 15数据集包括来自50个类的24个网格模型。4.1.2.实现细节我们的实验是用pytorch在python中实现的，在配备Intel XeonSilver 41162.1 64G DDR4内存和两个GP100。对于3D网格分类，我们根据Cohen等人提出的方法将3D网格模型预处理为球形信号。（2018）（详见图4）。首先，我们将每个三维网格模型归一化并平移到单位球的中心。其次，受GPU内存资源的限制，将每个三维网格模型封装成一个64 ×64的单元球，通过从单元球表面到单元球中心的光线投射来获取球面信号的值。最后，我们得到从球面到三维网格模型的距离，以及入射角的sin，cos。为了确保3D网格模型（Cohen等人， 2018年），我们还增加了3个渠道C c对应于3D网格模型的凸包，构造-其中，Tc1/2ifc类向量vc 是存在的，m=0：9，m-1/40： 1。k用于缩短缺失类向量的长度（我们使用k0： 5）。总损失是所有类向量损失的平均值。交叉熵损失交叉熵损失主要衡量两个分布的相似性。分布越相似，交叉熵越低。适用于多标签分类的交叉熵损失函数定义为：1mLc¼-y·log y 1-y·日志1-y16总共有6个输入通道，我们训练编码器架构与亚当优化器（b10：9; b 20：999），批量大小为4。初始学习率设置为0.005，对于100个时期，每25个时期的步长衰减为0.7。我们使用边际损失来训练分类网络。在编码器结构中，我们选择6 64 64球面信号作为输入（距离，sin，cos和凸包）。我们将特征的输出通道设置为100，分辨率B的输出设置为8和4，向量的通道数设置为10，整个网络的类别数和向量维数分别设置为3和5（详见表21/1其中m是标签的数量，yi是真实标签，yi是R f标签生成● 骰子丢失Dice loss是一个集合相似度度量函数，通常用于计算两个样本的相似度，取值范围为[0，1]：L1 2jyryfjjj1jyrjjyfj1ð17Þ其中yr是分割标签集，yf是生成的分割标签集。JY R y fj是y r的交集和y f，其中jy rj和jyfj分别表示yr和yf4. 实验评价在这一节中，我们首先介绍了群等变球面矢量Transformer网络在三维网格模型和球面图像上的实现细节，然后将我们的方法与最新的三维网格分类和球面图像语义分割方法（包括球面卷积和传统方法）进行了比较。最后，我们还对我们的网络进行了消融实验，以验证每个模块的作用。4.1. 3D对象分类4.1.1. 数据集我们在大规模普林斯顿模型网（Sedaghat et al.，2017）数据集和SHREC数据集。对于ModelNet数据集，它们分为ModelNet 10和ModelNet 40，其中Mod-elNet 10数据集包括3，991个训练模型和908个测试模型，ModelNet 40数据集包括9，843个训练模型和2，468个测试模型。对于SHREC数据集，我们选择SHREC 15图四、一些3D模型的距离、余弦和正弦特性的可视化以及通过光线投射获得的其凸包（每个模型的第二列●L2ð15Þ●H. Chen和J. Zhao沙特国王大学学报7图五.提出了一种基于U-Net框架的自注意球向量网络，用于球面图像的语义分割。在编码结构上，我们利用线性插值将等距矩形图像的信号采样到球面上，然后利用S2卷积、SO_3卷积和自注意得到隐空间表示。解码器采用跳跃连接和与编码过程对称的结构构造，最后通过最近邻插值法得到预测类别4.1.3. 结果和讨论我们在对齐的ModelNet40上验证了我们的方法（Sedaghat等人，2017）和SHREC 15（Lian等人，2015）数据。为了进一步证明我们的模型是旋转等变的，我们进行了训练集旋转/测试集旋转（AR/AR）和训练集不旋转/测试集旋转（NR/R）的实验。我们将我们的最佳结果与其他 3D 深度学习方法进行了比较，例如PointNet（ Qi 等人，2017）、PointNet++（Qi等人， 2017）、S2CNN（Cohen等人，2018）和UGSCNN（Jiang et al.， 2019年）。表3和表5表明我们的方法具有更好的抗旋转能力。值得注意的是，在相同的输入和实验设置下，与此前端模块相比（Cohen等人，2018），我们的方法在ModelNet40数据集的不同旋转场景中分别高出6.2%，3.8%和9%。为了进一步验证我们所提出的方法的有效性，我们增加了非刚性3D形状的实验设置。实验表明，我们的方法优于主干（Cohen et al.，2018年）在不同的旋转场景中分别下降2.5%和12.2%-表2该方法的编码器框架在ModelNet40数据集上。Bin表示输入分辨率B，Bout表示输出分辨率B。层操作输入大小输出大小B输入 B输出向量通道数向量维度1S2Conv（6，64，64）（100，16，16，16）32 8--2SO3 Conv（100，16，16，16）（10，3，16，16，16）8 8 10 33球形自我注意力（10，3，16，16，16）（10，3，16，16，16）8 8 10 34SO3 Conv（10，3，16，16，16）（40，5，8，8）8 4 40 55球形自我注意力（40，5，8，8，8）（40，5，8，8，8）4 4 40 56SO3积分（40，5，8，8，8）（40，5）4 - 40 5表3Modelnet40上的分类精度比较NR/NR意味着不旋转训练和不旋转测试AR/AR意味着使用任意旋转进行训练，并使用任意旋转进行测试。NR/R意味着不旋转训练和旋转测试Params表示可学习的参数。方法输入未报告/未报告百分比AR/AR百分比未报告/报告百分比ParamsVoxNet（Maturana和Scherer，2015）体素85.973.0-0.9 MPointNet（Qi等人，（2017年）点89.283.614.73.5米PointNet++（Qi等人，（2017年）点89.385.028.61.5米RotationNet（Kanezaki等人， 2018年）点92.480.020.258.9百万QE-Net（Zhao等人， 2020年）点74.4-74.10.4 MS2CNN（Cohen等人， 2018年）球形85.083.777.31.4米UGSCNN（Jiang等人， 2019年度）球形90.5--3.7米球形CNN（Esteves等人， 2020年）球形88.986.978.60.5 MCompass（Riccardo Spezialetti等人， 2020年）球形80.5-72.23.5米PRIN（You等人， 2020年）球形79.8-72.40.4 MSPRIN（You等人， 2022年）球形86.0-86.1-该方法球形91.287.586.33.2米H. Chen和J. Zhao沙特国王大学学报8¼¼¼¼ð布拉奇SHREC 15数据集的IOS。然而，在NR/NR的实验环境中，我们的方法与学习算法的最佳方法之间存在一定的差距。其主要原因是三维模型转换为球面信号时存在一定的损失，球面信号的分辨率受到显卡内存的限制4.1.4. 消融研究为了验证我们提出的自我注意球向量模型的有效性，我们随机选择了80%、70%、60%、50%和30%的SHREC 15作为训练集，相应的剩余20%、30%、40%、50%、60%和70%作为测试集。在实验中，我们设置了三种随机种子，用于训练集和测试集的随机划分，然后将它们输入到我们的模型中，计算多个测试的平均值。我们进行了训练集不旋转/测试集不旋转（NR/NR）和训练集不旋转/测试集旋转（NR/R）的实验。表4表明，我们提出的旋转等变自注意球向量模型提高了该主干的特征提取能力和旋转鲁棒性（Cohen等人，2018年）。4.2. 球面图像语义分割4.2.1. 数据集我们在球形语义分割数据集上证明了所提出的自注意球形向量网络的球形语义分割能力。对于全方位图像数据集，我们选择Stanford 2D-3D-S数据集（Armeni等人，2017），包含1，413个等矩形RGB-D图像和13个不同类别的语义标签。4.2.2. 实现细节对于球形图像语义分割，我们对原始等矩形图像进行采样以获得球形信号（详细参见图7）。为了与UGSCNN（Jiang等人，2019），我们采用UGSCNN的插值方法。对输入的RGB-D（C4）通道采用双线性插值，对语义分割采用最近邻插值标签我们使用官方的三重交叉验证来训练和评估实验结果。在这项任务中，我们将我们的语义分割结果与球形语义分割架构UGSCNN（Jianget al.， 2019）和PDO-eS 2CNN（Shen等人，2021）和其他经典语义分割网络（Ronneberger等人，2015; Long等人，2015; Qi等人，2017年;Zhang等人，2019年）。我们使用两个标准度量来评估每一个像素：平均交集（mIoU）和像素精度（mAcc）。我们使用Adam优化器（b10： 9;b2 0： 999）和8的minibatch大小来训练我们的U-Net架构。初始学习率被设置为0.5，对于200个时期，每20个时期的步长衰减为0.7我们使用加权交叉熵损失和加权骰子损失进行训练。值得注意的是，所有分割网络的输出通道数量为15，因为2D-3D-S数据集还有两个其他类别（无效和未知），尚未对其性能进行评估。我们使用以下加权方法来加权每个类的损失：118岁1：02bigbabiesbabies其中wc是对应于类c的权重，nc是类c在训练集中出现我们对两个被丢弃的类（无效和未知）使用零在编码器结构中，我们将特征的输出通道设置为100，将分辨率B的输出设置为16、4和3，将向量的通道数设置为15，将向量维度分别设置为3和5（详见表9我们使用插值和跳跃连接来设计一个与编码器结构对称的解码器结构。为了指示每个类的实例的存在，我们仅在伽马维度中对输出信号进行积分并计算活动向量的长度。4.2.3. 结果和讨论图6示出了与Ground Truth、UNet和FCN8相比的球形图像语义分割结果的可视化。正如你所看到的，我们的方法准确地预测了光束的结构。并对每类算法的准确率和IoU与上述基准模型进行了表4SHREC 15的NR/NR和NR/R的平均分类准确率比较NR/NR意味着不旋转训练和不旋转测试NR/R意味着不旋转训练和旋转测试。模型训练集百分之八十百分之七十百分之六十百分之五十百分之四十百分之三十NR/NRNR/RNR/NRNR/RNR/NRNR/RNR/NRNR/RNR/NRNR/RNR/NRNR/RBackbone（Cohen等人， 2018年）0.8750.7280.8530.7780.8440.6380.8470.6510.7870.4300.7440.476该方法0.9000.8500.8840.8540.8540.8310.8790.8420.8290.7280.7390.695表5SHREC 15上的分类精度比较NR/R意味着不旋转训练和旋转测试Params表示可学习的参数。方法输入累积（%）未报告/报告（%）ParamsHKS（Bronstein和Kokkinos，2010年）特征56.956.9-FPFH（Rusu等人，（2009年）特征80.880.8-MeshCNN（Chen等人， 2021年）特征97.355.62.4米PointNet（Qi等人，（ 2017年）点60.238.03.5米PointNet++（Qi等人，（2017年）点69.447.51.7米S2CNN（Cohen等人， 2018年）球形87.572.81.4米该方法球形90.085.03.2米H. Chen和J. Zhao沙特国王大学学报9见图6。2D-3D-S测试数据集上的球形图像语义分割可视化结果。我们的结果是在一个球面网格上产生的带宽为64和视觉映射到一个平面图像，通过使用最近邻采样。每行显示不同方法的结果，其中我们的方法对梁结构的预测效果最突出。2D-3D-S数据集（详情见表6和表7）。表8显示了2D-3D-S数据集上的最佳平均交叉和像素精度与MC（Mitchel等人，2022），我们的方法在平均像素精度上高出2.2%，在平均交集上高出1.3%。然而，由于带宽限制，在应用快速傅立叶变换时丢失将谱方法应用于精确的分类任务是困难的，其中谱混叠模糊了精确预测所必需的尖锐边界和过度平滑的局部特征对于小模型（如椅子、书柜），我们的方法的预测效果不是很理想。4.2.4. 耐用性研究为了了解损失函数的不同权系数对实验结果的影响，我们选择了超-见图7。某些等长矩形图像及其投影到球体上的多视图像的可视化。表62D-3D-S数据集与基线模型的每类精度比较。模型束板书柜天花板椅子杂波柱门地板沙发表壁窗口UNet（Ronneberger等人，（2015年）0.1780.4040.5910.9180.5090.4600.0880.4400.9480.2620.6870.7720.348FCN 8（Long等人，（ 2015年）0.1440.4410.3950.8970.5240.5760.0560.5960.9660.0320.6610.7360.268PointNet++（Qi等人，（2017年）0.1930.2940.3280.5450.4150.2250.3110.2700.4600.3390.4980.3360.141UGSCNN（Jiang等人， 2019年度）0.1960.4860.4960.9360.6380.4310.2800.6320.9640.2100.7000.7460.390HexRUNet（Zhang等人， 2019年度）0.2320.5650.6210.9460.6670.4150.1830.6450.9620.4110.7970.7720.411PDO-eS 2CNN（Shen等人， 2021年）0.2220.5960.5970.9350.6740.5390.2630.6410.9710.3080.7540.8190.534该方法0.6850.6450.5990.8670.4660.3900.5610.7110.8970.3770.6400.6650.704表72D-3D-S数据集与基线模型的每类IoU比较。模型束板书柜天花板椅子杂波柱门地板沙发表壁窗口UNet（Ronneberger等人，（2015年）0.0850.2720.3070.7860.3530.2880.0490.3380.8910.0820.3850.5880.239FCN 8（Long等人，（ 2015年）0.0570.3140.2890.7980.3620.2970.0350.4080.8880.0260.3810.5850.186PointNet++（Qi等人，（2017年）0.0910.1500.2210.4780.2980.1610.0780.1870.4430.1840.3330.3060.076UGSCNN（Jiang等人， 2019年度）0.0870.3270.3340.8220.4200.2560.1010.4160.8700.0760.4170.6170.235HexRUNet（Zhang等人， 2019年度）0.1090.3970.3720.8480.5050.2920.1150.4530.9290.1910.4910.6380.294PDO-eS 2CNN（Shen等人， 20210.1140.4330.3820.8390.5030.3130.

下载后可阅读完整内容，剩余1页未读，立即下载