旋转等变自注意球面矢量网络：三维网格分类与全景分割的新方法

10 浏览量更新于2024-06-17 收藏 1.92MB PDF 举报

"沙特国王大学学报的一篇研究论文探讨了基于旋转等变自注意的球面矢量网络在三维网格分类和全景图像分割中的应用。该研究旨在解决使用传统CNN处理球形数据时因投影失真导致的性能下降问题。" 在三维网格分类和球面图像分割领域，传统的方法通常将球形数据投影到二维平面，然后利用卷积神经网络(CNN)进行处理。然而，这种做法往往会导致投影失真，并丧失平移等变性，进而影响算法的性能。这篇论文提出了一种新的球面矢量网络，该网络引入了旋转等变自注意机制，旨在学习部分-整体的关系，减少失真的影响。具体来说，研究中采用的球形卷积网络作为前端网络，用于获取初步的向量表示。接着，通过旋转等变自注意机制，网络可以捕捉到向量之间的局部和全局上下文关系，生成的高级向量能够反映实体的存在概率和方向。这种方法在刚性和非刚性场景下都表现出了优越性。实验结果显示，对于刚性ModelNet40数据集，结合前端网络，该方法在三维网格分类任务上的准确率提升了9%；而在非刚性的SHREC15数据集中，提升达到了12.2%。在球面图像的语义分割任务上，与现有方法相比，平均像素精度和平均交并比分别提高了2.2%和1.3%。这篇论文的贡献在于提出了一种新颖的球面矢量网络结构，它能够有效地处理球形数据，克服传统方法的局限性，特别是在处理旋转不变性和保真度方面。这为未来处理全景图像、三维物体数据以及各种球形信号提供了新的思路和技术基础。通过旋转等变自注意，网络可以更好地理解和处理球面上的复杂模式，这对于全景相机、无人机、自动驾驶汽车等领域具有重要的实际应用价值。这项研究强调了在处理球形数据时保持旋转不变性和减少失真的重要性，提出的解决方案在多个基准数据集上验证了其有效性和优势。这为球面计算机视觉领域的进一步研究奠定了坚实的基础，并可能启发更多关于如何优化处理非欧几里得数据的新方法。

H. Chen

和

J. Zhao

沙特国王大学学报

]

ð Þ

¼1

期望最大化路由算法，Bahadori和Taha（2018）提出了一种基于奇异

值分解的路由算法，Wang和Liu（2018）提出了一种具有类聚类目标

函数的路由算法。为了从理论上确保胶囊网络的等变性，Lenssen等人

（2018）提出了一种组等变胶囊网络。

胶囊网络已经取得了令人鼓舞的成果， 2D

表

主要符号和说明。

符号描述

;

T 3

旋转矩阵

;

ZYZ

欧拉角

球形信号

B 球面网格

图像分类（Ma等人，2021年; Jaiswal等人， 2018）和seg-

球谐函数

心理学（LaLonde和Bagci，2018年。）近年来。因此，一些努力已经

开始探索用于3D的 3D胶囊网络。

;

嵌入特征矩阵

; k

;

查询向量、键向量和值向量

;

学习权重矩阵

对象分类 Cheraghian和Petersson（2019）提出了一个

旋转等变矩阵

新层称为

ComposeCaps

，它取代了由置换不变量引起的空间关系的

丢失，学习了一种新的有用的胶囊映射，可以被胶囊网络利用

Zhao

等人（

2020

）提出了一种用于处理点云的

胶囊网络。该算法从输

入点云中获得稀疏的局部参考系集，并通过新的四元数动态布线程序

建立端到端变换。

Chen

等人（

2022

）基于

网格模型设计胶囊网

络，其使用网格模型的局部形状信息和拓扑来表示胶囊。

虽然上述方法通过使用胶囊网络在

视觉领域做出了贡献，但它

们没有将胶囊的概念应用于球形信号处理。

2.3.

Transformer

网络

原始的

Transformer

网络（

Vaswani

等人，

2017

）在自然语言处理

方面取得重大突破，近年来，研究人员将其应用于图像分类等计算机

视觉任务（

Dosovitskiy et al.

，

2021

）和物体检测（

Carion

等人，

2020

年

; Kim

等人，

2021

年），与

CNN

相比，性能有了显著提高。

为了更适合图像任务，

Liu

等人（

2021

）提出了一种使用滑动窗口的

多级视觉

Transformer

。

Xie et al.

（

2021

）在此基础上引入了自监

督学习

Cao

等人（

2021

）对该方法进行了扩展，提出了类似于

U-Net

架构的

Transformer

用于医学图像分割，取得了较好的效果。

在3D视觉领域，几个前沿也在研究Transformer网络的可行性。Lin

等人（2021）提出了一种使用变换器的端到端人体姿势和网格重建。

Guo等人（2021 b）提出了一种名为点云Transformer的新框架，用于

点云学习。 Han等人（2021）提出了一种新的点云表示学习架构，称

为双Transformer网络（DTNet），它可以通过同时聚合精心设计的点

方向和通道方向多头自注意模型，从位置和通道角度获得更丰富的上下

文语义依赖。

受上述工作中使用的局部贴片结构的启发，我们构造了一个球形

Transformer来处理各种球形信号而不丢失旋转等变。

自注意球向量网络

在本节中，我们将首先回顾球面卷积的基本原理（

Cohen

等人，

2018; Esteves

等人，

2020

年）。然后，我们将最后，我们

Q K V

Qkm

型

Clebsch-Gordan

矩阵

N;D

向量

的通道数和向量

利润损失

交叉熵损失和骰子损失

真实标签和预测标签

对应于c

c类的发生频率

3.1.

球面卷积基础

表示范数为

的点

x R

的集合

。

是一个二维流形，可以用球面坐

标

;

]

和b

;

]来表示

。

从数学上讲，

卷积

定义为（

Cohen et al.

，

2018

年）的情况：

]

B2f

B2x

B2dx

B21

其中u是卷积核，f是S

上的球形信号;C是特征的数量（在我们的实验

中，C= 6），R是3 3旋转矩阵这是定义通过 ZYZ-欧拉

角

0; 2

;b 0;

，和

0; 2

。

SO3

表示旋转的集合。旋转群是一个三维流形，可以用

ZYZ-

欧拉

角

;

]

;

]

和

;

]表示

。

在数学

上，

SO_

（

）上的卷积

被定义为（

Cohen et al.

，

2018

年）的情况：

]

第3

页

第

1页

其中

是卷积核，

是

SO3

上的实值信号，

是特征的数量。

和

都是

3 ×

旋转矩阵。

3.2.

球面向量模

球面卷积神经网络需要球面信号作为输入。对于3D网格分类，我们

通过使用光线投射获得3D模型的球形信号（详细参见图4）。对于球形

图像语义分割，我们遵循（Jianget al.，2019）对原始等矩形图像进行

采样，得到球面信号（详见图7）。

球形向量模块包含球形卷积层和球形卷积向量层。我们的球形卷

积层如下（

Cohen

等人，

2018

年），建立

S2Conv

区块。为了降低球

面卷积的时间复杂

操作，我们可以通过使用快速傅里叶变换（

FFT

）（

Drivel

和

Healy

，

1994

）计算

上的球面卷积

：

球形向量网络与旋转等变

自

在三维网格分类

和球面图像语义分割。为了便于理解本节中的数学符号，我们在表1中

给出了主要的数学符号。

其中

是卷积核，

是

上

的

球面信号，

学习傅立叶系数。Y

<$x<$是球谐函数，

-J6M6J

和

;

M2N

。然后，我们可以得到球形特征

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

旋转等变自注意球面矢量网络：三维网格分类与全景分割的新方法

基于深度学习的图像分类和分割网络总结

matlab三维网格化图像源码

cesium三维网格

反卷积网络是怎么应用于三维图像分类中的

医学图像分割和三维重建

matlab绘制球体的三维网格图,曲面图

图像分割以及三维重建工作概述

itk图像分割vtk三维重建

cesium绘制三维网格

最新资源