球面图卷积网络的设计及其应用

54 浏览量更新于2023-10-25 收藏 12.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

popular in virtual reality (VR) and augmented reality (AR)systems for applications ranging from robots [23, 27] to au-tonomous cars [15, 16], which results in an increasing de-mand for the analysis of spherical images. Convolutionalneural networks (CNNs) have achieved signiﬁcant improve-ment in analysis tasks related to planar images, e.g., imagerecognition [10], object detection [8], and image segmenta-tion [9]. However, it is still challenging to generalize CNNsto analyzing spherical images deﬁned on the non-Euclideanspheres, as distortions may be incurred when spherical im-ages are projected onto a ﬂat Euclidean surface to accom-modate the grid-based architectures in CNNs [3].CNNs commonly adapt to the non-Euclidean sphericalimages in two different ways. The ﬁrst approach projectsthe spherical images into the planar format that can beprocessed directly by CNNs. Various projection methodshave been studied, including the equirectangular projection(ERP) and the cube map projection [24], which lead to theinevitable projection distortions. For ERP, ﬁlter kernels arefurther designed for CNNs to compensate for the projec-tion distortion [5, 26, 32]. [26] proposed to learn differentkernels with variable size for each row in the projected im-ages, however, the model size increases dramatically withthe growth of image resolution. In [5, 32], the samplinglocation of ﬁlter kernel is changed to adapt to the distor-tion level. Without the guidance of rotation-equivariance,although model parameters could be reduced by sharing thekernels across all pixels, the model performance declinesinevitably.The other approaches [3, 7] extend CNNs to non-Euclidean domains to avoid the projection distortions. Al-though CNNs have strong capability to exploit the localtranslation equivariance and some works seek to capturevarious transformation equivariant representations of regu-lar 2D images [20, 21, 30], they do not adapt to the 3D rota-tion of spherical images properly. Therefore, it is importantto explore rotation-equivariance in spherical image analy-sis. [3] and [7] develop spherical CNNs by introducing therotation-equivariant spherical cross-correlation in the spec-tral domain. However, Fourier transform is required for the43030旋转等变图卷积网络用于球面图像分类0Qin Yang 1，Chenglin Li 1，Wenrui Dai 1，Junni Zou 1，Guo-Jun Qi 2，Hongkai Xiong 101 上海交通大学，2 Futurewei Technologies0{ yangqin, lcl1985, daiwenrui, zoujunni, xionghongkai } @sjtu.edu.cn, guojunq@gmail.com0摘要0卷积神经网络（CNN）设计用于低维规则网格会导致对球面图像的分析产生非最优解，因为球面图像与平面图像具有不同的几何特性。在本文中，我们通过考虑球面表面的几何形状，将基于网格的CNN推广到非欧几里得空间，并提出了球面图卷积网络（SGCN）来编码旋转等变表示。具体而言，我们提出了一个球面图构建准则，表明为了设计旋转等变的图卷积层，图必须通过均匀覆盖球面来实现规则性。对于完全规则的图不存在的实际情况，我们设计了两个定量指标来评估球面图的不规则程度。我们采用测地线ICO球面像素化（GICOPix）来构建具有最小不规则度的球面图，与当前流行的像素化方案相比。此外，我们设计了一个分层池化层来保持旋转等变性，然后是一个过渡层，以强制实现对球面图像的旋转不变性。我们通过等变误差评估了所提出的图卷积层在不同像素化方案下的效果。我们还通过过渡层的不变性误差评估了所提出的SGCN1在实现旋转不变性方面的有效性，并识别球面图像和3D物体。01. 引言01代码可在https://github.com/QinYang12/SGCN找到。本工作部分得到了国家自然科学基金委员会的支持，项目编号为61931023、61871267、61972256、61720106001、61831018和91838303。y =K−1�k=0θkTk(˜L)x,(1)43040在每一步中，球面相关性导致计算成本高和显著的内存开销。[17]提出了一种用于宇宙学数据的图卷积神经网络，这些数据通常是由Hierarchical Equal Area isoLatitudePixelation(HEALPix)定制的球面地图。然而，在HEALPix方案中，不规则的特征图仍然无法保持旋转等变性。作为球面的几乎均匀离散化，二十面体[1]已被采用来表示球面域[4, 11, 14,29]。在[4,29]中，球面信号被投影到具有20个基本平面区域的二十面体网格上，然后使用等变规范和方向感知CNN进行进一步分析。然而，失真仍然很大，并且基本平面区域之间的不连续性需要通过精心设计的方案来处理，例如特征上的规范变换[4]和填充[29]。基于具有较小失真的测地线二十面体，[14]设计了CNN的卷积和池化核，[11]在非结构化网格上提出了参数化的微分算子。尽管在应用于下一个相邻三角形时，卷积核会被180度翻转[14]，但是[11,14]中的卷积核仍然是非各向异性的，因此不具备旋转等变性。在本文中，我们提出了一种球面图卷积网络（SGCN）来对球面图像进行旋转等变性编码。特别地，我们通过探索图Chebyshev多项式滤波器的等距变换等变性，开发了一个图卷积层，该层具有等距变换等变性，一个分层池化层，用于利用球面图像的多尺度分辨率并保持旋转等变性，以及一个过渡层，用于计算分层池化层的多个特征图之间的旋转不变统计量。为了在所提出的多项式图卷积层中强制执行旋转等变性，我们提出了一个基于规则性的球面图构建准则，并且证明了在给定顶点数的情况下，规则图（即顶点均匀分布在球面图像的表面上）比不规则图等变性更强。对于完全规则图不存在的实际情况，我们设计了两个定量指标来评估球面图的不规则程度，并通过实验证明，具有较低不规则程度的图构建方案将导致图卷积层的等变性误差较小。进一步采用测地线二十面体像素化（GICOPix）方案来构建球面图，经验上证明可以实现边的最小权重方差和顶点的最小度数方差。为了证明所提准则的有效性，我们通过不同的图构建方案评估了图卷积层的等变性误差。我们还评估了所提出的过渡层对于捕捉旋转不变性和识别球面图像的能力的不变性误差。我们进一步在球面图像分类中使用所提出的SGCN，证明SGCN在球面MNIST（S-MNIST）、球面CIFAR-10（S-CIFAR-10）上优于最先进的模型，并在旋转不变性分类准确性方面与3D模型在ModelNet40数据集上达到可比较的性能。0我们将球面图像表示为一个无向连通图G = (V, E,A)，其中V是一个包含|V|=N个顶点的集合，E是边的集合，A是带权邻接矩阵，每个元素aij表示两个顶点vi和vj之间的连接权重。如果顶点vi和vj不相连，则权重aij为零。规范化的图拉普拉斯矩阵定义为L = I -D^(-1/2)AD^(-1/2)，其中D∈RN×N是一个对角度矩阵，Dii =ΣNj=1aij，I是单位矩阵。通过递归计算Chebyshev多项式来近似卷积核[6]，球面信号x的谱卷积可以写成02. 初步0我们将球面图像表示为一个无向连通图G = (V, E,A)，其中V是一个包含|V|=N个顶点的集合，E是边的集合，A是带权邻接矩阵，每个元素aij表示两个顶点vi和vj之间的连接权重。如果顶点vi和vj不相连，则权重aij为零。规范化的图拉普拉斯矩阵定义为L = I -D^(-1/2)AD^(-1/2)，其中D∈RN×N是一个对角度矩阵，Dii =ΣNj=1aij，I是单位矩阵。通过递归计算Chebyshev多项式来近似卷积核[6]，球面信号x的谱卷积可以写成0其中 ˜ L = 2 L/λ max − I ，λ max 是 L的最大特征值，θ k表示Chebyshev多项式系数，是可学习的参数。因此，Chebyshev多项式 T k ( ˜ L ) ∈ R N × N可以通过递归计算得到 T k ( ˜ L ) = 2 ˜ LT k − 1 ( ˜ L ) − Tk − 2 ( ˜ L ) ，其中 T 0 = I ，T 1 = ˜ L。具有K阶多项式的谱卷积是K局部化的，即顶点对多项式滤波器的响应仅取决于路径上长度小于K的所有顶点值和边权重。已经证明多项式滤波器对图同构变换具有等变性[13]。接下来，我们给出图同构变换和图同构变换等变性的定义。定义1.图同构变换[13]。图同构变换g是一个保持图上相邻顶点之间距离的双射映射g: V → V。相应的变换算子L g通过保持邻域来对信号x进行排列。可以形式化地表示为0对于每个V中的v k ，存在唯一的v j ：[ L g x ]( v k ) = x ( v j ) , (2)0其中 L g x 是x的变换信号，� ! 表示存在且仅存在一个顶点v j对应于v k 。��(��)=0.15��(��)=0.69��(��)=0.74��(��)=3.31�∗ = min�∈� (��(��), ��(��))…………GConvTranFCHPool�� σ�…�� σ�…��………GConvHPool[Φ(Lgx)](v) = [Lg(Φ(x))](v),(3)[LRx](v) = x(R−1v),(4)43050球面图像0图构建0输出0图1.提出的SGCN架构，其中包括两个图卷积层（GConv）和分层池化层（HPool）构成的两个堆栈，以及过渡层（Tran）和全连接层（FC）。输入的球面图像基于GICOPix表示为二级图G�2，以实现旋转等变性。[ µ 0 , σ 0 , ..., µ K , σ K]是特征图上的多尺度统计量。输出是数据集类别的分布。0定义2.图同构变换等变性。如果图卷积层对图同构变换g具有等变性，即通过图同构变换算子L g对输入信号进行变换，然后通过图卷积层进行处理，得到的响应与将原始信号通过图卷积层后得到的特征图进行相应变换的响应相同，即0其中Φ表示图卷积层，x是输入的球面信号。本文中，我们考虑半径r设为1的单位球面。球面上的任意点v可以通过其经度θ和纬度φ唯一确定，其中−π ≤ θ ≤ π，−π02 。定义3.3D旋转群。球面3D旋转群用SO(3)表示，是连续的。旋转R∈SO(3)是一种保持欧几里得距离和方向的刚性变换，可以用一个3×3矩阵表示。由于旋转图上的顶点对应于原始图上的顶点R − 1 v，我们有0其中L R表示与R对应的旋转变换。本文中，我们将考虑具有有限元素数量的SO(3)的旋转子群R。如果图卷积层对所有旋转R ∈R都具有等变性，即[Φ( L R x )]( v ) = [ L R Φ( x )]( v)，则它对旋转群R具有等变性。03. 旋转等变球面GCN0图1描述了提出的球面图卷积网络（SGCN），它对球面图像分类具有图形旋转等变性。03.1. 正规约束图构建0如[13]所证明的，图卷积层中的多项式滤波器对图的等变变换具有等变性。因此，关键的标准是构建一个包含尽可能多图等变变换的旋转群的图。在下面的例子中，我们将从两个简单的例子中展示，给定顶点的数量，可以通过确保其规则性来构建这样的图。定义4.图的规则性。如果球面图的顶点均匀分布在球面上，则该图是规则的。具体而言，有两个原则用于定义图的规则性：i）任意两个相邻顶点之间的距离相同，ii）所有顶点具有相同数量的邻居。例子1：具有六个顶点的规则图。在图2(a)中，我们展示了一个具有6个顶点的规则球面图的例子，它是基于一个具有24阶旋转群Ro的球面八面体构建的。八面体旋转群Ro中的每个旋转R都是三维欧几里得空间中顶点的可逆映射，它保持球面八面体的所有相关结构。为了简单起见，我们考虑一个5点图案x，其中一个顶点vt0与顶点vt1�vt4相连。经过一个示例旋转R∈Ro后，图案x被转换为xR =LRx。如图2(a)所示，对于旋转后图像xR中的所有顶点vr0�vr4，存在且仅存在一组原始图像x中的顶点vt0�vt4，满足xR(vrn) = x(vtn)，�n = 0, 1, ...,4。因此，所示的旋转R是一个图等变变换。进一步可以验证，八面体旋转群Ro中的所有24个旋转都是图等变变换。例子2：具有六个顶点的不规则图。相反，如果图的构建是不规则的，其旋转群R'的元素数量将少于八面体旋转群Ro。根据定义，不规则球面图可能具有不同的距离。��′��′��′��′��′��′��′��′��′��′��43060变换后的信号 � � � �� & �′ � (�′ �� ) 原始信号 �(� �� ) & �′(� �� )0图顶点 � �� & � �� 不是顶点信号 �′ 可以定义为0(a) 正规球面图 (b) 不规则球面图0图2展示了具有六个顶点的规则和不规则球面图，显示了图的规则性如何影响旋转等变性。0在图2(b)中，我们以一个不规则图形为例，其中相邻顶点之间的距离不同。给定旋转后图像x'的任意顶点v'r0，原始图像x'中应该存在一个顶点v't0。0满足 x' R(v'r0) =x'(v't0)。然后，由于相邻顶点之间的距离不同，对于图像xR中顶点vr0的邻居顶点vr1�vr4，将不再存在图像x'中满足x'R(v'rn) = x'(v'tn)，�n = 1, 2, ...,4的顶点v't1�v't4。上述两个例子说明了规则图中的顶点可以精确旋转到所有其他顶点，以满足图等变变换的定义，而不规则图中的顶点则无法做到。换句话说，对于给定数量的顶点，不规则图的旋转群中将包含比规则图少的图等变变换。为了准确表示高分辨率的球面图像，顶点的数量N应该足够大。仅由数十个顶点构建的规则球面图是远远不够的。然而，对于大量的有限顶点（例如数千个顶点），不可能构建一个完全规则的球面图。因此，我们设计了两个定量指标来评估球面图的不规则程度：边权重的方差V1和邻居数量的方差V2，如下所示：0V1 = 10E0i = 1 (wi - µw)^2, V2 =10N0i = 1 [n(vi) - µn]^2,(5)0其中E =|E|是边的数量，wi是第i条边的权重，µw是边权重的平均值；而N =|V|是顶点的数量，n(vi)是每个顶点vi的邻居数，µn是邻居数的平均值。根据图形规则性定义，如果图形是规则构建的，则V1 = V2 =0。对于不规则图形，这两个不规则度量值大于零，揭示了构建图形的不规则程度，从而确定了旋转群中包含的图形等距变换的数量。因此，在球形图构建中，更小的V1和Vs值更受欢迎，以保持更高程度的旋转等变性。0图形卷积层。03.2. 旋转等变卷积层0为了减少图形的不规则程度，本文基于测地线二十面体像素化（GICOPix）构建了球形图。与其他流行的像素化方案相比，这样的图形在很大程度上是各向同性的，其中的单元格变形最小，几乎等边。细粒度的二进制分割甚至可以进一步增加生成图的分辨率。正如实验中所看到的，GICOPix在不规则度量、等变性误差和不变性误差方面可以胜过其他像素化方案。使用GICOPix，图形是通过将简单的测地线二十面体的每个等边三角形重复分割为四个等边三角形，然后将新的顶点投影到球体上来构建的。测地线二十面体的所有顶点都成为图形的顶点。每个顶点除了原始二十面体的十二个顶点外，都有六个相邻顶点。我们将基于原始二十面体构建的球形图定义为G�0，其中N =12个顶点，并将l表示为细分级别，即原始二十面体上的细分操作次数。然后，基于第一级（l =1）测地线二十面体构建的图形为G�1，其中N =42个顶点。通过归纳，基于第l级测地线二十面体构建的图形为G�l，其中N = 10 ×2^(2l+2)个顶点。我们在图4的底部行中展示了GICOPix在0、2、4级的构建图形。原始二十面体具有称为二十面体旋转群Ri的对称旋转群，其阶数为60，是SO(3)的子群。每个等边三角形的细分以相同的方式进行。因此，Ri中的每个旋转将球形图Gl转换为自身，并保持该球形图的所有相关结构，因此是图形等距的。由于切比雪夫多项式滤波器对图形等距变换具有等变性[13]，图形卷积层对于二十面体旋转群Ri也是等变的。通过这种方式，我们构建了一个旋转等变的图形卷积层。03.3. 旋转等变池化层0当将CNN推广到图形时，需要考虑具有层次表示的多尺度特征。为此，我们提出了一种新颖的图形粗化方案，用于所提出的像素化过程。所提出的池化算子需要对旋转具有等变性，这对于构建旋转不变的分类架构非常重要。具体而言，我们通过保持图形G�l-1的顶点将第l级球形图形粗化为第(l-1)级，如图3所示。我们保持了球形图的层次结构而不改变底层。43070层�（级别�）层�+1（级别�−1）层�+2（级别�−2）0图3. 所提出的旋转等变池化算子的示意图。0旋转群。然后我们证明这可以导致旋转等变的池化。让我们将V_l定义为第l级球形图的顶点集。给定应用于第l级球形信号的旋转R，我们有[L_Rx](v_l) =x(R^(-1)v_l)，对于所有的v_l∈V_l。池化层P保持一个更粗的球形信号，即P(x)(v_l-1) =x(v_l-1)，对于所有的v_l-1∈V_l-1。将第l级球形信号旋转后通过池化层得到[P(L_Rx)](v_l-1) = x((R^(-1)v)_l-1) =x(R^(-1)(v_l-1))，对于所有的v_l-1∈V_l-1。将第l级球形信号通过池化层后再旋转得到[L_RP(x)](v_l-1) =x(R^(-1)(v_l-1))，对于所有的v_l-1∈V_l-1。因此，[P(L_Rx)](v_l-1) =[L_RP(x)](v_l-1)，对于所有的v_l-1∈V_l-1，即池化操作对于旋转是等变的。由于所提出的卷积层在不同级别上是旋转等变的，图卷积层和池化层的堆叠也保持旋转等变性。更详细地说，对于第h个图卷积层的所有特征图F_h_i，对于所有的i=1,2,...,K_h，我们执行相同的池化操作。假设输入球形图在级别l_0。第h个特征图是一个级别为l_0-h的球形图。对于紧随第h个图卷积层的图池化层，我们保留属于下一级别l_0-h-1的所有顶点，并保留它们上的值。03.4. 旋转不变的过渡层0通过堆叠图卷积层并分层池化它们的结果，我们可以实现旋转等变性。然而，在此之后，我们更希望在执行分类任务时实现旋转不变性。在传统的CNN中，一堆卷积和池化层后面跟着全连接层。然而，全连接层仍然对空间敏感，对不同的旋转不具有不变性。因此，在全连接层之前需要一个过渡层来提取旋转不变的特征。为了实现旋转不变性，使用了一种计算效率高的方法[13]来进行梯度计算和反向传播。具体来说，我们使用不同阶数k的Chebyshev多项式T_k(˜L)对输入信号x进行计算，得到一组图卷积信号t_k =T_k(˜L)x。结果信号t_k，其中k = 0, 1, ...,K，对应于多尺度分辨率上的响应，所有这些响应都是对旋转等变的。0旋转等变性。然后，我们收集球形图的每个卷积特征图t_k上的均值µ_k和方差σ_k，并输出一个连接的特征向量[µ_0,σ_0, µ_1, σ_1, ..., µ_K,σ_K]。由于这些特征对于旋转是不变的，因此它们在球形图中对顶点的响应是空间不可知的。04. 实验0在本节中，我们比较了在不同程度的图形不规则性下，使用三种像素化方案实现的SGCN的图卷积层的等变误差和过渡层的不变误差。我们还评估了SGCN的有效性，并将其与S-MNIST数据集和S-CIFAR-10数据集上的最先进方法进行了比较。为了展示SGCN在实际问题中的能力，我们进一步展示了在ModelNet40数据集上的3D物体分类任务的性能比较。此外，我们还对分层池化层和过渡层的作用进行了消融研究。04.1. 不规则度0我们将提出的GICOPix与另外两种流行的像素化方案进行比较，即广义螺旋集像素化（GSSPix）和分层等面积等纬度像素化（HEALPix），并根据提出的两个度量标准进行比较。GSSPix是一个在球面上几乎均匀分布点的显式构造[22]。对于N个点，该集合通过N个水平平面切割球体，每个纬度包含一个点，并且连续的点具有近似相同的距离。HEALPix通常用于宇宙学数据，每个像素覆盖与其他像素相同的表面积。连接两个基本菱形十二面体的菱形的角上有24个像素，只有七个相邻像素。我们在图4中展示了基于三种像素化方案构建的图，其中提出的GICOPix方案得到了一个更规则的球形图。我们还计算了三个不同级别L =0，2，4的球形图的权重方差V1和度数方差V2。如表1所示，基于提出的GICOPix方案的球形图在所有级别上具有最小的方差。特别是对于权重方差V1，它小了一个数量级，这表明提出的基于GICOPix的球形图是最规则的。04.2. 等变误差0为了评估图构建的提出标准，我们测量了三种实现的第一个球形卷积层的等变误差GICOPixHEALPixGSSPix0122.8672.500GSSPix21623.1836.327425622.5144.8000121.0770HEALPix21921.2961.094430721.4650.07801200GICOPix21620.1490.686425620.1540.047∆ = 1nn(6)“0” “2” “7”“0” “2” “7”“0” “2” “7”“0” 0.0 1.0 0.8 0.6 0.4 0.2 43080图4.三个不同像素化方案（GSSPix，HEALPix和提出的GICOPix）的球形图，级别为L = 0，2，4。0表1.使用三种不同像素化方案的不规则度的定量测量。v1和v2分别是边缘权重和顶点度数的方差。0方案级别顶点数量 V1(1e-2) V2(1e-1)0SGCN使用三种不同的图构建方案，分别称为GICOPix-SGCN，GSSPix-SGCN和HEALPix-SGCN。它们的池化层略有不同，因为它们依赖于不同的像素化方案。根据[3]的工作，我们定义等变误差为0i =1 标准差 ( L R i Φ( x i ) − Φ( L R i x i ))/标准差 (Φ( x i )) .0我们随机采样了n = 1000个球面图像xi，i =1，2，...，n，并对每个球面图像进行了随机3D旋转Ri。将每个球面图像输入到第一个图卷积层中会产生32个特征图。通过对完全规则图进行图等变旋转，预期等变误差为零。然而，构建的球形图在连续3D旋转群SO(3)的随机旋转下并不理想。如表2所示，提出的GICOPix-SGCN具有最小的等变误差，而基于其他像素化方案的SGCN具有更高的图不规则性的较大等变误差。这表明提出的原则对于建模是有效的。0表2.第一个球形图卷积层的等变误差，使用三种像素化方案。基于GICOPix的SGCN具有最小的等变误差。0方案 GSSPix HEALPix GICOPix0错误 0.942 0.434 0.3850GSSPix-SGCN HEALPix-SGCN GICOPix-SGCN0图5.展示了SGCN使用三种不同像素化方案的不变性误差的示例，颜色条旁边的数字表示不同特征之间差异程度的归一化欧氏距离。0旋转等变性。04.3. 不变性误差0我们评估过渡层的不变性误差，以评估所提出的SGCN捕捉旋转不变性的能力。特别地，我们从S-MNIST数据集中选择三个不同的球面图像，即'0'，'2'和'7'，并在九个不同的位置θ∈{−1/8，0，1/8}，φ∈{0，1/8，1/4}上投影每个图像，总共得到27个球面图像。球面图像的创建细节将在下一节中介绍。将这些图像输入SGCN后，我们获得过渡层的特征，并在一个[27×27]距离矩阵中评估成对的欧氏距离。理想情况下，相同球面图像不同位置的特征图应该是相同的，这意味着[27×27]距离矩阵的三个[9×9]对角子矩阵应该为零（即在图5中的蓝色区域）。如图5所示，与GSSPix-SGCN和HEALPix-SGCN相比，GICOPix-SGCN在相同球面图像的不同位置上具有更相似的特征图。这表明SGCN具有更小的不变性误差，因此可以更好地编码旋转等变性并实现旋转不变性，而具有更规则的像素化方案。04.4. S-MNIST分类0数据集。S-MNIST数据集是通过将数字放置在与球面上的点（θ，φ）相切的平面上，并通过测地投影[12,5]将它们投影到球面上来创建的。为了评估所提出的SGCN在旋转图像上的泛化性能，我们创建了该数据集的两个实例：非旋转（NR）数据集和旋转（R）数据集。对于NR数据集，切点位置是从纬度θ∈0in Fig. 6.Experiment setup. We benchmark our results againstthe S2CNNs [3], the GCNNs [12], the PDOs [11] and theSphereNet [5]. Except that the PDOs [11] have one Mesh-conv block, two ResBlocks, and an average pool layer andthe transition layer of the SGCN has Chebyshev polynomi-als of the highest order 5, the architectures of all the modelsare the same. The network consists of two stacks of convo-lutional and pooling layers, followed by a fully-connectedlayer of ten neurons. The ﬁrst stack has 32 ﬁlters, whilethe second has 64 ﬁlters. All the convolutional layer is fol-lowed by the ReLU activation. The order of the polynomialﬁlter for the graph convolutional layer is set to 25. We inputspherical signals at the level-4 resolution with 2562 pixelsfor GSSPix-SGCN and GICOPix-SGCN, 3072 pixels forHEALPix-SGCN. We train the models by the momentumoptimizer with momentum 0.9 for 50 epochs with batch size10. To avoid the overﬁtting, the batch normalization, weightdecay rate 5e − 4 and dropout 0.9 are adopted. The initiallearning rate is 0.02 and reduced to 0.002 after 33 epochs.Result.The classiﬁcation performances of differentmodels on S-MNIST are compared in Table 3. We traineach model on the rotated dataset and test on the rotateddataset as well (R/R). The GICOPix-SGCN outperform allthe baselines except the Spherenet [5] based on the con-ventional CNNs. To evaluate the ability of models in en-coding rotation-equivariance, we train the proposed modeland Spherenet [5] on the non-rotated dataset and test onthe rotated dataset (N/R). The Spherenet [5] performs muchworse, while the performance of the proposed GICOPix-SGCN performs the best with only a slight decrease (Dec.)in performance compared to R/R.We also compare the performances of the three differentpixelation schemes with the same network, i.e., the GSSPix-SGCN, the HEALPix-SGCN, and the GICOPix-SGCN. Inthe R/R and N/R settings, the proposed GICOPix-SGCN43090203060S-MNIST（ERP格式）0MNIST0S-CIFAR-10（ERP格式）0CIFAR-100图6. S-MNIST数据集和S-CIFAR-10数据集中的ERP格式示例，其中φ = {0，π02}。ERP格式的失真，其中φ = π02是最大的。04}。对于R数据集，θ∈{−π，π}，φ∈{−π02}。我们展示了来自S-MNIST数据集的球面图像的ERP，其中φ = 0，π03，06，π0表3.不同模型在S-MNIST数据集上的准确率（%）。在R/R设置中，我们以更少的参数实现了可比较的性能。在N/R设置中，GICOPix-SGCN实现了最佳性能。在“N/R”设置和“Dec”下的性能表明所提出的模型具有更强的捕捉旋转等变性的能力。0模型 R/R N/R Dec. Param.0GCNNs [12] 82.79 - - 282K0S2CNNs [3] 88.14 - - 149K0PDOs [11] 83.00 61.09 21.91 62K0SphereNet [5] 94.41 55.18 39.22 196K0GSSPix-SGCN 74.41 43.26 31.15 58K0HEALPix-SGCN 92.36 91.41 0.95 58K0GICOPix-SGCN 93.58 93.43 0.15 58K0表4.不同模型在S-CIFAR-10数据集上的准确率（%）。GICOPix-SGCN在R/R和N/R设置中实现了最佳性能。在“N/R”设置和“Dec”下的性能表明所提出的模型具有更强的捕捉旋转等变性的能力。0模型 R/R N/R Dec. Param.0SphereNet [5] 53.90 37.18 16.72 196K0GSSPix-SGCN 47.51 38.85 8.66 58K0HEALPix-SGCN 55.08 51.90 3.18 58K0GICOPix-SGCN 58.03 56.84 1.19 58K0GICOPix-SGCN在N/R设置中表现出色，比其他两种方案的SGCN获得了显著的性能提升。我们将GICOPix-SGCN的成功归因于其探索旋转等变性的能力。此外，基于更规则的球形图的SGCN在S-MNIST数据集的旋转不变分类中具有更好的性能。04.5. S-CIFAR-10分类0数据集。S-CIFAR-10数据集包含比S-MNIST数据集更多的逼真图像。我们以与生成S-MNIST数据集相同的方式创建S-CIFAR-10数据集的R和NR集合。具有φ = 0,π的S-CIFAR-10数据集的球面图像的ERP0图6展示了2的实验设置。我们采用SphereNet[5]作为基准模型。SGCN的网络和实现细节与S-MNIST分类任务相同，只是将学习率降低到0.01和0.001。结果。在S-CIFAR-10数据集上比较了不同模型的性能，结果见表4。所提出的GICOPix-SGCN在R/R和N/R设置中实现了最先进的性能。特别是在N/R设置中，所提出的GICOPix-SGCN的性能下降最小。这表明基于更规则的球形图的SGCN具有更强的旋转等变性和旋转不变性，因此在S-CIFAR-10数据集上的旋转不变分类中表现更好。PointNet [18]83.614.768.93.5MSubVolSup MO

下载后可阅读完整内容，剩余1页未读，立即下载