等变神经网络：利用正交极谐波变换编码进行卷积层和全连接层的位置编码

147 浏览量更新于2023-10-15 收藏 587KB PDF 举报

卷积神经网络

性能改善

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1523等变神经网络旁遮普大学，帕蒂亚拉rs21@pbi.ac.in旁遮普大学，帕蒂亚拉chandan. gmail.comPatiala旁遮普大学ankurrana628@gmail.com摘要标准卷积神经网络（CNN）的卷积层与平移是等变的最近，引入了一类新的CNN，其等效于其他仿射几何变换，例如通过用组卷积层替换标准卷积层或在卷积层中使用可操纵滤波器来实现我们建议在等效CNN架构中对全连接或分类层的特征图进行平坦化之前，使用正交极谐波变换（PHTs）嵌入对旋转、反射和平移我们选择了几个不变变换中的PHTs，因为它们在性能和速度方面非常有效。所提出的等变网络的卷积层和全连接层之间的2D位置编码方案在旋转的MNIST、CIFAR-10和CIFAR-100数据集上显示出显著的性能改善。1. 介绍卷积神经网络（CNN）已经在各种计算机视觉任务中实现了最先进的性能，特别是图像识别任务，CNN在ImageNet数据集上已经超过了人类水平的智能。标准CNN模型的架构由特征提取层、池化层、非线性激活函数和全连接层组成[14]。卷积层负责从给定的输入数据中学习抽象然而，CNN的卷积层只与平移等变，而全连接层既不是等变的，也不是任何仿射几何变换的不变的。如果应用于输入的变换T产生特征空间的可预测变换T ′，则网络是等价的，如果应用于输入的变换T不影响输出，则网络是不变的。在现实生活中，图像是生成的，通常通过诸如旋转、平移、反射等不同的几何变换而变形这通过流形增加了图像识别任务的复杂性。一个简单的解决方案是通过数据增强对这些变换进行编码，只需在保持标签固定的同时变换输入图像。然而，数据扩充也有不可避免的缺点，1) 不能保证这些变换的不变性，2）它仅全局捕获几何不变性，以及3）网络容量花费在学习几何行为上，这隐含地影响描述性表示学习。Worrall等人[28]讨论了在整个网络层中保持相对局部姿态的重要性，这只有通过等方差才有可能，并且它还向更深层传递了有关输入的更多信息。此外，等方差还保证了输入变换时没有信息损失。因此，重要的是CNN模型的中间层必须是等变的而不是不变的，这导致了设计等变神经网络的想法根据我们的知识，到目前为止开发的等变CNN通过执行等变卷积和下采样来消除滤波器响应的空间维度，以获得用于分类的最终我们的贡献如下：• 在假设网络的中间层与旋转、反射和平移等变的情况下，我们使用极坐标谐波变换（PHTs）来编码关于旋转、反射和平移的全局不变性• PHTs将滤波器响应或特征图的高阶2D位置差异编码到全连接层中，因此，全连接层除了是不变的之外还保留了空间信息。• 所提出的不变编码方案增加了一个1524∈→ΣΣ通过消除对特征映射空间维数的限制，使等变神经网络的设计具有更大的自由度，从而得到最终的分类向量。2. 相关工作2.1. 等变二维CNN在等变CNN的开创性工作中，Cohen和Welling [4]提出了一个群等变CNN（G-CNN）的框架。在G-CNN中，卷积、池化、批量归一化和激活运算符根据变换组上的动作重新定义。G-CNN被定义为组操作的组合，以确保整个网络的等方差G-CNN在性能上比标准CNN有显著的提高，因为它利用了图像中更多的对称性。然而，G-CNN仅限于离散变换，例如90度旋转和反射，这使得像素网格保持完整。G-CNN的后续工作集中在扩展变换群上。Hoogeboom等人[10]提出了HexaConv网络，与原始的G-CNN [4]相比，它具有6重旋转对称性。Chidester等人[2]介绍了圆锥卷积和DFT网络（CFNet），其在CNN中相对于源自图像中心的圆锥区域中的旋转实施等方差和不变性。通过使用圆锥卷积层来强制等价性，并且使用2D-DFT来强制不变性。Bekkers等人[1]通过使用双线性插值来有效地变换卷积核，介绍了用于任意角度分辨率的 SE（2 ）Romero等人[16]提出了基于注意力的G-CNN，其中注意力在卷积过程中应用，以利用有意义的对称性，同时抑制不合理和误导性的对称性。基于利用更多的对称性在数据中， Cohen 和Welling [6]提出了可操纵的CNN。可操纵表示是元素特征类型的组合，其中每个特征类型与特定对称性相Worall等人[28]通过将CNN滤波器限制为圆谐波滤波器，提出了谐波网络（H-Nets）等变到360旋转和分片平移。 Weiler 等人 [25] 提出了可操纵滤波器 CNN（SFCNN）联合等变到平移和旋转。SFCNN有效地计算方向相关的响应，而不受插值的影响。过滤器旋转的时间Ruthotto和Haber [17]对卷积滤波器提供了一种新的理解，其中传统的卷积滤波器被视为偏微分算子（PDO）的线性组合。基于这一新的认识，Shen et al.[18]引入PDO等变式卷积网络（PDO-eCOnvs），它与n维欧氏群（更一般的连续群）等变，而不是离散变换群[4]。2.2. 等变3D CNN等方差在3D情况下也很重要，因为3D对称性在3D对象中围绕垂直轴是不可避免的。Winkels和Cohen [26]提出了用于肺结节检测的3D旋转平移G-CNN。Wor-rall和Brostow [27]介绍了CubeNet，这是一种G-CNN，在3D中具有平移和直角旋转的线性等方差。Weiler等人[24]提出了SE（3）-等变CNN，它与刚体运动等变。Shen等人[19]扩展了他们以前的工作[18]，并采用PDO设计3D PDO-eConv网络。Thomas等人[22]介绍了张量场网络，它与3D点云的3D旋转、平移和置换等变。此外，等变CNN，如spehrical [5]和规范等变CNN[3]被引入其他空间中定义的数据。3. 群等变神经网络标准CNN的卷积层与平移是等变的。设f是一个特征图f：Z2R-K和O-t是一个平移算子，它使f平移t Z2.平移等方差表示如下[4，10]：[[Ot f]整数]（x）= [Ot[f整数]]（x），（1）其中，滤波器表示滤波器。代替平移，如果我们考虑旋转r，则（1）重写如下：[[O r f]]（x）=[O r[f <$O r−1 <$]]（x）。（二）这里，旋转特征图f与滤波器的卷积等于f与反向旋转滤波器Or−1的卷积的旋转。从（2）可以清楚地看出卷积不是等变平移.假设g是一个特定的变换（例如，旋转或反射）。然后，第一层的G-卷积运算对Z2上的函数进行如下操作：[f]（g）=fk（z）k（g−1z）.（三）z ∈Z 2K其中k表示输入通道，fk和fk是Z2上的函数。所有其他层的G卷积运算定义如下：[f]（g）=fk（h）k（g−1h）.（四）K在这里，fk和fk是G上的函数，而不是Z2。可以很容易地证明G-卷积与由群g∈G定义的变换是等变的，如下所示：[[O g f] g]（g）=[O g[f g]]（g）。（五）h∈G1525×× − × −√.−1（r）=cos（πnr2），一Bn−π−√4λ ΣΣ4. 极谐变换极调和变换（ Polar Harmonic transforms ，简称PHTs）是在极坐标系中的单位圆上定义的二维正交变换极坐标变换包括极坐标复指数变换、极坐标余弦变换和极坐标正弦变换.设f（r，θ）是定义在连续极坐标域中的二维特征映射。对于f（r，θ）的阶数n和重复次数m的PHTs被定义为[29，15]：图1.从左边的矩形直角坐标域映射到右边的极坐标域中的单位圆盘。An，m（f）=λ∫2π∫1[Hn，m（r，θ）]f（r，θ）rdrdθ，（6）0 0使用（6）推导PHTs是困难的，因为滤波器重新定义了其中[Hn，m（r，θ）]是Hn，m（r，θ）的复共轭，其可以重写为核或径向基函数和角函数的可分离形式，如下所示：Hn，m（r，θ）=Rn（r）eimθ，（7）由CNN生成的sponses（特征图）是离散的并且在笛卡尔坐标系中定义，而PHTs在连续极域中定义。因此，进行了从直角坐标域到极坐标域的映射设f（a，b）是一个尺寸为M M的特征图，（a，b）是f（a，b）中的一个坐标。映射是每个-其中i=-1。 PHTs的数学框架由MM方域到[1，1] [1，1]形成，如图所示。1使用以下转换[20]：（6）中定义的PCs、PCT和PST相似，它们的不同之处在于它们的核或径向基函数Rn（r）和归一化参数λ的形式，xa= 2a+ 1MM2，yb=2b+ 1MM2，（十三）按下[29]：PCET：Rn（r）=ei2πnr2，λ=1，π（八）其中x=y=2M2让a，b = 0，1，2，. . . M − 1，.|n|为|M|= 0，1，. . . ，∞。（a，b）是直角坐标系中的坐标坐标系中，则在极坐标域（rab，θab）中相应的位置为rab=x2+y2，n（9）θ ab= tan（yb，xa），其中θ ab∈[0，2π）. 由于n个，|M|= 0，1，. . . ，∞。PST：Rn（r）=sin（πnr2），n= 1、2、. . . ，∞，（十）（6）中给出的二重积分没有解析解，一般采用零阶近似：M−1M−1A（f）=f（a，b）[H（x，y）]<$$> x<$y.哪里|= 0，1，.|= 0,1,. . . ，∞。n，m2M2a=0b=0n，maB（十四）1λ=πn= 05. PHT的不变性多氯联苯和多氯联苯20在这一节中，我们将讨论PHTs的旋转、反射和平移不变性。核函数与角函数满足正交条件5.1. 旋转不变性设f（r，θ）是一个被任意an旋转的函数∫2π∫ 1√PCT：R1526Rn（r）[Rn′（r）]rdr=2δn，n′.[Hn，m（r，θ）]Hn′，m′（r，θ）rdrdθ=πδn，n′δm，m′，角α（逆时针）变为fα（r，θ）=f（r，θ+α）0 0（十一）其中δnn′ 如果n=n′，则= 1，否则为0。径向基函数Rn（r）分别满足正交则旋转函数An ，m（fα）和未旋转函数An ，m（f）的PHTs具有以下关系[8，7]（见Ap-定理A）：An，m（f α）=An，m（f）e−im α。（十五）∫1∗10从上述关系可以清楚地看出，角α在相位上偏移−mα。震级抵消1527α× × ×θKθX=a=0b=0，y=a=0b=0.θθ一Σ Σ ΣΣθθ输出指数因子，并变得对旋转不变，如下所示：|为|An，m（f）|.|.（十六）5.2. 反射不变性设fh（a，b）和fv（a，b）是原始函数f（a，b）的水平和垂直翻转版本，则原始函数和翻转函数的PHT之间的关系定义如下（参见附录B）[13]：An，m（f h）=（−1）m[An，m（f）]<$.（十七）和A n，m（f v）=[A n，m（f）].（十八）其中[. [1]是复共轭。（17）和（18）的幅度对于水平和垂直翻转是不变的。5.3. 平移不变性对于PHTs，平移不变性可以简单地通过以与特征图的质心重合的方式移动坐标系（a，b）的中心来实现。设f′（a+a，b+b）是f（a，b）通过平移因子a和b的平移形式.通过用（a，b）的质心替换坐标系（M/2，M/2）的中心来计算平移不变的中心PMT，如下所示[21]：表1.测试误差（%）使用提出的G-CNN+ PCT和G-CNN+ PCT获得不同的变换阶数（nmax）。方法35791113G-CNN（p4）1.781.601.621.661.711.74公司简介G-CNN（p4）1.801.611.641.681.761.81+多氯三联苯CNN。应用卷积和下采样来消除特征图的空间维度，直到特征图变成仅仅是一个向量，以便保留学习到的等方差/不变性表示。设F是一个等变CNN，定义为L个等变层的组成，l是F中的一个特殊层.由F在特定层l处生成的特征图Yl被表示为：Y1=F1（X），（22）其中Yl具有维度hlwlθcl，并且h、w、θ、c分别表示高度、宽度、变换和通道。特征图Y1是关于组G的函数，应用映射函数Y1，其将G映射到Z2，其通过将变换组一个接一个地线性连接到通道cl来消除变换轴θ，操作定义为：M−1M −1lllAM n，m（f）=λf（xa，yb）Rn（ra，b）e−imθab，W=θ（Y），（二十三）a=0b=0（十九）其中W l的维数为h l× w l× c l且c l= θ × c l。其中xa和yb的计算公式如下：重要的是要注意，映射函数fl是等价的。蚂蚁，可以保留学习x=2a+ 1 −x，yDb =2b+ 1 −y。（二十）D通过CNN的中间等变层。最后，如下计算c1上的中心PHTs：质心（x，y）的计算公式如下[13]：M−1M−1a.f（a，b）M−1M−1b.f（a，b）<$M−1<$M −1f（a，b）<$M −1<$M −1f（a，b）I k= |AM n，m（W l）|，k = 1，2，. . .c l，（24）其中Ik是大小为（nmax+ 1）2的向量，并且（nmax）是最大PHT阶数。最后的不变表示I是a=0b=0a=0b=0（二十一）通过线性连接向量Ik获得，获得为I= [I1，I2，. . . Icl]并传递到下面的全连接层进行分类。提出的不变量6. 基于PHTs的二维不变位置编码在一般标准CNN架构中，在最终卷积层之后应用一定数量的全连接层。如前所述，等变CNN是等变运算1528（例如，卷积、池化、批量归一化和激活），以确保整个网络的等方差。由于全连接层对于变换不是等变/不变的，因此，不能保留由等变学习的等变/不变表示使用等变CNN的等变和不变算子的2D位置编码方案如图所示。二、在CFNet[2]中，DFT用于编码仅关于旋转的我们在各种正交变换中选择了PHTs，旋转、反射和平移）、高性能和低计算复杂度。此外，我们可以计算无限数量的不变量的帮助下，与DFTs相比，这是有限的和有限的f的大小。这是因为相对于离散的DFT，PHTs是连续的变换. 在提出的等变CNN框架中，1529×θ×××× ×× ××××图2.具有等变中间层和不变全连接层的网络架构：（a）中间等变层和（b）基于PHTs的2D位置编码，然后是全连接层。表2.在旋转的MNIST数据集上通过现有和拟议方法获得的测试误差（%）。方法试验误差（%）参数Z2CNN [4] 5.03 22kZ2CNN+data aug [4] 3.50 22kG-CNN（p4）[4] 3.21 25k中国电信[2][28]第28话[18]第18届中国国际汽车工业展览会G-CNN+ PCNN（p4）1.60±0.002 26.5kG-CNN+ PCT（p4）1.61±0.003 26.5kPDO-eConv+ PCO2（p8）1.56±0.004 27.5kPDO-eConv+ PCT（p8）1.58±0.004 27.5k等变CNN的中间层等同于保持局部相对姿态而不丢失任何重要信息的变换，并且最终的全连接层对于变换全局不变。此外，使用所有变换背后的直觉是，学习的特征图是唯一的，并且表示输入数据的独立信息或特征这方面非常有用，并在第7节中使用实验进一步验证。所提出的集成的另一个重要用途是用于高分辨率表示学习[23]，这对于敏感的视觉问题（例如人类姿势估计、语义分割和包括图像分类的对象检测）很重要，因为它解决了将特征映射下采样到最终分类的向量的问题。7. 实验结果在本节中，我们在旋转的MNIST 、CIFAR-10 和CIFAR-100数据集。旋转的MNIST数据集被选择来评估所提出的等变和不变架构在旋转下的性能CIFAR-10和CIFAR-100是更自然的大规模彩色基准图像数据集，通常用于评估深度神经网络架构。实验在NVIDIA Quadro P40008GB GPU上进行，并使用TensorFlow 1.14实现了所提出的2D7.1. 旋转MNIST旋转的MNIST数据集[12]最常用于研究等变CNN的等方差特性它分为训练集、验证集和测试集，分别为10000、2000和50000张图像。将测试拆分旋转到[0，2π）中的随机旋转。出于实验目的，使用G-CNN（p4）1架构[4]，其中包含6层3 3卷积核。所提出的不变2D位置编码方案在G-CNN的架构中的层6（l= 6）之后被集成，随后是全连接层。第6层的特征图（Y6）的维度为4 4 410，在应用映射算子（Wl）之后，得到Wl，并且Wl的维数为4440。在PDO-eConv（p8）的情况下，层6处的（Y6）的维度为4 4 8 7和W1是44五十六所提出的模型架构使用Adam优化器进行训练，权重衰减为0.01，并且使用Xavier初始化来初始化全连接层的权重该模型使用一批大小为128到200的epochs进行训练。初始学习率设置为0.001，并在总200个epoch的50%和75%之后除以10。表1显示了不同的PHTs（PCT-PCR和PCTs）的识别率。1pn表示由平移和旋转2π/n生成的群，pnm表示由平移、反射和旋转2π/n生成的群。1530×××θ××× ×× ×× ×××× ×表3. 在CIFAR-10和CIFAR-100上通过现有和拟议方法获得的测试误差（%）。方法G深度CIFAR-10 CIFAR-100参数ResNetZ2445.6124.12.64MG-CNNp4m444.9823.242.62MPDO-eConvp8443.7620.12.62MG-CNN+ PCHRMp4m444.7623.022.63MG-CNN+PCTsp4m444.8023.082.63MPDO-eConv+ PCO2p8443.5818.232.63MPDO-eConv+ PCTp8443.6218.512.63Mtransform orders（nmax）. PHTs在阶数nmax= 5处获得最低测试误差，该阶数被选择用于本节中的进一步实验。对于阶数n max= 5，不变2D位置编码方案将36 40和36G-CNN和PDO-eConv的56个学习参数。表2示出了通过现有Z2CNN、具有数据增强的Z2CNN（即，Z2CNN+数据aug.）G-CNN 、CFNet、H-Net、PDO-eConv和所提出的G-CNN+ PCO 2、G-CNN+PCTs、PDO-eConv + PCO 2、PDO-eConv+PCTs。从表中可以很容易地观察到，与现有方法相比，在G-CNN和PDO-eConv网络之上提出的不变方案7.2. 自然图像分类在这里，我们使用两个更自然的图像数据集CIFAR-10和CIFAR- 100 [11]来评估所提出的不变2D位置编码方案的性能。CIFAR-10和CIFAR-100数据集由大小为32 32的彩色自然图像组成。CIFAR-CIFAR-100数据集分为100类，CIFAR- 100数据集分为10类。这两个CIFAR数据集被分为训练集和测试集的大小分别为50000和10000图像。根据[18]中规定的质量标准进行实验从训练集中选择5000个图像作为验证集，并且在训练期间选择具有最低验证误差的模型。训练集使用标准增强方案进行增强，该方案是通过mir/shifting [18]进行的，图像通过其相应通道的均值和标准差进行归一化。选择ResNet [9]作为基础模型，以在G-CNN和PDO-eConv 之上评估所提出的不变 2D位置编码。ResNet模型包括初始卷积层，随后是在阶段i使用ki个滤波器的3个阶段的2n卷积层，以及最终分类层，总共6n+ 2层。ResNet-44的结果示于表3中，其中ki= 11、23、45且n= 7。ResNet-44的卷积层分别由G-CNN和PDO-eConv网络的G-convolutional层和PDO-eConv层替换。该模型使用随机梯度下降（SGD）进行动量为0.9，一批尺寸为128，持续300个时期。初始学习率被设置为0.1，权重衰减为0.001，并且学习率在总训练时期的50%和75%处除以10，总训练时期为300。使用Xavier初始化方法[18]初始化全连接层的权重。对于G，在最终卷积级之后的滤波器响应的维数是8 8 845CNN和PDO-eConv的8 8 8 45。在使用DAI（YI）进行映射之后，对于G-CNN和PDO-eConv，维度分别被映射到8 8 360和8 8 360应用所提出的不变2D位置编码方案，其生成用于G-CNN的大小为36 360的特征向量和用于PDO-eConv的大小为36 360的特征添加到网络的附加参数的数量为12，960。从表3中可以再次观察到，在G-CNN和PDO-eConv网络之上提出的不变方案显著降低了两个数据集的测试误差。8. 结论在本文中，我们提出了一种2D位置编码方案，该方案使用正交PTs通过在等变卷积层和全连接层之间的过渡中集成正交PTs来学习等变CNN中的不变表示。该编码方案具有旋转、反射和平移不变性。此外，PTs的核计算非常简单，并且没有数值不稳定性问题。实验进行旋转MNIST上使用的PCTRAN和PCTs，以评估所提出的架构和CIFAR-10和CIFAR-100数据集的等变性和不变性。与CNN（Z2-CNN）、Z2 CNN+数据增强相比，G-CNN （p4 ，p4m ）、CFNet 、PDO-eConv（p8）和H-Net，并通过对等变CNN的滤波器响应进行下采样来推迟去除空间维度的需要引用[1] Erik J Bekkers，Maxime W Lafarge，Mitko Veta，KoenAJ Eppenhof，Josien PW Pluim和Remco Duits。旋转平移协变卷积神经网络在医学图像处理中的应用1531年龄分析在医学图像计算和计算机辅助干预上，第440448. Springer，2018.[2] Benjamin Chidester，Tianming Zhou，Minh N Do，andJian Ma.用于显微图像分析的旋转等变不变神经网络。生物信息学，35（14）：i530[3] Taco Cohen，Maurice Weiler，Berkay Kicanaoglu，andMax Welling.规范等变卷积网络与二十面体卷积神经网络。机器学习国际会议，第1321-1330页。PMLR，2019年。[4] 塔可·科恩和麦克斯·威林群等变卷积网络。在机器学习国际会议上，第2990-2999页[5] TacoSCohen， MarioGeiger ， JonasK？hler ，andMaxWelling. 球形 cnns 。 arXiv 预印本 arXiv ：1801.10130，2018。[6] Taco S Cohen和Max Welling。可控cnn。arXiv预印本arXiv：1612.08498，2016.[7] JanFlusse r，TomasSuk，andBarbaraZit o v a'. 2D和3D图像分析矩。John Wiley Sons，2016.[8] Jan Flusser，Barbara Zitova，and Tomas Suk. 模式识别中的矩与矩不变量。John Wiley Sons，2009年。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。在欧洲计算机视觉会议上，第630-645页。施普林格，2016年。[10] Hoogeboom ， Jorn WT Peters ， Taco S Cohen 和 MaxWelling。六角锥体在2018年的学习代表国际会议[11] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009年[12] Hugo Larochelle ， Dumitru Erhan ， Aaron Courville ，James Bergstra，and Yoonne Bengio.对具有多个变化因素的问题的深层体系结构的经验评估。第24届机器学习国际会议论文集，第473-480页，2007年[13] 米罗斯·劳·帕夫拉克。通过矩进行图像分析：反射和计算方面。OficynaWydawniczaPo-litechnikiWrocketawskiej，2006.[14] Yann LeCun，Yoshua Bengio，and Geoffrey Hinton.深度学习nature，521（7553）：436[15] 月南里。彩色图像的四元数极坐标调和变换IEEE SignalProcessing Letters，20（8）：803-806，2013年。[16] David Romero ， Erik Bekkers ， Jakub Tomczak ， andMark Hoogendoorn.注意群等变卷积网络。在机器学习国际会议上，第8188-8199页。PMLR，2020年。[17] 拉尔斯·鲁托和埃尔达德·哈伯由偏微分方程驱动的深度神经网络Journal of Mathematical Imaging and Vision，62（3）：352[18] 沈正阳，何凌申，林周辰，马锦文。Pdo-convs：基于偏微分算子的等价卷积。国际机器学习会议，第8697-8706页。PMLR，2020年。[19] 沈正阳，陶虹，佘琦，马锦文，林周晨。 Pdo-s3dcnns：基于偏微分算子的可操纵三维cnn。《国际机器学习会议》，第19827-19846页PMLR，2022年。[20] Chandan Singh和Amandeep Kaur。极谐波变换的快速计算。Journal of Real-Time Image Processing，10（1）：59[21] Chandan Singh和Jaspreet Singh正交矩和正交变换的旋转不变性综述。信号处理，第108086页，2021年。[22] Nathaniel Thomas，Tess Smidt，Steven Kearnes，LusannYang，Li Li，Kai Kohlhoff，and Patrick Riley.张量场网络：三维点云的旋转和平移等变神经网络。arXiv预印本arXiv：1802.08219，2018。[23] Jingdong Wang ， Ke Sun ， Tianheng Cheng ， BoruiJiang，Chaorui Deng，Yang Zhao，Dong Liu，YadongMu，Mingkui Tan，Xinggang Wang，Wenyu Liu，andBin Xiao.用于视觉识别的深度高分辨率表示学习。IEEETransactionsonPatternAnalysisandMachineIntelligence，43（10）：3349[24] 莫里斯·维勒和加布里埃尔·塞萨一般e（2）-等变可操纵cnn。arXiv预印本arXiv：1911.08251，2019。[25] Maurice Weiler，Fred A Hamprecht，and Martin Storath.旋转等变cnn的方向可调滤波器学习。在IEEE计算机视觉和模式识别会议论文集，第849-858页[26] 玛丽西亚·温克尔斯和塔可·科恩用于脉搏结节检测的3DG-CNNS。arXiv预印本arXiv：1804.04656，2018。[27] 丹尼尔·沃拉尔和加布里埃尔·布罗斯托。Cubenet：3D旋转和平移的等方差。在欧洲计算机视觉会议（ECCV）的会议记录中，第567- 584页[28] DanielEWorrall ， StephanJGarbin ， DaniyarTurmukham- betov，and Gabriel J Brostow.谐波网络：深度平移和旋转等方差。在IEEE计算机视觉和模式识别会议集，第5028-5037页[29] Pew-Thian Yap，Xudong Jiang，and Alex Chichung Kot.二维极调和变换用于不变图像表示。IEEE Transactionson Pattern Analysis and Machine Intelligence，32（7）：1259附录A.旋转不变性设fα（r，θ）是f（r，θ）旋转α角后的旋转形式，则1532−Σ ΣΣ ΣΣ ΣΣ ΣΣ ΣΣ Σf（r，θ）Rn（r）eimθeimαrdrdθ，∫∫∫∫00旋转函数的定义如下[8]：∫2π∫ 1AMn，m（fα）=λf α（r，θ）Rn（r）e−imθrdrdθ，002π1=λ f（r，θ+α）Rn（r）e−imθrdrdθ，0 02π1=λf（r，θ′）Rn（r）e−im（θ′−α）rdrdθ′，0 0∫2π∫1′−′′=e imα AM n，m（f）.（A1）这种关系表明，原始函数和旋转函数的PMT经历了角度mα的相移，并且幅度抵消了旋转角度α的影响。附录B.反射不变性设fv（a，b）=f（a，b）是f（a，b）的垂直翻转版本，则原始版本和垂直翻转版本的PHT具有以下关系[13]：M−1M−1AMn，m（fv）=λa=0f（xa，−yb）Rn（ra，b）e−imθab，b=0M−1M−1=λf（xa，yb）Rn（ra，b）e−im（−θab），a=0b=0M−1M−1=λf（xa，yb）Rn（ra，b）eimθab，a=0b=0=AMn（f）.（A2）类似地，水平翻转版本fh（a，b）=f（−a，b）定义如下：M−1M−1AMn（fh）=λs=0f（−xa，yb）Rn（ra，b）e−imθab，t=0M−1M−1=λf（xa，yb）Rn（ra，b）e−im（π−θab），a=0b=0M−1M−1=λa=0（−1）mf（xa，yb）Rn（ra，b）eimθab，b=0=（−1）mAMn，m（f）.（A3）=λ

下载后可阅读完整内容，剩余1页未读，立即下载