没有合适的资源?快使用搜索试试~ 我知道了~
四元数卷积神经网络Xuanyu Zhu1人,Yi Xu1人,Hongteng Xu2人,3人,Changjian Chen1人1上海交通大学,中国上海{其他人唱,xuyi}@ sjtu.edu.cn,ccj1988@gmail.com2Infinia ML,Inc.3杜克大学,达勒姆,北卡罗来纳州,美国hongteng. duke.edu抽象。在实数域中的神经网络已经被研究了很长时间,并在近年来许多视觉任务中取得了可喜的成果。然而,神经网络模型在其他数域的扩展及其潜在应用还没有得到充分的研究。针对可以自然地表示为四元数矩阵的彩色图像,我们提出了四元数卷积神经网络(QCNN)模型以获得更有代表性的特征。特别是在四元数域上重新设计了卷积层和全连接层等基本模块,用于建立全四元数卷积神经网络。此外,这些模块与几乎所有深度学习技术兼容,可以轻松插入传统的CNN。我们在彩色图像分类和去噪任务中测试了QCNN模型。实验结果表明,它们优于相同结构的实值CNN。关键词:四元数卷积神经网络·基于四元数的层·彩色图像去噪·彩色图像分类1介绍卷积神经网络作为一种强大的特征表示方法,在计算机视觉领域得到了广泛的应用 自从AlexNet [20]的成功以来,已经提出了许多新的CNN,例如。,VGG [31],ResNet [13]和DenseNet [16]等,在几乎所有的时间里所有视觉任务[4,12,23]。CNN模型的一个关键模块是卷积层,它有效地从高维结构数据中提取特征通过一组卷积核。当处理多通道输入(例如,,彩色图像),卷积核通过对卷积结果求和来合并这些通道,并且相应地每个核输出一个单个通道,如图2所示。1(a)显示。虽然这样的处理策略在许多实际场合中表现良好,但是它在彩色图像处理任务中先天地遭受一些缺点。首先,对于每个核,它只是将不同通道对应的输出相加,而忽略了它们之间复杂的相互关系同等贡献2X. Zhu等人(a) 实值CNN(b)四元数CNN图1.一、CNN和QCNN在卷积层上的差异说明因此,我们可能会丢失重要的颜色结构信息,并获得彩色图像的非最佳表示[36]。其次,简单地对输出求和为卷积核的学习提供了太多的自由度,因此即使施加了大量的正则化项,我们也可能具有过拟合的高风险如何克服这两个挑战仍然没有得到充分的研究。针 对 上 述 问 题 , 我 们 提 出 了 一 种 新 的 四 元 数 卷 积 神 经 网 络(QCNN)模型,它在四元数域上表示彩色图像。图1说明了QCNN模型的方案特别地,彩色图像中的每个彩色像素(即,像素的颜色)都是彩色的。,图中的黄点1)被表示为四元数,并且因此,图像被表示为四元数矩阵而不是三个独立的实值矩阵。以四元数矩阵作为网络的输入,设计了一系列基本模块,如:四元数卷积层、四元数全连通层。传统的实值卷积只能对输入进行缩放变换,而四元数卷积实现了输入在颜色空间中的缩放和旋转,为我们提供了更结构化的颜色信息表示。基于这些模块,我们可以建立全四元数CNN来更有效地表示彩色图像此外,我们研究了我们的QCNN模型和现有的实值CNN之间的关系,并找到了一种兼容的方式将它们结合在同一算法框架中。本质上,我们的QCNN强加了一个隐式正则化器的网络结构,这保证了彩色图像的表示在四元数操作的指导下。这样的策略考虑跨不同信道的更复杂的关系,同时在训练期间抑制模块的部件的自由度。作为结果,与实值CNN相比,在CNN上使用quaterni,我们可以用更少的参数实现更好的学习结果此外,在我们的QCNN中,彩色图像被表示为四元数矩阵,以便我们可以在整个颜色空间中使用四元数卷积神经网络3∈独立的和物理上有意义的参数(即图2所示的色锥上的大小和角度。1(b)),这增强了模型的可解释性。如图1表明,我们的QCNN比实值CNN保留了更多的颜色信息,适用于彩色图像处理,特别是低级别的颜色特征提取。实验结果表明,我们的QCNN模型为高级视觉任务(即、彩色图像分类)和低级视觉任务(即,、彩色图像去噪),其性能优于其竞争对手。2相关作品2.1基于四元数的彩色图像处理四元数是一种超复数,由Hamilton在1843年首次描述,并解释为三维空间中的点在数学上,四元数域H中的四元数,q∈H,可表示为q≡=q0+q1i+q2j+q3k,其中 ql∈Rf或l=0,1,2,3,且虚单元i,j,k服从四元数规则i2=j2 =k2=ijk= −1.例如,N-维的子代数的子向量可以不被定义为[q1,…, qN]HN. 类似的计算单元,我们对四元数的操作进行了定义:-A dd i t i on:p + q =(p0 + q0)+(p1 + q1)i +(p2 + q2)j +(p3 + q3)k.– 计算公式为:λq=λq0+λq1i+λq2j+λq3k。– 元素倍增:pq=(p0q0−p1q1−p2q2−p3q3)+(p0q1+p1q0+p2q3−p3q2)i+(p0q2−p1q3+ p2q0+ p3q1)j+(p0q3+ p1q2−p2q1+ p3q0)k。–C onjugation:q*=q0−q1i−q2j−q3k。这些四元数运算可用于表示三维空间中的旋转。在3D矢量或q=[q1q2q3]处的w上设置p,以获得具有角度θ且沿着旋转轴w = [w1w2w3]的新矢量p =[p1p2p3],w2 +w2+w2 = 1。这样的旋转等价于以下1 2 3四元数运算:p=wqw,(1)其中q=0+q1i+q2j+q3k和p= 0+p1i+p2j+p3k是这两个向量的表示,并且θ θw=cos(二)2+ sin2(w1i+ w2j+ w3k)。由于四元数可以方便地表示三维矢量的旋转,因此在力学和物理学中得到了广泛的应用[10]。近年来,理论4X. Zhu等人基于四元数的谐波分析已经得到了很好的发展,并且已经提出了许多算法,例如:四元数傅里叶变换(QFT)[29]、四元数小波变换(QWT)[1,35]和四元数卡尔曼滤波器[2,39]。这些算法中的大多数已经被证明对3D对象比实值对象更好地工作。在计算机视觉和图像处理领域,基于四元数的方法也在许多任务中显示出其潜力四元数小波变换[1,17]、四元数主成分分析[40]和其他四元数彩色图像处理技术[37]的优点已被证明可以提取彩色图像的更具代表性的特征,并在彩色图像分类等高级视觉任务在图像去噪和超分辨率等低级最近,基于四元数的神经网络也被提出并用于分类任务[3,27,30]。然而,如何设计四元数CNN仍然是一个悬而未决的问题。2.2实值CNN及其扩展卷积神经网络是许多视觉任务中最成功的模型之一自从LeNet [21]在数字识别方面取得成功以来,已经取得了很大的进展AlexNet [20]是第一个深度CNN,在图像分类任务中大大优于过去所有然后,提出了许多具有深度和复杂结构的模型,如VGG [31]和ResNet [13],它们在ILSVRC [6]中取得了令人难以置信的成功。最近,CNN模型也被引入用于低水平视觉任务。例如,SRCNN [7]将卷积神经网络应用于图像超分辨率,并优于经典方法。对于其他任务,如去噪[24]和修复[34],CNN也取得了令人鼓舞的结果。一些努力已被用于将实值神经网络扩展到其他神经网络。er数字字段。复值神经网络已经建立并得到了证明在泛化能力上具有优势[15],并且可以更容易地优化[26]。音频信号可以自然地表示为复数,因此复CNN比实值CNN更适合此类任务。已经证明,深度复杂网络可以在音频相关任务上获得与实值模型竞争的结果[32]。在[9]中,提出了一种深度四元数网络。然而,它的卷积只是用四元数的乘法代替实数乘法,其四元数核没有进一步参数化。然而,我们提出的四元数卷积对于彩色图像处理任务具有物理意义。3提出的四元数CNN3.1四元数卷积层专 注 于 彩 色 图 像 表 示 , 我 们 的 四 元 数 CNN 将 彩 色 图 像 视 为2Dpureuaternionmatrix,定义为A^=[an nn′]∈HN×N,其中N四元数卷积神经网络5^ ^您的位置:^^×∈^Σ、表示图像的大小。具体地,四元数矩阵A为A=0+Ri+Gj+Bk,(3)其中R、G、B ∈ RN×N分别表示红色、绿色和蓝色通道。在W具有L LquaternionconvutionkernelW=[w{ll′]时,S是向上的HL×L。我们的目标是在输入A和核W之间设计一个有效的和物理上有意义的四元数卷积运算,表示为“卷积"。具体地,该操作应当(i)对颜色向量应用旋转和缩放,以便在整个颜色空间中找到最佳表示;(ii)在处理灰度图像时扮演与实值卷积相同的角色为了达到这个目的,我们利用四元数的旋转性质(1,2),并提出了一个四元数卷积的特殊形式。具体来说,我们将四元数卷积核的元素设置为wll′=sll′(cos θll′+sin2θll′µ),2(四)√3其中θll′∈[−π,π]且sll′∈R。µ是单位长度的灰色轴(即、3 (i+j+k))。如等式1所示。2,我们想要一个单位四元数来执行旋转。因此,四元数卷积被定义为A^W^=F^=[f(kk′]∈H(N−L+1)×(N−L+1),(5)哪里fkk′=L1′wll′a(k+l)(k′+l′)wll′.(六)l=1l=1sll′所有这样的卷积核的集合制定所提出的四元数卷积层。实值卷积运算的基本运算是实数之间的乘法,与之不同,实值卷积运算的基本运算是(6)中的四元数卷积实际上应用了一系列旋转和缩放√3√3√3totheequaternionsann′s in e a c h p at c h. 在ionax处的其余部分是(3,3 3(即:,颜色空间中的灰度轴)进行所有操作,而旋转角度和对于每个操作,缩放因子分别由θll′和sll′指定。这种定义的优点是可解释的。如图1(a)、传统CNN中的卷积独立地对每个像素进行三重缩放变换以遍历三个颜色轴,并且它需要相应地在整个颜色空间中找到最佳表示。对于我们的QCNN,一个像素是颜色空间中的四元数或3D向量,但所提出的卷积在颜色空间的一小部分中找到其最佳表示,因为我们将卷积限制为仅应用旋转和缩放变换。这样的卷积实际上在模型上施加了隐式正则化器,使得我们可以4不失一般性,在下面的内容中,我们假设图像的宽度和高度都等于NL)6X. Zhu等人−×××××××l=1133333333抑制了过多的自由度给核学习带来的过拟合风险。此外,在实值CNN中,输入层将3通道图像转换为单通道特征图,忽略了通道之间的相互关系,这会导致信息丢失。 尽管可以利用多个不同的滤波器来恢复损失,但是恢复需要冗余迭代,并且该冗余的不确定性可以有效地恢复损失。在QC神经网络中,卷积不会导致输入层的降阶,因此可以充分保存通道之间的相互关系信息。虽然我们的卷积运算是为彩色图像设计的,但它也可以应用于灰度图像。对于灰度图像,它们可以被视为通道相同的彩色图像。由于所有对应的颜色向量都平行于灰度轴,因此旋转变换等于恒等变换,因此四元数卷积执行与实值卷积相同的功能。从这个角度来看,实值卷积是灰度图像的四元数卷积的特殊情况。根据quaternioncomutions的规则,如果将a chann′表示为3D向量ann′=[a1a2a3]n,则(6)中的运算可以由一组矩阵乘法表示:Lfkk′=Lf1f2f3′sll′f3f1f2a(k+l)(k′+l′),(7)21其中fkk′是quaternionfkk′的一个向量,且1 2f=+cosθ′,f1 2=−cos(θπ′),f1 2=−cos(θ′+π)。( 八)从(6)到(7)的详细推导在补充文件中给出。另外,因为四元数卷积的输入和输出都是纯四元数矩阵,所以四元数卷积层可以像我们在实值CNN中所做的那样堆叠,并且实值CNN的大多数架构也可以在QCNN中使用。换句话说,所提出的四元数卷积与传统的实值卷积兼容。根据(7),我们可以发现,四元数卷积层具有两倍于具有相同结构和相同数量的滤波核的实值卷积层的参数,因为四元数卷积核的任意元素具有两个可训练参数s和θ。将K表示为内核的数量,将L表示为内核大小,并且将C表示为输入通道的数量。具有K L L C内核的实值卷积层具有KCL2个参数,并且我们需要L2N2KC乘法来处理C N N特征图。具有K L L C内核的四元数层具有2个KCL2参数:每个核具有CL2角度参数[θll′c]和CL2缩放参数[sll′c]。为了处理C N N 3个颜色特征图,我们需要9个L2N2KC乘法,因为每个输出都是9个L2多个乘法,如(7)中所示。Byre-K C将核和通道的数量分别引入到√2和√2,Qua terninlayer的参数与R e al -valuedl a y r的值相等。Σl=1F F F会2会3会Σ四元数卷积神经网络7√我我由于一个层中的通道数C等于核数K,通过以比率1减少所有层中的内核的数量,我们将QCNN的参数数量减半,并且将数量减半。2的操作的4.5倍的实值CNN。注意,当由Tensorflow实现时,(7)中的矩阵乘法可以被优化和并行化。在我们的实验中,我们的QCNN只需要大约两倍的时间,具有相同数量的参数的实值CNN根据我们下面的实验,这样的简化不会对我们的QCNN模型造成损害-实验结果表明,具有与实值CNN相当数量的参数的QCNN仍然可以具有优越的性能。3.2四元数全连通层上述四元数卷积层比实值卷积层保留了更多的相关信息,提取出更好的特征然而,如果我们必须将其连接到一个公共的全连接层,那么保留的这种信息将丢失。因此,在这里,我们设计了一个四元数全连接层,执行与四元数卷积层相同的操作,以保持通道之间的相互关系信息具体地,类似于实值CNN,其全连接层可以被视为具有与输入具有相同形状的内核的一维卷积层的特殊情况,我们的四元数全连接层遵循相同的规则。 设输入为N维向量 上的代数uaterni或a=[ai]∈HN,f或i=1 , 2 , 3…N. 应 用 程 序 的 M1Dquaternionfilteringkernels , 即 。 e. ,wm=[wm]∈HMform=1,..,M,W,E得到一个输出b=[bm]∈HM,其中有一个元素b=ΣN1wmwm,(9)mi =1 si我我我wheresis themagnitudeofw?m.与我们的四元数卷积层类似,所提出的四元数全连接层的计算也可以重新表示为一组矩阵乘法,因此,它也与实值CNN兼容。3.3典型非线性层池化和激活是实现非线性操作的重要层。为我们的QCNN模型,我们将那些广泛使用的实值非线性层扩展到四元数版本。对于平均池化,四元数的平均操作与分别平均3个虚部相同。对于最大池,我们可以定义各种标准,如大小或投影到灰度轴来判断选择哪个元素。在我们的实验中,我们发现,简单地将最大池分别应用于3个类似地,我们在QCNN中分别为每个通道使用具有实值CNN的相同激活函数。对于ReLU,如果四元数的向量旋转出有效值8X. Zhu等人·j-22颜色空间中的范围,例如如果RGB通道的颜色值为负,我们将其重置为颜色空间中最近的点。对于softmax,我们将四元数层的输出拆分为实数,并将它们连接到实值softmax层并相应地训练分类器3.4连接实值网络使用上面提到的模块,我们可以很容易地建立任意此外,由于这些模块的兼容性,我们还可以使用基于四元数的层和常见的实值层来构建混合卷积神经网络。特别是– 连接到实值卷积层:四元数层输出的特征图可以分成3个灰度特征图,每个对应于一个通道。然后,我们可以将这三个映射中的每一个独立地连接到实值卷积层,或者将它们连接在一起并与单个实值卷积层连接。– 连接到实值全连接层:类似地,我们将四元数层的输出平坦化,并将每个四元数元素视为3个实数。因此,我们得到一个实值和向量化的输出,可以连接到实值全连接层容易。4学习四元数CNN4.1权重初始化正确的权重初始化对于成功训练网络至关重要这一原则也适用于我们的QCNN模型。根据我们上面的分析,缩放因子s对应于实值CNN中的参数,其控制变换向量的大小,而旋转角度θ是附加参数,其仅使变换向量旋转输入向量。另外,当变换矢量相加时,虽然幅值受θ的影响,但其在灰度轴上的投影仍然与θ无关。因此,我们遵循[11]中提出的建议,并执行归一化初始化,以便在训练期间保持梯度的方差相同。具体地,对于第j层的每个缩放因子和每个旋转因子,即,,sj和θ,我们将它们初始化为两个均匀随机变量:sU√6√6、Σ, θUπ(十)其中,U[]表示均匀分布,并且n [j]表示该均匀分布的维度。j-t hlayer输入。−√nj+nj+1nj+nj+1∼四元数卷积神经网络9Sf1f2f3f f f′′′年q1f1f2f3年q1f2f3f1年q34.2反向传播反向传播是训练网络的关键,它应用链规则计算参数的梯度并更新它们。将L表示为实值损失函数,用于计算我们的查询CNN模型。p∈=p1i+p2j+p3k和q∈=q1i+q2j+q3k是一个可变量的纯等式。对于在QCNN中形成的操作,i. e. ,p=1wqw,它可以由一组矩阵乘法来表示。相应的四元数梯度也是如此特别是,我们有:LLq==,(11)阿斯图里亚斯当p=[p1,p2,p3]和q=[q1,q 2,q 3 ]时,p = [ p 1,p2,p 3 ]和q =[q1,q 2,q 3]分别表示p和q上的向量。当p和q是特征图和滤波核的任意元素时,对应于(7)中的nn′和wll′′′′布吕普布吕普123布吕普q = sθ=ss=其中,i=1、2、3,被定义为(8)个D。f的乘法与(7)中的乘法相同,但是操作从左乘法切换到右乘法。换句话说,向后过程可以被解释为具有相同轴和相反角度的4.3损失和激活函数在神经网络中,损失函数和激活函数必须是可微的,以便梯度生成和传播。对于全四元数CNN,任何相对于四元数变量的每个部分可微的函数也使四元数链式规则成立,因此可以用作损失(和激活)函数。对于混合CNN,我们根据任务类别选择损失函数。在分类任务中,网络的顶部是实值全连接层,在此之前,四元数输入被平坦化,如3.4节所建议的,并且损失函数是交叉熵损失。 在其他任务中(例如:回归任务),顶层的四元数输出被认为是3通道图像,并且损失函数可以是均方误差(MSE)或其他类似函数。5实验为了证明我们的QCNN模型的优越性和通用性,我们在两个典型的视觉任务上进行了测试:彩色图像分类和彩色图像去噪。这两个任务代表了典型的高级和低级视觉任务。在这两个任务中,与实值CNN模型相比,我们的QCNN模型在学习结果上表现出一致的改进下面示出和分析一些典型的实验结果,并且在补充文件中给出更有代表性的结果和细节f2f3f1f2f3f1年q310X. Zhu等人表1.分类任务模型数据集测试精度浅实网络CIFAR-100.7546浅层四元数网络CIFAR-100.7778实值VGG-S102花0.7308四元数VGG-S102花0.7695具有较少滤波器的四元数VGG-S102花0.76035.1彩色图像分类在我们的研究中,我们测试了两种QCNN架构,一种是cifar-10的浅网络[19],另一种是相对较深的102个牛津花[25]。对于COM,具有相同结构和可比数量的参数的实值网络也在相同的数据集中训练。四元数和实值网络都使用具有softmax函数的实值全连接层或softmax层来对输入图像进行分类。实值网络使用ReLU作为激活函数,而四元数网络分别为每个虚部适配ReLU。所有这些网络都是用交叉熵损失训练的输入数据通过移位和翻转来扩充。针对cifar-10提出的浅层网络包含2个卷积块,每个卷积块具有2个卷积层和最大池化层,并且以2个全连接层结束。在实验中,实值CNN和QCNN的每一层具有相同数量的滤波器,因此实际上QCNN具有更多的参数。这两个模型都使用RMSProp [14]进行了优化,学习率设置为0.0001,学习率衰减设置为1 e-6。训练在时期80结束。102个牛津花的网络是VGG-S [5],它有5个卷积层,3个池化层和3个全连接层。在这个实验中,一个具有与实值相同数量的滤波器的QCNN和另一个具有较少滤波器以保持相似数量的参数的QCNN都被测试。使用Adam [18]优化模型,学习率设置为0.0001。训练在时期50结束。在图2中,我们可以发现我们的QCNN的性能始终优于实值CNN。对于每个数据集,我们的QCNN的损失函数在训练阶段比实值CNN收敛得更快,最终达到更小的损失。QCNN在测试集上的分类精度甚至优于实值CNN在训练的最初阶段。此外,即使我们减少QCNN的参数的数量,所提出的QCNN模型仍然优于具有相同大小的实值CNN。这些现象证实了我们以前的说法。首先,尽管QCNN可以比实值CNN具有更多的参数,但它由于四元数的计算所施加的隐式正则化子,可以较少地遭受过拟合的风险。其次,四元数卷积实现了输入在颜色空间的缩放和旋转,保留了更多的彩色图像的判别信息,这些信息有利于彩色图像的分类,特别是对彩色图像的分类四元数卷积神经网络11×××2.01.81.61.41.21.00.80.60.401020304050607080时代0.90.80.70.60.50.401020304050607080时代5.04.54.03.53.02.52.01.51.00.50.00 10 20 30 40 50时代0.90.80.70.60.50.40.30.20.10.00 10 20 30 40 50时代(a)CIFAR-10:training(b)CIFAR-10:classifi-(c)flower:training(d)flower:classifica-损失阳离子准确度损失测量精度图二、(a,b)在cifar-10上训练期间浅网络的损失和测试准确性(c,d)在102个牛津花数据集(从每个时期的测试集中随机挑选的256个测试图像)上训练期间VGG-S网络的损失和测试准确度表2.去噪任务模型数据集测试PSNR(dB)数据集测试PSNR(dB)实值CNN四元数CNN102朵花30.9792102花31.3176COCO 30.4900子集COCO 30.7256子集其中对象具有明显的颜色属性(即,102 Ox-ford花数据集中的花)。定量实验结果在表1中给出,这进一步证明了我们的模型的优越性。5.2彩色图像去噪除了图像分类等高级视觉任务外,所提出的QCNN还可以在低级视觉任务中获得改进。事实上,由于我们的QCNN模型可以获得更多的颜色信息的结构化表示,自然适合于提取低级特征并替换实值CNN的底部卷积层。为了证明我们的主张,我们在彩色图像去噪任务中测试了我们的QCNN模型。受用于图像恢复的具有对称跳跃连接的编码器-解码器网络[24]和去噪自动编码器[33]的启发,具有跳跃连接的类似于U-Net的[28]编码器-解码器结构用于我们的研究中的去噪。编码器包含两个2 2平均池化层,每个层在两个3 3卷积层之后,3个卷积层和一个全连接层。解码器与编码器对称,包含上采样和转置卷积层。池化之前的层和上采样之后的层通过快捷方式连接。QCNN和具有这种结构的实值CNN都被构建,并且QCNN每层具有更少的滤波器,以确保与实值CNN相似数量的参数。类似于用于分类的网络,两个网络都使用ReLU作为激活函数,除了顶层,其激活函数是“t an h”f un c t i on。这两个工作站都是用MSELOS来实现的。实值CNN实值CNN使用较少滤波器的QCNN具有相同数量滤波器的QCNN实值CNN使用较少滤波器的QCNN具有相同数量滤波器的QCNN实值CNN损失测试精度损失测试精度12X. Zhu等人实值CNN×0.030340.025320.100.0831.030.50.0200.0150.0100.0050.0000100200300400500600700800900 1000时代302826242201002003004005006007008009001000时代0.060.040.020.000500100015002000250030003500时代30.029.529.028.528.0500100015002000250030003500时代(a) 训练损失(b) PSNR(c) 训练损失(d) PSNR图3.第三章。(a,b)在102个牛津花数据集上训练期间使用所提出的去噪网络的测试图像的损失和PSNR(c,d)在COCO子集上训练期间使用所提出的去噪网络的测试图像的损失和PSNR。(a) 原始图像(b)噪声图像(c)放大图像(d)QCNN,25.69dB(e)CNN,24.80dB图4.第一章零食图像的去噪实验我们在两个数据集上训练和测试了这两个模型:102牛津花卉数据集和COCO数据集子集[22]。这两个数据集是我们研究的代表:花卉数据集是一个具有彩色图像的案例,用于从概念上证明我们的QCNN模型的优越性;而COCO子集是一个更一般的自然图像集合,其中既有彩色图像,也有无色图像,可以用来证明我们的模型在实践中的性能。在我们的实验中,训练和测试图像都被切割和调整大小为128 - 128像素,值归一化为[0, 1]。然后是破坏30%像素的椒盐噪声和具有零均值和0的高斯噪声。01方差。网络的输入是受损图像,目标输出是原始图像。对于实值CNN和我们的QCNN模型,优化器是Adam,学习率为0.001,102个牛津花数据集的批量大小为64,COCO子集的批量大小为32。实值CNN实值CNN实值CNN损失测试图像的PSNR测试图像的PSNR损失四元数卷积神经网络131.510.50-0.51.510.50-0.5(a)彩色图像(b)无色图像-100.20.40.60.81饱和分位数(c) S与S D-10 0.2 0.4 0.6角度分位数(d) Avs. D图五、在去噪任务中,对于(a)中的图像,QCNN显示出比CNN高至少0.5dB的 PSNR对于(b)中的图像,CNN提供了更好的结果。(c)饱和度与PSNR差异的分位数-分位数图。(d)颜色向量和灰度轴之间的平均角度与PSNR差的分位数-分位数图。表2示出了实值CNN模型和所提出的QCNN模型的定量比较。我们可以发现,我们的QCNN模型在两个数据集上都获得了更高的PSNR值。损失函数和峰值信噪比在测试集上的变化如图所示。3两个数据集。类似在彩色图像分类实验中,我们的QCNN的损失函数收敛速度更快,在100个epoch后,其在测试图像上的PSNR比实值CNN的PSNR高此外,我们在图中展示了实值CNN和我们的QCNN的去噪结果的视觉比较。4.我们可以发现,我们的QCNN保留了图像中更详细的结构(例如:板上的图案)比实值CNN所做的要多。由于在特征编码过程中存在信息丢失,实值CNN无法完美地保留彩色图像的细节,特别是当结构呈现尖锐的颜色变化时。相反,我们的QCNN可以避免这种信息丢失,即使在底层也可以学习更多的纹理特征,因此它输出的图像保真度更高。高分辨率的视觉比较可以在补充文件中找到。5.3优点和局限性如前所述,我们的QCNN被激励用于彩色图像表示。当涉及到颜色种类很少的图像时,我们的QCNN退化为类似于实值CNN的模型,5因此,在去噪任务中获得了相当或稍差的结果,这在COCO子集上得到了证实。特别地,根据上面显示的结果,我们可以发现我们的QCNN在COCO子集上的优势不如在102个牛津花数据集上的优势那么显著。为了进一步分析这种现象,我们选取了那些我们的QCNN在去噪任务中表现出巨大优势的COCO图像以及那些我们的QCNN在去噪任务中表现出没有优势的COCO图像,并进行比较。5正如我们在3.1节中提到的,对于灰度图像,QCNN的性能与具有相同数量滤波器的实值CNN完全相同。差分分位数差分分位数14X. Zhu等人他们在图中的视觉五、我们可以发现,我们的QCNN表现出更好性能的图像通常是彩色的,而我们的QCNN不如实值CNN的图像接近灰度图像。为了进一步研究QCNN第一个度量是彩色图像的平均饱和度,表示为S。对于图像,低S表示该图像类似于灰度图像,而高S值意味着该图像具有高色彩饱和度(即,许多彩色部分)。第二个度量是彩色图像的像素(颜色向量)与灰度轴之间的平均角度,表示为A。对于一幅图像,平均角度越大,图像的色彩越丰富是.我们在图5(c)和图5(d)中示出了这两个度量相对于实值CNN的PSNR值与我们的QCNN的PSNR值(表示为D)之间的差异的分位数-分位数图。5(d)。我们可以发现S和A都与D正相关。这意味着当目标图像是彩色的时,我们的QCNN可以显示出其相对于实值CNN的优势除此之外,它的性能几乎与实值CNN相同。6结论和未来工作在本文中,我们介绍了QCNN,一个基于四元数的神经网络,它在彩色图像分类和彩色图像去噪方面都比传统的实值CNN有更好的性能。定义了一种新的四元数设计了一系列基于四元数的层,与现有的实值网络具有良好的兼容性和合理的计算复杂度。总之,该模型是神经网络模型在其他数域的一个有价值的扩展在未来,我们计划探索更有效的 算 法 来 学 习 QCNN 。 例 如 , 如 我 们 在 第 4.2 节 中 提 到 的 , 对 于QCNN,它们的梯度的反向传播可以由颜色向量相对于输入的正向传播的反向旋转来表示这样的属性为我们提供了一个机会,以减少反向传播的计算,给定的中间信息的前向传播和加速学习QCNN相应的。此外,我们将把QCNN模型扩展到大规模数据和更多应用。确认本工作得到了国家自然科学基金(61671298,U1611461,61502301,61521062),STCSM(17511105400,17511105402,18 D Z2270700)、中国的T hou and You T al e n t s P lan、111公司B 07022、MoE部人工智能重点实验室、上海交通大学人工智能研究所和上海交通大学-加州大学洛杉矶分校机器感知与推理联合中心。本文通讯作者为徐毅(xuyi@sjtu.edu.cn)。四元数卷积神经网络15引用1. Bayro-Corrochano , E. : 四 元 数 小 波 变 换 的 理 论 与 应 用 。 J 〇 unl 〇fMathemalimalm angandVision24(1),192. Bayro-Corrochano,E.,张毅:电机扩展卡尔曼滤波器:刚体运动估计的几何方法。Journal of Mathematical Imaging and Vision13(3),2053. Bayro-Corrochano , E.J. : 几 何 神 经 计 算 。 IEEE Transactions onNeu-raINetworks12(5),9684. Cao,Z.,Simon,T.Wei,S.E.,Sheikh,Y.:利用局部仿射场进行实时多人二维姿态在:CVPR中。卷1,p.2017年75. Chatfield,K.,西蒙尼扬,K.,Vedaldi,A.,齐瑟曼,A.:中的魔鬼回归详情:深入研究卷积网络。arXiv预印本arXiv:1405.3531(2014)6. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的分层图像数据库。在:计算机视觉和模式识别,2009年。CVPR2009。我是一个很好的朋友。pp. 248-255 02TheDog(2009)7. 董,C.,Loy,C.C.,他,K.,唐X:学习深度卷积网络以用于图像更新。In:EuropeanConferenceonCom up uterVison。pp. 184199. Spuringer(2014)8. Gai,S.,Wang,L.,美国,杨,G.,Yang,P.:基于约化四元数矩阵矢量扩张的多尺度图像去噪稀疏表示。IET ImageProcessing10(8),5989. 高 代角 Maida , A.: 深度 四元 数网 络。 arXiv 预 印本arXiv : 1712.04604(2017)10. Girard,P.R.:四元数群与现代物理学。European Journal of Physics 5(1),25(1984)11. Glorot , X. , Bengio , Y. : 了 解 训 练 深 度 前 馈 神 经 网 络 的 难 度 。JournalofMachineLearningResearch9,24912. 他,K.,Gkioxari,G.,Doll,P.,Girshick,R.:电影Mask R-CNN(2017)13. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习在:IEEE计算机视觉和模式识别会议论文集。pp. 77014. Hinton,G. Srivastava,N.,Swersky,K.:Neural Networks for MachineLearning Lecture 6a Overview of mini-batch Gradient Descent(2012)15. 广濑,A.,Yoshida,S.:与信号相干性相关的复值前馈神经网络的泛化特性。IEEE Trans Neural NetwLearnSyst23⑷,54116. Huang,G.,刘志,Weinberger,K.Q.,van der Maaten,L.:密集连接的卷积网络。在:IEEE计算机视觉和模式识别会议论文集第1卷,第3页(2017年)17. Jones,C.F.,Abbott,A.L.,主席,R.W.,康纳斯,R.W.,埃里希岛雅各 布 斯 , S. , Midkiff : 使 用 四 元 数 Gabor 滤 波 器 的 彩 色 人 脸 识 别(2003)18. 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法arXiv预印本arXiv:1412.6980(2014)19. Krizhevsky,A.,Hinton,G.:从微小图像中学习多层特征(2009)20. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:使用深度卷积神经网络的图像网分类。在:神经信息处理系统的进展。pp. 109716X. Zhu等人21. LeCun,Y.,Boser,B.,Denker,J.S.,Henderson,D. Howard,R. E.,Hubbard ,W. Jackel,L.D.:反向传播应用于手写邮政编码识别。NeuralC0mPutA T0n1(4),54122. 林,T. 是的, 我是M Belongie,S., 嗨,J., Perona,P., Ramanan,D. ,Dolla'r,P.,Zitnick,C.L.:微软coco:上下文中的公用对象。在:欧洲会议上的竞争对手。pp. 740-755 02TheDog(2014)23. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。在:IEEE计算机视觉和定位会议论文集。pp. 343124. 毛泽东,Shen,C.,Yang,Y.B.:使用具有对称跳跃连接的非常深的卷积编码器-解码器网络的图像恢复。In:Advances in neural in Formal in ProocessSystems. pp. 280225. 尼尔斯贝克法医齐瑟曼,A.: 在大量样本上进行花卉自动分类。 In:C〇mputerVision,Graphics&ImagePr ocessing,2008. ICVGIP' 08。SixthiindianC〇nferenceon。pp. 722-729 02The Dog(2008)26. Nitta,T.:关于复值神经网络的临界点。In:Inter-nat-nalConferenceonNeuralInformmatonPr ocessing. pp. 1099- 1103卷第三次(2002年)27. Nitta,T.:反向传播算法的四元版本。在:神经网络,1995中。发布日期IEEEIter natinavol. 第5页。2753IEEE(1995年)28.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功