没有合适的资源?快使用搜索试试~ 我知道了~
form [8,9]; and 3) physics and engineering applications [10].In deep learning, complex-valued models have shown severalbenefits over their real-valued counterparts: larger represen-tational capacity [11], more robust embedding [12] and asso-ciative memory [13], more efficient multi-task learning [14],and higher quality MRI image reconstruction [15]. We ap-proach complex-valued deep learning from a symmetry per-spective: Which symmetries are inherent in complex-valueddata, and how do we exploit them in modeling?One type of symmetry inherent to complex-valued data iscomplex-valued scaling ambiguity [18]. For example, con-sider a complex-valued MRI or SAR signal z. Due to thenature of signal acquisition, z could be subject to global mag-nitude scaling and phase offset represented by a complex-valued scalar s, thus becoming s·z.A complex-valued classifier takes input z and ideally6810利用共域对称性进行复值深度学习0Utkarsh Singhal Yifei Xing Stella X. Yu加州大学伯克利分校/ICSI0摘要0我们研究了复值缩放作为一种天然且独特于复值测量和表示的对称性。深度复数网络(DCN)将实值代数扩展到复数域,但没有解决复值缩放问题。SurReal将流形学习扩展到复平面,通过舍弃相位信息的流形距离实现了尺度不变性。将复值缩放视为共域变换,我们设计了利用共域对称性的新型等变/不变层函数和架构。我们还提出了RGB图像的新型复值表示,其中复值缩放表示色调偏移或跨颜色通道的相关变化。在MSTAR、CIFAR10、CIFAR100和SVHN上进行基准测试,我们的共域对称(CDS)分类器相比DCN和SurReal具有更高的准确性、更好的泛化性能、对共域变换更强的鲁棒性以及更低的模型偏差和方差,而参数数量要少得多。01. 引言0对称性是深度学习中最强大的工具之一。自然发生的对称性导致自然数据中的结构化变化。因此,对这些对称性进行建模极大地简化了学习[1],例如,卷积神经网络(CNNs)[2]捕捉图像数据的平移对称性,PointNet[3]捕捉3D点云的排列对称性。这些对称性被形式化为对一组变换的不变性或等变性[4]。然而,这一研究方向主要集中在图像的定义域上定义的变换(如缩放和旋转[5-7]),而共域变换(图1)如颜色偏移和复值范围缩放仍然未被充分探索。此外,这项研究主要集中在实值数据上。我们探索了自然出现的复值数据,这些数据在遥感(如合成孔径雷达(SAR)成像)、医学成像(如磁共振成像(MRI))和射频通信方面自然产生;以及实值数据的频谱表示,如傅里叶变换[8,9];以及物理和工程应用[10]。在深度学习中,复值模型相比实值模型显示出了几个优势:更大的表示能力[11],更强的嵌入[12]和关联记忆[13],更高效的多任务学习[14],以及更高质量的MRI图像重建[15]。我们从对称性的角度来研究复值深度学习:复值数据中存在哪些对称性,以及我们如何利用它们进行建模?复值数据固有的一种对称性是复值缩放模糊性[18]。例如,考虑一个复值MRI或SAR信号z。由于信号采集的性质,z可能受到全局幅度缩放和相位偏移的影响,由复值标量s表示,从而变为s∙z。复值分类器接收输入z,理想情况下0图1.我们研究了在图像范围内利用共域对称性的原则性深度学习设计。图像是从定义域R^D的像素坐标到共域C^K的像素值的函数(例如,对于RGB图像,(D,K)=(2,3))。空间变换(如缩放和旋转)作用于定义域,将R^D中的点映射到其他点,同时保持底层函数值不变。而共域变换(如颜色扭曲或复值缩放)仅作用于函数值。第4列的第2-3行是复值缩放的SAR图像,其幅度和相位分别以颜色强度和色调进行可视化。Color Jitter00.1π0.2π0.5π40506070Test Accuracy (%)OursReal-valued CNNDCNSurReal6820复数代数C-缩放不变性0实数 � �0DCN � �0超现实 � �0我们的 � �0(a) 属性总结0(b) 类别偏差和方差0(c) 颜色变换的鲁棒性0(d) C-缩放下的单个示例的模型预测0图2.我们的方法结合了DCN和SurReal的优势,表现出更好的泛化性和对C-缩放和颜色变换的增强鲁棒性。所有示例均来自使用我们的LAB编码的CIFAR10。(a)与DCN或SurReal不同,我们的模型处理了复值数据的两个关键方面:C-缩放不变性和复数代数。我们的关键见解是设计了一系列具有复数代数中的等变性和不变性的新型层函数。(b)根据[16]的方法计算的类别偏差/方差的小提琴图。须表示最大值/中位数/最小值。SurReal的偏差和方差最高,而我们的模型达到了最低值,表明具有更好的泛化性。(c)在颜色抖动(如[17]中使用的)和不同旋转范围的C-缩放下的准确性。我们的方法在复杂旋转和颜色抖动下保持高准确性,而DCN和实值CNN则失败。SurReal[18]具有鲁棒性,但整体准确性较低。我们的方法将高准确性与鲁棒性相结合。(d)单个示例的正确类别的模型置信度。置信度越高,半径越大。DCN的预测变化很大,而我们的模型对C-缩放具有鲁棒性。0应该专注于区分不同类别的实例,而不是由复值缩放引起的实例间变化s∙z。形式上,如果函数f满足f(s∙z) =f(z),则称函数f为复值缩放不变的;如果函数f满足f(s∙z) =s∙f(z),则称函数f为复值缩放等变的。为简洁起见,我们将复值缩放缩写为C-缩放。我们将图像转换分为两种类型,将图像视为在空间位置上定义的函数。复值图像的C-缩放是图像函数共域中的一种变换,而不是图像域中的空间变换(图1)。形式上,I:RD →CK表示K通道D维空间中的复值图像,其中R(C)表示实数(复数)集合。一些常见的(D,K)是灰度图像的(2,1),RGB图像的(2,3),扩散张量图像的(3,6+)。01. 域变换T:RD →RD将图像的空间坐标转换为空间扭曲的图像I(T(p)),其中p∈ RD表示像素位置。平移、旋转和缩放是域变换的示例。02. 像素值到另一个值的共域变换T':CK →CK将像素值映射到另一个值,从而得到一个颜色调整后的图像T'(I(p)),p ∈RD。C-缩放和颜色失真是共域变换的示例。0因此,C-缩放不仅是一个实际的设置,也是一个普遍共域变换的案例研究。现有的方法以两种不同的方式处理复值深度学习。1)深度复数网络(DCN)[19]将实值代数扩展到复数域,但没有解决C-缩放问题;他们的模型对C-缩放非常敏感(图2c和8a)。一种预处理技巧是通过将所有像素值的平均相位设置为0,幅度设置为1来消除这种缩放的不确定性,但这个过程会在相位分布随图像内容大幅变化时引入伪影(图8c)。2)SurReal[18]将流形值深度学习扩展到复值数据,使用流形距离实现C-缩放不变性。然而,这些流形距离丢弃了丰富的相位信息,而且受限的SurReal框架无法对复值数据进行复数代数运算。因此,在大型数据集上表现不佳(表1和图2c)。我们通过设计保持共域对称性的新型层函数提出了一种原则性的方法。我们的工作具有以下贡献。1)我们开发了计算机视觉流水线中常用的层函数的复值等变和不变版本,这些函数对C-缩放具有鲁棒性。我们的方法规避了SurReal[18]的局限性,并在更大的模型和数据集上实现了高准确性。2)我们引入了颜色的新型复值编码,展示了使用复值表示实值数据的实用性。在我们的LAB编码下,C-缩放不变性自动导致对颜色失真的鲁棒性,无需进行颜色抖动增强。3)在MSTAR、CIFAR 10、CIFAR100和SVHN上进行了基准测试,我们的方法在准确性、泛化性和鲁棒性方面优于DCN和SurReal,并使用更少的参数。02. 相关工作0复值处理。复数在数学、物理和工程中无处不在[10, 20,21]。传统的复值数据分析涉及高阶统计[22,23]。[11]证明了复值处理在XOR问题上具有更高的表示能力。[24]提出了利用复基函数的稀疏编码层。[25]提出了一种生物学上的6830有意义的复值模型。[26,27]将复值测量中的成对亲和力的置信度和大小编码,并在复平面上学习全局数据嵌入。[15]将复值神经网络应用于MRI图像重建。[28]研究了复值神经网络中关键点的作用。[29]证明了复值网络的泛化误差比实值网络小。[19]详细介绍了复值深度学习。变换等变性和不变性。大部分工作都集中在开发对域变换(如旋转和缩放)等变的卷积层上[5, 6, 30,31]。[6]引入了一种为有限群生成群等变层的原则方法。[5]将这项工作扩展到连续数据上的李群。[32]使用圆谐函数生成旋转和平移等变的深度神经网络。[33]试图在欧几里得空间和球面上产生群等变CNN的一般理论。[34]进一步将该框架扩展到流形上的局部规范变换。这些方法不适用于我们在此研究的共域变换。[7]引入了用于点云的旋转等变层,将神经元推广为R3向量,其中3D旋转是共域变换。相比之下,我们的方法处理复值缩放的复值代数和几何。复值缩放。尽管对复值神经网络的兴趣越来越大,如何处理C-缩放的模糊性仍然是一个悬而未决的问题[19,35-37]通过重新定义复值卷积、批归一化和非线性激活函数等构建模块,将实值神经架构扩展到复数域。然而,这些方法对C-缩放不具有鲁棒性。SurReal[18]通过采用复数的流形观点实现对复值缩放的不变性。它将复数建模为流形的元素,其中C-缩放对应于平移,并使用流形值学习工具创建对C-缩放不变的模型。SurReal对未见复值数据具有更好的泛化能力,并且具有更精简的模型。然而,SurReal的限制性很高(第3.1节),其复值阶段被强制为线性(第3.2节),限制了SurReal的建模能力,并阻止其在大型数据集上实现高准确性(表1)。03. 共域对称学习0我们将复值缩放视为一个共域变换,并设计了利用共域对称性的新型等变和不变层函数和架构。我们可以将C-缩放分为两部分:幅度和相位。由于幅度变化可以通过对输入进行归一化来处理,我们主要关注构建对相位缩放等变/不变的层。0本节描述了卷积、非线性、池化和批归一化的等变版本,以及不变层。我们还描述了GTReLU,一种广义版本的Tangent ReLU[18]非线性激活函数。最后,我们介绍原型距离层,将复值特征转换为等变/不变的实值预测。03.1. 等变卷积0卷积层是现代计算机视觉流水线的重要组成部分。[19]描述了将实值卷积推广到复值滤波器和输入的方法。为了教学清晰起见,我们在这里总结这个构造。我们从一个复值特征z =x + iy开始,其中x表示实部,y表示虚部,i =√-1。然后对于一个复值滤波器矩阵W = A +iB,[19]使用实值卷积的组合定义了复值卷积W * z:0W�z=(A�x−B�y)+i(A�y+B�x)(1)0实际上,在卷积之后还会添加一个偏置项以创建一个仿射函数。权重矩阵W的结构导致了平移等变性,并且像[1, 5,6]一样将其推广到超出平移的变换。与需要结构化权重矩阵的域变换相反,任何线性层对于复值缩放是等变的:对于线性函数L:Cm→Cn0对于输入向量x∈Cm和复数标量s∈C,L(s∙x)=s∙L(x)。然而,DCN[19]中使用的偏置项破坏了C-尺度等变性。因此,我们去掉了这个项,恢复了它的等变性。此外,我们使用高斯乘法技巧将卷积加速25%:0W�z=(t1−t2)+i(t3−t2−t1)0其中t1=A�x,t2=B�y,t3=(A+B)�(x+y)。相比之下,SurReal使用加权FrechetMean(wFM),这是一种受限卷积,其中权重被约束为实值、正值,并且总和为1。这种限制性定义导致了显著降低的准确性(表4)。03.2. 等变非线性0非线性激活函数对于构建深层次的分层表示是必要的。[18,19, 37,38]研究了几种复值非线性。CReLU是最突出的例子,它独立地计算输入的实部和虚部的ReLU。TangentReLU(TReLU)[18]使用极坐标表示,对幅度和相位进行阈值处理。然而,这些非线性不是复值等变的。DCN[19]使用CReLU,无法抵抗复值缩放。SurReal在其复值阶段中不使用非线性(参见[18]中的表I和表II)。因此,SurReal的复值阶段完全是线性的,极大地限制了其建模能力(表1)。6840图3.我们的等变非线性E{N}分为四个阶段。我们计算输入特征f的通道均值m,并将其归一化以保留相位信息。这个归一化的均值向量ˆm对相位是等变的。我们将f乘以共轭的ˆm�,以消除输入相位,得到一个相位不变的特征f⊙ˆm�。我们将这个特征输入到非线性N中,并乘以ˆm以恢复被移除的相位。结果在相位上是等变的,并且如果N是等变的,那么在幅度上也是等变的。0我们引入了一种使任何非线性等变的方法。我们不是将非线性应用于单个特征值,而是将其应用于特征之间的相对相位信息(图3)。具体而言,我们减去平均相位,应用非线性,然后再加上原始相位。给定一个复值输入特征向量f∈Cn,其中n个通道,并给定任何复值非线性N:C→C,如CReLU或TReLU,我们计算N的等变版本(表示为E{N})如下:0fout=E{N}(f)=ˆm⊙N(f⊙ˆm�)(2),其中ˆm是具有单位幅度和与f均值相同相位的归一化均值,ˆm�表示其复共轭,⊙表示逐元素乘法。归一化均值ˆm对输入相位是等变的且对输入幅度是不变的。因此,乘积f⊙ˆm�(x,y)对相位是不变的且对幅度是等变的。如果N对幅度是等变的(例如CReLU),整个层E{N}对相位和幅度都是等变的。03.3. 等变池化0在实值网络中,最大池化从一组相邻的激活中选择最大的激活。然而,对于复数,这种方法分别应用于实部和虚部通道会破坏相位信息,从而破坏复值尺度等变性。相反,我们选择具有最大幅度的像素,保留相位信息。结果对幅度和相位都是等变的。03.4. 等变批归一化0我们遵循[7],仅对每个复值特征的幅度进行批归一化[39],从而保留相位信息。给定一个复值输入特征图f∈C^n,我们计算:0fBN = BN(|f|)∙f0|f|+ϵ (3)0其中BN表示实值批归一化,ϵ = 10^(-6)。0其中ϵ是一个偏移量,以确保归一化的数值稳定。该层对相位具有等变性,对幅度具有不变性。03.5. 不变复值不变量0为了产生不变的复值特征,我们引入了除法层和共轭乘法层。给定两个复值特征z1, z2∈C^n,我们定义:0Div(z1, z2) =|z1|/(|z2|+ϵ)exp{i(�z10|z1|/(|z2|+ϵ)exp{i(�z1−�z2)} (4)0Conj(z1, z2) = z1z�2 (5)0在实践中,除法的分母可能很小,因此我们通过ϵ =10^(-7)来偏移分母的幅度。而共轭乘法层仅对相位具有不变性,还捕捉了一些类似于双线性层[40]的二阶交互作用。与我们的层不同,我们的层捕捉了输入特征的相对相位和幅度偏移,而SurReal的距离层通过提取特征之间的实值距离来实现不变性,在此过程中丢弃了详细的相对相位信息。03.6. 广义切线ReLU0[18]引入了切线ReLU,一种阈值化相位和幅度的非线性函数。对于标量输入x∈C,TReLU定义如下:0TReLU(x) = max(1, |x|)exp{i(�x)+},其中x+ = ReLU(x) =max(x,0)。在实践中,与CReLU相比,TReLU会减慢收敛速度。我们通过三个修改来推广TReLU:a)为每个输入通道引入一个学习到的复值缩放因子,使得该层能够适应输入的幅度和相位,b)使用超参数r来控制幅度阈值,c)为每个通道的输出相位引入学习到的缩放常数,使得非线性能够适应输出相位分布。值得注意的是,r =0会产生一个仅与输入幅度等变的TangentReLU的相位版本。我们提出的方法既是一种变换,也是一种阈值函数。其定义如下:0GTRelu(x; r, c, ω) = max(r,|c∙x|)exp{iω�(c∙x)+},其中r∈C是阈值参数,c∈C和ω∈R是学习到的缩放因子(图4)。03.7. 复特征 → 实值输出0像图像分类这样的任务需要实值输出。因此,复值神经网络采用各种策略将复值特征转换为实值。SurReal[18]使用流形距离度量将一对复值特征转换为实值距离。尽管这种方法丢弃了中间层的丰富相位信息(第3.5节),但我们注意到特征距离对于基于原型的分类[41]是有用的。因此,我们提出为每个类别i学习一个原型向量pi,并使用特征距离来对输入进行分类。0000d (z1, z2)=ln z1ln z22 + arc(∡z1, ∡z2)2(7)Li =α d f, pi¯f(8)Type-IType-E[R, G, B][R + iG, G + iB](9)6850π/20π03π/20(a) 输入特征0π/20π03π/20(b) 缩放因子0π/20π03π/20(c) 阈值处理0π/20π03π/20(d) 相位缩放0图4. 我们的广义切线ReLU将输入分为三个阶段:(a)给定输入复向量,(b) 将每个通道与学习到的缩放因子相乘,(c)使用超参数r对输入的幅度和相位进行阈值处理,(d)对相位进行缩放以适应输出分布。0给定一个复数特征向量 f ∈ C m ,我们计算 f到每个类别原型向量 p i的距离,并输出与最接近原型的类别。形式上,网络返回的类别 i 的逻辑回归 L i ∈ R 定义如下:0L i = − α ∙ d ( f , p i ) (6) 其中 α是一个学习到的缩放因子,d是特征距离函数。当图像特征远离类别原型时,该类别的预测逻辑回归变小。由于特征是复数值,一个合适的度量是流形距离(等同于[18]):0其中 z 1 , z 2 ∈ C。它放大了相位差异的影响,否则会被幅度的大变化所抑制。或者,一个简单的度量是欧几里得距离。在实践中,我们在计算距离之前对输入特征使用BatchNorm来加速收敛。0不变分类:通过将原型与等变特征图相乘,可以使该层具有复数尺度不变性:0其中 ¯ f是通道上的平均激活。由于距离函数的两个输入都是 C尺度等变的,输出是不变的[18]。03.8. 组合等变和不变层0我们根据我们提出的层引入了两种模型组合模式。Type I模型使用复数不变层,在模型的早期阶段实现 C尺度不变性,而 Type E模型使用等变层,在后续层中实现不变性,因此保留更多的相位信息(表1)。TypeI:这些模型由复数不变层(分割/共轭)组成,以实现早期不变性,产生 C尺度不变特征,后续阶段可以使用这些特征而不受任何架构限制。TypeE:这些模型依赖于等变层,通过等变层保留相位信息,实现后期不变性。它们通常实现更高的准确性(表1),但这类模型更加严格。0图5.我们的CIFARnet模型展示了构建复数尺度不变模型的两种方法。绿色箭头表示等变特征,蓝色箭头表示不变特征。顶部:TypeI架构在早期阶段使用分割层,实现早期不变性。由此产生的复数尺度不变特征可以与任何后续层一起使用。底部:TypeE在整个网络中使用等变层,保留相位信息直到最后的不变原型距离层。这类模型更加严格,但可以实现更高的准确性(见表1),因为它保留了更多的信息。04. 复数颜色编码0在本节中,我们探索了实值图像数据的复数表示。其中一种表示是傅里叶变换,对于信号处理应用非常重要。然而,傅里叶数据不具有空间均匀性或平移不变性,这对于卷积神经网络来说是具有挑战性的。为了展示我们的方法对于实值图像的实用性,我们提出了两种复数颜色编码,分别捕捉色调变化和通道相关性。0我们的第一个所谓的“滑动”编码采用 [ R, G, B ]图像,并用两个复数通道进行编码:0这种编码中的复数相位对应于 R, G, B值的比率,从而捕捉了相邻颜色通道之间的相关性。0我们提出的第二种编码使用L*a*b*,这是一种感知均匀的颜色表示,其中亮度由L通道表示,色度由a和b通道表示。[ 42]使用这种颜色空间进行图像上色。我们将其用作两通道复数值表示的颜色表示,第一个通道包含亮度(L*通道),第二个通道包含色度(a*和b*通道)作为a* + ib*(图6):0[ R, G, B ] → [ L*, a* + ib* ](10)我们的LAB颜色表示中的C-缩放(图6)近似了颜色失真。因此,不变模型对颜色失真具有天然的鲁棒性,无需任何数据增强。L ∗a ∗ + ib ∗6860图像0图6.我们对LAB信息的复数值嵌入进行复数缩放的可视化。L*通道以灰度图像的形式进行可视化,复数值a* +ib*0以彩色图像的形式进行可视化。对于使用我们提出的LAB编码进行编码的图像,颜色失真可以用C-缩放来近似。05. 实验0我们进行了三种类型的实验:准确性:1)对自然复数值图像进行分类,2)对具有实数和复数表示的实值图像进行分类;对复数缩放和颜色失真的鲁棒性;泛化性能:1)偏差-方差分析,2)在较小的训练集上进行泛化,3)特征冗余分析。05.1. 复数值数据集:MSTAR0MSTAR包含15716个复数值合成孔径雷达(SAR)图像,分为11个类别[ 43 ]。每个图像有一个通道,大小为128 ×128。我们舍弃了最后一个"杂波"类别,并按照[ 44]的方法,在17°的俯角上进行训练,在15°上进行测试。我们使用Ta- ble 1中描述的SurReal架构进行复制[ 18]。由于该论文没有提及学习率,我们使用与我们的模型相同的学习率和批量大小。DCN:我们使用作者提供的代码1,创建了一个具有CReLU和每个阶段10个块的复杂ResNet。默认情况下,该模型接受32 × 32的图像,因此我们附加了2 ×[ComplexConv,ComplexBatchNorm]来进行输入降采样。该模型使用SGD进行200个epoch的训练,批量大小为64,并使用[ 19]中的学习率计划。我们选择具有最佳验证准确率的epoch。Real-valuedbaseline:我们使用一个具有3个残差块的3阶段ResNet,并将复数输入转换为两个实值通道。CDS:我们使用基于SurReal [ 18 ]的TypeI模型。我们使用一个初始等变块来提取等变特征,该块包含EConv,Eq. GTReLU,Eq. MaxPool层,然后使用DivisionLayer获得复数尺度不变特征。然后将这些特征馈送到一个实值ResNet中。详细信息请参见补充材料。01 https://github.com/ChihebTrabelsi/deep_complex_networks0训练:我们使用AdamW优化器[ 45 , 46]对SurReal和CDS模型进行优化,学习率为10^-3,动量为(0.9,0.99),权重衰减为0.1,批量大小为256,进行2.5 ×10^5次迭代。我们每1000步进行验证,选择具有最佳验证准确率的模型。05.2. 实值数据集:CIFAR10/100,SVHN0数据集:CIFAR10 [ 49](以及CIFAR100)包含10(100)个类别,每个类别包含6000(600)张图像。CIFAR10和CIFAR100都被分为50000张训练图像和10000张测试图像。SVHN [ 50]包含来自Google StreetView的房屋编号图像,分为10个类别,其中训练数字为73,257个,测试数字为26,032个。模型:为了确保每个模型的公平性,实验中的所有网络都基于CIFARNet,即3个卷积层(步长为2)和2个全连接层。我们还用可学习的深度可分离卷积替换了平均池化层作为可学习的池化层。所有模型都使用AdamW [ 45 , 46]进行优化,使用动量(0.99,0.999),进行5 ×10^4步训练,批量大小为256,学习率为10^-3,权重衰减为0.1,并在每1000次迭代时进行验证。DCN:我们在卷积中使用ComplexConv,CReLU作为非线性激活函数。为了确保公平性,我们没有使用[ 19]中的残差块或复杂批归一化。SurReal:我们在卷积中使用wFM,并在第3层之后使用DistanceTransform提取不变的实值特征。Real-ValuedCNN:我们使用CIFARNet架构,将每个复数输入通道转换为两个实值通道。CDS:我们评估两个模型:TypeI:我们在卷积中使用EConv,非线性激活函数为GTReLU(r=0)。我们在第一个Econv之后使用一个Division层来实现不变性。最后的全连接层被替换为PrototypeDistance层来预测类别的logits(图5)。TypeE:我们在卷积中使用Econv,非线性激活函数为Equivariant GTReLU。最后的FC层被替换为Invariant PrototypeDistance层来预测logits(图5),并且原型距离输入使用EquivariantBatchNorm进行归一化以保持等变性。CDS-Large:我们在CIFAR 10上训练了一个参数为1.7M的TypeI模型,使用LAB编码,并将其与等效大小的DCN(来自[ 19]的CReLU)进行比较。CDS-Large基于Page等人提供的简化的4阶段ResNet [ 51 ]进行DAWNBench [ 52]。我们在第一个Econv之后使用共轭层来获得C-尺度不变特征,并将其馈送到ComplexResNet。与DCN一样,我们使用带有水平翻转和随机裁剪增强的SGD优化模型,并使用变化的学习率计划(更多细节05.3. 模型性能分析0准确性和可扩展性:我们的方法在保持高准确性和可扩展性的同时实现了基于流形的方法的C-尺度不变性。在MSTAR上,我们的模型超过1.00.70.50.30.10.050.050.10.20.40.8Real-valued: −0.13 log(r) − 1.12DCN: −0.57 log(r) − 2.07SurReal: −0.76 log(r) − 3.03Ours: −0.64 log(r) − 3.04automobileairplaneshipfrogtruckhorsedeerbirdcatdog0.00.20.40.6biasBiasDCNReal-valuedSurRealOursautomobileairplaneshipfrogtruckhorsedeerbirdcatdog0.00.10.20.30.4varianceVariance0.00.20.40.60.802468101214Real-valued CNNDCNOursionpor-forze.the baselines across a diverse range of splits with less thanhalf the parameters used by SurReal (Tab. 2). On the smallesttraining split (5% training data), our model shows a gain of19.7% against DCN and real-valued CNN and 8.4% againstSurReal. On the largest split (100%), our model beats real-valued CNN by 29.2%, DCN by 7%, and SurReal by 1.2%,showing our advantage on a large range of dataset sizes.On CIFAR10, CIFAR100, and SVHN under differentencodings, our models obtain the highest accuracy acrossevery setting (Tab. 1). Unlike SurReal, our model scalesto these large classification datasets while retaining C-scaleinvariance. For the complex-valued color encodings, which6870相对数据集大小(r)0误差率(e)0(a) MSTAR的缩放定律[47]0(b) CIFAR10的类别偏差和方差[16]0相似性0频率(%)0(c) conv2的滤波器相似性直方图0图7. 我们的模型适用于各种数据集大小,具有更低的偏差/方差,并学习多样的滤波器。 (a):我们为MSTAR准确率表(表2)生成趋势曲线(类似于[47])。我们使用线性回归来将对数误差率建模为对数数据集比率的函数。我们的方法在测量的数据集大小上具有最低的测试误差,这种趋势预计可以扩展到更小的大小。(b):我们按照[16]的方式对CIFAR10模型进行了实验,使用LAB编码。类别按照我们模型的偏差升序排列。我们的模型在每个类别中始终显示出最低的偏差,并且在10个类别中有9个类别显示出最低的方差,表明整体上具有更好的泛化能力。(c):每个CIFARnet模型的conv2层的滤波器相似性直方图,按照[48]的方式进行。我们的分布均值最接近0,表明我们的方法实现了最少的冗余滤波器。0方法 # 参数 CIFAR10 CIFAR100 SVHN0RGB LAB 滑动 RGB LAB 滑动 RGB LAB 滑动0DCN [19] 66,858 65.17 58.64 63.83 32.52 27.36 28.87 85.26 84.43 87.44 SurReal [18] 35,274 50.68 53.0254.61 23.57 25.97 26.66 80.51 53.48 80.79 实值CNN 34,282 64.43 63.00 63.43 31.93 31.72 31.93 87.47 84.9387.370我们的模型(类型-I) 24,241 69.23 67.17 68.7 36.92 37.81 38.51 89.39 88.86 90.25 我们的模型(类型-E)23,697 68.48 67.58 69.19 41.83 39.55 42.08 77.19 74.21 88.390表1.我们的模型在实值数据集上优于基线的CIFARnet版本。类型-I模型在简单数据集(如SVHN)上表现最好,类型-E模型在困难数据集(如CIFAR100)上表现更好。相比之下,SurReal在所有数据集上表现更差。0模型参数 5% 10% 50% 90% 100%0实值 33,050 47.4 46.6 60.6 73 66.90SurReal [18] 63,690 61.1 68.0 90.3 95.6 94.90DCN [19] 863,587 49.8 47.0 81.9 89.1 89.10我们的模型 29,536 69.5 78.3 91.3 95.2 96.10表2.我们的方法以最少的参数实现了最佳的准确性和泛化能力。我们报告了在不同比例的MSTAR训练数据上的准确率。对于较小的训练集,性能差距更大,Real-CNN和DCN无法泛化。0需要精确处理相位信息的任务中,我们的模型始终以4% -8%的优势击败基线。这些结果突出了我们的方法在各种实值数据集上进行精确复数值处理的优势。0相位归一化和颜色抖动:一种处理C-尺度不变性的自然预处理技巧是计算平均输入相位ˆϕ,并通过e^(-iˆϕ)对输入进行缩放0通过应用不同旋转范围的随机C-scaling,并将带有相位归一化和不带相位归一化的DCN的准确率与我们的方法(Type-E)进行比较,我们测试了这种方法(图8c)。当输入相位分布简单时(例如,相位设置为0),相位归一化可以成功保护DCN免受C-scaling的影响。然而,对于像LAB编码这样复杂的相位分布,这种方法失败了。我们的方法在这两种情况下都成功,这种鲁棒性也转移到了颜色抖动(如[ 17]所使用,见图2c)。我们的模型在没有数据增强的情况下具有鲁棒性。0偏差和方差分析:虽然模型在不同数据集上的准确性很有用,但对于监督模型的泛化来说,偏差-方差分解是更好的度量。我们遵循[ 16]的方法:给定模型f,数据集D,真实值Y和实例x,[ 16]定义了偏差-方差的分解:0.0π0.1π0.2π0.5π1.0πRotation Range203040506070AccuracyCIFAR 10 accuracy under Random RotationsOursDCNDCN+PNErr(x; f) = E�(f(x; D) − Y )2�(11)= Bias(x; f) + Var(x; f) + Irred. Err(x) (12)Bias(x; h) = L0−1 (ym; t)(13)Var(x; h) = 1nn�k=1L0−1�y(k); ym�(14)DCN [19]1.7M92.80.0π0.1π0.2π0.5π1.0πRotation Range1535557595AccuracyOursDCN6880(a) [ 19 ]的t-SNE嵌入0(b) 我们模型的t-SNE嵌入0(c) 与相位归一化的比较0图8.我们的方法学习了对输入的复杂缩放具有不变性的特征。所有示例都来自CIFAR 10,使用我们的LAB编码,经过单位复数的乘法。 (a,b) DCN [ 19]和我们模型的tSNE嵌入轨迹。每种颜色代表一个不同的示例。我们的模型形成了紧密的聚类,而DCN形成了不规则的重叠曲线。 (c)在不同旋转范围下的平均准确率,将DCN与相位归一化(虚线蓝线)和不进行相位归一化(实线蓝线)与我们的方法进行比较。颜色编码具有复杂的相位分布,相位归一化无法估计旋转量,导致准确率较低。相比之下,我们的模型对C-scaling具有鲁棒性。0预测误差(每个实例)的分解为:0其中偏差衡量了预测与真实值之间的准确性,方差衡量了预测的稳定性。使用0-1损失L0-1,[ 16]计算了分类任务的偏差和方差项(每个实例每个模型):0其中 y m是所有预测的模式。我们对每个实例计算这个度量,将偏差和方差在类别上进行平均。在使用LAB编码的CIFAR10上进行比较,我们的模型(Type-E)在所有类别中的偏差最低,并且在10个类别中有9个类别的方差最低(图7)。相比之下,SurReal尽管具有C-scale不变性,但偏差和方差都显著较高。从较少的训练数据进行泛化:[ 47 ]推导出了em-0方法 # 参数 %准确率0我们的方法 1.7M 93.70表3. 我们的模型在实现复杂尺度不变性的同时击败了DCN。 a)我们使用LAB编码在CIFAR10上训练DCN和CDS,获得更高的准确率。这个结果与表1一致,由于大模型的更大容量,改进的幅度较小。 b)类似于图1g,我们绘制了不同旋转范围下的平均准确率。DCN在C-scaling下的准
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功