没有合适的资源?快使用搜索试试~ 我知道了~
5749参数散射网络ShanelGauthier1, 2本杰明Th' rien2, 3, 4洛朗Alse' ne-Racicot1, 2穆阿维兹乔杜里3, 2伊琳娜·里什1, 2 尤金·贝利洛夫斯基3,1 <$ 迈克尔·埃肯伯格4 <$盖伊·沃尔夫1,2 <$1Uni versite′deMontre′ al; 3Mila4加拿大安大略省滑铁卢市滑铁卢大学;5美国纽约州纽约市熨斗研究所摘要小波散射变换产生几何不变量和变形稳定性。在多个信号域中,与其他非学习表示相比,它已被证明可以产生更具鉴别力的表示,并在某些任务中优于学习表示,特别是在有限的标记数据和高度结构化的信号上。在散射变换中使用的小波滤波器通常被选择为经由参数化母小波来创建紧框架。在这项工作中,我们调查是否这种标准的小波滤波器组的建设是最佳的。专注于Morlet小波,我们建议学习的规模,方向和纵横比的过滤器,以产生问题的具体参数化的散射变换。我们表明,我们的学习版本的散射变换产生显着的性能增益,在小样本分类设置在标准的散射变换。此外,我们的经验结果表明,传统的滤波器组结构可能并不总是必要的散射变换提取有效的表示。1. 介绍在[29]中提出的散射变换是小波和复模量非线性的级联,可以被视为具有固定的预定滤波器的卷积神经网络(CNN)这种结构可以用来建立表示几何不变,并被证明是稳定的变形。它已被证明在涉及高度结构化的*同等缴款。†同等资深作者贡献。这项研究部分由NSERC CGS-M 资 助 [S.G. , 洛 杉 矶 ] 和 URA [B.T. [ 计 算 机 可 读 介 质 ; NSERCDiscovery Grant RGPIN-2021-04104 。 [E.B. ]; IVADOPRF Grant[I.R.,伊比G.W. 和CIFAR AI Chairs [I.R.,G.W. ].我们感谢加拿大计算和魁北克计算提供的资源。内容完全由作者负责,不一定代表资助机构的官方观点。对应致:eugene.concordia.cameickenberg@flatironinstitute.org,guy. umontreal.ca信号[2,3,12,17,20,21,32,34,37,38],优于许多其他经典信号处理技术。由于散射变换是CNN的实例化,因此它们已被研究为理解CNN在图像分类中令人印象深刻的成功的数学模型[12,30]。如[12]中所讨论的,一阶散射系数类似于SIFT描述符[27],高阶散射可以提供对添加有深度的信息的洞察[30]。此外,对散射网络中编码的信息的理论和实证研究表明,它们通常会促进线性可分性,从而为下游分类任务提供有效的表示[1,12,17,31]。基于散射的模型已被证明在涉及很少注释或有限标记数据的几个应用中是有用的[12,17,33,36]。事实上,一般来说,深度学习的大多数突破,特别是CNN,都涉及在训练深度过参数化网络时收集大量注释良好的数据的重大努力。虽然大数据变得越来越普遍,但在许多应用中,注释多于少量样本的任务是不可行的,这引起了人们对小样本学习任务和深度学习方法的兴趣[8,9,43]。最近的工作表明,在图像分类中,最先进的结果可以通过混合网络实现,该混合网络利用散射变换作为其早期层,然后是基于宽残差网络架构的学习层[33]。在这里,我们进一步推进了这一研究途径,提出使用散射范式不仅作为级联架构中的固定预处理层,而且作为CNN中学习滤波器的参数化先验。这也使我们能够阐明标准小波构造[28]是否是从用于区分任务的母小波构建滤波器组的最佳方法回想一下,散射构造是基于复杂小波的,复杂小波是通过伸缩和旋转从母小波生成的,目的是覆盖频率平面,同时具有编码信息变量的能力5750×−∗2J.Σ2J×输入信号的有效性[12]。此外,这些操作的离散参数化和索引(即,通过膨胀缩放或旋转角度)传统上已经被仔细地构造,以确保所得到的滤波器组形成具有良好建立的能量衰减特性的有效的紧框架[28,29另一方面,已经观察到卷积网络的第一层类似于小波,但可能不一定形成紧密的框架[24]。问题- tion然后出现:是否有必要使用标准的小波滤波器组的建设?在这里,我们放松了标准的建设,考虑另一种选择,用于创建小波滤波器组的小波参数的一小部分进行了优化,手头的任务。据我们所知,这是第一个工作,旨在学习的小波滤波器的散射网络在2D signals。相关的工作和经验协议总结在第二节。3 .第三章。 与次级4分别。 节中4.1中,我们比较了不同数据集上优化得到的散射参数化节中4.2,我们评估了我们的参数散射网络对变形的鲁棒性。节中4.3,我们证明了我们的方法在有限的标记数据设置的优势,并研究了小波参数对监督任务的适应性。节中4.4,我们研究了使用无监督对象的参数化散射的自适应。最后,在第4.5我们评估了混合网络的计算和内存复杂性。更多技术细节见附录,相关代码见https://github.com/bentherien/parametricScatteringNetworks。2. 相关工作从少量训练数据[9]在生物医学和医疗保健等各种领域都是艰巨的现实。最近的研究试图解决这个问题。Lezama等人。[26]用称为正交低秩嵌入(OLE′)的几何损失替换了类别交叉熵损失,以减少类内Barz和Denzler [8]还提出用余弦损失函数代替分类交叉熵损失以便减少小样本分类设置中的过拟合。余弦损失函数,与交叉熵使用的softmax函数相反,不会将真类的logits推到无穷大。其他冰毒-Ders,不像我们的工作,其中只有少数参数支配小波结 构 被 修 改 。 Ulicny 等 人 [41] 提 出 了 谐 波 网 络(HN),这是一种混合网络,由固定的离散余弦变换滤波器和CNN中的可学习权重组成。与我们的工作相关的是,在时间序列的背景下,在最近的一些工作中已经考虑了将可学习的分量添加到基于前小波的表示中[6,7,14,35]。Balestriero等人。[6]和Seydoux等人。[35]学习用于1D问题的样条参数化母小波。类似地,Cosentino和Aazhang [14]在时间序列数据的上下文中参数化了群变换。我们的工作,或者,专注于2D问题,并保持规范的Morlet小波参数化,但允许从紧框架滤波器组的偏差。3. 散射网络我们首先回顾了传统的散射卷积网络的制定。3.1节介绍了我们的参数散射变换。3.2和3.4。最后,第3.3讨论了散射参数的初始化。3.1. 散射网络为了简单起见,我们在这里集中在2D散射网络的第二阶。随后的阶数可以通过遵循相同的迭代方案来计算,但是已经证明产生的能量可以忽略不计[12]。给定信号x(u),其中u是空间位置索引,我们计算0阶、1阶和2阶的散射系数S0x、S1x、S2x。 对于对应于散射变换的空间尺度的整数J,并且假设具有一个通道的N N信号输入,所得到的特征图具有大小NN,其中通道大小随着散射系数阶数而变化(即,0阶1通道、1阶JL通道和2阶L2J(J1)/2通道)。为了计算0阶系数,我们考虑具有尺度为2 J的空间窗口的低通滤波器Φ J,诸如高斯平滑函数。然后,我们将该滤波器与信号进行卷积,并以2 J的因子进行下采样,以获得S0x(u)=x φ J(2Ju)。由于低通滤波,高频信息在这里被丢弃,并且经由如在滤波器组Morlet小波是结合散射变换使用的滤波器的典型示例,并且被定义为ODS通过将先验知识结合到模型中显示出希望[10,11,18,22,23]。Oyallon等人[33]介绍了作为σ,θ,θ,γ(u)=e− <$DγRθ(u)<$2/(2σ2)(ei<$u'−β),(1)混合网络中的散射变换与固定小波被证明是一个有效的替代早期其中β是归一化常数,以确保小波在空间域上积分为0u′=u1cosθ+u2sinθ,在宽残差上学习卷积网络的层网络体系结构 [15]第15话:Rθ是角度θ和Dγ的旋转矩阵=10.0γ提出了一个混合网络,称为可学习的ScatterNet,其中学习层混合在散射或-这四个参数可以调整,如表1所示。 从一个小波<$σ',θ',θ',γ'(u),传 统 的57511·∼∼∼∼2−紧框随机数图1. 初始化的小波滤波器前和后训练。Morlet小波滤波器的实部在训练之前(上)和之后(下)使用紧帧(左)和随机(右)方案初始化。在整个CIFAR-10训练集上用线性模型对滤波器进行优化我们使用Morlet正则小波参数化。 对于紧帧滤波器,我们观察到尺度和纵横比的实质性变化。另一方面,所有的随机滤波器在方向和尺度上都发生了重大变化。表1. Morlet小波小波滤波器组通过将其扩展因子2j而获得,0≤jJ,并以L角θ等距旋转,3.2. Morlet正则参数化虽然小波滤波器传统上是固定的,但我们让网络学习每个小波的最佳参数。换句话说,我们通过仅优化表1中的参数来约束我们的滤波器始终是Mor-let小波。我们称这种方法为Morlet正则参数化-圆,得到{2-2jσ',θ',θ',γ'(2Rθ(u))},则小波的作用。 为了提供这种数据驱动的优化-用低通φJ完成。 这可以用表1中的参数表示为<$2jσ' ,θ'−θ,2-j<$',γ'(u)=<$(2-jRθ(u))。 通过符号的简单使用,我们在这里用λ=(σ j,θ,σ j,γ j)来表示以θ和j为索引的小波。过滤器的结果集是可视化的,在free-图2中的频率域。通过首先将输入信号与所生成的复小波之一(即,由表1中的参数索引),并通过所选择的小波的比例因子2j1对然后,使用逐点复模来添加非线性,并且通过低通滤波器来平滑所得到的实信号。最后,应用另一个下采样步骤,这次通过因子在附录C中,我们证明了通过这种结构的反向传播是可能的。我们调整了Kymatio软件包[4]来创建可学习的散射网络。3.3. 初始化为了评估标准小波构造的重要性,我们考虑了两个初始化,并研究了它们对学习和非学习设置中的性能的影响。首先,标准小波构造遵循散射变换的常见实现,设σj,A=0。8×2j,j,A=3π2-j,γj,A=42J-j1,以获得最佳压缩的输出大小。对于j = 1,. - 是的- 是的,J,l = 1,. - 是的- 是的,L4,而对于每个Lj,我们设置从数学上讲我们有S1x(λ1,u)= |x λ|φ J(2Ju)。(二)所得到的特征图具有J L通道,基于所生成的族中的小波的数量。类似地生成二阶系数,在低通平滑之前添加小波变换和模算子的另一级联,即,S2x(λ1,λ2,u)= ||x λ|∗ ψ λ|φ J(2Ju)。(三)θj,A在[0,π)上等距分布。 该结构确保所得到的滤波器组形成有效的紧密框架。因此,我们称这种构造为紧框架初始化(tight-frame initializa)。第其次,作为替代方案,我们考虑随机初始化,其中这些参数被采样为σj,Alog(U[exp1,exp5]),Δj,A U[0.5,1],γj,AU[0. 五一5],和θj,AU[0,2π]。也就是说,方向被选择为单一的,在圆上随机选择滤波器宽度σ,使用跨可用尺度的指数分布,并且空间频率ω被选择为在区间[0. 5、1],它位于别名之间的可行范围的中心由于一阶和二阶的带宽和频率支持之间的相互作用,只有具有j1j2的系数具有显著的能量。<因此,二阶输出产生一个具有1J(J1)L2通道的特征图ing(> π)和信号大小的基频(2π/N,其中N是像素的数量最后,我们选择纵横比变量,使其在球形设置1周围变化。0,偏向于更强的取向选择性(0。5)相比,较小的取向选择性(1。(五)。-j12Param作用Param作用σ高斯窗尺度θ全局取向ξ频率标度γ纵横比5752L LL20.017.515.012.510.07.55.02.50.00100200300400500时代图2. 参数散射网络学习数据集特定的过滤器。 图(右上角)显示了在不同数据集上训练滤波器时,各个时期的滤波器组距离。 我们在傅立叶空间中可视化散射滤波器组(图例中的边界颜色)的数据集特定参数化。x轴和y轴是频率轴。针对自然(CIFAR-10)和医学图像(COVIDx CRX 2)优化的散射滤波器变得更具方向选择性,即,在傅立叶域中更薄另一方面,优化纹理歧视(KTH-TIPS 2)的过滤器变得更少的方向选择性和偏离最紧密的框架设置。3.4. Morlet等变参数化在Morlet正则参数化方法中,学习每个滤波器的正则参数作为另一种方法,我们考虑Morlet等变参数化,其中可学习参数的数量与Morlet规范参数化相比减少了一个因子L每个尺度的每个滤波器使用表1中相同的四个参数构建:σ、θ、γ和Θ。然而,每个尺度的L个滤波器的全局取向被设置为[Θ,Θ +π,Θ +2π,.- 是的- 是的,Θ+(L−1)π]。4. 实验我们的经验评估基于三个图像数据集:CIFAR-10,COVIDx CRX-2和KTH-TIPS 2。CIFAR-10和KTH-TIPS 2分别是自然图像和纹理识别数据集。它们通常用作类似图像分析设置中的通用基准[5,36]。 COVIDx CRX-2是用于COVID-19诊断的X射线扫描数据集;它在这里的使用证明了我们的参数散射方法在实践中的可行性,例如,在医学成像应用中。我们评估使用的参数化散射与两种常见的模型。在第一种情况下,我们认为散射作为一个简单的线性模型(表示为LL)的饲料。LL配置用于评估所获得的散射表示的线性可分性,并具有提供更可解释的模型的额外好处。在第二种情况下,我们采用[33]的方法,并将散射视为更深CNN的第一阶段,特别是宽残差网络(WRN)[44]。WRN混合的体系结构在附录B中有更详细的描述。对于这两种模型(LL和WRN),我们将学习的参数散射网络(LS)与固定网络(S)进行了比较。为学习散射(LS),我们考虑两个散射参数化方法:Morlet正则,在第二节中描述。3.2和Morlet等变,在第3.2节中描述。三点四分。为了显示参数化方法的重要性,我们还消除了朴素的参数化,其中小波的所有像素都是自适应的,我们称之为逐像素参数化。对于每个散射架构,我们考虑sider随机和紧帧(TF)初始化。由TF结构确定的固定散射模型最后,我们还将我们的方法与完全学习的WRN(没有散射先验)和直接应用于输入数据的ResNet-50 [19]进行了比较。我们注意到,后者未修改其ImageNet架构,并且我们没有使用预先训练的权重对其进行初始化。在所有散射配置中,在所有散射层之后添加具有可学习仿射参数的批量归一化层。分类是通过一个softmax层产生的最终输出。所有模型都使用交叉熵损失进行训练,通过动量为0.9的随机梯度下降最小化。将权重衰减应用于线性模型和WRN。学习速率根据一个周期策略进行调度[39]。 每个数据集的具体实施细节见附录A。我们在CIFAR-10、COVIDx-CRX 2和KTH-TIPS2上重复了一些使用可学习散射网络的实验,然后使用余弦损失函数[8]。结果报告见附录F。4.1. 探索特定于数据集的参数化我 们 首 先 比 较 特 定 的 小 波 Morlet 小 波 param-eritizations和评估他们的相似性,一个紧密的框架。具体来说,我们训练我们的参数散射网络-KTH-TIPS2COVIDx-CRX2CIFAR-10紧框滤波器组距离57532−¨¨旋转0.25剪切0.5规模0.40.200.40.30.150.30.20.100.20.10.050.10.000 2 4 6 810变形大小0 1 2 3 45变形大小1.001.051.101.151.201.251.301.35一点四变形大小图3. 图像的散射表示与其变形之间的归一化距离。我们的参数散射变换共享类似的稳定性的散射变换的变形。使用具有线性分类层的规范Morlet小波公式,并定性地比较学习的滤波器组与紧框架初始化的相似性 为了便于定量比较,我们使用距离度量来比较Morlet小波滤波器和Morlet小波滤波器组的集合(即, 散射网络实例),允许我们测量与紧帧初始化的偏差。我们评估距离之间两indi杜阿尔Morlet小波作为(M1,M2)=(σ1,σ1,γ1)T−(σ2,σ2,γ2)T+ arcdist(θ1,θ2)其中M i=(σ i,σ i,γ i,θ i)T表示Morlet小波的参数化。我们使用单位圆上的弧距离来比较θ的值。由于学习散射滤波器的集合不具有规范顺序,为了将学习散射网络与紧框架散射网络进行比较,我们使用匹配算法将一组滤波器与另一组滤波器进行匹配。具体来说,我们首先计算来自两个网络的过滤器对的所有组合之间的k,然后使用最小成本二分匹配算法[25]来找到两组滤波器之间的最小距离匹配我们使用的最后一个距离作为两个散射网络之间相似性的概念是二分图中所有匹配对的距离因此,我们将此距离称为滤波器组距离。图2中的图表利用滤波器组距离来显示从紧框架初始化并在不同数据集上训练的散射网络的演变 每个网络在其各自数据集的1188个样本上进行训练(KTH-TIPS2的标准大小)。所有的过滤器都很快偏离一个紧密的框架,但KTH-TIPS 2我们还观察到,过滤器初始化与随机初始化的秒。3在训练过程中更类似于我们的紧帧初始化(见附录I.4中的图12)。在图2的左侧,我们在傅立叶空间中可视化了特定于电子束的散射网络参数化。为了清楚起见,在每个莫尔-莱特小波周围绘制白色轮廓。顶部的黑色边框对应于J=2时的紧帧初始化,以进行比较到蓝色的CIFAR-10(也是J=2)。底部黑色边界对应于J=4处的紧帧初始化,示出用于与COVIDX-CRX 2红色和KTH-TIPS 2黄色-低(两者J=4)进行比较。在KTH-TIPS 2纹理数据集(黄色)上优化的滤波器变得比紧帧初始化更不具有方向选择性(在傅立叶空间中更宽),J=0处的滤波器成为整个滤波器组滤波器。我们注意到,空间尺度J= 2和3的滤波器似乎从附录(图10)中所示的紧框架变化最大。相比之下,在COVIDx-CRX 2上优化的过滤器在一般情况下变得更具取向选择性,即,薄傅立叶空间,而改变最在空间尺度J=0,如附录所示(图。(八)。 在CIFAR-10上优化的滤波器反映了在COVIDx-CRX 2上优化的滤波器,也比紧框架滤波器更具方向选择性。我们怀疑这是由于依赖于对象分类数据集的边缘,这似乎需要更多的方向选择过滤器。另一方面,为纹理分类优化的Morlet小波似乎丢弃了一些边缘信息,因为方向特定性较低的滤波器。 每个特定于小程序集的参数化似乎都从紧框架初始化中丢弃了不需要的信息,而倾向于强调特定于问题的属性。节中4.3,我们证明了这些学习的过滤器不仅是可解释的,而且提高了任务性能,这表明紧框架对于许多感兴趣的问题来说不是最佳的。尽管如此,一个紧凑的框架确实构成了学习的一个良好起点。实际上,COVIDX-CRX 2和KTH-TIPS 2的特定于滤波器组的参数化在视觉上非常不同,但它们从紧帧初始化移动了类似的滤波器组距离(见图2)。2),相对于随机初始化和训练模型观察到的距离较小。4.2. 对变形在 [29] 中 , 证 明 了 散 射 变 换 对 于 形 式 为 x ( u τ(u))的小变形是稳定的,其中x(u)是信号,τ是一个同态。考虑到学习过程中过滤器组成的实质性紧标架散射随机散射学习散射,紧框架,学习散射,随机散射紧标架散射随机散射学习散射,紧框架,学习散射,随机散射紧标架散射随机散射学习散射,紧框架,学习散射,随机散射归一化距离归一化距离归一化距离5754表2.CIFAR-10平均准确度和标准差误差超过10个种子,J= 2和多个训练样本大小。具有TF初始化的可学习散射提高了所有架构的性能,而随机初始化散射需要更多的训练数据才能达到类似的性能。LS+LL<$LS+LL<$LS+WRN†39岁69± 0。56 51. 98± 0。25 57 01 ±0. 16三十六01± 0. 55 48. 12± 0。2553. 25 ±0。24三十四67± 0。7346. 59± 0。6052 95 ±0。3629岁77± 0。4741. 85± 0。41463 ±0。3739岁86± 1。5962. 85± 0。326952 ±0。2339.最后的胜利20± 0。8054. 14± 0。6857. 59± 0。4892. 97S+WRNTF-43。16± 0。7861. 66± 0。3268. 16± 0。27 92. 2741.第41章大结局42± 0。6559 84± 0。4067. 40± 0。28933640.第40章. 84± 1。0260. 81± 0。4068. 62± 0。3192. 5331.第三十一章. 49± 0。634585± 0。4350 72± 0。289186S+WRN兰德-32。08± 0. 四六四六84± 0。215276± 0。3385. 35WRN-16-38. 78± 0。七二六二。97± 0。四一七一37± 0。3196. 84ResNet-50-33. 17± 0。9252. 13± 0。七四六四。42± 0。4091. 23#params:156k for S+LL; 155k for LS+LL; 22.6M for S+WRN; 22.6M for LS+WRN; 22.3M for WRN; 22.5M for ResNet†:我们的; TF:紧框架; LS:可学习散射; S:散射; 随机:Random现在要问的是,这些是否似乎明显偏离了从[29]中提出并广泛用于先前工作的精心手工制作的结构获得的稳定性结果,[12、17]。为了评估我们的参数散射网络对不同几何失真的鲁棒性,我们将几种易于处理的变形应用于具有不同变形强度的胸部X射线图像x,并使用不同(学习的和固定的)散射网络对所有图像进行 使用具有线性分类层的Morlet规范小波公式来训练学习的小波。变换后的图像用x表示。 F或每个不同的变形强度,我们绘制从原始图像S(x)构造的散射特征和从变换图像S(x)构造的散射特征之间的欧几里得距离。 然后通过S(x)对获得的距离进行归一化,以测量散射系数(手工制作或学习)的相对偏差。图3显示了COVIDx数据集图像上小旋转、剪切和缩放的代表性结果,而其他变形见附录G。我们观察到,滤波器结构的实质性变化保留了这些简单变形的散射鲁棒性,从而表明使用学习滤波器(而不是设计的)并不一定会降低所得变换的稳定性。4.3. 小数据制度我们评估参数散射网络在有限的标记数据设置。根据[ 33 ]的评估方案,我们以不同的样本量对每个数据集进行子采样,以展示基于散射的体系结构在小数据范围内的性能。在我们的实验中,我们在训练数据的一个小的随机子集上训练,始终在整个测试集上进行测试,如[33]中所做的那样为了获得可比较和可再现的结果,我们控制确定的GPU行为,并确保每个模型都以相同的方式初始化相同的此外,我们对在相同数量的样本上评估的模型使用相同的种子集。例如,当在CIFAR-10的100个样本上训练时,具有线性模型的TF可学习混合体将在与具有线性模型的固定紧帧混合体相同的10个种子上进行评估对数据集进行二次采样时,某些波动是不可避免的。 因此,我们所有的数据都包括不同种子计算的平均值和标准误差。CIFAR-10由来自10个类别的60,000张图像组成。训练集包含50,000个类平衡样本,而测试集包含剩余的图像。表2报告了我们在CIFAR- 10上的可学习散射方法的评估,训练样本大小为100,500,1 K和50 K。训练集通过水平翻转、随机裁剪和预先指定的自动增强[16]来增强CIFAR。10.我们使用autoaugment [16]来展示最佳的小样本结果,并在Ap-pendulae中消融该组件。我们在散射变换中使用J= 2的空间尺度如表2所示,具有小波优化像素的散射网络在小数据区域中表现最差。结果表明,在有限的标记样本下,没有足够的数据和太多的可学习参数来有效地学习小波 的 像 素 。 增 加 更 多 的 约 束 ( 即 , 将 小 波 约 束 为Morlet)在该设置中是有益的我们还观察到,Morlet正则参数化产生与Morlet等变参数化类似大多数标准误差重叠)。因此,增加了更多的con.Arch.Init.参数化100个样本500个样本1000个样本所有一般事务+当地雇用LS+ LLLS+LL†长期服务+长期服务TFTFTF兰 德兰 德兰德典型等变像素-典型等变像素-三十七84 ±0。57三十二30 ±0。69三十四81 ±0。6029岁44 ±0。4152岁68± 0。31四十七14 ±0。91四十九6 ±0。39四十二14 ±0。五十七43±0。1751岁87 ±0 .01,P <0.05。3455. 72 ±0。39四十七44 ±0。69岁。5766岁。65六十四53六十五5869岁。39六十五6462. 72五十七725755∗表3. COVIDx CRX-2和KTH-TIPS 2平均准确度标准10粒种子和16粒种子的误差分别为J = 4。(COVIDxCRX-2)TF初始化的可学习散射网络比不包含散射先验的模型表现更好。(KTH-TIPS 2)同样,WRN-16-8和ResNet-50相对于在KTH-TIPS 2上训练的混合模型表现极差。Arch.Init.参数化C-100样品C-500样品C-1000样品KTH-1188样品一般事务+当地雇用TFCanonical82岁30 ±1。7888岁50± 0。7189岁。90± 0。4066岁。09 ±1。05一般事务+当地雇用TF等变83岁06± 1。5387岁56 ±0。9489岁。15 ±0。6066岁。41± 1。24S +LLTF-81. 08 ±1。88 87岁20 ±0。7789岁。23 ±0。6966岁。17 ±1。10一般事务+当地雇用兰德Canonical七十六。85±1。5086岁。45 ±0。9589岁。70 ±0。65六十五79 ±0。85一般事务+当地雇用兰德等变七十六。73±1。57八十五64 ±1。3887岁98 ±0。55六十五31 ±1。42S +LL兰德-七十六。08±1。5684. 13 ±0。9186岁。80 ±0。4161岁37 ±0。82LS+WRN†TFCanonical81. 20 ±1。73九十50 ±0。70九十三68 ±0。3569岁。23± 0。67LS+WRN†TF等变81. 86± 2。0791. 56± 0。52九十三97± 0。3468岁55 ±0。80S +WRNTF-八十85 ±1。8589岁。05 ±0.5991. 90 ±0。5468岁84 ±0。71LS+WRN†兰德Canonical八十95 ±1。54 88岁08 ±0. 7091. 65 ±0。5568岁30 ±0。47LS+WRN†兰德等变八十12 ±1。76 87岁44 ±1。1791. 40 ±0。6767岁50 ±0。72S +WRN兰德-八十63 ±1。73 86岁。68 ±0。59九十60 ±0。5066岁。29 ±0。36WRN-16--80.50± 1。15八十五95 ±2。0488岁82 ±1。6451岁24 ±1。37ResNet-50--74岁04 ±1。35 86岁。45 ±0。51九十86 ±0。5744. 95 ±0。65C:COVIDx CRX-2# params:493K for LS/S+LL; 23.7M for LS/S+WRN; 22.3M for WRN;23.5M for ResNetKTH:KTH-TIPS 2# params:883K for LS/S+LL; 23.8M for LS/S+WRN; 22.3M for WRN; 23.5M for ResNet†:我们的;TF:紧框架; LS:可学习散射; S:散射; 随机:Random通过减少参数散射变换中的可学习参数的数量,约束不会降低小数据范围中我们观察到,在整个数据集上训练时,使用规范参数化的随机初始化可学习 这些结果表明,TF初始化,来自严格的信号处理-ING原则,经验上是有益的,作为一个起点,在非常少的样本制度,但可以通过学习加以改进。在线性模型中,我们的TF初始化的可学习散射网络(即, Morlet规范和等变)显着优于所有其他在一些样本设置。这表明,可学习的散射网络获得了比固定网络更线性可分离的表示,可能是通过构建更大的数据集特定的类内不变性。 图1显示了在整个训练集上优化之前和之后的规范小波滤波器的实部。在附录D中,我们可视化规范等变小波滤波器。在WRN混合模型中,TF初始化的正则可学习散射表现最好。当与WRN配对时,规范TF可学习仍然优于TF固定,这表明固定散射表示中的一些信息损失通过数据驱动的调整或优化来减轻。最后,我们的方法在100和500个训练样本上的表现优于完全训练的ResNet-50和WRN-16-8,证明了散射先验在小数据范围内的有效性。然而,WRN-16-8在1,000个样本和50,000个样本上的表现优于我们的模型COVIDx CRX-2是COVID-19患者胸部X射线图像的两类(阳性和阴性)数据集[42]。训练集包含15,951张不平衡图像,而测试集包含200张正图像和200张负图像。散射变换的空间尺度被设置为J=4。表3报告了我们对样本量为100、5001K图像 我们使用与CIFAR相同的协议-10. Morlet正则参数化产生与Morlet等变参数化类似的性能(即,大多数标准误差重叠),如CIFAR-10所观察到的当 散 射 网 络 后 挂 有 线 性 层 , TF 初 始 化 的 可 学 习(即,Morlet规范和等变)比TF固定的表现更好,显示了我们的方法在真实世界数据上的可行性。我们观察到,随机初始化的learnable产量低于TF learnable在100和500个样本。在1K上,它实现了类似的性能,表明随机初始化可以在足够的数据下实现与TFWRN-16-8的性能比TF初始化的learnable和线性层更差当与CNN结合使用时,TF初始化的可学习的性能也优于TF固定,并优于WRN-16-8和ResNet-50。KTH-TIPS 2包含来自11个材料类别的4,752张图像。这些图像按比例捕捉到了材料每个类被分为四个样本(108个图像)的不同尺度。使用标准协议,我们在一个样本(11108张图像)上训练模型,而其余的用于测试[40]。每个训练集总共包含1,188张图像。表3报告了分类精度。通过TF初始化和线性层,我们观察到不同架构的性能相似。随机初始化的learnable的性能也类似于TF。 固定和随机初始化的模型表现最差,表明即使初始化较差的过滤器也可以有效地优化。总之,这些结果进一步证实了我们以前的研究结果,特别是TF初始化作为一个很好的先验散射网络。在所有WRN混合模型中,使用规范参数化的TF初始化的可学习模型实现了最高的平均精度。我们注意到,虽然WRN与线性层相比提高5756CIFAR第k} vCOVID×·表4.通过在CIFAR-10上训练线性分类器评估散射和学习的无监督散射特征。我们观察到无监督的学习散射改善了表示。方法100个样品500个样品1000个样品全部36.我的超次元帝国01± 0. 5548. 12± 0。25 53. 25± 0。246558 ±0。04无监督学习散射38.05 ± 0. 4552.92 ± 0. 2857.76 ± 0. 2568.47± 0. 04icantly增加了参数的总数,因此表现出性能和模型兼容性之间的权衡表5.比较每个架构和图像大小的训练运行时、推理运行时、GPU内存和参数计数。复杂性 WRN-16-8和ResNet-50的性能非常出色架构Img.大小火车(imgs)推断。(imgs)GPU记忆参数数(百万)与混合模型相比,用于纹理辨别的散射先验4.4. 参数的无监督学习我们研究了小波参数对监督任务的适应性。我们现在进行一个prelimi- nary调查,以确定是否可以在一个纯粹的无监督的方式提高散射representation-灰我们考虑最近流行的Simplified框架[13],它鼓励来自相同输入的两个数据扩充的表示靠近在一起。我们使用此无监督目标函数在CIFAR-10上使用规范Morlet参数化学习散射网络参数在完整CIFAR-10数据集上的标准线性评估实验下以及在小数据区域中评估特征的区分度,并将其与标准散射变换进行比较结果示于表4中。我们观察到滤波器参数的无监督学习可以改善标准无监督学习评估协议下的散射表示。4.5. 计算和内存复杂性散射网络和参数散射网络的计算复杂度与FFT(快速傅里叶变换)直接相关,对于大小为(N N)的图像,计算复杂度为O(Nlog(N))在实践中,我们的参数散射网络的计算和算法复杂度因许多因素而异。为了总结这些因素,我们在表5中比较了每个架构和图像大小的运行时间(越高越快)、内存和参数计数。这些模型使用NVIDIA Tesla T4 GPU进行训练我们观察到,固定的散射是两到三倍的速度比学习散射的所有图像大小和混合模型。相比之下,WRN-16-8在图像尺寸为322时比LS+WRN快,但对于较大的图像较慢。这是由于散射变换虽然Morlet参数的梯度计算增加了计算开销,但学习散射仍然是有效的,参数比CNN少得多5. 限制这项研究有两个局限性,可以在未来的研究中加以解决。首先,目前的实施方案-秒秒(GB)LS+L3222645420.302S+L3226506560.10. 2LS+WRN32 22324301. 六点二十二。6S+WRN32 24985881. 422 6WRN-16-8*32 2510169521101282421025.40812821231230.508LS+WRN128 242101五点二十三8S+WRN128 21151203. 三点二十三8WRN-16-8*111。0LS+L2242247213.705224278791.305LS+WRN224 222一百二十三7S+WRN224 258712. 九点二十三7WRN-16-8*224 21036六点十一分0从[45]但它仅限于二维数据。在未来的工作中,实现可以自然地扩展到一维和三维数据。其次,对于流行的数据集,如CIFAR-10,有预先训练的模型可用。在研究中,为了与我们的方法进行性能比较,我们考虑了完全学习的WRN-16-8和ResNet-50,但我们没有考虑预先训练的模型。6. 结论这项工作展示了在散射卷积网络中调整少量Morlet小波滤波器参数的竞争结果[12]。我们证明了通过参数散射学习的滤波器可以在特定任务的上下文中进行解释(例如,在需要对边缘敏感的对象分类任务中变得更薄)。我们还经验证明,我们的参数散射变换共享类似的变形稳定性,传统的散射变换。总的来说,我们发现我们的混合参数散射架构(LL和WRN)在低数据状态下实现了最先进的分类结果。 这些结果几乎弥合了传统散射变换中的手工滤波器设计与完全参数化卷积神经网络之间的差距,传统散射变换提供了易于处理的特性并支持低参数模型,而完全参数化卷积神经网络缺乏可解释性但更灵活。在未来,我们的研究结果可以导致研究下采样对参数散射网络学习的表示的影响,以及通过在贝叶斯框架中利用低参数CNN来应用于不确定性估计。5757引用[1] 乔金和恩,文森特·洛斯坦伦,还有斯特·伊法·马拉。用于音频分类的联合时频散射。2015年IEEE第25届信号处理机器学习国际研讨会(MLSP),第1-6页,2015年。1[2] 乔金和恩,文森特·洛斯坦伦,还有斯特·伊法·马拉。联合时频散射IEEE Transactions on Signal Processing,67(14):3704-3718,2019。1[3] JoakimAn de'n和St e' phaneMallat。深散射光谱。IEEETransactions on Signal Processing , 62 ( 16 ) : 4114-4128,2014。1[4]
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功