没有合适的资源?快使用搜索试试~ 我知道了~
超球能量正则化神经网络及其泛化能力的研究与改进
x104x104IterationsHyperspherical EnergyIterationsTesting Error69170通过最小化超球能量对神经网络进行正则化0Rongmei Lin 1 , Weiyang Liu 2,* , Zhen Liu 3 , Chen Feng 4 , Zhiding Yu 5 , James M. Rehg 2 , Li Xiong 1 , Le Song 201 Emory大学 2 佐治亚理工学院 3 Mila, 蒙特利尔大学 4 纽约大学 5 NVIDIA0rongmei.lin@emory.edu wyliu@gatech.edu lxiong@emory.edu lsong@cc.gatech.edu0摘要0受物理学中汤姆逊问题的启发,多个推进电子在单位球面上的分布可以通过最小化某种势能来建模,超球能量最小化已经证明了它在正则化神经网络和提高其泛化能力方面的潜力。在本文中,我们首先通过分析其训练动态来研究超球能量在神经网络训练中的重要作用。然后我们展示了简单地最小化超球能量由于高度非线性和非凸优化问题而面临一些困难,特别是当空间维度变得更高时,从而限制了进一步提高泛化能力的潜力。为了解决这些问题,我们提出了压缩最小超球能量(CoMHE)作为一种更有效的神经网络正则化方法。具体而言,CoMHE利用投影映射来降低神经元的维度,并最小化它们的超球能量。根据不同的投影映射设计,我们提出了几种不同但表现良好的变体,并提供了一些理论保证来证明它们的有效性。我们的实验证明,CoMHE始终优于现有的正则化方法,并且可以轻松应用于不同的神经网络。01. 引言0近年来,深度神经网络在各种任务中取得了巨大的成功。由于其过参数化的特性和分层结构,深度神经网络在许多具有挑战性的问题上实现了前所未有的性能[1,2,3],但其强大的逼近能力也使得它容易在训练集上过拟合,这极大地影响了对未见样本的泛化能力。因此,如何限制庞大的参数空间并适当地对深度网络进行正则化变得越来越重要。神经网络的正则化方法可以大致分为隐式和显式两种。隐式正则化通常不直接施加显式的约束0*Weiyang Liu为通讯作者。0(c)训练动态(b)压缩MHE0{ w 1 ,...,w n } { Pw 1 ,...,Pw n }0{ w 1 ,...,w n } { w 1 ,...,w n }0(a)原始MHE0图1:原始MHE和压缩MHE的比较。在(c)中,上图显示了超球能量,下图显示了测试误差(CIFAR-100)。实验细节见附录B。0对神经元权重的限制通常是通过隐式方式对网络进行正则化,以防止过拟合和稳定训练。许多现有的方法属于这一类别,例如批归一化[4]、随机失活[5]、权重归一化[6]等。显式正则化[7,8,9,10,11,12]通常为神经元权重引入一些惩罚项,并与其他目标函数一起进行优化。在许多现有的显式正则化方法中,最小超球能量(MHE)[12]以其简单而有效的正则化方式脱颖而出,促进了神经元之间的超球形多样性,并显著提高了网络的泛化能力。MHE通过在表征超球形多样性的单位超球面上最小化势能来正则化神经元权重的方向(这种能量被定义为超球能量[12])。相比之下,标准权重衰减只对神经元权重的范数进行正则化,本质上可以看作是对权重的一个维度进行正则化。MHE通过正则化神经元的方向(即正则化权重的其余维度)完成了一个重要的缺失部分。尽管在许多应用中已经经验性地证明了最小化超球能量的有效性[12],但仍有两个基本问题没有得到解答:(1)超球能量在训练良好的神经网络中扮演了什么角色?(2)如何有效地最小化超球能量?69180为了研究第一个问题,我们在图1(c)中绘制了基线卷积神经网络(CNN)(没有任何MHE变体)、通过MHE[12]进行正则化的CNN和通过我们的CoMHE进行正则化的CNN的超球能量的训练动态。附录B中提供了更多实验细节和完整结果(包括更多有趣的基线)。从图1(c)的实证结果中,我们发现MHE和CoMHE都可以实现比基线更低的超球能量和测试错误率,显示了最小化超球能量的有效性。这也意味着更低的超球能量通常会导致更好的泛化。我们经验性地观察到,超球能量较低的训练好的神经网络通常具有更好的泛化能力(即,更高的超球多样性导致更好的泛化),因此我们认为超球能量与神经网络的泛化能力密切相关。在本文的其余部分,我们深入探讨了第二个问题,这仍然是一个待解决的挑战:如何有效地最小化超球能量。0通过采用超球能量的定义作为正则化目标,并通过反向传播进行简单的最小化,MHE面临着一些关键问题,限制了它进一步发挥潜力的能力。首先,原始的MHE目标由于其高度非凸和非线性的目标函数,具有大量的局部最小值和驻点。当空间维度越高,神经元数量越多时,问题可能会变得更糟[13,14]。其次,原始MHE目标相对于神经元权重的梯度是确定性的。与凸优化的权重衰减不同,MHE具有复杂且非凸的正则化项。因此,确定性梯度可能使解决方案迅速陷入一个不良局部最小值并卡在那里。第三,MHE通常定义了一个不适定问题。当神经元的数量小于空间的维度时(这在神经网络中经常发生),鼓励超球多样性将变得不那么有意义,因为神经元无法完全占据空间。最后,在高维空间中,随机初始化的神经元很可能彼此正交(见附录C)。因此,这些高维神经元可以轻易地“多样化”,导致原始MHE中的梯度较小,从而导致优化困难。0为了解决这些问题并有效地最小化超球能量,我们提出了压缩最小超球能量(CoMHE)作为神经网络的通用正则化方法。CoMHE的高层次直觉是将神经元投影到一些合适的子空间中,以便更有效地最小化超球能量。具体而言,CoMHE首先将神经元从高维空间映射到低维空间,然后最小化这些神经元的超球能量。因此,如何映射这些神经元到低维空间是关键。0将神经元投影到低维空间,同时保留高维空间中的有用信息是我们关注的主要问题。由于我们的目标是规范神经元的方向,我们最关心的是不同神经元之间的角度相似性。为此,我们探索了多种新方法来进行投影,并深入研究了两种主要方法:随机投影和保角投影,它们可以降低神经元的维度,同时部分保留成对角度。随机投影(RP)是在MHE中进行维度降低的自然选择,因为它简单且具有良好的理论性质。RP可以可靠地保留角度信息,最重要的是,它引入了一定程度的随机性到梯度中,这可能有助于CoMHE摆脱一些不良局部最小值。随机性在CoMHE中的作用实际上类似于广泛用于解决汤姆森问题的模拟退火[15,16]。这种随机性通常被证明有利于泛化[17,18]。我们还可以证明,使用RP可以很好地保留神经元之间的成对角度。除了RP,我们提出了保角投影(AP)作为一种有效的替代方法。AP的动机是我们希望保留神经元之间的成对角度。即使使用强大的非线性函数,构建一个能够将神经元投影到能够很好地保留角度的低维空间的AP通常也很困难,这是由复杂分析中对共形映射的强条件要求所暗示的[19]。因此,我们将AP构造视为一个优化问题,可以与超球能量最小化一起解决。更有趣的是,我们考虑了CoMHE的对抗投影,通过学习投影来最小化所达到的最大能量。我们将其制定为最小最大优化问题,并与神经网络一起进行优化。然而,在低维空间中不可避免地会丢失一些信息,并且神经元可能只在某些特定的低维空间中变得多样化。为了解决这个问题,我们采用多个投影来更好地近似原始高维空间中的MHE目标。具体而言,我们将神经元投影到多个子空间中,分别计算每个空间中的超球能量,然后最小化聚合(即平均或最大)。此外,我们每隔一定数量的迭代随机重新初始化这些投影矩阵,以避免平凡解。与对神经元施加静态正则化的MHE相比,CoMHE根据投影矩阵动态地对神经元进行正则化。这种动态正则化等效于调整CoMHE目标函数,使其更容易逃脱一些不良局部最小值。我们的贡献可以总结如下:•我们首次展示了超球能量与泛化之间的密切关系,并揭示了它在训练良好泛化的神经网络中的作用。Es,d( ˆwi|Ni=1) =N�i=1N�j=1,j̸=ifs�∥ ˆwi − ˆwj∥�=� �i̸=j ∥ ˆwi − ˆwj∥−s , s > 0�i̸=j log�∥ ˆwi − ˆwj∥−1 �, s = 0(1)where ∥·∥ denotes ℓ2 norm, fs(·) is a decreasing real-valued function (we use fs(z)=z−s, s>0, i.e., Riesz s-∇ ˆwiE2 =N�j=1,j̸=i−2( ˆwi − ˆwj)∥ ˆwi − ˆwj∥4= 0 ⇒ ˆwi =�Nj=1,j̸=i αj ˆwj�Nj=1,j̸=i αj(2)where αj =∥ ˆwi − ˆwj∥−4. We use toy and informal exam-ples to show that high dimensional space (i.e., d is large)leads to much more stationary points than low-dimensionalone. Assume there are K =K1 +K2 stationary points in to-tal for ˆWN to satisfy Eq. 2, where K1 denotes the numberof stationary points in which every element in the solutionis distinct and K2 denotes the number of the rest stationarypoints. We give two examples: (i) For (d+2)-dimensionalspace, we can extend the solutions in (d+1)-dimensionalspace by introducing a new dimension with zero value. Thenew solutions satisfy Eq. 2. Because there are d+2 ways toinsert the zero, we have at least (d+2)K stationary pointsK1N�i=1̸69190•为了解决MHE的缺点,我们提出了CoMHE作为一种动态正则化方法,以有效地最小化神经元的超球面能量,以提高泛化能力。 •我们探索了构建适合CoMHE的合适投影的不同方法。我们提出了随机投影和保角投影来降低神经元的维度,同时保持角度信息。我们还考虑了几种变体,如对抗性投影CoMHE和组CoMHE。 •我们对所提出的投影在保持不同神经元之间的角度相似性方面的质量提供了一些理论洞察。 •我们展示了CoMHE在不同任务中始终优于原始的MHE。值得注意的是,通过CoMHE正则化的9层普通CNN在CIFAR-100上的性能比标准的1001层ResNet提高了2%以上。02. 相关工作0基于多样性的正则化在稀疏编码[20, 21]、集成学习[22,23]、自主学习[24]、度量学习[25]、潜变量模型[26]等领域中被发现是有用的。早期的稀疏编码研究[20,21]使用经验协方差矩阵来建模多样性,并表明鼓励这种多样性可以提高字典的泛化能力。[27]在潜空间模型中通过促进分量矩阵的特征值均匀性来提倡多样性。[28, 29, 30, 9,8,30]使用正交性来表征神经元之间的多样性,并通过促进正交性来正则化神经网络。受物理学中的汤姆森问题的启发,MHE[12]定义了超球面能量来表征单位超球面上的多样性,并在监督学习任务中显示出显著且一致的改进。[12]中有两个MHE变体:全空间MHE和半空间MHE。与全空间MHE相比,半空间变体[12]通过构造与原始神经元方向相反的虚拟神经元,然后一起最小化它们的超球面能量来进一步消除共线冗余。[31, 32, 33, 34, 35, 36, 37, 38, 39,40]中也讨论了正则化角度信息的重要性。03. 压缩MHE03.1. 重新审视标准MHE0MHE表征了N个神经元(WN = {w1, ∙ ∙ ∙ , wN ∈ Rd+1})在单位超球面上的多样性,使用超球面能量来定义,即0∥ wi ∥是第i个神经元在单位超球面Sd = {v ∈ Rd +1 | ∥v∥=1}上的投影。为方便起见,我们表示ˆWN = {ˆw1, ∙ ∙ ∙ ,ˆwN ∈ Sd},并且Es = Es,d ( ˆwi | Ni =1)。注意,每个神经元都是CNN中的一个卷积核。MHE使用反向传播期间的梯度下降来最小化神经元的超球面能量,并且通常以逐层的方式应用于神经网络。我们首先写出E2关于ˆwi的梯度,并使梯度为零:0( d +1)!作为构建稳定点的无序集合的数量。在(2d +2)维空间中,我们可以构造ˆwEj =1√02d+1K′1+K2在(2d+2)维空间中,ˆWN有K′1+K2个稳定点,并且除了这个构造,还有更多的稳定点。因此,MHE在更高维度上有更多的稳定点。03.2.一般框架0为了克服MHE在高维空间中的缺点,我们提出了压缩MHE,将神经元投影到低维空间,然后最小化投影神经元的超球面能量。一般来说,CoMHE最小化以下形式的能量:0ECs(ˆWN):=0j=1,j≠if s�∥g(ˆwi)−g(ˆwj)∥�(3)0其中g:Sd→Sk接受一个归一化的(d+1)维输入,并输出一个归一化的(k+1)维向量。g(∙)可以是线性或非线性映射。这里我们只考虑线性情况。使用多层感知机作为g(∙)是最简单的非线性情况之一。与MHE类似,CoMHE也作为神经网络中的正则化项。03.3. CoMHE的随机投影0随机投影实际上是在部分保留角度信息的同时降低维度的最直接的方法之一。具体而言,我们使用一个C�c=1N�i=1N�j=1,j̸=ifs� ����Pc ˆwi∥Pc ˆwi∥ −Pc ˆwj�����(4)where Pc, ∀c is a random matrix with each entry followingthe normal distribution N(0, 1). According to the proper-ties of normal distribution [41], every normalized row ofthe random matrix P is uniformly distributed on a hyper-sphere Sd, which indicates that the projection matrix P isable to cover all the possible subspaces. Multiple projec-tion matrices can also be interpreted as multi-view projec-tion, because we are making use of information from mul-tiple projection views. In fact, we do not necessarily needto average the energy for multiple projections, and insteadwe can use maximum operation (or some other meaning-ful aggregation operations). Then the objective becomes̸̸N�i=1Nj̸fsP ⋆ ˆwiP ⋆w−P ⋆ ˆwjs.t. P ⋆ = arg minP̸Besides the naive alternate one, we also use a different op-timization of WN by unrolling the gradient update of P .Alternating optimization. The alternating optimizationis to optimize P alternately with the network parametersWN. Specifically, in each iteration of updating the networkparameters, we update P every number of inner iterationsand use it as an approximation to P ⋆ (the error depends onthe number of gradient steps we take). Essentially, we arealternately solving two separate optimization problems forP and WN with gradient descent.Unrolled optimization.Instead of naively updatingWN with approximate P ⋆ in the alternating optimization,the unrolled optimization further unrolls the update rule ofP and embed it within the optimization of network param-eters WN. If we denote the CoMHE loss with a given pro-jection matrix P as EAs (WN, P ) which takes WN and Pas input, then the unrolled optimization is essentially op-N�i=1N�j=1,j̸=ifs� ��� P ˆwi∥P ˆwi∥ −P ˆwjC�c=1N�i=1N�j=1,j̸=ifs� ��� Pc ˆwi∥Pc ˆwi∥ −Pc ˆwj69200∥Pv∥其中P∈R(k+1)×(d+1)是一个高斯分布的随机矩阵(每个元素都遵循独立同分布的正态分布)。为了减小方差,我们使用C个随机投影矩阵来投影神经元并分别计算超球面能量:0ERs(ˆWN):=10C0∥Pcˆwj∥0∥Pcˆwj∥∥)。考虑到我们的目标是最小化这个目标函数,问题实际上是一个极小极大优化问题。请注意,我们通常会在每个一定数量的迭代之后重新初始化随机投影矩阵,以避免平凡解。最重要的是,使用RP可以可靠地保持角度相似性。03.4. CoMHE的角度保持投影0回想一下,我们的目标是找到一个投影,将神经元投影到一个最好地保留角度信息的低维空间。我们将目标转化为优化问题:0P�=argminPLP:=�0i≠j(θ(ˆwi,ˆwj)−θ(Pˆwi,Pˆwj))2(5)0其中P∈R(k+1)×(d+1)是投影矩阵,θ(v1,v2)表示v1和v2之间的角度。为了方便实现,我们可以用余弦值替换角度(例如,使用cos(θ(ˆwi,ˆwj))替换θ(ˆwi,ˆwj)),这样我们可以直接使用归一化向量的内积来衡量角度相似性。通过在公式5中获得ˆP,我们使用嵌套损失函数:0EAs(ˆWN,P�):=0∥P�ˆwj∥0i≠j(θ(ˆwi,ˆwj)−θ(Pˆwi,Pˆwj))2(6)0我们提出了两种不同的方法来优化投影矩阵P。我们可以使用几次梯度下降更新来近似P�。具体而言,我们使用两种不同的方法来执行优化。简单地说,我们使用几次梯度下降步骤来更新P以近似P�,然后交替更新WN。我们用于更新P的迭代步数是一个超参数,需要通过交叉验证确定。0∂P)。它也可以被视为在投影矩阵上进行一步梯度下降后最小化CoMHE损失。这个优化问题包括计算二阶偏导数。请注意,也可以展开多个梯度下降步骤。类似的展开也适用于[42,43,44]。03.5. 显著的CoMHE变体0我们提供更有趣的CoMHE变体作为扩展。我们将对这些变体进行一些初步的实证研究,但我们的主要重点仍然是RP和AP。CoMHE的对抗投影。我们考虑一种新颖的CoMHE变体,即对抗性学习投影。其背后的直觉是我们希望学习一个最大化超球面能量的投影基,而最终目标是最小化这个最大能量。基于这样的直觉,我们可以构建一个min-max优化问题:0min ˆ W N max P E V s ( ˆ WN , P ):=0∥ P ˆ w j∥0���� �(7)0这可以通过类似于[45]的梯度下降方法求解。从博弈论的角度来看,P和ˆ WN可以被视为相互竞争的两个玩家。然而,由于解决min-max问题的不稳定性,这种投影的性能是不稳定的。群组CoMHE。群组CoMHE是CoMHE框架中的一个非常特殊的情况。基本思想是将每个神经元的权重分成几个组,并在每个组内最小化超球面能量。例如,在CNN中,群组MHE将通道分成组,并在每个组内最小化MHE损失。具体而言,群组CoMHE的目标函数是:0E G s ( ˆ W N ) := 10∥ P c ˆ w j∥0���� �(8)0其中,P c 是一个对角矩阵,每个对角元素为0或1,而�0c P c = I(实际上,这是可选的)。which holds with probability�1 − 2 exp(− k(10)( ǫ22 − ǫ33 )).Theorem 1 is one of our main theoretical results and re-veals that the angle between randomly projected vectors iswell preserved. Note that, the parameter σ of the subgaus-sian distribution is not related to our bound for the angle,so any Gaussian distributed random matrix has the prop-erty of angle preservation. The projection dimension k isrelated to the probability that the angle preservation boundholds. Theorem 2 is a direct result from [49]. It again showsthat the angle between randomly projected vectors is prov-ably preserved. Both Theorem 1 and Theorem 2 give upperand lower bounds for the angle between randomly projected69210有多种方法可以将神经元分组,通常我们将根据通道进行分组,类似于[46]。更有趣的是,我们还可以以随机的方式进行分组。03.6. 神经网络中的共享投影基0通常情况下,我们通常需要为神经网络中不同层的神经元使用不同的投影基。然而,我们发现共享一些在不同层中具有相同维度的神经元的投影基是有益的。我们只共享不同层中维度相同的神经元的投影矩阵,以降低维度。共享投影基可以有效地减少投影参数的数量,并可能减少不同层中投影神经元的超球面能量最小化的不一致性。最重要的是,它可以在使用更少的参数和节省更多的计算开销的同时在经验上提高网络的泛化能力。04. 理论洞察04.1. 角度保持0我们从随机投影的高度相关属性开始,然后深入到角度保持。0引理1(随机投影的均值保持).对于任意的w1,w2∈Rd和任意的随机高斯分布矩阵P∈Rk×d,其中Pij=1√nrij,如果rij,�i,j都是从N(0,1)独立随机变量,那么我们有E(�Pw1,Pw2�)=�w1,w2�。0这个引理表明,随机投影内积的均值是很好保持的,部分地证明了为什么使用随机投影是有意义的。Johnson-Lindenstrauss引理(JLL)[47,48](在附录D中)为随机投影向量之间的欧几里得距离提供了保证。然而,JLL并没有提供角度保持的保证。从JLL中提供角度相似性的保证是非平凡的。0定理1(角度保持I).给定w1,w2∈Rd,P∈Rk×d是一个具有独立同分布的0-均值σ-次高斯分布的随机投影矩阵,而Pw1,Pw2∈Rk是w1,w2在P下的随机投影向量。那么对于任意的�∈(0,1),我们有0cos(θ(w01 + � < cos(θ(Pw1, Pw2)) < cos(θ(w1, w2)) + �01 - �08) / 2.0定理2(角度保持 II)。给定w1,w2∈Rd,P∈Rk×d是一个高斯随机投影矩阵,其中Pij =1/√nr_ij(r_ij是独立同分布的随机变量)0N(0, 1)),而Pw1, Pw2∈Rk是w1,w2在P下的随机投影向量。那么对于任意�∈(0, 1)和w�1w2 >0,我们有01 + �/(1 - �)cos(θ(w1, w2)) 01 - � < cos(θ(Pw1, Pw2))0< 101 + �cos(θ(w1, w2)) + 1 + 201 + � -0�0(1 - �^2)/(1+ �)0该定理以概率1 - 6exp(-k)成立0如果θ(w1, w2) > arccos(1 - 3�^2 - (1 - �)√(3� +�^2)),那么定理1中的下界比定理2中的下界更紧。0如果θ(w1, w2) > arccos(1 - 3�^2 -�^2),那么定理1中的上界比定理2中的上界更紧。总之,当原始向量的角度较大时,定理1给出更紧的界限。由于AP在每次迭代之前都是随机初始化的,并且在投影之前和之后最小化角度差异,所以AP通常比RP在保持角度方面表现更好。没有角度保持优化,AP就变成了RP。04.2. 统计洞察0我们还可以从统计学中的球形均匀测试[50]中得出一些理论直觉。球形均匀测试是一种非参数统计假设检验,用于检验一组观测数据是否来自于超球面上的均匀分布。随机投影实际上是统计学中用于测试超球面上均匀性的重要工具[50],而我们的目标是促进相同类型的超球面均匀性(即多样性)。具体而言,我们有N个Sd-值随机变量的随机样本w1, ...,wN,以及另一个与wi,�i独立且在Sd上均匀分布的随机变量p。wi, �i的投影点是yi =p�wi,�i。yi,�i的分布唯一地确定了w1的分布,正如定理3所规定的那样。0定理3(随机投影的唯一分布确定性)。设w是一个Sd-值随机变量,p是一个在Sd上均匀分布的随机变量0并且独立于w。以概率1,w的分布由w在p上的投影的分布唯一确定。更具体地说,如果w1和w2是Sd-值随机变量,独立于p,并且我们有69220对于事件p取值为p0的概率p�0w1�p�0w2,如果w1和w2是相同分布的0定理3表明,在随机投影之后,分布信息得到了很好的保留,为CoMHE框架提供了统计直觉和基础。我们强调这里的随机性实际上非常关键。对于固定的投影p0,定理3通常不成立。因此,从统计学的角度来看,随机投影对于CoMHE是有很好的动机的。04.3. 随机矩阵理论的洞察0随机投影还可能对学习神经元权重施加一些隐式的正则化。[51]证明了随机投影对于Fisher线性判别分类器来说是一种正则化器。从度量学习的角度来看,神经元w�1w2之间的内积将变为w�1P�Pw2,其中P�P定义了一种特定形式的(低秩)相似性[52,39]。[53]证明了满足JLL(Johnson-Lindenstrauss引理)的随机投影在稀疏假设下也满足受限等距性质(RIP),在这种情况下,神经元权重可以被很好地恢复[54,55]。这些结果表明,CoMHE中的随机投影神经元可能会隐式地正则化网络。05. 讨论和扩展0CoMHE的双边投影。如果我们将一层中的神经元视为矩阵W = {w1, ∙ ∙ ∙, wn}∈Rm×n0其中m是神经元的维度,n是神经元的数量,那么本文中考虑的投影是左乘一个投影矩阵P1∈Rr×m0到W。事实上,我们可以通过右乘一个额外的投影矩阵P2∈Rn×r来进一步减少神经元的数量到W。具体来说,我们将Y1 = P1W和Y2 =WP2。然后我们可以分别对Y1和Y2的列向量应用MHE正则化。最终的神经元仍然是W。更有趣的是,我们还可以用低秩分解[56]来近似W:˜W =Y2(P1Y2)−1Y1∈Rm×n。这启发我们直接使用两组参数Y1和Y2来表示等效的神经元˜W,并分别对它们的列向量应用MHE正则化。与前一种情况不同,我们使用˜W作为最终的神经元。更多细节请参见附录F。构造随机投影矩阵。在随机投影中,我们通常构造随机矩阵,其中每个元素都从正态分布中独立同分布地抽取。然而,还有许多其他选择可以构造随机矩阵,可以证明它们可以保留距离信息。例如,我们有子采样随机哈达玛变换[57]和计数草图投影[58]。与现有工作的比较。正交规范化[32,59]是一种广泛使用的正则化方法,它最小化∥W�W−I∥F,其中W表示0一组神经元的权重,每列代表一个神经元,I是一个单位矩阵。[9,29]也是基于正交性构建的。相比之下,MHE和CoMHE都不鼓励神经元之间的正交性,而是促进超球面均匀性和多样性。随机性可以提高泛化能力。RP和AP都引入了随机性到CoMHE中,实验证明这种随机性可以极大地改善网络的泛化能力。众所周知,随机梯度是帮助神经网络对未见样本泛化良好的关键因素之一。有趣的是,CoMHE中的随机性也导致了随机梯度。[17]还从理论上证明了随机性有助于泛化,部分地证明了CoMHE的有效性。06. 实验和结果06.1. 图像识别0我们进行图像识别实验,以展示使用CoMHE对CNN进行正则化的改进。我们的目标是展示CoMHE的优越性,而不是在特定任务上达到最先进的准确性。对于本文中关于CIFAR-10和CIFAR-100的所有实验,我们使用与[1,34]相同的数据增强方法。对于ImageNet-2012,我们使用[32]中的相同数据增强方法。我们使用带有动量0.9的SGD训练所有网络。如果没有另外说明,所有网络都使用BN[4]和ReLU。默认情况下,所有CoMHE变体都是基于半空间MHE构建的。每个小节和附录A中给出了实验细节。附录I、H、J中提供了更多实验。06.1.1 切除研究和探索性实验0CoMHE的变体。我们将不同的CoMHE变体与相同的普通CNN-9(附录A)进行比较。具体来说,我们在CIFAR-100上评估了没有任何正则化的基线CNN,半空间MHE(HS-MHE)是来自[12]的最佳MHE变体,随机投影CoMHE(RP-CoMHE),使用最大值而不是平均值进行损失聚合的RP-CoMHE(最大),保角投影CoMHE(AP-CoMHE),对抗投影CoMHE(Adv-CoMHE)和组投影CoMHE(G-CoMHE)。对于RP,我们将投影维度设置为30(即k=29),投影数量设置为5(即C=5)。对于AP,投影数量为1,投影维度设置为30。对于AP,我们评估了交替优化和展开优化。在交替优化中,我们每10步网络更新更新一次投影矩阵。在展开优化中,我们只展开一步梯度进行优化。RP-CoMHE34.7328.9224.3922.4420.8120.62AP-CoMHE34.8929.0124.3322.620.7220.5069230优化。对于G-CoMHE,我们构建了一个包含每8个连续通道的组。所有这些设计选择都是通过交叉验证获得的。表1的结果表明,我们提出的所有CoMHE变体都能够大幅优于原始的半空间MHE。AP-CoMHE中的展开优化显示出明显的优势,并获得最佳准确性。Adv-CoMHE和G-CoMHE相对于HS-MHE也取得了不错的性能提升,但不及RP-CoMHE和AP-CoMHE好。因此,在剩余的实验中,我们将主要关注RP-CoMHE和AP-CoMHE。0投影维度 10 20 30 40 800RP-CoMHE 25.48 25.32 24.60 24.75 25.46 AP-CoMHE(交替) 25.2124.60 24.95 24.97 24.99 AP-CoMHE(展开) 25.32 24.59 24.33 24.9325.120表2:在不同投影维度下的CIFAR-100错误率(%)。0投影维度。我们评估投影维度(即k)对性能的影响。我们使用普通的CNN-9作为骨干网络,在CIFAR-100上进行测试。我们将RP-CoMHE中的投影数量固定为20。由于AP-CoMHE不需要使用多个投影来减小方差,我们只在AP-CoMHE中使用一个投影。结果如表2所示。总体上,具有不同投影维度的RP-CoMHE和AP-CoMHE都能够一致且显著地优于半空间MHE,验证了提出的CoMHE框架的有效性和优越性。具体来说,我们发现当投影维度为20或30时,RP-CoMHE和AP-CoMHE通常能够达到最佳准确性。由于AP-CoMHE中的展开优化始终优于交替优化,在剩余的实验中,我们将坚持使用AP-CoMHE的展开优化,除非另有说明。0投影数量。我们评估了RP-CoMHE在不同投影数量下的性能。我们使用普通的CNN-9作为基准,在CIFAR-100上进行测试。表3中的结果显示,RP-CoMHE的性能通常对投影数量不太敏感。令人惊讶的是,使用更多的投影并不一定能够获得更好的方差减小效果。我们的实验表明,使用5个投影可以获得最佳准确性。这可能是因为较大的方差可以帮助解决方案逃离优化中的不良局部最小值。请注意,我们通常不在AP-CoMHE中使用多个投影,因为AP-CoMHE优化投影,不需要进行方差减小。我们的结果没有显示使用多个投影在AP-CoMHE中带来性能提升。0宽度 t = 1 t = 2 t = 4 t = 8 t = 16 t = 200基准 47.72 38.64 28.13 24.95 24.44 23.77 MHE [12] 36.84 30.05 26.75 24.0523.14 22.36 HS-MHE [12] 35.16 29.33 25.96 23.38 21.83 21.220表4:在不同网络宽度下的CIFAR-100错误率(%)。0网络宽度。我们在CIFAR-100上评估了RP-CoMHE和AP-CoMHE在不同网络宽度下的性能。我们使用普通的CNN-9作为骨干网络架构,并将其在Conv1.x,Conv2.x和Conv3.x(见附录A)中的滤波器数量设置为16×t,32×t和64×t。具体来说,我们测试了t=1,2,4,8,16的情况。以t=2为例,Conv1.x,Conv2.x和Conv3.x中的滤波器数量分别为32,64和128。对于RP,我们将投影维度设置为30,投影数量设置为5。对于AP,投影数量设置为1,投影维度设置为30。结果如表4所示。请注意,我们在AP-CoMHE中使用了展开优化。从表4可以看出,无论是RP-CoMHE还是AP-CoMHE的性能提升都非常一致和显著。随着网络宽度的增加,CoMHE也能够获得更好的准确性。与半空间MHE的强结果相比,CoMHE在不同网络宽度下仍然能够获得超过1%的准确性提升。0网络深度。我们在CIFAR-100上评估了具有不同网络深度的RP-CoMHE和AP-CoMHE。我们使用了三个普通的CNN,分别具有6、9和15个卷积层。对于所有网络,我们将Conv1.x、Conv2.x和Conv3.x中的过滤器数量分别设置为64、128和256。详细的网络架构在附录A中给出。对于RP,我们将投影维度设置为30,投影数量设置为5。对于AP,投影数量设置为1,投影维度设置为30。表5显示,无论是RP-CoMHE还是AP-CoMHE,在正则化具有
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功