没有合适的资源?快使用搜索试试~ 我知道了~
5000通过变分形式实现最大编码率降低0Christina Baek �0卡内基梅隆大学0kbaek@cs.cmu.edu *平等贡献0Ziyang Wu �0国际数字经济学院0wuziyang@idea.edu.cn *平等贡献0Kwan Ho Ryan Chan0约翰霍普金斯大学0kchan49@jhu.edu0Tianjiao Ding0约翰霍普金斯大学0tding@jhu.edu0Yi Ma0加州大学伯克利分校0yima@eecs.berkeley.edu0Benjamin D. Haeffele0约翰霍普金斯大学0bhaeffele@jhu.edu0摘要0最大编码率降低原则0(MCR2)最近被提出作为学习高维数据内在的具有判别性的低维结构的训练目标,以比标准方法(如交叉熵最小化)更具鲁棒性。然而,尽管MCR2训练已经显示出的优势,但由于需要评估和求导大量的对数行列式项,这些项的数量与类别数线性增长,MCR2的计算成本仍然很高。通过利用矩阵的谱函数的变分形式,我们将MCR2目标重新构造为一个可以显著扩展而不影响训练准确性的形式。图像分类实验表明,我们提出的公式比直接优化原始的MCR2目标能够显著加速,并且通常会产生更高质量的学习表示。此外,我们的方法在其他需要计算对数行列式形式的模型中也可能具有独立的兴趣,例如系统识别或归一化流模型。01. 引言0给定一个分类任务,深度网络旨在学习一个-0非线性映射,由一系列线性和非线性函数组成,可以将数据映射到它们的正确标签。整个深度网络通常可以解释为非线性“特征提取器”f�和线性分类器g(z)=Wz的组合,其中W是某个矩阵。隐藏层或者-0特征提取器被指定为学习一个最佳的潜在表示z�=f�(x)∈Rd,以便为下游任务的最终层或分类器提供最佳支持。0训练深度学习模型的规范方法是-0分类任务的经验风险最小化使用交叉熵(CE)损失。虽然CE衡量了模型预测与真实标签之间的差异,但它并没有明确地对表示进行任何结构约束。事实上,Papyan、Han和Donoho[8,17]表明,这种直接的标签拟合隐含地导致深度网络的神经崩溃。也就是说,当CE损失收敛到0时,最后一个隐藏层的每个类别的表示会崩溃成一个单一点,抑制了类内的变异性。0除了神经崩溃和无法表示内部-0为了解决类内变异性的问题,一些研究[1,5,19]经验性地表明,使用随机梯度下降(SGD)在CE损失上训练神经网络通常会导致网络利用图像中最简单、最常见的特征进行分类。这个假设在[2]中得到了理论支持,该研究验证了当一个类别可以有多个解释时,使用CE训练的模型通常会选择一组可以对大多数点进行良好分类的特征子集,然后通过数据中的噪声对剩余点进行分类。0为了缓解这个问题,Yu等人[21]提出了一个框架-0通过最大化编码率减少(MCR 2)来学习具有几何意义的表示,通过特征提取器 f �。简而言之,MCR 2目标鼓励整个训练集的潜在表示扩展或占据尽可能多的空间,同时将每个类别推向压缩或占据尽可能少的空间。从经验和理论上来看,这个目标驱动了潜在表示的max✓�R(Z✓) ⌘ R(Z✓) � Rc(Z✓, ⇧)s.t. Z✓ 2 S,whereR(Z✓) = 12 log det⇣I + ↵Z✓Z>✓⌘,andRc(Z✓, ⇧) =kXj=1�j2 log det⇣I + ↵jZ✓Diag(⇧j)Z>✓⌘(1)where ⇧j denotes the jth column of ⇧, Diag(⇧j) denotes adiagonal matrix with ⇧j along the diagonal, ↵ = d/(m✏2),↵j = d/(h1, ⇧ji✏2), �j = h1, ⇧ji/m, S is the set ofall matrices whose columns all have unit `2 norm3 and✏ > 0 is a prescribed precision error. Roughly speaking,R(Z✓), known as the expansion term, captures the dimen-sion (or the volume) of the space spanned by Z✓ whileRc(Z✓, ⇧), or the compression term, measures the sum ofthe dimensions/volumes of the data from each class. Froman information-theoretic point of view, R(Z✓) estimatesthe coding rate, or the number of binary bits required toencode Z✓, through ✏-ball packing [13].The terms arecalled expansion and compression terms respectively, sinceby maximizing �R, the first coding rate term is maximized,which seeks to expand the overall volume of the embeddedfeatures, while the second coding rate term is minimized,which seeks to compress the volume of the embedded fea-tures from each class.By assessing the MCR2 objective (1), one can al-ready observe a potential drawback of MCR2 for optimiza-tion.In particular, note that each log det term requiresO(min{d3, m3}) operations to compute (and similarly toback-propagate through). While d ⌧ D can often be madereasonably small for many high-dimensional datasets whichhave an underlying low-dimensional structure, Rc(Z✓, ⇧)in particular is still often expensive to compute because itrequires k computations of log det. This severely limitsthe application of MCR2 for datasets with even moderatenumbers, say hundreds, of classes as the objective becomescomputationally infeasible on common machines.2.2. Variational Forms of Spectral FunctionsTo avoid this computational bottleneck, here we proposeinstead a formulation which takes advantage of variational2Note that if the labels are known exactly then the entries of ⇧ arebinary {0, 1} with each row of ⇧ summing to one. Notice that our notationof ⇧ is slightly different from that adopted in [21]. Our choice is morecompact for optimization purposes.3Note the constraint that Z✓ has unit norm columns is often achievedby simply having the final operation of the network f✓ be a normalization.5010使每个类别位于一个低维线性子空间上,其中子空间彼此正交,这在经验上提供了对标签噪声的鲁棒性,这是 MCR 2相对于 CE [ 21 ] 的一个显著优势。0然而,尽管具有这些固有优势,MCR 20从计算的角度来看,这种度量方法可能是昂贵的。特别是,损失函数涉及计算每个类别表示的 Gram 矩阵的 log det。不仅 log det项的数量与类别数量线性增长,而且计算(和反向传播)一个 d � d 矩阵的 log det 需要 O ( d 3 )的计算成本。因此,迄今为止,MCR 2方法仅限于具有相对较少类别的数据集,如 MNIST 和CIFAR-10,其中损失函数是可计算的。为了使 MCR 2可扩展,有必要提高计算效率,特别是与计算 log det项相关的计算效率,以允许在高维空间中具有大量(数百或数千)类别。0贡献。在本文中,我们在这个目标上取得了重要进展,具体贡献如下:01. 我们提供了 MCR 2 的另一种公式形式,该公式形式可以0基于 log det函数的变分形式的目标,这种形式在类别数量和问题维度上更加平滑地扩展。02. 我们通过实验证明,替代公式的形式可以0相比原始的 MCR 2公式,我们的变分公式需要大约相同数量的迭代才能收敛,但在每个迭代的训练成本方面实现了显著加速,特别是在数据集中类别数量增加时。03. 作为我们提出的公式的额外好处,我们还0我们经验性地观察到,使用我们提出的变分公式进行训练通常会产生更高质量的学习潜在表示和更好的测试准确性,而不是原始的 MCR 2 目标。0最后,我们注意到我们的优化方法还可以用于其他需要计算 log det 项的模型,例如系统识别 [ 4 ]0变分形式可能对其他需要计算 log det项的模型具有独立的兴趣,例如系统识别 [ 4 ]或归一化流模型 [ 9 ]。02. 预备知识0在这里,我们首先描述原始的 MCR 2 公式,如下所示:0以及介绍相关的背景材料。02.1. MCR 2 目标0原始的 MCR 2 目标 [ 21 ] 采用以下形式:0[ X 1 , . . . , X m ] 2 R D � m 属于 k 类别 1 ,令 Z � =0矩阵,其中 X i 表示矩阵的第 i 列。0[ f � ( X 1 ) , ..., f � ( X m )] 2 R d � m 是潜在表示,其中 f � 是由 � 参数化的特征提取器,�2 R m � k 定义类别成员关系,其中 � i,j 表示 X i 属于类别 j 的概率。然后,MCR 20旨在学习一个特征表示 Z � ,使得以下编码率减少 ∆ R ( Z �) 最大化:forms of spectral functions of a matrix. Specifically, for agiven positive semi-definite (PSD) matrix M and any scalarc � 0, note thatlog det(I + cM) =rXi=1log(1 + c�i(M)),(2)where r denotes the rank of M and �i(M) is the ith sin-gular value of M. Here note that log(1 + c�) is a non-decreasing, concave function of �, so we can exploit knownvariational forms of spectral functions [6,16]. In particularnote the following result in [16].Theorem 2.1 (Adapted from [16]) For any matrix X, letr denote the rank of X, let �i(X) denote the ith singularvalue of X, and defineH(X) =rXi=1h(�i(X)).for some function h. If h is a concave, non-decreasing func-tion on [0, 1) with h(0) = 0, then the following holdsU,V :UV=XXih�kU ik2 kV ik2�,M�Xilog�1 + c kU ik22�.� log det(I + cM) =U,V :UV=M�Xilog(1 + c kU ik2 kV ik2).(4)i2�R(Z✓) =✓,{U}kj=112 log det0@I + ↵kXj=1U (j)(U (j))>1A�kXj=1�j2Xilog✓1 + ↵j���U (j)i�22◆s.t. 8j, U (j)(U (j))> = Z✓Diag(⇧j)Z✓,�2Rd⇥q\S,A2Rq⇥k+(6)5020H ( X ) = 最小0其中(U i, V i)表示(U, V)的第i列。还要注意,(U,V)可以具有任意数量的列( ≥ r ),只要UV > = X 。03. 提出的公式0在引入上述背景材料后,我们0现在描述我们提出的方法。特别地,注意定理2.1立即给出以下命题作为结果。0命题3.1 设M是任意的实正半定矩阵,c ≥0是任意的非负标量。则以下结论成立:0− log det( I + c M ) = 最大0> = M 时,U � =0¯ US 1 / 2 是上述问题的解。0证明. 首先回忆基本事实,对于任何函数 ( x ) ,有 − minx ( x ) = max x − ( x ) 。此外,回忆(2)并注意函数 h ( x )= log(1 + cx )满足定理2.1中所需的条件。这些事实给出以下结果:0最大0此外,注意到(4)意味02 ) 对于所有满足 UU > = M 的U0因为我们只是添加了约束 U = V 。通过注意到 U = U � 的选择,结果得到完成。0最大值可以被实现,因为 log(1 + c k U �03.1. MCR2的变分形式0使用命题3.1,我们通过重新0通过上述变分形式,我们可以将(1)中的 − log det项放置在Rc中。特别地,注意对于每个类别j,我们可以通过引入一个附加的矩阵U(j)来消除Rc中与之相关的 − log det 项,该矩阵受到约束 Z � Diag( � j ) Z >0� = U ( j ) ( U ( j ) ) > 。此外,由于0由于每一行的 � 之和为1,我们还有P k0根据命题3.1中的形式,原始的MCR2目标函数(1)等价于以下约束变分形式:0最大0最大0� 和 Z � 2 S .0从这个形式开始,我们现在将U(j)矩阵重新参数化为U(j) = ΓDiag( A j ) 1 / 2,其中Γ 2 Rd � q \ S 是具有单位范数列的字典,而A j 2 R q0+是一个0(非负)编码向量。现在让A 2 R q � k0[A 1,...,A k]是连接编码向量的矩阵,并且请注意,我们可以平凡地得到ΓDiag(A j)Γ> = U(j)(U j)>和k U(j)0i k 20等价的MCR2目标的表达式,前提是字典元素的数量q足够大,以便(5)中的每个最优U(j)矩阵都可以由Γ编码(即,U(j)的每列必须是Γ的一列,缩放因子):0� ∆ R(Z �)=0max01 2 logdet0@ I + �0k X0j = 10ΓDiag(A j)Γ >0A0-0k X0j = 10γ j20q X0l = 10log(1 + � j A l,j)0s.t. 8 j,ΓDiag(A j)Γ > = Z � Diag(� j)Z >0�和Z � 2 S。✓,�2Rd⇥q\S,A2Rq⇥k+ !,2)5030最后,我们放宽了严格的等式约束0ΓDiag(A j)Γ > = Z � Diag(� j)Z >0�与`2惩罚01 γ j k Z � Diag(� j)Z >0� - ΓDiag(A j)Γ > k 20F以得到我们的0最终提出的公式,我们称之为V-MCR 2:0max0R v(Γ,A)- R v0c(A)- 02 m M(Z �,Γ,A)0其中R v(Γ,A)= 102 log det0I + �0k X0j = 10ΓDiag(A j)Γ >0R 0c(A)=0k X0j = 10γ j20q X0l = 10log(1 + � j A l,j),0M(Z �,Γ,A)0k X0j = 101 γj0��� Z � Diag(� j)Z >0� - ΓDiag(A j)Γ > ���0F,0使得Z � 2 S。正则化参数µ > 00权重如何严格地近似等式约束,并且1 γj项大致确保类别平衡0ance(召回率,γ j = h 1,� j i /m)。通过这个重构,我们显著降低了评估目标函数的复杂性。在R c中,需要O(k min {d 3,m3})时间来评估的logdet项现在被O(qk)替换,其中包括计算M项的成本,其复杂度为O(kd 2)。03.2.变分形式的解释0除了上述的计算优势,我们还0我们在下面讨论了我们公式的一些其他方面。0稀疏字典学习解释。注意上述变分重构可以自然地解释为学习稀疏字典:它基本上用共享字典Γ“参数化”了每个类别所张成的子空间。然后,每个类别从该字典中选择“稀疏”数量的特征向量Aj,并在子空间内形成样本协方差的估计。注意标量log0R v中的项0c(A)是精确的非凸稀疏性促进0在稀疏表示的早期研究中采用的度量。Aj的(谱)基的稀疏性与每个类别所张成的子空间的低维度或低秩精确对应。0惩罚函数方法和其他选项。请注意,在我们的公式(7)中,通过罚函数M来强制执行(6)中的等式约束。随着惩罚权重µ的增加到无穷大和字典Γ足够大4,该公式变得与原始公式(6)和(1)完全等价。当然,为了更精确地处理(6)中的等式约束,也可以考虑采用更先进的方法。0在最坏的情况下,当Γ很大时,模型变得等价0足够包含每个类别Z�Diag(�j)Z>的奇异向量的串联0�。0考虑采用更先进的方法,如增广拉格朗日乘子法,以纳入等式约束[7,18],这是我们留给未来工作的。然而,正如我们接下来讨论的,通过放宽严格的等式约束,当潜在表示包含噪声时,我们也获得了潜在的优势。0低秩LASSO解释。请注意,0稀疏/低秩促进项Rv0c(A)和二次项0罚项M和稀疏/低秩促进项M共同类似于从噪声测量中恢复稀疏解的经典LASSO方法[20]。唯一的区别在于我们0在协方差矩阵的频谱中寻找稀疏解-因此在协方差中寻找低秩解。因此,在某种程度上,可以将变分形式视为“低秩LASSO”。我们注意到这种LASSO类型的公式的一个好处:从经验上看,它似乎比解决原始的MCR2目标(见第5节的实验结果)更好。部分原因可能是由于变分形式引入的LASSO类型松弛对数据中的小噪声或偏离理想低维线性子空间的解更加稳定。03.3.优化策略03.3.1交替最大化0为了优化(7),我们采用交替最大化策略[3]在变分参数(Γ,A)和网络参数(�)之间。在每次迭代中,我们首先通过采取一步近端梯度上升更新来优化Γ和A,该更新包括在变分损失∆Rv−µ2mM(Z�,Γ,A)的相关部分上进行梯度上升步骤。0然后对Γ的列进行归一化,使其具有单位`2范数,并将更新后的A矩阵的负条目阈值化为0(即应用ReLU函数)。为了确保梯度方法的稳定性,我们通过梯度的Lipschitz常数的上界的倒数来逆向缩放Γ和A的学习率。0分别为L和A。0(有关我们推导出的界限,请参见附录。)接下来,使用更新的Γ和A重新计算矩阵逼近项M(Z�,Γ,A),然后通过对变分损失的相关部分进行梯度步骤来更新网络参数�,即r�M(Z�,Γ,A)。0此外,需要注意的是,根据提议中的变分形式0根据第3.1节的推导,我们知道最优的变分参数(Γ,A)应与Z�Diag(�j)Z>的奇异值和奇异向量密切相关。0对于每个类别j,进行关系的�0当µ的值很大时,关系变得精确。我们利用这一事实来初始化变分参数,并对变分参数进行周期性的“近似闭式”更新。我们将这个过程称为latching,在下一节3.3.2中详细描述。我们总结了1: Input:dataX,labelsY ,featurizerf✓(·),latch-freq, step sizes (⌫✓, ⌫�, ⌫A)2: Initialize A, � latching(X, Y , f✓)3: for iter = 0, 1, ..., n � 1 do4:Get Z✓ = f✓(X) and membership matrices ⇧5:Get `V-MCR2(Z✓, �, A) = (7)6:Compute LA, L� (see Appendix)7:� � + ⌫�L� r�`V-MCR2(Z✓, �, A)8:A A + ⌫ALA rA`V-MCR2(Z✓, �, A)9:Project A ReLU(A)10:Project �l 1k�lk2 �l8l 2 [q]11:Recompute M(Z✓, �, A)12:✓ ✓ � ⌫✓r✓(M(Z✓, �, A))13:if iter mod latch-freq = 0 then14:A, � latching(X, Y , f✓)15:end if16: end for17: return f✓Get UDiag(�)V > = SVD(Z✓Diag(⇧j)Z>✓ )s q/k�[:, (j�1)⇤s : j⇤s] = U[:, 0 : s] % python indexingA[(j � 1) ⇤ s : j ⇤ s, j] = �[0 : s] % python indexingend forreturn A, �3.3.2LatchingRv(�, A) � Rtion term M(Z✓, �, A)regularization constant µ. In practice, when µ is too large,each gradient step does not allow for �Diag(Aj)�> to straytoo far away from Z✓Diag(⇧j)Z>, which can result inslow convergence. We observe that the following proce-dure improves convergence in practice. Note that the varia-but in our experiments stochastic gradient ascent is implemented.an (approximate) full-maximization step w.r.t. the varia-tional parameters (as opposed to a proximal gradient de-scent step) based on the closed-form solution provided inProposition 3.1. This will be an exact maximization stepas µ becomes large. In short, given a dictionary with qcolumns, we initialize the dictionary as the concatenationof the top q/k singular vectors of Z✓Diag(⇧j)Zclass j[k].Similarly, the columns of A4. Experimental Setup5040优化我们的算法1.5的整体训练过程0算法1变分MCR2训练0算法2 Latching0输入:数据X,标签Y,特征提取器f �(∙) 获取Z � = f �(X) 2 R d � m和成员资格� 2 R m �k0A 0 2 R q � k (假设q可被k整除) Γ 0 2 R d � q0为了优化变分MCR 2 目标,字典Γ和A必须最大化∆ R ( Z � )=0c ( A ),同时最小化` 2正则化05请注意,为了清晰起见,我们描述了梯度上升的完整过程,0当Γ和A是从Z � Diag( � j ) Z >的SVD导出时,变分形式最大化6。0这为周期性地重新初始化变分参数(Γ,A)提供了一种方法,这些参数是基于Z � Diag( � j )Z >的SVD导出的。0我们将其称为latching,如算法2中所述。这个latching步骤可以看作是进行一次(近似)完全最大化步骤,根据命题3.1中提供的闭式解。当µ变大时,这将是一个精确的最大化步骤。简而言之,给定一个具有q列的字典,我们将字典初始化为Z � Diag( � j ) Z >的前q/k个奇异向量的连接。0对于每个0将其归一化为相应的奇异值。尽管锁定本身是一个昂贵的过程,需要计算矩阵的SVDk次,但它是可选的(尽管我们在实践中注意到了好处),并且可以通过适当选择超参数latch-freq在训练过程中相对不频繁地进行。因此,锁定的摊销成本变得微不足道。0在MNIST[12]、CIFAR-10[10]、CIFAR-100[10]和TinyImageNet[11](有200个类别)数据集上,比较了使用原始MCR2目标和变分MCR2目标训练的模型。0我们将交叉熵(CE)训练作为学习表示(用于分类)正确性的基准。这些实验的高级目标是展示:1)在原始MCR2目标在计算上昂贵(或不可能)训练的数据集上,变分MCR2目标是可行的(例如CIFAR-100和TinyImageNet);2)展示在变分MCR2上训练的模型与原始MCR2目标上训练的模型之间的性能差异。我们还将性能与0最大化真实的∆R目标,并获得所需的子空间样式表示。04.1. 超参数0为了公平比较不同训练目标(原始MCR2和变分MCR2),我们使用相同的网络优化器和相同的批量大0MCR2,变分MCR2),我们使用学习率为10^-30网络优化器和相同的批量大小。对于0对于CE,我们使用相同的批量大小,但学习率更大,为10^-2。MNIST和CIFAR-10的批量大小为1000,CIFAR-100和TinyImageNet的批量大小为2000。所有目标都使用随机梯度下降进行网络优化。对于MCR2目标的精度误差�,我们对所有数据集使用�2 =0.5。�和批量大小与原始MCR2工作[21]中的实验设置一致。对于变分MCR2,正则化常数µ = 1,初始值为06当µ变大时,最大化是精确的,但是近似值较好。0否则为0。22 ,(8)5050学习率�Γ = 5,�A =5在所有实验中保持一致。我们对所有实验每50个时期进行一次锁存。详细信息请参见附录。字典大小q和特征维度d在数据集之间有所变化。对于MNIST和CIFAR-10,我们使用d= 128和q = 20∙k,对于CIFAR-100和TinyImageNet,我们使用d = 500和q = 10∙k。04.2. 最近子空间分类器0MCR2是对特征提取器f�的损失。为了进行分类,我们使用最小化0对于测试数据,我们使用最近子空间分类器,类似于原始的MCR2工作[21]。正如[21]所示,在MCR2的全局最优解处,每个类别的表示都位于彼此正交的低维子空间上。Yu等人[21]还经验性地观察到SGD训练的网络也满足这个性质。假设学习到的表示满足这个性质,给定一个测试数据点,我们可以简单地识别出最接近的子空间进行最终分类。形式上,给定一个测试样本z test = f � (x test),预测的标签为0y = 0j 2 1 ,...,k0���(I − V(j)(V(j))>)z test0���0其中V(j)是前b个d个0k c 主要成分0的Z�Diag(�j)Z>0�其中 Z � = f � ( X ) 是嵌入的0对训练数据X的理解。05. 实验结果0我们将在下面讨论变分MCR2的性能。0性能通过以下指标衡量:1)训练速度,2)模型在训练数据上达到的真实∆R值,以及3)测试集上的分类准确率。请注意,我们更关注比较MCR2和V-MCR2的准确性和训练效率,而不是追求本文中的最先进结果。05.1. 计算效率0使用MCR2(1)和V-MCR2(7)公式进行一次训练的墙钟时间。两个模型的批量大小相同,所有实验都使用PyTorch1.9.0和Python 3.8.11在Nvidia A100-SXM4GPU上进行,具有40GB的CUDA内存,以进行公平比较。如表1所示,V-MCR2在CIFAR-100上的训练速度约为5倍,TinyImageNet上的训练速度约为12倍。即使对于包含少量类别的数据集,如MNIST和CIFAR-10,我们也观察到1.5-2倍的加速。请注意,随着类别数量的增加,原始MCR2模型的开销显著增加,因此我们预计在具有更多类别的数据集上将获得更大的训练效率改进。即使对于TinyImageNet,使用MCR2进行收敛训练几乎是不可行的,而使用V-MCR2则很容易处理。0数据集 MCR 2 V-MCR 20MNIST 11.56 6.290CIFAR-10 33.06 20.710CIFAR-100 157.45 31.140Tiny ImageNet 527.85 44.230表1.每个周期的墙钟时间(以秒为单位)。我们比较完成一个训练周期的墙钟时间。MNIST和CIFAR-10使用批量大小为1000。对于CIFAR-100和Tiny ImageNet,我们使用批量大小为2000。0计算原始MCR 2目标与V-MCR2模型的迭代之间的差异)在训练周期上的变化,并观察到两个模型1)需要大致相同数量的训练周期才能收敛,2)在收敛时达到大致相同的最终∆R(Z �)目标值。因此,V-0MCR2不需要额外的训练周期来获得良好的解决方案,这可能抵消了每个周期的增加的效率。如图1所示,在MNIST和CIFAR-010,V-MCR 2和MCR2在训练损失轨迹上遵循类似的轨迹。对于CIFAR-100,我们观察到0� Z � |以获得05.2. V-MCR 2获得更好的表示0通过优化MCR2目标来实现。如果来自不同类别的点位于不同的正交子空间上,并且这些子空间的并集尽可能多地跨越维度,那么我们可以说训练数据的表示是“高质量”的。特别是,正交性质对于使用最近子空间算法在第4.2节中对点进行分类是重要的。为了检查f�学习到的子空间的正交性,我们在图2中报告了每对训练点之间的内积作为热图。即,我们按类别对Z �的列进行排序,并计算| Z >0� Z � |。理想情况下,我们希望| Z >0� Z � |以获得0一个块对角结构,其中(Z �)>0i(Z �)j � 0,对于i,j0表示来自不同类别的点。0图2显示了MNIST,CIFAR-10和0CIFAR-100经过2000个训练周期后,当∆R已经稳定5060(a) MNIST0(b) CIFAR-100 d = 100(顶部),d = 500(底部)0(c) CIFAR-100(d) Tiny ImageNet d = 200(顶部),d = 500(底部)0图1.训练∆R的收敛性。我们比较V-MCR 2和MCR 2的训练数据∆R(Z �)在训练周期上的变化。对于V-MCR 2和MCR2,网络通过随机梯度下降进行优化,学习率为10-3。所有训练运行都是2000个周期,除了MCR 2在TinyImageNet上的运行,由于高数量的类别导致计算成本显著,我们在d = 200和d =500时分别停止了500个周期和200个周期。此外,请注意,对于V-MCR2,我们经常观察到训练损失的小波动,这是由于通过锁存进行定期重新初始化造成的。0对于MCR 2和V-MCR 2,都对MCR 2和V-MCR2进行了收敛(图1)。对于MNIST和CIFAR-10,需要注意的是MCR 2和V-MCR2都获得了一个块对角结构。然而,在CIFAR-100和Tiny Imagenet上,我们观察到MCR2训练后没有块对角结构,而V-MCR 2则明显具有块对角结构。这些发现表明V-MCR 20相比于在原始的MCR 2模型上训练,特别是在类别数量增加时,使用V-MCR 2进行训练更能避免陷入较差的局部最小值。对于这些现象的深入研究将留待将来的工作。05.3. 分类任务的性能0在原始的MCR 2 和 V-MCR 2目标下训练时,我们在上述数据集上训练了一个单独的模型,并使用CE损失作为参考分类器,并报告其测试准确率。请注意,我们在这里的研究目标不是在这些数据集上实现最佳的分类准确率 -这里使用的训练过程和架构并不是为了那个目的而优化的。0相反,我们在相同的网络和数据集上对所有方法进行公平比较,以验证所提出方法的计算效率和有效性。为了确保公平性,我们使用与V-MCR 2 实验中相同的架构和其他超参数8来初始化此参考模型,并附加一个输出维度与类别数量相对应的最终线性分类器。0如表2所示,当在具有少量类别的数据集上训练时,0在少量类别的情况下,所有三个训练目标都可以达到有竞争力的分类性能。我们可以观察到,在这些小规模数据集上,MCR 2 和 V-MCR 2目标与CE相当。再次观察CIFAR-100,我们发现在训练原始的MCR 2目标时得到的较差的局部最小值导致了较低的测试准确率,而V-MCR 2模型的性能与使用CE训练相同的网络相当。由于MCR 2训练需要有限的资源和大量的计算需求,我们只能通过在200个周期后优化MCR 2 来报告TinyImageNet上的结果,而其他两个目标则完成了完整的2000个周期的训练。07 我们使用简单的训练方法(例如输入数据降采样,最小化0(例如数据增强和从头开始训练),与更精心设计的训练方法相比,导致CIFAR-100和TinyIm08 对于使用CE的实验,我们使用更高的学习率 10 − 2 以0改善CE训练的收敛性。(a) MNIST(b) CIFAR-10(c) CIFAR-100(d) Tiny ImageNetMCR244.64290.9785MNISTV-MCR244.21170.9788CE-0.9738MCR249.400.8956CIFAR-10V-MCR248.430.8997CE-0.8665MCR2226.05190.2421CIFAR-100V-MCR2218.01850.5872CE-0.5840TinyMCR2227.64680.1319ImageNetV-MCR2231.15380.2665200CE-0.19075070图2. 表示的内积。我们绘制 | Z > 的热图0� Z � | 其中 Z � 是训练数据的表示,0按所属类别排序。对于CIFAR-100和TinyImageNet,随机选择10个类别。如果类别位于低维正交子空间上,我们期望看到一个块对角结构。0由于MCR 2训练具有大量类别时的有限资源和重要的计算需求,我们只能通过在200个周期后优化MC
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功