没有合适的资源?快使用搜索试试~ 我知道了~
概率知识转移:解决神经网络知识转移问题的新方法
0使用概率知识转移学习深度表示0Nikolaos Passalis [0000 − 0003 − 1177 − 9139] and Anastasios Tefas0希腊塞萨洛尼基亚里士多德大学,希腊塞萨洛尼基54124,passalis@csd.auth.gr,tefas@aiia.csd.auth.gr0摘要。知识转移(KT)技术解决了将大型复杂神经网络的知识转移到更小更快的网络的问题。然而,现有的KT方法针对的是分类任务,不能有效地用于其他表示学习任务。本文提出了一种新颖的概率知识转移方法,该方法通过匹配特征空间中数据的概率分布而不是它们的实际表示来工作。除了优于现有的KT技术之外,所提出的方法还克服了它们的一些限制,为KT提供了新的见解,并提供了新的KT应用,从手工特征提取器到从文本模态到从数据的视觉模态提取的交叉模态KT。0关键词:知识转移∙神经网络蒸馏01 引言0深度学习(DL)已经成功应用于解决许多困难问题[26],从准确的目标检测[36]到解决具有挑战性的信息检索问题[42]。然而,除了开发更准确的模型之外,科学界的兴趣还转向了创建更小、更快的模型,这些模型能够在处理能力有限的设备上运行,例如移动电话、机器人、嵌入式系统等。为此,提出了几种方法,包括但不限于模型压缩[20]、轻量级和更高效的神经网络架构[4, 19, 21,33]。还提出了知识转移(KT)技术来进一步提高轻量级神经网络的性能[17,38]。KT通过将知识从一个强大而复杂的模型(称为教师模型)转移到一个更小更简单的模型(称为学生模型)来工作。通常情况下,通过使学生模型回归教师模型的输出(或输出的转换版本)来进行模型之间的知识转移。KT技术允许学习更准确、更具泛化能力的学生网络,因为教师模型的输出隐含地编码了更多的知识。02 N. Passalis and A. Tefas0图1.概率知识转移:教师模型的知识使用概率分布进行建模。然后,通过最小化教师和学生的概率分布之间的差异来进行知识转移。0关于训练样本之间的相似性及其分布的信息(在使用训练集的硬二进制标签进行训练时通常被忽略)。这样,KT作为一个正则化器,提高了学生模型的性能[44]。需要注意的是,KT方法与其他允许部署更小更快网络的技术是互补的,例如使用深度可分离卷积的MobileNets[19]或二值化网络[4],可以将它们与KT方法结合起来进一步提高模型的准确性。尽管现有的KT技术已经取得了巨大的成功,但它们存在一些显著的局限性。首先,它们通常无法直接在不同架构/维度的层之间转移知识。原因是KT方法目前针对的是分类任务,它们用于在网络的输出分类层之间转移知识(无论网络的实际架构如何,输出分类层的大小是固定的)。然而,这使得大多数KT方法不适用于除分类之外的表示学习任务,例如文本和多媒体信息检索[8,29]、为目标检测器[36]/跟踪器[31]学习卷积特征提取器,或交互式探索性数据分析[14]。需要注意的是,越来越多的需求是学习这种轻量级特征提取器,例如提取保护隐私的表示(用户的数据保留在移动设备上,保护他/她的隐私)[41],降低移动设备与云之间的能量和通信成本[5]等。此外,现有的KT技术大多忽略了教师特征空间的几何结构,例如形成的流形、相邻样本之间的相似性等,因为它们仅仅回归教师网络的输出。然而,已经证明利用这种信息可以显著提高学习模型的质量,无论应用领域如何[2]。上述观察引发了一些有趣的问题。a)是否可以将现有的KT技术用于表示学习任务而不仅仅是分类任务?如果确实可以,现有的KT技术在这些任务上的表现如何?b)是否有任何方法可以学习一个0概率知识传递30是否可能直接回归教师特征空间的几何形状,而不是其输出?这可能有助于有效地将教师模型特征空间中形成的流形展开到学生的低维特征空间中,提高学生模型的准确性。c)是否可能将手工特征(例如SIFT [27]和HoG[10])的知识传递到可以对其进行微调的神经网络中?这可以提供一种利用大量可用的未标记训练样本并有效地在训练深度神经网络的过程中使用它们的方法,克服深度学习模型的一个重要缺点,即需要大量标记数据才能成功训练它们。通过这种方式,KT还可以显著提升在尚不存在大量注释数据的领域中设计良好的手工表示的知识,例如高频交易分析[23]、预测化合物的各种性质[30]等。d)最后,是否可以将训练用于解决其他任务的网络的知识有效地传递到其他较小的网络中?这可能特别重要,因为大多数深度目标检测器依赖于预训练的深度卷积神经网络,而从头开始训练它们是困难的,并且通常会对它们的准确性产生负面影响[40]。因此,将来自较大的预训练网络的知识传递到较小的网络中可以显著提高轻量级目标检测器的准确性。0为了克服现有KT技术的局限性,本文提出了一种概率知识传递方法。首先,将特征空间中数据样本之间的相互作用建模为表示数据样本之间关联性的概率分布。通过这种方式,可以通过学习一个直接回归教师表示的概率分布的教师模型来进行KT,而不是回归网络的实际输出。正如在第3节中所示,这个过程与信息论度量——互信息(MI)[9]相联系,并且相对于现有的KT技术提供了几个优势。首先,即使网络的输出维度不匹配,它也允许直接传递知识。此外,即使网络的输出维度匹配,直接回归它们的输出可能不是最有效的策略,因为教师网络预计比学生网络弱。使用一种能够放松这个约束的方法,例如允许轻微扭曲特征空间的方法,预计能更好地促进知识传递过程。最后,注意到概率分布也可以使用任何其他信息源进行估计或增强,例如神经网络集合、手工特征提取器、监督信息,甚至是来自领域专家或用户的定性信息,增加了所提出方法的灵活性,并允许使用几个新的KT场景。0the proposed technique is the first that is capable of a) performing cross-modalknowledge transfer, b) transferring the knowledge from handcrafted feature ex-tractors into neural networks, c) transferring the knowledge regardless the taskat hand (e.g., object detection), and d) incorporating domain-knowledge intothe knowledge transfer procedure, providing new insight into KT. The proposedmethod is motivated by the fact that matching the probability density function ofthe teacher and student models maintains the teacher’s quadratic mutual infor-mation (QMI) [45], between the feature representation of the data samples and aset of (possible unknown) label annotations. Also, the proposed method is capa-ble of recreating the (local) geometry of the teacher’s feature space into the fea-ture space of the student model. Indeed, the proposed method embeds the mani-folds formed in teacher’s feature space into the student’s space (regardless of thedimensionality of these spaces). The proposed method is extensively evaluatedand compared to other KT techniques using four different evaluation setups (KTfrom deep neural networks, handcrafted feature extractors, different modalitiesand object detectors). Also, it is demonstrated that is possible to perform cross-modal KT by transferring the knowledge from the textual modality into the rep-resentation extracted from the visual modality. An easy to use implementation ofthe proposed method is available at https://github.com/passalis/probabilistic ktto allow for easily using and extending the proposed method.The rest of the paper is structured as follows. The related work is presentedand compared to the proposed approach in Section 2. Then, the proposed methodis presented in detail in Section 3 and evaluated in Section 4. Finally, conclusionsare drawn in Section 5.04 N. Passalis和A. Tefas02 相关工作0深度神经网络的复杂性日益增长,需要将它们部署到计算能力有限的移动和嵌入式设备上,这推动了对能够有效训练较小且更快的模型的知识转移技术的研究。大多数提出的知识转移方法使用教师模型生成软标签,例如通过提高网络输出层上的softmax激活函数的温度来生成软标签,然后用这些软标签来训练学生模型[3, 6, 17, 44,47]。使用软标签进行知识转移的第一次尝试是在[3]中提出的,而神经网络蒸馏方法[17]通过适当调整softmax激活函数的温度来扩展了这种方法。已经证明,神经网络蒸馏方法可以有效地正则化较小的网络,并实现比直接使用训练集标签训练网络更好的泛化性能[8, 17,19]。此外,生成的软目标可以用于预训练较大的网络,如[43]中所示,用于与稀疏标记数据的领域适应,如[47]中所示,或用于贝叶斯方法中“压缩”后验预测密度[1]。此外,在[6]中,使用类似的方法将知识从递归神经网络(RNN)转移到深度神经网络。值得一提的是,在[44]中采用了一种相反的方法,即将知识从较弱的教师模型转移到更强大的学生网络。实验证明,这样可以使用更少的标记数据来训练学生网络,并突出了蒸馏过程的正则化性质。To the best of our knowledge the method proposed in this paper is thefirst probabilistic KT method for representation learning that works by directlymatching the probability distribution of the data between the teacher’s andthe student’s feature spaces using an appropriately defined divergence metric.The proposed method is simple and straightforward, without requiring carefuldomain-specific tuning of any hyper-parameter, such as the softmax tempera-ture [17]. As we experimentally demonstrate in Section 4, this allows for di-rectly using the proposed method for a wide range of different KT scenarios.Furthermore, the proposed method is capable of directly transferring the knowl-edge between spaces of different dimensionality by modeling the interactionsbetween the data samples and, thus, avoiding the need for lossy low dimensionalprojections [38]. Also, the proposed method requires no knowledge about theteacher model, except for the probability distribution induced by the represen-tation of the data samples, significantly increasing its flexibility and allowingfor novel KT scenarios, such as transferring the knowledge from handcraftedfeature extractors. This is in contrast with other methods that require havingaccess to the weights of the teacher network [7]. The probability distribution canbe also enhanced using domain knowledge or supervised information providinga straightforward way to directly incorporate such information into the KT pro-cedure. Finally, the proposed method can be also used for classification tasks,similarly to other methods that regularize the distillation process by transferringthe knowledge between intermediate layers, such as [34, 38, 50].0概率知识转移 50值得一提的是,本文提出的方法是第一个用于表示学习的概率知识转移方法,它通过直接匹配教师和学生特征空间中的数据的概率分布来工作,使用适当定义的散度度量。所提出的方法简单直接,不需要对任何超参数进行仔细的领域特定调整,例如softmax温度[17]。正如我们在第4节的实验证明的那样,这使得可以直接将所提出的方法用于各种不同的知识转移场景。此外,所提出的方法能够通过建模数据样本之间的交互来直接在不同维度的空间之间传递知识,从而避免了需要损失低维投影[38]的需求。此外,所提出的方法对教师模型几乎没有任何要求,除了对数据样本表示引起的概率分布的了解,从而显著提高了其灵活性,并允许进行新颖的知识转移场景,例如从手工特征提取器转移知识。这与其他方法相反,其他方法需要访问教师网络的权重[7]。概率分布还可以使用领域知识或监督信息进行增强,为将这些信息直接纳入知识转移过程提供了简单的方法。最后,所提出的方法也可以用于分类任务,类似于其他通过在中间层之间传递知识来正则化蒸馏过程的方法,例如[34, 38, 50]。0前面提到的方法使用软标签来训练学生网络。在[7]中采用了一种截然不同的方法,即使用教师模型的权重来初始化学生模型,从而实现更快的收敛。此外,在[38]中,学生网络不仅使用软目标进行训练,还使用中间层的提示。由于学生模型的大小通常较小,因此可以通过使用随机投影来匹配目标的维度和学生模型的输出来实现。在[50]中也采用了类似的方法,但是不是使用提示,而是使用解决过程流(FSP)矩阵来在残差网络的某些中间层之间传递知识。然而,与基于提示的传递方法相比,基于FSP的方法要求网络的中间层具有相同的大小和滤波器数量,这使得该方法在两个网络之间的层的维度不同(当学习较小的网络时,这是预期的)时不适用于表示学习。06 N. Passalis and A. Tefas03 概率知识转移0设T={t1,t2,...,tN}表示用于在两个模型之间传递知识的N个对象的集合。集合T也被称为传递集。另外,设x=f(t)表示教师模型的输出表示,y=g(t,W)表示学生模型的输出表示,其中W表示学生模型的参数。在知识传递过程中,学习模型g(∙)的参数W以“模仿”f(∙)的行为。注意,对于函数f(∙)和g(∙)没有任何约束,只要对于T中的每个元素,f(∙)的输出是已知的,g(∙)是可微分的函数。教师和学生网络的分布分别用两个连续随机变量X和Y建模,其中X描述从教师模型中提取的表示,Y描述从学生模型中提取的表示。建模数据样本之间的成对交互可以描述相应特征空间的几何关系[18,28]。为此,可以使用特征空间中任意两个数据点的联合概率密度来建模两个数据点之间靠近的概率。为此,可以最小化教师模型P和学生模型Q的联合密度概率估计之间的差异。这些联合密度概率函数可以使用核密度估计(KDE)[39]来简单地估计,如下所示:p_ij = p_i|j p_j = K(x_i, x_j;2σ^2_t),(1)0q_ij = q_i|j q_j = K(y_i, y_j; 2σ^2_s),(2)0其中K(a,b;σ^2_t)是一个具有宽度σ_t的对称核函数,a和b是两个向量。注意,不需要类标签来最小化这两个分布之间的差异。因此,即使类标签未知,也可以使用所提出的方法。还要注意,最小化教师模型的概率分布P和学生模型的概率分布Q之间的差异,确保每个转移样本在学生和教师空间中具有相同的邻居,并且样本之间的相对距离将被保持。这反过来意味着教师特征空间的几何关系在学生的低维特征空间中得到保持。使用联合概率分布来建模数据的几何关系并进行知识转移可以克服传统知识转移方法的许多缺点(如第2节所讨论的)。然而,学习一个能够准确重建复杂教师模型整体几何关系的显著较小模型通常是不可能的。为了解决这个问题,可以用样本的条件概率分布来替代联合概率密度函数。即使在这两种情况下,当两个模型的核相似度相等时,概率分布之间的差异最小化,使用条件概率分布可以更准确地描述样本之间的局部区域(条件概率分布)。̸̸̸̸0概率知识转移 70表示每个样本选择其邻居的概率[28]。条件概率分布也被用于在高维空间中建模数据分布的降维技术,例如t-SNE算法[28]。教师模型的条件概率分布定义为:0p_i|j = K(x_i, x_j; 2σ^2_t) / Σ_{k=1,k≠j} K(x_k, x_j; 2σ^2_t) ∈[0, 1],(3)0学生模型的循环为:0q i | j = K ( y i , y j ; 2 σ 2 t ) � N k =1 ,k � = j K ( y k , y j ; 2 σ2 s ) ∈ [0 , 1] . (4)0条件概率被限制在[0, 1]之间,并且总和为1,即 � N i =0 ,i � = j p i | j = 1 和 � N i =0 ,i �= j q i | j = 1。存在多种选择来定义所使用的核。也许最自然的选择是高斯核:0K Gaussian ( a , b ; σ ) = exp � − || a − b || 2 20σ0� , (5)0其中 ||∙|| 2 表示向量的l2范数,σ是核的缩放因子(宽度)。使用高斯核导致了用于估计条件概率的常规核密度估计(KDE)方法[39]。然而,为了确保获得有意义的概率估计,必须仔细调整核的宽度。这不是一项直接的任务,有几种启发式方法被提出来解决这个问题[46]。为了避免这个问题并导出一个需要很少领域相关调整的方法,本文使用基于余弦相似度的亲和度量。因此,所使用的相似度度量定义如下:0K cosine ( a , b ) = 02 (0|| a || 2 || b || 2 + 1) ∈ [0 , 1] . (6)0除了避免计算核的带宽之外,使用余弦相似度作为核度量还可以更可靠地估计亲和力,因为已经证明余弦度量通常比欧氏度量(特别是在高维空间中)具有更好的性能[29,48]。此外,对于训练学生模型,存在多种选择用于定义散度度量。在本文中,使用了著名的Kullback-Leibler(KL)散度:0KL ( P||P ) = � + ∞0−∞ P ( t ) log)0Q ( t ) d t , (7)0其中 P 和 Q分别是教师模型和学生模型的概率分布。由于使用有限数量的点来近似概率分布,因此损失函数的计算如下:L ≠̸08 N. Passalis and A. Tefas0用于训练模型的损失函数计算如下:0N �0i =10j =1 ,i � = j p j | i log � p j | i0q j | i0� . (8)0请注意,KL散度不是对称距离度量,它更重视最小化相邻点之间的散度而不是远离的点。这意味着在优化过程中,保持局部邻域的几何形状比重新创建整个特征空间的全局几何形状更重要,从而在训练学生模型时提供更大的灵活性。如果保持整个特征空间的几何形状同样重要,则可以使用其他对称散度度量,例如二次散度度量 D Q ( P , Q ) = �0x ( P ( t ) − Q ( t )) 2 dt,可以使用。然而,需要注意的是,当训练具有显著较少参数的学生模型时,通常无法实现这一点。为了学习学生模型的参数 g (t , W ),使用梯度下降法,即 ∆ W = − η ∂ L0∂ W,其中 W是学生模型的参数矩阵。可以很容易地导出损失函数对模型参数的导数:∂ L ∂ W = � Ni =1 � N j =1 ,i � = j ∂ L ∂q j | i � N l =1 ∂q j | i ∂ y l y l ∂ W,其中 y l ∂ W只是学生输出相对于其参数的导数。在本文中,为了进行所有实验,使用了一种最近提出的用于随机优化的方法,即Adam算法[24],该算法计算模型每个参数的自适应学习率。此外,由于计算整个数据集的完整核矩阵通常是困难的,因此仅使用每次迭代中的一小批数据(64-128个样本)来估计条件概率。这个过程可以看作是对完整相似性矩阵的Nystrom近似[11],并且实验证明它加速了训练过程,同时不会对学习到的表示产生负面影响。在训练周期中,传输样本在训练时被随机洗牌,以确保在每个周期中使用不同的样本来估计条件概率分布。0PKT 和互信息以下我们提供了所提方法与保持学习表示和一组(可能未知)标签之间具有相同互信息(MI)的教师模型之间的联系。MI是随机变量之间依赖性的度量[9]。设 C是描述样本属性的离散随机变量,例如它们的标签。对于从 X 中抽取的每个特征向量x,都有一个关联的标签 c。互信息度量观察特征向量 x 后类别标签 c的不确定性减少了多少[45]。设 p ( c ) 是观察到类别标签 c 的概率。同时,设 p ( x , c )表示相应联合分布的概率密度函数。那么,教师的互信息定义为 I ( X, C ) =0p ( x ) P ( c ) d x 。MI也可以表示为联合概率密度 p ( x , c ) 与边缘概率 p ( x ) 和 P ( c) 的乘积之间的KL散度。x(9)posed of Jp samples, the class prior probability for the cp class is calculated asV (t)IN =1N 2V (t)ALL =1N 2(K(xk, xl; 2σ2t ),(11)andV (t)BT W =1N 2JpN0概率知识转移 90二次互信息(QMI)通过将KL散度替换为二次散度度量来得到,如[45]中所提出的:I T( X, 0x ( p ( x , c ) − p ( x ) P ( c )) 2 d X 。通过展开这个定义,我们得到:0I T ( X, C ) =0x p ( x , c ) 2 d x+0x ( p ( x ) P ( c )) 2 d x−0其中,以下数量被称为教师模型0x ( p ( x ) P ( c )) 2 d x ,以及 V ( t ) BT W =0c0N ,其中 N 是用于估计 QMI 的样本总数。此外,可以使用核密度估计[39]来估计联合密度概率,如 p ( x , c p ) = 1 N J p j =1 K (x , x pj ; σ 2 t ),其中符号 x pj 用于表示第 p 类的第 j 个样本,以及 X 的概率密度 p ( x ) = J p p =1 p ( x , c p ) = 10N j =1 K ( x , x j ; σ 2 t ) 。教师模型的信息潜力是使用这些概率推导出来的[45]:0Nc0J p0l =1 K ( x pk , x pl ; 2 σ 2 t ) ,(10)0N ) 2 N0N0J p0k =1 K ( x pj , x k ; 2 σ 2 t ) ,(12)0样本 i 和 j 之间的交互作用是通过核函数 K ( x i , x j ; σ 2 )来衡量的,它表示它们之间的相似性。此外,所有信息潜力都是通过数据对之间的交互作用来表示的(由不同的因子加权)。潜力V IN 表示类内交互作用,潜力 V ALL 表示所有样本之间的交互作用,而潜力 V BT W表示每个类别与所有其他样本之间的交互作用。类似地,可以计算学生网络的信息潜力,例如,V ( s ) IN = 10N 2 × N c p =1 × J p k =1 × J p l =1 K ( y pk , y pl ; 2 σ 2 s)。教师模型和学生模型必须使用不同(并适当调整)的宽度 σ t 和 σ s。如果要在模型之间传输QMI,则意味着两个模型之间的信息潜力必须相等。为了使两个模型之间的信息潜力相等,核函数为每对数据样本提供的值必须相等,即 K ( x i , x j ; 2 σ 2 t )= K ( y i , y j ; 2 σ 2 s ) � i, j ,这又意味着(1)和(2)中定义的联合密度必须相等。KT from Deep Neural Networks: First, the proposed method was evaluatedusing the CIFAR10. The knowledge was transferred from the penultimate layerof a deep neural network, the ResNet-18 network [16], that has over 11 millionparameters, to a significantly smaller student network with the following archi-tecture: 3×3 convolution with 8 filters, 2×2 max pooling, 3×3 convolution with16 filters, 2 × 2 max pooling, 3 × 3 convolution with 32 filters, 2 × 2 max poolingand a fully connected layer with 64 neurons. Batch normalization was used aftereach convolutional layer [22], and the ReLU activation function was used for allthe layers. The student network is composed of approximately 15,000 trainableparameters, i.e., more than 700 times less than the teacher ResNet model. Theteacher network was trained for classifying the images of the CIFAR10 dataset(after adding a final classification layer with the softmax activation function) for100 epochs with a learning rate of 0.001 for the first 50 epochs and a learningrate of 0.0001 for the last 50 epochs. A baseline teacher model was also trainedand evaluated using the same setup.The experimental results are reported in Table 1. All the methods were eval-uated in a content-based retrieval setup, where the database is composed of therepresentation extracted from training images using the student network g(·),while the test set is used to query the database and evaluate each method. Toevaluate the quality of the learned representation the (interpolated) mean Av-erage Precision (mAP) at the standard 11-recall points and the top-k precision(abbreviated as “t-k”) were used [29]. The cosine similarity was used to measurethe similarity between the query and the database objects for all the conductedexperiments. The penultimate layers (64-dimensional for the student model g(·)and 512-dimensional for the teacher model f(·)) were used to extract the repre-sentation of the images and transfer the knowledge. The proposed method wascompared to the hint-based knowledge transfer [38], abbreviated as “Hint”, thatsupports directly transferring the knowledge between layers of different dimen-sionality (only the “hint” part of the method was used, since it is not possibleto use the distillation approach between layers of different dimensionality). Notethat neither the distillation approach [17], or the FSP transfer [50], can be em-ployed when the dimensionality of the layers that are used for the knowledgetransfer does not match [50]. To ensure a fair comparison between the evaluatedKT methods, the baseline student network was used for initializing the networkfor all the methods and the optimization process ran for 20 epoch with batch size128 and learning rate 0.0001. The proposed method was also compared to theplain distillation approach (abbreviated as “Distill.”), where the knowledge wastransferred between the classification layers of the networks. However, it should010 N. Passalis 和 A. Tefas04 实验评估0概率知识迁移 110表1. CIFAR10评估0模型 mAP t-10 t-20 t-50 t-1000学生 38 . 96 68 . 30 65 . 35 61 . 89 59 . 17教师 91 . 39 93 . 34 93 . 19 92 . 28 92 . 81蒸馏 40 . 13 68 . 81 65 . 95 62 . 55 59 . 93提示 21 . 40 33 . 20 30 . 10 27 . 16 24 . 89PKT 51 . 19 69 . 41 67 . 38 65 . 10 63 . 390表2. YouTube人脸评估0LBP 46 . 38 ± 0 . 88 98 . 78 95 . 66 81 . 020提示52 . 31 ± 1 . 31 98 . 23 96 . 37 86 . 10PKT 54 . 84 ± 0 . 76 99 . 85 98 . 95 88 . 710S-PKT 70 . 11 ± 0 . 95 99 . 88 99 . 31 91 . 500需要注意的是,这需要在学生网络中添加一个额外的分类层,并限制可以使用知识转移的场景数量(因为知识必须从经过分类任务训练的模型中转移)。最后,数据集的训练数据被用作转移集(不使用提供的类标签)。从表1中报告的结果可以得出几个结论。首先,确认了所提出的PKT方法确实可以比直接使用训练集的可用硬标签训练网络获得
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功