知识分解：基于神经网络的任务分解和组装方法

112 浏览量更新于2023-11-30 收藏 1.88MB PDF 举报

神经网络

迁移学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文神经网络中的知识分解Xingyi Yang，Jingwen Ye，Xinchao Wang新加坡国立大学xyang@u.nus.edu，{jingweny，xinchao} @ nus.edu.sg抽象的。在本文中，我们探讨了一个新颖的和雄心勃勃的知识转移任务，称为知识分解（KF）。KF的核心思想在于知识的模块化和可组装性：给定一个预训练的网络模型作为输入，KF旨在将其分解为多个因子网络，每个因子网络仅处理一个专用任务，并维护从源网络分解的特定于任务的知识这种因素网络是任务方面的解开，可以直接组装，没有任何微调，以产生更有能力的组合任务网络。换句话说，因子网络就像乐高积木一样，允许我们以即插即用的方式构建定制的网络具体而言，每个因子网络包括两个模块，一个是任务不可知的并由所有因子网络共享的公共知识模块，另一个是专用于因子网络本身的任务特定模块我们引入了一个信息理论目标，InfoMax-Bottleneck（IMB），通过优化学习表示和输入之间在各种基准测试上的实验表明，导出因子网络不仅在专用任务上而且在解纠缠上都有令人满意的性能，同时具有更好的可解释性和模块性。此外，学习到的公共知识表示在迁移学习上产生了令人印象深刻的结果。我们的代码可在https://github.com/Adamdad/KnowledgeFactor上获得。关键词：迁移学习，知识分解1介绍在过去的十年中，深度神经网络（DNN）已经发展成为大多数（如果不是所有）计算机视觉任务的标准方法，产生了前所未有的有希望的结果。由于DNN训练过程耗时耗力，许多开发人员已经慷慨地在线发布了他们的预训练模型，这样用户就可以以即插即用的方式采用这些模型，而无需从头开始训练。然而，预训练的DNN通常具有繁重的架构，这使得它们在现实世界的场景中部署非常麻烦，特别是资源关键型应用程序，如边缘计算。因此，已经做出了许多努力来减小DNN的大小，其中一个主流方案被称为知识蒸馏（KD）。KD的目标是从已知的大型预训练模型中“提取”知识。arXiv：2207.03337v1 [cs.CV] 2022年7+v：mala2255获取更多论文多元教师网络预测-1预测-2预测-K(d)知识分解解缠结解缠结因子网络- 是的Σk=1K难对付2Xingyi Yang，Jingwen Ye，Xinchao Wang教师网络单学生网络多元教师网络多元人才学生网络多元教师网络具有独立权重的多个学生网络(a) STL2STL知识蒸馏（b）MTL2MTL知识蒸馏（c）子知识蒸馏模型集线器公共知识模型知识特定模型自定义部署重新训练Finetune分解中文（简体）尽量减少（（（无知识泄漏图1：（上）3种知识蒸馏类型和（下）我们提出的知识分解（b）多任务学习转多任务学习（Multi-Task Learning to Multi-Task Learning，简称MTL 2 MTL）指从一位身兼数职的教师中，提炼出一位身兼数职的学生，(c)Sub-Knowldege Distillation将教师知识的一个子集提取到其学生模型中。与KD将知识作为一个整体进行传播不同，KF将预先训练的教师分解为可以集成或单独运行的分解因子网络，而无需重新训练。从一个老师到一个紧凑型的学生。预计衍生学生将掌握教师的专业知识，但尺寸要小得多，使其适用于边缘设备。自[20]的开创性工作以来，已经提出了一系列KD方法来加强学生模型的性能[51，66，47]。尽管取得了令人鼓舞的成果，但知识共享在很大程度上被视为一种黑箱程序，其中内在的知识流动过程仍然不透明。因此，衍生的学生模型可能会继承教师此外，如图1（a）和（b）所示，传统KD假设教师和学生模型掌握同质任务或知识，这极大地限制了其广泛应用。即使允许从教师那里提取知识的子集，如图1（c）所示，KD的问题设置本质上忽略了学生的可扩展性。例如，给定一个在ImageNet上预训练的多功能分类教师，如果我们要学习两个学生，一个处理猫狗分类，一个处理鲶鱼，我们将不得不执行KD两次;然而，如果我们要从1000个类的池中学习所有k类分类学生，我们将不得不执行KD，10001000=21000次，这是计算性的在本文中，我们介绍了一种新的任务，称为知识分解（KF），它在问题设置级别上解决了KD的上述缺陷的预测同质任务蒸馏预测预测-1预测-2预测-K同质任务蒸馏预测-1预测-2预测-K预测-1预测-2预测K为新任务选择子集因子分解+v：mala2255获取更多论文神经网络中的知识分解KF的核心思想是考虑知识的模块化和可组装性：给定一个预先训练的教师，KF将其分解为若干个因子网络，每个因子网络掌握从教师因子分解的一个特定知识，同时保持与其他知识的分离。此外，这些因素网络被期望是容易集成的，这意味着我们可以直接组装多个因素网络，而无需任何微调，以产生更有能力的多人才网络。如图1（d）所示，这些因子网络可以组织成一个开源模型中心。与此同时，用户可以将它们视为乐高积木般的知识单元，以即插即用的方式构建定制的网络，从而使其具有很大的可扩展性。此外，委员会认为，解纠缠特性有效地实现了网络知识的IP保护：由于因子网络是以解纠缠的方式学习的，因此它们仅拥有特定于任务的知识，从而允许网络所有者选择性地进行知识转移而不泄露其他任务的知识不可否认，KF的目标是无可争议的雄心勃勃，因为因素网络，再次，预计将模块化，易于集成，同时知识明智的解开，因此更可解释。值得注意的是，尽管在专业知识上是正交的，但这些因素网络将继承所有任务共享的因此，每个因子网络的设计应考虑到任务不可知的共性及其任务相关的特殊性，这反过来又减少了KF的总体参数开销。如图1所示，给定n种类型的知识，sub-KD需要指数数量的2n个模型，每个模型具有S个参数，而KF将模型数量减少到线性尺度，具有一个全尺寸的公共知识模型和n个迷你模型，每个模型具有s个参数，其中s为S。为此，我们提出了一个专门的计划进行KF，包括两个机制，即结构因子分解和表示因子分解。– 结构分解。结构因子分解将教师网络分解为一组具有不同功能的因子网络。每个因素网络包括共享公共知识网络（CKN）和特定任务网络（TSN）。CKN提取任务不可知的表示来捕获任务之间的共性，而TSN考虑特定于任务的信息。因子网络通过融合任务不可知和任务特定的知识来训练专门化单个任务– 表示分解。表示分解将共享知识和任务级表示分解为统计独立的组件。为此，我们引入了一个新的信息理论目标，称为InfoMax瓶颈（IMB）。它最大化输入和共同特征之间的互信息，CKN中的无损信息传输。同时，IMB最小化数据-任务互信息，以确保任务特征仅对特定任务具有预测性。具体来说，我们推导出一个变分的下限IMB实际上优化这种损失。+v：mala2255获取更多论文4杨兴义、叶静文、王通过整合这两种机制，我们在实验中证明，KF确实实现了架构级和代表级的解纠缠。与KD以黑箱方式传递整体知识不同，KF通过知识传递为因子网络提供了独特的可解释性此外，学习到的共同知识表示促进了向看不见的下游任务的转移学习，这将在我们的实验中得到经验验证。因此，我们的贡献概述如下– 我们介绍了一种新的知识转移任务，称为知识分解（KF），它占学习因子网络是模块化的和可解释的。因子网络被期望是容易集成的，无需任何再训练，以组装多任务网络，从而允许极大的可扩展性。– 我们提出了一个有效的解决方案KF。我们的方法将预先训练的教师分解为任务明智的因素网络。所有网络都可以独立或协作执行，具有很高的灵活性和适应性。– 我们设计了一个InfoMax瓶颈目标，通过控制输入和表示之间的互信息，来解开公共知识和特定任务表示之间的表示。我们推导了它的变分界，为它的数值优化奠定了基础。– 我们的方法在各种基准测试中实现了强大的性能和解纠缠能力，具有更好的可解释性，模块化和可移植性。2相关工作知识蒸馏。知识蒸馏（KD）[20]是指将知识从一个模型或一组模型转移到学生模型的过程。KD最初设计用于模型压缩[5，55，31，36，63，50]，但已发现它在其他任务中是有益的，如对抗防御[46]，域适应[15，43]，持续学习[32，67]和合并来自多个教师的知识[38，64，23]。与一般知识分解方法将知识作为一个整体进行传播不同分解表征学习。人们通常认为，真实世界的观察应该受到因素的控制。因此，最近的一系列研究认为，在表征学习中找到解纠缠变量的重要性[4，48，44，35，62，13]，同时在学习中提供不变性[14，1，22]。这是纠缠通常通过对抗学习[58，34，40，10]或变分自动编码器[19，7，26]来完成。在这项工作中，我们的目标是解开任务无关和任务相关的表示，通过优化的互信息。InfoMax原则和信息瓶颈作为基础之一+v：mala2255获取更多论文结构因子分解网络网络-1网络-2…因子网络2因子网络1在神经网络中分解知识5多任务教师模式常识特定任务特定任务图2：所提出的知识分解的总体框架。给定相同的输入，CKN和TSN提取共同的和特定于任务的表示来进行任务预测。因子网络被训练成模仿教师的预测。CKN学习最大化输入与其多尺度特征之间的互信息，而TSN致力于最小化特征输入互信息。在机器学习领域，信息论提出了一系列的学习算法。InfoMax[33]是表示学习的核心原则，鼓励多视图之间或表示与输入之间的互信息最大化。这一原则催生了最近的自我监督学习[2，21，59]和对比学习[45，9，17，25，56，16]的趋势。相反，信息瓶颈（IB）[57]旨在压缩表示，同时实现逼真的重建结果。在本研究中，我们对多任务学习中的这两个原则采取了统一的观点。Infomax保证跨任务的共同知识的学习，而IB促进特定任务的知识为个人的任务。多任务学习。多任务学习（MTL）是利用任务间的共同信息来训练处理多个任务的模型。最近的一些解决方案探索了共享和特定任务处理之间的分解[39，24，68]。与传统的方法不同，我们将预训练模型分解为根据任务的知识模块3方法这项工作的实质是通过对教师和学生之间的信息进行细粒度控制，将多任务教师分解为独立的学生。图2提供了我们提出的KF的总体草图在下文中，我们首先给出了知识分解的定义，然后介绍了将教师分解为分解的学生的一般过程。3.1神经网络中的知识分解我们将知识因子分解（KF）定义为将教师网络细分为多个因子网络的过程，每个因子网络具有不同的特征，预测任务2预测任务1知识转移损失表示分解任务负责z1202最大化MI最大化MI最大化MI最大限度减少MI最大化MI预测任务2预测任务1+v：mala2255获取更多论文j=1j=1SSSFsupKTsupKTJLTJSJ6杨兴义、叶静文、王知识来完成一项任务。形式上，假设我们有一个多任务数据集D ={（xi，yi，. . .，y，K）}，其中每个输入样本x可以取K个不同的我标签{yj}K我从联合概率P（X，Y1，. . . ，YK）。用松松定义，我们也认为多分类作为一个特殊的情况下，多任务，考虑每一个或一组类别作为一个任务。给定一个能够同时预测K个任务的多任务教师模型T，KF的目标是构造K因子网络{Sj}K ，其中每一个都独立地处理一个任务。具体来说，我们专注于将教师知识分解为特定于任务的和共同的表示，这意味着每个因素网络不仅掌握特定于任务的知识，而且还受益于共享的共同特征来进行最终预测。为此，我们设计了两种机制来分解知识：结构因子分解，将教师网络分解为一组具有独立结构和功能的因子网络;以及表示因子分解，通过优化互信息将公共特征与特定任务3.2结构因子分解结构因子分解的目标是赋予不同的子网络功能上的区别。每个因子网络预计只从教师那里继承一部分知识，并专注于单个任务。具体地，用于第j个任务的因子网络Sj包括两个模块化网络：在所有任务之间共享的公共知识网络（CKN）SC（·;ΘSC），以及任务排除的特定任务（TSN）STj（·;ΘSTj）。ΘSC 和ΘSTj 是分别用于CKN和TSN的模型参数。F或每个输入样本，采用SC来提取任务不可知特征z：z= SC（x; θSC）。（一）J相反，STj从输入x学习任务相关知识t，与z一起由任务头Hj处理以进行最终预测：tj=ST（x;ΘS）;y=Hj（z，tj;ΘH），（2）其约束每个因素网络j以共享相同的公共知识网络，但保持任务特定的网络以处理不同的任务。直觉上，我们期望j仅通过使用公共知识z和tj来掌握关于任务j的知识。因此，我们定义了一个结构因子化目标L（j），以强制每个单任务因子网络模仿教师的预测，同时最小化监督损失：（十）（十）（十）Lsf=Lsup+λktLkt，（3）其中L（j）和L（j）表示监督损失和知识转移损失对于第j个任务，λkt是权重系数。值得注意的是，我们可以很容易地为这里的每个损失项采用各种实现。为例如，L（j）可以采取用于回归的L2范数和用于回归的交叉熵的形式。分类，而（j）可能采取软目标[20]，暗示损失[51]或注意力转移[66]的形式。更多细节可以在补充中找到。+v：mala2255获取更多论文我我我我我我∼∼我∼（十）在神经网络中分解知识7因此，结构分解使我们能够通过组装多个网络来构建新的组合任务模型，而无需重新训练。例如，如果需要3类分类器，我们可以很容易地从预定义的网络池中集成CKN和这个属性反过来又极大地提高了模型的可伸缩性。3.3表示分解除了功能性解纠缠之外，我们还希望因子网络的学习表示在统计上也是独立的，这样每个子网络都掌握了任务方面的解纠缠知识。这意味着特定于任务的功能应该只包含与特定任务相关的最小信息，而公共表示则包含尽可能多的信息。为此，我们引入了Infomax瓶颈（IMB）目标优化功能和输入之间的互信息（MI）。对于两个随机变量X，Y，MI（X，Y）量化了变量X关于Y的I（X，Y）=DKLp（x，y）||p（x）p（y）（四）在我们的问题中，对于每个输入样本xP（X），我们计算其公共知识特征zP（Z）和任务预测表示tjP（Tj）。最终，IMB试图最大化（X，Z），使得公共知识保持尽可能多的输入信息，同时最小化（X，T，j），使得任务表示仅保留与任务相关的信息然后，表示解纠缠可以被公式化为优化问题：maxI（Tj，Yj）;s.t. I（X，Tj）≤g1，−I（X，Z）≤g2，（5）其中，R1和R2是我们定义的信息约束为了解决Eq。5、我们引入两个Lagrange乘子α >0，β > 0来构造函数：LI=I（Tj，Yj）+αI（X，Z）−βI（X，Tj）.（六）通过最大化第一项（Tj，Yj），我们确保任务表示tj能够完成单个任务j。（X，Z）项鼓励信息的无损传输和CKN的高保真特征提取，而最小化（X，Tj）强制TSN仅提取任务信息表示，从而将任务知识tj与公共知识z去相关。与传统的信息瓶颈（IB）原则[57]不同，我们提出的IMB试图最大化（X，Z）[21，37，45]，因此CKN以高保真度学习一般表示z。3.4互信息的变分界由于难以估计连续变量的互信息，我们推导出一个变分下界来近似精确的IMB目标1：L<$I=Ep（yj，tj）[logq（yj|tj）]+α，Ep（z，x）[logq（z|x）]+H（Z）<$−βEp（tj）<$DKL[p（tj|（x）||q（tj）]n，（7）1由于篇幅所限，我们只在本文的主体部分展示最终的公式。推导可在补充材料中找到。+v：mala2255获取更多论文||||||J|ΣΣΣΣT ∈ S∈TJKLJJ2TJTJTJl=18杨兴义，叶静文，王新潮其中DKL表示两个分布之间的KL散度，q（·）表示变量分布。设LI≥L<$I ，等式y 成立当且仅当 q （ yjtj ）=p （ yjtj ）， q （ zx ） =p（zx），q（tj）=p（tj）.为了更好地理解，我们解释每个术语的含义，指定变分分布的参数形式，并提供Eq. 第七章1. 我们通过最大化I（Tj，Yj）的下限Ep（yj，tj）[logq（y j）]来最大化I（T j，Yj）|tj）]。对于任务的回归i，我们将q（yjtj）设为高斯分布，对于分类任务，设为多项分布。在此假设下，最大化Ep（yj，tj）[logq（yjtj）]只不过是最小化预处理的L2范数或交叉熵损失。措辞 q（yj|tj）被另一个任务头H j '参数化，该任务头H j'将t设为输入并进行任务预测。值得注意的是，Hj'不同于Hj，因为Hj同时取z和t作为输入。Term 2.我们通过最大化其下界Ep（z，x）[log q（z）]来最大化I（X，Z|x）]+ H（Z）.我们选择q（z|x）是由临界函数f（x，z）参数化的基于能量的函数：X × Z → Rq（zx）=p（z）ef（x，z），其中C=ECp（z）f（x，z）是一个函数。（八）代入q（z|x）到第二项中给出了I（X，Z）的非归一化下限：I（X，Z）≥Ep（z，x）[f（x，z）]−logEp（x）[C]，（9）在互信息神经估计（MINE）[3]中也提到了相同的界限。与原始MINE不同，在我们的实现中，我们通过教师和学生之间的特征损失来估计I（X，Z稍微滥用一下符号，我们将zT=（十）l研发 zC=C（x）lRdC作为来自第l层的teacher和CKN的中间特征向量。给定一对（zT，zC），f被定义为两个向量f（x，zC）的内积=其中FFN（·）：RdT→RdC是一个前馈网络，用于对齐zT和zC之间的维度。3. Ep（tj）DKL[p（tj|（x）||q（tj）]是后验p（t j）之间的期望KL差|x）和先验q（t，j），其中i ch是I（X，T，j ）的上界. 通过最小化Ep（tj）DKL[p（tj），我们最小化I （X ，T j ）|（x）||q（tj）]。遵循变分推理[27，19]中的常见做法，我们将先验q（tj）设置为零均值单位方差高斯。此外，我们还将p（tj）|x）=N（µtj，diag（σtj））是高斯分布。因此，我们计算每个前向传递中任务特征tj的均值tj=STj（x;ΘSTj ）;µtj=E[tj]，σ2=Var[tj]，（10）然后，在p（tj）之间的KL 分歧|x）和q（t，j）可以被计算为：LD[p（t|（x）||q（t）]=1<$（1+logσ（l）−（µ（l））2−σ（l））。（十一）下标表示µtj的第l个元素nt 和σtj。+v：mala2255获取更多论文K，ΘSSF我MTL 6层（教师）单任务（3层）多任务（3层）MTL2STL-KD（3层）MTL2 MTL-KD（3层）KF（3层）在神经网络中分解知识9训练我们最小化以下总体损失，以实现学生之间的结构和表示因式分解：minCTJL（j）−λIL（j），（12）jj=1其中λI是IMB目标的加权系数。再次强调，z包含了与任务无关的公共信息，tj是特定于任务的表示。z和tj在功能上和统计上都是独立的。4实验在本节中，我们将研究因子分解如何促进模型的性能、模块性和可移植性默认情况下，我们设置α=1.0和β= 1 e-3，λI=1和λkt=0.1。由于篇幅限制，更多的超参数设置、蒸馏损失、实施细节、数据描述和度量的定义在补充材料中列出。4.1因子网络对任务有很强的预测能力我们对合成和真实世界的分类和多任务基准进行了全面的实验，以研究因子化网络是否仍然保持有竞争力的预测性能，特别是在每个子任务上。综合评价。我们首先在两个合成图像基准dSprites [41]和Shape3D [6]上评估我们的KF。两个数据集均由6个独立的潜在因素。我们定义每个潜在因素作为预测目标，并将两个数据集作为多标签分类基准。我们比较了我们的KF与其他4种基线方法：单任务基线，多任务基线，MTL2MTL KD和MTL2STL KD。单任务基线表示训练用于预测一个任务的6个独立网络，而多任务表示训练用于预测所有6个任务的一个模型。MTL2MTL KD提取一个多任务学生，而MTL2STL KD是指提取6个单任务学生。KF代表了我们的结果所产生的因素网络从一个多任务的教师。我们将教师网络训练为6层CNN模型。此外，所有的学生网络编码器，包括CKN和TSN，都是由3层CNN参数化的。我们对每个数据集进行7：3的随机训练测试并报告测试拆分的ROC-AUC评分(a) dSprites（b）Shape3D图3：dSprites和Shape 3D数据集上的测试ROC-AUC比较。ΘS，ΘH+v：mala2255获取更多论文10杨兴义、叶静文、王新潮表1：KD和KF之间CIFAR-10的测试准确度（%）比较我们报告了3次运行的平均值±标准差。教师：AccStudent/CKN：Acc1-Task KD 2-Task KD 1-Task KF 2-Task KFMBNv2：93.58 93.79±0.1792.59±0.0894.03±0.2394.41±0.05ResNet-18：94.5494.72±0.24 93.69±0.11 95.04±0.1295.20±0.04WRN28 -2：93.9894.57±0.1393.71±0.2294.86±0.1794.77±0.06MBNv2：93.58 94.14±0.0894.10±0.0394.34±0.1494.56±0.10ResNet-18：94.5494.75±0.22 94.22±0.07 95.03±0.12WRN28 -2：93.9894.02±0.0793.31±0.1294.59±0.1194.62±0.13MBNv2：93.58 94.47±0.3194.10±0.2294.80±0.1594.97±0.15ResNet-18：94.54 95.28±0.14 94.62±0.0995.40±0.08 95.32±0.05WRN28 -2：93.9894.68±0.1494.11±0.2694.80±0.07表2：ImageNet上的Top-1准确度（%）比较教师：学生/CKN：访问1-任务KD 1-任务KF11-任务KFResNet-18：69.90MBNv2：71.8672.1572.20（+0.05）72.52（+0.37）ResNet-18：69.9070.5370.26（-0.27）70.93（+0.40）ResNet-34：73.62MBNv2：71.8672.5872.95（+0.37）73.12（+0.54）ResNet-18：69.9070.8270.98（+0.16）72.13（+1.31）ResNet-50：76.55MBNv2：71.8672.7372.92（+0.19）73.15（+0.42）ResNet-18：69.9071.1271.14（+0.02）72.20（+1.08）结果图3显示了我们的KF及其KD对手在两个数据集上的ROC-AUC评分的条形图。尽管所有方法都实现了大于0的高AUC评分。92，很明显，我们的KF不仅超越了多任务基线，而且超过了两个蒸馏范例。此外，值得注意的是，多任务模型通常比单任务模型实现更好的性能，这表明预测性能受益于从两个数据集上的多个标签中学习。真实图像分类我们进一步在两个真实图像分类CIFAR-10 [29]和ImageNet 1K [52]上评估我们的KF。为了在CIFAR和ImageNet上应用因式分解，我们还通过考虑类别层次来构建两个伪多任务数据集CIFAR-10中的10个类别可分为6个动物类别和4 个车辆类别。类似地，ImageNet 1K类使用WordNet [42] synset树组织，具有11个超类。我们相应地构建了CIFAR-102-task和ImageNet 1 K 11-task数据集，每个任务只考虑相同超类的类别在单任务和伪多任务评估中，我们采用预训练的分类器，并将其知识提取或分解为单任务或伪多任务学生。每个伪多任务因子/蒸馏网络仅能预测一个超类内的类别，并将连接的输出作为最终预测。我们包括 ResNet-18 [18] ， WideResNet 28 -2 （ WRN 28 - 2 ） [65] 和WideResNet 28 -10（WRN 28 -10）[65]作为我们在CIFAR-10上的教师网络; MobileNetv 2（MBNv 2）[53]，以及ResNet-18，WRN 28 -2作为学生或CKN骨干。在ImageNet 1 K评估中，教师网络被选择为ResNet-18，ResNet-34 [18]和ResNet-50 [18]，MBNv 2和ResNet-18作为学生或CKN 骨干。我们选择一个轻量级的骨干 MBNv2x0.5 作为 TSN 。MBNv2x0.5表示宽度乘数为0.5。结果表1和表2提供了在3次运行中单任务或伪多任务KD与我们提出的KF之间的分类准确度比较。虽然这两种方法都提高了单任务设置下的基线，但我们WRN 28 -2：93.98WRN 28 -10：95.32ResNet-18：94.54+v：mala2255获取更多论文在神经网络中分解知识11注意，KD未能改进伪多任务评估的结果我们也没有在ImageNet上报告11个任务的KD结果，因为准确率通常低于20%。值得注意的是，我们观察到不平衡的标签会导致训练的恶化：当一个网络只掌握一个超类，而其余的类被视为负样本时，经过提炼的网络最终倾向于做出低置信度的预测。相比之下，KF具有在所有任务之间共享的CKN，这大大减轻了传统KD中的不平衡问题例如，当从ResNet-50和ResNet-34学习时，通过11-Task KF获得的因子网络将ResNet 18-KD在ImageNet上的性能提高了1.08%和1.31%在其他评估中，KF始终在总体上取得了正常KD的进步，这表明任务特定和任务不可知的因子分解有利于性能。多任务密集预测。两个多任务密集预测数据集也用于验证KF的有效性，包括NYU深度数据集V2（NYUDv2）[54]和PASCAL上下文[11]。NYUDv2数据集包含注释为语义分割和单眼深度估计的室内场景图像在PASCAL环境中，我们包括4个任务，包括语义分割，人体部位分割，表面法线预测，和显著性检测。我们使用平均交集超过工会（mIoU）来评估语义和人体部位分割以及显着性检测任务。角度平均误差（mErr）和均方根误差（rmse）分别用于衡量深度估计和范数预测质量。我们包括单任务和多任务以及它们的STL 2STL/MTL 2STL/MTL 2MTL蒸馏模型作为我们的基线。我们采用HR-Net 48 [61]和ResNet-50DeepLabv 3作为老师，HRNet 18和ResNet-18 DeepLabv 3作为学生或CNK。TSN设置为MBNv2x0.5。我们使用较小的β= 1 e-5。网络使用ImageNet预训练的权重进行初始化。结果我们在表3和表4中显示了NYUDv2和PASCAL数据集的评估结果。在NYUDv2上，多任务基线通常比其单任务竞争对手的性能更好。相反，在HRNet48、ResNet18和ResNet50的PASCAL实验中，多任务基线的性能大幅下降。揭示了多目标优化中存在的负迁移问题，即多目标联合优化可能导致任务间矛盾，从而导致性能下降。表3：NYUDv2数据集上的性能比较。方法教师学生/CKN Seg.（mIoU）↑深度（rmse）↓STL2STL-KDHRNet48HRNet1839.270.603MTL2MTL-KD HRNet48HRNet1838.020.604MTL2STL-KDHRNet48HRNet1839.040.601我们HRNet48HRNet1840.780.592单任务- ResNet-1838.070.652多任务- ResNet-1839.180.623单任务- ResNet-5044.300.625多任务- ResNet-5044.780.602STL2STL-KDResNet-50ResNet-1839.760.633MTL2MTL-KD ResNet-50ResNet-1839.980.623MTL2STL-KDResNet-50ResNet-1840.600.621我们ResNet-50ResNet-1841.330.615单任务- HRNet1827.370.612多任务- HRNet1837.590.641单任务- HRNet4848.190.556多任务- HRNet4848.920.578+v：mala2255获取更多论文12杨兴义，叶静文，王新潮表4：PASCAL数据集上的性能比较。方法教师学生/CKN隔离区（mIoU）↑H.部分（mIOU）↑诺姆（mErr）↓萨尔（mIOU）↑单任务- HRNet1851.1864.1014.5456.08多任务- HRNet1854.6162.4014.7766.07单任务- HRNet4860.9267.1514.5368.12多任务- HRNet4855.9367.0614.3167.08STL2STL-KDHRNet48HRNet1852.6364.9814.4960.72MTL2MTL-KD HRNet48HRNet1852.0260.3314.6365.45MTL2STL-KDHRNet48HRNet1854.7765.1814.5364.31我们HRNet48HRNet1856.6566.8314.4467.05单任务- ResNet-1864.7558.6813.9565.59多任务- ResNet-1863.4858.1715.1264.50单任务- ResNet-5070.2961.4714.6566.22多任务- ResNet-5068.0463.0514.8865.65STL2STL-KDResNet-50ResNet-1866.1059.4314.1966.33MTL2MTL-KD ResNet-50ResNet-1861.3160.1414.7362.45MTL2STL-KD ResNet-50ResNet-1866.6062.3314.2966.14我们ResNet-50ResNet-1867.1861.0914.3166.83当将普通MTL 2 MTL-KD与STL 2进行比较时，- 表4中的STL-KD，其中MTL教师劣于STL教师。我们的因子网络自动解决了这个问题，因为不同的TSN在结构上和代表性上是独立的。因此，与MTL 2 MTL-KD、STL 2STL-KD以及MTL 2STL-KD框架相比，KF实现了强大的学习性能。4.2因式分解带来解纠缠给定上一节中的提取和因子分解模型，我们测量一组解纠缠度量和表示相似性，以确认知识因子分解捕获了任务之间的自变量。解缠评价装置。我们首先在两个合成数据集上验证因子模型之间的解纠缠，即dSprites [41]和Shape3D [6]。使用经过训练的模型，我们测量了4个解纠缠指标，以量化学习的表示对因子变量的总结程度这些指标是去偏 - 完整性 - 信息性（ DCI ） [12] 、互信息缺口（ MITUALINFORMATION Gap）[8]、FactorVAE指标[26]和分离属性可预测性（SAP）评分[30]。更高意味着所有指标都更好。我们将我们的KF与其他3种基线方法进行了比较：单任务基线，多任务基线和MTL2STL KD学生，这在前一节中已经介绍过。根据[35]中的评估协议，我们采用所有平均池化任务特定表示的连接作为我们的最终特征向量进行评估，并计算测试集上的所有分数。结果图4使用箱形图说明了不同解缠度量的定量结果。首先，我们看到多任务学习自然会带来更多的分解表征。在两个数据集上，多任务基线的得分略高于单任务基线另一个观察是，模型重用方法，如KD和KF也有助于模型找到教师不明显的因素。我们的因子网络提取的特征通常得分最高，特别是在dSprites数据集上，DCI和Risk得分的中位数分别提高了0.47和0.09这与我们的预期是一致的，分解的知识到共同的和特定任务的部分导致解开表示。+v：mala2255获取更多论文在神经网络中分解知识13（a）dSprites上的DCI解纠缠(b)dSprites上的FactorVAE(c) 在dSprites(d) dSprites上的SAP评分(e) Shape3D上的DCI解缠(f)Shape3D上的FactorVAE评分(g) 在Shape3D(h) Shape3D上的SAP评分图4：（1）单任务基线，(2) 多任务基线，（3）KD和（4）我们在dSprite（顶部）和Shape3D（底部）数据集上提出的KF。每个实验重复10次运行。表示相似性。我们进一步使用中心内核对齐（CKA）[28]在教师模型，蒸馏模型和我们的因子分解模型之间进行表示相似性分析，包括dSprites，Shape3D，CIFAR10和NYUDv2。在每个数据集上，采用CKA来量化（1）多任务教师（2）MTL 2 MTL-KD学生（3）MTL 2STL学生（对于每个子任务）和（4）我们的CKN和TSN子任务之间的特征相似性。我们在测试集上的最后一个特征层计算所有模型对之间的线性核CKA。附录中描述了模型架构。CKA指数越高，表明两个网络之间的相关性越高。结果图5显示了4个任务上所有模型对之间的CKA混淆矩阵热图。我们提出了以下意见。首先，掌握相同子任务的模型具有高特征相似性。例如，提取的尺度/形状预测模型在很大程度上类似于dSprites和Shape3d下的因子化尺度/形状TSN。其次，我们的因子化TSN捕获更多的“纯”知识相比，MTL2STL的学生。在每个热图上，左下角区域具有高相似性（暗红色），这表明传统的单任务蒸馏模型仍然保持与其同行的高相似性，即使它们在专门的任务上进行训练相比之下，因子化的TSN实现了较小的相互相似性（在右上角区域），再次支持了我们的论点，即因子网络捕获了跨任务的分解因子。(a)dSprites（b）Shape3d（c）CIFAR10（d）NYUDv2图5：CKA表示蒸馏模型和因子分解模型之间的相似性+v：mala2255获取更多论文14杨兴义，叶静文，王新潮4.3共同知识的好处我们采用因子分解的CKN作为预训练模型，并在两个下游任务上对其进行微调，以查看公共知识是否有助于将学习转移到未知领域。我们在Caltech-UCSD Birds-200-2011细粒度分类（CUB-200）[60]和MIT室内场景（Scene）[49]上训练了具有不同初始化的ResNet-18网络。然后，经过训练的模型被重新建立为教师，以教育学生网络，如MBNv2和ShuffleNetv2。结果表5显示了使用不同预训练权重的迁移学习性能和蒸馏准确度。R18 w/ImageNet-CKN是指从ImageNet预训练的ResNet-18中分解出来的ResNet-18 CKN。与原始的预训练权重相比，ImageNet-CKN在两个数据集上都取得了实质性的改进。通过重用微调的ResNet-18作为教师网络，我们在图5中显示CKN作为教育学生网络的更好角色模型它提供了令人信服的证据表明，从教师网络分解的共同知识有利于将学习转移到其他任务。表5：具有不同预训练权重的微调性能和蒸馏准确度。R18是ResNet-18的缩写。老师学生Cub-200场景---R18 w/ Rand init.R18 w/ImageNetR18，带ImageNet-CKN46.14 65.1765.28 65.1969.17 72.37-MobileNetV2 w/Rand init.48.8064.59R18 w/ Rand init.MobileNetV2 w/Rand init.54.1866.78R18 w/ImageNetMobileNetV2 w/Rand init.61.3066.40R18，带ImageNet-CKNMobileNetV2 w/Rand init.64.2570.94-ShuffleNetv2 w/Rand init.52.

下载后可阅读完整内容，剩余1页未读，立即下载