基于群栈双GAN的无数据知识融合策略

171 浏览量更新于2023-10-24 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

12516基于群栈双GAN的叶静雯1，季一心1，王新潮2，高欣3，宋明丽11浙江大学计算机科学与技术学院杭州2美国新泽西州史蒂文斯理工学院计算机科学系3中国杭州阿里巴巴集团{叶敬文，吉宜欣，brooksong} @ zju.edu.cn，xinchao. gmail.com，zimu. alibaba-inc.com摘要深度学习的最新进展已经提供了用于学习一个网络以从预训练的卷积神经网络（CNN）模型合并多个知识流的过程，从而降低注释成本。然而，几乎所有现有的方法都需要大量的训练数据，这可能由于隐私或传输问题而不可用在本文中，我们提出了一种无数据的知识融合策略，从多个单/多任务教师中构建一个其主要思想是构造具有两个对偶生成器的群栈首先，训练一个生成器，通过重建近似用于预训练教师的原始数据集的图像来收集知识。然后，通过将前一个生成器的输出作为输入来训练对偶生成器。最后将对偶部分生成器作为目标网络进行重组。在多标签分类的多个基准测试中，该方法在没有任何训练数据的情况下取得了令人惊讶的竞争结果，甚至与一些全监督方法相比也是如此。1. 介绍在过去的几年中，深度卷积神经网络（CNN）已被广泛用于在各种人工智能应用中实现最先进的性能，例如跟踪[22，2]，分类[16]和分割[33，35]。然而，广泛使用的CNN的成功在很大程度上依赖于繁重的计算和存储以及大量的人工注释，有时甚至高达数千万的规模，例如ImageNet。然而，在现实世界应用的许多情况下，训练数据或注释是保密的，因此公众无法获得。为了减轻再训练和再生产的负担，最近提出了各种有效的方法。为预测标签噪声发生器双发生器（TargetNet图1. Dual-GAN的架构，其中未描绘对应的中继器。生成器（左）合成图像，而双生成器（右）生成标签向量。例如，通常的迁移学习方法[37，31]使用预先训练的基础网络，然后将其前几层复制到目标网络的那些层，以朝着目标任务进行训练。此外，知识蒸馏（KD）[13]的开创性工作通过从教师那里获得的软标签来除了这些从单个网络学习的工作之外，知识融合（KA）[36]被提出来有效地重用多个预先训练的网络，并使学习的多知识在单个网络中得到很好的解决。此外，KA的过程不需要任何注释，只有中间特征被视为知识来指导训练。KA训练只需要未标记的数据集，这大大降低了标注成本。但这也是一种常见的情况，由于极端的隐私政策或其他不可抗拒的因素，无法访问任何培训例如，建立人脸检测系统，发布用户的个人资料照片是对肖像权的侵犯。由于域间隙的存在，用不相关的数据集作为替代数据集，结果并不令人满意因此，本文研究了一种训练定制网络12517其中既不需要注释也不需要输入图像。在无数据训练领域，只有少数研究已经进行，其中大部分工作在网络压缩[21，19]。例如，DAFL [3]应用修改的GAN来生成输入图像和相应的注释。然而，这些方法确实适用于MNIST [17]和CIFAR- 10 [15]等简单数据集，但适用于更复杂的数据集，任务更困难。在本文中，我们提出了一个新的无数据的知识融合框架来训练目标网络，这是由图中的双GAN实现的。1.一、首先，我们训练了一个生成器来融合来自预先培训的教师的知识。其次，生成器通过生成的样本将学习到的知识传递给双生成器（目标网络）。最后，从双生成器中提取最终的目标网络。为此，我们提出了一种可行的无数据的知识融合框架。因此，我们的贡献是一种有效的方法来训练一个名为TargetNet的学生模型，没有人类注释，甚至没有任何真实的输入数据，它融合了来自从事不同任务的教师的知识。该过程是首先将合并的知识收集到GAN中，然后将其传递到TargetNet。所构造的GAN被设计成由多个唯一组组成的双结构，中间特征的生成提高了可靠性。2. 相关工作在本节中，我们简要回顾了多标签学习的最新方法，基于知识的方法和几种无数据方法。多任务学习。多任务学习（MTL）已经在许多领域得到了广泛的研究，包括计算机视觉[8，1]，自然语言处理[4]和机器学习[6]。学习[26]。MTL的主要难点是如何在正则化框架下很好地描述任务之间的层次关系和有效地学习模型参数。一个可靠的方法是使用树结构。例如，Zhang etal.[10]提出了一种概率树稀疏模型，该模型利用树结构来获得稀疏解。最近，提出了ML森林[32]来学习分层多标签分类器树的集合，以揭示内在的标签依赖性。另一种流行的方法是将MTL与CNN融合，以学习共享的特征和特定于任务的模型。例如，Zhang et al.[42]提出了一种用于联合人脸检测，姿态估计和地标定位的深度CNN。Misra et al.[20]提出了一个MTL的十字绣[40]一个任务约束的深度网络被开发用于具有作为副任务的面部属性分类的Zhao等人[43]提出了一种多任务学习系统，用于联合训练图像字幕任务和其他两个相关的辅助任务，这有助于增强图像字幕模型中的CNN编码器和RNN考虑到大量可能的标签集，大多数多任务学习方法需要足够的标记训练样本。多标签协同训练[39]引入了一种半监督方法，该方法利用了关于成对标签共现的信息。为了降低注释成本，Durand et al.[5]建议用部分标签训练一个模型，该模型具有新的分类损失，该损失利用每个示例的已知标签的比例。以知识为基础的学习。在[13]中首次提出，知识蒸馏旨在通过从较大的教师模型或处理相同任务的一组教师学习来训练紧凑尺寸的学生模型，因此发现它在深度模型压缩中的重要应用[38]。最近，[7]的工作介绍了一种多教师和单一学生的知识集中方法。另一方面，[24]的工作通过从具有不同类的多个教师学习来训练学生分类器。为了在单个网络中处理多任务问题，[34]的工作提出了一种有效的方法来训练学生网络进行多个场景理解任务，这导致了比教师更好的性能。为了进一步研究，Ye et al.[36]应用两步过滤策略来自定义TargetNet上的任意任务集。无数据学习由于忽略整个数据集的严格前提，只有少数几种方法可以在没有原始训练数据集的情况下训练深度神经网络例如，Srinivas et al.[25]选择最小化logits的期望平方差，这使得可以避免使用任何训练数据进行模型压缩。此外，Lopes et al.[19]尝试基于在训练时收集的描述网络激活的Meta数据来重新生成批量数据，而不是依赖于原始数据集来指导优化。此外，对于无数据的需求，利用生成式模型被认为是一种更可行的方法。GAN [9]已经显示出与现有方法（诸如受限玻尔兹曼机[12]和深度玻尔兹曼机[23]）相比生成更好的高质量图像[28，14]的能力普通GAN模型[9]有两个重要组成部分，即：产生器和鉴别器。生成器的目标是从噪声向量生成照片级真实感的图像，而相应的图像处理器则试图区分真实图像和生成器生成的图像。DAFL [3]在师生学习方案中利用了GAN，将原教师网络作为训练样本，为轻量级学生生成训练样本。12518MMmM图2.融合教师知识，训练组栈式GAN。该图展示了用两个教师作为对应的多组堆栈鉴别器来训练三组GAN的情况。3. 问题定义在这项工作中，我们的目标是探索一种更有效的方法来训练学生网络（TargetNet），没有任何注释，甚至没有任何训练输入图像，只利用从预先训练的教师合并的知识TargetNet旨在处理多个任务，特别是，我们专注于多标签分类问题，倾向于学习一个定制的多分支网络，可以识别从不同教师中选择的所有标签。符号。我们用 C 表示自定义范畴的个数， Ycst={y1，y2，.，y C}{0，1}C通过构建双层结构的群栈式GAN实现了教师的知识融合。使用所提出的无数据框架获得行为良好的TargetNet的过程包含三个步骤。在第一步中，我们以对抗的方式用知识融合来训练生成器G，其中原始数据集中相同分布的图像可以是manu-制造的。在第二步中，以分块方式用G生成的样本训练对偶生成器T以产生多个预测标签。这种包含两个子生成器的双重架构可以表示为：作为标签向量。我们在这里解决的问题是训练TargetNetT，它可以同时处理自定义标签集Ycst上的多个任务。TargetNet数据库-G（z）：z→IT（I）：I→Ycst，（一）匹配来自M个预先训练的教师的知识，其表示为A={A1，A2，.，AM}。对于每个教师m，T m-标签分类任务Y m={y1，y2，.，y Tm}是预先学习的。然后，定制的标签设置在教师网络中的Tar getNet和TShose都在控制中-其中，我提供图像，z是随机噪声，Ycst是预测的标签。最后，在第三步中，在训练整个双GAN之后，我们将双生成器修改为TargetNet，用于分类定制的标签集Ycst。这样一来应变：Ycst应变Mm=1 Ym，这表明，要么完全具体的GAN被嵌入到知识库中，信息化训练，使训练不受约束或者分类标签的子集是用于使设置自定义任务。数据具体来说，我们使用Fb将特征图表示为4.1. 融合GAN第m个预先培训的教师的第b个块，它们是知识的融合，为学生4. 该方法在本节中，我们将详细介绍用于训练目标网络的无数据框架为了在避免使用真实数据的同时学习定制的TargetNet，我们首先选择将来自多个教师的知识合并到一个额外的容器（GAN）中。让我们从任意香草GAN开始。GAN的原始公式是一个gen-gun之间的minimax博弈教师网络（组堆栈鉴别器）组栈生成器12519zganganganganM1 2Merator，G（z）：z→I和a erator，D（x）：I→[0，1]，目标函数可以定义为：D的原始输出为O（F_gan）={y1，y2，.，y C}，预测标签为t i：.LGAN=ExEp数据（I）[1ogD（I）]（二）ti=1yi≥1、（6）+Ez<$p（z）[log（1 −D（G（z）））]。由于缺乏真实数据，传统的Eq.二、再说了，为了阿马尔-0伊伊其中，1≤i≤C，并且将i设置为0。5在实验中因此，单热损失函数可以定义为：gamate多个知识流到生成器中，已经进行了如下修改。组栈GAN。第一个修改是组-我哦=1（yi，ti），（7）C我堆栈架构。在本文中，该发生器被设计为不仅生成适合TargetNet训练的图像因此，我们将B设置为生成器的总组数，它与教师和学生网络的块数相同。这样，发电机其中，k是每个标签的分类的交叉熵损失并且Loh强制所生成的样本的输出接近独热向量。此外，输出需要是稀疏的，因为现实世界中的图像不能用密集的标签来标记，这些标签因此，我们提出一个可以表示为B组{G1，G2，...，G B}，从这两个图像，我甘和随之而来的激活，额外离散损失函数Ldis：ΣFjz：从随机噪声合成1Ldis=−C|、（8）|,(8)我1gan杰甘=G1（z）=G j（F j−1）1< j ≤ B，（3）也称为L1范数损失函数。最后，结合所有损失，可以获得最终目标当j=B时，第B组G B的输出是F B，其也被认为是最终生成的图像Igan。由于生成器是在组堆栈架构，由几个组组成的对称的堆栈对于每个群Gj，对应的判别器是Dj，群对抗对表示为[{G1 ，D1}，{G2 ，D2}，.，{GB，DB}]。这样一来，SAT-可以通过以下方式获得对Gj的Lgan=Loh+αLa+βLie+γLdis（9）其中α、β和γ是用于平衡不同损失项的超参数。La和Lie分别是激活损失函数和信息熵损失函数。这些损失由[3]提出，并将在补充资料中详细介绍。多个目标在本文中，TargetNet被定制为执行多标签分类学习，Gj=argminEzpGJz（z）[log（1-Dj（Gj（Fj-1）]，（4）多位教师。因此，生成器应该生成包含多个目标的样本，这些目标是从多个目标中学习的。其中1≤j≤B，Dj∈ B是最优j-群判别子. 回想一下，我们以正常的对抗方式进行辩论在实际上是不可能的。因此，我们将其转移到设计一个合理的损失函数来计算三位老师。因此，对于第j个群生成器Gj，我们构造了多个群堆叠鉴别器{Dj，Dj，...，D j}在音乐会上与教师专门在不同的任务集，由方程。五、为了将多元知识融合到通用系统中，通过{Dj}M，教师级过滤被应用于生成的样本和真实的样本。因此，我们取jm m=1现成的教师网络A构成每个Dj：操并且该过滤被执行为：jFj，m=fj（ Fj），（10）Dj← [{AB−j+i}。（五）gan姆甘FF12520ganM甘姆i=1其中滤波函数fj是通过一个简单的学习来实现的-able模块由一个全局池化层和两个在针对组对{Gj，Dj}的训练期间，仅完全连接的层。Fj，m 是过滤后生成的Gj是优化的，其中固定的candidj，其输出是用于分类多个标签。在文献[3]的基础上，我们利用几个损失来约束输出来激发真实数据接近A B − j的输出特征分布的特征，也称为A m的第（B − j）个块。并且生成的Fj，m的有效性由D j证明，其输出为Om（F j）= D j（F j，m）。甘姆甘12521gan一gangangan杜阿勒ganganMuganFFMuganganganganuuu双ganuu双在B然后，对于生成的特征Fj，从Gj，我们col-1BO（I）从多个窗口中选择M 预测集Ammgan{O1（Fj）、O2（Fj），…，OM（F j[M）}，它们是：我想鉴别器真Ogan（Fj）=的m=1Om（Fj），（十一）房b1MBMO1（Fb）其被视为损失方程的新输入。9，则Lj是每个Gj的对抗损失。尽管1生成的要素应与提取的要素相似从真实的数据来看，它们也应该导致同样的预来自同一输入z的指令。因此，堆栈生成器{G1，G2，，GB}可以通过最终损失联合优化TbB假uO2（Fb）假L接头= LB1+ B−1B−1（Ogan（Fj），Ogan（Igan）），教师级筛选器任务级筛选器假j=1（十二）图3.双GAN的第b个块的对抗模式对生成的要素执行两级过滤，其中，对抗性损失Lgan仅从最后一个计算组{GB，DB}。最终损失的其余部分是交叉熵损失，它限制了从G1到GB−1生成的中间特征，使其做出与第b组的双发电机Tb.BM被当作Igan，它抵消了对抗性损失{L1、...、LB−1}。数据在这个双部分GAN中。为了做到这一点，两级过滤通过最小化Ljoint，最优生成器G可以合成与真实图像具有相似激活的图像数据反馈给老师。方法应用于Fb。第一步是多目标需求的教师级过滤，将Fb转换为m个教师流Fb，m乘以Fb，m=fb（Fb），如u u m u4.2. 双发电机培训将多流知识融合到当量10个。第二个层次是任务级过滤在对应的最后几个完全连接的层之后，ingdiscSriminator，这是为约束组栈GAN，一组生成的训练样本，YcstMm=1 嗯。我们将生成的特征Fb馈送到得到了形式为R=b，m，并导出预测值。1gan2gan...，F B−1}{I gan包括两个gen-方程Om（Fb）.然后将任务级过滤gm应用于中间特征和RGB图像。然后，下一步是训练双生成器T。同时，我们构建每个Tb的群-π为：满足任务可定制的需求，并嵌入到第m个分支块式对抗损失：B[−bb，m双 =（gm（Om（Fb）），gm（Om（Igan），（14）Db，m←{Ab+i}，（13）其中gm用于选择所需的预测，双Mi=1约束中的自定义任务：是CSTSMm=1 g m（Ym）。其中训练对偶生成器T以合成D对偶不能与I gan区分的样本因此，用于从多个分支更新双生成器Tb的逐块损失可以表示为：Σ训练的G。受[36]工作的启发，我们使用分块训练策略来转移尽可能dual=λm·Lb，m，（15）M从发电机G进入双发电机T。也就是说，我们将双生成器划分为 B 个块为 {T1 ， T2 ， ... ， TB} ，并且在 Tb（1

下载后可阅读完整内容，剩余1页未读，立即下载