互补并行自蒸馏方法提升多标记图像分类算法性能的研究

82 浏览量更新于2024-02-04 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文基于互补并行自蒸馏的多标记图像分类算法重庆大学大数据与软件工程学院徐嘉智1，黄胜1，周峰涛1，皇甫璐文2，曾勇3，刘波412福勒商学院移动时代人类动力学中心，圣地亚哥州中国科学院自动化研究所，4JD.com{xujiazhi，huangsheng，zft} @ cqu.edu.cn，lhuangfu@sdsu.edu，dajun. ia.ac.cn，kfliubo@gmail.com摘要多标签图像分类（MLIC）方法通常利用标签相关性来实现良好的性能。然而，强调相关性（如同现）可能会忽略目标本身的区别性特征，导致模型过拟合，从而降低性能。在这项研究中，我们提出了一个通用的框架名为并行自蒸馏（PSD）的MLIC模型的提升。PSD将原始MLIC任务分解为几个更简单的MLIC子任务，通过两个子任务，评价互补的任务分解策略，命名为同现图划分（CGP）和Dis-occurrence图划分（DGP）。然后，用这些子任务并行训练较少类别的MLIC模型，以分别学习联合模式和类别特定的标签模式。最后，利用知识蒸馏来学习具有这些学习到的模式的完整类别的紧凑的全局ensem，用于调和标签相关性利用和模型过拟合。在MS-COCO和NUS-WIDE数据集上的大量结果表明，我们的框架可以很容易地插入到许多MLIC方法中，并提高了当前最先进方法的性能可解释视觉研究也进一步验证了我们的方法能够学习类别特定和共现特征。源代码发布于https://github.com/Robbie-Xu/CPSD。1介绍自然图像通常包含多个视觉对象，这些视觉对象可以通过一组图像标签来表征。多标签图像分类（MLIC）的任务是识别所有这些对象，这是高度相关的其他视觉任务，如目标检测，图像检索和语义分割。现有的MLIC研究工作大多集中在利用标签相关性，这使其区别于单标签图像分类问题。标签相关性利用策略，如成对和高阶标签相关性利用策略，通讯作者图1：类激活图（CAM）的类鼠标和卡车。两个目标标签均标记为红色。通过专门将鼠标和笔记本电脑类别放在一起来训练MLIC模型而过度强调相关性会导致模型过拟合，因为MLIC模型仅基于笔记本电脑的特征（例如左上角）来推断标签鼠标。相反，如果我们为这两个标签训练单独的模型，模型将捕获特定于类别的特征，例如，右上角。然而，当对象没有很好地暴露时，模型需要依赖于标签依赖知识来挖掘类别特定的特征。一起训练成功地在同时出现的汽车和船的帮助下识别标签卡车，例如，左下角。协调模型过拟合和标签相关性利用是相当具有挑战性的。BEL相关性已经被广泛研究。基于深度学习的方法，如RNN [Wanget al. ， 2016] 、图模型 [Chenet al. ，2019a;Chenet al. ，2019c;Nguyenetal. ，2021]和注意力机制[Gao和Zhou，2021]被广泛用于对图像标签相关性进行编码，从而产生良好的性能。虽然标签相关性对于MLIC问题是一个有用的特征，但由于模型过拟合，如图1所示，强调同现导致主要从同现对象推断目标相反，分解这种相关性导致学习目标本身的区分特征，这也可能由于缺乏上下文而在分类中失败。因此，除了捕获标签共现之外，我们提出的框架还包括由dis-occurrence表示的各个标签的区分特征。此外，由于其多类性质，MLIC任务的问题复杂度在预测空间方面随着类别数量的增加而呈指数增长，例如，预测结果有2个可能性，强调依赖关系分解依赖关系膝上型电脑鼠标鼠标卡车卡车船汽车船arXiv：2205.10986v1 [cs.CV] 2022年5月+v：mala2277获取更多论文··T{}联系我们···∈∈←·C{···}|C|的c-类MLIC问题。当图像类别数较高时，模型学习任务变得更具挑战性，并且更可能发生模型过拟合的问题。减少复杂性的一个突出的算法分支是将原始问题分解为一组二元问题，这些二元问题具有诸如one-vs-one和one-vs-all 的常见策略，或诸如 D-Bracker 的高级策略[Chenetal. ，2021]。在本文中，我们采用这种分而治之的思想，并提出了一个通用的MLIC框架，解决模型过拟合和标签依赖建模。我们首先将MLIC任务分解为几个更简单的子任务，每个子任务具有更少的对象类别。单个模型被并行训练在此之后，知识蒸馏，一种有效的方法来学习一个紧凑的模型与泛化能力的模型集成[Gouet al. ，2021]，以学习包含所有对象类别的全局模型。标签分解减少了每个子任务的复杂性，这有助于每个单独的模型学习更多的代表性特征。在模型提炼过程中，这些子模型充当教师，其logit输出被用作软目标以监督包含与这些教师具有相同架构的所有类别的模型的学习（即，自蒸馏）。这些软目标用作标签平滑正则化器[Yuanet al.2020年]，以获得更好的优化。我们的方法的贡献总结如下：提出了一种通用的MLIC结构，称为并行自蒸馏（PSD）.通过适当的任务分解策略，将MLIC模型训练任务分解为多个子模型训练任务，再将这些子模型分解为一个全局模型，从而可以灵活地应用于已有的MLIC模型，提高其性能.提出了共现图划分（CGP）和分离图划分（DGP）两种MLIC任务分解策略。他们通过两个互补图来模拟标签相关性。共现图对标签聚类进行建模，基于此，谱聚类结果倾向于将共现标签分配到同一聚类中。这导致单独训练的子模型学习这些共现类的联合模式而不出现图将不同现的标签分配到一个任务中，用于学习特定于类别的模式。这两种互补的策略同时利用PSD来协调模型过拟合和标签相关性利用。我们在两个广泛使用的 MLIC 数据集MS-COCO 和NUS-WIDE上进行了广泛的实验。实验结果表明，我们的框架可以插入到不同的方法，以提高性能，而不增加复杂性。我们还可视化了我们的框架的内隐注意，以暴露同现的过拟合，并证明我们的方法的有效性。2相关作品多标签图像分类（MLIC）与单标签图像分类的不同之处在于它依赖于标记相关性。许多MLIC方法已经致力于利用这一属性。例如，在[Chenet al. ，2019a;Chenet al. ，2019 c]构建标签相关图并采用GNN进行标签特征学习。样本不平衡是MLIC的另一个问题。在[Wuet al. ，2020]，提出了一种分布均衡的损失。该算法通过重新平衡训练样本的权重，设计了一种负容忍的正则化方法，避免了负类占优势而导致的过度抑制在[Ridniket al. ，2021]，其中保持了阳性样本的贡献。Vision Transformer [Dosovitskiyetal. ，2020]最近被引入MLIC，不仅因为其强大的特征提取能力，而且因为自注意机制可以捕获视觉特征和类别标签标记之间的丰富模式[Lanchantinet al. ，2021;Liuetal. ，2021]。在这项工作中，我们测试了我们提出的框架内的Transformer与天真的Transformer编码器的性能知识蒸馏最初被提出来将知识从大型复杂网络转移到较细的网络，以便以较少的计算和模型大小保留大型网络的性能[Hintonet al. ，2015]。[Zhanget al. ，2019年]发现，提取具有相同架构的预训练模型可以提高模型性能。这种技术被称为自蒸馏。Zhou等人研究了蒸馏带来的偏差-方差权衡，并提出使用加权软标签，实现样本偏差-方差权衡[Zhou等人，，2021c]。在[Xianget al. ，2020]，提出了一种多专家蒸馏方法来处理图像分类任务中的长尾分布。KD在MLIC中的应用可以在[Songetal. ，2021]。在这项工作中，采用模型蒸馏，以减轻模型偏向困难的类别。3方法3.1初步和概述给定MLIC任务：=（X，Y）其中，X是m-年龄集，Y是其对应的标签集，目标是建立一个视觉学习模型F（），该模型能够预测给定图像x的标签X为ohF（x）。y=[y（1），y（2），y（m）]Y是m维二进制标签向量，m是类别数. 二进制元素y（j）0，1表示图像中存在相应的类别。例如，如果yi（j）=1，则样本x i包含第j个类别，否则不包含。让=c1，c2，，cm是类别集，=m。关于多类分类问题，较大的m意味着高维标签空间，因此意味着更困难的MLIC任务。MLIC通常会遇到更复杂的问题，与普通的单标签多类别图像分类相比，即使在相同的标签空间中，由于标签相关性。分而治之的策略是处理此类复杂任务的直观和常见的方法该策略的基本思想是将复杂任务分解为一组较简单的子任务，然后将子任务的解进行组装，以产生原始任务的最终解。在本文中，我们遵循这样的策略，并提出了一个并行自蒸馏（PSD）的框架来解决MLIC+v：mala2277获取更多论文−不t=1C·{|∈C}··C∈×私营部门司（CPSD）。值得注意的是，这种拟议的方法可以灵活地插入任何基于深度学习的P=S ）图2：私营部门司框架概览。蓝色、绿色和红色方框分别表示输入、任务分解和PSD主流程。上标+和分别表示同现分支和异现分支。异现分支中省略的操作与同现分支中省略的操作相同。它们唯一的区别是它们的应用子任务。问题. PSD的架构如图2所示。在PSD中，第一步是将原始MLIC任务分解为几个简单的MLIC子任务，通过分解将类别集划分为几个较小的子集，标签分区（或类别聚类）问题。在MLIC任务合成策略的设计中，需要注意两个重要一是任务复杂性的简化。另一种是标签相关性利用-策略{Tt}k=k（T，C）其中k是子第在模型优化中，这两个方面有些tasks，而tasks（，）是一个任务分解策略。Tt：=（XCt，YCt）Ct是第t个子任务，其中Ct是的子集，并且是Tt的标签空间。XCt是图像，其包含Ct中的类别，并且YCt是这些对应图像的标签集第二步是为每个子任务单独训练MLIC模型FCt（）最后，将这些训练好的MLIC模型组合起来，得到一个最终的MLIC模型，该模型将它们视为知识蒸馏的教师。此外，我们还详细阐述了两个任务的定义-提出了一种基于共现图划分（CGP）和离散图划分（DGP）的PSD合成策略分解问题被视为一个谱聚类问题。在CGP中，通过构造标签同现图并进行聚类，将包含同现标签的训练样本分配到同一个子任务中，引导模型学习联合模式。相反，DGP构造了一个用于谱聚类的标签分离图，并倾向于将不同现的标签分配到同一个子任务中，以更好地学习特定类别的模式。这两种战略在本质上是互补的很矛盾标签相关性使MLIC任务复杂化，并且容易触发模型过拟合，从而误导特征学习来学习同现对象的特征，而不是原始对象的特征。为了避免这一问题，本文设计了两种基于谱聚类的任务分解策略：共现图划分（CGP）和离现图划分（DGP）。最后，这两方面的知识将被提炼成一个统一的MLIC模型。CGP和DGP将任务分解问题转化为无监督的类别图划分问题进行求解。我们构造了一个共现图G+和一个异现图G-，分别对类别间的联合模式和特定模式进行编码。通过把类别看作顶点，度量类别的共现概率作为它们的相似度，我们可以定义一个m m维的相似度矩阵S。它的第ij个元素是S ij=e ij/n i[0，1]其中，eij是包含ci和cj 的图像。ni是包含c的图像i.从数学上讲，设P是范畴图G的亲和矩阵。G+和G−的亲和矩阵可以表示如下：，并将与其他人一起使用，公司简介（τS+τST）+√τ不（一）√τ这两个方面的信息，即补充，中国共产党为，G=G2MLIC模型进一步改进。P−=I−、G= G−23.2互补任务分解任务分解是PSD框架的关键我们联^ C+1个平行自蒸馏^联系C1······^ C+K图像C+阿卡德K图像预测模型+ℒ��CLS模型预测联系···n+ k1tt=联系C1联系1联系K-···联系Ck图像--–并行训练+相似性矩阵互补任务分解1K阿勒特t=1培训课程······（S++v：mala2277获取更多论文旨在减少标签空间的维度，以简化MLIC任务，将任务分解问题考虑为其中τ是用于平滑协方差的正超参数，遵循长尾分布第较高的τ值能够减轻更多的抑制从头部到尾部因为G+和G−是无向的图，我们也对称化的亲和矩阵。亲-+v：mala2277获取更多论文·Σ−t=1t=1我我我≥≥−-≥不不t=1KD2我我 2我我 2t=1C t= 100 那么这个任务就可以t=1Ct=C和FCLS不 t=1t=1不 t=1我我y<$Ct（j）γ−log（1−y<$Ct（j）），y（j）=0从ResNet101中提取的视觉标记在ResNet 101中-度矩阵P+和P-分别编码类别之间的共现和不共现的程度。在那里-根据类别顺序，y∈i=ρ（{F∈C（xi）|xi∈XC}k），（5）进行谱聚类将标签空间划分为归一化图割问题，其中ρ（）是标签合并和重排操作。在这里，设y+和y−为教师给出的logit预测我我F←argminTrace（F TD−1LD−1F），s.t.F TF=I，（2）模型分别基于CGP和DGP。我们建立了一个2 2F学生模型F（·）具有与教师相同的架构，其中L=DP是拉普拉斯矩阵，D是G的度矩阵。D是对角矩阵，其第ii个元素D ii=jP ij。F是顶点（类别）的学习图嵌入，其编码同现生成样本的logit预测，y=is=F（xi）。采用均方误差（MSE）来衡量学生模型和教师模型的logit预测之间的或每个类别的不出现信息。中的每它的列编码由下式表示的图切割操作一个载体上述优化问题可以是L=1{||ys−y+||2个以上||ys−y−||2}，（6）通过特征值分解有效地求解。最优F是对应于前k个最小特征值的特征向量. 我说的“雇佣”是指去死猫-可以将egory聚类为k个类别子集{C}k作为指导学生模型训练最后，通过对下面的优化问题进行处理，可以得到最优的学生模型，SkTktt=1F←argminLC+L、（七）通过数据采样分解为k个子任务，其中LCcls是原始任务T的ASL损失。LCclscan聚类类别子集，{Tt}k。由CGP{T+}k生成的子任务用于诱导模型学习基于全部数据X用等式4构造。通过上述方式，学习到的最优MLIC模型F将共现物的特征。生成的子任务最后结合CGP获得的知识，通过DGP{Tt−}k表现出较低的复杂性，因为基于DGP的教师模型，然后我们可以用它来推断忽略标签相关性，并鼓励模型专注于提取类别特定的特征。所有由这些子任务训练的教师模型最终都将被使用在测试阶段，多标签图像的标签，y=σ（F（x））。4实验在伪自扩散方程（PSD）中，y（x，y←）∈T其中σ表示sigmoid激活，Tt∈ {Tt−}kσ（FCt（x））{T+}k4.1实验装置数据集。两个广泛使用的MLIC数据集，名为MS-因为我们希望调和知识的两个方面，并利用它们的互补性，以便更好地监督学生模型的训练此外，由这些子任务训练的教师模型和从两种策略生成的教师模型是高度不同的，这可以从集成学习的角度进一步受益于PSD3.3平行自蒸馏对于每个子任务Tt，我们训练一个教师模型，法MS-COCO包含122，218幅自然场景中80类对象的图像，其中包括82，081幅用于训练的图像和40，137幅用于验证的图像。在NUS-WIDE数据集的官方分区中，它包含来自Flickr的125，449张带标签的训练图片和83，898张带标签的测试图片，共共享81个标签。按照惯例，mAP（平均精度）被视为主要的评价指标。我们还报告了总体精确度（ OP ），召回率（OR），F1测量（OF 1）和每-FCarg minLFCtCLS（三）类别精确度（CP）、召回率（CR）、F1测度（CF1）。执行续费我们进行实验不对称损失（ASL）[Ridniket al. ，2021]作为抑制来自超丰富负样本的负效应的分类损失，三种流行的主链，即 ResNet101 [Heet al. ， 2016] ，TResNetL1 [Ridniket al. ， 2021] 和 ResNeXt50- SWSL[Yalnizet al. ，2019年]，这些都是预先训练的好吧（1−y<$Ct（j））γ+log（y<$Ct（j）），yi（j）=1xi∈XCtcj∈Ct我我我ImageNet-1K。一个天真的视觉Transformer编码器[Doso-其中yi是xi的真实值标签，y<$Ct=σ（FC（xi））从GloVe中提取TF，m类令牌[Penningtonet我等， 2014]对于类预测，其中深度，是它对类别子集Ct的预测。它的第j个元素y<$Ct（j）∈[0，1]是样本xi相对于猫样本cj 的预测标签（概率），并且y<$Ct（j）=max（y）Ct（j）µ，0）。µ0是用于过滤掉具有低预测的负样本的阈值。γ+0和γ0分别是ASL中定义的正聚焦超参数和负聚焦超参数。一旦获得了所有的教师模型，我们就可以合并它们的预测结果，以产生完整的logit预测多头注意力和隐藏维度分别设置为3、4和1024。Q2L[Liuet al. ，2021]也被用来验证我们的方法对设计良好的方法的效果。所有实验都遵循训练管道，其中使用Adam优化器，在批量大小为32的情况下，权重衰减为10−4ASL被应用为默认分类损失函数，并且ASL的超参数简单地保留为它们的默认设置。等式1中的τ被设置为3。我们将子模型的训练时期设置为20和80，Ct因此，我们可以用它们来产生图拉普拉斯算子，然后我哪里KDCOCO和NUS-WIDE用于评估我们的LCt=（四）维茨基等人，2020年]实施了名为ResNet 101-TF的CLS不不←+v：mala2277获取更多论文××××448×448448×448448×448448×448448×448448×448448×448C-Trans [Lanchantin等人，，2021]ResNet101576×57685.186.374.379.987.776.581.7ADD-GCN [Yeet al. ，2020]ResNet101576×57685.284.775.980.184.979.482.0Q2L-R101 [Liu et al. ，2021]ResNet101576×57686.585.886.781.087.078.982.8ResNet101 + TF转换器ResNet101 576 576 85.9 88.6 73.4 80.3 88.8 76.8 82.4我们的+ResNet101 + TFResNet101 576×57686.783.579.0 81.2 84.581.4 82.9TResL [Ridniket al. ，2021]TResNetL448×44886.687.276.481.488.279.281.8Q2L-TResL [Liuet al. ，2021]TResNetL448×44887.387.676.581.688.479.281.8TResL（基线）TResNetL 448 448 86.2 85.0 77.5 81.1 85.6 80.4 82.9我们的+TResLTResNetL 448×44887.385.578.9 82.1 85.781.5 83.7ML-GCN [Nguyenet al. ，2021]ResNeXt50-SWSL448×44886.285.877.381.386.279.782.8MGTN [Nguyenet al. ，2021]ResNeXt50-SWSL448×44887.086.177.981.887.779.483.4ResNeXt50-SWSL 448 448 86.7 85.8 77.8 81.6 86.9 80.3 83.5我们的+ResNeXt 50 ResNeXt50-SWSL 448×44887.7 86.9 78.6 82.5 87.6 80.9 84.1表1：不同方法在MS-COCO数据集上的MLIC性能，这些数据集具有ImageNet-1 k上的预训练骨干。*表示由相应发布代码或其修改版本复制的结果。每个主干的最佳结果以粗体显示。单独的紧凑全局模型聚类数k将在我们的消融研究中讨论。4.2与最先进方法的比较表1和表2报告了在MS-COCO上评估的几种方法的多标签图像分类性能，NUS-WIDE数据集。我们使用ResNet101作为主要基线，同时将我们提出的框架应用于最近的基准来评估有效性。观察结果表明，我们的方法通常会提高所有基线，并且在不同的骨干和图像分辨率下对两个数据集的表现最好。例如，ResNet 101、ResNet 101-TF、Q2 L-R101、TResL和ResNeXt 50的增强版本分别获得1.5%、0.9%、0.9%、1.1%在MS-COCO数据集上，mAP和1.0%的增益。ResNet101 +TF和TResL在NUS-WIDE上的增益分别为1.7%和1.8%，NUS-WIDE是一个更大规模的数据集。这些实验结果也意味着我们的方法在更大规模的数据集上表现得更好。此外，观察结果还表明，基于我们的框架，朴素模型能够实现最先进的性能，而不涉及参数规模或更复杂架构的额外成本。例如，我们的方法在MGTN上仅使用其在MS-COCO数据集上的主干，mAP获得了0.7%的增益。另一个有趣的现象是，我们在更高级的模型上实现了较小的性能增益例如，与ResNet 101-TF和Q2 L-R101相比，CPSD在ResNet 101上的改进更多。我们认为这是因为更强大的AP-方法mAPCF 1 OF1MS-CMA [You et al. ，2020年]61.460.573.8SRN [Zhu et al. ，2017年]62.058.573.4CPCL [Zhouet al. ，2021年a]CADM [Chenet al. ，2019年b]62.860.774.1Q2L-R101 [Liuet al. ，2021年]65.063.175.0ResNet101+TF-10064.1 62.8 74.9Ours+ResNet101+TF 65.8 64.0 75.3TResL [Ridniket al. ，2021年]65.263.675.0Q2L-TResL [Liuet al. ，2021年] 66.364.075.0TResL（基线）我们的+TResL 66.5 64.6 75.5表二：不同方法在NUS-WIDE数据集上的MLIC性能，该数据集具有ImageNet-1 k上的预训练骨干，其中图像分辨率为448448。*表示由相应发布代码或其修改版本复制的结果。最佳结果以粗体显示。在模型过拟合中更难捕获方法。即便如此，我们的方法仍然引入了相当大的改进。4.3消融研究任务分解策略探讨。我们在图3中绘制了在MS-COCO和NUS-WIDE上具有不同任务分解策略的不同k下PSD的性能。结果表明，在两种数据集上，所有策略的PSD性能都随着k的增加而增加。此外，我们提出的战略包括：simulator的性能要比随机的好得多，方法骨干决议地图CPCRCF1OP或OF1ResNet-101 [Heet al. ，2016]DSDL [Zhouet al. ，2021b]CPCL [Zhouet al. ，2021a]ML-GCN [Chenet al. ，2019c] KSSNet [Liuet al. ，2018年]MS-CMA[Youet al. ，2020年]MCAR [Gao and Zhou，2020] Q2L-R101 [Liuetal. ，2021年]ResNet101ResNet101ResNet101ResNet101ResNet101224×224448×448448×448448×44878.381.782.883.083.783.883.884.980.284.185.685.184.682.985.084.866.770.471.172.073.274.472.174.572.876.777.678.077.278.478.079.383.985.186.185.887.884.488.086.670.873.974.675.476.277.973.976.976.879.179.980.381.581.080.381.5ResNet101测试（基线）我们的+ResNet101ResNet101ResNet101448×44881.683.180.683.572.773.676.478.283.784.876.777.380.080.9ResNet101 + TF系列我们的+ResNet101 + TFResNet101ResNet101448×44884.385.287.484.971.675.578.779.987.985.675.278.581.081.9Q2 L-R101铝合金我们的+Q2 L-R101ResNet101ResNet101448×44884.084.982.088.475.871.778.879.283.389.378.874.881.081.4+v：mala2277获取更多论文MS-CocoCGPDGP随机≥≥83.063.7原始图像CGP DGPCPSD82.5 63.282.0 62.781.50123 58集群数量k62.20123 5 8集群数量k图3：在MS-COCO和NUS-WIDE上，PSD增强的ResNet 101在不同k下具有不同策略的性能。CGPD、DGPD是指共/离-出现图分离蒸馏，表示仅使用CGP或DGP分解策略的学生模型。0和1分别代表基线和自蒸馏基线。为了消除随机性的影响，我们对随机策略进行了3次独立实验，并报告了实验结果的平均值。图4：不同分解策略下图像的激活图可视化。CGP、DGP列是活动的-对应的子模型F+和F-的作用图可视化。R101 TResL ResX50 Q2L-R101R101+TFCPSDCt基线81.6 86.2 86.7 84.0 84.3+ SD 81.9 86.5 86.9 84.2 84.4+ CGPD+ DGPD 82.7 86.8 87.4 84.3 84.5+ CPSD表3：CPSD的组件消融研究。SD、CGPD、DGPD、CPSD分别表示自蒸馏、共/不共现图分割蒸馏和互补并行自蒸馏。这里，k=5。k2。当k较小时，DGPD的性能优于CGPD，而两种策略的最佳性能高度相似。我们将此归因于过分强调当标签空间为高维空间时，标签相关性更容易导致模型过拟合，而当类别特定特征被很好地学习时，标签相关性仍然能够有益于MLIC实际上，减少集群的大小（增加k）也可以被认为是分解标签相关性的自然方法。我们还注意到，当k五、较大的k这意味着需要培养更多的教师模型，导致更高的时间成本。为了实现性能和模型训练时间之间的权衡，我们设置k=5。组件消融研究。表3显示了我们的方法在MS-COCO上使用不同基线的消融研究结果。结果表明，我们的PSD框架提高了所有的基线，并优于常见的自蒸馏（SD），具有相当大的优势，使用CGP，DGP或其组合。例如，CPSD在ResNet 101、TrestL、ResNeXt 50、Q2 L-R101和ResNext 101-TF上分别进一步提高了1.4%、0.8%、0.8%、0.7%和0.8%的SD。此外，CPSD表现得比仅使用一种分解策略（即CGPD和DGPD）的模型好在不同基线下的改进约为0.5%。这些观察结果证实了我们方法的有效性。4.4可解释的可视化研究我们将类激活图（CAM）应用于MS-COCO的验证集，以使用不同的任务分解策略来可视化不同图像相对于特定类别的隐式注意力，如图4所示。在该图中，列是我们最终模型的可视化。红色的标签表示我们要激活的目标类，而其他的则表示共同出现的类。从左到右的列分别示出原始图像和由在CGP、DGP及其组合（CPSD）下用PSD增强的基线ResNet 101模型的激活图突出显示的图像。前两种情况（最上面的两行）表明，由于标签相关性的过度拟合导致的模型过拟合，基于CGP的模型忽略了类别特定的特征，而我们的DGP模型很好地学习了最后两个例子表明，由于遮挡的存在，基于DGP的模型没有充分利用标签共现信息，但是共现类别能够在标签相关信息的帮助下帮助模型发现这些特征可视化结果表明，我们提出的方法可以在这些情况下表现良好，也反映了我们的方法可以更好地利用和协调特定于类别的知识和标签相关性知识。五、结论本文提出了一种简单有效的并行自蒸馏（PSD）多标签图像分类（MLIC）框架。在该框架中，原始复杂的MLIC任务被分解成一组简单的子任务通过标签划分。然后并行训练多个教师模型，以单独解决这些子任务。通过对这些教师模型进行集成和知识提炼，得到最终的教师模型.为了更好地提高PSD，我们引入了两种任务分解策略，通过进行两个互补的同现图划分来解决任务分解问题。这两种策略分别诱导模型学习类别特定知识和类别相关知识，并应用于PSD中，以建立子任务，协调两类知识。在MS-COCO和NUS-WIDE上的大量实验结果表明，我们的框架可以插入到不同的方法中，以提高性能。可解释的可视化研究也证实了我们的方法在特征学习中的有效性。NUS-wideCGPDGP随机板凳人人手袋沙发远程笔记本鼠标mAP评分[%]+v：mala2277获取更多论文确认本研究得到了国家自然科学基金项目 62176030 和71621002 、重庆市自然科学基金项目 cstc 2021 jcyj-msxmX 0568和中国科学院战略重点研究计划项目XDA27030100的资助。引用[Chen et al. 陈天水，徐慕欣，惠晓璐，吴贺峰，林良。学习多标签图像识别的语义特定图在ICCV，第522-531页，2019年。[Chen et al. ， 2019 b] Zhao-Min Chen ， Xiu-Shen Wei ， XinJin，and Yanwen Guo.结合类别感知地图解缠和标签相关嵌入的多标签图像识别。在IEEE ICME中，第622-627页。IEEE，2019年。[Chen et al. ，2019 c] Zhao-Min Chen，Xiu-Shen Wei，PengWang，and Yanwen Guo.用图卷积网络进行多标记图像识别在CVPR中，第5177-5186页[Chen et al. Yawen Chen，Zeyi Wen，Bingsheng He，and JianChen.多类分类的有效分解选择IEEE TKDE，2021年。[Dosovitskiy et al. Alexey Dosovitskiy，Lucas Beyer，AlexanderKolesnikov ， Dirk Weissenborn ， Xiaohua Zhai ， ThomasUnterthiner ， et al. An image is worth 16x16 words ：Transformers for image recognition at scale. arXiv 预印本arXiv：2010.11929，2020。[Gao and Zhou，2020] Bin-Bin Gao and Hong-Yu Zhou.具有多类别注意区域的多标记图像识别。arXiv电子印刷品，第arXiv-2007页[Gao and Zhou，2021] Bin-Bin Gao and Hong-Yu Zhou.学习发现多类别注意区域以进行多标签图像识别。IEEE TIP，30：5920[Gou et al. ，2021]郭建平，余宝生，斯蒂芬J梅-班克和陶大成。知识蒸馏：一项调查。IJCV，129（6）：1789[He et al. 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习在CVPR中，第770-778页[Hinton et al. 2015年]杰弗里·辛顿，Oriol Vinyals和杰夫·迪恩。在神经网络中提取知识。 arXiv 预印本 arXiv ：1503.02531，2015年。[Lanchantin et al. Jack Lanchantin ， Tianlu Wang ， VicenteOrdonez，and Yanjun Qi.使用transformers的通用多标签图像分类。在CVPR中，第16478-16488页[Liu et al. Yongcheng Liu，Lu Sheng，Jing Shao，Junjie Yan，Shiming Xiang，and Chunhong Pan.多标签图像分类通过知识蒸馏从弱监督检测。在ACM MM中，第700-708页[Liu et al. Shilong Liu，Lei Zhang，Xiao Yang，Hang Su和JunZhu.Query2label ：一个简单的Transformer 多标签分类方法。arXiv预印本arXiv：2107.10834，2021。[Nguyen et al. Hoang D Nguyen、Xuan-Son Vu和Duc- Trong Le.用于多标签图像分类的模块化图 Transformer 网络。在AAAI，第35卷，第9092-9100页，2021中。[Pennington et al. Jeffrey Pennington ， Richard Socher ， andChristopher D Manning. Glove：单词表示的全局向量。在2014年自然语言处理经验方法会议（EMNLP）的会议记录中，第1532[Ridnik et al. Tal Ridnik ， Emanuel Ben-Baruch ， Nadav Za-mir，Asaf Noy，Itamar Friedman，Matan Protter，and LihiZelnik-Manor.多标签分类的非对称损失。在ICCV，第82-91页[Song et al. 2021] Liangchen Song，Jialian Wu，Ming Yang，Qian Zhang，Yuan Li，and Junsong Yuan.通过不确定性蒸馏处理多标签图像分类中的困难标签在ACM MM中，第2410-2419页[Wang et al. Jiang Wang ， Yi Yang ， Junhua Mao ， ZhihengHuang，Chang Huang，and Wei Xu. Cnn-rnn：一个统一的多标签图像分类框架。在CVPR中，第2285[Wu et al. Tong Wu，Qingqiu Huang，Ziwei Liu，Yu Wang，and Dahua Lin.长尾数据集中多标签分类的分布平衡损失。见《欧洲法院判例汇编》，第162-178页。施普林格，2020年。[Xiang et al. ， 2020] Liuyu Xiang ， Guiguang Ding ， andJungong Han.从多个专家那里学习：用于长尾分类的自定进度的知识蒸馏。见ECCV，第247-263页。施普林格，2020年。[Yalnizetal. IZekiYalniz ， Herv e 'Je'gou ， KanChen ， ManoharPaluri，and Dhruv Mahajan.用于图像分类的十亿级半监督学习。arXiv预印本arXiv：1905.00546，2019。[Ye et al. Jin Ye，Junjun He，Xiaojiang Peng，Wenhao Wu，and Yu Qiao.用于多标签图像识别的注意力驱动动态图卷积见ECCV，第649- 665页。施普林格，2020年。[You et al. Renchun You，Zhiyao Guo，Lei Cui，Xiang Long，Y

下载后可阅读完整内容，剩余1页未读，立即下载