没有合适的资源?快使用搜索试试~ 我知道了~
4783多标签迭代学习在标签模糊图像分类中的应用SaiRajeswar1,2,3*,PauRodríguez1*,Soumy eSinghal2,3,Da vidVazquez1,Aar onCourville2,3,41ServiceNow Research,2蒙特利尔学习算法研究所,3蒙特利尔大学,4CIFAR研究员rajsai24@gmail.com,pau. servicenow.com摘要大规模预训练模型的迁移学习对于许多计算机视觉任务来说至关重要。最近的研究表明,像ImageNet这样的数据集是弱标记的,因为存在多个对象类的图像被分配了一个标签。这种模糊性使模型偏向于单一预测,这可能导致数据中倾向于共同出现的类被受语言涌 现 文 献 的 启 发 , 我 们 提 出 了 多 标 签 迭 代 学 习(MILE),以使用迭代学习的框架将多标签学习的归纳偏差从单个标签中MILE是一个简单而有效的过程,它通过连续几代具有学习瓶颈的教师和学生网络进行二进制预测来构建图像的多标签描述。实验表明,我们的方法在ImageNet准确性和ReaL F1得分上表现出系统性的优势,这表明MILE比标准训练过程更好地处理标签模糊性,即使在自监督权重的微调我们还表明,MILE可以有效降低标签噪声,在真实世界的大规模噪声数据(如WebVision)上实现最先进的此外,MILE在IIRC 等 类 增 量 设 置 中 提 高 了 性 能 代 码 :https://github.com/rajeswar18/MILe1. 介绍带有人工注释标签的大规模数据集一直是现代最先进的基于神经网络的人工感知系统的发展的核心[23,24,32]。ImageNet [17]上的性能改进导致了利用ImageNet预训练的任务和领域的显着进步[11,42,70]。然而,这些弱注释的数据集和模型倾向于将丰富的多标签现实投射到一个范式中,该范式设想每个图像只有一个标签这种简单化的形式往往会阻碍*同等贡献。图1. 多标签迭代学习(MILe)从单标签地面实况构建图像的多标签表示。在这个例子中,模型为下一代生成多标签二进制预测,为弱标记为House的图像获得Car和House。当在包含多个对象的真实世界图像上训练时,通过要求模型预测单个标签来提高。考虑到问题的重要性,人们越来越认识到单标签数据集是一种弱监督的形式,并且对评估这些单标签基准的限制越来越感兴趣。最近的一系列研究[8,54,56,59,65]强调了ImageNet中标签模糊的问题。 为了获得一个更好的估计模型的性能,拜尔等人。[8]Shankar et al.[54] 引入了多标签评估集。 他们认为softmax交叉熵训练是多标签性能低下的主要原因之一,因为它促进了标签的排他性。 他们还表明,用sigmoid激活替换softmax,并将输出转换为一组二进制分类器,可以更好地进行多标签验证。其他几项研究探索了通过改进收集标签的管道来克服现有验证程序中的缺点的方法[6,48,58]。为了从弱监督或半监督数据中获得更完整的图像描述,4784的方法利用噪声信号,如伪标签[65]或从网络上抓取的文本描述[47]。 在这项工作中,我们观察到,从噪声源中构建丰富的数据表示的过程与在认知科学文献中研究的语言出现过程具有某些特性。特别是,Kirby [29]提出结构化语言是从代际迭代学习过程中产生的[29,30,31]。根据该理论,当代理在存在学习瓶颈的情况下通过模仿前几代来学习时,就会出现组合语法。 这种瓶颈迫使嘈杂的语言片段在传递给新一代时被遗忘。相反,那些可以重用和组合以丰富语言的片段往往会传递给后代。我们表明,相同的过程可以应用于利用弱或有噪声的超声波信号(如[47,65])的设置,以在减少噪声的同时构建更丰富的图像描述。在 这 项 工 作 中 , 我 们 提 出 了 多 标 签 迭 代 学 习(MILe)来学习从弱监督(单标签)训练数据中预测丰富的多标签表示。我们通过引入两个不同的学习瓶颈来做到这一点首先,我们将标准卷积神经网络输出softmax替换为硬多标签二进制预测。其次,我们通过连续的模型代传输这些二进制预测,每代之间的训练迭代有限。在 我 们 的 实 验 中 , 我 们 证 明 了 MILE 通 过 提 高ImageNet ReaL [ 8 ]多标签验证集上监督和自监督模型的F1得分来缓解标签歧义问题。此外,WebVision [37]上的实验表明,迭代学习增加了对标签噪声和虚假相关性的鲁棒性。最后,我们证明了我们的方法可以帮助持续学习场景,例如IIRC [1],其中新引入的标签与已知标签共存。我们的贡献是:• 我们提出了MILE,一个多标签迭代学习算法的图像分类,建立了一个丰富的多标签表示的数据从弱单标签。• 我们发现,使用MILE训练的模型对噪声更具鲁棒性 , 并 且 在 ImageNet , ImageNet- ReaL ,WebVision和多种设置上表现更好,例如监督学习(第4.1节),自监督微调和半监督学习(第4.2节),持续学习(补充2)和域泛化(补充5)。• 我们提供了对使用迭代学习训练的模型所做预测的见解(第4.3节)。2. 相关工作众所周知,弱标记数据集(如ImageNet)包含标签模糊性[6,8,54,56,59,65],标签噪声[49,61]。标签歧义是指多个可能标签中只有一个被分配给图像的情况。 为了评估标签模糊性如何影响ImageNet分类器,Beyer et al.[8]提出了ReaL,这是ImageNet验证集的策划版本,每个图像有多个标签。 他们发现ImageNet分类器在ReaL上的表现往往更好,因为它包含更少的标签噪声,但他们没有解决训练过程中不准确的超级视觉问题,其中图像中存在不止一个正确的类。为了处理由于对象类的多样性和大多数聚合的单个标签之间的不匹配而导致的不利的训练动态,Yun等人。[65]提出重新标记ImageNet训练集。他们通过微调在大型外部数据集上预训练的大型模型的集合来获得像素级标签[57]。虽然有用,但对每个感兴趣的数据集进行这样的重新标记过程既费力又不现实。此外,目前还不清楚是否可以在更大,更嘈杂的数据库中使用相同的重新标记方法,例如WebVision [37],其中包含从互联网下载的240万张图像和由用于下载这些图像的查询组成的标签。 在这项工作中,我们研究了在弱单标签数据集上使用迭代学习作为重新标记的替代方法,以产生多标签输出空间。与现有方法不同,MILE既不使用外部数据,也不使用额外的重新标记程序。知识蒸馏知识蒸馏是模型压缩中常用的技术[5,9,27]。在普通的设置中,一个大型的深度神经网络被用作教师,从其日志中训练一个较小的学生网络除了模型压缩之外,还使用知识提取来提高学生网络的泛化能力,将提取的学生重新用作教师[ 18 ]或将集合提取为单个模型[2]。即使教师和学生模型是同一个网络,也可以观察到收益,这种情况通常被称为自蒸馏[2,46,67]。Mobahi等人[46]进一步表明,迭代自蒸馏引起了强烈的正则化效应,其效果与早期停止不同自蒸馏也被用来提高半监督模型的通用性和鲁棒性Xie等人[63]在半监督学习过程中引入了噪声学生标记未标记数据。虽然MILE也利用教师和学生网络,但它与知识蒸馏方法有根本知识蒸馏的目标是将教师网络的所有知识传输到学生网络。另一方面,MILE训练了一系列短暂的教师和学生世代,从而产生了迭代学习瓶颈[29],以从单个标签构建图像的新的多标签表示。这个目标也不同于噪声学生的目标4785100+1100+1|Y2Y2D {X Y}2 D训练三次直到收敛。迭代学习迭代学习假说最早由Kirby [29,30]提出,旨在解释人类通过文化传播的语言进化 语言需要具有表现力和可压缩性,以便有效地代代相传。 这种学习瓶颈有利于组合语言,因为它们可以被后代轻松快速地学习,并支持泛化。Kirby等人[31]进行了人体实验和数学建模,结果表明,非结构化语言的迭代传输会导致向组合语言的收敛。从那时起,它已经看到了许多成功的应用,特别是在新兴的通信文献[15,16,22,50]。在这种情况下,学习并且对它们进行训练仍然会导致单标签预测,因此我们提出了一种迭代学习过程来引导多标签伪地面实况。多标签迭代学习。我们的学习过程由两个阶段组成。在第一阶段,教师模型与单标签数据交互以改进其预测。相互作用被限制在几次迭代中,以防止二进制分类模型过度拟合到独热向量。在第二阶段,我们利用获得的知识来训练一个不同的模型,学生,关于老师的多标签预测当我们多次重复这种两阶段学习时,这会为进一步的迭代产生更好的模型初始化(参见Alg. 1)。具体来说,我们考虑两个参数模型,教师f(. ,学生f(?;GHMS)。产品参数瓶颈是由于数据或学习时间的限制而引起的使用学生参数初始化教师参数,这有助于它收敛到一个合成的矩阵更容易学习的语言[35]。该方法首先通过在训练集上进行少量更新来训练教师网络。然后训练学生网络,以基于从输入样本推断的伪多标签来模仿教师。然后,学生替换老师,并以由学习预算调制的频率重复循环 迭代学习除了由Lu等人提出外,还被用于语言结构的重构。[43,44]。此外,Vani et al.[62]成功地将其应用于VQA中的涌现系统性据我们所知,这是迭代学习框架在视觉领域的首次应用。3. 方法我们提出了MILE来解决单标签数据集中的标签歧义问题我们描述了我们的方法的细节,以执行多标签分类从弱单标记的地面真相。实施多标签预测。单标签数据集(如ImageNet)通常将其标签表示为独热向量(除一维外,所有维度均为零)。对这些独热向量的训练迫使模型预测单个类,即使存在其他类。迫使迭代次数首先,我们在来自数据集的标记图像上训练教师进行kt个学习步骤,获得f(. ;JET)。这构成了迭代的交互阶段我们然后进入模仿阶段,在那里我们训练学生拟合教师模型ks步,得到f(. ; )的情况。这是通过在教师对数据生成的伪标签上训练学生来完成的。最后,我们通过复制这个新学生的参数来实例化一个新老师,并将该过程进行到收敛。 除了在模仿阶段产生平滑的过渡之外,这个过程还确保每次迭代都比前一次迭代有所改进(除非它已经是最优的)。请注意,在监督学习机制中,我们不会对任何未标记的数据进行伪标记。节中4.2我们提供了额外的实验,表明MILE可以在半监督学习机制中利用未标记的数据。教师和学生都是在同一个数据集上训练的由输入-标签对, 的。我们训练老师最大化likp(y=yx,)=σ(f(x,)),其中y是模型预测的实验el,y是真实标签,σ是归一化函数比如乙状结肠。为了缓解标签模糊的问题,我们考虑ZC中的多标签二进制向量,其中C是类别的数量,并优化二进制交叉熵损失:预测单一类别的模型会使它们暴露于偏见B C在图像标记过程中,L=-1X1Xy·log(y))+(1-y)·10g(1-yg),居中的对象。此外,将模型约束为每个图像输出单个标签限制了感知的能力。公元前BCi=1j=1i、ji、ji、ji、j(一)模型来准确地捕捉图像的所有内容为了解决这个问题,我们建议将模型的输出预测从单标签softmax预测放宽到带有sigmoids的多标签二进制预测。因此,我们把单标签分类问题作为一组独立的二进制分类问题。由于地面实况标签仍然表示为独热向量,其中,B是使用时一个批次中的样本数批量随机梯度下降我们在我们的实验中表明,迭代学习与多标签对象一起为标签歧义的影响建模提供了强大的归纳偏差请注意,在独热标签上优化二进制交叉熵并不能解决标签歧义问题。因此,在每个周期中,我们训练4786不100+1✓⌧⌧⌧←rL←日本+1教师进行几次迭代,以防止它过度拟合一热地面真相。在学生培训期间,我们算法1MILE要求:初始化学生网络工作流,流=0。{P r epa r e对教师的输出S形激活进行阈值化,以获得多标签伪地面实况向量阈值为0。25除非另有说明。迭代学习1:重复2:公司简介⌧{初始化教师}日本+1Mile学习瓶颈。 强制模仿3:对于i=1到 k,t做4:采样一批(xi,yi)2D序列5:yi=fT(xi)阶段与某种形式的学习预算是必不可少的不100+1简体中文+rLBCE(T;yi,yi){更新迭代学习框架的组成部分[29]。 这个瓶颈使学生模型不受数据中特定不规则性的影响。[29]梁启超认为,这样的瓶颈对语言最小化L}7:结束{完成交互式学习}8:对于i=1到 k,9:对批次(xi,yi)2D序列进行采集我们认为,将这种机制纳入预测模型可以防止它们十:十一:y=σ(fT100+ 1yi=fS(xi)(xi))>生成伪标签过拟合标签噪声[39],提高伪标签的质量。有两种常见的方法来施加学习瓶颈。一种方法是允许新初始化的学生仅从教师生成的有限数量的数据实例中获取知识[29,40]。另一种方法是在模仿教师的同时限制学生学习更新的数量[43]。在我们的设置中,我们发现通过学习更新的数量来加强瓶颈是很有帮助的。如示于图1和Alg。 1,我们迭代地改进了一个用原始标签训练的教师网络和一个用教师产生的标签训练的学生网络。 为了防止学生过度拟合老师,我们限制了每个模块的训练更新量[43]。形式上,让N是数据集的大小,kt是教师的训练迭代次数,k是学生迭代次数。一般来说,我们设置kt<0,其中,yi是第i个样本的预测标签,Yi是ReaL标签的集合,并且. 计算集合中元素的数量。此外,本发明还我们报告F1分数,它表示正确预测的标签与实际标签总数的比例,预测标签,所有示例的平均值:ReaL-F1训 练 数 据 。 使 用 Sigmoid , 我 们 观 察 到 ResNet-18 和ResNet-50的ReaL-Acc分别有2%和4%的实质性改善。 这与Beyer等人报道的结果一致。[8]的一项建议。当使用所有训练数据时,重复迭代学习会导致额外的1%的性能提高,当使用较小部分数据时,ReaL-F1的性能提高高达5%。有趣的是,我们发现使用较小部分的数据会降低标签覆盖率。 我们假设使用较小部分的数据会导致Softmax方法和Sigmoid的记忆和过拟合,这会导致对单个类的更自信的预测。 关于ReaL标签回收率的其他结果见补充材料。我们在图中报告了定性结果二、可以看出,MILE生成了更完整的图像描述,有时会捕获ReaL地面实况中不 包 括 的 标 签 例 如 , 我 们 的 方 法 能 够 检 测 到 一 个pickelhaube(尖尖的帽子),这是没有标记的地面真相。WebVision结果。我们在表2中报告了结果,并将其与其他现有技术相结合。我们采用与[36]相同的阶级再平衡策略 对于所有设置,我们观察到MILE获得了最佳性能,比使用更好架构(如Inception-V3 [53])的方法高出2个点。我们还验证了WebVision训练的模型,=1PN2·TPi,其中TP是ImageNet验证集,优于之前的状态真阳性,FP是假阳性的数量,FN是假阴性的数量最后,我们报告标签覆盖率,它表示多标签分类器预测的每个样本的标签的总分数。一些1.15表示预测了另外15%的标签ImageNet结果。 我们在表1中报告了结果。MILE在所有指标和所有分数上都超过了基线方法并保持结果与WebVision验证集一致。这些结果表明,迭代学习瓶颈充当正则化器,防止模型学习更难以拟合的噪声标签。这一假设与Arpit et al.[4],Liu et al.[39],Zhang et al. [66],他表明噪音记忆发生在训练过程的后期。N4788ImageNet分数:百分之一百分之五百分之十百分百百分之一百分之五百分之十百分百度量方法ResNet-50ResNet-18Softmax6.3236.7153.5076.336.6131.548.8270.41精度ELR [39]乙状7.916.7038.8836.956.1555.0176.7576.356.936.8832.9531.1049.9549.1470.8370.46MILE(我们的)9.1042.5257.2977.128.2036.2051.3171.12Softmax7.1942.5560.2182.768.8035.8855.1177.77真实访问ELR [39]乙状8.788.3844.2446.0463.1362.9683.0783.228.929.0438.0837.6656.1357.5278.8581.01MILE(我们的)11.5048.3665.4283.759.1841.6558.5781.52Softmax6.7740.5157.3378.58.2834.2052.5173.83ReaL-F1ELR [39]乙状7.837.1742.4541.1158.5258.4678.578.618.418.3935.5233.5653.2252.1273.4173.85MILE(我们的)10.7645.0262.1179.898.5538.4953.8074.48Softmax1.001.01.01.01.01.01.01.0标记物覆盖ELR [39]乙状1.001.091.01.111.01.101.01.111.01.071.01.101.01.151.01.15MILE(我们的)1.051.081.091.161.061.071.121.17表1. ImageNet结果。The first row displays the fraction of the ImageNet data used to train the models. Softmax:Vanilla ResNet,带有softmax损失。Sigmoid:Vanilla ResNet训练用于单标签的多标签二进制分类ELR:早期学习正则化[39]。MILE:多标签迭代学习。标签覆盖率是指每个模型预测的额外标签的分数所有模型都训练了100个epoch。方法ImageNet验证1% 10% 100%ImageNet ReaL-F1百分之一 百分之十百分之一百[10]第二十届中国国际航空航天博览会48.3 65.6 七十六点二五53.2 68.8 77.253.9七十二 七十七点七四51.54 69.1654.32 70.8155.79 71.22 79.18[第14话]51.72 66.577.1253.34 70.75 79.04MILE(Ours)+[4]52.62 67.477.3856.08 71.48 80.03SimCLR-v2-sk0 [13]58.18 68.976.357.25 70.11 78.83MILE(Ours)+[13](sk0)61.85 70.577.2960.49 72.76 79.38SimCLR-v2-sk1 [13]64.7 72.478.762.77 74.21 79.43MILE(Ours)+[13](sk1)69.4 74.779.565.04 76.40 81.53初始Vanilla模型[64]第64话:我的世界公司简介ResNet-50-DResNet-50-D75.08 89.2275.36 89.3875.69 89.4267.23 84.0967.93 84.7768.35 85.24MILE(我们的)公司简介76.5九十点九68.7八十六点四表2. WebVision结果。 方法在Webvision- 1000上进行训练,并在WebVision和ImageNet上进行验证。MoPro(解耦)在与我们的方法相同的集合上进行预训练Clean- Net [34]和Distill [69]需要带有干净注释的数据dec:指的是“去耦”。4.2. 自监督微调ImageNet方法架构WebVision前5名ImageNet前5名交叉熵[60]ResNet-5066.4 83.457.7 78.4[第28话]InceptionRes-V2 70.8 88.062.5 83.0[21]第二十一话inception-V272.1 89.164.8 84.9CleanNet [34]ResNet-5070.3 87.863.4 84.6[21,60]ResNet-5070.7 88.662.7 83.4[60]第六十话ResNet-5072.2 89.565.0 85.1蒸馏[69]ResNet-50--65.8 85.8MoPro(dec.)[36个]ResNet-5072.4 89.065.7 85.1多模式[53]inception-V373.15 89.73--乙状ResNet-5072.1 89.565.4 85.0MILE(我们的)ResNet-5075.290.367.1 85.64789表3.自我监督微调。第二行显示用于微调的ImageNet训练数据的比例。前1位预测的准确性用于报告数字。方法老师标记分数百分之十蒸馏水[13]R50(2×+SK)69.075.1自蒸馏[13]R50(1x+SK)70.1574.43MILE(我们的)R50(1x+SK)73.0875.3表4. 自我半监督学习。ImageNet top-1准确度ResNet-50(R50)从Simplified [12]模型中提取。2分:教师比学生有2分之一的参数。4790⇥⇥⇥是学生的两倍4.3. 分析在本节中,我们将探索MILE在不同超参数设置以及更具挑战性的合成数据设置下的行为。(a)迭代(b)阈值图3. 消融研究。不同迭代计划之间的比较。(a)扫一扫教师培训时间kt和学生培训时间k s。我们报告了ReaL-F1分数。(b)阈值扫描的ReaL F-1和准确度分数(SNR)。有 可 能 自 我 监 督 的 预 训 练 程 序 , 如 MoCo [25] 或Simplified [12]对其免疫。我们探讨了迭代学习是否提高了自监督模型在全监督和半监督微调制度的性能。我们在ImageNet数据集上进行了实验,并报告了验证准确性和ReaL-F1,如第二节所述。4.1.基线。 我们报告了ResNet-50的结果,ResNet-50使用Simplified [12],SimCLR-v2 [13],BYOL [20],MoCo-[14][19]在使用ImageNet训练集的1%、10%和100%微调权重后报告结果。我们使用与Chen等人相同的数据子集[13 ]第10段。我们将建议的迭代学习过程中的微调过程的MoCo-v2和SimCLR-v2。对于SimCLR-v2,我们还测试了使用选择性内核改进的“sk 1”变体[13,38],而“sk0”是普通版本。对于半监督学习实验,我们与SimCLR-v2的蒸馏实验进行了比较我们与ResNet-50(2 +SK)进行比较,其中教师的容量比学生的容量大2倍(1 +SK)其中教师和学生相同模型结果 我们在表3中报告了微调结果。迭代学习提高了MoCo-v2、Simcloud和SimCLR-v2在所有微调数据部分的性能有趣的是,当使用更好的自监督初始化时,改进的差距会扩大。例如,在100%验证数据的情况下,性能最佳的SimCLR-v2-sk 1的ReaL改进为4。6%,而MoCo-v2和SimCLR-v2-sk 0的约为3%我们假设,更准确的模型导致更好的教师,提高迭代学习过程的整体性能我们在表4中报告了半监督学习的结果。与SimCLR-v2 [13]中提出的自蒸馏过程相比,迭代学习在1%的训练标签和10%的训练标签下的性能分别提高了2.9%和0.9%有趣的是,我们发现迭代学习比从老师那里提取更好的性能迭代次数。我们研究了每个周期的教师迭代次数(kt)和学生迭代次数(ks)对最终性能的影响(图1)。(见第3a段)。我们报告了不同kt值(行)和ks值(列)的ReaL-F1。在一般情况下,我们发现,可以实现良好的性能与广泛的kt和ks的组合。最佳性能是在kt和ks值较小的情况下实现的。 kt和ks的极值导致较低的性能,模型对k s的大值(暗区)最敏感。 这是意料之中的,因为小的kt会让模仿阶段通过与数据的交互不断破坏监督学习,而大的kt不会获得蒸馏的好处。对于给定的kt,我们发现最佳ks位于中间范围内,反之亦然。 关于数据集大小的影响,我们观察到它主要影响教师迭代的最佳次数(kt)。 我们假设教师只需要很少的迭代就可以过拟合小数据集,这会导致独热预测,并阻止模型学习多标签层次结构。伪标签阈值消融研究在本节中,我们对MILE用于从S形输出激活中产生多个伪标签的阈值(Emax)进行消融研究(参见第3节和算法1)。图3b显示了不同阈值的验证准确度和ReaL-F1得分。较低的阈值使学生偏向于产生多标签输出,即使是低置信度的类。较大的阈值使学生倾向于单标记预测,仅预测置信度高的标记。在极端情况下,高阈值限制教师预测空标签向量。有趣的是,我们发现较低的阈值导致较高的ReaL-F1评分和更好的准确性。事实上,Real-F1分数受益于比准确性更低的精度。这是由于较低的阈值增加了每个图像的预测标签的数量,这提高了多标签评估中的召回率。多 标签MNIST 现实 世界数据 集中的许 多图像 ( 如WebVision或ImageNet)都包含单个对象,这使得MILE倾向于预测每个图像中的少量对象。 为了探索MILE的局限性,我们首先在一个合成数据集上设计了一个对照实验,其中大多数样本包含多个类。每个样本由随机采样的MNIST的3 × 3网格组成4791⇥F1@0.25F1@0.5Softmax28.6928.69乙状29.1028.67MILE(我们的)41.3534.32表5.多标签MNIST的结果。第一列显示阳性标记的阈值设置为0.25时的F1分数,第二列显示阈值为0.5时的F1分数。图4.多MNIST。中间数字的概率为0。6作为整个网格的标签图5. 不同蒸馏程序和MILE之间的比较。我们报告准确性和ReaL-F1评分。digits [33]. 对于每个网格,其单个标签对应于概率为0的中心数字。6,而剩余的8个数字以概率0采样。05(见图)4).请注意,与ImageNet类似,同一类的数字可以在网格中重复。然而,在一个3 × 3的网格中,每个位置重复相同数字的概率是10-9。结 果 示 于 表5 中 。 我 们 观 察 到 MILE的 F1 得 分 比Softmax和Sigmoid基线高出12%。值得注意的是,当将sigmoid输出预测阈值设置为0时,这种改进最为显著。二十五有趣的是,在这个实验中,我们发现从教师输出中产生多个伪标签的最佳阈值是(k= 0。1)。 具有低阈值会使学生偏向于产生多标签输出。我们发现这些结果令人鼓舞,我们相信,更好的性能可以通过改进的伪多标签生成策略。我们计划在今后的工作中探索自蒸馏和迭代学习的贡献在这里,我们研究了多标记蒸 馏 算 法 对 迭 代 过 程 的 影 响 。 我 们 比 较 了 软 蒸 馏(softmax + KL损失)和硬蒸馏(argmax+ CE),以及图中有和没有迭代学习的五、我们比较了两次迭代和多次迭代的效果。当进行多次迭代训练时,硬标签优于软标签。 我们提供了一个迭代学习的消融与nosiy-student [63]蒸馏过程图中所示。8补充材料。5. 讨论我们引入多标签迭代学习(MILe)来解决流行分类数据集(如ImageNet)中的标签模糊性和标签噪声问题。MILE利用迭代学习从弱监督中构建丰富的监督信号。 它将单标签分类问题放松为多标签二进制分类,并交替训练教师和学生网络,以从单标签构建图像的多标签描述。教师和学生被训练几次迭代,以防止他们过度拟合单标记的噪声预测。 MILE提高了图像分类器在单标签和多标签问题、领域泛化、半监督学习和IIRC上的连续学习方面的性能。 迭代学习[43]固有的一个可能的限制是选择教师迭代(kt)和学生迭代(ks)的正确长度。然而,我们的消融实验表明,所提出的程序是有益的,为广泛的kt和ks值(第二。4.3)。MILE还取决于阈值,我们使用它来从教师的输出中产生伪标签。然而,我们发现令人鼓舞的是,较低的cnt值可以提高分类器的性能,这表明预测多个标签是有益的。关于计算成本,我们发现MILE的影响低于模型的验证阶段(见第2节)。(3)第三章。总的来说,我们发现迭代学习提高了用弱标记数据训练的模型的性能,帮助它们克服了与标记模糊和噪声相关的问题更广泛的影响和今后的工作。我们的方法是建立在这样的假设,即世界是沿着对象和图像的结果,这些对象的组成的事实。 我们相信,我们的工作可以应用于建立在相同假设基础上的其他任务,如对象检测、分割和多实例学习。 在这些情况下,我们希望像MILE这样的方法可以打开大门,利用大量的网络监督数据来改进这些任务。4792引用[1] M.阿卜杜勒萨拉姆Faramarzi,S. Sodhani和S.你好Iirc:增量隐式细化分类。CVPR,2021年。[2] Z. Allen-Zhu和Y.李深度学习中的集成理解、知识升华和自我升华。arXiv预印本arXiv:2012.09816,2020。[3] M.阿尔约夫斯基湖博图岛Gulrajani和D.洛佩兹-帕斯不变风险最小化。arXiv预印本arXiv:1907.02893,2019。[4] D. Arpit,S. JastrzeBubski,N. 巴拉斯湾 Kru ege r,E. 本吉奥M. S. Kanwal,T. Maharaj,A. Fischer、A.库尔维尔YBen- gio,et al.深入研究深度网络中的记忆ICML,2017。[5] L. J. Ba和R.卡鲁阿纳深网真的需要深吗arXiv预印本arXiv:1312.6184,2013。[6] A. Barbu,D. Mayo,J. Alverio,W.罗角,澳-地Wang,中国 山杨D. Gutfre-und , J.B. Tenenbaum,和 B.卡茨Objectnet:一个大规模的偏差控制数据集,用于推动对象识别模型的极限。NeurIPS,2019。[7] E. Bekele和W.劳森 越深越好:人的属性识别分析。在2019年自动人脸手势识别国际会议上。[8] L.拜尔岛O. J. Hénaff,A. Kolesnikov,X. Zhai和A. v. d.Oord.我们完成了imagenet吗?arXiv预印本arXiv:2006.07159,2020。[9] C. 布西尔乌河 Ca ruana和A. 尼古列斯库-米兹尔模型压缩。第12届ACM SIGKDD会议记录,第535-541页,2006年[10] M. 卡 隆 岛 作 者 : J. Goyal , P. Bojanowski , and A.Joulin通过对比聚类分配的视觉特征的无监督学习。arXiv预印本arXiv:2006.09882,2020。[11] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。CVPR,2017年。[12] T. Chen,S.科恩布利斯,M。Norouzi和G.辛顿视觉表征对比学习的一个简单框架。在ICML,第1597-1607页[13] T. Chen,S. Kornblith,K. Swersky,M. Norouzi和G.欣顿。大型自监督模型是强半监督学习器。arXiv预印本:2006.10029,2020。[14] X. Chen,H.范河,巴西-地Girshick和K.他外用动量对比学习改进基线arXiv预印本arXiv:2003.04297,2020
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多传感器数据融合手册:国外原版技术指南
- MyEclipse快捷键大全,提升编程效率
- 从零开始的编程学习:Linux汇编语言入门
- EJB3.0实例教程:从入门到精通
- 深入理解jQuery源码:解析与分析
- MMC-1电机控制ASSP芯片用户手册
- HS1101相对湿度传感器技术规格与应用
- Shell基础入门:权限管理与常用命令详解
- 2003年全国大学生电子设计竞赛:电压控制LC振荡器与宽带放大器
- Android手机用户代理(User Agent)详解与示例
- Java代码规范:提升软件质量和团队协作的关键
- 浙江电信移动业务接入与ISAG接口实战指南
- 电子密码锁设计:安全便捷的新型锁具
- NavTech SDAL格式规范1.7版:车辆导航数据标准
- Surfer8中文入门手册:绘制等高线与克服语言障碍
- 排序算法全解析:冒泡、选择、插入、Shell、快速排序
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功