没有合适的资源?快使用搜索试试~ 我知道了~
14156弱监督多标记分类中的大损失问题金永旭1* 金在明2*Zeynep Akata2,3,4李正宇1,51首尔国立大学2蒂宾根大学3马普智能系统研究所4马普信息学研究所5HodooAI实验室摘要弱监督多标签分类(WSML)任务是使用每幅图像的部分观察标签来学习多标签分类在这项工作中,我们首先把未观察到的标签作为负标签,铸造WSML任务到嘈杂的多标签分类。从这个角度来看,我们经验性地观察到,记忆效应,这是第一次发现在一个嘈杂的多类设置,也发生在一个多标签设置。也就是说,模型首先学习干净标签的表示,然后开始记忆有噪声的标签。基于这一发现,我们提出了新的WSML方法,拒绝或cor-receive。0.120.100.080.060.040.020.00早期学习阶段记忆阶段真阴性假阴性0 500 1000 1500 2000 2500迭代校正大损失样本,以防止模型记住噪声标签。没有沉重和复杂的组件,我们提出的方法优于以前的国家的最先进的WSML方法在几个部分标签设置,包括PascalVOC 2012 , MS COCO , NUSWIDE , CUB 和OpenImages V3数据集。各种分析也表明,我们的方法实际上工作得很好,验证了在弱监督多标签分类中正确处理大损失的重要性。我们的代码可从https://github.com/snucml/LargeLossMatters网站。1. 介绍多标签分类的目标是在单个图像中找到所有现有的它越来越受到关注,因为现实世界是由一个场景与多个对象在它[28,35]。此外,一些单标签数据集,也称为多类数据集,实际上具有包含多个对象的图像[33,56]。然而,多标签分类任务在制作数据集时存在一些根本性的困难,因为它需要注释者为每个图像标记所有类别随着数据集中类别和图像数量的增加,注释成本变得巨大[19]。*同等贡献。图1.WSM L 中的记忆。 训练ResNet-50时在PASCAL VOC数据集上使用部分标签模型,我们将所有未观察到的标签设置为阴性。这些标签由真阴性和假阴性组成我们观察到模型首先适合真负标签(学习),然后适合假负(记忆化)。为了缓解这些问题,已经考虑了多标签分类任务(WSML)中的弱监督学习方法[2,18,36,50]。在WSML设置中,标签以部分标签的形式给出,这意味着每个图像只注释少量的类别。此设置反映了最近发布的仅提供部分标签的大规模多标签数据集[12,19]因此,开发具有部分标签的学习策略变得越来越重要有两种简单的方法来训练带有部分标签的模型。一种是只使用观察到的标签来训练模型,忽略未观察到的标签。另一种是假设所有未观察到的标签都是负的,并将它们纳入训练,因为在多标签设置中大多数标签都是负的[32]。由于第二种方法的局限性在于,这种假设会在标签中产生一些干扰模型学习的噪声,因此以前的工作[7,9,16,21]大多遵循第一种方法,并尝试使用各种技术(如bootstrap- ping或正则化)探索未观察到的标签然而,这些方法包括损失14157大量计算或复杂优化流水线。我们假设,如果标签噪声可以正确处理,第二种方法可能是一个很好的起点,因为它具有将许多真正的负标签纳入模型训练的优势。因此,我们尝试从噪声标签学习的角度来看待WSML问题。我们的关键观察是关于噪声标签学习文献中的记忆效应[1众所周知,当用噪声标签训练模型时,模型首先适应虽然以前的工作只在嘈杂的多类分类场景中显示了记忆效应,但我们首次发现这种相同的效应也发生在嘈杂的多标签分类场景中。如图1所示,在训练过程中,来自干净标签(真阴性)的损失值从开始减少,而来自噪声标签(假阴性)的损失从中间减少。基于这一发现,我们借用了噪声多类文献[13,17,23]的想法,该文献选择性地用具有小损失的样本训练模型,并将此想法应用于多标签场景。具体而言,通过在WSML设置中将未知标签指定为否定,标签噪声以假否定的形式出现。然后我们设计了三种不同的方案,通过在训练过程中拒绝或纠正大损失样本来防止假阴性标签被记忆到多标签分类模型中。我们的方法是轻而简单,但有效。它涉及的计算开销可以忽略不计,并且不需要复杂的模型训练优化。尽管如此,与Pascal VOC 2012 [10],MS COCO [24],NUSWIDE中的最先进方法相比,我们的方法超过了弱监督多标签分类性能[6] ,CUB [42]和OpenImages V3 [19]数据集。此外,虽然一些现有方法仅在特定的部分标签设置中有效[7,9,16],但我们的方法广泛适用于人工创建的和真实的部分标签数据集。最后,我们从不同的角度分析了为什么我们的方法工作得很好总结起来,我们的贡献如下;1) 我们第一次经验性地证明了在有噪声的多标签分类过程中会出现记忆效应2) 我们提出了一种新的弱监督多标签分类方案,明确利用了噪声标签的学习技术。3) 虽然轻便简单,我们提出的方法实现了最先进的分类性能在各种部分标签数据集。2. 相关作品多标签分类。该领域的主要研究趋势是对标签之间的相关性进行建模[15,31,38,55],因为多个对象可以同时出现在多标签设置中。最近,这种建模是通过图神经网络实现的[4,5,53],重复-租金模型[43,52],或Transformer编码器结构[22]。最近的研究趋势还包括解决多标签数据集中的不平衡问题,如长尾类分布[11,48]或正负标签不平衡[32]。弱监督多标签分类。由于标注问题的存在,弱监督学习的多标签分类成为另一个重要的研究方向。有几种方法可以使用部分注释的标签来训练模型:将缺失的标签视为负数[2,3,36,44],通过标签相关模型[8,47,49,50]或概率模型[18,41]预测缺失的标签请注意,这些方法使用传统的优化,它们无法扩展到训练深度神经网络。[9]是第一个使用部分标签训练深度神经网络的工作它采用一种课程学习的方法,利用模型预测对一些未标注的简单样本进行标注。然而,它的初始模型只在部分标签上训练,具有较弱的代表性,这可能导致错误的标签。[16,21]对标签相似性和图像相似性进行建模,以从其他语义相似的图像特征或观察到的标签中预测未观察到的标签最近,[7]建议每个图像只使用一个正标签进行学习,这是部分标签场景的子集。提出了一种正则化方案,该方案利用数据集中正标签的平均数量以及分类器和未观察标签估计器的交替优化。然而,它们需要复杂的优化流水线或沉重的计算成本。我们的方法采取了不同的路线与以前的方法铸造WSML到嘈杂的多标签分类。请注意,除了应用标签平滑外,在该途径中进行的研究很少[7,21]。噪声多类分类。在标签噪声的文献中,有两个主要分支:一个是样本选择,另一个是标签校正。样本选择方法从[1]的发现开始,并试图在存在噪声标签的情况下只选择干净的样本来训练模型。干净样本的标准可以是小损失[13,17,23,46],与连续预测的运行平均值一致的预测[25,29],预测和标签之间的低偏差[51]。标签校正方法试图更新噪声标签,而不是将其视为固定标签。有方法将标签更新为softmax激活的预测[39],通过反向传播优化标签[54],在训练期间使用自适应目标[45]。[26]表明,标记平滑也可以被视为标记校正的方法之一。还有一种混合方法[34],它利用了样本选择和标签校正。我们的方法借用了样本选择和标签校正的思想来处理WSML设置中的标签噪声。然而,由于多个噪声之间的噪声类型不同14158XY{}X YD∈ X ∈ Y|S||S|我我我我D X Y{|∈ S}{|∈ S}Y{|∈ S}·∈··类和多标签,我们提出了一种方法专门在多标签设置。3. 方法在本节中,我们从第3.1节中弱监督多标签设置(WSML)中的假设否定(AN)的定义开始。在这种情况下,我们在第3.2节中展示了模型首先学习真阳性和真阴性标签的特征,然后开始记忆假阴性标签。基于这一发现,我们提出了三种方法,§3.3,即在训练过程中修改可能来自假阴性标签的大损失样本。3.1. 假设否定让我们定义一个输入x和一个目标y,并组成一个数据集。在用于图像分类任务的弱监督多标签学习是图像集,并且= 0,1,u,K,其中u是“未知”的注释,即,未观察标签,K是category的数量。 如果ta r得到y,则令Sp={i|yi=1},Sn={i|yi=0},Su={i|yi=u}。在一个角落里-最高亏损相帕斯卡VOC(%)MS COCO(%)TPTNFNTPTNFN热身定期88.311.790.79.323.872.264.036.082.617.417.382.7表1.最高损失发生率的分布。 对于每个标签,我们首先在训练过程中绘制损失图。然后,我们记录最高损失是发生在预热阶段(时期1)还是发生在常规阶段(时期1之后)。TP、TN、FN分别是指真阳性、真阴性和假阴性然后开始记忆带有噪声标签的数据。这与模型首先学习简单模式,然后学习更困难模式的其他观察结果一致[40]。我们观察到,当使用具有AN目标的数据集训练模型时,WSML中会为了证实这一点,我们进行了以下实验设置。我们将Pascal VOC 2012 [10]数据集转换为部分标签,随机保留一个阳性标签,并将其他标签视为未知(数据集D)。这些未知的标签然后被假定为负-ative(datasetD′).我们用D'训练ResNet-50 [14]模型初始标签设置,已知少量标签,因此p+nK.我们从假设否定(AN)开始我们的方法,其中所有未知标签都被视为阴性我们把这个修改后的目标称为yAN,.1,i∈Sp我使用等式2中的损失函数L。我们在训练模型时查看训练数据集中每个标签yAN对应的损失值的真阴性标记和假阴性标记的单个示例如图1所示。对于真阴性标签,对应的损失值yAN=0,i∈ Sn<$SU,(一)随着迭代次数的增加而减少(蓝色线)。与此同时,假阴性标签的损失轻微在初始学习阶段增加,然后达到所有y的集合为一个. yAN ip和y AN i n是其中每个元素分别为真正和真负的集合。yAN_IU包含真阴性和假阴性两者。用数据集′=(,AN)训练模型f的简单方法是最小化损失函数L,K中期最高,然后下降,最后接近0(红线)。这意味着模型从中间阶段开始记住错误的标签。为了看看这种现象是否会在训练数据集中的所有标签中不断发生,我们进行了以下实验。对于每个标签,我们跟踪每个训练时期的损失值然后我们计算标签的数量-L=1Σ1BCELoss(f(x),yAN),在第一个时期的最大损失我们执行这个前-|D′|K(x,yAN)∈D′i=1我我(二)在部分标记的Pascal VOC 2012 [10]和MS COCO数据集[24]上使用AN目标和ResNet-50进行实验。其中f()[0,1]K和BCELoss(,)是函数输出和目标之间的二进制交叉熵损失我们将这种朴素方法称为朴素AN。3.2. WSML中的记忆让我们首先回顾一下噪声多类学习中的记忆效应[1]。在噪声多类设置中,数据集中的每个数据由输入和目标组成,其中目标是单个类别,其中一些标注错误。对于干净的标签,注释的单个类别为真,而对于有噪声的标签,注释的类别为假。当使用包含干净标签和噪声标签的数据集训练模型时,模型首先学习特征14159结果示于表1中。大多数真阳性和真阴性样本在第一个时期(预热阶段)中具有最高损失,而假阴性通常在第一个时期(常规阶段)之后示出最高损失。这些结果表明,该模型在初始阶段从对应于真阳性和真阴性标签的数据中学习特征,而假阴性标签的记忆通常在训练阶段的中间开始。3.3. 方法:大损耗修正在这一节中,我们提出了新的WSML方法,这些方法来自噪声多类学习的思想[13,17,23],它忽略了训练过程中的大量损失14160损失L=0.18损失永久L=0.18改变损失L=0.08损失L= 0.74我{|∈ S}我我{|∈ S <$S}Σ我∈S我∈ S <$S.∈SΣ×∈S我0.900.830.780.100.18预测初始AN人110.111110.11火车u01.8100.2/1.810.21自行车u01.5X1X0X0.3/1.510.3X1船u00.111100.11香蕉u00.211100.21输入目标的靶BCELoss重量图2. 我们提出的方法的整体管道。我们提出了三种不同的方法来处理AN目标中的假阴性标签,这会造成很大的损失。虽然Naive AN基线对BCELoss1中的所有元素取平均值,但我们的方法控制权重λ以拒绝或校正假阴性标记(LL-R或LL-Ct),或直接将标记从阴性改变为阳性(LL-Cp)。注意,模型提醒一下,在具有AN目标的WSML中,模型在训练的中间开始记住假阴性标签,此时会有很大的损失。虽然我们只能观察到集合yAN iu中的标签是负的,但不能明确区分它是否是类任务B.Han等人[13]提出了一种在训练过程中逐渐提高拒绝率的方法。我们以类似的方式设置函数λi,.0,i∈SU且li>R(t)假的或真的,我们能够隐含地区分它们。这是因为假阴性的损失很可能λi=(四)1、否则,大于记忆开始前真阴性的损失因此,我们操纵集合中的标签{y AN|i ∈ S u}对应于大损失值dur-其中,t是训练过程中当前时期的数量,R(t)是具有[(t−1)·εrel]%的损失值损失集中的最大值{l i|(x,yAN)∈ D′,i∈ SU}.设置训练过程,以防止模型记住假阴性标签。我们不操纵已知的真标签,即yAN ipn,因为它们都是干净标签。代替使用等式2作为损失函数,我们进一步在损失函数中引入权重项λiK拒绝率是一个决定拒绝率增加速度的超参数。将λi定义为等式4使得在损失函数L中拒绝大损失样本。 我们在第一个时期t = 1不拒绝任何损失值,因为模型在初始阶段学习干净的模式。在实践中,我们在每次迭代中使用mini-batch 而不是完整的batchD′。1L=|D′|1K(x,yAN)∈D′Lii=1×λ i.(三)组成损失集。我们称这种方法为LL-R。我们定义li= BCELoss(f(x)i,y AN),其中函数li的参数f(x)和yAN为方便起见被省略。项λ i被定义为函数λ i=λ(f(x)i,y AN),其中为了方便也省略了自变量。 λ i是在等式3中的损失函数L中应考虑多少损失li的加权值。直觉上,当i u和损失l i在训练过程中具有高值时,λ i应该很小,也就是说,忽略该损失,因为它可能是来自假阴性样本的损失。设λ i= 1,当ipn,因为来自这些索引的标签y AN是干净标签。我们提出了三大损失修正(临时)。处理大损失样本的另一种方法是修正而不是剔除。在多标签设置中,这可以通过将相应的注释从否定切换为肯定来轻松实现。具体来说,当损失li很大且iu时,我们暂时将其标签修改为正值,即yAN= 1。术语为了在等式3中反映这种临时校正方案,我们将函数λi定义为:我不同的方案提供的权重λi为i示意性描述如图2所示。∈ Su. 的λi=log f(x)i,iu和lilog(1−f(x)i)1,否则,> R(t)(五)大损耗抑制。 处理大损失样本的一种方法是通过设置λ i= 0来拒绝它。在一个嘈杂的多-其中R(t)与LL-R中的相同这使得li λi在等式3中,为二进制交叉熵损失,模型====LL-RLL-CtLL-Cp(我们的)(我们的)(我们的)14161我∈ S我我--SSS- ·p三种不同的方法函数输出和正标签,u和li> R(t),因为li×λi= BCELoss(f(x)i,yAN= 0)×λi=− log(1−f(x)i)×λi=− logf(x)i= BCELoss(f(x)i,1)。(六)我们将此方法命名为LL-Ct。这种方法的优点是,它增加了未观察到的标签的真阳性标签的数量大损失校正(永久性)。在这种方法中,我们通过永久纠正标签来更积极地处理大损失值。我们直接将标签从negative改为positive,并在下一个训练过程中使用修改后的标签为了实现这一点,我们对每种情况都定义λi= 1,并修改标签如下:4.1. 按顺序创建的部分标签数据集数据集。 对于标注了完整标签的多标签数据集,我们人为地删除了部分标签设置的一些标签。具体来说,我们遵循[7]提出的过程我们在Pascal VOC 2012 [10],MS COCO 2014 [24],NUSWIDE [6]和CUB [42]数据集上进行了实验。对于CUB的任务是分类不是鸟类类别,但属性,其中多个属性存在于每个图像。实作详细数据。为了公平比较,我们使用相同的种子数来创建与[7]中相同的人工数据集。我们使用ResNet-50 [14]架构,该架构在ImageNet [20]数据集上进行了预训练。使用批量大小为16的单个GPU每个图像的大小调整为448x448,并通过随机水平翻转图像来执行数据增强。我们对两种学习方案进行了实验。一个是使用yAN=1,i∈SU且li> R(t)(7)不变,否则,骨干和更新初始时期的最终线性层的权重,然后微调剩余时期的整个权重,另一种是其中,R(t)在损失集中有一个常数值,即最大值为[(t1)最大]%。这使得校正的标签的数量随着训练的进行而逐渐增加当通过属于等式7中的第一条件来修改标签yAN时,集合u和p也如下改变:也就是从一开始就微调整个权重有关超参数设置的详细信息,请参见Ap-附录。比较方法。我们将我们的方法与Naive AN,Weak AN(WAN)[7,27],使用AN的标签平滑(LSAN)[7,37],EPR [7]和ROLE [7]进行比较。注意有些← SS← S-{i},(8){i}.(九)仅使用观察到的标签而不使用AN目标的方法(课程标签[9],IMCL [16])在此设置中不起作用。他们给出了一个简单的解决方案,预测所有标签为我们将这种方法命名为LL-Cp。绝对变量。我们没有逐渐增加拒绝/纠正率,而是借用了使用损失绝对值作为拒绝阈值的想法[17],并将其应用于WSML。 在拒绝和临时校正方案中,我们将函数λ i定义为与等式4相同,除了R(t),其中它被定义为R(t)=R0tabs。R0和R0是一个初始阈值,R0确定阈值的下降速度。我们在附录中报告了这些变体方法的实验结果4. 实验在本节中,我们将展示我们方法的实验结果,并将其与§4.1和§4.2中两种不同部分标签设置的先前方法进行比较。在§4.3中,我们分析了为什么我们的方法在5种不同的方式下工作得很好,即精度分析,超参数效应,定性结果,模型解释和训练图像子集的泛化在本节中,我们使用平均精度(mAP)作为评估指标。因为只观察到阳性标记,所以为阳性结果如表2所示,我们的方法最接近完全标记的性能,例如,当端到端微调时,Pascal VOC和MS COCO数据集的差异为1.0和6.2 mAP。与Naive AN和Weak AN相比,当y AN = 0时,使用λ i= 0和λ i=1,3、我们的K−1费伦特我都有赌注-即性能。我们的方法在总体上也优于LSAN数据集,特别是在COCO数据集上具有+4.1和+2.7mAP增益,并具有端到端和LinearInit设置重置。这意味着我们的方法处理的标签噪声在AN目标比LSAN。此外,在大多数数据集上,我们的方法也优于EPR和ROLE。这一结果表明,逐步修改大损失样本有助于模型在存在假阴性标签的情况下具有更好的泛化能力。4.2. 实数部分标号数据集数据集。 为了查看我们提出的方法是否始终适用于具有真实部分标签的数据集,我们使用OpenImages V3.uup14162[19]数据集,其中有3.4M训练/42 K验证/125 K测试图像,具有5,000个类。在这个数据集中,只有不到1%的标签被注释。14163方法VOCEnd-to-endCOCO NUSWIDE幼崽VOC线性初始化COCO NUSWIDE幼崽全标签90.278.054.532.991.177.254.934.0初始AN85.164.142.019.186.968.747.620.9WAN [7,27]86.564.846.320.387.168.047.521.1LSAN [7,37]86.766.944.917.986.569.250.516.6EPR [7]85.563.346.020.084.966.848.121.2角色[7]87.966.343.115.088.269.051.016.8LL-R(我们的)89.271.047.419.589.471.949.121.5LL-Ct(我们的)89.070.548.020.489.371.649.621.8LL-Cp(我们的)88.470.748.320.188.371.049.421.4表2. 人工创建的部分标签数据集的定量结果。使用完整标签训练的模型的结果见第二行显示WSML的上限。“End-to-end”indicates that the entire weights of the model is fine-tuned from the beginning, 表示主干在最初几个时期是冻结的LL-Ct在8种设置中的7种中优于所有基线方法,而LL-R和LL-Cp在8种设置中的6种中优于所有基线方法。实作详细数据。我们使用ImageNet预训练的ResNet-101架构和4个GPU,批量大小为288。每个图像被调整为224x224,并且在训练期间应用随机水平翻转。为了更好地分析结果,我们将5000个类别按照计数的训练图像的数量进行升序排序,并将它们分为5组,每组1000个类别。Group1是计数的图像的数量最小的组,而Group5是最大的组。我们报告每组以及所有组的mAP结果。有关超参数设置的详细信息,请参见附录。比较方法。我们将我们的方法与Cur-100标记[9]和IMCL [16],朴素AN,WAN和LSAN进行比较。还比较了Naive IU(忽略未观察),其仅用部分标签训练模型。请注意,ROLE [7]不起作用,因为它们需要将整个标签矩阵存储在内存中,这是不可行的。结果结果报告于表3中。我们首先观察到,与仅使用观察到的标签(Naive IU,Curriculum,IMCL)的先前方法相比,用AN目标(NaiveAN)训练具有朴素BCE损失的模型可以大幅提高分类性能我们推测这种性能提高是因为每个图像的观察类别的平均数量远小于完整类别的数量,这阻碍了模型在仅使用有限数量的观察标签进行训练时推广到不可见的数据。相比之下,即使AN目标是有噪声的,在将未观察到的标签修改为阴性标签之后,大量类别可以被注释为真阴性,使得朴素AN的泛化性能更好。我们还观察到LL-Ct具有82.6 mAP的最佳性能,我们的其他方法也提供了类似的高性能。与朴素AN相比,我们的方法方法G1G2G3G4G5所有G初始IU69.570.374.879.285.575.9课程[9]70.471.376.280.586.877.1IMCL [16]71.072.677.681.887.378.1初始AN77.178.781.584.188.882.0WAN [7,27]71.872.876.379.784.777.0LSAN [7,37]68.469.373.777.985.675.0LL-R(我们的)77.479.182.084.589.582.5LL-Ct(我们的)77.779.382.184.789.482.6LL-Cp(我们的)77.679.181.984.689.482.5表3. OpenImages V3数据集中的定量结果,带有真实部分标签。5000个类别相对于训练图像的数量以升序排序,其中该类别的标签是已知的,然后从组1到组5顺序地分组,所有组具有相同的大小。所有的G对应于所有范畴的集合我们观察到LL-Ct具有最佳性能,其次是LL-Cp和LL-R。进一步拒绝或校正可能的假阴性标签,使得噪声标签的程度尽可能小,这导致从组1到组5的每个组中的性能改进。需要注意的一点是,WAN和LSAN显示出比朴素AN更差的性能,这意味着它们无法处理真实部分标签场景中AN目标中的标签噪声。4.3. 分析在这一节中,我们将分析我们的方法在WSML中运行良好 除非另有说明,否则我们将在§ 4.1中提供的人工创建的COCO部分标签数据集上分析我们的方法,其中Rel= 0。二、14164精密度分析。 为了验证我们提出的方法拒绝的标签(LL-R)或正确的标签(LL-Ct,LL-Cp),14165地图最佳历元给定:消防栓汽车消防栓消防栓,汽车,人,自行车GT:消防栓,汽车,人,自行车给予:香蕉香蕉,橘子香蕉,橘子,碗GT:香蕉,橘子,碗给予:花瓶花瓶,人花瓶、人、椅子花瓶、人、椅子、餐桌GT:花瓶,人,椅子,餐桌,瓶子,酒杯给定:卡车卡车、汽车卡车,汽车,人GT:卡车、船、摩托车图3. 人工生成的COCO部分标签数据集的定性结果。箭头指示在我们的校正方案LL-Ct中的训练期间具有正标签的类别的变化,并且GT指示训练图像的实际真实正标签我们展示了三种情况,其中LL-Ct正确地修改了未注释的地面真实标签,并且在第四列处失败1.00.80.60.40.20.02 4 68历元600004000020000087068666464262600电话:+86-10 - 8888888传真:+86-10 - 88888888rel图4. 在COCO数据集上对所提出的方法进行了精度分析。实际上是嘈杂的,我们测量修改的精度。也就是说,在我们的方案修改的标签中,因为它的损失值很大,我们计算实际标签为正的标签的百分比虽然LL-R和LL-Ct的精度是在每个历元中计算的,但我们使用LL-Cp的累积标签数来计算精度,以进行公平比较。我们在图4中观察到,我们的方案确实以高精度修改了假阴性标签随着历元数的增加,精度降低,因为模型逐渐记住错误的标签。我们可以看到,LL-Cp显示了最高的精度值在我们提出的计划。然而,根据表2,LL-Cp并不总是保证最高性能,它可能看起来有点矛盾。我们推测这是由于LL-Cp的特性。由于LL-Cp执行永久校正,因此错误校正的标签一旦改变就可能继续损害模型学习。因此,即使在更高的修饰精度下,也可能导致更低的mAPhyperparameter的作用。我们用不同的hyperparam值来评估LL-Ct图5. LL-Ct对COCO数据集的超参数效应。COCO数据集上的Eterreel从图5中我们观察到,当Rel = 0时,该模型产生最佳mAP。二、当Aprirel变得更小时,其性能会降低,因为模型会记住由于低校正率而未校正的假阴性标签。另一方面,在0.2之后,性能随着ΔRel的增加而降低。此外,此时模型具有最佳验证分数的时期数量减少。这是因为随着Rankrel的增加,我们的校正方案错误地将真阴性标签修改为阳性,使其成为假阳性。增加的误报数量阻碍了模型定性结果。图3显示了LL-Ct的定性结果。箭头指示在训练期间具有正标签的类别的变化,并且GT指示训练图像的实际地面实况正标签。我们看到,虽然不是所有的地面真阳性标签,我们提出的方法逐步纠正类别的未注释的GT为阳性。我们还在前三列中观察到,已经被纠正过一次的类别在随后的时期中继续被纠正,即使我们为每个时期临时执行纠正。LL-RLL-CtLL-Cp#修改的标签修正精度修改标签地图最佳历元14166××···757065605550454 5 610 10 10观察到的标签图6. 用较少的图像进行训练。这传达了LL-Ct成功地防止模型记住假阴性。我们还报告了我们的方法在最右侧的失败案例,其中模型将汽车混淆为卡车,这是一个类似的类别,并错误地将缺席的类别人理解为存在。模型解释。我们已经看到,我们的方法在定量上比其他基线方法具有更好的性能。为了看看这是否与模型对数据的更好理解有关训练图像的10%,即1/8,比完全监督方法小得多,所有弱监督方法都优于完全监督方法。此外,LL-Ct显示出与完全监督方法相似的性能,其中30%的训练图像仅具有1/24的观察到的标签。这表明,当我们在制作多标签数据集时注释标签的成本有限时,最好弱注释许多图像,而不是完全注释少量图像。我们还观察到,LL-Ct优于其他弱监督的方法在所有范围内的观察标签的数量。当仅给出10%的训练图像时,LL-Ct与Naive AN方法的结果相比具有+9.2mAP的更好性能。这意味着我们的方法也提供了更好的泛化与少量的训练图像。5. 结论在本文中,我们提出了大损失修改方案,拒绝或纠正大损失的样本出现在训练过程中的多标签分类模型与部分标记的注释。这源于我们的经验观察,即记忆效应也发生在有噪声的多标签分类场景中。虽然不包括重型和复杂的部件,但我们的方案审查 如何 大致模型表4. 指点游戏成功地避免了多标签分类模型记忆噪声假阴性标签,实现了状态-与人类的推理过程有关。简而言之,我们认为类激活映射(CAM)[58]作为模型的解释,地面真实对象作为人类的解释。为了衡量这两种解释的一致程度,我们使用了指向游戏指标[30,57]。对于输入实例中的每个现有类别,如果CAM中的最大值的像素点在对象的边界框内,则我们认为它是“命中”,如果不是,则认为它是“未命中”。我们对所有测试数据中所有现有类别中的#命中和#未命中进行计数,并在表4中报告针对每个类别计算的#命中/(#命中+ #未命中)100的平均值。我们观察到,在VOC和COCO数据集中,我们的三种方法都优于以前的方法。特别地,与ROLE [7]相比,LL-Ct在VOC和COCO数据集中分别具有+1.2和+2.6的增益。这一结果表明,用我们的方法训练的模型的解释与人类的解释更好地一致。我们在附录中报告CAM可视化结果。用较少的图像进行训练。为了看看我们的方法是否也适用于较少数量的训练图像,我们在COCO数据集中随机子采样训练图像,分别为10%,20%,,90%,100%,并使用§4.1中的部分标签和完整标签训练模型。然后,我们测量测试集上的分类性能。结果示于图6中。虽然弱监督方法的观察标签数为100%,在各种部分标记的多标记数据集上的最新性能。局限性和更广泛的影响。由于很难收集具有完整注释类别的大量数据,因此部分标签设置是必不可少的[28,35]。例如,Instagram数据集由数十亿张社交媒体图像组成,其相应的标签作为标签,这些标签通常是嘈杂的[28]。我们的方法使一个步骤的进展,处理噪声的多标签分类。然而,目前的WSML方法的限制,尚未达到的性能与完全注释的标签。我们希望我们的方法有利于进一步研究在WSML领域,以达到完整的标签性能。鸣谢。 这项工作得到了韩国国家研究基金会(NRF,2021 R1 A4 A1030898(10%)),信息通信技术规划评估研究所(IITP,2021-0-00106(50%),2021-0-01059(20%),2021-0-00180)的(20由科学和信息通信技术部(MSIT)、韩国创业公司技术孵化器计划、中小企业和创业公司最低限额、INMAC 和 BK 21-plus 资 助 的 赠 款 。 此 外 , ERC(853489)也为这项工作提供了部分- DEXIM)和DFG(2064/1 -项目编号390727645)。天真的一个LSAN角色LL-Ct(我们的)完整标测试集性能(mAP)方法VOCCoco初始AN78.946.4WAN [7,27]79.847.7LSAN [7,37]79.549.1EPR [7]80.248.1角色[7]82.551.5LL-R(我们的)83.754.0LL-Ct(我们83.754.114167引用[1] DevanshArpit,StanischiawJastrzeJubbski,NicolasBallas , DavidKrueger , Emmanuel Bengio ,Maxinder S Kanwal , Tegan Maharaj , Asja Fischer ,Aaron Courville , Yoonge Bengio ,A closer look atmemorization in deep networks. ICML,第233-242页。PMLR,2017年。二、三[2] Serhat Selcuk Bucak,Rong Jin,and Anil K Jain.不完整类分配的多标签学习在CVPR中,第2801-2808页IEEE,2011年。一、二[3] Minmin Chen,Alice Zheng,Kilian Weinberger.快速图像标记。在ICML,第1274-1282页中。PMLR,2013年。2[4] 陈天水,徐慕新,惠晓璐,吴贺峰,林亮。多标签图像识别的学习语义特定图表示。在ICCV,第522-531页,2019年。2[5] Zhao-Min Chen , Xi-Shen Wei , Peng Wang , andYanwen Guo.用图卷积网络进行多标记图像识别。在CVPR中,第5177-5186页,2019年。2[6] Tat-Seng Chua , Jinhui Tang , Richang Hong , HaojieLi,Zhiping Luo,and Yantao Zheng.Nus-wide:新加坡国立大学的真实网络在2009年ACM图像和视频检索国际会议的Pro-ceedings中,第1-9页。二、五[7] Elijah Cole,Oisin Mac Aodha,Titouan Lorieul,PietroPerona,Dan Morris,and Nebojsa Jojic.从单个正标签进行多标签学习。在CVPR中,第933-942页,2021年。一、二、五、六、八[8] Jia Deng,Olga Russakovsky,Jonathan Krause,MichaelS Bernstein,Alex Berg,and Li Fei-Fei.可扩展的多标签注释。在计算系统中的人为因素的SIGCHI会议论文集,第3099-3102页,2014年。2[9] Thibaut Durand,Nazanin Mehrasa,and Greg Mori.学习用于具有部分标签的多标签分类的深度卷积网络。在CVPR中,第647-657页,2019年。一、二、五、六[10] M. 埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I. 威廉斯,J.Winn和A. 齐 瑟 曼 。 pascal 视 觉 对 象 类 ( voc ) 的 挑 战 。International Journal of Computer Vision,88(2):303二三五[11] 郭昊和宋望。基于均匀和重新平衡采样的协作训练的长尾多标签视觉识别。见CVPR,第15089-15098页,2021年。2[12] 阿格里姆·古普塔,皮奥特·多勒,罗斯·格希克。Lvis:用于大词汇实例分割的数据集。在CVPR中,第5356-5364页1[13] Bo Han,Quanming Yao,Xingrui Yu,Gang Niu,MiaoXu,Weihua Hu,Ivor W Tsang,and Masashi Sugiyama.协同教学:对带有噪声标签的深度神经网络进行鲁棒训练.在NeurIPS,第8536-8546页,2018年。二、三、四[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。三、五[15] 黄俊,李国荣,黄庆明,吴新东学习多标签分类的标签特定特征141682015年IEEE International Conference on Data Mining,第181-190页。IEEE,2015年。2[16] Dat Huynh和Ehsan Elhamifar。交互式多标签cnn学习与部分标签。在CVPR中,第9423-9432页,2020年。一、二、五、六[17] Lu Jiang , Zhengyuan Zhou , Thomas Leung , Li-JiaLi,and Li Fei-Fei. Mentornet:在损坏的标签上学习数据驱动的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功