弱监督图像分类中基于噪声正则化的方法

135 浏览量更新于2023-10-18 收藏 774KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

碗苹果杯连帽衫决策过程1基于噪声正则化的胡梦颖1，3，胡晗1，2，刘晓波，石广山1，2，3，4，陈西林1，31中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京1001902鹏程实验室，深圳，中国3中国科学院大学，北京1000494中科院脑科学与智能技术卓越中心，中国上海mengying.hu @ vipl.ict.ac.cn，{hanhu，sgshan，xlchen}@ict. ac. cn摘要弱监督学习是计算机视觉任务中的一个基本问题，如图像分类，对象识别等，因为它被期望在具有干净标签的大型数据集不可用的情况下工作。虽然有许多关于弱监督图像分类的研究，但它们通常限于单标签或多标签场景。在这项工作中，我们提出了一种有效的弱监督图像分类方法，利用大量的噪声标记数据，只有一小部分干净的标签（例如，5%）。该方法由干净网络和残差网络组成，分别以多任务学习方式学习特征空间到干净标签空间的映射和特征空间到干净标签和噪声标签之间残差的残差映射.因此，剩余网络作为正则化项来改进清洁网络训练。我们在两个多标签数据集（OpenImage和MS COCO 2014）和一个单标签数据集（Clothing 1M）上评估了所提出的方法。实验结果表明，该方法优于现有的方法，并推广到单标签和多标签的情况下。1. 介绍弱监督学习在许多计算机视觉任务中受到越来越图像分类、对象识别等，因为不完整和不准确的注释广泛存在于许多实际场景中。例如，不同子对象的不同知识水平可能导致对相同类别的图像的不同理解此外，可以自动收集大量数据集，并通过预训练的模型进行注释以重新生成数据集。*通讯作者。碗苹果杯连帽衫图1.基于标签-标签关系和图像-标签关系等假设，区分大量噪声标签中的可靠绿线和黄线分别表示正向和负向偏振。线的粗细表示相关性的强度。降低了标注时间和费用的成本，并且只有一小部分标签可以由人类验证传统的监督学习方法在处理带有噪声标签的数据集时面临着因此，从噪声数据中进行弱监督学习对于实际应用变得有价值，并且近年来引起了越来越多的关注[5，10，11，14，25，30]。现有的图像分类弱监督学习方法通常对噪声标签类型有一定的假设，即，单标签噪声或多标签噪声。Patrini等人[23]定义了一个矩阵T来描述单标号假设下每两个类之间的翻转关系。Veit等人。[30]隐式地学习了标签空间中的结构来进行多标签的预测。这两种假设各有特点。单标签噪声可以在训练过程中引入像聚类相似图像这样的方法[14]，而多标签噪声可以使用标签，11517苹果杯t恤11518与标签的关系，使算法更鲁棒[33]。虽然这些假设有助于提高模型的性能，但它限制了模型从单标签数据集到多标签数据集的泛化能力。对于单标签噪声学习方法[14，23，34]，由于其严格的假设，它们不能应用于多标签数据。对于多标签噪声学习方法[20，30，33]，它们对单标签数据的有效性是未知的。在这项工作中，我们专注于调和弱监督图像分类中单标签和多标签之间的差距。在我们的观察中，虽然以前的方法使用不同的假设来辅助分类器学习，但它们的核心思想是区分大量噪声标签中的可靠和不可靠部分，例如，学习噪声标签空间到干净标签空间的映射，或利用噪声的特性滤除部分噪声标签如图对于使用标签到标签或图像到标签关系的假设的方法，噪声标签的可靠和不可靠部分由正相关或负相关的强度确定。在本文中，我们提出了一种弱监督学习的图像分类方法，可以自动识别可靠的标签从大量的噪声标签。我们期望所提出的方法可以利用大量的噪声标记数据与一个小的干净的标签集，以获得一个更强大的图像分类模型。此外，我们期望所提出的方法可以推广到单标签和多标签图像分类。我们的方法的概述如图所示。2.所提出的方法包括干网（即，ResNet-50）、清洁网和残留网。干网络用于共享特征学习。干净网络和残差网络分别负责学习从特征空间到干净标签空间的映射以及从特征空间到干净标签和噪声标签之间的残差的残差映射。类似于[11，30]，我们只使用一小部分具有干净标签的数据集来帮助网络训练。我们只使用干净的标签来监督干净的网络，使用噪声标签来监督干净的网络和剩余的网络之和，重新排序。残差网络作为正则化项改进了净网络训练，使其能够利用大量噪声数据中的可靠信息，同时避免不可靠信息的大影响。实验结果表明，该方法优于现有的方法，并推广到单标签和多标签的情况下。我们的贡献如下。(i)该方法通过一个残差网络对噪声标签分布进行建模，并利用残差网络对干净网络的训练进行正则化，使干净网络能够利用大量噪声数据中的可靠部分来提高分类性能。(ii)该方法具有较好的泛化能力，可用于单标签和多标签图像分类任务。2. 相关工作大多数弱监督图像分类方法的目标是从只有噪声标签的数据中学习。一类方法旨在将噪声数据与整个数据集区分开[2，14，17，18，24，28，32]。这些方法通常侧重于发现噪声数据和干净数据之间的差异。Brodley和Friedl [2]在训练之前使用一组分类器来去除离群值，假设离群值可能是噪声数据。Reed等人[24]使用了自举技术，该技术可以在预测一致性假设下动态更新监督，以过滤掉潜在的噪声标签。Wang等人[32]使用收缩损失来区分具有噪声标签的数据和具有干净标签的数据。Lee等人。[14]引入了一个参考集来获得噪声集的代表，并将其用于噪声检测和图像分类。另一类弱监督学习方法是探索损失函数[1，6，19，21，23]或网络架构[20，22，26]的新设计，以实现噪声鲁棒学习。这些方法并不旨在明确地将相反，他们将标签转换过程整合到分类网络设计中，旨在学习一个强大的端到端分类模型。Sukhbaatar等人[26]使用单个线性层来模拟从干净标签到嘈杂标签的标签转换过程，而Patrini等人。[23]用估计噪声转移矩阵替换了该层。 Misra et al.[20]提出了一种基于图像的多标签噪声概率模型，用于描述视觉呈现（干净）标签和以人为中心（嘈杂）标签之间的关系我们的方法属于另一个流，假设很少有干净的标签是已知的[11，30，34]。这些方法的目的是利用大量的噪声标记数据与一小组干净的标签，学习一个强大的图像分类器。[10，30]提出了一个教师-学生框架，并利用标签清洗网络实现了噪声标签学习。Xiao等人。[34]建立了一个概率模型来描述噪声标签的生成过程，并使用具有干净标签的数据李等人[15]提取了干净标签中的知识，并使用它来避免过度拟合到嘈杂的标签。与仅从带有噪声标签的数据中学习相比，干净标签可以在一定程度上引导模型向正确的方向发展。这些工作中的实验结果表明，即使是一个小的干净的标签集的性能提高有积极的影响我们的方法类似于[15]，但我们使用具有噪声标签的数据来降低在更广义的框架下过度拟合具有干净标签的数据的风险，而不是[15]中的单标签分类假设。除了使用一小组干净的标签外，一些研究还引入了副信息（例如，知识图），以帮助提高模型对噪声标签的鲁棒性Wu等人[33]使用了一种混合依赖关系，11519图2. 概述了所提出的用于弱监督图像分类的方法，该方法由共享特征提取器（即，ResNet-50）、清洁网和残留网。干净网络和残差网络分别负责学习从特征空间到干净标签空间的映射（F c）和从特征空间到干净标签和噪声标签之间的残差的残差映射（F r）。我们分别使用噪声集中的噪声标签和干净集中的干净标签来训练两个分类器h和g h由D n中所有样本xi的噪声标签yi根据L噪声进行监督，g由D c中所有样本x j的干净标签vj根据L干净进行监督。具有分类器h的残差网络r在训练具有分类器g的干净网络c时用作正则化项。对标签之间的语义层次依赖关系进行图建模，通过标签传播来补充缺失的标签。Li等人。[15]引入了一个标签到标签图，在标签空间中编码结构，以避免使用干净标签的数据过于确定。然而，边信息有时与标签集高度相关，这也在一定程度上限制了模型的泛化能力。3. 我们的方法3.1. 问题公式化我们的目标是利用大量的噪声标记的数据与一个小的干净的标签集，以获得一个强大的图像分类模型。我们还希望该模型不需要对标签类型进行假设，并且可以推广到单标签和多标签图像分类任务。令D=D n<$D c表示整个训练数据集，其中D n={（xi，yi）|我=1、…N n}和D c={（xj，vj）|j=1，…Nc}是具有噪声标签的数据集s和具有干净标签的数据集;xi和yi在D中，n表示第i个图像和对应的噪声标签;Cn表示Dn中的总图像数，Dc中的xj和vj表示第j个图像和对应的干净标签;Nc表示Dc的总图像数。应当注意，不需要用于Dc中的图像的噪声标签。在这项工作中，我们不对噪声标签类型做任何假设，即，单标签或多标签数据。在实际应用中，对于复杂性，我们可以假设具有干净标签的图像的数量比噪声数据少得多，即，NcN.如图2，我们利用多任务学习[7，8，31]来执行弱监督图像分类，其训练两个分类器G和H以分别拟合干净集合中的干净标签和嘈杂集合中的嘈杂标签。骨干CNN（即，ResNet50 [9]或Inception V3 [27]）用于学习从图像空间x到特征空间f的映射（例如，池5）。剩余网和净网具有相同的特征。净网和剩余网都包含一个非线性变换，它作为两个线性层之间的激活层。活化层可以是常用的非线性激活函数，如ReLU，tanh和sigmoid。我们将在实验中详细地提供不同激活函数下的性能。该非线性变换用于学习从特征空间到干净标签空间或到噪声标签空间的映射。非线性激活比线性激活工作得更好的原因是共享特征空间f可能无法同时为具有干净标签的样本和具有噪声标签的样本提供区分能力3.2. 噪声正则化的残差网络分类器g与共享的骨干CNN和干净的网络一起它用于学习从特征空间到干净标签空间的映射。让c= F c（f（x））.（一）类似地，分类器g可以表示为：g=σ（c），（2）监督通过L分类器监督通过L分类器清洁套装噪音设置图片展示图片展示清洁标签标签噪音骨干CNN图像批特色（）清洁网（清洁）剩余净额（美元）乙状乙状线性激活线性线性激活线性11520其中σ是sigmoid函数。仅分别使用干净的数据，它们可以公式化如下训练分类器G的集合使得G易于过拟合，因为在实际场景中干净集合的大小可能非常小L噪声= −1NΣ（yiln（hi）+（1−yi）ln（1−hi）），（5）因此，我们引入分类器h，期望其ni∈Dn作为正则化项w.r.t.分类器湾1L=−Σ （v ln（g）+（1−v）ln（1−g）），（6）具体地，h用于学习从特征空间到干净标签和噪声标签之间的残差的残差映射清洁J Jj∈Dc标签让r= Fr（f（x））.（三）其中hi和gj是分类器h和g对相应的图像样本分别为xi和xj鉴于上述定义，我们的网络培训期间的总体目标可以表述为类似地，h可以表示为argminWαL清洁+L噪声，（7）h=σ（r+c），（4）其中σ是sigmoid函数。在我们的实验中，我们发现在应用sigmoid函数之前将r和c的值相加有助于网络具有更好的收敛性。所以我们在sigmoid之前做求和运算。我们不需要明确区分多标签和单标签数据。因此，我们使用sigmoid函数来生成两种情况的概率。h可以被视为g的噪声正则化项的原因与在网络训练期间使用正则化方法（诸如权重衰减、提前停止和退出）的原因相同它们都有助于缓解过拟合问题。通过以上讨论，我们可以看到，本文提出的残差网可以对大量噪声数据中的不可靠部分进行建模，进而可以让分类器g利用大量噪声数据中的可靠部分来实现更鲁棒的以这种方式，残差网络用作正则化项以缓解分类器g的过拟合问题。所提出的方法学习从干净标签空间到噪声标签空间的映射，条件是噪声标签中的不可靠信息从了解这两个标签空间之间的关系的角度来看然而，与显式地对标签转换过程进行建模不同，该过程通常需要干净集中的样本的配对噪声-干净标签，我们的方法不需要这种配对数据。使用干净网和剩余网，我们的方法可以探索干净标签和噪声标签之间的关系，从不成对的数据。因此，可以分别训练两个分类器g和h这使得所提出的方法在广泛的应用下工作成为可能3.3. 网络训练h和g都是用二进制交叉熵损失训练的。不同之处在于输入的图像不同。h由Dn中所有样本i的噪声标签yi监督其中W表示网络的参数，α表示两个损耗之间的权衡参数。遵循[30]，联合利用大量噪声标记数据和一小组干净标记数据来训练分类器g和h。在网络训练期间的每一批中，我们以1：9的比例从Dc和Dn中选择我们通过Ima-geNet预训练模型的权重初始化骨干CNN。我们在多标签和单标签数据上使用不同的训练对于多标签图像分类，我们首先通过使用带噪声的标记数据来微调骨干CNN，然后只训练干净网络和残差网络。对于单标签图像分类，我们直接对整个网络进行微调。4. 实验结果4.1. 数据集MS COCO 2014数据集[16]旨在用于图像分类，对象检测和语义分割任务，其中包含80个类别的约120K图像我们不直接使用原始MS COCO2014数据集，因为它缺少噪声标签。遵循[11，30]中半自动图像注释的想法，我们使用ImageNet [4]预训练的Inception V3 [27]模型为所有图像生成注释具体来说，我们首先将ImageNet 中的类映射到 MS COCO 中的类，并删除ImageNet中没有出现的类，得到一个包含56个类的标签集然后，我们使用Inception V3为原始MS COCO数据集中的每个图像生成前8个预测，并将它们映射到56个标签类。这些自动生成的标签可以被视为噪声标签。我们去除未标记的图像，最终得到三个集用于训练，验证和测试，大小分别为68，213，16，714和16，763张图像。1在68，213个训练图像中，我们假设仅一小组图像（例如，5%）在图像分类模型学习过程中具有干净的标签，其余所有图像都只有噪声标签。JNJC11521而G由所有样本j的干净标签vj监督在DC。我们将h和g的损失表示为L噪声和L清洁，1我们计划将我们编译的MS COCO数据集放入公共领域。11522表1.用于MS COCO 2014、Open- Image和Clothing 1 M数据库的评价方案OpenImage数据集[13]是一个用于图像分类的公共多标签数据集。它包含超过900万张图像，带有来自6，012个独特类别的机器注释标签。自从提出以来，这个数据集有很多版本。我们采用第一个版本来评估我们的方法。它在训练集中包含9，011，219张图像（带有噪声标签的数据），在验证集中包含167，056张图像（带有噪声和干净标签的数据）。按照[30]中的划分，我们使用整个训练集和四分之一的验证集（约40K图像）来训练模型，并使用验证集中的剩余图像进行测试。Clothing1M数据集[34]是一个广泛用于单标签噪声学习的数据集。2015年由[34]提出它包含100M带有噪声标签的图像，班与OpenImage中的噪声标签类型和MS-COCO的编译不同，它是由预训练模型注释的，Clothing 1 M中的标签被真实的50，000次加法迭代。我们使用两对学习率（（10−4，10−5）为5%，10%，（10−3，10−4）为20%）到Veit et al.[30]（WP / TJ）200，000迭代对于所提出的方法，我们对sigmoid函数使用10−4的学习率，对tanh和ReLU使用10−5权衡参数α根据经验设置为0.2。在 OpenImage 数据集上，我们使用 RMSPropoptimizer以10−3的学习率训练所提出的方法，使用32个批量大小和多达2M次迭代。我们设置权衡参数α=0。1.一、由于不是所有的类都有干净的标签，所以我们只适合那些有干净标签的类。在Cloth-ing 1 M数据集上，我们使用10−4的学习率，并使用32的批量大小和多达120，000次迭代来优化Adam的模型。我们设置权衡参数α= 0。二、4.3. 度量对于多标签图像分类，我们使用类平均精度（mAP）和类不可知平均精度（APall）来评估与[30]一致的性能。对于每个二进制分类问题，我们计算AP以反映阳性标签的预测精度，可以写为1Σn世界噪音”[34]“凡所有相，皆是虚妄。该数据集中的年龄由其周围文本的关键字指定。对于具有干净标签的图像，APc= mi=1Pre（i，c）·I（i，c），（8）分为训练、验证和测试，大小分别为50K、14K和10K。我们采用该方案是为了与最先进的方法保持一致。[14，23，34]。4.2.培训详细信息所提出的方法和所有基线方法都是用Tensorflow实现的。我们使用Inception V3模型作为OpenImage的骨干网络，使用 ResNet50 模型作为 MS COCO 和Clothing1M的骨干网络。由于MS COCO是我们自己编写的数据集，我们通过重新实现的基线方法报告结果，同时分别使用OpenImage和Clothing1M上报告的结果[30]和[14，23]。在MS COCO数据集上，我们首先使用所有带有噪声/干净标签的图像来训练ResNet 50（Noisy/GT），使用RMSProp优化的批量大小64进行20，000次迭代[29]。学习率初始化为10−4，每2个epoch衰减0.9。为了评估模型在具有干净标签的小数据集下的性能，我们使用整个训练集的5%，10%和20%样本来形成干净集。我们发现国家的最先进的方法Veit等人。[30]当用RMSProp优化时，（WP/TJ）很难收敛于MS为了进行公平的比较，我们使用32的批量我们使用10- 4的学习率来微调模型其中m和n表示正标签的数量，测试样品，分别。Pre（i，c）表示类c在秩i处的精度。I（i，c）是一个指示函数，其中1表示在秩i处存在类别c的正标签mAP是所有类的APc的平均值，而APall是通过忽略类注释将所有类视为单个类的AP。对于单标签图像分类，我们遵循最先进的单标签噪声学习方法[14，23]，并报告前1名的准确性。4.4. 多标签图像分类的结果我们首先在MS COCO [16]和OpenImage [13]上进行多标签图像分类实验。我们将其与最先进的方法进行比较[30]。由于[30]的源代码不是公开的，我们基于我们最好的理解实现了它，并在OpenImage [13]上实现了与[30]相似的结果（62.17% mAP和89.15%AP）。我们使用WP和TJ分别表示[30]中的两个变量（预训练，联合训练）。我们还提供了几个相关基线的结果。骨干（噪声）：使用数据集中的所有噪声标签训练骨干网络进行多标签分类。这可以被视为所有使用干净标签的方法的下限数据集#类#列车图像。确认/试验样本数量MS COCO20145668K/68K16K/16KOpenImage6,0129M/40K-/120K服装1M141M/50K14K/10K11523数据集方法MS CocoOpenImage地图5% 10% 20%AP所有5% 10% 20%地图AP所有主干（噪声）45.3039.1461.8283.82主干（噪声-FT-W）54.9456.3459.0356.8658.3661.2661.5385.88主干（Noisy-FT-L）55.1056.7758.7257.5359.3361.1865.6689.57主干（噪声-FT-M）49.7850.1350.2945.9946.0346.1661.9084.80Veit等人[30]（WP）46.5749.8351.8347.6350.6352.6462.3687.68Veit等人[30]（TJ）46.4250.1552.1446.4750.5952.7662.3887.67拟定（乙状结肠）58.2859.5160.5559.8661.1262.3469.0294.08拟议（tanh）57.9559.1960.1160.0361.3962.33––ReLU（ReLU）58.1659.2960.1960.1961.5462.44––主干（GT）65.1668.15––表2.在MS COCO和OpenImage数据集上，所提出的方法和几种基线方法的多标签分类性能（%）。我们分别在MS COCO中选择5%、10%和20%的干净标签，在OpenImage的训练集中选择所有干净标签作为干净集除了使用100%干净标签的结果之外的最佳结果（表示为骨干（GT））以粗体突出显示主干（GT）：使用数据集中的所有干净标签训练主干网络进行多标签分类。这可以被视为使用干净标签的应该注意的是，Back-bone（GT）仅在MS COCO上训练，因为整个OpenImage数据集的干净标签丢失。Backbone（Noisy-FT-W）：使用干净集合中的干净标签微调Backbone（Noisy）该方法直接使用干净标签来训练一个大型网络，当干净标签很少时，该网络容易过拟合。Backbone（Noisy-FT-M）：微调Backbone（Noisy）的最后一层，并在干净集合中使用混合标签。混合标签由干净集合中的干净标签和噪声集合中的噪声标签组成（比例为1：9）。Backbone（Noisy-FT-L）：使用干净集合中的干净标签微调Backbone（Noisy）的最后一层。该方法通过减少训练过程中的参数，缓解了过拟合问题。MS COCO和OpenImage的结果报告在表4.4中（mAP和APall）。我们可以看到，在MS COCO上，所有弱监督方法与基线方法-骨干（噪声）相比都可以显著提高性能，即使只使用5%的干净标签。这表明了干净标签对噪声标签学习的积极影响，并且这种影响随着干净标签数量的增加而增加。然而，当可用的干净标签非常少时（例如，5%），模型性能的提高变得更加困难。与其他方法相比，所提出的方法显示出最小的平均减少（2.3%，由我们的方法与。3.6%（根据mAP计算，Back-bone（Noisy-FT-L）），使用20%至5%清洁标签，同时保持最佳性能。与MS COCO类似，我们还在OpenImage上对训练集的不同百分比的干净标签进行了实验。对于OpenImage数据集，训练中整个干净集的大小约为40K。然后，我们使用了几个子-度量清洁标签百分之十百分之二十百分之四十百分之六十百分之八十百分百地图65.0865.9867.2067.9768.6169.02AP所有91.0892.1893.1393.6593.8694.08表3. OpenImage上的图像分类性能（在%）通过针对训练集使用不同百分比的干净标签的所提出的方法。组的干净集来训练模型，比例分别为10%，20%，40%，60%和80%。结果在表3中给出。我们可以看到，该方法可以保持最好的分类性能，即使干净集的大小减少到20%。它与M-S COCO上的结果一致，M-S COCO 通过仅使用一半数据实现了与 Back-bone（Noisy-FT-W）类似的性能（通过我们的方法使用10%干净标签与使用10%干净标签相比，59.03%，骨干（噪音-FT-W），使用20%清洁标签（mAP）。这可以是令人鼓舞的，并且在实际场景中具有实际意义，因为图像注释通常是昂贵且耗时的工作，这对于注释8K图像而不是40K图像更可行。在MS COCO和OpenImage数据集上的结果证明了我们的模型在利用大量噪声标记数据和一小部分干净标签来执行弱监督学习方面的有效性。在mAP方面，所提出的方法比最好的基线方法高出3.1%（在MS COCO上使用5%的干净标签）和3.3%（在OpenImage上）。我们在图中给出了一些分类结果的例子。3.该方法在许多基线方法不能很好工作的困难情况下表现良好需要注意的是，我们只是通过固定骨干网来训练净网和残网，如果训练整个网络，可能会有更好的我们的方法比最先进的方法性能更好11524图片来自OpenImage数据集的测试集前5名预测的超集食肉动物宠物nosedog橄榄球联盟橄榄球插图素描毛毛雨单色卡通食品烹饪菜肴沙拉蔬菜产品休闲图片来自MSCOCO数据集的测试集前5名预测的超集西兰花餐桌碗刀苹果勺热狗比萨饼伞车花瓶碗椅餐桌自行车车交通灯公共汽车自行车摩托车卡车背包狗# 方法1 ResNet50（噪音）2 ResNet50（清洁）3 [14]第十四话4 微调5 前进[23]6 微调7 拟定（乙状结肠）表4.在Cloth-ing 1 M数据集上通过所提出的方法和几种最先进的方法获得的单标签分类性能（%）最佳结果以粗体突出显示。在mAP和AP方面都是如此。然而，我们发现这三个函数的收敛速度是不同的。我们还报告了使用5%干净标签在MS COCO数据集上迭代的mAP变化。如图4、在相同的学习条件下，sigmoid函数的收敛速度是三种激活函数中最慢的图3.多标签图像分类的例子，由亲，在Open-Image和MS COCO数据集的测试集上，对设定的方法和基线方法进行了比较我们提供了Backbone（Noisy）、Backbone（Noisy-FT-L）和建议方法的前5个最可信的预测，分别表示为Baseline 1、Baseline 2和Proposed。我们选择5%的清洁标签作为MS COCO的清洁组。605550450 20000 40000 60000 80000迭代图4. MS COCO上的图像分类mAP，所提出的方法使用不同的激活函数（sigmoid，tanh和ReLU）和5%的干净标签。由Veit et al.[30]是：i）我们使用非线性变换来学习从图像特征空间到标签空间的映射，而[30]中使用线性变换; ii）我们的方法可以在网络训练期间利用整个数据集的所有噪声数据，而[30]只使用干净集中图像的噪声标签。我们还报告了使用不同激活函数的性能，即，sigmoid，tanh和ReLU，以便全面理解所提出的方法。使用三种不同活化函数的MS COCO数据集结果见表4.4。我们可以看到，在5%到20%的清洁标签之间，三个激活函数之间的平均差异是最小的，小于0.5率（10−5）。这就是为什么我们在实验中对sigmoid函数使用更高的学习率的原因。4.5. 单标签图像分类我们执行单标签的图像分类上的布料-ing 1 M评估所提出的方法的性能，并提供与国家的最先进的方法进行比较。我们使用的两个重要基线是CleanNet-wsoft[14]和For ward[23]。这些方法被设计用于从只有噪声标签的数据中学习。因此，为了利用具有干净标签的数据，他们需要微调模型，这在表4中由Fine-tune表示。除了最先进的方法之外，我们还提供了另外两个重要的传统基线，ResNet50（Noisy）和ResNet50（Clean），它们使用数据集中带有噪声标签或干净标签的所有数据来表4中报告了top-1准确度方面的结果。我们可以看到，所提出的方法具有可比的准确性与其他国家的最先进的方法（79.93%，由我们的方法与。80.38%由Forward [23] 和 79.90% 由 CleanNet-wsoft[14] ）在Clothing 1 M数据集上。Fr-ward [23]和所提出的方法都与所提出的方法相比，Forward [23]引入了额外的信息，该信息使用成对的噪声-清洁标签来估计标签混淆矩阵。这可能是[23]的表现略高于我们的原因。然而，在实际应用中，配对标签有时不可用，例如，在Cloth-ing 1 M数据集的训练集中的50 K图像中只有25K具有干净和有噪声的标签。因此，Forward [23]中对配对标签的要求也可能限制其使用。对于最先进的方法[14]，尽管我们实现了与之非常相似的结果，但所提出的方法不需要生成参考集，这有时可能非常耗时。乙状雷卢山基线1地图基线111525百分之九十八毛衣连帽衫百分之九十四T恤内衣毛衣百分之五图片top-3预测 g预测h预测百分之一点五百分之零点零二百分之十五百分之零点六百分之三百分之一点六百分之二十百分之七百分之零点七百分百分之一点四百分百分之二十三百分之零点一表5.不同训练策略对图像分类准确率的影响（%）。我们使用sigmoid作为OpenImage和Clothing1M数据集的激活比骨干（有噪声），因为没有明确的区别之间的清洁网络和剩余网络。当我们引入带有干净标签的数据来训练分类器g时，图5.在Clothing1M上使用所提出的方法生成的单标签图像分类示例。我们展示了分类器g的前3个预测，并将其与分类器h的相应预测进行比较。绿色和红色标签分别表示为了便于比较，我们将两个分类器的预测归一化。与限制于单标签图像分类的最新方法[23，14]相比实验结果表明，该方法不需要单标签噪声假设，在多标签数据集上表现良好。它表明，我们的方法在单标签和多标签图像分类的情况下推广良好。所提出的方法的另一个优点是它可以使用一步训练方案，而Forward [23]和CleanNet-wsoft[14]需要首先在带有噪声标签的数据上训练基础模型该方法利用全部数据对整个网络进行一次训练，简化了训练过程，同时具有较高的精度。图5显示了Clothing1M上所提出的方法从g和h的预测之间的残差可以看出，残差网络有助于对噪声数据中的不可靠部分进行建模，这使得g和h分别更好地拟合干净标签和噪声标签然而，如果图像太难分类，它们也可能导致错误的预测。4.6. 剩余网络为了说明剩余网络对整个网络的影响，我们提供了消融实验来分析分类器g和h的性能。除了所提出的方法（联合训练g，h）之外，我们还提供了我们的模型的两个变体：i）单独训练h（即，α=0）; ii）单独训练g（即，仅使用干净标签来训练模型）。如表5所示，单独训练h并没有表现得更好这两个网络的不同作用是可以认识到的。与单独训练g相比，训练g，h联合在OpenImage上的mAP方面提高了1.7%，在Clothing 1 M上的top-1准确度方面提高了4.8%。实验结果表明，残差网络从大量带噪声的标记数据中识别出的可靠信息可以提高分类器g在单标记和多标记图像分类任务中的性能。5. 结论虽然利用大量噪声标记数据的弱监督图像分类对于大规模干净数据集不可用的实际应用是有价值的，但由于难以从噪声数据中利用底层语义信息，因此具有挑战性。我们通过提出一种新的端到端可训练的弱监督学习方法来解决这些问题，该方法不需要对标签类型进行假设。该方法由一个干净的网络和一个残差网络，在多任务的方式工作，并负责学习从特征空间到干净的标签空间和从特征空间到干净的标签和噪声标签之间的残差的映射，分别。因此，剩余网络可以作为正则化项，以降低净网络过拟合的风险。在MSCOCO、OpenImage和Clothing 1M数据集上进行的多标签和单标签图像分类实验表明，该方法与现有方法相比具有良好的泛化能力，取得了令人满意的结果.确认本研究得到了国家重点研发计划（ 2017YFA0700800 ）、国家自然科学基金（61672496、61650202和61772500）和中国科学院夹克式风衣西装百分之六数据集方法OpenImage服装1M地图 AP所有top-1主干（噪声）61.82 83.8268.94单独训练h64.06 81.6467.92单独训练g67.34 93.7375.13联合培训g、h69.02 94.0879.9311526（CAS）对外合作项目（GJHZ 1843）的部分资助。11527引用[1] E. Beigman和B. B.克列巴诺夫使用注释噪声学习。在Proc. ACL，第280-287页[2] C. E. Brodley和M. A.弗里德尔识别错误标记的训练数据。 Journal of Artificial Intelligence Research ， 11（1）：131[3] X. Chen和A.古普塔。卷积网络的Webly监督学习在Proc.IEEE ICCV，第1431-1439页，2015中。[4] J. Deng，W.东河，巴西-地索赫尔湖Li，K. Li和F.李Imagenet：一个大规模的分层图像数据库。在Proc.IEEE CVPR，第248-255页[5] B. 弗赖奈和M. 你好。标签噪声存在下的分类研究综述。 IEEE Transactions on Neural Networks LearningSystems，25（5）：845[6] A. Ghosh，H.Kumar和P.S. Sastry 标签噪声下深度神经网络的鲁棒损失在Proc. AAAI，2017中。[7] H. Han ， A. K. Jain ， F. Wang ， S. Shan 和 X. 尘Heterogeneous Face Attribute Estimation：A Deep Multi-task Learning Approach.IEEE Transactions on PatternAnalysis and Machine Intelligence （ T-PAMI ）， 40（11）：25972018年。[8] H.汉角，澳-地奥托，X。Liu和A. K.贾恩。根据面部图像进行人口统计学估计：人与机器的性能。 IEEETransactions on Pattern Analysis and Machine Intelligence（T-PAMI），37（6）：1148-1161，Jun. 2015年。[9] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在proc IEEE CVPR，第770-778页，2016年。[10] M. Hu，H.汉，S. Shan和X.尘利用非线性特征变换从噪声标签中进行多标签学习。InProc. ACCV，2018.[11] N. Inoue、E. Simoserra，T. Yamasaki和H.石川多标签时尚图像分类与最少的人的监督。在Proc. IEEE ICCV研讨会，第2261- 2267页[12] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv：1412.6980，2014。[13] I. Krasin ， T.Duerig ， N.Alldrin ， A.Veit ， S.Abu-El-Haija ， S.Belongie ， D. 蔡氏 Z. Feng ， V. Ferrari ， V.Gomes，A. 古普塔D. 纳拉亚南角孙，G.Chaihik和K.墨菲打开图像：用于大规模多标签和多类图像分类的公共数据集。arXiv：1701.01619，2016年。[14] K. H.李，X。赫利湖，加-地Zhang和L.杨CleanNet：带标签噪声的可扩展图像分类器训练的trans-fer学习。InProc. IEEE CVPR，2018.[15] Y. Li，J.Yang，Y.松湖，澳-地Cao，J.Luo和L.J.李用蒸馏从噪声标签中学习。In Proc. IEEE ICCV. ，第1928-1936页[16] T. Y.林，M。迈尔，S。贝隆吉，J. Hays，P. Perona，D.拉马南山口 Dol la'r和C. L. 齐特尼克MicrosoftCOCO：上下文中的通用对象在proc ECCV，第740-755页，2014年。[17] T. Liu和D.涛. 通过重要性重新加权的噪声标签分类IEEE传输模式分析马赫Intell，38：447 -461，2016。11528[18] W. Liu，G. Hua和J. R.史密斯无监督单类学习自动离群值去除。在proc IEEE CVPR，第3826-3833页，2014年。[19] N. Manwani和P.S. Sastry 风险最小化下的噪声容限IEEE Transactions on Cybernetics，43（3）：1146[20] I.米斯拉角L. Zitni

下载后可阅读完整内容，剩余1页未读，立即下载