文件标题建议：元学习方法校正标签噪声提高深度神经网络性能

143 浏览量更新于2023-10-25 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

43214524通过元学习王震1、胡国胜2、胡清华<$11天津大学智能与计算学院天津市机器学习重点实验室天津，中国2AnyVision网址：wangzhen315@tju.edu.cn，huguosheng100@gmail.com，网址：www.example.com，huqinghua@tju.edu.cn摘要标签噪声可能会显著降低深度神经网络（DNN）的性能。为了训练噪声鲁棒的DNN，已经引入了损失校正（LC）方法。LC方法假设噪声标签是由未知噪声转移矩阵T从干净（地面实况）标签中破坏的。骨干DNN和T可以单独训练，其中T由先验知识近似。例如，T可以通过堆叠来自每个类的样本的最大或平均预测来构造。在这项工作中，我们提出了一个新的损失校正方法，命名为Meta Loss Correction（MLC），直接学习T从数据通过元学习框架。MLC是模型不可知的，并从数据中学习T，而不是使用先验知识来近似T。对计算机视觉（MNIST，CIFAR-10，CIFAR-100，Clothing 1 M）和自然语言处理（Twitter）数据集进行了广泛的评估。实验结果表明，MLC实现了非常有竞争力的性能对国家的最先进的方法。1. 介绍深度学习在计算机视觉任务方面取得了巨大成功，例如目标检测[9]，图像分类[20]，分割[2]，人脸识别[13]。众所周知，DNN的性能高度依赖于大规模高质量的良好标记的训练数据。然而，收集如此大的干净数据是昂贵和耗时的。为了收集这些数据，人们通常求助于搜索引擎、自动标签软件和众包，这不可避免地带来了标签噪音（错误或损坏的标签）。标签噪声会导致DNN过度拟合此类噪声[38]，最终降低模型的泛化性能。损失校正（LC）方法[17，28，12]重新-*表示等额缴款。†通讯作者：胡庆华（huqinghua@tju.edu.cn）cently在抗噪声深度学习方面取得了巨大成功。LC方法假设噪声标签被未知的噪声转换矩阵T从干净（地面实况）标签损坏。因此，LC方法试图准确地学习这个矩阵。一些早期的作品[31，17]在骨干卷积神经网络（CNN）的末尾添加了一个线性噪声层，以隐式估计矩阵T。与这些隐式优化不同，LC方法[28，12]显式估计T。例如，一个然后通过叠加每个“完美示例”的预测来估计T。Gold Loss Correction（GLC）[12]使用一个小的干净数据集的平均预测来估计T，而不是使用最大预测。显然，这些使用先验知识来估计T的方法[28，12]是启发式的，并且为了直接从数据中学习T，而不是以抽象的方式，我们引入了元学习。元学习是一种通用的数据驱动的优化框架，它可以从数据（元数据）中学习经验（元参数）。更一般地，元参数可以是在深度学习中要优化的一些参数。最近，元学习在许多优化任务上取得了巨大成功，包括：超参数优化[18]、神经结构搜索[41]和优化器选择[26]等。大多数元学习方法包含两个优化循环：内部循环（实际-列车）进行主要优化（例如，主要的深度网络训练），并且外部循环（元训练）优化一些方面（元参数，例如，主网络的超参数）。受元参数优化成功的启发，在这项工作中，我们通过将T视为元参数来调整元学习以优化T。元学习通常使用一个小的小的“干净”验证集也是LC噪声鲁棒学习方法的流行设置[12]。通过元学习和一个小的valida-43214525提出了一种新的损失校正方法--Meta Loss Correction（MLC），用于学习噪声转移矩阵T。具体来说，我们进行交替优化以优化T和主（骨干）网络权重θ。首先，在Virtual-Train阶段对噪声训练集进行一步虚拟优化θ;在Meta-Train阶段，在固定一步虚拟优化θ的情况下，在验证集上以损失（元目标）为指导优化T（元参数）;在Actual-Train阶段，在噪声训练集上以更新后的T优化展开后的θ我们的贡献可归纳如下：提出了一种新的损失校正方法--Meta损失校正（MLC），用于噪声转移矩阵的学习. MLC是模型无关的，可以适应不同的骨干网络，可以很容易地推广到计算机视觉（CV）和自然语言处理（NLP）的任务。我们的MLC不依赖于我们对CV数据集进行了广泛的评估：MNIST [3]，CIFAR-10[19]，CIFAR-100 [19]，Clothing 1 M [35]和NLP数据集Twitter [8]。MLC在这些数据集上实现了非常具有竞争力的性能，超过了最先进的方法。本文的结构如下。在下一节中，我们将简要介绍相关工作。第三节介绍了我们的方法.在第4节中对所提出的算法进行了评估。第五部分是结论。2. 相关工作在本节中，我们简要回顾了现有的研究标签噪声。鲁棒损失函数被广泛研究。[27]提出了两个鲁棒损失函数来处理天线噪声，一个处理非对称遗漏噪声，另一个模型reg-gap。可以通过EM算法来优化。[29]介绍了[7]证明了在该损失下容忍均匀标签噪声的一个充分条件，并指出0-1损失和S形损失满足该条件。然后，[6]进一步证明了平均绝对误差（MAE）是深度CNN的噪声鲁棒损失。然后，[40]提出了广义交叉熵（GCE）损失，这是MAE和传统交叉熵（CE）损失的推广。MAE和CE之间的权重可以通过调整GCE的参数来调整鲁棒损失函数取得了一些成功，但是，它们在具有挑战性的噪声数据集上表现不佳。重新标记是对有噪声的样本重新分配标签重新标记包括两个设置：（1）包括一个小的干净的数据集和（2）没有这样的数据集。对于（1），[32]提出了一个多任务网络：训练一个清洁模型在干净的样本上清理（重新标记）噪声数据，然后在合并的数据集（干净和重新标记的数据）上训练一个分类模型。[22]从知识图和干净标签中提取信息，以指导噪声数据的重新标记。对于（2），[25]引入了一种自纠错（SEC）策略，根据CNN的预测/置信度重新标记噪声数据[34]还使用预测来重新标记样本。加权的目的是学习为带有损坏标签的样本分配较小的权重。[11]介绍了同时训练两个网络的协同教学策略。这两个网络选择具有小损失的训练样本（期望的干净样本），然后用这些选择的样本相互通信以进行训练。自定进度学习[15，39]被提出来学习由训练损失指导的训练样本的权重。对于随机分类噪声，[24]设计了一种重要性重新加权方法，通过采用逆噪声率来重新加权样本[16]使用额外的LSTM网络来学习训练样本的最佳权重[30]通过使用一个小的验证集来重新加权[33]检测噪声标签并基于噪声标签检测提供的置信度对噪声样本重新加权。损失校正方法近年来在抗噪声学习方面取得了巨大的成功。基本上，噪声过渡马-AQUAIT被引入到正确的预测。然后，这类方法的目的是学习最佳的T，这可以导致噪声鲁棒性能。[31，1]在主干CNN的末尾添加一个额外的线性层，用于模拟噪声转换矩阵。而不是修改架构，[28，12，10]使用先验知识来估计T，例如，[28][29]我们的工作属于这一类。如前所述，大多数现有方法基于先验知识来估计T。相比之下，我们直接从数据中优化T，而不依赖于先验知识和假设。3. 方法3.1. 标签噪音问题在许多应用中，所收集的数据集被标签噪声破坏。将噪声数据集表示为Dη={（xi，y<$i），1≤i≤N}其中y<$i∈{0，1}C可能有噪声C类中的标签用T表示C × C噪声转换概率，T通过Tij=p（y=j）指定干净标签i翻转为噪声标签j的概率|y=1）。在[12，30]中，假设我们可以访问一个小干净的数据集。这是一个合理的假设，因为在现实世界中收集这样的数据集是可行的用Dv={（xi，yi），1≤i≤M}，M<$N表示小的干净数据集（通常用作验证集）。令f（x;θ）表示编码的骨干DNN43214526我通过θ，则交叉熵（CE）损失表示为：1ΣNLoss=CE（f（x;θ），yθ）=−N i=1y∈ilog（f（xi;θ））（一）给定噪声转移矩阵T，我们修改损失函数Eq. (1)包括T以实现噪声鲁棒模型训练。因此，校正损失函数表示为：1ΣNLossLC=−Ni=1y∈ilog（Tf（xi;θ））（2）现有的方法损失校正方法的有效性在很大程度上取决于T的估计。为了估计T，[28]假设存在对每个类i的例子' x'进行fect，使得p（y =i|x′）=1。然后图1：拟议的Meta Loss Correction（MLC）方法的框架，包括三个阶段：伊伊‘perfect example’具有类别i的最大预测/概率（softmax得分）。则Tij=p（ y=j|x′ ）。与 [28] 不同， GoldLossCorrection（GLC）[12]使用干净验证集上属于类别i的所有样本的平均预测而不是最大预测来近似T。动机虽然[28，12]实现了有希望的表现，但[28]和[12]中的假设并不总是成立的。例如，我们不能保证每个类的“完美示例”总是存在。此外，T的估计是启发式的，因为T是由简单的操作直接构造的，即。[28]或平均值[12]的预测样本。在这项工作中，我们提出了一个基于学习的模型，学习T采用元学习优化策略，元损失校正（MLC）。我们的MLC不依赖于相反，MLC直接从数据优化T3.2. 优化转移矩阵T通过Meta学习虚拟训练（第一次）、元训练（第二次）和实际训练（第三）。GD表示梯度下降算法。Tt+1，具有低验证损失。由于Dv是干净的，因此该监督信号对于指导Tt+1的优化是理想的。请注意，“验证”指导方法的思想[5]和微分神经网络搜索[23]。在实际训练过程中，展开的网络权重θt被优化，以获得θt+1和更新的Tt+1。显然，实际训练是从展开的网络权重进行“实际”骨干网络优化的步骤，优化框架如图所示。1.然后，我们详细介绍了这三个优化步骤分别。给定噪声训练集Dη，在每个小批量中，我们固定Tt并优化网络权重θt，因此步骤t的损失函数为：1Σn在这项工作中，我们进行了交替优化，以优化噪声转移矩阵T和骨干网-lvirtual−trn=− ni=1yilog（Ttf（xi;θt））（3）工作通过Meta Loss Correction（MLC）策略由θ编码。具体而言，MLC方法包含三个阶段：虚拟训练、元训练和实际训练。对这三个阶段进行交替优化。在虚拟列车阶段，我们优化了骨干网络，工作加权θt以获得θt+1，其中Tt是固定的（即在前一次迭代中优化）由噪声训练集Dη上的校正损失函数引导。请注意，这是一个“虚拟”步骤，意味着骨干网络实际上并不移动到θ t + 1。“虚拟”步骤为在下一阶段中估计Tt +1做了在Meta-其中n是训练集中的批量大小然后一个-步进式θt+1（Tt）=θt−αθtlvirtual−trn（4）Meta-Train给定向前一步的骨干网络（固定θt+1），我们可以在验证集上优化最佳Tt+1ΣM在初始阶段，我们通过保持θτt+1在以下条件下不变来优化Tt+1lMeta−trn= −1ylog（f（x;θt+1））（5）小的干净验证集Dv上的交叉熵损失。Meta-Train的动机是，我们希望找到一个Mi ii=143244527JJJJθθ，Tj j1jC然而，这仍然是消耗时间和内存的，所以我们得到一个小批量验证集的近似估计：算法1：Meta损失校正（MLC）输入：随机初始化{θt，Tt}，噪声训练lMeta−trn=−1ΣmMi=1yilog（f（xi;θt+1））（6）setDη，clean validation setDv，迭代I对于t = 1，…，我虚拟列车：优化“虚拟”网络其中m是mini-batch的大小。转换矩阵T也通过梯度下降法以学习率β进行更新：通过等式（1）在D η上加权θt+1。（3-4）Meta-Train：优化转换矩阵Tt+1在Dv上，通过等式（5-10）实际列车：优化“实际”网络ut+1=Tt−β<$TtlMeta−trn（7）将链式法则应用于等式（7）：Dη上的权重θt+1端输出：型号θI+1经由等式（十一）ut+1=Tt−β{t+1lMeta−trn（−α<$2t{tlvirtual−trn）}（八）培训过程。在初始训练阶段（第一阶段），网络可以快速拟合简单的样本。之后，网络学习拟合硬样本（第二阶段）。这个过程注意，ut+1是原始的一步向前噪声转换矩阵。UT+1不能用作最终的噪声传输矩阵，因为UT+1的项不总是非负的，并且UT+1没有被归一化。因此，我们首先通过以下方式使ut+1变为非负Tt+1=max（ut+1，0）（9）F或Tt+1的第j行，即 Tt+1=[Tt+1，.，T/T+1]它表示所有转移到类j的概率，我们然后在Tt+1上执行归一化以实现最终的（第一阶段和第二阶段）详见[4]。对于带有噪声样本的深度模型训练，我们可以看到噪声标签在第一阶段并不会对训练产生太大影响，因为噪声样本显然并不容易。在第二阶段，网络不能区分具有正确标签的硬样本和具有错误标签的噪声样本，因为这两种类型的样本都产生很大的损失。在第二阶段，来自错误标签的监督信号会使网络对噪声样本过拟合。过渡矩阵的引入实际上是为了减少第二阶段的过拟合。该方法[28]使用从噪声中学习的先验知识Tt+1：时间+1J. 1，如果a= 0数据来估计T.但是，这一估计不能保证--T的准确性，因为这种估计基本上源于噪声训练数据。下面的方法GLC[12]”[28]这是一个很好的例子，它是一个很好的例子，也是一个很好的例子。Tt+1=0JTt+1+δ（Tt+1），δ（a）=0，如果为0一个干净的验证集上的信息，可以提供准确的监督信号。然而，GLC并不优化其中，δ（·）用于避免D值为0。（十）T直接与一个适当的损失函数相关联，模特训练相反，GLC将每个类的平均预测值逐层堆叠以构建T。在这项工作中，我们在在Meta-Train中，我们现在通过保持T t +1固定来对噪声训练集进行然后我们可以通过梯度下降获得新的网络权重θt+1，学习率为γ，Dη：1ΣnMLC还使用了一个干净的验证集，以避免错误的监督信号估计T。此外，我们使用损失函数直接优化与深度模型训练相关的T，目标是在干净的验证集上获得最佳准确度。显然，我们的方法是数据驱动的，而不是先验知识驱动的。θt+1=θt−γ<$θt（−ni=1yilog（Tt+1f（xi;θt）（11）432445284. 实验4.1. 实验设置整个优化框架（虚拟训练、元训练和实际训练）总结在算法1中。分析为了理解噪声标签的影响，我们首先通过正常（没有损坏的标签）深度模型我们在四个计算机视觉（CV）数据集上评估了我们的方法：MNIST [3]，CIFAR-10 [19]，CIFAR-100 [19]和Clothing1M [35]，一个自然语言处理（NLP）数据集：Twitter [8]。请注意，Clothing 1M中的噪声[35]都来自现实世界还有其他的噪音43254529图2：三种类型的真实噪声转移矩阵T（30%噪声比）的可视化。以前4名（共10个班级）为例。数据集是人工生成的。MNIST MNIST [3]数据集注释有10个对象类别，包含28× 28个手写数字图像。训练集和测试集分别包含60k和10k的图像. 对于MNIST，我们采用了像LeNet这样的网络[21]使用SGD优化器，学习率为1e-2。设置α=1e−2，β=1。CIFARCIFAR [19]数据集包含32 ×32彩色图像。训练集和测试集分别由50K和10K图像CIFAR-10和CIFAR-100含有10分别为100种在[12]之后，我们在这两个数据集上使用深度为40的宽ResNet和加宽因子2（WRN-40- 2）[37]我们使用SGD优化器训练网络，批量大小为64，学习率为1e-4，动量为1 e-4。tum 0.9和重量衰减5e-4。设α=1e−3，β=1e−2在这个实现中。Clothing1MClothing1M数据集由1M噪声数据和额外的50K，14K和10K干净数据组成，分别用于训练，验证和测试集。Clothing1M数据集注释了14个类。在[28]之后，我们使用ResNet-50，它在ImageNet上进行了预训练，批量32，学习率8e-3，动量0。9和重量衰减1e−3。在这个实现中，设置α=1e−2，β=1e−1Twitter的Part-of-Speech Tagger for Twitter [8]数据集包含1827条tweets，注释了25个POS标签。Twitter被分成一个包含1000条推文的训练集、一个包含327条推文的开发集和一个包含500条推文的测试集。我们将训练集和开发集合并以构建增强的训练集。在[12]之后，我们使用窗口大小3和两层全连接网络。我们使用亚当优化器训练网络，并使用批处理-大小为64，学习率为1e-3，权重衰减为5e-5。设置α=1e−2，β=1。噪声我们在不同类型的噪声下进行了大量的实验。在[6，30]之后，我们人为地腐败有三种噪音的标签：均匀地翻转到所有类（ Uniform ）、随机地翻转到任何其他类（ Flip-Random ）和翻转到一个单独的不同类（ Flip-To-One）。噪声转移矩阵（30%）示例噪声比）下的三种类型的噪声图中所示2. 我们在不同的噪声水平下评估我们的方法{10%，20%，30%，40%}。对于CIFAR-10和MNIST，我们每个类随机采样50个干净的图像，因此m=500。对于CIFAR-100，我们每个类随机抽取5个干净的图像，因此m=500。对于Twitter，我们每个类采样8个干净的图像，因此m=200。比较方法我们使用原始论文发布的开源实现与最先进的方法[28，12，30，10，11]进行比较。为了进行公平的比较，所有方法都使用相同的训练（噪声）和小验证（干净）集。如果所比较的方法不依赖于小的验证集，则将训练集和小的验证集合并为训练集。比较的方法包括：（1）基线（CE）。我们只使用交叉熵（CE）损失训练基线模型（根本不使用噪声校正）。(2)基线（FC）。我们在骨干网络的末端增加了一个额外的噪声校正层（全连接层）来模拟噪声转移矩阵。(3)远期损失校正（远期）。Forward [28]使用来自噪声训练数据集的相应类的最大softmax概率来近似T(4)黄金损失修正（GLC）。GLC [12]使用来自小的干净验证集的属于同一类的所有样本的平均预测来估计T。(5)混淆矩阵。它是GLC的简化版本，通过混淆矩阵估计T[12]。(6)学习重新加权示例（LRE）。而不是估计T，LRE[30] 学习对样本进行加权，期望噪声样本具有小的权重。(7)合作教学。同时训练两个深度神经网络，以选择彼此损失较小的训练样本（预期的干净数据）。通过这种方式，这两个网络可以通过提供（预期的）干净样本进行训练来相互学习。(8)戴面具Masking [10]提出了一种结构感知概率模型，该模型结合了（人工辅助的）结构先验，以学习噪声转移概率。（9）铅笔。PENCIL [36]引入了一种概率模型，可以更新网络参数和标签估计。43254530(a) 均匀（b）翻转随机（c）翻转到一图3：在30%噪声比下，CIFAR-10上各种尺寸的干净图像的测试精度（%）（a）均匀噪声;（b）翻转随机噪声;（c）Flip-To-One噪声。(a) CIFAR-10，所有噪声类型（b）CIFAR-10，均匀(c)CIFAR-10，Flip-Random（d）CIFAR-10，Flip-To-One图4：不同噪声类型和噪声比下的比较（a）我们的MLC与各种类型噪声下的基线（CE）(b) 我们的MLC与在均匀噪声下的现有技术;（c）翻转随机噪声;（d）翻转到一噪声。作为标签分发。4.2. 结果在[12，30，10，11]之后，我们引入一个小的干净验证集来估计T。在我们的MLC框架中，T是在元训练阶段的小验证集上的损失的监督下在这里，我们探讨了小验证集对最终的噪声鲁棒分类性能的影响。我们修正了训练集和测试集，并改变了小验证集的大小。从图3中，我们可以看到，小验证集（干净图像）的增加可以提高性能。然而，当小验证集的大小大于100时，性能的增益是小了这意味着我们不需要标注大量干净的数据集来指导Meta训练，这在现实世界中非常有利。此外，我们的MLC持续优于我们的竞争对手GLC [12]。特别是，对于极小的验证集（50张图像），MLC 明显优于GLC。它表明，我们的MLC是非常强大的噪声，即使是非常小的注释干净的样本。对各种噪音的稳健性我们探讨MLC在各种噪音下的稳健性。具体来说，我们在3种类型的噪声下进行测试（均匀，翻转，随机，翻转为一），噪声比为{10%，20%，30%，40%}。我们在CIFAR-10数据集上进行了评估。图4（a）比较了我们的MLC与基线（CE）方法。43254531均匀翻转随机翻转为一数据集方法平均值表1：在各种噪声比下对各种数据集的测试准确度（%）。最准确的是粗体。请注意，三种类型的噪声和四种比率的平均精度。CIFAR-100无法生成具有“均匀”噪声的样本，<合作教学的结果摘自[11]。百分之十百分之二十百分之三十百分之四十百分之十百分之二十百分之三十百分之四十百分之十百分之二十百分之三十百分之四十基线（CE）98.59 98.39 98.27 98.02 98.60 98.46 98.25 98.18 97.59 96.65 94.26 84.68 96.66[12]第十二话98.26 96.05 91.62 74.43 98.73 98.53 98.46 98.39 98.26 96.05 91.62 74.43 92.90[第28话]98.64 98.40 98.36 98.14 98.70 98.48 98.44 98.31 97.84 97.07 95.40 95.21 97.75MNISTGLC[12]98.72 98.52 98.45 98.23 98.78 98.70 98.42 98.29 97.86 97.45 96.53 95.47 97.95LRE[30]98.66 98.60 98.28 97.79 98.92 98.54 98.33 97.77 98.82 98.48 98.15 97.78 98.34教育学[11]-97.25---------87.63 97.25MLC98.98 98.80 98.64 98.47 98.97 98.91 98.63 98.54 99.18 98.94 98.31 97.36 98.64基线（CE）80.23 78.21 74.13 72.18 79.96 77.94 75.51 71.74 81.31 80.80 79.31 71.25 76.88[12]第十二话80.12 78.23 74.26 72.83 80.40 77.87 74.99 72.11 81.62 80.05 78.76 75.31 77.21[第28话]81.02 79.29 76.91 74.63 80.31 78.26 75.78 72.44 82.49 81.35 80.80 79.43 78.56CIFAR-10 GLC[12]LRE[30]82.6982.8280.5481.8077.4279.3975.4478.5182.9883.0280.5581.2077.2479.4574.3776.8883.9284.1082.7282.8981.7082.4280.9581.8780.0481.20教育学[11]-82.32---------72.62 76.32Pencil[36]85.80 84.56 82.98 80.27 86.07 84.76 82.03 79.53 86.59 85.09 84.27 78.37 83.36MLC85.23 84.28 82.10 79.89 86.17 84.60 82.27 79.85 88.17 85.95 84.82 82.75 83.84基线（CE）----50.67 45.18 41.68 37.40 52.98 47.72 44.19 37.78 44.56[12]第十二话----36.82 28.12 24.07 19.17 39.24 36.02 35.53 29.47 31.06前进[28]----50.14 42.19 37.72 31.70 54.51 53.26 50.84 45.42 45.72CIFAR-100 GLC[12]LRE[30]--------39.4654.4637.3052.0731.3448.6427.5144.1045.2058.1043.5355.5340.1853.6237.2850.4237.7352.12教育学[11]-----54.23-----34.81 43.47Pencil[36]----59.97 56.15 51.75 44.85 60.03 58.48 57.33 52.62 55.15MLC----60.88 57.22 55.68 53.33 58.73 55.70 52.56 50.11 55.53基线（CE）87.36 86.52 86.25 85.41 87.54 86.77 86.03 85.80 86.85 85.01 81.02 70.28 84.57[12]第十二话84.75 86.36 85.75 85.47 86.84 85.65 85.85 84.49 86.06 85.97 84.08 79.65 85.08Twitter[第28话]GLC[12]79.0587.1377.8686.4081.8085.9478.3885.3155.0186.8875.3985.6979.3285.2968.8884.3147.1786.4065.3086.0571.3885.6558.3285.5469.8285.88LRE[30]86.73 86.26 85.75 85.20 86.29 85.44 85.30 84.10 86.60 86.07 85.62 84.91 85.69MLC87.28 86.92 86.10 85.52 87.60 86.73 86.12 85.43 87.45 87.01 85.71 84.36 86.35我们可以看到，我们的MCL在所有噪声比率和类型上都始终优于基线（CE），这表明我们的损失校正策略是有效的。图4（b）（c）(d) 在3种类型的噪声下比较MLC与最先进的方法：均匀噪声、随机翻转噪声和一对一翻转噪声。显然，我们的MLC始终优于其他方法。特别是，我们的MLC比其他损失校正方法更好。元学习的效果探索有希望的性能来自我们的元学习或干净的验证集。然后，我们引入了基线（FC），它在骨干网络的末端添加了一个全连接层来模拟噪声转移矩阵。我们使用干净的验证集和交替优化：使用验证集优化骨干网络，并使用噪声训练集优化骨干和FC层。从图5中可以看出，Baseline（FC）比Baseline（CE）工作得更好，显示了噪声43254532(a) 均匀（b）翻转随机（c）翻转到一图5：在各种噪声类型下，CIFAR-10上MLC、基线（FC）和基线（CE）之间的比较：（a）均匀的噪音;（b）翻转随机噪声;（c）Flip-To-One噪声。转移矩阵由于Baseline（FC）和MLC都使用了干净的验证集，因此MLC的性能优于Baseline（FC），这表明了元学习的有效性。我们在表1中的（1）对于MNIST，我们的MLC始终这意味着我们的MLC和Mask [10]对真实世界的噪声都非常鲁棒。请注意，Mask [10]手动定义了哪些类是相似的先验知识（例如，猫和狗）和哪些不是（例如，猫和汽车）。然后利用这种先验知识对噪声转换矩阵T进行优化.相比之下，我们的MLC直接从数据中自动学习T表2：Clothing 1M的测试准确度（%）在3种噪声条件下，该方法的性能优于其他方法。（2）对于CIFAR-10，我们的MLC始终比其他方法更好，例如。83.84%的MLC与在所有噪声比和类型的平均准确度方面，PEN-CIL的83.36%（第二好）。PENCIL实现了类似的per-approximation与我们的MLC在个别噪声比。(3)对于CIFAR-100数据集，我们的MLC优于其他AP-在Flip-Random噪声下进行了研究，并实现了类似于在Flip-To-One噪声下的PENCIL性能。(4)除了CV数据集，我们还在一个NLP数据集Twitter验证MLC的泛化能力。与CV数据集不同，基线（CE）方法实现了与损失校正方法相当的性能，例如它甚至在平均精度方面优于Forward：84.57%（基线（CE））vs. 69.82%（远期）。我们的MLC实现了最佳平均精度：86.35%（MLC）与85.88%（GLC，第二好）。总之，MLC对CV到NLP任务的噪声（各种类型和比率）非常鲁棒相比之下，另一种最先进的损失校正方法GLC在MNIST和CIFAR-10上工作良好，然而，在更具挑战性的数据集CIFAR-100上，性能显著下降。最后，为了显示我们的方法在真实世界噪声下的鲁棒性，我们在Clothing 1M数据集上测试了我们的MLC。如表2所示，CrossEntropy和Forward的结果分别从[28]复制，GLC和Mask分别从[12]和[10]复制。我们可以看到，我们的MLC和Mask [10]实现了最佳性能，显著优于其他方法。它5. 结论在这项工作中，当一个小的干净的数据集是可用的，我们提出了一种基于学习的损失校正方法，MetaLoss Correction（MLC），它可以学习噪声转移矩阵T和网络权重联合通过元学习。与大多数现有的方法，估计T使用先验知识，MLC学习T直接从数据与-出“完美的例子”的假设和人在回路中的过程。在CV和NLP数据集上进行了广泛的实验。结果表明，我们的MLC方法与其他损失校正方法和一般最先进的噪声鲁棒深度学习方法相比毫不逊色。确认本课题得到了国家重点研发项目2019YFB2101901和国家自然科学基金61925602、61732011的资助。方法先验知识精度[28]第二十八话没有68.94前进[28]是的69.84GLC [12]是的70.84面具[10]是的71.10MLC没有71.0643254533引用[1] 艾伦·约瑟夫·贝克和雅各布·戈德伯格。基于不可靠标签训练深度神经网络在 ICASSP ，第 2682-2686 页中。IEEE，2016.[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[3] 李登。用于机器学习研究的手写数字图像数据库IEEESignal Processing Magazine，29（6）：141[4] 杨帆，飞天，秦涛，江边，刘铁岩.学习要学习的数据。arXiv预印本arXiv：1702.08635，2017。[5] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML，第1126-1135页。JMLR。org，2017.[6] Aritra Ghosh，Himanshu Kumar和PS Sastry。标签噪声下深度神经网络的鲁棒在AAAI，第1919-1925页[7] Aritra Ghosh，Naresh Manwani，and PS Sastry.使风险最小化容忍标签噪音。神经计算，160：93[8] 凯文·金佩尔，内森·施耐德，布兰登·奥康纳，迪潘詹·达斯，丹尼尔·米尔斯，雅各布·爱森斯坦，迈克尔·海尔曼，达尼·尤加塔玛，杰弗里·弗拉尼根，诺亚·A·史密斯. Twitter的词性标注：注释、特征和实验。技术报告，Pitts-burgh Pa计算机科学学院，2010年。[9] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[10] Bo Han，Jiangchao Yao，Gang Niu，Mingyuan Zhou，Ivor Tsang，Ya Zhang，and Masashi Sugiyama.掩蔽：噪声监督的新视角。在神经信息处理系统的进展，2018年。[11] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor Tsang，and Masashi Sugiyama.合作教学：使用非常嘈杂的标签对深度神经网络进行鲁棒训练。在神经信息处理系统的进展，2018年。[12] Dan Hendrycks ， Mantas Mazeika ， Duncan Wilson 和Kevin Gimpel。使用可信数据在被严重噪声破坏的标签上训练深度网络。NIPS，2018年。[13] Guosheng Hu ， Yang Hua ， Yang Yuan ， ZhihongZhang ， Zheng Lu ， Sankha S Mukherjee ， Timothy MHospedales，Neil M Robertson，and Yongxin Yang.基于神经张量融合网络的属性增强人脸识别。在IEEE计算机视觉国际会议的Proceedings中，第3744-3753页[14] Guosheng Hu，Yongxin Yang，Dong Yi，Josef Kittler，William Christmas，Stan Z Li，and Timothy Hospedales.当人脸识别与深度学习相遇时：用于人脸识别的卷积神经网络的评估。在IEEE计算机视觉研讨会国际会议论文集，第142-150页[15] Lu Jiang，Deyu Meng，Shouou-I Yu，Zhenzhong Lan，Shiguang Shan，and Alexander Hauptmann.自主学习与多样性。神经信息处理系统进展，第2078-2086页，2014年[16] Lu Jiang，Zhengyuan Zhou，Thomas Leung，Li-Jia Li，and Li Fei-Fei.Mentornet：在损坏的标签上正则化非常深的神经网络。ICML，2017.[17] Ishan Jindal，Matthew Nokleby，和Xuewen Chen.使用dropout正则化从噪声标签中学习深度网络见ICDM，第967-972页。IEEE，2016.[18] 唐纳德·琼斯。基于响应面的全局优化方法分类。Journal of global optimization，21（4）：345[19] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[20] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[21] YannLeCun，Le'onBottou，YoshuaBengio，PatrickHaf fner等人。基于梯度的学习应用于文档识别。Proceedingsof the IEEE，86（11）：2278[22] Yuncheng Li ，Jianchao Yang ，Yale Song， LiangliangCao，Jiebo Luo，a

下载后可阅读完整内容，剩余1页未读，立即下载