流形正则化转移矩阵估计的标签噪声学习方法

103 浏览量更新于2023-10-25 收藏 668KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16630基于流形正则化转移矩阵估计的德成1，刘同良2，宁义雄1，王楠楠1，韩波3，牛刚4，高新波5，杉山正4，6。1西安电子科技大学，2悉尼大学TML实验室，3香港浸会大学，4理研，5重庆邮电大学，6东京大学。{dcheng，nnwang}@xidian.edu.cn，tongliang.sydney.edu.aubhanml@comp.hkbu.edu.hkyxning@stu.xidian.edu.cn，gang.niu.ml @gmail.comgaoxb@cqupt.edu.cn，sugi@k.u-tokyo.ac.jp，摘要在标签噪声学习中，转移矩阵的估计越来越受到人们的关注，因为转移矩阵在构造统计一致的分类器中起着重要的作用然而，估计转移矩阵T（x）是非常具有挑战性的，其中x表示实例，因为它在实例相关噪声（IDN）下是不可识别的。为了解决这个问题，我们已经注意到，有心理学和生理学证据表明，我们人类更可能将相似外观的实例注释到相同的类别，因此相似外观的质量差或模糊的实例更容易被错误标记为相关或相同的噪声类别。因此，我们在T（x）的几何上提出了“两个实例越接近，它们对应的变换矩阵越相似“的假设。更具体地说，我们将上述假设公式化到流形嵌入中，有效地减少了T（x）的自由度，使其在实际中是稳定可估计的。提出的流形正则化技术的工作原理是直接减少估计误差，而不损害近似误差的估计问题的T（x）。在四个合成数据集和两个真实数据集上的实验评估表明，我们的方法优于具有挑战性的IDN下的标签噪声学习的最新方法。1. 介绍标签噪声学习在深度学习社区中引起了越来越多的[3、5、11、29、50、53]。主要原因是，精确注释大规模数据集变得非常昂贵，有时甚至不可行[14]。一种有效的方法是从众包平台[49]或在线查询[4]收集此类大规模数据集，这不可避免地产生低质量和噪声*通讯作者。数据因此，减轻噪声标签的副作用是一个非常关键的话题。噪声模型可以分为类条件噪声（CCN）和实例相关噪声（IDN）。在CCN中，来自一个类的每个实例都有固定的概率被分配给另一个类。而在IDN中，实例被错误标记的概率取决于其类和特征。在本文中，我们专注于更有前途的IDN方法，它考虑了更一般的噪声，可以应付现实世界的噪声。传统的标签噪声学习方法可以分为两类：统计不一致分类器算法和统计一致分类器算法在第一类中，算法不显式地对标签噪声分布进行建模，它们通常采用一些算法来减少标签噪声的负面影响[8尽管这种方法通常在经验上工作得很好，但是从具有标签噪声的数据中学习的分类器可能在统计上不一致，并且不能保证它们的可靠性。为了解决这个问题，分类器一致性算法已经被提出。具体而言，最近的研究表明，估计转移矩阵在构建标签噪声学习的一致分类器中起着重要作用，因为这些方法可以显式地建模噪声标签的生成过程[7，35]。然而，由于实例相关转移矩阵T（x）作为实例x的函数在IDN下是不可识别的，因此从干净标签中提取噪声标签是非常具有挑战性的。现有的方法试图从两个角度来处理这个具有首先，他们将估计一般标签噪声的矩阵值函数T（x）的复杂问题简化为估计T（即，固定矩阵），其被称为CCN。然后，采用一些锚点（当然属于某些特定类别的训练数据）来轻松估计转移矩阵T[22，32]。虽然这样的方法16631L∈||||图1. 提出的实例依赖标签噪声学习框架。我们以统计上一致的方式训练分类器，提出的IDTM T（x），其中T（xi）R K×K由过渡神经网络估计。通过流形嵌入正则化T（x），减少T（x）的自由度，使其在实际中可估计在流形嵌入中，通过在实例特征空间中找到k-最近邻来获得亲和矩阵Sij。最后，我们使用交叉熵来训练T（x）辅助的分类器。具有理论上的保证，并且在某些合成噪声标签或特定条件下取得了成功，但是它们不能处理一般的真实世界噪声，即，IDN.其次，一些先驱作品考虑了强约束，并专注于如何简化T（x）并显着降低其自由度或复杂性。例如，在部分相关噪声[44]中，假设T（x）是预定义数量的固定转移矩阵的凸组合，并且它们的系数来自非负矩阵分解。以这种方式，估计问题变成参数化的，并且可以减小T（x）的自由度这些方法的问题是，简化T（x）的形式太多，肯定会导致很大的近似误差。为了解决在IDN下估计IDTMT（x）的问题，本文将不对T（x）的形式作任何强有力的假设，而是对T（x）的几何结构作一些说明。更具体地说，我们已经注意到，存在心理和生理证据[6，24，30，36]，表明我们人类更有可能将相似外观的实例注释为同一类，因此相似外观的低质量或模糊实例容易被错误标记为相关或相同的噪声类。因此，根据噪声类的基本原理-后验概率P（Y<$=jX=x）可以通过潜在的干净类来推断后验概率P（Y=i X=x）和IDTMT（x），我们提出了一个假设，即“两个实例越接近，它们对应的转移矩阵将越相似这可以解释为，一个类别在特征空间中的实例相邻关系应该与转移矩阵空间中的实例相邻关系一致。受这一实用假设的启发，我们提议通过将该假设公式化到流形嵌入中来估计T（x），如图1所示。特别地，我们利用流形假设，并且要求如果xi和xj在特征空间中接近，则T（xi）和T（xj）也应该接近（根据矩阵范数）。沿着这条路线，虽然我们没有直接降低T（x）的复杂性，因为我们没有进一步简化它，但我们仍然有效地降低了线性系统 P （ y<$ixi ） =T （ xi ） P（yixi），i=1，...， N，使T（x）在实际中稳定可估。这里，T（x）可以被视为实际稳定的，因为添加这样的平滑假设阻止T（x）在微小邻域中变化太多，然后它应该是Lipschitz连续的。因此，在给定无限数据或底层数据分布的情况下，它应该是唯一确定的。最后，我们在不同的数据集上进行了广泛的实验，这表明所提出的方法是优于国家的最先进的方法标记噪声学习IDN。主要贡献概述如下：我们首次提出了T（x）几何的实用假设，即“两个实例越接近，它们对应的转移矩阵应该越相似”，旨在减少T（x）的自由度，使其在实际中稳定可我们制定的假设到流形嵌入，这使得保持在特征空间中的实例相邻通过这种方式，所提出的流形正则化方法可以大大减少估计误差，而不会损害太多的近似误差的T（x）的估计问题。在各种数据集上的广泛实验表明，在合成IDN数据集（M-NIST，CIFAR 10，CIFAR 100）和两个真实世界的噪声数据集（Clothing 1 M和Food 101N）上，与当前最先进的方法相比，该方法具有优异的分类性能2. 相关作品典型的标签噪声模型可以被分类为随机分类噪声（RCN）模型、CCN模型和IDN模型。在RCN模型中，yiP（xi）T（xi）流形嵌入亲和矩阵Sij过渡神经网络T（x）神经网络交叉熵输入数据：有噪声小批量中的类标签IDTMT（x）Softmax···16632∈X ∈Y{}∈ X × Y∈ Y ∈ X∈ X ×Yi=1D{}随机地以固定的噪声率ρ[0，1/2）[1，15]。CCN模型是用于多类分类的RCN模型的自然扩展[26，31，38]。它假设从类i到类j的每个实例的翻转率取决于潜在的因此，可以对类之间的一些相似性信息进行建模。例如，我们预计“狗”的图像处理CCN模型的常用方法包括“IDN模型考虑了更一般的标签噪声情况，其中实例被错误标记的概率取决于实例本身的特征和类。直觉地说，IDN是相当现实和适用的，因为在现实世界的数据集中，质量差和模糊的实例更容易被错误地标记然而，在没有任何额外假设的情况下对IDN进行建模是非常复杂的。我们在本文中的工作，旨在估计这个现实的IDN模型，考虑实际有用的假设的几何T（x），这旨在减少自由度的T（x），并使其稳定估计在实践中。估计转移矩阵是构造统计一致性分类器的一个常用方法。它有助于显着减少噪声标签的副作用，通过推断基于转移矩阵和噪声类后验概率，统计的干净分布我们首先重新审视CCN下的代表作品通过利用类相关转移矩阵（CDTM）T，可以校正噪声数据上存在许多估算CDTMT的方法[13，19，22，37，45，51]。例如，Liuet al.[22]介绍了锚点估计T，Liet al.[19]试图通过最小化T的体积来优化传输矩阵。为了估计IDTMT（x），现有的工作依赖于各种假设，例如，Chengetal.[5]提出用有界噪声率估计T（x），Xiaet al.[44]提出了利用转移矩阵的部分正则化来逼近IDTMT（x）Berthon等人[3]介绍了实例级前向校正方法来估计T（x），Yang等。[50]提出了推断贝叶斯最优分布，而不是清洁分布。虽然上述先进方法在经验上取得了成功，但一些强约束限制了它们在实践中的应用[50]。相比之下，我们的工作提出了一种流形正则化方法，以减少估计误差，而不会损害太多的近似误差的 T（x），实现了优越的性能标签噪声学习。当只有噪声数据可用时，提取置信干净样本对于优化转移矩阵T（x）至关重要。为了准确地估计转移矩阵，我们通常要求给出每类的一些干净数据。当没有干净的数据时，需要从噪声数据中自动提取干净的数据，用于优化T（x）的可信干净数据集。当前- 有效的方法主要包括但不限于以下方法：蒸馏法[50]、样品筛选法[5，25]、损失分布建模（通过高斯混合模型[18]，基于置信度的样本收集[3，9]，基于小损失的方法[11，41]和一些早期停止技术[2]。当获得置信干净示例时，可以学习每个示例的IDTMT（x）。此外，还存在许多其他半监督学习方法[5，8，10，18，28]，它们通过使用提取的置信干净样本将标签噪声学习转化为半监督学习。在本文中，我们也需要采用这样的方法来提取置信干净的例子，优化的IDTM T（x）。3. 标签噪声学习方法在本节中，我们通过估计的IDTMT（x）获得统计上一致的分类器。具体而言，如图1所示，所提出的方法主要由以下组件组成：输入噪声数据，置信干净的示例提取模块，其中我们在图1中将它们作为一个整体，骨干网络和过渡神经网络分别旨在学习实例特征和估计T（x），带有噪声标签的交叉熵损失训练，以及所提出的最后，我们联合训练DNN来学习每个实例的T（x），并在给定的噪声数据上获得一致的分类器f（x;w）3.1. 问题设置定义D为成对随机变量（X，Y）的分布，其中X为训练样本的变量，Y为对应标签的变量，Rd和d为实例特征维数，=1、2、. . .，K和K是标签类的总数。分类问题是预测每个给定实例x的标签y。然而，在一些现实世界的分类问题中，直接从干净分布D独立地获得大规模训练样本是不容易的，甚至是不可行的，因为干净标签在被观察时经常被随机地破坏成噪声标签。定义D′为这些噪声示例的分布（X，Y<$） <$，其中Y<$表示噪声标签的随机变量本文主要针对的是分类问题当我们只能访问一组N个训练样本时，其中IDN表示为<$i =（xi，y<$i）N，其中每个样本（xi，y<$i）根据D<$i独立地绘制。定义IDTMT（x）是为了在干净分布D和有噪声分布D′之间建立桥梁。如Eq中所述。（1）噪声类后验概率yP（Y<$|可以通过IDTMT（x）和净类后验概率P（Y|其中，T（x）=16633i，j=1--Σ|X|||i=1D{}∈Σ|·||w，θN我我我我我 i=1我我 i=1|1ΣS--D{}（Ti，j（x））K∈[0，1]K× K.K因此，为了推断实例x中的噪声标签Y<$gi，我们需要优化两组参数w，θ，其中w用于分类器f（x;w），θ用于IDTMTij（x;θ）=P（Y¯=j|X=x）=Ti j（x）P（Y=i|X=x），（1）i=1其中 IDTM 被定义为 Ti j （ x ）=P（ Y<$=jY=i，x）。我们可以清楚地看到，T（x）取决于实际情况，并且它非常复杂，因为噪声是2P（Y<$=jY<$=i，X=x;θ）。当然，我们可以联合通过最小化关于推断的噪声标签和地面实况噪声标签的经验风险来优化参数（w，θ），如下：NminR（w，θ）=−y<$log（T（x;θ）f（x;w）），（3）空间，其可以是非常高维的。因此，我们的目标是从噪声训练数据集获得一个可靠的分类器，可以准确地分类测试实例，通过准确地估计IDTMT（x）。具体而言，在Eq.（1）、只有噪声类的后验概率P（Y<$X）可以通过利用噪声数据来获得。To精确估计T（x），有两个重要步骤：1)提取置信干净示例; 2）基于给定的噪声标签和提取的置信干净示例来优化所述IDTMT（x）提取置信干净的示例对于优化IDTMT（x）是非常关键的，如可以从Eq.（一）.在相关工作部分，我们列出了许多有用的样本筛选方法。本文采用实例蒸馏法[50]，提取出可信的纯净样品.该方法可以从噪声数据集中提取出具有理论上保证的贝叶斯最优标签的子数据集注意，我们的方法不限于上述基于蒸馏的示例性提取方法，而是也可以使用许多然后，我们可以在提取的子数据集上训练DNN，以学习转移矩阵T（x），从而对可信的干净数据分布D和噪声数据分布之间的关系进行D。在这里，我们表示为<$s：=（xs，y<$）N，例如。对于简单的y，我们仍然使用<$：=（xi ，y<$i）N在下面的描述中。3.2. 标签噪声学习框架给定example训练样本（xs，y<$）Ns，我们训练由θ参数化的过渡神经网络以估计T（x），其对从给定输入实例x观察到噪声标签y<$的概率及其相应的估计的潜在清洁标签y<$进行建模。那么，它可以是e表示为Ti j（x;θ）=P（Y<$=j|Y=i，X=x;θ），其中Tij（x;θ）RK×K，Y∈K是提取了可信的干净数据。为了提取自信干净数据，我们需要学习噪声类后验概率，其可以通过由w参数化的分类器f（w）获得，即， P（Y<$x;w）=f（x;w）.观察到噪声标签Ygi的概率输入实例x可以被推断为，KP（Y¯=j|x）=P（Y<$=j|Y=i，x）P（Y=i|X）。（二）i=1i=1其中N是所提取的置信干净数据集中的实例的数量。直观地，我们可以优化Eq。（3）直接求出参数集（w，θ）。然而，转移矩阵T（x;θ）在没有任何假设的情况下一定很难学习，根本原因是T（x;θ）的自由度太高，线性系统P（ y<$xi ）=T（ xi ） P（y<$ixi），i=1，.， N，有相同数量的方程和变量。现有的方法主要集中在如何简化T（x）本身，并大大降低其自由度或复杂度，这必然会导致近似误差。而在我们的工作中，我们不会对T（x）的形式施加任何严格的限制，而是通过使用流形正则化对T（x）的几何形状做一个温和的假设3.3. 流形正则化转移矩阵流形学习通常旨在保留底层低维特征空间中的内在邻近结构。经典的流形学习技术，如LLE [34]和Isomap [40]，通过合理的假设来估计局部因此，我们采用多重嵌入技术来实现我们提出的“两个实例越接近，它们对应的转移矩阵就越相似”的假设，从而使IDT-MT（x）实际上是可学习的.通过流形正则化，虽然我们没有直接降低T（x）的复杂性，因为我们没有进一步对其建模，但我们仍然有效地降低了线性系统P（y<$ixi）=T（xi）P（yixi）的自由度，并使T（x）稳定可估计。同时，T（x）可以被认为是实际上稳定的，因为添加这样的平滑假设阻止了T（x）改变太多。在给定无限数据或底层数据分布的情况下，它应该唯一确定更具体地说，我们分别构造了一个内在亲和图来表征流形内的一致性和一个外在亲和图来表征流形之间的关系[36内在图由所有流形上的节点邻接关系构成，其中每个节点与同一流形上的k1利用不同流形上的流形间节点邻接关系构造外图我们利用第k个流形和其他流形之间的k2现在用K表示实例特征上的函数16634.N（5）S=IJNIJS=∈ N/ΣS||T（x）− T（x）||，（6）ijLMIJIJM我IJ我JN具体来说，流形内正则化是为了满足我们对T（x）几何的假设，即“两个实例越接近，它们对应的N同时考虑到如等式（1）所示的给定噪声标签（5）和等式（七）、主要原因是具有不同给定噪声标签的不同实例对应于其对应的转移矩阵T（x）中的不同有效行。我们只使用T（x）的一行来生成噪声标签。M=S（I）||T（x）−T（x）||第二条、第四条i，j=1那么即使是两个实例xi和xj，在特征空间，并且具有相同的置信干净标签，如果它们（一）IJ1，ifxj（xi，k1）andy<$i=y<$j，0，else，有不同的噪声标签。因此，我们特别设计了所提出的流形正则化标签噪声学习框架中的亲和矩阵，如等式2所示（五）、（七）、（九）其中S（I）是指内在亲和力中的元素（i，j），图矩阵SI=（S（ I ）） N× N，T（ xi）表示实例xi的IDTM，（xi，k1）表示实例xi的k1-最近邻，yi=y<$j表示xi和xj在同一流形上，计算最近邻所用的距离是xi和x在特征空间中的欧几里德距离. 很明显，最小化内部-以及（10），用于优化IDTMT（x）。3.4. 流形嵌入的核技巧为了提高IDTMT（xi;θ）上流形正则化的有效性，我们进一步考虑采用核技巧来预先计算亲和图矩阵[36]。具体地，S（I）和S（B）可以被定义为，J流形一致性鼓励学习IDTMT（x）ij ij.||2||2S=∈N如果它们对应的实例在同一类别。这使歧管在实例fea-真实空间与转移矩阵空间一致。同时，由于具有不同噪声标签的实例对应于转换中的不同有效行值，矩阵，我们还构造了一个外部图来刻画（一）IJ（B）IJe−.e−σ2，如果xj（xi，k1）且y<$i=y<$j，0，否则，（九）||2 ||2σ2， ifxj（xi，k2）andy<$i=y<$j，0，else，（十）歧管之间的边缘。它可以表示为：N其中σ是用于调整权重分布的一个超参数。在亲和图矩阵中的分布。MB=（B）2IJi，j=13.5. 总体目标函数最后，总体目标函数可以表示为等式：（11），S（B）=. 1，如果xj∈N（xi，k2）且y<$i/=y<$j，（七）ij0，否则，min（w，θ）=R（w，θ）+λ（θ），（11）w，θ其中S（B）表示类间仿射的元素（i，j）基矩阵SB=（S（B））N× N，（xi，k2）表示实例xi，yi的k2-最近邻y<$j表示xi和xj来自不同的流形。因此，在IDTMT（xi;θ）上的整体提出的流形正则化可以表示为：M（θ）=MI− MB。（八）我们可以清楚地看到，最小化流形正则化目标（θ）等价于保持过渡矩阵空间中的流形与特征/标签空间中的流形一致。因此，我们实现了对T（x）的几何形状提出的实际有用的假设。注：流形嵌入通常用于无监督或半监督学习，其亲和矩阵传统上是由k-近邻以无监督的方式构造的。在这项工作中，我们构造流形嵌入的亲和矩阵16635−ΣD=diag（d11，d22，...，dNN），d ii=Nj=1，i/=jSij，i=T，Φ=D−S，其中λ是平衡交叉熵损失和流形嵌入正则化的超参数3.6. 优化在优化期间，传统的反向传播方法（例如，SGD）用于学习分类器f（x;w）和IDTMT（x）。因此，需要计算目标函数相对于相应层的输出的梯度。定义S=（Sij）N×N=SISB，则流形正则化目标可以重写为[36]，NM=Si j||T（xi）−T（xj）||2=2t r（TΦTT），（12）i，j=0其中T =[T（x1），T（x2），.， T（xN）]，T（xi）∈ RK× K可整形为K2×1维i n16636·MD≤·i=1D{}·×（一）（B）·××ii i=1·D{}1，2，...， N，Φ是S的拉普拉斯矩阵，tr（）表示矩阵的迹。（θ）相对于T（xi）的梯度可以推导为[36]，M=2T（Φ+ΦT）=4TΦ，（13）T（xi）（：，i）（：，i）其中Φ（：，i）表示矩阵Φ的第i列。请注意，无论亲和图矩阵S是传统形式还是内核形式，它们都是基于小批量中的当前实例特征预先计算的它们作为不涉及梯度反向传播的常数值工作算法1：实例相关标签噪声学习算法输入：噪声训练数据集<$=xi，y<$iN输出：最终分类器f（x;w）和转移矩阵T（x;θ）。预热：在噪声数据集上训练DNN，早期停止策略获得初始分类器f（x）;而训练时期的数量Max-Epoch使用示例蒸馏方法[50]和当前分类器提取可信的干净示例f（x;w）来形成子数据集<$s=xs，y<$N s;将提取的置信干净示例输入到骨干网;基于当前实例特征，根据等式2计算亲和图矩阵Sij和Sij。（5）和（7）或等式（9）和（10）;基于等式2中所示的损失函数优化DNN。（11）以获得新的分类器f（x;w）和转移矩阵T（x;θ）。端4. 实验在本节中，我们首先介绍实验设置，包括数据集，噪声类型和实现细节。接下来，我们在四个合成数据集和两个真实世界的噪声数据集上将所提出的方法与最先进的方法进行比较，然后进行消融研究以分析实验结果和一些有用的超参数。4.1. 实验装置数据集。进行了大量的实验，以说明我们的方法的有效性，在四个手动损坏的数据集（即，F-MNIST[46]，SVHN [27]，CIFAR- 10 [16]，CIFAR-100 [16]）和两个真实世界的噪声数据集（即，[47]第1017章：你是谁？F-MNIST具有10类28个28灰度图像，其中60 K用于训练，10 K用于测试。SVHN包含10个类73，257张用于训练，26，032张用于测试。CIFAR-10包含10个类，CIFAR-100包含100个类，它们都包含50K 的训练图像和10 K的测试图像的大小为32 32 。Clothing1M具有来自14个时尚类的具有真实世界噪声标签的1M图像用于训练，以及具有干净标签的10K测试图像，其中估计的噪声标签率为38。百分之四十六Food101N包含101个食物类别，有310K个训练图像和55K个用于测试的干净图像，这也是一个真实世界的噪声数据集，大约有19个。训练数据集中66%的吵闹的类型。对于手动损坏的数据集（即，F-MNIST、SVHN、CIFAR-10和CIFAR-100），我们采用与之前的方法完全相同的策略来生成实例相关的标签噪声[5，44]。基本思想是为每个类随机生成一个向量（所有类的K个向量），并将每个实例特征投影到K个向量上。噪声标签是通过联合考虑其清洁标签和投影结果而生成的。我们为所有数据集设置了不同的噪声率，从10%到50%进行评估所有的方法。4.2. 实现细节为了公平比较，我们在N-VIDIA GeForce RTX 3090上进行了所有实验，所有方法都在同一个PyTorch平台上实现。我们在F-MNIST数据集上使用的骨干网络是ResNet-18，而ResNet- 34网络用于SVHN，CIFAR-10和CIFAR-100 数据集。对于两个真实世界的数据集（Clothing 1 M和Food 101），我们采用在ImageNet上预训练的ResNet-50网络作为骨干网络。该框架中的过渡神经网络由一个全连接层实现，输入为实例特征，输出节点数为K其中K表示每个数据集上的类的数量。在每一行中对所获得的T（x）进行归一化。式中的 k- 最近邻参数。（ 5 ）和等式（ 7 ）被设置为k1=k2=7，等式（7）中的超参数σ被设置为k1 = k2 =7，等式（7）中的超参数σ被设置为k1 = k2 = 7（9）和Eq。（10）设为1.1。我们使用的优化策略是SGD，动量为0.9，重量衰减为10−3，批量为128。初始学习率设置为10−3，每20个epoch除以10。首先，我们在所有有噪声的数据上训练网络，并使用紧急停止技术作为热身，其中我们在F-MNIST，CIFAR-10，CIFAR-100上训练了5，Clothing 1 M和Food 101 N分别用于热身的数据集-活泼地然后，我们使用初始分类器基于蒸馏方法从噪声数据集中提取置信样本[50]。算法流程图可参考Alg.1.一、4.3. 与最先进方法的我们将我们的方法与以下10个代表性作品进行了比较：1）CE，它在原始噪声数据集上使用标准交叉熵损失训练分类网络; 2）GCE [54]，它使用平均绝对误差16637方法准确度CE（基线）81.44CleanNetWHard（cvpr2018）[17] 83.47CleanNetWSoft（cvpr2018）[17] 83.95DeepSelf（cvpr2019）[12] 85.11NoiseResist（cvpr2021）[20] 84.70表1.在F-MNIST和CIFAR-10数据集上与最先进的方法进行比较列出了5次运行计算的平均值和标准差“IDN-xx方法F-MNISTCIFAR-10印尼盾-10%印度尼西亚-20%印度尼西亚-30%印度尼西亚-40%印度尼西亚-50%印尼盾-10%印度尼西亚-20%印度尼西亚-30%印度尼西亚-40%印度尼西亚-50%CE（基线）87.73±1.2587.63±1.1185.25±0.5775.00±0.2565.42±1.5988.86±0.2386.93±0.1782.42±0.4476.68±0.2358.93±1.54普通教育证书[54][第48话]前进[32][第11话][52]第五十二话[43]第四十三话[23]第二十三话TMDNN [50][44]第四十四话90.24±0.1690.14±0.2290.78±0.3090.54±0.3590.67±0.4991.48±0.1190.76±0.4191.33±0.2791.27±0.3888.71±0.1788.13±0.4789.01±0.4488.53±0.0988.52±0.4489.24±0.0987.06±0.7489.70±0.1489.78±0.4385.90±0.2385.90±0.2386.51±1.2087.37±0.1487.33±0.8786.50±0.1084.40±0.9387.63±1.2888.30±0.5176.78±0.3776.22±0.7178.17±0.3278.36±0.8279.85±1.0377.15±1.0473.95±2.3778.40±3.6980.75±2.8667.67±0.5864.84±1.2868.31±1.0767.81±1.0268.86±1.3967.85±0.8465.79±2.4966.55±7.5272.22±4.2290.82±0.0591.43±0.1891.71±0.0890.80±0.0591.47±0.5991.42±0.1190.89±0.0790.45±0.7290.32±0.1588.89±0.0889.99±0.1589.62±0.1488.43±0.0889.78±0.3489.30±0.2789.21±0.6388.14±0.6689.33±0.7082.90±0.5186.87±0.3486.93±0.1586.40±0.4185.72±0.3585.54±0.8285.70±0.5684.55±0.4885.33±1.8674.18±3.1080.74±0.4480.29±0.2780.85±0.9781.00±0.8280.87±0.9178.51±1.2379.71±0.9580.59±0.4158.93±2.6763.92±3.9265.91±1.2262.63±1.5161.46±1.3664.11±2.5759.08±1.0563.33±2.7564.58±2.86MEIDTM（我们的）kMEIDTM（我们的）91.78±0.8791.96±0.0890.49±0.3590.83±0.0588.74±0.2589.61±0.6584.21±0.5285.81±0.4473.67±3.7676.43±4.8892.17±0.2192.91±0.0791.38±0.3492.26±0.2587.68±0.2690.73±0.3482.63±0.2485.94±0.9272.17±1.5173.77±0.82表2.在SVHN和CIFAR-100数据集上与最先进的方法进行比较列出了5次运行计算的平均值和标准差“IDN-xx方法SVHNCIFAR-100印尼盾-10%印度尼西亚-20%印度尼西亚-30%印度尼西亚-40%印度尼西亚-50%印尼盾-10%印度尼西亚-20%印度尼西亚-30%印度尼西亚-40%印度尼西亚-50%CE（基线）90.47±0.2789.85±0.1686.31±0.7980.59±0.5664.93±2.0366.55±0.2363.94±0.5161.97±1.1658.70±0.5656.63±0.69普通教育证书[54]90.82±0.1292.66±0.5892.01±1.1091.11±0.1692.64±0.4393.52±0.4792.59±0.5695.51±0.1395.56±0.4589.48±0.6691.88±0.4290.67±0.2790.88±0.1791.59±0.4393.47±0.4091.67±0.7294.83±0.6494.19±0.2086.92±0.2488.44±0.8586.04±0.4088.21±0.6287.55±1.2689.47±1.0489.86±0.6792.43±0.9192.56±0.8381.95±1.4582.27±1.5483.18±0.9586.46±1.3387.69±1.0688.56±1.2885.44±0.9786.91±1.1788.13±1.5663.20±2.7568.72±2.3270.72±2.0070.04±1.0572.36±1.3973.70±1.9273.91±2.3076.53±2.1577.04±2.5669.18±0.1467.06±0.4667.81±0.4867.91±0.3468.67±0.2568.48±0.4965.64±1.0768.42±0.4267.33±0.3368.35±0.3364.72±0.6467.23±0.2967.40±0.4468.30±0.6967.87±0.8063.83±0.4866.62±0.8565.33±0.5966.35±0.1362.8±1.4665.42±0.6364.13±0.4365.77±0.3065.73±0.5561.64±0.6764.72±0.6464.56±1.5562.09±0.0960.24±0.6362.18±0.2659.98±0.2861.75±0.5361.64±0.5458.30±0.8059.38±0.6559.73±0.7656.68±0.7556.52±1.1858.61±0.4457.48±0.74057.94±0.1557.75±0.8055.41±0.2855.68±1.4356.80±1.32[第48话]前进[32][第11话][52]第五十二话[43]第四十三话[23]第二十三话TMDNN [50][44]第四十四话MEIDTM（我们的）kMEIDTM（我们的）95.72±0.4096.38±0.0795.48±0.0195.66±0.0294.23±0.2794.68±0.1792.00±0.1092.20±0.2378.25±0.3580.22±2.0068.19±0.3269.88±0.4567.21±0.3869.16±0.1666.06±0.7766.76±0.3062.34±0.1863.46±0.4857.69±0.5159.18±0.16表4. Food101N数据集的分类准确率（%DivideMix（iclr2020）*[18]84.39kMEIDTM（+DivideMix）（我们的）85.61和交叉熵损失，以联合优化噪声数据集上的模型; 3）TMDNN [48]，其提出了一种信息理论损失函数，以在噪声数据集上鲁棒地训练深度模型; 4）Forward [32]，其利用CDT-MT来校正损失函数; 5）Co-teaching [11]和Co-teaching++ [52]提出同时训练两个深度神经网络来处理标签噪声; 6）JoCor [43]采用了一种具有共正则化的联合训练方法; 7）PeerLoss [23]，其不需要噪声率的先验规范; 8）TMDNN [50]和PartT [44]提出使用DNN估计IDN的IDMT（x）合成噪声数据集的结果。表1、2、4和3分别在F-MNIST、SVHN、CIFAR-10和CIFAR-100数据集上，在5种不同的噪声比下，给出了分类精度每个表包括相应数据集上的我们提出的方法具有如表中所述的两种变体：一种是所提出的具有核技巧亲和矩阵的方法，如E中所示。Q. （9）和（10），这是我们的最终版本，表示为（5）和等式（7），表示为“MEIDT-M”。基线方法是在噪声数据集上训练的标准交叉熵损失，表示为与代表性的工作相比，该方法取得了最佳的性能在所有四个合成大小的数据集在五个噪声比。四个表中所示的评价结果可概括如下，与已有的代表性方法相比，k-MEIDTM方法的性能优于前者0.48%~ 7.67%，而我们的方法优于基准方法随着噪声率的增加，该方法的优越性逐渐显现出来如表4所示，在IDN-10%和IDN-20%的情况下，我们的方法比第二好的方法的平均差值高出0.64和1.04，而在IDN-40%和IDN-50%的情况下，我们的方法比第二好的方法的平均差值高出3.12%和4.69%，这说明我们的方法可以更好地处理极端困难的情况。我们的内核版本kMEIDTM在几乎所有情况下都优于MEIDTM，幅度为0.06%至2.76%。···16638×表3.Clothing1M数据集的分类准确率（%）（*）表示实现基于作者方法CE（基线）普通教育证书[54][42]第四十二话教育学[11][39]第三十九话[第48话]PTD-R-V [44]ERL [21]精度68.9469.7571.0269.2172.1672.4671.6772.87方法ForwardT [32][43]第四十三话核心[5]卡尔[55][18]第十八话MEIDTM（我们的）kMEIDTM（我们的）kMEIDTM（+DivideMix）精度69.8470.3073.2474.1774.6773.0573.3474.820.80.70.60.50.40.30.20.10 10 20 30 40时代908580757065600.0 0.1 0.2 0.3 0.4 0.5图2.显示了在CIFAR-10数据集上，在五种不同的噪声率下，模型训练期间转移矩阵估计误差随历元数的变化真实世界数据集的结果。表3和表4显示了真实世界Clothing1M和Food101N数据集的分类结果。可以看出，所提出的方法“MEIDTM”可以将基线方法“CE”提高4. 11%，然后核方法“kMEIDTM”进一步将分类准确率提高到73. 百分之三十四由于所提出的IDTM估计方法可以作为即插即用模块工作，因此我们将该模块集成到代表性工作实验结果表明，本文提出的转移矩阵能使DivideMix方法进一步提高0。15%和1。在Clothing1M和Food101N数据集上分别为22%，优于最先进的方法。4.4. 消融研究为了评估估计的IDTMT（x），我们在图2中显示了CIFAR-10数据集上在五种不同噪声率下模型训练期间的IDT-M估计误差。误差由地面实况转移矩阵和估计的转移矩阵之间的l1范数来对于每个实例，我们只分析特定低的估计误差，因为噪声是由T（x）的一行生成的。我们总结图2如下：1）在五种噪声率下，IDTM估计误差在模型训练期间变得越来越小，这说明了所提出的方法对T（x）优化的有效性; 2）噪声率越低，T（x）的估计越好/越容易。为了研究超参数λ对模型性能的影响，我们在五种噪声率下对CIFAR-10数据集进行了不同λ值的实验，每个实验进行五次运行。结果如图3所示。我们可以看到，测试的准确性并不相对图3.在CIFAR-10数据集上，在5种不同的噪声率下，分类精度随超参数

下载后可阅读完整内容，剩余1页未读，立即下载