分类问题中有一种情况是可以获得部分替代真实标签的补充标签，但这些补充标签可能具有偏见

104 浏览量更新于2023-10-13 收藏 751KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

有偏见的互补标签学习西玉玉1、铜梁刘1、龚明明2、 3、大成涛11UBTECH Sydney AI Centre，SIT，FEIT，The University of Sydney{xiyu0300@uni.，铜梁.刘@，大成.陶@} sydney.edu.au2卡内基梅隆大学3匹兹堡大学生物医学信息学系mig73@pitt.edu抽象。在本文中，我们研究的分类问题，我们有机会很容易获得的替代真正的标签，即补充标签，指定类的意见不属于。LetYandYbethetruneeandcomplementarrylabels，respectctively. 我们第一次通过转换概率P（Y<$=i）对互补标签的注释进行建模|Y=j），i/=j∈{1，···，c}，其中所述等式是类的集合。PreviousmethodsimplicitlyasumtthatP（Y¯=I|Y= j），i/= j，are相同，这在实践中是不正确的，因为人类偏向于他们自己的经历。例如，如图1所示，如果注释者在提供用于标记的完整标记时比草原土拨鼠更熟悉猴子，则其更容易将“猴子”作为互补标记来实施因此，我们推断过渡概率将不同。在本文中，我们提出了一个框架，该框架为带有偏见的互补标签的学习提供了三个主要创新：（1）它估计转移概率，没有偏见。(2)它提供了一种修改传统损失函数的通用方法，并扩展了标准的深度神经网络分类器，以使用有偏的互补标签进行学习(3)它从理论上保证了用互补标签学习的分类器收敛到用真实标签学习的最优分类器多个基准数据集上的综合实验验证了我们的方法的优越性，目前国家的最先进的方法。关键词：多类分类，有偏互补标签，转移矩阵，修正损失函数1介绍大规模训练数据集将监督学习从理论和算法转化为实践，特别是在深度监督学习中。保证这种成功转换的一个主要假设是数据被准确地标记。然而，收集大规模数据集的真实标签通常是昂贵的、耗时的，并且有时是不可能的。为此，一些弱但廉价的监督信息已被利用，以提高学习性能。这种监督包括边信息[33]、特权信息[29]和基于半监督数据的弱监督信息[15][372西于羽、刘铜梁、龚明明、陶大成−−真标签猫鼬土拨鼠猴子补充标签不是不是不是Fig. 1.真标签（顶部）和互补标签（底部）之间的比较。9，6]、正的和未标记的数据[23]、或噪声标记的数据[19，30，10，11，4，8]。在本文中，我们研究了另一个弱监管：指定对象不属于的类的补充标签。互补标签有时很容易获得，特别是当类集相对较大时。给定多类分类中的观察，识别对于观察不正确的类标签通常比识别真实标签容易得多互补标签携带有用的信息，广泛应用于我们的日常生活中：例如，为了识别我们不知道的语言，我们可以说“不是英语”;为了对没有任何打斗的新电影进行分类，我们可以说“不是动作片”;并且为了识别一个美国人的形象，我们可以说“不是特朗普”。Ishida等人[13]然后提出了从只有互补标签的例子中学习，假设互补标签是从C1类中均匀选择的，而不是真正的标签类（C>2）。具体地说，他们设计了一个无偏估计器，使得学习与互补标签是渐近一致的学习与真正的标签。有时，注释者根据观察的内容和他们自己的经验提供补充标签因此，互补标记大多数是从剩余的cl类中非均匀地选择的，其中一些甚至没有机会在某些情况下被选择。关于政府的偏见根据观察内容，让我们以标记数字0-9为例。由于数字1与数字3比数字8更不相似，所以“3”的互补标签更可能被分配有 “1” 而不是“8”。关于由非特定或特定的X射线所控制的偏差，在其他情况下，这种方式更适合于我们将“monkey”用作通用标签。出于偏见的原因，我们在这里建模的偏见的过程一个不包含任何变量的变量P（Y¯=i|Y=j），i/=j∈{1，· · ·，c}。请注意，假设互补标签从reman i gc−1c l中一致地选择为semieP（Y¯=i|Y=j）=1/（c−1），i/=j∈ {1，· · ·，c}。然而，在实际应用中，概率不应该是有偏见的互补标签学习3−|1/（c1），并且可以有很大的不同。如何估计概率是互补标签学习的一个关键因此，我们解决的问题，学习与偏见的互补实验室。为了有效地进行学习，我们可以选择最佳可行性P（Y¯=i|Y=j），i/= j ∈ {1，···，c}，无偏置。具体地说，我们证明了给定一个明确的ob-servationxjforthej-theclass，i. 例如，在fyigP（Y=j）处的观测值|x（j）=1，如果可以通过另一个条件来确定，则在P（Y¯=i）处保留该条件|Y=j）=P（Y¯=i|xj），i∈{1，···，j−1，j，···，c}。这意味着我们的工作能力很强P（Y¯=i|Y=j），i/=j∈{1，···，c}可以通过将所述bi作为y{arng}来确定P（Y¯=i|xj）从具有组合物的六个样本中。为了得到它，明确的观察，我们假设一个小的容易区分的实例集(e.g.、每个类10个实例）通常获得起来并不昂贵。考虑到可实现性P（Y¯Y），我们将改进所有功能的可实现性-提出了用真实标签学习的修改，使得可以采用修改来有效地用有偏的互补标签学习我们还证明了，通过exploiting的例子与互补的标签，学习的分类器收敛到最佳的学习与真正的标签，有保证的速度。此外，我们还经验表明，我们的方法的收敛性更受益于有偏的设置比从统一的假设，这意味着我们可以使用一个小的训练样本，以实现高性能。在UCI、MNIST、CIFAR和Tiny ImageNet等基准数据集上进行了全面的实验我们还比较了使用互补标签学习的分类器与使用真实标签学习的分类器的性能。实验结果表明，在某些情况下，我们的方法几乎达到了真实标签学习的性能。2相关工作用互补标签学习。据我们所知，Ishida et al.[13]是第一个用互补标签研究学习的人。他们假设转移概率是相同的，然后提出修改传统的一对所有（OVA）和成对比较（PC）损失，以使用互补标签进行学习。我们的方法和[13]之间的主要区别是：（1）我们的工作是出于这样一个事实，即注释互补标签往往受到人类偏见的影响。因此，我们研究一个不同的设置，其中的过渡概率是不同的。(2)在[13]中，修改OVA和PC损失自然适合于统一设置，并提供无偏估计对于真实标签分类的预期风险。在本文中，我们的方法可以推广到许多损失，如交叉熵损失，并直接提供了一个无偏估计的风险最小化。由于这些差异，[13]通常在均匀设置中实现有希望的性能，而我们的方法在均匀和非均匀设置中都实现了良好的性能用嘈杂的标签学习在标签噪声的设置中，引入转移概率来对噪声标签的生成进行统计建模。在分类-4西于羽、刘铜梁、龚明明、陶大成|X × Y ×Y{···}X ∈YY∈Y∈ X ×Y/c−1∈/在学习和转移学习中，方法[21，18，32，35]采用转移概率来修改损失函数，使得它们可以对有噪声的标签具有鲁棒性。在[26，22]中已经提出了通过添加过渡层来修改深度神经网络的类似策略然而，这是第一次将这种想法应用于有偏见的互补标签学习的新问题。与标签噪声不同，这里，转移矩阵的所有对角项都是零，并且转移矩阵有时可能不需要在经验上可逆。3问题设置在多类分类中，设Rd是特征空间，并且=[c]是标签空间，其中d是特征空间维度;[c]= l，，c;并且c>2是类的数量。我们假设变量（X，Y，Y）在空间上定义为ureP（X，Y，Y′）（PXYY′forshort）。实际上，真正的标签有时很昂贵，但补充标签很便宜。因此，这项工作研究了这样一种设置，在这种设置中，我们有一个带有偏见的互补标签的后者仅用于估计转移概率。我们的目标是学习最佳分类器的例子与真正的标签，利用互补标签的例子。对于一个xample（x，y），一个 complemenarylabely ？从该complemeteset中选择y. 我们可以轻松地找到可以选择的方式，即：例如， P（Y¯=y¯X=x，Y=y）。在此版本中，我们假设Y ¯s是一个独立的可用的featreXcitidonturuelelY，即。例如，P（Y¯=y¯|X=x，Y=y）=P（Y¯=y¯|Y=y）。这是一个简单的概念仅取决于类别的偏差，例如，如果注释者不熟悉当她在一个特定的类的特征，她可能会分配互补的标签，她更熟悉。我们将所有的概率归纳为在rixQ∈Rc×c处的转移m，其中reQij=P（Y¯=j|Y=i）且dQii=0，i，j∈[c]. 其中，Qij表示Q的第i行和第j列中的条目值注意转移矩阵在马尔可夫链[7]中也得到了广泛的应用，并且在机器学习中有许多应用，例如使用标签噪声进行学习[21，26，22]。如果互补标记均匀地选自互补集合，则i，j[c]和i=j，Q，i，j= 1。以前的工作[13]已经证明，可以在均匀假设下找到最佳分类器。有时，由于人类的偏见，这在实践中并不正确因此，我们关注Qij，i=j不同的情况。我们主要研究以下几个问题：如何修改损失函数，使得用这些有偏的互补标签学习的分类器可以收敛到用真实标签学习的最优分类器;收敛的速度;以及如何估计转移概率。4方法在本节中，我们将研究如何使用有偏见的互补标签进行学习我们首先回顾如何从具有真实标签的示例中学习最佳分类器然后，有偏见的互补标签学习5X→|nX→|n--−→我们修改了互补标签的损失函数，并相应地提出了基于深度学习的模型最后，我们从理论上证明了我们的方法学习的分类器是一致的最佳分类器学习与真实的标签。4.1使用True Labels学习多类分类的目的是学习分类器f（x），该分类器为给定的观察x预测标签y通常，分类器具有以下形式：f（X）= arg maxgi（X），（1）i∈[c]其中g：Rc和gi（X）是P（Y=i X）的估计。已经提出了各种损失函数（f（X），Y）来衡量预测Y的f（X）的风险[1]。形式上，预期风险定义为。R（f）= E（X，Y）PXY [（f（X），Y）].（二）最优分类器是使期望风险最小化的分类器;即，f*= arg minR（f），（3）f∈F其中F是f的空间。然而，PXY上的分布通常是未知的Σ。我们在一起R（f）=1ni=1 （f（xi），yi），其中{（xi，yi）}1≤i≤n∈i。内径 x将数据按顺序放大到PXY。类似地，最优分类器近似为fn= arg minf∈FRn（f）。4.2使用互补标签学习真正的标签，特别是对于大规模的数据集，通常是费力和昂贵的获得。因此，我们研究一个容易获得的替代品;即互补标记。然而，如果我们在使用这些互补标签进行学习时仍然使用传统的损失函数，类似于Eq。(1)，我们只能学习一个映射q：Rchattriesopicc ditionalprabiiiesP（Y¯X）和c或r表示将c l定义为x上给定的对象的p r di c tay。因此，我们需要修改这些损失函数，使得使用有偏互补标签学习的分类器可以收敛到使用规则标签学习的最优分类器。具体而言，我们将使用现代化的日志功能。这个，这个可扩展和可扩展性要求，其中包含特定于已找到的所有Σlemen arlabelR¯（f）=E（X，Y¯）PXY¯[¯（f（X），Y¯）]anddR¯n（f）=1ni=1 ¯（f（xi），y¯i）]，respectively.其中，（xi，yi¯i）1≤i≤n是一个具有复杂性的代数样本。Dentfndfnd，因为通过最小化Rn（f）和Rn（f），respectively. 则ef¯*=argminf∈FR¯（f）和df¯n=argminf∈FR¯n（f）。我们希望修改后的损失函数¯可以保证f¯n f*，其中n这意味着通过使用互补标签进行学习，我们获得的分类器也可以接近（3）中定义的最佳分类器。6西于羽、刘铜梁、龚明明、陶大成|我|∀∈交叉熵损失“猫鼬”最大值2*（x）i-1，，1 我图二.我们的方法概述。我们通过添加一个将softmax函数的输出乘以Q的层来修改深度神经网络。在rixQ，Qij=P（ Y¯=j ）处，将 t|Y=i）anddQii=P（ Y¯=i|Y=i）=0，i∈[c]. 我们在P（Y）处观察到|X）可以将数据转换为P（Y¯|X）通过使用在rixQ处的m上的随机扫描i;在is处，ΣP（Y¯=j|X）===i/=jΣi/=jΣi/=jP（Y¯=j，Y=i|十）、P（Y¯=j|Y=i，X）P（Y=i|十）、P（Y¯=j|Y=i）P（Y=i|X）。（四）但实际上，如果qi（X）triere d e r e d e r ederebityP（Y¯=i|X），则i∈[c]，则Q− q可以预测概率P（Y X）。为了实现端到端的学习而不是在培训后转移，我们让q（X）= Qg（X），（5）其中g（X）现在是中间输出，并且f（X）= arg maxi∈[c]gi（X）。然后，修改后的损失函数为f（X），Y<$）=f（q（X），Y<$）.（六）在这种情况下，如果我们可以在q*（X）=P（Y¯=iX）处找到一个最优q *，则i[c]，同时，我们也可以找到最优的g *和分类器f *。这种损失修正方法可以很容易地应用于深度学习。如图2所示，我们只需向深度神经网络添加一个线性层即可实现这一点。该层通过将软最大函数的输出（即，g（X））通过转置转移矩阵Q与suf-通过使用具有互补标签的有效训练示例，这种深度神经网络可以简单地学习为b〇t（X，Y’）和（X，Y）。注意，在我们的修改中，前向过程不需要计算Q−。尽管后续的辨识分析要求转移矩阵可逆，但实际上有时可能没有这样的我们还在补充材料中展示了一个例子，即使使用奇异转移矩阵，如果没有Q的列是全零的，也可以实现高分类性能。神经网络%（x）4（x）联系我们y！不是带有补充标签的Softmax有偏见的互补标签学习7我·我5最优分类器在本节中，我们的目标是证明所提出的损失修改方法在合理的假设下确保最佳分类器的可识别性假设1通过最小化期望风险R（f），最优映射g*满足g*（X）= P（Y = i|X），i ∈ [c].基于假设1，我们可以通过以下定理证明f¯*=f*定理1设Q可逆且满足假设1，则R′（f）的最小化器f ′ * 也是R（f）的最小化器f *，即f′*=f*.详细证明见补充材料。如果给定足够的约束条件，则 f¨nc co nvergetof¨n，这可以在下一节中证明。根据定理1，这也意味着f¯n也收敛到最优分类器f*。损失函数的例子。定理1的证明依赖于假设1。然而，对于许多损失函数，可以证明满足假设1在这里，我们以交叉熵损失为例来证明这一事实。交叉熵损失在深度监督学习中被广泛使用，并被定义为Σc（f（X），Y）=−i=11（Y=i）log（gi（X）），（7）其中1（）是指示器函数;也就是说，如果输入语句为真，则输出1;否则输出0。对于交叉熵损失，我们有以下引理：引理1设f是交叉熵损失， g（X）∈fc−1，其中fc−1Σreferstoatandardsimplex inRc;thatis，x∈∆c−1，xi≥0，i∈[c]anddCi=1 xi= 1。通过最小化期望风险R（f），我们有g*（X）= P（Y =我|X），i ∈ [c].请参阅SΣupplementaryMeral中的详细说明。事实上，我很抱歉例如平方误差损失（f（X），Y）=Cj=1（1（Y=j）−gj（X））2，alsosatisfy假设1.读者可以使用类似的策略来证明这一点Com-结合定理1，我们可以看到，通过将所提出的方法应用于损失函数，例如交叉熵损失，我们可以证明即使在使用有偏互补标签进行学习时也可以找到最佳分类器f*6收敛性分析在这一节中，我们展示了我们的方法的估计误差的上限该上界示出了利用互补标签学习的分类器到利用真实标签学习的最优分类器的收敛速率。此外，与导出的界限，我们可以清楚地看到，估计误差可以进一步受益于偏置互补标签的设置在温和的条件下。8西于羽、刘铜梁、龚明明、陶大成-≤···|−◦F且gi（X）=c√超f∈Fni=1σi（f（Xi），Yi）|如果f¯*=f*，我们就有了|f¯n−f*|为|n−n|. 我们会去隔壁的|vi a upp e r boundig R ´（f ´ n）− R ´（f ´ *）; t h atis，whenR ´（f ´ n）− R ´（f ´ *）→ 0，|v iaup perb oundingR¯(f¯n)−R¯(f¯∗);thatis,whenR¯(f¯n)−R¯(f¯∗)→0,|→0。|→0. 特别是，它必须遵守R¯（f¯n）−R¯（f¯*）=R¯（f¯n）−R¯n（f¯n）+R¯n（f¯n）−R¯n（f¯*）+R¯n（f¯*）−R¯（f¯*）≤R¯（f¯n）−R¯n（f¯n）+R¯n（f¯*）−R¯（f¯*）≤2sup|R¯（f）−R¯n（f）|、（八）当第一个等式中的值为R<$n（f <$n）R<$n（f<$n）0时，最后一行中的值称为泛化误差。Let（X1，Y<$1），，（Xn，Y<$n）是独立的变量。通过把这个-中心不等式[3]，推广误差可以使用Rademacher复杂性的方法[2]上界定理2（[2]）设损失函数的上界为M。然后，对于任何δ> 0，概率为1 − δ，我们有。supR¯（f） R¯nf∈F（f）第（1）款|≤ 2 Rn（¯◦F）+Mlog 1/δ，（9）2N其中RΣ（¯◦F1Σn¯ ¯Σy;{σ1，···，σn}是从{− 1，1}均匀分布的Rademacher变量。在上界Rn（¯）之前，我们需要讨论所采用的损失函数¯的具体形式。通过利用定义良好的二进制损失函数，已经提出了一对所有和成对比较损失函数[36]用于多类学习。在本节中，我们讨论由方程定义（6）和（7），其可以重写为，Σc（f（X），Y<$）=−1（Y¯=i）llog.Σ（Qg）i（X）i=1Σc.ΣcΣQjiexp（hj（X））（十）=−i=11（Y¯=i）llogj=1Ck=1、exp（hk（X））其中（Qg）i表示Qg的第i个元素; h：X →Rc，hi（X）∈ H，i∈[c];exp（hi（X））k=1exp（hk（X））通常，多类学习的推广界的收敛速度时间复杂度为O（c2/n），且时间复杂度为O（c2/n）. 为了确保我们的复制副本的副本，我们将R´（f）改写为：R<$（f）=Σc∫ΣcXi=1P（Y¯=i）P（X|Y¯=i）¯（f（X），Y¯=i）dX∫=i=1P（Y<$=i）P（XY¯=i）¯（f（X），Y¯=i）dXX（十一）Σc=i=1π¯iR¯i（f），f∈FΣn）=E是拉德马赫综合体.有偏见的互补标签学习9|−|∈ck=1其中R¯i（f）=EXP（X|Y¯ =i）¯（f（X），Y¯=i）anddπ¯i=P（Y¯=i）.类似于定理2，我们有以下定理。Theorem3Suppposeπ¯i=P（Y¯（i）给出。设损失函数为上界以M为界。然后，对于任何δ > 0，概率为1 −cδ，我们有R¯（f¯n）−R¯（f¯*）≤2sup|R¯（f）−R¯n（f）|Σc≤2i=1π¯isupR¯i（f） R¯i，ni（f）f∈F。Σclog1/δ（十二）≤2i=1π¯i2Rni（¯◦F）+M2ni。Σclog1/δ=i=14π¯iRni（,2ni其中R（¯1ni◦F）=E supf∈Fnij=1σj（f（Xj），Yj=i）且Ri，ni（f）是对于R¯i（f）的经验累积部分，以及i，i[c]，表示X的集合其中，e_c_m_l_en_t为y_l_a_e_y=i。由于实际上是相对于h而不是f定义的，我们希望通过H的Rademacher复杂度来限制错误。我们观察到Rni（¯◦F）和Rni（H）之间的关系为：Lemma2Let¯（f（X），Y¯=i）=−log.ΣcΣk=1Qkiexp（hk（X））并且假设hi（X）∈H，i∈[c]，有Rni（¯◦F）≤cRni（H）.详细证明见补充材料。结合定理3和引理2，我们得到最终结果：Corollary1Suppposeπ¯i=P（Y¯（i）给出。设损失函数为上界以M为界。然后，对于任何δ > 0，概率为1 −cδ，我们有R¯（f¯n）−R¯（f¯*）≤Σci=14cπ¯iRni（H）+2π¯iM.log1/δ。（13）2 ni在计算的过程中，Rn（¯◦F）的计算量为或derO（c2/√n），其中hrespetocn，而hile或dervedboundΣc4cπ¯R（H）√iini的阶为maxi∈[c]O（c/ni）.由于我们的误差界依赖于ni，因此如果ni（或π¯i）是小的，则会变得更小。但是如果π¯i是平衡的，并且ni是平衡的，n/c，我们的收敛速度是O（c/ n）阶，这是小于误差如果c非常大，则由先前方法提供的边界备注。定理3和推论1的目的是提供一般损失一致收敛的证明，并说明收敛速度如何能带来好处f∈Fexp（hk（X））10西于羽、刘铜梁、龚明明、陶大成′S S∈||--|在温和的条件下从偏置设置因此，假设损失是上界的对于许多损失函数（诸如平方误差损失）是合理的。如果读者想得到交叉熵损失的具体误差界，可以采用[31]中的策略。如果我们假设转移矩阵Q是可逆的，则我们可以针对修改的损失函数导出与引理1-3 [31]中的结果类似的结果，其最终可以用于导出与推论1类似的泛化误差界。7的Q个在上述方法中，假设转移矩阵Q是已知的，这是不正确的。在这里，我们因此提供了一种有效的方法来估计Q。当使用互补标签学习时，我们完全失去了真实标签的信息在没有任何辅助信息的情况下，不可能估计与真标签的类别先验相关联的转移矩阵。另一方面，虽然注释非常大规模的数据集是昂贵的，但是假设在实践中可以获得一小部分容易区分的观测。该假设也广泛用于估计标签噪声问题[28]中的转换概率和半监督学习[34]中的类先验因此，为了估计Q，我们手动为每个类中的5或10个观察值分配真实标签。由于这些选择的观测值通常很容易分类，我们进一步假设它们满足锚集条件[18]：假设2（锚点集条件）对于每个类y，存在锚点集Sx |yX使得P（Y =y|X = x）= 1和P（Y = y′|X = X）= 0，y ∈ Y\{y}，x ∈ Sx |y.Here，x|y是与y相同的函数的子集。 Givenseveralobservationsinx|y，y[c]，我们准备好估计转移矩阵Q。根据等式（四）、ΣP（Y¯=y¯|X）=y′/=y¯P（Y¯=y¯|Y=y′）P（Y=y′|X）。（十四）设x ∈Sx |y，则P（Y=y|X= x）= 1和P（Y=y′|X= x）=0，则y′∈Y\{y}.我们有一个P（Y¯=y¯|X=x）=P（Y¯=y¯|Y=y）。（十五）也就是说，Q中的概率可以通过P（Y ′ X）获得，P（Y′X）给出每个类的锚集中的观测值。因此，我们只需要估计这个条件概率，这在引理1中已经被证明是可以实现的。在此情况下，当随机数为（xi，y′i）1≤i≤n时，我们通过y使用softmax函数和交叉熵损失训练深度神经网络在获得条件概率P（Y¯ = y ¯Y= y）之后，可以通过对条件概率P（Y ¯ = y ¯ Y = y）求平均值来估计转移矩阵中的条件概率P（Y¯=y¯Y=y|X=X）在axinclassy处的a或d上。有偏见的互补标签学习11Y\{}Y\{}9Y\{}−Y \{}−−5−1−78实验我们在几个基准数据集上评估了我们的算法，包括UCI数据集，USPS，MNIST [16]，CIFAR10，CIFAR100 [14]和Tiny ImageNet4。我们所有的实验都是在神经网络上训练的对于USPS和UCI数据集，我们采用一个隐藏层神经网络（d-3-c）[13]。对于MNIST，LeNet-5[17]已部署，ResNet [12]用于其他数据集。所有模型都在PyTorch5中实现。UCI和USPS。我们首先在USPS和六个UCI数据集上评估我们的方法： WAVEFORM1 、 WAVEFORM2 、 SATIMAGE 、 PENDIGITS 、DRIVE、和LETTER，从UCI机器学习库下载我们采用与[13]中相同的注释互补标签、标准化、验证和优化学习率选自−4 −1{10，···， 10}，权重从{10， 10， 10}衰减，批量大小100。为了在这些实验中进行公平的比较，我们假设转换概率是相同的，并且被称为先验。因此，没有带有真实标签的示例在这里是必需的。所有结果示于表1中。将我们的损失修正（LM）方法与部分标记（PL）方法[5]、多标记（ML）方法[ 24]和“PC/S”（该对是针对具有相同多个数据的多标记的电子组合）进行比较，其中该方法具有更好的性能[ 12]。我们可以看到，“PC/S”具有非常好的性能。相对较高的性能，我们的方法可能是由于我们的方法提供了一个无偏估计的风险最小化。MNIST。MNIST是一个手写数字数据集，包括来自10个类的60，000个训练图像和10，000个测试图像。为了评估我们的方法的有效性，我们考虑以下三个设置：（1）对于类别y中的每个图像，复合图像块是统一选择的。y（“uniform”）;（2）互补标记是非均匀选择的，但是y中的每个标记具有非均匀选择的可操作性（“w i t h 〇 t”）;（3）互补标记是非均匀选择的，来自Yi { y }的所有子集合（“w i t h 〇 t”）。为了生成互补标签，我们首先给出每个com的概率请选择合适的工作环境。在“统一形式”的设置中，P（Y¯=j|Y=i）=1，ij. 在“没有”设置中，对于某个类，我们首先要执行随机抽样y到三个子集，每个子集包含三个元素。然后，对于这三个子集中的每个补充标签，概率被设置为0。6，0。3和0。1、3 3 3respectively. 在“wit h0”设置中，我们首先会自动选择三个标签然后，将它们随机分配给三个概率。其总和为1的关系。在给定Q之后，我们根据这些概率为每个图像分配互补标签。最后，我们随机留出10%的训练数据作为验证集。在所有实验中，学习率固定为1 e 4;批量大小为128;权重衰减为1 e4;最大迭代次数为60，000;并且动量γ =0的随机梯度下降（SGD）。9[27]应用于优化深度模型。请注意，如[13]和以前的实验所示，[13]和我们的方法已经超过了4数据集可在http://cs231n.stanford.edu/tiny-imagenet-200.zip5http://pytorch.org12西于羽、刘铜梁、龚明明、陶大成表1. USPS和UCI数据集上的分类精度：本文介绍了20多个独立实体的数据采集系统的方法和标准设计。“# t ra i n”是在一个类中执行ra i n g和v a li d a ti n e x a m l e s的集合。“# t e s t”是每个类中的测试示例的数量。数据集CD#火车#测试PC/SPLMLLM（我们的）波形11 ∼321122639885.8（0.5）85.7（0.9）79.3（4.8）85.1（0.6）波形21 ∼340122740884.7（1.3）84.6（0.8）74.9（5.2）85.5（1.1）满意1 ∼73641521168.7（第5.4条）60.7（3.7）33.6（6.2）69.3（3.6）1 ∼571933687.0（2.9）76.2（3.3）44.7（9.6）92.7（3.7）6 ∼1071933578.4（4.6）71.1（3.3）38.4（9.6）85.8（1.3）潘迪吉茨偶# 1671933690.8（2.4）76.8（1.6）43.8（5.1）90.0（1.0）奇数71933576.0（5.4）67.4（2.6）40.2（8.0）86.5（0.5）1 ∼1071933538.0（4.3）33.2（3.8）16.1（4.6）62.8（第5.6条）1 ∼53955132689.1（4.0）77.7（1.5）31.1（3.5）93.3（4.6）6 ∼103923131388.8（1.8）78.5（2.6）30.4（7.2）92.8（0.9）驱动偶# 483925128381.8（3.4）63.9（1.8）29.7（6.3）84.3（0.7）奇数3939127885.4（4.2）74.9（3.2）27.6（5.8）85.9（2.1）1 ∼103925126940.8（4.3）32.0（4.1）12.7（3.1）75.1（3.2）1 ∼556517179.7（第5.4条）75.1（4.4）28.3（10.4）84.3（1.5分）6 ∼1055017876.2（6.2）66.8（2.5）34.0（6.9）84.4（1.0）信11 ∼1516 ∼201655655017718478.3（4.1）77.2（3.2）67.4（3.4）68.4（2.1）28.6（5.0）32.7（6.4）88.3（1.9）85.2（0.7）21 ∼2558516780.4（4.2）75.1（1.9）32.0（5.7）82.5（1.0）1 ∼255501675.1（2.1）5.0（1.0）5.2（1.1）7.0（3.6）1 ∼565216679.1（3.1）70.3（3.2）44.4（8.9）86.4（4.5）6 ∼1054214769.5（6.5）66.1（2.4）37.3（8.8）88.1（2.7）USPS偶# 25655614767.4（5.4）66.2（2.3）35.7（6.6）79.5（第5.4条）奇数54214777.5（4.5）69.3（3.1）36.6（7.5）86.3（3.1）1 ∼1054212730.7（4.4）26.0（3.5）13.3（5.4）37.2（第5.4条）表2. MNIST上的分类精度：报告了五个实验数据集上的分类的平均值和标准偏差。“T L”表示使用规则表进行排序的结果。“L M / T”和“L M /E”分别表示使用真实Q和估计Q的结果。方法均匀无0带0TL99.1299.1299.12PC/S86岁。59±3。99七十六。03±3。3429岁12 ±1。94LM/T九十七18±0。45九十七65±0。15九十八63±0。05LM/E九十六。33±0。31九十七04±0. 31九十八61±0。05基线方法，如PL和ML。在下面的实验中，我们将不再与这些基线进行比较。结果示于表2中。的平均值和标准偏差的分类精度超过五个试验的报告。请注意，数字数据特征不会太纠缠，这使得学习一个好的分类器变得更容易。但是，我们仍然可以看到由于注释补充标签的设置更改而导致的性能差异。根据表2中所示的结果，“PC/S”[ 13]通常将一致性视为一致性，但在其他设置中准确性会劣化。我们的方法在所有设置中表现良好。还可以看出，由于这些概率的准确估计，具有估计值的“LM /E”与利用真实概率的“LM /T”相比较。有偏见的互补标签学习13−|/Y \{}表3. CIFAR10的分类精度：报告了五个实验数据集上的分类的平均值和标准偏差。“T L”表示使用规则表进行排序的结果。“L M / T”和“L M /E”分别表示使用真实Q和估计Q的结果。方法均匀无0带0TL90.7890.7890.78PC/S41岁19 ±0。04四十二97±3。00十八岁12±1。45LM/T七十三。38±1。0678岁80 ±0。45八十五32±1。11LM/E四十二96±0。76七十56 ±0。3484. 60 ±0。14CIFAR10. 我们在上述三种设置下在CIFAR10数据集上评估我们的方法。CIFAR10共有10类微小图像，包括50，000张训练图像和10，000张测试图像。我们将10%的训练数据作为验证集。在这些实验中，部署了ResNet-18 [12]。我们以初始学习率0.01开始，并在40和80个epoch之后将其除以10。权重衰减设置为5e 4，其他设置与MNIST相同。应用早期停止以避免过拟合。我们应用与MNIST相同的过程来生成互补标签。表3中的结果说明了我们的方法的有效性。“P C /S“在互补标记被均匀选择时具有有希望的性能，并且我们的方法在其他标记中不使用“P C /S“。在这种“非形式”的情况下P（Y′X）不是唯一的。因此，该传输信息仅适用于这是我在E D。“LM/E”的形式非常糟糕。我们的方法和“uniform”和“w it hou t 0”设置（如表3所示）的结果通常是“w it hou 0”的设置。对于大量的数据恢复图像，该功能在“uniform”和“with-out”设置中显示，在“with-out”设置中，以较低的速率执行数据恢复操作。这种情况可能是由以下因素造成的：在“带0”设置期间，执行跨平台操作时，在“无格式”和“带0”设置时，会像以前的设置一样简单。这种现象还表明，对于每个类别中的图像，注释者不需要分配所有可能的互补标签，而是可以提供遵循标准的标签，即，标签空间中的每个标签应当被分配为至少一个类别中的图像的互补标签通过这种方式，我们可以减少训练样本的数量，以实现高性能。CIFAR100. CIFAR100还提供了一系列微小图像，包括50，000张训练图像和10，000张测试图像。但是CIFAR100总共有100个类，每个类只有500个训练图像。由于标签空间非常大，并且在有限的情况下，在“未格式化”和“具有0”设置的情况下，对于像s i，i = j那样的存储器，f在大小为j的区域进行排序。但是，由于采用了预处理技术，“PC/S”无法实现任何功能。因此，我们只能通过“wit h o”设置来实现xperiments。为了生成复杂的标签，对于每个类别y，我们从y中随机选择5个标签，并为它们分配非零概率。其他人没有机会被选中。14西于羽、刘铜梁、龚明明、陶大成×××−/表4. CIFAR100和Tiny ImageNet在设置“w i t h 0”下的分类准确性：已报告了五个特定数据集的分类器的结构和测试以及最终结果。“T L”表示使用规则表进行排序的结果。“LM/T”和“LM/E”分别表示使用路径Q和时间表的结果。方法CIFAR100 微型ImageNetTL69.5563.26PC/S8. 95 ±1。47N/ALM/T62. 84 ±0。3052岁71 ±0。71LM/E六十岁。27±0。28四十九70 ±0。78在这些实验中，部署了ResNet-34其他实验设置与CIFAR10相同。结果显示在表4的第二列中。Tiny ImageNet。 Tiny ImageNet代表200个类，每个类中有500张来自ImageNet数据集的图像[25]。图像被裁剪为64 64。详细信息在下采样过程中丢失，使其更难以学习。ResNet-18 for ImageNet [12]已部署。而不是使用原始的第一个卷积层与7 7内核和随后的最大池化层，我们用一个卷积层与3 3内核，步幅=1，没有填充。初始学习率为0.1，在20，000和40，000次迭代后除以10。批量大小为256，重量衰减为5e 4。其他设置与CIFAR100相同实验结果示于表4的第三列中。我们都是唯一一个不去想它的人。“P C /S”不能收敛在这里，但我们的方法仍然取得了可喜的成绩。9结论我们解决了有偏见的互补标签的学习问题。具体-通常，我们会在传输概率P（Y¯=j）处确定保留时间|Y=i)，i= j变化，并且它们中的大多数是零。我们设计了一个有效的方法在给定锚集中的少量数据的情况下估计转移矩阵。基于转移矩阵，我们提出了修改传统的损失函数，使得使用互补标签的学习理论上可以收敛到从具有真实标签的示例中学习到的最优分类器广泛的数据集上的综合实验验证了所提出的方法优于当前最先进的方法。谢谢。这项工作得到了澳大利亚研究委员会项目FL-170100117、DP-180103424和LP-150100671的支持。这项工作得到了SAP SE的部分支持和辉瑞公司的研究资助，标题为我们还感谢匹兹堡超级计算资助号TG-ASC 170024提供的计算资源有偏见的互补标签学习15引用1. Bartlett ， P.L. 乔丹 MI

下载后可阅读完整内容，剩余1页未读，立即下载