可信长尾分类方法：解决长尾分布数据分类中的类不平衡问题，通过集成方法和专家框架，准确分类并估计不确定性

193 浏览量更新于2023-10-25 收藏 877KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6970可信长尾分类天津大学libolian@tju.edu.cn韩宗波天津大学zongbo@tju.edu.cn海宁李希电子科技大学18200100006@stu.xidian.edu.cn傅华珠IHPC，A*STARhzfu@ieee.org天津大学zhangchangqing@tju.edu.cn摘要长尾分布数据的分类是一个具有挑战性的问题，它存在严重的类不平衡，从而导致分类性能不理想，特别是在尾类上。近年来，基于集成的方法取得了最先进的性能，并显示出巨大的潜力。然而，现有的方法存在两个局限性。首先，他们的预测是不可靠的故障敏感的应用程序。这对于尾部类尤其有害，因为错误的预测基本上是频繁的。其次，他们分配统一的专家数量的所有样本，这是多余的简单的样本与过多的计算成本。为了解决这些问题，我们提出了一个值得信赖的长尾分类（TLC）的方法，共同进行分类和不确定性估计，以确定硬样本在多个专家框架。该方法首先获取每个专家的证据不确定性和证据，然后在Dempster-Shafer证据理论下将这些不确定性和证据进行此外，我们提出了一个动态的专家工程，以减少从事专家的数量，简单的样本，并实现效率，同时保持promis- ing性能。最后，我们对分类、尾部检测、OOD检测和故障预测等任务实验结果表明，所提出的TLC优于现有的方法，是值得信赖的可靠的不确定性。1. 介绍实际应用中的数据通常是长尾分布在一系列类别中[28，34，37，44，50，51]。不同类别的出现频率差异很大，头部类别在训练样本中丰富，尾部类别在训练样本中丰富*通讯作者。类只有很少的训练样本。此外，还可能存在模型以前没有见过的新类别[37]，超过长尾分布的尾部，被称为分布外（OOD）数据[32]。长尾分类是非常具有挑战性的，因为模型需要处理尾类的少量学习问题（有时甚至是OOD数据），并且总体的类不平衡（模型在比尾样本更多的头部样本上训练）也会使模型偏离，以极度关注头部类[7]。这些问题导致模型表现不佳，特别是在尾部类上[5，19]。现有算法主要通过重新平衡不同类别的训练来解决长尾分类问题，以使尾部样本具有更大的重要性[7，10，33，52]，在头部和尾部类别之间转移知识[37，57]，整合静态采样数据组[53，55]（互补整合），或在多专家框架中整合单个分类器[51]（冗余整合）。冗余集成主要通过降低模型方差以获得稳健的预测来实现最先进的性能[51]。然而，冗余集成方法存在两个主要限制。首先，它们通常容易产生不可靠的预测（即，过度自信的预测）。这也防止了集成方法感知错误的预测和OOD样本，并且对于尾类尤其有害，其中预测平均比头类具有更多的错误[5，19]。因此，它们在一些故障敏感应用中的部署（例如，疾病诊断[2]、自动驾驶[54]和机器人学[12]）是有限的。其次，冗余集成通常假设所有分类器都应该在所有样本上进行训练[51]，这是静态的，并且经常通过将专家均匀分配给所有类别来引起过多的计算成本。专家的意见是严重的，特别是在头类，其中竞争力的分类性能可以实现与6971|∈ ∈{···}更少的专家。针对这些问题，我们提出了一种新的可信长尾分类（TLC）方法，在一个统一的框架内联合进行分类和不确定性估计。首先，我们在Dempster-Shafer证据理论（DST）[13]下介绍证据及其相关的不确定性。该模型借助基于证据的不确定性（EvU），能够感知长尾分类中的硬样本其次，我们提出了一种基于不确定性的多专家证据融合策略。我们利用多个专家的优势，以获得准确的不确定性和鲁棒的预测。此外，我们建议动态地减少参与专家的数量，为容易的样本，共同提高效率，同时保持有前途的性能。例如，头类实际需要的专家数量少于尾类（头类包含更容易的样本）。因此，为了提高效率，我们需要动态地分配较少的专家来训练头类。当先前添加的专家都不确定他们的预测时，我们通过增量添加专家来主要贡献概述如下：• 我们引入基于证据的不确定性（EvU）来提高长尾分类的可信度。据我们所知，拟议的TLC是第一个工作断言可信度长尾分类。• 提出了一种基于 Dempster-Shafer 证据理论（DST）下专家不确定性的多专家融合策略，通过对硬样本的可靠感知，提高了分类性能和可信度。• 我们通过以下方式提高培训多名专家的效率：采样[17]和数据增强[8，26，35]。再-平衡方法[7，10，33，39，52]更多地关注尾部类。OLTR [37]和膨胀内存[57]在不同的类区域之间传输知识。BBN [55]分别学习头部和尾部模式LFME [53]分别为班级区域提取多个教师模型。RIDE [51]和ACE [6]集合多个专家以获得稳健的预测。TDE [48]采用因果推理来消除尾类的偏差这些方法没有充分探索在预测中感知硬样本的不确定性不确定度估计文献[1，3]讨论了传统的不确定性估计算法。BNN [4]通过用分布代替确定性参数来建模不确定性。MC Dropout [16]近似具有dropout的BNN。MCP[20]从softmax分布中获得不确定性。TCP [9]学习一个额外的模块来产生不确定性。EDL [45]在主观逻辑下对不确定性进行建模。像[30]这样的集成方法从不同的预测中获得不确定性。DUQ [49]将RBF距离估计为不确定性。GP [11]使用非参数核函数将不确定性建模为样本之间的相似性证据理论Dempster-Shafer证据理论（DST）最早由[13]提出。它后来被推广为一个框架来建模认知不确定性[47]。DST用主观逻辑公式化贝叶斯推理[14]。DST允许来自不同来源的信念组合成联合信念[22，46]。3. 预赛长尾数据集由不平衡训练集和平衡测试集组成形式上，我们定义一个输入xiRd，它的对应标号y i一二，K和类条件分布p（x y）。对于训练集，以下关系成立：中文（简体）|y=k1）dx≥φp（x|y=k2）dx，nk1≤k2动态地减少不确定性专家的参与，同时获得较好的性能Limk→∞p（x|y=k）dx= 0、（一）• 通过对分类、尾OOD样本检测和故障预测的实验，采用不同的评价指标对实验结果进行了评价，验证了本文提出的TLC方法在上述任务中的性能优于现有方法，具有可靠的不确定性.代码1是公开可用的。2. 相关工作长尾分类传统的长尾分类方法包括欠采样[36]，过采样[ 36 ]，1https://github.com/lblaoke/TLC表明类体积随着类指数的上升而连续衰减，并且最终在最后几个类中接近零根据样本数量的不同，可以将类别分为头部、中部和尾部区域对于测试集，遵循长尾问题[7，10，37，51]的大多数优化工作中的设置，类别之间的公平性的类频率是相等的：p（x|y=k1）dx=p（x|y=k2）dx，k1，k2. （二）此外，对于非自然长尾的数据集，广泛使用的转换是使用SPE对子集进行采样∫6972k=1}KS=···k=1B（α）KS{|产品介绍Σ(a) 培训（b）测试图1.可信长尾分类（Trustworthy Long-TailedU1、U2和U3分别是专家1、2和3的不确定度在训练（a）中，我们提供了一个在不同类别组中为多个专家进行协作的示例。TLC动态地分配更多的专家到尾类的样本比头类。通过识别具有不确定性的硬样品在测试（b）中，使用Dempster规则形成联合不确定性，并且通过基于不确定性的动态重新加权来临界衰变分布（例如，指数分布[10]和帕累托分布[37]）。Dirichlet分布[27]：1 YKpαk−1forp∈ S4. 方法在本节中，我们将介绍如何使用Dempster-Shafer证据理论估计不确定性。4.1，建议形成联合不确定性和联合证据与Demp- ster的规则在第 4.14.2，并在第4.2节中展示动态专家参与的培训过程。四点三。4.1. 基于证据的不确定性评估在长尾分类中，感知硬样本0否则其中α是分布的参数，B（·）是beta函数，K=ppk=1和0 pk1，k是K维单位单形。的不确定性并且置信质量由如下参数确定：u=K和b=αk−1，（4）S S其中αk是第k类的Dirichlet参数，不确定性可以降低信任错误的成本，Kk=1 αk是狄利克雷强度。这样，联合国-dictions，这在训练样本很少的尾类中尤其重要。然而，现有方法遭受过度自信[40，49]或过度计算成本[4 ， 9 ， 16]。因此，对于可信长尾分类，本文在Dempster-Shafer证据理论（DST）下引入基于证据的不确定性（EvU），以同时提高可信度和效率DST是主观概率的贝叶斯理论的推广[14]。虽然基于DST，但主观逻辑（SL）明确考虑了认知不确定性和来源信任[23]。DST将置信质量分配给预测的可能类别标签集，测量在这些集合中找到真正类别标签的机会[45]。当置信质量被分配给所有类别标签时，这些类别是同等可能的。因此，这样的置信质量可以表示整个预测的不确定性[23]。形式上，主观逻辑定义了信念赋值确定性不太可能遭受过度自信，因为它避免了仅仅将标记类的概率视为不确定性，并考虑了与其他类的比较值[45]。在DST中，证据是从数据中获得的支持的量度，支持样本属于某个类别[45]。每个类e=[e1，e2，，eK]的证据可以通过用非负激活函数替换softmax层直接从神经网络的输出中获得然后，方程中的Dirichlet分布的参数。3可以通过使用αk=ek+1来计算，因此，不确定性和置信质量可以用等式3来量化。4.第一章此外，很明显，不确定性和置信质量的总量是一个常数，即，u+Kbk=1（表示K+1维单位单形）.当所有类上的事件不足以进行预测时，分配给所有类的置信质量也将较低，并且KD（p|α）=k=1、（3）6973Σ⊕QY1ike=m=1，（8）. Σe我J 我JMΣM然后计算负对数（negativelogarithm）同时，该输出的不确定性将是高的，以指示错误预测的高概率。2EvU（基于证据的不确定性）的优势在于其基于Dirichlet分布的建模，该分布每个专家的前缀权重具有以下规则：1= 1;n=1;将置信度分配的密度直接从神经网络的输出 EvU模型的uncer-预测的污染和高阶概率[18]。wm+1=wmum=11 −Cwmum，（七）此外，EvU理论上也避免了过度自信问题（常见于传统的不确定性估计al-[20]从总体信念质量中获得不确定性值得注意的是，EvU可以直接用Eq.4、高效合理。4.2. 专家与Dempster法则的结合我们采用了多专家框架，每个专家由第二节介绍的DST指导。4.1. [51]表明，集成多个分类器将减少模型方差，这有利于长尾分类的鲁棒性。在合奏的基础上，我们结合了-对于m = 2，3，···，M − 1.前缀权重wm是来自专家m之前的专家的总体不确定性的度量。这符合方程中联合不确定性的合成过程。6，并将中间组合结果作为权重。当专家m之前的专家已经确定他们的证据时（表明它是一个容易的样本），前缀权重wm将很低（表明em没有义务考虑）。其次，我们在推理时应用前缀权重来组合证据：λMexp{wm/η}·em在Demp- ster规则下的多个专家的能力和证据（如图所示）。（见第1b段）。Mm=1 exp{wm/η}结合不确定性。我们以增量方式结合多个专家的不确定性（例如，首先组合专家1和2，然后添加专家3）。首先，我们将成对Dempsteru1u2=1u1u2，（5）1 −C其中C = b1b2是冲突因子。当两个前-小），其中，非最大值抑制采用幂运算[43]，η是调节前缀权重灵敏度的温度因子。我们还在第二节中应用了用于训练效率的前缀权重。四点三。4.3. 具有动态参与的在我们的多专家框架中，每个专家都可以从输入中捕获证据，以得出分类意见，离子[25]。我们建议在子项下共同学习专家专家同意大多数的信念质量（即，C组合的不确定性将相对较低。2.应用组合规则对多个专家进行顺序组合，最终的组合归纳为：逻辑，同时动态地减少元的数量测量专家提供简单的样品。学习单专家。对于单个专家，我们使用II型最大似然法来制定目标u= u1<$u2<$...... M= Qm=1μm、（6）（Empirical Bayes）[21]. 首先，我们获得证据eiMm=1i=jJ 我（1−Cm）并将类标签yi转换为独热向量yi。其次，我们将调整后的Dirichlet分布D∈（pi|ei）作为其中，Cm=bmbm−1是多项式li kP（yi）先验|（i）（分类-两个连续的专家和C1=0（第一个专家做没有以前的成绩可比较）。的不确定性边际可能性：组合考虑了两个独立的不确定性，每个专家和不同专家之间的信念的协议。结合证据。我们动态地降低了成本-L=−logΩKKkY=1日益益KB（ei）k=1 peik−1dpi（九）在训练阶段，测量专家对简单样本进行测量（详细讨论见第4.3）。因此，在测试阶段，对易样本的聘请专家也应该有所限制。考试-=k=1伊伊ΣlogKk=1ik-log（e ik）。对于首类，我们主要考虑前几位专家的证据，而对于尾类，则应考虑所有专家的证据。首先，我们定义2在补充材料中讨论。然而，Eq.9、只不过是为了保证，rect类将被分配比其他类更多的证据，而不正确类的低整体证据则不受支持。换句话说，由于整体的高不确定性，pΣ6974˜Σ˜˜αα≤我··--···−M我其中α=i参数，Si=K我ik我||-Σ证据我们通过引入以下Kullback-Leibler发散来解决这个问题[45]：Lkl=KL（D（pi|αi）||D（pi|（1））=logΓ（Si）k=1整个培训过程在补充材料中进行了总结。5. 实验在本节中，我们进行实验来回答Γ（K）QKK+（αik−1）k=1Γ（αik）Σψ(α˜ik)−ψ.我的朋友，（十）以下问题：• Q1（有效性）：在长尾分类中，拟议的TLC是否优于最先进的方法？其中αi=1+（1−yi）ei是调整后的狄利克雷pa-˜k=1是调整后的狄利克雷强度，fication？（第二节）5.2）• Q2（可信度I）：如何验证可信度-其中，r（）是gamma函数，而r（）是digamma函数。第这种KL分歧调节了incor的证据，通过最小化调整后的分布和目标分布之间的距离，将类别调整为0最后，单个专家的目标是Lsingle=L+λkl（t）Lkl，（11）其中λkl（t）=min1，t/T是退火因子（t是当前历元）。我们逐步增加KL发散度，防止专家在训练初期学习到一个平面统一的证据。动态学习多个专家。我们认为，没有必要在学习简单的样本（通常在头类）与所有的专家，因为使用较少的专家也可以实现这些样本的竞争力表现。我们在第二节中给出了实验支持。五点三。为此，我们建议应用所有专家的前缀权重（一个衡量联合不确定性的专家组定义在7）动态地去除容易样本上的损失。例如，如果专家1、2、…、m1都确定一个样本（即，wmτ），则将移除此样本上的专家m的损失。因此，专家参与的总体情况应呈下降趋势。例如，第一个专家负责所有类，第二个专家负责除头类之外的类，而最后一个专家只关注尾类（如图所示1a）。此外，为了增强专家的多样性，我们用归一化的Dirichlet参数形成输出分布P（piαm）：P（pikαm）=αm/Sm，并推动dif-专家们通过以下KL分歧分开TLC的有效性，并且是估计的不确定度相对于能？（第二节）5.2和SEC。5.4）• Q3（效率I）：为什么减少简单样本的专家数量是合理的？（第二节）5.3）• Q4（可信度II）：估计的不确定性是否（第二节）5.3）• Q5（效率II）：实际的专家参与是否四点三？（第二节）5.3）具体而言，我们在第二节中显示了配置5.1，定量和定性结果在第5.1节。5.2和SEC。5.3节中的消融研究。5.45.1. 实验装置任务除了分类，为了显示长尾问题中不确定性的影响，我们进行了以下任务：尾部检测，分布外（OOD）检测和故障预测[20]。这些任务都使用估计的不确定性进行二进制分类。具体而言，在尾部和OOD检测中，不确定性用于区分尾部/OOD样本与其他样本，而在故障预测中，不确定性用于区分不正确的预测和错误的预测。用于评估的度量类似于在二元分类和置信度校准中使用的度量AUC [38]、FPR-95 [31]和ECE [41]）。数据集。我们使用三个长尾数据集（CIFAR-10- LT，CIFAR-100-LT和ImageNet-LT）和三个平衡的OOD数据集（SVHN [42]，ImageNet-open和Places-打开）。对CIFAR-10-LT和CIFAR-100-LT [10]进行采样Ldiv =1MMm=1 KL（P（pi|P（p i||P(pi| αi)),（十二）从原始CIFAR [29]数据集到指数分布[10]。ImageNet-LT [37]是从Mm=1半径。αm/M是平均Dirichlet pa-ImageNet-2012 [15]在Pareto分布上的数据集，幂值α=6。它包含115.8K图像在1，000最后，通过将每个专家的目标相加，给出了多专家框架班 ImageNet-open是图像ImageNet-2010数据集[37]。Places-open [37]是Places-Extra 69数据集[56]的测试图像。NM比较方法。我们将建议的TLC与6975我L= λ1{w m> τ}Lsingle+ λ divLdiv.（十三）再平衡方法，包括焦点损失[33]，LDAM-DRW [7]，τ-范数和cRT [24]，知识转移方法i=1m =16976OLTR [37]和集成学习方法RIDE [51]。我们还将基于证据的不确定性与其他广泛使用的不确定性估计算法进行了比较，包括最大类概率（MCP）[20]，高斯过程（GP）[11]和蒙特卡罗丢弃（MCD）[16]。5.2. 定量评价分类（Q1）。我们用不同的指标来评估分类的性能。除了Top-1准确度，我们还报告了区域准确度，该准确度计算了落入正确类别区域的预测频率（例如，尾样本是否被分类为尾类3）。更高的区域准确性意味着长尾分类的更好的可信度。评价结果见表。1.一、我们将每个实验运行五次，以报告平均ACC和标准差。在所有数据集上，TLC的性能都优于对比方法，并且显著改善了区域和尾部ACC。尾部OOD检测（Q2）。我们根据AUC评分评价了尾部检测和OOD检测的性能[38]。对于尾部检测，我们将尾部类标记为阳性，将其他类标记为阴性。对于OOD检测，我们通过将分布内标记为阴性而将OOD标记为阳性来联合使用分布内和OOD样本。我们使用MCP [20]（softmax分布中的最大值）来量化比较方法的不确定性。评价结果见表。二、我们提出的TLC优于比较的方法，特别是在识别大图像数据集中的OOD样本方面更好（即，ImageNet-open和Places-open）。故障预测（Q2）。我们分别根据AUC [38]、95%TPR时的FPR（FPR-95）[31]和头部、中部和尾部类别的预期校准误差（ECE）[41]评估了故障预测性能。我们还使用MCP [20]来量化比较方法的不确定性。评价结果见表。3 .第三章。我们的TLC优于比较的方法，特别是在ECE方面表现得更好。5.3. 定性评价专家人数（Q3）。我们在CIFAR-100- LT上可视化了三个类别区域（头部，中部和尾部）的准确性，专家数量递增，如图2所示。我们发现，使用更多的专家是有益的尾类，但没有显着的影响头类。这一结果证明了我们的动机，即分配相同数量的专家对于简单的样本是多余的。3当它们失败时，由于头类的平均不确定性较低，它们仍然可能被信任，但即使它们错误地落入其他尾类，模型仍然不确定它们，从而减少潜在的威胁。图2. CIFAR-100-LT在不同专家人数下对头、中、尾类的分类精度。图3.不同不确定度估计算法对CIFAR-100-LT的平均不确定度（也以3个分类区域的测试误差为基准）。每个类别的不确定性（Q4）。我们在图中使用各种不确定性估计算法3（使用3名专家进行循证不确定性，简称EvU）。我们计算每10类的平均不确定度在所比较的不确定度中，EvU与实际测试误差最为一致.因此，很容易用EvU区分头部、中间和尾部类（实际上，低不确定性表示头部类，高不确定性表示尾部类）。专家参与（Q5）。我们使用不同数量的专家分别在图4中的CIFAR-100-LT上的头部、中部、尾部和所有类别上可视化样本的百分比。我们将专家的最大数量设置为4，阈值τ=0。54.根据定量评价的超参数设置。使用4个专家的样本支配尾类，使用1个专家的样本支配头类。总的来说，硬样本被分配给更多的专家来学习模式，这与我们在SEC中的动机一致。四点三。6977LL L表1.长尾分类在ACC方面的性能比较（百分比）。数据集方法所有区域头Med尾巴CIFAR-10焦点损失OLTRLDAM-DRWτ-normcRTRIDE68.6± 0.278.7± 0.678.4± 1.079.6± 1.079.2± 0.380.2± 0.373.2± 0.480.5± 0.382.5± 0.483.5± 0.483.0± 0.483.4± 0.284.8± 0.286.1± 0.189.6± 0.187.7± 0.287.1± 0.187.4± 0.167.9± 0.977.5± 0.674.0± 1.576.2± 1.677.3± 0.877.2± 0.749.1± 0.869.8± 1.772.4± 2.073.6± 1.471.5± 0.975.0± 0.5TLC（2名专家）薄层色谱法（3名专家）薄层色谱法（4名专家）80.3± 0.480.3± 0.480.4± 0.284.2± 0.384.2± 0.384.4± 0.286.0± 0.185.9± 0.185.7± 0.177.8± 0.577.2± 0.878.1± 0.575.4± 0.875.9± 0.675.6± 0.5CIFAR-100-LT焦点损失OLTRLDAM-DRWτ-normcRTRIDE42.3± 1.343.4± 0.844.4± 1.245.4± 1.245.6± 0.348.3± 0.555.4± 0.459.9± 0.261.4± 0.262.3± 0.662.3± 0.562.8± 0.170.3± 1.764.6± 2.064.8± 1.568.0± 1.667.8± 2.468.8± 1.240.7± 1.644.8± 1.543.8± 1.347.2± 1.447.1± 2.149.0± 0.715.9± 1.920.9± 2.424.6± 1.821.0± 2.021.8± 1.627.1± 1.4TLC（2名专家）薄层色谱法（3名专家）薄层色谱法（4名专家）47.2± 0.749.0± 0.449.8± 0.862.8± 0.364.0± 0.264.5± 0.269.4± 1.270.9± 0.871.1± 1.046.6± 1.047.9± 0.948.4± 1.125.7± 1.528.1± 1.329.7± 1.6ImagNet-LT焦点损失OLTRLDAM-DRWτ-normcRTRIDE45.6± 2.150.7± 1.249.8± 0.747.9± 1.248.4± 1.354.6± 0.967.0± 0.668.0± 0.566.9± 0.567.8± 0.367.5± 0.568.4± 0.369.2± 3.267.8± 1.963.3± 2.160.3± 1.864.4± 2.470.6± 1.341.5± 2.753.3± 1.850.2± 2.250.6± 1.350.5± 1.454.8± 0.926.1± 3.131.0± 2.436.0± 1.333.0± 1.830.3± 1.838.3± 1.4TLC（2名专家）薄层色谱法（3名专家）薄层色谱法（4名专家）54.1± 0.654.6± 0.555.1± 0.768.4± 0.369.1± 0.369.9± 0.268.7± 1.269.3± 1.268.9± 1.255.4± 1.256.7± 0.855.7± 1.538.3± 1.437.9± 1.840.8± 0.8表2.尾部检测和OOD检测在AUC方面的性能比较（百分比）。培训CIFAR-10CIFAR-100-LTImagNet-LT测试尾巴 SVHNImageNet-open位置-开放尾巴 SVHNImageNet-open位置-开放尾巴ImageNet-open焦点损失OLTRLDAM-DRWτ-normcRTRIDE36.355.954.956.256.156.264.055.955.856.055.577.170.078.278.279.781.280.570.677.176.577.975.179.835.437.236.936.536.835.454.053.754.152.053.845.953.554.153.154.350.154.553.252.854.752.352.355.926.827.526.428.128.628.643.142.142.643.343.544.6TLC（2名专家）薄层色谱法（3名专家）薄层色谱法（4名专家）55.656.956.583.874.980.585.887.082.884.286.284.736.836.337.354.153.454.152.952.954.655.953.756.527.928.128.644.643.944.75.4. 消融研究组件的有效性。我们比较了CIFAR-100-LT上的不同组件组合（，kl和前缀权重w）在分类、OOD检测和故障预测方面的差异（均使用3位专家）。结果列于表中4，其中我们还包括充分的目标的结果供参考.容易得出结论：i）添加kl有利于获得更可靠的不确定性（比较线2与线1以及线3与线4），以及ii）动态地减少参与的专家（具有w）不会显著影响三个任务的性能（比较线2与线4）。不确定度比较（Q2）。比较了各种失效预测的不确定性估计算法。我们使用1个专家作为骨干模型，并在CIFAR-100 上计算MCP [20] ， GP [11]， MCD [16]和EvU6978LT数据集。根据表中的结果。5、EvU算法在所有任务上都优于其他算法，尤其是在尾类上，验证了EvU算法比其他比较的不确定性估计算法更6. 结论在本文中，我们提出了可信的长尾分类（TLC），它估计的证据和不确定性，在多个专家的框架。在Dempster-Shafer证据理论（DST）下，将每个专家的估计证据和不确定性结合起来。TLC可以动态减少参与简单样本的专家数量，从而在保持性能的同时确保效率我们用不同的指标评估TLC在多个任务上的表现，它优于现有的方法，并且具有可靠的不确定性。6979表3.故障预测性能比较（百分比）。数据集方法FPR-95↓欧洲经委 ↓所有头M↑ed尾巴所有头Med尾巴所有头Med尾巴焦点损失75.783.983.183.883.782.980.579.679.679.579.881.775.683.986.385.284.185.485.185.985.283.585.384.279.879.669.367.967.468.772.572.971.771.271.271.980.982.472.971.970.370.580.380.762.159.762.162.320.118.818.917.818.415.911.711.212.412.011.59.819.719.622.020.719.817.933.333.224.522.321.322.4OLTRLDAM-DRWτ-范数CIFAR-10cRTRIDETLC（2名专家）83.584.385.683.468.968.065.766.768.766.368.060.858.271.272.768.212.810.613.115.8薄层色谱法（3名专家）83.783.087.183.613.111.312.416.8薄层色谱法（4名专家）83.984.087.883.812.511.411.315.9焦点损失73.373.572.773.974.176.383.785.685.785.583.485.572.979.275.575.179.779.553.356.355.654.853.560.078.979.581.878.978.679.566.469.568.966.064.566.281.279.676.783.078.980.189.590.492.189.389.289.724.223.630.929.830.224.116.016.218.717.219.814.522.322.230.829.728.923.835.034.543.642.543.834.3OLTRLDAM-DRWτ-范数CIFAR-100-LTcRTRIDETLC（2名专家）77.976.976.785.784.585.378.778.877.760.057.558.678.379.880.564.367.166.877.776.580.691.290.689.823.227.823.022.4薄层色谱法（3名专家）22.824.821.924.6薄层色谱法（4名专家）21.221.720.625.6焦点损失65.466.066.866.166.466.273.772.876.871.670.275.862.867.067.559.763.370.343.442.347.648.549.247.183.982.982.882.982.684.568.467.170.968.465.168.286.285.081.783.183.285.194.596.396.194.795.394.735.328.333.245.1OLTR34.825.632.642.3LDAM-DRW35.128.640.750.4τ-范数33.027.838.150.4ImagNet-LTcRTRIDE32.531.927.224.537.435.748.842.4TLC（2名专家）66.775.271.248.284.565.980.594.532.826.330.740.3薄层色谱法（3名专家）66.775.768.348.884.667.080.897.231.324.731.639.6薄层色谱法（4名专家）67.276.268.749.482.665.281.594.331.923.830.840.1表4.使用CIFAR-100-LT数据集对拟定TLC的L Lkl WACC分类AUCOOD检测AUC故障预测✓48.945.863.7✓✓49.153.276.2✓✓48.742.461.6✓✓✓49.053.476.9表5.不确定性消融研究，比较CIFAR-100-LT数据集上的不同不确定性（百分比）。图4. CIFAR-100-LT上专家参与度的可视化（饼图上标记了使用特定数量专家的样本百分比）。确认本工作得到了国家自然科学基金（ 61976151 ，61732011 ）、国家重点研发计划（ 2019YFB2101900 ）和 A*STARAI3HTPO 种子基金（C211118012）的部分资助。我们非常感谢-知识的支持下，MindSpore，CANN（计算架构神经网方法MCP熵MCSEVUAUC↑所有74.375.176.477.9头83.984.684.485.7Med79.278.980.978.7尾巴57.057.658.260.0FPR-95↓所有79.579.480.978.3头66.065.665.464.3Med76.176.875.777.7尾巴89.789.190.191.2ECE↓所有24.125.023.923.2头14.518.519.727.8Med23.824.323.123.0尾巴34.334.732.622.46980络）和Ascend人工智能处理器用于本研究。6981引用[1] Moloud Abdar ， Farhad Pourpanah ， Sadiq Hussain ，Dana Rezazadegan，Li Liu，Mohammad Ghavamzadeh，Paul Fieguth，Xuxun Cao，Abbas Khosravi，U RajendraAcharya，et al.深度学习中的不确定性量化信息融合，2021年。2[2] 敖春燕、靳顺山、丁慧、邹泉、梁宇。人工智能与智能疾病诊断的应用与发展。当前药物设计，26（26）：3069-3075，2020。1[3] John Blatz ， Erin Fitzgerald ， George Foster ， SimonaGan-drabur ， Cyril Goutte ， Alex Kulesza ， AlbertoSanchis，and Nicola Ueffing.机器翻译的置信度估计。Coling 2004 ： Proceedings of the 20th internationalconference on computational linguistics ， pages 315-321，2004. 2[4] CharlesBlundell，JulienCornebise，KorayKavukcuoglu，and Daan Wierstra.神经网络中的权重不确定性。国际机器学习会议，第 1613-1622 页。PMLR，2015. 二、三[5] Mateusz Buda、Atsuto Maki和Maciej A Mazurowski。对卷积神经网络中类不平衡问题的系统研究。神经网络，106：249-259，2018。1[6] 蔡家瑞，王益州，黄正能。Ace：联合互补专家，一次性解决长尾识别问题。在IEEE/CVF计算机视觉国际会议论文集，第112-121页，2021年。2[7] Kaidi Cao ， Colin Wei ， Adrien Gaidon ， NikosArechiga，and Tengyu Ma.学习具有标签分布感知的边际损失的不平衡数据集。在第33届神经信息处理系统集，第1567-1578页，2019年。一、二、五[8] Peng Chu，Xiao Bian，Shaopeng Liu，and Haibin Ling.长尾数据的特征空间扩充。在计算机Springer，2020年。2[9] CharlesCorbi e`re ， NicolasThome ， AvnerBa r-Hen ，MatthieuCord，andPatrickPe` rez. 通过学习模型置信度解决故障预测在第33届神经信息处理系统国际会议论文，第2902-2913页二、三[10] Yin Cui，Menglin Jia，Tsung-Yi Lin，Yang Song，andSerge Belongie. 基于有效样本数的类平衡损耗。在IEEE/CVF计算机视觉和模式识别会议论文集，第9268-9277页，2019年。一、二、三、五[11] Andreas Damianou和Neil D Lawrence。深高斯过程人工智能和统计，第207PMLR，2013年。二六七[12] 布莱恩·戴维斯。外科机器人综述。机械工程师学会会议录，H部分：医学工程杂志，214（1）：129-140，2000年。1[13] AP Dempster et al. Upper and lower probabilities inducedbyamultivaluedmapping.AnnalsofMathematicalStatistics，38（2）：325-339，1967. 2[14] 亚瑟·登普斯特。贝

下载后可阅读完整内容，剩余1页未读，立即下载