个性化成本分配策略RUE在类不平衡代价敏感学习中的有效性和优越性

169 浏览量更新于2024-01-17 收藏 2.15MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报RUE：一种面向类不平衡代价敏感学习的鲁棒个性化代价分配策略周善林，顾燕，华龙余晓，杨西贝，尚高江苏科技大学计算机学院，镇江，中国阿提奇莱因福奥文章历史记录：2022年8月22日收到2023年2月5日修订2023年3月1日接受在线预订2023年保留字：成本敏感学习随机欠采样集成模糊支持向量机加权极端学习机A B S T R A C T代价敏感学习是解决类不平衡学习（CIL）问题的一种流行范式。传统的代价敏感学习方法在解决CIL问题时，往往对所有少数实例分配比多数实例更高的训练错误惩罚，但忽略了位置信息的重要性。因此，最近的一些研究开始关注个性化成本分配，即，基于它们的位置信息为不同实例指定不同的成本。新兴的个性化成本敏感方法总是比传统的方法性能更好，但是，位置信息的估计可能是不准确的，因为它容易受到数据密度变化的影响。为了解决这个问题，我们提出了一种新的位置信息估计和成本分配策略称为RUE。与以前的方法不同，我们提出的策略通过间接的方式探索位置信息：从随机欠采样集合反馈的错误率。该策略对数据分布具有鲁棒性，无论数据分布的复杂性如何，都有助于准确地估计每个实例的在模糊支持向量机（FSVM）和加权极端学习机（WELM）的环境下，将该方法与目前流行的几种成本分配方法进行了比较，结果表明了该方法的有效性和优越性。版权所有2023作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍从不平衡的数据分布中学习是一项具有挑战性的任务，同时，它广泛存在于大量的现实世界应用中，包括医学诊断（Wang 和Cheng，2021），化学毒性预测（Antelo-Collado等人， 2020）、软件缺陷预测（Goyal，2022）、机器故障诊断（Zhang等人，2022）、基于网络的入侵检测（Gupta等人，2022）和文本分类（Jang等人，2021年）。在这类任务中，传统的监督学习方法往往偏向于多数类，从而损害了少数类的利益*通讯作者。地址：江苏省电子邮件地址： shanlin_zhou@126.com （ S.Zhou ）， yan_gu@stu.just.edu.cn（Y.Gu），yuhualong@just.edu.cn（H.Yu），yangxibei@yeah.net（X.Yang），gao_shang1972@163.com（S. Gao）。沙特国王大学负责同行审查课类不平衡学习（CIL）方法被专门开发来解决这样的问题（Kaur等人，2019年;苏珊和库马尔，2021年）。近年来，已经提出了大量的CIL方法，并且这些新兴方法可以大致分为几个主要类别：2022;Asniar等人，2022; Xie等人，2019年;Zhang等人，2022），成本敏感学习（Batuwita和Palade，2010;Veropoulos等人，1999; Yu等人，2019; Zhang和Ji，2013; Zong等人， 2013）、阈值移动（Collell等人，2018年; Yu等人，2015; Yu等人， 2016 ）、核心策略（Zhang et al.， 2019），单类学习（Devi等人， 2019）和集成学习（Feng et al.，2019; García等人，2018;Raghuwanshi和Shukla，2019;Razavi-Far等人，2019年;Sun等人，2020; Taherkhani等人， 2020年）。在这些技术中，代价敏感学习是唯一一种从本质上考虑解决类不平衡学习问题的方法，它在不改变学习原理的前提下，使学习算法适应不平衡的数据分布。代价敏感学习的核心问题是如何设计代价分配规则。在早期的研究中，研究人员倾向于采用经验值来分配成本，并开发了几种算法，包括不同的错误成本（DEC）（Veropouloshttps://doi.org/10.1016/j.jksuci.2023.03.0011319-1578/©2023作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS. Zhou，Y.Gu，H.Yu等人沙特国王大学学报37f···g我.F1F2F3 F4 F5F4联系我们-1/4例如， 1999）、模糊极限学习机（FELM）（Zhang和Ji，2013）和加权极限学习机（WELM）（Zong等人，2013年）。在这些算法中，成本通常与类不平衡比率，即多数和少数实例的数量之间的比率相关联。然而，经验代价敏感学习算法没有考虑每个实例在特征空间中的位置信息，因此，这种代价分配策略显然不是最优的。最近的几项研究注意到了这个问题，并提出了一些个性化的成本分配策略和成本敏感的学习算法，包括用于类不平衡学习的模糊支持向量机（FSVM-CIL）（Batuwita和Palade，2010）和具有相对密度的模糊支持向量机（FSVM-RD）（Yu等人， 2019年）。这些算法的性能明显优于那些经验成本敏感的学习算法。然而，在一些复杂的数据分布中，这些个性化的代价敏感学习算法仍然存在潜在的风险，无法准确估计真实位置信息。因此，在本研究中，我们将重点放在这个问题上，并试图开发一个广义的位置估计和成本分配策略，进一步提高成本敏感学习的鲁棒性和普适性。在这项研究中，我们提出了一个间接的位置信息探索策略，利用随机欠采样集成（RUE）。首先，多数类和少数类的训练实例同时被多重欠采样。然后，在每个欠采样集上，建立分类和回归树（CART）学习模型。然后，使用所有已训练的CART为原始训练集中的每个实例提供预测的类别标签，并计算相应的错误率。最后，我们从原始训练集中去除一些具有高预测错误率的噪声实例，并根据其错误率和类不平衡率为提醒实例分配成本特别地，RUE策略不直接探索每个实例的位置信息，而是通过误差率反馈对数据分布进行自适应的间接估计换句话说，RUE策略可以忽略数据分布的复杂性，而是直接捕获嵌入其中的实例位置信息。我们分别将RUE策略与FSVM（Lin andWang，2002）和WELM（Zong et al.， 2013）的成本敏感学习框架，并将它们与四十类不平衡数据集上的几种最先进的成本敏感学习算法进行了比较。实验结果表明，在G-均值性能指标方面，所提出的RUE策略的优越性。本文的其余部分组织如下。第2系统回顾了CIL任务成本敏感学习的相关研究，并指出了本研究的动机。在第3节中，首先介绍了两种流行的成本敏感学习算法FSVM和WELM，然后详细描述了所提出的RUE位置信息估计和成本分配策略。第4节介绍了实验结果，并提供了相应的讨论。最后，第5节总结了本研究的贡献。数据分布不均衡往往会对学习算法产生不利影响。代价敏感学习通过为少数实例分配更高的训练错误代价来解决上述问题，进一步使传统的监督学习算法在不改变经验风险最小化原则的情况下适应不平衡的数据分布。对于成本敏感的学习，如何分配成本是最重要的问题之一。一般来说，成本分配依赖于表1中描述的成本矩阵。这里，positive和negative分别表示少数类和多数类，而C+-和C-+表示错误分类的成本将一个正实例错误地分类到负类中，以及将一个负实例错误地分类到正类中。根据代价敏感学习的原则，C+-应该明显大于C-+。在早期关于代价敏感学习的研究中，研究者主要关注如何指定C+-和C-+的值。Zhang和Ji在2013提出了FELM算法，并建议用户应该根据经验分配比C-+更大的C+-，但在他们的工作中没有给出这两个Zong等人，2013年提出了WELM算法，并提供了两类成本之间比例关系的经验设定，即，CNIR，其中IR表示类别不平衡比率。相同的C-N -甲基在支持向量机（SVM）的背景下，DEC算法也使用设置（Veropoulos等人，1999年）。所有这些算法都有两个共同的特点：1）同一类中每个实例的代价是相同的; 2）每个类的代价都是经验设计的。因此，我们称这些方法为经验代价敏感学习算法.近年来，研究者注意到，除了类不平衡率之外，成本分配的质量还受到另一个重要因素的影响，即实例在数据分布中所处的位置他们认为，成本敏感的学习应该更多地关注那些重要的和/或难以学习的例子。在这种情况下，每个训练实例的成本由位置信息本身和类不平衡率决定此外，这种方法不依赖于表1中描述的成本矩阵，而是构造成本向量C1;C2; ;CN，其中N表示训练实例的数量特别地，我们称这种方法为个性化代价敏感学习算法。巴图维塔和帕拉德，2010提出一个性化成本-该算法设计了三种位置信息估计策略，分别为类内质心（CEN）、估计球质心（SPH）和实分离超平面（HYP）。在这三种策略中，它分别使用每个类的质心、估计球的质心和预训练SVM的超平面作为参考。特别地，计算每个实例与参考之间的距离，并且可以通过以下两个衰减函数之一来进一步计算对应的成本：d参考Clinxi1-i12. 相关工作传统的有监督学习算法大多依赖于经验风险最小化规则，因此类不平衡数据对传统的有监督学习算法造成了很大的损害。也就是说，传统的监督学习算法追求的目标是最小化总体训练误差。然而，在类不平衡数据上，在分类边界附近，多数实例比少数实例多。这意味着在保证经验风险最小化原则的前提下，必须将更多的少数类实例误分类，并将分类超平面推向少数类区域。它解释了为什么传统的超级-最大的。d参考编号D2Cexpxi½;b2½0;1]2我表1成本矩阵的例子实正类实负类预测阳性类别0C-+预测阴性类C+-0S. Zhou，Y.Gu，H.Yu等人沙特国王大学学报38我4ð Þ¼其中dref表示实例xi和参考之间的距离，b是确定衰减陡度的参数表示小的正值以避免情况Clinxi0。显然，通过这两个成本分配函数，靠近引用的实例必须被指定比远离引用的实例更大的成本。因此，在CEN中，距离类质心较近的实例被赋予比距离质心较远的实例更高的代价，从而在训练过程中强化了每类的高密度区域;而在SPH和HYP中，距离在原始训练数据上估计和实际训练的分类超平面较近的实例这些策略看似合理有效，但忽略了数据分布的潜在复杂性。换句话说，这些策略不能很好地适应各种复杂的分布。例如，CEN策略可能会忽略每个类中存在的小析取，而SPH和HYP可能会非常偏向少数类，从而无法加强真实分类边界周围的实例。另外，如（Yu et al.，2019年），这些策略不能保证为不同类别分配相同的总成本，从而增加了潜在的风险。最近提出了一种改进的FSVM- CIL方法，专注于边界噪声问题（Liu，2021）。该方法采用高斯模糊函数，将传统的欧氏距离变换为一种新的距离度量，有效地降低了噪声实例位于边界区域时的代价分配。换句话说，改进的方法可以有效地发现边界噪声，并降低其在代价敏感学习中的影响。然而，它仍然没有改善相比，原始FSVM-CIL算法的分布适应性为了解决上述问题，Yu等人，2019年提出了一种称为FSVM-RD的改进方法。具体而言，该算法利用数据分布中隐藏的全局密度信息而非邻域绝对距离进行代价分配，进一步提高了代价分配对数据分布的适应性和鲁棒性。在（Yu等人，2019），首先使用K-最近邻概率密度估计（KNN-PDE）技术（Fukunaga和Hostetler，1973）计算每个实例与其同类中的第K个邻居之间的距离，然后使用倒数以表示其相对概率密度。接下来，使用归一化策略按比例调节成本，使不同类的总费用相等。最后，两种不同的成本分配策略之一用于指定每个训练实例的成本。具体而言，两种成本分配策略包括类内相对密度（WD）和类间相对密度（BD），其中前者为核心实例分配更高的成本，这类似于Fig. 1.在具有相同分布但不同紧致度的数据上（参见（a1）和（a2）），FSVM-RD算法生成不一致的分类超平面。S. Zhou，Y.Gu，H.Yu等人沙特国王大学学报392nXNð···Þ2毫微克电话：+86-21 - 88888888P最小值：w·wCeiN NNf···gCEN，而后者为边界实例指定了更高的成本，这与SPH和HYP类似作为FSVM-RDminimize：-Pai1PyiyjaiajUxi·Uxj采用全局概率密度，因此与几个1/1N联系我们ð4Þ在（Batuwita和Palade，2010）中提出的策略中，WD和BD都更鲁棒并且对数据分布相对不敏感然而，它们仍然有几个固有的缺点：1）它们对数据分布中的紧凑性和/或稀疏性因素敏感（见图1），以及2）相对密度的准确性可能被数据中存在的小析取所破坏（见图2）。这受：Pyiai<$0;8i：06ai6C;i<$1;：：;N其中ai表示xi的拉格朗日乘子，满足以下促使我们在本研究中设计更稳健且通用的位置估计成本分配策略。8i：aiyiw · Uxib-1ei¼08i：C-aiei¼0然后，法向量w可以通过下式计算：ð5Þ3. 方法3.1. 模糊支持向量机支持向量机（Support Vector Machine，SVM）是一种流行的机器学习算法，它具有两个独特的优点：1）具有很强的泛化能力; 2）对高维小样本数据具有很强的适应性（Nobel，2006）。假设有一个训练集W<$f<$xi;yi<$jxisR;isf1;2;·· ·;NwaiyiUxi61/1而截距b可以进一步通过方程求解（五）、FSVM（Lin and Wang，2002）是SVM的一种变体，它在等式中的优化目标中增加了一个模糊向量w1;w2; ;wN（3）调整每个训练实例的惩罚因子C。然后，等式中的优化目标。（3）转化为：最小值：1w·wPwe其中xi2Rn表示xi是n维的2i i1/1ð7Þinstance，并且yi表示该实例的可能的类标签。支持向量机的目标是找到一个分类超平面，该分类超平面能够将属于两个不同类别的实例尽可能地分离，同时，分类超平面也能够将属于两个不同类别的实例尽可能地分离。服从：yiw·UxibP1-ei;i¼1;：;NeiP0;i¼ 1;：;N其对偶形式转化为：N NN平面可以提供两个类之间的最大余量。到最小化：-Pai1PyiyjaiajUxi·Uxj为了同时实现上述两个目标，SVM需要解决以下优化问题：1/1N2联系我们ð8ÞN121/1服从：yiw·UxibP1-ei;i¼ 1;：;NeiP0;i¼ 1;：;Nð3Þ服从：yiai0;i：0 6ai6 w i C; i1;：; N1/1法向量w和截距b可以通过SVM中使用的相同方式来计算很明显，FSVM通过模糊向量ωw1;ω2;···;ωNω来实现代价敏感学习，这可以看作是FSVM的另一种形式。其中w和b分别表示分类超平面的法向量和截距，C表示用于调节训练精度和泛化能力之间的权衡的惩罚因子，U表示将实例xi映射到更高维空间的核函数，并且松弛变量ei表示实例xi的训练误差。搜索方程中（3）是一个二次规划问题，可以通过构造拉格朗日量来求解，并转化为Dual：成本向量C1;C2; ;CN.在DEC中（Veropoulos等人，1999）中，所有w i共享两个不同的值，而在FSVM-CIL（Batuwita和Palade，2010）和FSVM-RD（Yu等人，2019），每个Wi具有依赖于其重要性反馈信息的独立值。3.2. 加权极限学习机极限学习机（ELM）是一种专门用于训练单隐层前馈神经网络的学习图二. 对于具有小析取的数据（见（a）），FSVM-RD算法倾向于忽略它们（见（b））。1/1S. Zhou，Y.Gu，H.Yu等人沙特国王大学学报40Nð Þ ¼ ½你知道吗？我¼ ½ ð ÞðÞ···ð[2019 - 03 -21]N2f···g2C22我我我：C公司简介Ci（SLFN）（Huang等人，2006; Huang等人， 2011年）。与传统的误差反向传播（BP）算法（Rumelhart等人，1986），ELM固定隐藏层的参数，并没有调整他们在随后的训练过程。因此，ELM可以产生比BP神经网络和SVM更好或至少相当的分类性能和泛化能力（Huang等人，2015年），同时，与这些算法相比，它节省了数十或数百个训练时间。假设ELM中有L个隐藏节点，并且这些节点上的所有权重和偏差都是随机生成的，则对于任何一个实例x i，其隐藏层输出可以表示为行向量h x ih 1x i; h 2x i;; h Lx i 进一步地，ELM的优化目标被描述为：最小化：1jjb jj2<$1CPjjeijj21/1在复杂的数据分布中快速估计位置信息。为了实现上述目标，我们建议采用一种间接的方式来获取每个实例的位置。实际上，间接探索位置信息并不是一个新的想法，因为在（Batuwita和Palade，2010）中，SPH和HYP策略都采用这种方式。然而，这些策略往往不能准确地估计真实的位置信息，因为它们的参考容易被偏见，特别是在高度不平衡的数据。在这项研究中，我们发现，随机欠采样集成（RUE）似乎是一个很好的工具，以提供一个无偏估计，例如位置信息。事实上，依赖于RUE框架，已经开发了几种集成学习算法来直接解决CIL 问题，包括underbagging（Baranbagging等人， 2003）和不对称装袋（Tao等人，2006年）。与这些研究不同的是，我们使用RUE作为一个位置估计，服从：hxibyT-eT;i1; 2;：;N信息化策略指导个性化成本分配我我在这项研究中，敏感的学习。其中，γT表示与其真实类标签相关联的实例xi的期望输出向量的转置，b表示将隐藏层和输出层之间的参数相关联的未知矩阵，并且C仍然表示惩罚因子，用于调节模型的训练精度和泛化能力之间的权衡。显然，b可以直接求解如下：8HTIHT-1Y;当N6L我不 -1在传统的RUE框架中，多数类首先被随机多次欠采样，然后将每个多数类与所有少数类实例组合，构造多个均衡训练子集，在每个均衡训练子集上训练一个分类模型，最后综合这些模型的结果进行最终决策。虽然单个分类模型可能存在一定程度的偏差，但集成决策可以对实际分类边界提供一个近似的无偏估计。在这里，我们注意到，无偏估计反映了集成决策，因此我们可以建立一个潜在的假设：CQCHHHT Y;当N>L如下：在RUE中，具有高错误率的实例通常意味着哪里H hx1; hx2;; hxNT，Yy1;y2;;yN，并且I表示单位矩阵。作为ELM的变体，WELM（Zong等人，2013）使得ELM学习模型能够满足代价敏感学习的要求。2w1···03..是噪声，具有中等错误率的实例表示其接近分类边界，并且具有低错误率的实例表示其是远离分类边界的易于学习的实例。根据这一假设，有可能对实例位置和重要性提供相对准确的估计具体地，WELM设计了成本矩阵W1/4。. ... 75在RUE中使用错误率反馈。我们知道，对于分类问题，噪音总是有害的，0·· ·wN来独立地调整每个实例的错误惩罚。在WELM中，Eq. （9）改写为：最小化：1jjb jj2<$1CPwijjeijj21/1同时，学习模型的质量更多地依赖于它是否能很好地识别那些难以学习的实例（通常，接近分类边界）。这意味着在成本敏感学习中，它应该考虑去除噪声实例，并为边界附近的实例分配比实例这是很容易学习的。我们通过设计实现了噪音放弃服从：hxibyT-eT;i1;2;：;N设阈值k2½0;1]，并且当实例x的错误率n则b可以进一步计算如下：8HTIWHHT-1WY;当N6L我C不HT WY;当N>L-1大于k时，它可以被看作是噪声而被抛弃。至于成本分配，它可以直接与错误率相关联，因为在剩余情况下，高错误率表示难以分配。ð12Þ学习和低错误率表示易于学习。特别地，为了避免具有零错误率的实例被分配零成本，我们在Zong等人中， 2013年，任何一个实例x i的成本w i是sug-调整每个余数实例的错误率如下：gested to be set aswi¼ 1=#xi，其中#xi表示数字n0¼nD13属于xi所属的类的实例。虽然WELM最初被设计为经验成本敏感学习算法，但它可以通过为不同实例分配差异成本来直接作为个性化成本敏感学习算法工作。我我其中D是一个小正值，在本研究中默认指定为10-2。然后，为了保证每个类共享相同的总成本，可以进一步调整成本如下：3.3. RUE战略n0的i¼Psn0ð14Þ如第2节所示，大多数现有的位置信息和实例重要性估计策略缺乏准确性。这主要是因为数据分布复杂多样，总是表示为多个因素的混合，包括类重叠水平、密度变化强度、噪声和离群值比率以及小分离等（Huang et al.，2015年）。因此，迫切需要制定一些强有力的和通用的战略，以准确地，i¼1i其中Ci表示为实例xi分配的成本，s表示属于拥有xi的类的实例数量。最后生成代价序列C1;C2; ;CN ，并将其传递到代价敏感学习框架中，实现个性化代价敏感学习。RUE位置估计和成本分配策略的过程可以简单地描述如下。ð9Þb¼ð10Þð11Þ我b¼S. Zhou，Y.Gu，H.Yu等人沙特国王大学学报41f···g算法：RUE输入：二进制类不平衡数据集W、阈值k、学习算法J和欠采样集的数量j。输出：过滤后的数据集W程序：对W随机欠采样j次，对应的训练子集;在每个子集上，通过学习算法J训练一个学习器，通过组合j个学习器计算W中每个实例的错误率通过将W中的噪声实例的错误率与阈值k进行比较来去除噪声实例，进一步获取经滤波的数据集W对于W对于W'中的每个实例，通过等式（13）（14）输出经过滤的数据集WfC1;C2;·· ·;CNg具体来说，在我们的RUE策略中，我们使用CART作为学习算法J，因为它足够鲁棒并且训练迅速。此外，阈值k根据经验被设置为0.5，这与研究了随机欠采样集成的判定准则，并认为它最接近真实分类边界。至于欠采样集j的数量，我们根据经验将其指定为默认值100。事实上，我们的RUE策略与传统RUE框架不同，因为在传统RUE中，只有大多数实例是多个这种行为的目的是防止过拟合少数噪声。至于一些参数的影响，我们将在第4中讨论。图3显示了在两个合成类不平衡数据集上，RUE策略的成本分配结果。在图3中，不难观察到RUE策略可以有效地去除噪声实例，加强边界附近的难以学习的实例，并适应各种数据分布，在一定程度上进一步证实了我们建立的基础假设的正确性。4. 实验4.1. 数据集在我们的实验中，收集了40个类不平衡数据集，比较各种成本敏感的学习算法。这40个集合包括来自UCI机器学习库（Blake）图3.第三章。在两个合成不平衡数据集（参见（a1）和（a2））上，RUE产生成本分配结果（参见（b1）和（b2）），其中每个符号的大小表示为对应实例分配的成本的大小S. Zhou，Y.Gu，H.Yu等人沙特国王大学学报42表2本研究中使用的数据集的详细描述数据集属性数实例数少数族裔多数族裔种子2v13 7 210类2类1UCIILPD 10 5832阳性阴性2.49UCI段12 19 2310类1UCImfeatmor01 6 2000类0UCI段1 19 2310 1班2~ 7 6.00UCIsegmentationgrass 19 210草路径，窗口，水泥，poliage，天空，砖面6.00UCI段0 19 2308类0提醒类6.01UCI页面块2345105473类2 ~ 5类18.77UCI页面块0 10 5473类0提醒类8.79UCImfeatmor0 6 2000级0提醒类9.00UCI页面块-1-3_vs_4 10 472类1UCICTG15 21 2126 class1UCI页面块5105473类5类1 ~ 446.59UCI鲍鱼19 8 4177班19余班129.53UCI虹膜0 4 150类0类1龙骨玻璃0 9 214类0提醒类2.06龙骨哈伯曼3306阳性阴性2.78龙骨车辆2 18 846 2类提醒类2.88龙骨车辆1 18 846 1类提醒类2.90龙骨车辆3 18 846类别3提醒类别2.99龙骨玻璃-0- 1龙骨5–6车辆0188460级提醒类3.27龙骨生态学173361类提醒类3.36龙骨新甲状腺252152类1、3级4.92龙骨新甲状腺152151类第25.14龙骨生态学273362类提醒类5.44龙骨酵母3814843类提醒类8.10龙骨ECOLI 373363类提醒类8.60龙骨酵母-2_vs_485142类4类9.06龙骨酵母-0-3-5-9_vs_7 -885060、3、5、9级第79.12龙骨酵母-0-5-6-7-85280、5、6、7、9级4类9.33龙骨9_vs_4元音0139880级提醒类9.98龙骨穿梭机-c 0-vs-c4918290级4类13.87龙骨酵母-2_vs_884822类8级23.05龙骨酵母4814844类提醒类28.10龙骨酵母581484类别5提醒类32.73龙骨酵母6814846班提醒类41.40龙骨扑克8v61014778级6班85.88龙骨microRNA328587真microRNA剩余microRNA候选物44.01Xue等人，2005HACABOXsnoRNA148510前体HACABOXsnoRNAReminder非编码RNA129.92Hertel等人，2008例如，1998），24来自Keel数据库（Triguero等人，2017），以及从（Xue et al.，2005）和（Hertel等人， 2008年）。具体而言，在这些数据集中，类不平衡比（IR）从2.00到129.92不等这些数据集的详细描述见表2。4.2. 实验设置在FSVM和WELM代价敏感学习框架中，我们分别将所提出的RUE与CENL（具有线性衰减函数的CEN）、CENE（具有指数衰减函数的CEN）、SPHL（具有线性衰减函数的SPH）、SPHE（具有指数衰减函数的SPH）、HYPL（具有线性衰减函数的HYP）、HYPE（具有指数衰减函数的HYP）、WD（类内相对密度）、BD（类间相对密度）进行了比较（Batuwitaand Palade，2010; Yu et al.，2019）和经验成本分配策略。此外，我们还比较了基于RUE的成本敏感学习算法与两个基线算法：SVM作为核函数，对于ELM和WELM，采用sigmoid作为激活函数。对于SVM和ELM框架中的具体参数设置，我们采用网格搜索策略来寻找最优的参数组合。在支持向量机框架下，高斯核函数的宽度为c2f2- 10; 2- 9;···; 22g，惩罚函数为C2f20; 21;···; 215g.在ELM框架中，隐节点数L2f10; 20;···; 100g，惩罚C2f20;21;···;215g.至于我们提出的RUE策略中的两个具体参数，k根据经验将j设为0.5，根据经验将j指定为一百正如我们所知，准确性不再是评估学习模型在类不平衡数据上的性能的有效指标。因此，在这项研究中，我们使用了G-均值度量，该度量也被用于（Yu et al.， 2019）作为性能评估指标，用于比较各种算法的质量。具体而言，G-均值度量评估了多数类和少数类的准确性之间的权衡。G-平均值可以计算如下：和ELM。G-平均值¼pAcð15Þ算法使用相应参考文献中建议的缺省算法。对于SVM和FSVM，高斯径向基（RBF）函数其中Acc表示少数类别的准确度，Acc-表示多数类别的准确度。特别是，在各种比较中使用的所有唯一参数þ-S. Zhou，Y.Gu，H.Yu等人沙特国王大学学报43最后，为了避免各种随机因素的影响，采用十次五折交叉验证的平均结果4.3. 结果和讨论表3-4分别给出了FSVM和WELM背景下各种成本分配策略的G均值比较表3-4中的结果表明，代价敏感学习能够修复不平衡数据分布对监督学习算法的不利影响，因为与原始SVM和ELM算法相比，各种代价敏感算法在大多数数据集上都提高了分类性能，尽管改进或多或少。segmentationgrass和iris0的方法，即使采用原始分类器或简单的代价敏感学习策略也可以获得足够好的分类性能。我们认为，这类数据集一般具有简单的分布和类可分性。这意味着当且仅当数据分布复杂时，这些复杂的成本分配策略可能具有显着的优势。然而，当我们面对一个新的分类任务时，它的数据分布是否复杂是未知的，因此采用复杂的策略总是更安全。此外，我们观察到，在对比两个经验成本-通过对DEC和WELM等代价敏感学习算法的比较，各种个性化代价敏感学习方法都在一定程度上取得了较好的分类性能，说明了考虑实例位置信息分配代价的重要性。与其他几种个性化费用分配策略相比，本文提出的RUE策略具有明显的优越性。具体而言，在FSVM框架下，RUE获得了29个最佳结果，在WELM框架下，RUE获得了25个最佳结果。验证了RUE能够很好地适应数据分布，提供相对准确的实例位置估计，并为每个实例重新分配适当的代价。最后，我们关心的一个重要问题，即是否RUE可以被破坏的高度不平衡的数据分布。在几个高度偏斜的数据集上的结果，例如，pageblocks5、abalone19、poker8v6、microRNA和HACABOXsnoRNA等为我们提供了答案。在这些数据集上，基于RUE的代价敏感学习算法在很大程度上显著优于其他算法。因此，我们可以说RUE策略对不平衡数据分布具有鲁棒性和通用性。此外，我们还使用了Nemenyi 测试（Demšar ，2006;Garcia和Herrera，2008; Garcia等人，2010）来观察基于RUE的代价敏感学习算法与其他算法在统计学上是否存在显著差异。特别地，临界差（CD）度量用于显示表3FSVM框架下各种代价分配策略的性能比较数据集SVMDecFSVM-CENLFSVM-CENEFSVM-SPHLFSVM-SPHEFSVM-HYPLFSVM-HYPEFSVM-WDFSVM-BDFSVM-RUE种子2v130.97560.97560.96970.97920.98320.97900.98320.97880.98580.98520.9868ILPD0.18190.66900.67530.66200.66830.66160.52150.66280.68650.67500.6803段120.99580.99660.99440.99470.99330.99290.99650.99670.99710.99600.9984mfeatmor010.97340.97520.97420.97590.97360.97590.97520.97510.97660.98210.9946第1段0.99210.99490.99340.99340.99370.99340.99340.99340.98700.99490.9961裂叶草1.00001.00001.00001.00001.00001.00001.00001.00000.99741.00001.0000段00.99200.99560.99210.99300.99150.99290.99260.99330.99320.98970.9960页面块23450.82220.93100.91860.91960.91970.92030.92120.92010.93990.92040.9336页面块00.82430.93060.91770.92240.91960.92280.92210.92250.94910.92880.9345mfeatmor00.99040.98960.99070.99120.99130.99070.99090.99040.99070.99020.9986页面块-1-3_vs_40.84230.95620.94400.94850.94390.94730.95240.94440.93150.93660.9490CTG150.55640.88090.89430.90990.89820.90120.85460.90340.89070.88320.9101页面块50.41540.64390.65400.64930.66280.66470.67300.65990.60010.61280.7354鲍鱼190.00000.62870.64170.64590.65230.65770.65380.66100.64280.64790.6981虹膜01.00001.00001.00001.00001.00001.00001.00001.00001.00001.00001.0000玻璃杯00.71020.75340.75520.76260.76620.77090.73840.79590.77960.77970.7810哈伯曼0.42270.56670.56860.56750.57020.56530.52880.54860.56200.57970.5973车辆20.97800.98000.98030.98190.98030.98210.97870.98110.93590.94790.9715溶媒10.78070.85210.80760.83470.82580.84210.80630.83070.83760.82490.8960车辆30.74090.82410.81040.81950.83550.82020.78440.82020.84170.82880.8391玻璃-0-1-2-3_vs_4-5-0.89980.90780.92810.93490.93530.93610.92810.93790.93090.93620.94176车辆00.98490.98500.97850.98250.98160.98050.98040.97830.98330.98490.9832生态学10.87200.87980.89310.88760.89220.88760.89070.88880.88550.89770.9257新甲状腺20.98870.97380.99170.98850.98830.98900.99170.99180.98990.98120.9904新甲状腺10.99450.99160.99450.99470.99530.99490.99420.99410.99730.99150.9987生态学20.91130.92830.93540.93900.93730.93840.93030.93910.93610.94240.9601酵母30.85230.91810.93330.92910.92990.92860.93130.93240.93160.92390.9320ECOLI 30.74830.88360.88690.88880.89390.89060.89960.88690.89180.90300.9624酵母-2_vs_40.78660.84370.89230.87260.86580.86620.85900.86730.86510.88340.8940酵母-0-3-5-9_vs_7 -80.32130.66880.70580.69780.70190.69440.68980.69380.68200.71860.7767酵母-0-5-6-7-9_vs_40.64570.78310.77460.77510.76910.77820.63990.77430.78330.80420.9582元音01.00001.00000.97530.99890.99550.99970.99661.00000.99890.99721.0000穿梭机-c 0-vs-c40.99560.99490.99310.99440.99760.99890.99520.99561.00001.00000.9991酵母-2_vs_80.78040.58980.78020.80580.77830.77760.79830.80580.77940.79540.8419酵母40.16880.74890.836

下载后可阅读完整内容，剩余1页未读，立即下载