不平衡数据集的对抗性引导过采样技术（TGT）：一种处理不平衡数据集问题的新方法

187 浏览量更新于2023-12-09 收藏 601KB PDF 举报

不平衡数据集

数据分析

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志22（2021）433TGT：一种用于处理不平衡数据集的对抗性引导过采样技术Ayat Mahmouda，Ayman El-Kilanyb，Farid Alic，Sherif Mazenb埃及开罗现代科学和艺术十月大学计算机科学系b埃及开罗开罗大学计算机和人工智能学院信息系统系c埃及Beni-suef大学计算机和人工智能学院信息技术系。阿提奇莱因福奥文章历史记录：收到2020年2020年10月15日修订2021年1月19日接受在线预订2021年关键词：不平衡过采样分类A B S T R A C T随着数据量呈指数级增长，人们越来越关注帮助人们从数据中受益，而不管其质量如何。数据质量的主要问题之一是数据中存在的不同类别分布不均衡。这样的问题会影响到任何可能的数据分析和挖掘的性能。例如，具有不平衡分布的数据对大多数传统分类技术所实现的性能具有负面影响。提出了一种新的过采样技术TGT（TrainGenerateTest），用于处理不平衡数据集问题.使用不同的学习策略，TGT保证生成的合成样本驻留在少数民族地区。TGT在五个不同类型的不平衡数据集上的实验表明，TGT在不同分类技术的性能上有很大的提高。©2021 THE COUNTORS.出版社：Elsevier BV代表计算机和人工智能学院开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍如果一个类的实例数高于另一个类，则数据集合称为不平衡。具有更多实例的类被称为多数类，而具有较少实例的类被称为少数类[1，2]。最近对不平衡数据集的许多研究普遍认为，由于类的这种偏斜分布，分类器偏向于大多数类，并且对较小的类给出非常低的分类精度。分类器也可以将任何样本分类为多数类，而忽略少数类[3]。已经提出了不同的策略来解决类不平衡问题[4]，它们的范围从数据级方法到算法级方法以及混合方法。抽样是不平衡数据集分类中应用最广泛的方法，*通讯作者。电子邮件地址： amahmoud@msa.edu.eg （ A. Mahmoud ）， a.elkilany@fci-cu.edu. 例如（A. El-Kilany），fared. fcis.bsu.edu.eg（F.阿里），s. fci-cu.edu.eg（S.Mazen）。开罗大学计算机和人工智能系负责同行审查[5]。抽样的想法是基于改变数据集，以便创建更平衡的类分布。采样方法可以分为过采样和欠采样。欠采样消除了多数类的实例数量，而过采样在准备期间生成少数类合成实例。在本文中，我们认为使用模拟对抗架构的过采样技术可以在过采样过程中产生更好的结果，从而以更好的方式处理不平衡数据集的二进制分类。更具体地说，我们认为过采样的生成过程可以由两个分类器来指导，其中第一个分类器负责新样本的生成，第二个分类器负责样本正确性的验证过程。这将确保生成的样本位于少数民族地区。评估结果表明，对抗引导过采样技术优于标准过采样算法。本文的其余部分组织如下。第2节介绍了相关的工作，而第3节介绍了所提出的技术来处理不平衡数据分类问题。第四、五部分是绩效评估的具体内容，是全文的结论.https://doi.org/10.1016/j.eij.2021.01.0021110-8665/©2021 THE COMEORS.出版社：Elsevier BV代表开罗大学计算机和人工智能学院。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.comA. 马哈茂德，A.El-Kilany，F.Ali等埃及信息学杂志22（2021）4334342. 相关工作不同的策略，如采样，特征选择，成本敏感的分类，并在文献中提出了大量的变化，以提高分类性能，而数据遭受不平衡类的分布。在本节中，我们将详细介绍文献中提出的处理不平衡数据分布的不同过采样方法。随机过采样或RO采样是最流行的采样技术之一。RO采样通过随机选择样本然后复制它们来重新平衡数据分布。例如，作者在[6]中在更新的随机游走过采样（RWO）中引入了两个局部图首先利用邻近图（具有k-近邻的邻近图）在高密度区域中挑选少数类的实例该方法不受图外或图边界处的噪声和离群点的影响，生成合成少数实例。第二个图选择高密度区域中的多数类实例，并排除其余实例。他们的方法在大多数情况下表现良好;这可能与所使用的数据集的性质有关，因为它仅在连续数据集上表现出高性能合成少数过采样技术（SMOTE）在[7]中首次引入。它是最常见的过采样技术，通过生成少数类样本来平衡类分布来解决不平衡数据集问题。SMOTE提供了更多相关的少数类示例以供学习，从而允许学习者雕刻更广泛的决策区域，这导致对少数类的更多覆盖尽管如此，SMOTE它有重大的缺点。在SMOTE中创建的新样本牢固地位于种子样本之间的线段中。因此，生成的示例将不代表原始数据的分布。另一个问题是SMOTE可能会引入类重叠的问题[8]。作者在[9]中介绍了一种新的过采样技术，称为SNOCC，以克服SMOTE的不足。在SNOCC处，种子实例的数量增加，并且合成样本的数量不限于两个SMOTE种子实例。利用一种新的算法确定实例的最近邻。他们的测试证明SNOCC比SMOTE和基于聚类的合成过采样（CBSO）更好。另一个后续研究提出了一种新的过采样方法来显式地分类文本数据，这是由不一致性假设提供的。他们的随机分布过程产生现代的，随机的少数合成记录，利用数据集中单词的分布特征[10]。基于加权内核的SMOTE（WK-SMOTE）是在[11]通过对SVM特征空间的过采样WK-SMOTE通过在分类器特征空间而不是输入数据空间中产生合成实例来修改非线性可分离数据的SMOTE。在几个指标上与其他基线方法相比，建议的过采样算法与成本敏感的SVM模型一起证明了性能的提高因此，一个层次结构的多类不平衡的问题与渐进的类顺序创建。建议的WK-Smote和层次结构进行了测试，在现实世界的工业故障检测系统。在SMOTE中定义了两个主要变量：N过采样值和k近邻。然而，在实际应用中，用户随机选择的两个变量不能被优化。迷乱了然而，数据的不平衡比率是完全不同的，这使得在SMOTE中选择参数更加困难。作者在[12]中提出了一种新的过采样方法，依赖于SMOTE来解决这个问题。这就把参数选择问题转化为SMOTE中的多目标优化问题。为了获得最优解，引入了一种称为绝对优势选择的新选择技术来搜索SMOTE参数的最佳值[10]。此外，作者在[13]中介绍了SMOTE的修改版本，以解决另一个SMOTE缺点。SMOTE算法在少数数据空间中产生新样本，而改进的SMOTE算法在分离少数和多数数据的空间中产生新样本。这些新样本能够以更好的方式解释多数点和少数点之间的差异，从而导致更好的分类结果。[14]中的研究提出了一种新的技术，称为自适应核子空间上的少数过采样（MOKAS），该技术使用核模型自适应子空间自组织映射新的实例从训练的子空间中产生，并在输入空间中使用这些实例还定义了少数类数据分布中的非线性框架，并使学习模型能够以可接受的方式平衡扭曲的类分布。在[15]中，作者提出了一种基于自组织映射的过采样（SOMO）的新技术，该技术通过应用自组织映射来生成输入空间的二维表示，以实现人工数据点生成的有效性。自组织自组织映射包含三个主要步骤：首先，自组织映射给出原始的、通常是高维的空间的二维表示。然后在一个集群中产生人工实例，然后在集群之间产生合成实例。他们还进行了实证实验，提高了性能的方法，当SOMO产生的arti-可移植的数据。当在噪声数据和其最近邻居之一之间内插合成示例时，生成的示例驻留在多数类区域内。在SMOTE和ADASYN中存在这样的问题。因此，有必要滤除噪声样本。在[16]中引入了一种针对不平衡数据的有效的3阶段故障诊断技术来解决这个问题。首先，提出了一种新的过采样方法-加权少数过采样（WMO），以平衡数据的分布。这采用了现代的数据生成方法，以避免故障或过度采样。此外，一个改进的深度自动编码器（DA）的解决方案是用来挑选有用的功能动态。DA在两个方面得到了增强：首先，基于最高熵和稀疏代价的新代价被开发出来以获得稀疏持久特征;其次，自调整学习水平以保证良好的收敛输出。在[17]中提出了一种新的过采样方法，该方法使用实值否定选择（RNS）方法来生成合成少数实例，而不需要真正的少数数据。将生成的少数实例与多数实例进行合并，为二分类学习提供了一种方法在他们的实验中，他们显示了RNS的有效性，以防止传统方法所面临的过采样问题，如噪声产生和冗余样本在同一集群。然而，我们从结果中注意到，它只在严重不平衡的数据集上表现良好A. 马哈茂德，A.El-Kilany，F.Ali等埃及信息学杂志22（2021）433435[18]中的作者提出了基于径向的过采样方法（RBO），该方法可以根据不平衡分布估计确定在径向基础上产生少数类人工实例的区域。它们考虑了从所有类中获得的数据，与仅使用少数类数据的传统多类过采样方法相反。在典型数据集上进行的实验结果表明，RBO人工过采样技术为当前不平衡数据集解决方案提供了一种有前途的替代方案。在[19]中引入了一个三因素决策模型（CTD），其中考虑了选择主要样本的成本。首先，CTD使用构造性覆盖算法（CCA）将少数实例分离成多个覆盖。然后选择每个覆盖物并基于覆盖密度将其划分为三个区域。最后，根据少数实例上的覆盖分布模型，达到CTD的相应阈值a和b这允许挑选用于SMOTE过采样的主要实例。作者在[20]中介绍了生成对抗少数过采样（GAMO）。这个想法是，在少数类的边界附近产生合成点将让分类器学习对类不平衡更鲁棒的类边界。凸生成器产生合成点作为来自少数类的现有点的凸组合。他们还引入了一个额外的计算器，以确保生成的点属于预期少数类的真实分布。3. 提出的技术训练生成测试（TGT）是基于使用对抗引导过采样来对生成的样本进行某种双重检查，以确保它们属于少数类。在TGT中，生成过程由在数据集上训练决策树获得的少数类规则指导决策树不用于分类，而是提取关于少数类的知识，仅在提取的知识将用于生成合成少数样本的情况下。然后，进入验证过程，在此过程中，我们使用经过良好训练的神经网络对生成的样本进行第二次检查，以确保它们都与数据集中给定的少数类样本相似。TGT的架构图如图所示。1.一、TGT有三个步骤：培训、生成和测试。下面是每个步骤的解释。3.1. 训练步骤第一步是训练步骤，用于在给定数据上训练两个分类器：决策树和神经网络。对决策树进行训练，得到少数类分类规则，这些规则将用于生成合成样本。然后，训练神经网络对少数类和多数类数据进行分类。神经网络稍后将用于测试生成的样本。尽管在不平衡数据上进行了训练，但这两个分类器仍有望提取和使用数据中关于少数类的所有可用知识。这将保证新生成的样本遵循少数类数据的分布，即使其稀缺性。培训步骤的详细信息见图1。它包含两个功能。第一个是BuildDT，它将训练数据与类标签一起使用，使用Gini索引来选择对实例进行最佳分类的属性，并输出包含每个属性的上限值和下限值的数组。第二个函数是NN，它将多数和少数集合进行训练，然后用于验证生成的样本。Fig. 1. TGT的体系结构图算法1：训练函数BuildDT（D，class，atts）输入：D：训练实例，class：class标签，atts：属性输出：每个属性的下限和上限创建一新根node. 如果所有实例都属于同一个类（具有相同的类标签），则具有标签为cl的单个根节点的返回树其他Selected_Att← CalcGiniIndex（D，atts）//选择atts中的属性，该属性基于其基尼指数对实例进行最佳分类根决策属性←已选择_属性对于Selected_Attdo的每个值vi为测试添加新分支Selected Att=vi设Val_instvi为D的子集，其具有用于Selected_Att的值vi如果Val_inst_v_i为空，则添加带有类标签的叶节点其他BuildDT（Val instvi，class，{atts-Selected_Att}）//排除选定属性后的Endif结束于EndifMinority_Weights =NN（A，B，epochs）//NN的输入：A，B，epochs，其中A：多数类样本，B：少数类样本，epochs：迭代次数//NN的输出：少数类权重端A. 马哈茂德，A.El-Kilany，F.Ali等埃及信息学杂志22（2021）433436p;jp;jX1j1 ep;kJj;i1/4;Kj¼0k;jp：;j3.2. 生成步骤4计算隐藏节点输入。Nett1第二步是生成合成样本。以生成净收入100万美元w= 1;0 =xp i新样本时，将循环数据的属性，并根据下限值和上限值为每个属性生成一个5计算隐藏节点输出。X1其从步骤1的少数类分类规则获得61p;j净收入100万美元1/4= 1 - 2通过步骤1获得的决策树被认为是可解释的分类器，我们可以利用它的理解7计算到输出节点的输入逻辑，用于生成遵循由分类器。生成步骤的详细信息见图2。8净流量为2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000w100;100x1009计算网络K输出Op;k10净收入2000美元算法2：生成函数Generate（N，t，D，class，atts）//根据获取的规则生成样本Input：N：#samples，t：#attributes，D：instances oftraining，class：class label，atts：arrayofattributes输出：生成的样本数组1对于p=1至N，执行//循环所有样本2lower[p]←BuildDT（D，class，atts）//所有属性的下限3upper[p]←BuildDT（D，class，atts）//所有属性的上限4Sample[p]=rand（lower[p]，upper[ p]）//根据上下数组中的值生成sample5端6端3.3. 测试步骤最后一步是测试步骤。在该步骤中，使用经训练的神经网络来测试或验证所生成的样本。如果分类器显示样本属于少数类，则将其保留在新的合成样本数组中。否则，将被丢弃。神经网络被认为是一种不可解释的分类器，它通过寻找网络神经元的正确权重来识别类别，从而找到正A. 马哈茂德，A.El-Kilany，F.Ali等埃及信息学杂志22（2021）433437k;jj;i确的分类。使用这样的分类器将确保通过可解释分类器生成的少数类样本被另一个分类器验证，该分类器以完全不同的和无法解释的方法工作。所提出的技术预计将搜索，直到它产生所需的验证样本的数量。由于生成过程是由使用决策树分类器提取的少数数据分类规则指导的，因此期望验证步骤在大多数情况下成功。在性能评价期间，生成1778个验证样本需要2305次试验，成功率为77%。测试步骤详细信息如图3所示算法3：测试功能测试（N，A，B）//在well上测试生成的样本训练的神经网络输入：N：过采样量，A：多数类样本，B：少数类样本输出：原始数据+（N/100）* 少数类样本1对于j = 1到N，2w2;1←NN（A，B，epochs）3w<$1;0 <$←NN（A，B，epochs）O p;k1/2 = 1/2-eK Þ11如果O p; k 2 B12然后synth←concatenatesamplewithverifiedsamplesarray//将验证过的样本添加到验证过的合成样本13End if14端15写文件16端4. 绩效评价评估的目的是证明所提出的对抗性引导过采样技术的有效性。该技术的目的是通过使用在数据集上训练决策树得到的少数类规则进行引导过采样来然后用训练好的神经网络对生成的样本进行检验，确保它们都属于少数类。为了实现这一目标，在不同的数据集上，针对SMOTE方法（文献中的基线过采样方法）以及其最近的一种smote变体（Modified SMOTE），在不同的分类器上对所提出的技术进行了评估。以下小节描述了评估详细信息。4.1. 数据集对于我们的实验，我们使用了五个数值数据集，可以从[21，22]下载。第一个数据集是扑克。它有11个属性和1485条记录，分为两类，第一类是25条记录（值1），第二类是1460条记录（值0）。第二个数据集是酵母。它有9个属性和514条记录，分为两类，第一类是51条记录（值1），第二类是463条记录（值0）。第三个数据集是克利夫兰。它有14个属性和173条记录，分为两类，第一类是13条记录（值1），第二类为163条记录（值0）。第四个数据集是印度糖尿病。它有9个属性和768条记录，分为两类，第一类是268条记录（值1），第二类是500条记录（值0）。第五个数据集是kc2软件故障预测。它有22个属性和522个记录2类。第一类是107条记录（值为0）。第二类是415条记录（值1）。对于每个数据集，交叉验证过程用于将数据分为训练集和测试集。交叉验证折叠次数设定为10次。数据集的详细信息总结见表1。4.2. 评价方法采用文献中推荐的准确性、敏感性和特异性三个评价矩阵进行性能评价，以评价二元分类A. 马哈茂德，A.El-Kilany，F.Ali等埃及信息学杂志22（2021）433438印度糖尿病数据集10.950.90.850.80.750.7KNN FKNN SVM过采样前传统SMOTE改进SMOTE TGT扑克数据集10.950.90.850.80.750.7KNN FKNN SVM过采样前传统SMOTE改进SMOTE TGT酵母数据集10.950.90.850.80.750.7KNN FKNN SVM过采样前传统SMOTE改进SMOTE TGT表1过采样前后每个数据集中的样本数扑克酵母克利夫兰印第安人糖尿病Kc2软件故障预测之前后之前后之前后之前后之前后少数256505145913169268536107428大多数14601460463463160160500500415415[23、24]。准确度是实践中最常见的性能指标，特别是对于二进制和多类分类问题，如各种研究所示[25，26]。灵敏度决定了被正确分类的实际阳性的量，而特异性决定了被正确识别的实际阴性的量。换句话说，特异性度量用于测量被正确分类的阴性模式的比例。因此，灵敏度考虑了假阴性的预防，而对于假阳性特异性也是如此[27]。三种不同的分类器，K-最近，模糊K-最近，和支持向量机分类，用于性能评价。KNN分类器仅采用一个参数，当k = 10时得到最佳结果，而FKNN分类器采用两个参数k和m，其中k = 10且m = 0.5。分类器在不同的设置上进行训练，以比较所提出的过采样技术对SMOTE和修改后的SMOTE。他们在没有过采样的数据上训练一次，在用SMOTE过采样后训练一次，在过采样后训练一次最后用TGT法对过采样后的数据进行处理。为了评估每个分类器在过采样技术的不同设置下对每个数据集的性能，使用10倍交叉验证将数据分为训练集和测试集。在收集测试集上测试分类器所产生的性能度量之前，对训练集进行分类器4.3. 评价结果TGT是针对原始形式的数据进行评估的，而不应用任何类型的过采样，针对传统的SMOTE[7]和修改的SMOTE[13]。所提出的技术TGT对没有过采样的数据、SMOTE [7]和改进的SMOTE [13]的结果总结在图11和12中。图2、3、4、5和6使用如前所述的三个评价指标，准确性、灵敏度和特异性。我们可以观察到，所提出的技术TGT在具有不同分类器的所有五个数据集中表现出色。我们可以注意到，在过采样之前，分类器在准确度度量中显示出高值，如图2、3、4、5和6所示。一般来说，accu-图三. kc2软件故障预测数据集的三种分类器评价方法图四、基于三个分类器的扑克数据集的评估算法图五、用TThree分类器对酵母数据集进行评估图二. 使用三个分类器对印度糖尿病数据集进行评估。RACY度量度量所有实例中被正确分类的部分。但在这里，如果单独用于评估，这个指标值是假的[28]。由于数据的不平衡，分类器倾向于将所有多数样本视为正确，而将所有少数样本视为不正确。还注意到精度灵敏度特异性精度灵敏度特异性精度灵敏度特异性精度精度灵敏度灵敏度特异性特异性精度精度灵敏度灵敏度特异性特异性精度精度灵敏度灵敏度特异性特异性A. 马哈茂德，A.El-Kilany，F.Ali等埃及信息学杂志22（2021）433439克利夫兰数据集10.950.90.850.80.750.7KNN FKNN SVM过采样前传统SMOTE改进SMOTE TGT图第六章Cleveland数据集的三个分类器的评估算法在五个数据集上是不同的。这可能与原始数据中多数和少数群体之间的比例有关。结果表明，当原始数据中的多数类和少数类之间的比率很高时，所提出的技术表现得非常好，如印度糖尿病和Kc2软件故障预测数据集。所提出的技术相对于SMOTE算法[7]和修改的SMOTE[13]的优异性能可能与三种方法如何工作之间的差异有关传统的SMOTE算法在少数数据空间生成合成样本，改进的SMOTE算法在少数数据这两种方法都是通过分析随机选取的少数类样本来生成新的合成样本另一方面，TGT生成的合成样本的指导下，通过训练决策树的数据集派生的少数类在引导生成之后，这些生成的样本将使用训练良好的神经网络进行验证，以确保所有合成样本都属于少数类。否则，它们将被丢弃。通过引导对抗过采样技术生成的那些双重检查的新样本导致了更好的分类，这证明了我们最初的论点。此外，可解释分类器和不可解释分类器之间的相互作用以及对整个数据集的分析已被证明足以有效地生成新的合成样本，优于SMOTE和改进的SMOTE所生成的样本，后者依赖于对单个样本的分析来生成新的样本。5. 结论提出了一种对抗性引导过采样技术（TGT），用于处理不平衡数据集.该方法利用两个分类器对少数类数据进行知识提取和建模。在给定数据上训练决策树，以将少数类数据建模为分类规则集，其中这些规则用于生成少数类的新样本。然后，在给定的数据上训练神经网络，并用于验证所有生成的样本都属于少数类数据分布。所提出的技术表现出更高的性能时，对标准和最近的数据过采样技术在不同的数据集和使用不同的分类器进行评估。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用[1] FernándezA，García S，Galar M，Prati RC，Krawczyk B，Herrera F. 从不平衡的数据中学习。Springer;2018.[2] Fernández A，del Rio S，Chawla NV，Herrera F.不平衡的大数据分类：结果和挑战。复杂&智能系统2017;3（2）：105-20.[3] Rout N，Mishra D，Mallick MK.处理不平衡数据：调查。国际软计算、智能系统与应用进展会议录（International Proceedings on Advances in Soft Computing，Intelligent Systemsand Applications）Springer; 2018. p. 431- 43[4] [10] 李晓，李晓 . 数据抽样与代价敏感学习的比较研究。 2008 年 IEEEInternationalConference on Data Mining Workshops。IEEE; 2008年。p. 46比52[5] S. J. Dattagupta，“ 不平衡学习任务中数据生成的过采样方法的性能比较 ” ，2018年。[6] S. Roshanfekr ， S. Esmaeili ， H. Ataeian ， N. Maleki Khas 和 A. J. A. Amiri ，“UGRWO取样：一种基于图的改进的随机游走欠采样方法，用于不平衡数据分类，”p.arXiv：2002.03521，2020。[7] ChawlaNV，Bowyer KW，Hall LO，Kegelmeyer W P J J o a i r. SMOTE：合成少数过采样技术。人工智能研究杂志2002;16：321-57.[8] Barua S，Islam MM，Murase K.一种新的用于不平衡数据集学习的合成少数过采样技术。在：神经信息处理国际会议。Springer; 2011.p. 735- 44[9] Zheng Z，Cai Y，Li YJC.信息学，不平衡分类的过抽样方法。Computing andInformatics2016;34（5）：1017-37.[10] A. Moreo，A.Esuli和F.2016年，第39届国际ACM SIGIR信息检索研究与开发会议论文集，第805-808页[11] J. Mathew，C. K.庞，M。罗，W. H. J. I. t. O. n. n.我和梁。系统，[12] 黄忠，杨春，陈旭，黄凯，谢永健，应用。自适应过采样分类方法及其在铝电解不平衡数据集上的应用。神经计算与应用2019：1-17。[13] A. Mahmoud，El-Kilany，A.，阿里角Mazen，S.，“一种处理不平衡数据集的新型过采样技术”，第34届ECMS建模与仿真国际会议，英国，2020年，第34卷，第1期，177-182页[14] 林文春，蔡昌芳，胡永华，张俊生。类不平衡数据中基于模糊的欠采样。InfSci2017;409：17-26.[15] Douzas G，Bacao F.使用条件生成对抗网络进行不平衡学习的有效数据生成。专家系统应用2018;91：464-71。[16] Zhang Y，Li X，Gao L，Wang L，Wen LJoms.基于综合过采样和特征学习的旋转机械不平衡数据故障诊断。制造系统杂志2018;48：34-50。[17] Tao X 等人， Real-value Negative Selection Over-sampling for InbalancedDataSet Learning。专家系统应用2019;129：118-34.[18] B. 克劳奇克，M. Koziarski，M.J. I. t. O. n. n. 我和兹尼亚克。系统，“基于径向的过采样用于多类不平衡数据分类”，IEEE 神经网络和学习系统交易，2019年。[19] 严燕婷，吴忠斌，杜晓青，陈军，赵S，张玉萍JoAR.不平衡数据过采样的三向决策集成方法。Int J ApproximateReasoning 2019;107：1-16.[20] S. S. Mullick，S. Datta和S. Das，[21] Vanschoren J，Van Rijn JN，Bischl B，Torgo LJASEN. OpenML：机器学习中的网络科学。ACM SIGKDD Explorations Newsletter 2014;15（2）：49-60.[22] Alcalá-Fdez J et al. Keel数据挖掘软件工具：数据集存储库，算法集成和实验分析框架。多值逻辑&软计算杂志 2011;17。[23] RanawanaR，PaladeV.Optimizedprecision-anewmeasureforclassifierperformance evaluation. 2006年IEEE 国际演化计算会议。IEEE; 2006年。p. 2254- 61[24] Hossin M，Sulaiman MJIJoDM，Process KM.数据分类评价指标综述。国际数据挖掘&知识管理杂志 2015;5（2）：1。[25] 顾强，朱磊，蔡志.不平衡数据集分类性能的评价指标。参加：智能计算与应用国际研讨会。Springer; 2009. p.461-71.[26] [10]杨文军，陈文军.一种用于分类器优化的混合评价指标。2011年第三届数据挖掘与优化会议（DMO）。IEEE; 2011年。p. 165比70[27] N. J. I. L. F. Japkowicz，算法和应用，[28] J. Akosa，“ 预测准确性：高度不平衡数据的误导性性能指标 ” ，《 SA S 全球论坛论文集》，20 1 7 年，第2- 5 页。精度灵敏度特异性精度灵敏度特异性精度灵敏度特异性

下载后可阅读完整内容，剩余1页未读，立即下载