基于离散均衡优化算法的分类规则挖掘

186 浏览量更新于2024-01-18 收藏 1013KB PDF 举报

数据挖掘

分类规则

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于离散均衡优化算法的穆罕默德·马赫迪·马利克·希切姆·豪阿西ICOSI实验室，Fac.ST，Univ Khenchela，BP 1252 El Houria，40004 Khenchela，Algeria阿提奇莱因福奥文章历史记录：收到2021年2021年8月4日修订2021年8月29日接受2021年9月8日网上发售保留字：分类规则基于种群的优化离散均衡优化算法分类器A B S T R A C T基于规则的分类是数据挖掘中的重要任务之一，因为它有着广泛的应用，特别是在医学诊断等需要解释分类决策的领域。基于规则的分类是分类领域和关联规则挖掘领域的结合，其目的是通过分类规则来构造可解释的分类器。本文提出了一种新的和有效的顺序覆盖策略的分类规则挖掘，以提高解释性的分类器使用离散均衡优化算法称为DEOA-CRM。我们的方法受益于关联分类和基于群体的智能的优点。它的灵感来自最近的元启发式均衡优化算法。新定义的离散算子使我们的方法能够避免局部解，找到全局解，提高了搜索空间的探索和利用能力。建议的DEOA-CRM进行了测试，共12个测试数据集的各种大小和基准与四个最近和著名的基于规则的分类挖掘算法。所得到的结果证实了我们的算法在三个选定的措施的效率。我们的方法完全值得用于分类规则生成，以帮助决策者生成准确和可解释的模型。©2022由Elsevier B.V.代表沙特国王大学出版。这是一篇开放获取的文章，CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍数据挖掘，也称为从数据中提取知识，是一组旨在通过使用多种方法从大量数据中提取知识的任务。数据分类和关联规则挖掘是众所周知的，并且广泛地用于挖掘来自诸如监视、诊断、医学和工程等许多领域的数据。数据分类是一种监督学习方法，它从数据集中生成用于对新实例进行分类的分类模型。许多分类方法生成准确的黑箱模型，如支持向量机（SVM）和神经网络（NN）。然而，它们做出分类决定的内部过程对用户是隐藏的，阻止他解释这种分类的原因，特别是*通讯作者。电子邮件地址： malik.mohamed. univ-khenchela.dz （ M.M.MALIK ），houassi_h@yahoo.fr（H. HAOUASSI）。沙特国王大学负责同行审查在用户需要解释所获得的结果的领域中，例如医学。许多分类方法旨在通过生成白盒模型（也称为可预测模型）来纠正这一弱点。其中之一是基于规则的分类（RC），也称为关联分类（AC）方法，近年来已大量使用（Wang et al.， 2017年）。RC是由Liu等人，1998年）。它是前两个数据挖掘任务（分类和关联规则挖掘）的混合，旨在从数据集生成基于规则的分类模型。RC模型由一组用户易于理解的分类规则（CR）组成。这是关联规则的一种特殊情况，其中结果规则部分仅包含一个属性（类属性）。在过去的几十年中，RC已经被广泛用于其结果决定需要被解释的若干领域，诸如医学诊断（Wang等人，2020）和故障诊断（He等人，2018年）。大多数RC算法在两个阶段中生成分类器;首先，它们从输入数据集中归纳关联规则，其次，它们从中提取分类规则（Alwidian等人，2018年）。这些方法通常会生成大尺寸的分类器，这降低了模型的可解释性。本文研究的是分类器建模过程中规则的生成过程提出了一种分类规则挖掘（CRM）方法https://doi.org/10.1016/j.jksuci.2021.08.0321319-1578/©2022由Elsevier B. V.出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comMohamed Mahdi MALIK和H. 豪瓦西沙特国王大学学报7560该算法使用新的元启发式算法离散均衡优化算法（DEOA）直接从输入数据集生成CR。后者将CRM问题视为组合优化问题。另一方面，基于Meta启发式的技术和方法由于其有效性近年来受到了广泛关注它们是解决复杂问题的特权手段，特别是那些以不确定、随机和动态信息为特征的问题（Bianchi等人，2009年）。这是因为这些算法的特征在于以下性质：（1）它们受到自然或物理现象、动物行为、进化概念等的启发;（2）它们与问题的本质无关，因为它们不需要问题的详细知识，因为它们使用随机方法;（3）它们解决任何优化问题而不完全改变算法结构的能力（Faramarzi等人，2020），以及（4）他们可以在可接受的时间内给出最佳/最优解决方案，即使在处理大问题时（Dokeroglu等人，2019年）。在最著名的经典元启发式算法中，我们可以提到粒子群优化（PSO ）（Kennedy和Eberhart，1995）、模拟退火（SA）（Kirkpatrick等人，1983）、蚁群优化（ACO）（Dorigo和Stützle，2004）、遗传编程（ GP ）（ Banzhaf ， 1998 ）和遗传算法（ GA ）（Holland，1992）。在这种背景下，研究人员提出了，在过去的几十年里，几个基于人口的元启发式算法，成功地解决了大多数优化问题。平衡优化算法（EOA）是最近由（Faramarzi et al.，2020年）。该算法对连续优化问题给出了很好的结果。我们的工作旨在使用元启发式算法EOA从数据集中挖掘CR。然而，原始EOA是为连续优化问题设计的，不能直接用于解决CRM问题，因为它们是组合优化问题（离散）。在本文中，我们提出了一个离散版本的EOA，并使用它来解决CRM问题。第二部分介绍了基于规则的分类的第3节描述了原始EOA。在第4节中，我们使用离散版本的EOA解释了所提出的CRM方法。第5节介绍并讨论了实验，然后比较了结果。最后，在第六部分，我们总结了本文2. 相关作品基于规则的分类已经证明了其在解决诸如金融中的日常问题中的价值（Villuendas-Rey等人，2017），更具体地说，在贷款风险预测（Jimbo Santana et al.， 2017），（Lanzarini等人，2015年）。这种类型的分类也已用于医学诊断（ Siddique Ibrahim 和Sivabalakrishnan，2020）、生物信息学（Uppu等人，2020）、文本挖掘（Hadi等人，2018），学生在学习管理系统中的成就评价（Luna等人，2015）和流量负载预测（Zhou et al.， 2008年）。研究表明，基于规则的分类器通常比传统的分类器更准确，传统的分类器基于决策树算法，如C4.5（ Salzberg， 1994，第 5 页），（Hasanpour 等人，2019 ），或归纳规则，如 RIPPER（科恩，1995）。这种效率主要是因为提取的规则表明数据集中各种特征之间的密切关系，使得基于这些规则的模型比传统模型更可解释和更容易理解（Ventura和Luna，2016）。RC方法包括类别关联规则（CAR）的生成过程，一般分为两个任务：关联规则挖掘（ARM）和分类规则提取（CRE）。在第一阶段，ARM的目标是从学习数据集生成一组表示项目之间所有关系的关联规则（Bechini et al.，2016; Pires等人， 2019年）。对于该任务，使用不同的trans-ARM方法，包括Apriori算法（Agrawal等人，1993）及其两个变体：Apriori-C（Jovanoski和Lavrac. ，2001）和预测Apriori（Scheffer，200 1）、一阶归纳学习器（FOIL）方法（Quinlan，1990），或者甚至FP-Growth算法（Han等人，2004年）。第二阶段（CRE）从第一阶段中已经生成的规则集中提取用于对数据集实例进行分类的所有规则（Coenen等人，2005年）。在这个阶段，选择一个规则子集（分类规则），它：1）满足预先规定的最小阈值一般支持度和置信度，和2）尽可能好地描述目标变量（或目标类）。这就是为什么（Ventura和Luna，2018）和许多其他研究认为CAR 集不仅用于描述目的（ Luna例如，2015），而且还用于构建高效且更具可解释性的分类器（Liu etal.，1998年）。以这种方式，提出了几种方法，包括CBA算法（Liu等人， 1998），其首先通过穷举搜索算法生成关联规则（Agrawal等人， 1993）然后对生成的规则进行排序以形成分类器。然而，这些方法的运行时间非常长。因此，为了减少CAR算法的运行时间，提出了其他算法，其中：CMAR算法（Li等人，2001）和MAC算法（Abdelhamid等人，2012），两者都基于多类关联规则和 CPAR 算法（ Yin 和 Han ， 2003 ），（ Priyanka 等人，2018），（Ahamad和Sudhakar，2018），它使用预测关联规则。然而，这些算法也产生了一组广泛的关联规则，使处理迅速过载因此，所选子集不包含总体最佳规则。为了选择最佳规则集，使用不同的技术：（Hasanpour等人，2019）使用和声搜索算法（Geem等人， 2001），其是提取理想分类规则的基于进化群体的算法，或Ant-Miner（Parpinelli等人，2002）作为基于群的算法，其被应用于探索整个搜索空间并且直接从数据集生成分类规则列表而不生成关联规则。蚂蚁挖掘算法分为两个阶段：规则构造和规则修剪。在规则的构造过程中，ACO算法负责在每次迭代时构造规则。为了提高蚁群算法生成的分类器的准确率，Miner，作者在（Holden和Freitas，2008）中将ACO与PSO算法混合。在另一种方式中，（Occupy等人， 2013）提出了一种新的顺序覆盖策略来解决规则交互问题。为了克服蚁群算法中的早熟收敛到局部最优，（Yang等人， 2017）提出了一种新的基于蚁群算法的分类算法（Ant-Miner PAE），该算法基于信息素的吸引和排斥。 Ant-Miner也由于缺乏局部搜索而受到开发能力的影响（Al-Aldidili等人，2020 年）。为此，ILS-AntMiner（ Al-Mendili 等人， 2020年）是最近提出的。后者使用局部搜索策略，其中迭代局部搜索方法与ACO混合，以提高分类精度和通过最佳利用搜索空间生成的分类模型的大小。结合顺序覆盖策略（Lui和Chiu，2010）并使用最近的优化算法EOA（Faramarzi等人，2020），本研究提出了一种有效的分类规则挖掘方法。我们的方法使用DEOA的CRM问题，采用新的规则建设战略。我们的方法有以下特点：1）CRM被认为是一个Mohamed Mahdi MALIK和H. 豪瓦西沙特国王大学学报7561ΣΣ.¼4Gt¼1-最大iter最大iter组合优化问题，以及2）在每次迭代时，该算法生成完整的分类规则。这样，通过使用DEOA元启发式算法，我们的方法可以有效地提高搜索空间中的探索和开发能力。3. 连续平衡优化算法EOA是从物理定律中的控制体积上的简单良好混合的动态质量平衡现象启发的元启发式算法（Faramarzi等人，2020年）。在这一现象中，质量平衡方程被用来分析任何材料在其运动期间和/或转化。3.2. 指数参数在第二和第三项的Eq。（3）指数参数F有助于EOA在勘探和开采之间取得合理的平衡。F如下：F<$a1符号r-0： 5e-kωt- 15其中a1是常数值，r和k是[0，1]的区间中的随机向量参数t被定义为迭代的函数，随着迭代次数的增加而减小，其公式如下：.ITER2012年2月 ÞEOA的优化过程应用于解决优化问题，并且它仍然与所有生物启发算法相同;它从初始化阶段开始并迭代直到获得最优解（系统的平衡状态）。在EOA中，解决方案相当于PSO算法中的粒子，即，解在初始化阶段，EOA开始在搜索空间中随机生成向量在迭代阶段，EOA继续探索和利用搜索空间，直到获得更好的性能。为此，它使用两个平衡池，一个包含迄今为止发现的前四名候选人iter和Max_iter分别是当前和最大迭代次数，2是另一个常数值。对于在（Faramarzi等人，2020），a1和a2分别等于2和1。3.3. 生成率参数第三项是Eq。（3）改善开发阶段。它除了包含随机向量k和指数参数F之外，还包含生成速率参数G。在（Faramarzi等人，2020），生成率与指数参数F成比例，其定义如下：G¼G0ωF7其中，G0是初始发电速率值，并且是：G0¼GCPω。Ceq-kωC8帮助EOA执行良好的探索，平均值允许它进行更好的开发。平衡池是一个向量，C当量是平衡池，k是0和如等式（1）和（2）所示（Faramarzi等人， 2020年）：1，C是控制体积内的当前浓度，GCP是发电速率控制参数。GCP定义如下：C等于1/4。Ceq0;Ceq1;Ceq2;Ceq3;Cave1GCP0：5ωr2，如果r2≥ GP0如果r2.ω¼.-¼.¼ω¼.Σ4.1.2. 适应度函数为了评估粒子位置的适应度基于前面看到的修改，我们的算法的不同阶段由下面的伪算法（算法1）解释。健身RNCTSjð10Þ算法1.分类规则挖掘的离散均衡优化算法（DEOA-CRM）NC指定由ruleRi，jTSj是训练数据集TS的大小。4.1.3. DEOA粒子由于新的DEOA算法大量借鉴EOA算法，位置更新Eq. （3）每个粒子位置（浓度）由新方程修正（11）和（12）。8>Ceq，如果Ceq-0和B¼0输入：训练集（TS），大小，tmax，a1，a2，GP输出：规则列表（关联分类器）将规则集初始化为空。while（TS in not empty）选择具有最高数量的未覆盖实例的C类。为类C从TS中删除类C的所有实例C¼CB如果C当量：和B-0while（NTS不为空）1当量C当量>：或B随机，如果C当量- 0个和 B-0初始化粒子的位置随机p i（i= 1，2，3，. 、0如果C当量：和B¼0ð11Þ尺寸）使用等式（10）其中Ci+1是新位置，Ceq是平衡池向量并且如等式（12）中那样计算BGfor（t=1 totmax）for（i=1 toSize）if（fit（p）>fit（Ceq））B¼C i-C eq ωFkω1-F12其中Ci是粒子的当前位置。当量（12）如在Eqs中修改。（十三）-（十五）I 1Ceq1 = pi拟合（Ceq1）=拟合（pi）else if（fit（pi）>fit（Ceq2））Ceq2 =piBC Sub C eq如果F≥0GDiv kifF<0ð13Þ拟合（Ceq2）=拟合（pi）else if（fit（pi）>fit（Ceq3））Ceq3 =pi其中，C Sub Ceq的计算公式如下：（14），并且G_Div_k是cal-在Eq中计算。（十五）拟合（Ceq3）=拟合（pi）else if（fit（pi）>fit（Ceq4））C Sub C方程式1-GC当量C当量如果 Ci-C eq0如果C i¼C eqð14Þ端Ceq4 = pi拟合（Ceq4）=拟合（pi）end ifG Divk ¼k >G如果k¼0计算Ceq平均值使用算法（1）]<1 234平均1/4如果G¼0和k ¼1：G或k随机，如果G 1和K 1ð15Þ使用等式（6）计算t（i=1到Size），从Ceq中其中，Ci是当前浓度（位置）矢量，Ceq是平衡池矢量，使用等式（1）确定。F是指数参数向量，使用Eq. G是使用等式（5）计算的生成速率参数向量。（16），并且k是随机离散向量。向量C、Ceq、G和k是离散的并且具有以下结构：如图2所示，但矢量F是真实的，因为它平衡了勘探和开发。发电率参数计算当量（7）在EOA中，如等式中那样修改（16）随机生成两个离散向量r和k使用等式（5）使用等式（18）计算T使用等式（17）计算G0使用等式（16）计算G使用等式（15）计算G_Div_k使用等式（14）计算C Sub Ceq使用等式（13）使用等式（11）更新C，检查新解决方案CG¼G0FG0如果F> 00如果F≤ 0ð16Þ使用等式（10）评估新位置的适合度其中G0的计算公式为Eq.（十七）端获得对种群最好的规则G0¼C当量TC eq如果 C当量- T0其他ð17Þ将规则添加到规则集将此规则所涵盖的实例视为正确的其中，T如等式（18）中所计算Tk C0如果k¼0或C¼0κ或C随机其他.Ceq = [Ceq，Ceq，Ceq，Ceq，CeqMohamed Mahdi MALIK和H. 豪瓦西沙特国王大学学报7564ð18Þ将其从NTS中移除。EndwhileEndwhileMohamed Mahdi MALIK和H. 豪瓦西沙特国王大学学报7565图二. 分类规则结构。图3示出了粒子位置更新的样本。在该图中，给出了向量Ci、Ceq、k和F从这些向量中，我们使用等式生成向量T，G0，G，G_Div_k，C_sub_Ceq，B和Ci +1（18）、（17）、（16）、（15）、（14）、（13）和（11）。平衡池矢量计算（Ceq）与EOA的连续版本一样，平衡池向量包含迄今为止发现的四个最佳浓度加上另一个包含最佳四个浓度的平均值的向量，但在离散版本中，平均向量使用离散算子计算，例如算法2。5. 实验结果本节介绍了相关的设置实验，包括数据集、评价指标、基准算法，参数设置及DEOA-CRM与其他算法的比较。5.1. 数据集为了评估所提出的DEOA-CRM的性能并进行我们的实验，我们使用了来自加州大学欧文分校（UCI）机器学习存储库的12个公开数据集（Dua和Graff，2017）。这些资源涉及二进制和多类分类问题，既有名义上的和连续的属性。表1总结了实验中使用的数据集;它们具有不同数量的实例、属性和类标签。第二列提供数据集名称，其他列指示案例数、特征数和图三. 粒子位置更新示例。Mohamed Mahdi MALIK和H. 豪瓦西沙特国王大学学报7566≥n我ni¼1数据集中的实例。数据集 Anneal 、 Balance-scale 、 Credit-g 、Dermatology 、Glass 、Heart-c 、 Heart-h、 Ionosphere 、Liver-disorders和Pima具有连续特征。然而，基于群的方法发现的规则只涉及名义上的功能。因此，本文将数据集中的所有连续特征转化为名义特征。为此，使用熵最小化启发法对所有连续特征执行离散化这个过程的目的是离散化数据中存在的连续值属性的范围a) 分类精度：分类精度是评价分类模型的重要指标之一。它是指模型所做的正确分类与测试数据集中测试实例总数通常，分类准确度定义如下：分类精度正确分类集合（Fayyad和Irani，1993年）。算法2. 平衡池平均向量计算输入：Ceq1、Ceq2、Ceq3和Ceq4输出：Ceq平均值开始¼b) 分级机尺寸：测试实例ð19ÞS = Ceq 1.CA + Ceq 2.CA + Ceq 3.CA + Ceq 4.CA//Ceqi.CA是控制属性//在向量Ceqi中，如果（s 2）{Ceq平均值CA = 1如果（Ceq 1.CA//Ceqi.PA是参数//在向量Ceqi中的属性else如果（Ceq2.CACeq平均 PA =Ceq2.PA elseCeq平均 PA =Ceq3.PA结束，如果End if}其他Ceq平均值CA =0结束，如果端5.2. 评估措施为了客观地将所提出的方法与基准算法进行比较，我们使用了以下在分类领域中众所周知的评估措施：分类准确性和分类器的简单性。后者包括分类器大小（发现的规则的数量）和规则的平均大小（每个规则的平均术语数量）。评价措施如下。表1使用的数据集列表。No数据集#功能#特性在关联分类中，分类器大小（CS）表示组成该分类器的规则的数量。设分类器C包括n个规则; C ={R1，R2. R n}。分类器大小为：CS¼ jCj 2000其中jCj是分类器C中的规则数。c) 平均规则大小：分类规则由一个前件（一组命题或术语）和一个表示类的后件组成。我们用前件中存在的术语的数量来度量规则的大小。由于分类器由几个不同大小的规则组成，因此我们取所有分类器规则的平均大小。形式上，平均规则大小（ARS）为：ARS¼1X条款其中n是组成分类器的规则的数量，Ri是第i条规则，并且Terms（Ri）是规则Ri的先行项中的术语的数量。5.3. 基准算法和参数设置为了比较DEOA-CRM获得的结果，我们选择了几个最近和众所周知的基于规则的分类挖掘算法，包括：a) ACO/PSO 2（Holden and Freitas，2008），2008年提出的一种混合粒子群优化/蚁群优化（PSO/ACO）算法，它遵循顺序覆盖策略，直接处理连续属性和名义属性，b) cAnt-MinerPB（Occupy等人，2013年由Obergy等人提交。该算法采用一种新的顺序覆盖策略发现分类规则，并考虑规则之间的相互作用，c) Ant-MinerPAE（Yang等人， 2017年提出，基于蚁群优化和信息素吸引和排斥。d) ILS-AntMiner（Al-Alzodili等人，2020），该方法是迭代局部搜索和蚁群优化算法的混合。参数设置是基于群体优化方法的一项重要任务。通常，我们使用参数值来平衡搜索过程中的探索和利用。如算法1中所示，DEOA-CRM算法具有四个用户定义的参数：群体大小、迭代次数、α1和α 2。一台2.最后两个参数a1和a2的值是受启发的1天平秤46252乳腺癌92863信用a146904Credit-g2010005Heart-c133036心脏-h132947电离层343518皮马87689退火3889810玻璃921411肝脏疾病634512皮肤科34366Mohamed Mahdi MALIK和H. 豪瓦西沙特国王大学学报7567图四、DEOA-CRM表2DEOA-CRM和基准算法的参数设置。算法参数值DEOA-CRM人口规模50迭代次数A1 2A2 1ILS蚂蚁矿工蚂蚁数量迭代次数Beta 1阿尔法1Ant-MinerPAE菌落大小5迭代次数蒸发系数q0.9用于测试收敛性的规则数量10蚂蚁cAnt-MinerPB菌落大小5迭代次数蒸发系数0.9从原始EOA算法（Faramarzi等人，2020），它们的值分别为2和1。相反，前两个参数进行分析，以找到它们的最佳值。为了找到两个参数的最佳值，即种群大小和迭代次数，我们为每个参数测试了三个不同的值（10，50和100）。所以，我们有九种组合来测试。DEOA-CRM算法对每个组合运行20次计算每个数据集上20次运行的分类准确度测量方程（19）的平均值，并在图12中显示。四、从图4中可以清楚地看出，DEOA-CRM算法在几乎所有数据集中使用50的群体大小和10的迭代次数找到了最大的准确度。所以，这两个值在我们所有的实验中都被使用表2给出了DEOA-CRM和基准算法的所有实验中使用的参数值。基准算法的参数的灵感来自他们的论文。5.4. DEOA-CRM与其他方法的为了验证DEOA-CRM的能力，我们通过将其性能与其他四种基于群的方法进行比较来评估DEOA-CRM的性能。本文提出的DEOA-CRM算法已在Java中实现，并在12个基准测试中得到应用数据集来生成基于规则的分类器。与最近的Ant- MinerPAE基准算法论文一样，我们的基准数据集也属于UCI（Dua和Graff，2017）。为了进行比较，我们使用了第5.2节中提出的三个标准，也就是说：a) 所发现的基于规则的分类器的分类准确度（分类器准确度），b) 分类器的大小与规则数有关，以及c) 由组成分类器的规则的先行平均长度测量的规则的大小。我们还对表1中列出的每个数据集进行了十重交叉验证（Demsar，2006）。由于DEOA-CRM是一种与基准算法类似的随机算法，因此我们在所有数据集上运行20次独立执行，并最终计算平均结果（请参见。表3在我们的所有实验中，DEOA-CRM算法使用表2中列出的参数值。表3该算法的数据是ARFF（文件格式属性关系），一种由WEKA工具支持的格式。表3的AAC列包含通过对每个数据集执行每个算法的20次独立运行计算的平均准确度。基准算法的结果是从他们发表的论文。在元启发式方法的情况下，除了算法结果的质量之外，它在多次执行时生成类似结果的能力也是必不可少的。因此，表3中的Std列表示20次运行的表3中的结果表明，DEOA-CRM在12个病例中的7个病例中具有最佳分类准确性（约58%的病例）。相比之下，Ant-MinerPAE在5个数据集上获得了最佳结果，其中3个数据集略有差异。对于肝脏疾病数据集，DEOA-CRM的分类平均精度为100%，标准差为0%，即，在所有20次运行中，精密度为100%。它还实现了退火和玻璃数据集的平均精度接近100%。最后，DEOA-CRM以88.26%的总平均值获得了最好的成绩，其次是Ant-MinerPAE算法，总平均值为84.89%。对于可解释性分析的其余部分，我们考虑以下度量：分类平均大小和规则平均大小。将从DEOA-CRM算法的20次运行获得的平均分类器大小和Std结果与基准算法进行比较（参见表4）。我们可以观察到，DEOA-CRM90888684828078（人口规模，迭代次数）(100，100）(100，第50(100，第10(50，100）(50，第50(50，第10(10，100）(10，第50(10，第10平均分类精度Mohamed Mahdi MALIK和H. 豪瓦西沙特国王大学学报表37568应用DEOA-CRM和其他方法时获得的基于规则的分类器的平均分类准确率没有数据集DEOA-CRM助理文书主任/支助事务2cAnt-MinerPBAnt-MinerPAEILS-AntMinerAACSDTAACSDTAACSDTAACSDTAACSDT1天平秤54.761.6368.664.9776.830.2484.471 .一、4871.191.192乳腺癌84.481.6470.945.3772.320.3185.061 .一、8873.572.913信用a93.470.9984.660.2485.680.1590.291.5686.671.584Credit-g93.151.5571.04.5273.630.2377.801.0272.41.435Heart-c94.830.7978.897.7855.500.3790.781.2482.282.46心脏-h88.701.4878.516.1664.750.2791.501 .一、0482.062.227电离层73.882.8986岁。550的情况。4389.650.3192.371 .一、5389.862.098皮马83.892.5873.100.3374.810.1878.521.44//9退火99.50.1797.250.0897.600.1097.440.55//10玻璃99.770.1070.240.5173.940.4968.741.81//11肝脏疾病1000.068.780.4466.720.4067.031.52//12皮肤科92.701.3591.800.2292.460.3194.731.03//平均88.261,2678,372,5976,990,2884,891,3479,721,97表4应用DEOA-CRM等方法得到的分类器尺寸。没有数据集DEOA-CRM助理文书主任/支助事务2cAnt-MinerPBAnt-MinerPAEILS-AntMinerACSSDTACSSDTACSSDTACSSDT8.90.381天平秤3.150.3652013岁640的情况。0313岁200的情况。2013.10.812乳腺癌6.31.5626.86.19610个。360的情况。11六、100的情况。2825.21.983信用a11.42.4525.300.1112.310.107.700的情况。5845.91.284Credit-g7.553.1130.516.3328岁570的情况。279 .第九条。300的情况。3017.51.085Heart-c10.952.7662.201.1612个。850的情况。145.500的情况。2220.91.146心脏-h3.41.1448.672.4310个。960的情况。127 .第一次会议。000的情况。3712.70.877电离层4.652.3411.731.349 .第九条。180的情况。09十一岁100的情况。80//8皮马2.10.31126.93二、56十四岁890的情况。0910个。900的情况。41//9退火6.20.5215.510.0916.120.138.60.37//10玻璃9.11.6160.871.129.410.087.300.62//11肝脏疾病2.00.010个。330的情况。4510个。390的情况。079 .第九条。001 .一、4312皮肤科6.550.7510.290.0819.170.117.900.5320.601.08平均6.111.4140.092.6613.990.118.630.518.90.38Mohamed Mahdi MALIK和H. 豪瓦西沙特国王大学学报表37569表5应用DEOA-CRM和其他方法时获得的平均规则大小没有数据集DEOA-CRM助理文书主任/支助事务2cAnt-MinerPBAnt-MinerPAEARSSDTARSSDTARSSDTARSSDT1天平秤1.00.039.870.5312.640.0312.300.262乳腺癌1.490.2223.201.8019.150.406.700.583信用a2.570.1580.272.1017.540.329.401.144Credit-g3.680.66227.733.5164.751.5012.100.645Heart-c2.480.3162.201.1627.650.585.900.356心脏-h2.760.4448.672.4321.490.416.700.407电离层1.00.011.731.3411.040的情况。1710个。800的情况。818皮马1.850.57126.932.5615.930.1410.200.519退火1.00.028.600.9122.110.3312.000.4510玻璃2.020.4060.871.1210.730.149.201.1011肝脏疾病2.250.6110.330.4511.780.0811.762.3412皮肤科1.00.030.800.3144.470.6320.201.47平均1.930.2862.61.5223.270.3910.610.48在12个数据集中的9个数据集中的平均分类器大小度量方面优于竞争对手，即，75%的病例。在表4的最后一行中，DEOA-CRM得到了最好的总体平均分类器大小结果，为6.11，其次是Ant MinerPAE，为8.63，ILS-AntMiner为8.6，cAnt-MinerPB为13.99。ACO/PSO 2的总体平均得分最低（40.09）。根据平均规则大小度量结果（表5），我们可以看到DEOA-CRM在所有数据集中都优于Ant MinerPAE、cAnt- MinerPB和ACO/PSO 2，总体平均规则大小结果存在显著差异。(For ILS-AntMiner方法，规则大小结果不存在于他们的论文中）。查看表6中的p值，我们可以看到它们在大多数情况下小于0.05因此，DEOA-CRM中的改进在大多数数据集上，算法的结果在统计上优于其他算法，证明了其性能。本节的结果表明，所提出的DEOA-CRM可以有效地解决CRM问题，通过生成可解释的模型（小规则）。DEOA-

下载后可阅读完整内容，剩余1页未读，立即下载