没有合适的资源?快使用搜索试试~ 我知道了~
决策树分类器的非顺序划分方法及其对高维数据集的提高分类精度和稳定性影响
可在www.sciencedirect.com在线获取ScienceDirectFutureComputing and Informatics Journal 3(2018)275e285http://www.journals.elsevier.com/future-computing-and-informatics-journal/决策树分类器的非顺序划分方法Shankru Guggaria,*,Vijayakumar Kadappab,V. Umadeviaa部。计算机科学与工程学士学位工程学院,Bengalu,560019,印度b部计算机应用,B.M.S.工程学院,Bengalu,560019,印度接收日期:2018年3月29日;接受日期:2018年6月21日在线发售2018年摘要决策树是一种广泛应用于实际应用的分类器。它很容易解释,但由于维数灾难,它具有不稳定性和对高维数据集的分类性能较低。特征集划分是一种新的概念,通过将特征集划分为子集(块)来解决高维问题。许多现有的基于划分的决策树方法本质上是顺序的,其在特征之间缺乏逻辑关系。在这项工作中,我们提出了新的非顺序的特征集划分方法,利用费雷尔图和钟三角的想法,以创建低,中,高相关性特征的混合特征块在11个UCI和KEEL数据集上的实验结果表明,与NBTree、BFTree、Serial-CMFP分割方法和经典决策树技术相比,本文提出的分割方法具有更高的分类精度,最高可达5%。与其他决策树方法相比,所提出的方法也表现出更好的稳定性Copyright© 2018埃及未来大学计算机与信息技术学院由爱思唯尔公司制作和主持这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:决策树;相关性;费雷尔图;钟形三角;划分1. 介绍决策树是机器学习和数据挖掘中DT分类器也被称为分层分类器,广泛应用于数据分析中的监督分类DT分类器的主要目的是建立一个模型,根据各种输入变量预测目标变量。它既可以处理连续值,也可以处理范畴DT被成功地用于各种应用中,如寻找人的位置[1]、预测学生成功率[2]、洗钱风险评估[3]、电力系统安全评估[4]、预测铜价[5]、硬盘驱动器故障预测[6]等。DT遭受几个挑战,如不稳定性(即,训练样本中的微小变化会导致结果树的显著变化)和分类* 通讯作者。电子邮件地址:shankar286@gmail.com(S.Guggari),vijaykirk.mca@bmsce.ac.in(V. Kadappa),umadevi. bmsce.ac.in(V.Umadevi)。同行审查,由埃及未来大学计算机和信息技术系负责。更高维度数据集的泛化能力,仅举几例。经典的决策树,如CART[7],C4.5[8],C5.0[9],NBTree[10],BFTree[11]都面临这些挑战。模式识别中基于分区的方法是广泛的,并且与利用局部信息的传统方法相比,已知是有效的[12e16]。有两种类型的分区方法:(i)水平分区-将数据实例集划分为数据实例子集(迷你数据库),以及(ii)垂直分区-将特征集划分为每个数据实例的特征子集[12]。在这项工作中,我们研究了垂直划分(也称为特征集划分)方法,以提高决策树分类器的分类能力和稳定性。在这个方向上,Seetha 和Murthy[13]引入了 串行垂直 分区技术 (Serial-CMFP),其中每个分区具有相同数量的特征,SVM和KNN分类器应用于每个分区,并且使用多数投票规则组合分类器决策。许多现有的垂直方法[13]以顺序的方式划分功能集,这是不符合逻辑的,因为它们没有https://doi.org/10.1016/j.fcij.2018.06.0032314-7288/Copyright© 2018埃及未来大学计算机与信息技术学院。Elsevier B. V.制作和托管这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。276S. Guggari等人/Future Computing and Informatics Journal 3(2018)275e 2851/4fg¼考虑特征之间的相互关系。在这项工作中,我们提出了两种新的垂直分区方法,基于Ferrer图[17]和Bell Triangle[18]的思想。费雷尔图用于使用称为引文三元组的文献计量工具来查找科学家的出版物输出[19],其他人则通过构建一个新的指标h指数来表示科学输出[20]。贝尔三角形应用于各种现实世界的场景,并显示了图形组成和贝尔三角形之 间 的 联 系 [18 , 21] 。 我 们 利 用 Ferrer 图 [17] 和 BellTriangle[18]的思想来创建给定数据集的新特征块。所提出的方法被证明是优于其他决策树方法的分类和稳定性。本文组织如下:第2节描述了决策树方法的回顾。第三节介绍了相关的工作。我们在第4节中正式介绍了我们提出的工作。结果和分析见第5节第6节,我们的结论见第7节。2. 决策树方法在本节中,我们简要回顾了决策树,以帮助读者更容易理解其他部分。2.1. 分类回归树(CART)CART构造二叉树,并基于基尼指数对数据集进行拆分。它使用最小的成本复杂度来修剪树,这是使用叶子的数量和树错误分类的数据实例的百分比来计算的[7]。CART建立回归树,并根据节点的加权平均值预测类别标签[22]。2.2. C4.5C4.5是一种流行的算法,是基本ID3算法的扩展。该方法基于信息增益比进行特征选择,避免了特征选择的偏差.它处理带有缺失值的不完整训练数据,并能够使用连续和离散特征[8]。C4.5使用悲观修剪来避免过度拟合,并在满足低错误率的同时借助爬山算法停止树生成过程[23]。2.3. C5.0C5.0是C4.5的高级版本,增加了一些额外的功能,比如针对不同类型的错误的提升和不相等的成本。它生成许多较小的树,并进行全局修剪过程,以删除无助于提高分类精度的子树[24]。它使用不同的加权方案进行分类器训练[9,25]。2.4. 朴素贝叶斯树(NBTree)Kohavi[10]提出了一种名为NBTree的混合分类器,它根据最高效用值选择节点。它使用5倍用于计算节点处的效用值的NBTree就像一个经典的决策树,在叶子节点上使用朴素贝叶斯分类器,而不是单个类。2.5. 最佳优先决策树Haijian Shi[11]提出了Best-First决策树学习器,它首先扩展最佳节点。也就是说,节点是基于所有可用节点中杂质的最大减少而不是深度第一顺序来选择的。3. 相关工作在本节中,我们将概述相关的垂直分区方法。提出了一种用于低维和高维场景的多视图集成学习[26]的在他们的工作中,作者使用齐次集成方法,其中使用相同的分类算法进行训练[26]。Kusik[27]描述了基于特征和对象的分区技术,以在半导体行业中做出关于质量的有效决策。该方法采用特征划分进行网页分类,采用Co-Training技术对标注和未标注数据进行学习,将输入空间划分为独立视图和冗余视图。每个视图构建一个单独的模型来分类未标记的数据,并保留新数据用于进一步分类[28]。在另一个方向上,Lior Rokach等人。[29]提出了一种使用特征集划分的Meta分类器。Meta分类器根据数据集的特征决定是否对数据集进行分区。它使用元数据集来帮助根据其学习经验分割给定数据集。分区方法用于机械设计,并根据特征类型(例如标称或有序)识别分区[30]。Lior Rokach等人。[14]使用特征集分解方法,宽度不经意包装器,以提高制造质量。基于主题的分区[15]利用数据集中存在的主题进行分区。例如,教师数据集中的主题可以是:工作经验,研究,技能,资格。一些研究人员使用遗传算法来划分特征集,并使用Vapnik-Chervonenkis维数界来检查有效性[16]。Kumar和Minz[12]提出了一种基于信息增益的垂直分区方法,并显示了决策树分类器分类精度的提高。4. 决策树分类器的划分方法在本节中,我们提出了垂直划分方法,其中基于Ferrer图[17]和Bell Triangle[18]的思想将特征集划分为非空子集。费雷尔图和贝尔三角形使我们能够将特征集非顺序地划分为具有不同特征的特征子集。设D {D1;D2;...; Dm}表示考虑中的具有m个特征的数据集,并且C C1;C2;...; C s 表示s个类标签的集合S. Guggari等人/Future Computing and Informatics Journal 3(2018)275e 285277^jn¼¼1/4fg我Jk257ðÞ8ðþ Þ4.1. 基于费雷尔图的决策树(DTFDP)在本节中,我们提出了一种基于Ferrer图概念的新决策树方法[17]。该方法在图1A和1B中示出。1e 2。算法如下:算法:设F {F1;F2;并且Ci是特征Fi和Fj的相关系数。1. 对于给定的训练数据,计算相关系数-在特征Fi和Fj之间,Ci,Cj,Ci;j1; 2;6. 测试数据实例T使用基于多数投票融合的决策树集合进行分类(图1)。( 2):6.1 使用步骤4为每个测试数据实例T创建M个块TB1;TB2;6.2 使用Ri对每个测试数据块进行分类:qi)RiTBi4其中qi存储分类标签Cj。6.3 q)多数表决q1;q2;...; qM,其中q是分配给T的类标签。基于费雷尔图[17,19]的思想进行特征划分(步骤4)。我们在图1中说明了24个和16个特征的分割思想。 3. 创建kn; i
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功