没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报一种基于音乐节奏树划分的决策树分类器Shankru Guggaria,Shanhua,Vijayakumar Kadappac,Umadevi V.a,Ajith Abrahamba计算机科学与工程系,B.M.S. 工程学院,Bull Temple Road,Bengdalu,印度b机器智能研究实验室(MIR实验室),创新和研究卓越科学网络,P.O. Box 2259,Auburn,Washington 98071,USAcB.M.S.计算机应用系。工程学院,Bull Temple Road,Bengdalu,印度阿提奇莱因福奥文章历史记录:收到2019年2020年3月12日修订2020年3月31日接受2020年4月8日网上发售关键词:决策树音乐节奏树类不平衡垂直分区A B S T R A C T决策树是机器学习、数据挖掘和模式识别中广泛使用的一种非参数技术。它易于理解和解释,但面临着处理高维和类别不平衡数据集,过拟合和不稳定等挑战为了克服这些问题中的一些,在文献中使用垂直分区方法,如串行分区、基于主题的分区。垂直分区方法将特征集划分为特征子集(块),并将这些子集用于后续任务。在这项工作中,我们使用音乐节奏树的思想它在划分特征集之前根据特征的平均相关强度对特征进行排序。该方法被证明是优越的通过显示平均13: 8%; 6%; 9: 8%; 19: 7%; 9: 4%和29: 4%的分类准确率,C4.5、随机森林、Bagging、Adaboost、集成技术和垂直分割技术。我们在15个数据集上的实验结果表明,所提出的垂直划分方法在处理类不平衡数据时更稳定,更好。最后,一些流行的统计测试进行验证所提出的方法的结果的统计意义©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍决策树是在各种现实世界应用中使用的众所周知的分类技术。给定数据实例的预测是基于其学习经验来执行的。它们被应用于各种领域,例 如 预 测 学生 的 成 功 率 ( Natek 和 Zwilling, 2014 ) , 安 全 评估(Oliveira等人,2017),价格预测(Liu et al.,2017)和电化学系统(Erdem Günay等人,2018年)。决策树很容易理解,用户可以很容易地解释。然而,它们面临着各种挑战,如处理高维数据,过拟合,不稳定性和类不平衡问题。决策树通常被称为不稳定的,因为训练数据集的微小变化会导致树结构的极端变化并产生不同的预测。采用离散度、错分率、终端节点数、标准差、相异度和树的深度等指标来量化决策树的结构稳定性*通讯作者。电子邮件地址:bmsce.ac.in(S.Guggari),vijaykirk. mca@bmsce.ac.in(V.Kadappa),umadevi.cse@ bmsce.ac.in(V. Umadevi),ajith. abraham@ieee.org(A. Abraham)。决策树有两种稳定性-语义稳定性和结构稳定性。如果两个分类器对相似的数据显示出相同的预测率,那么它们就被认为是语义稳定的,而 结 构 稳 定 性 则 衡 量 两 个 分 类 器 是 否 具 有 相 似 的 拓 扑 结 构(Mirzamomen和Kangavari,2016)。提出了一种集成树技术(Zimmermann,2008),以避免决策树的过度拟合和结构不稳定性 在其他研究中,基于特征选择提出了语义稳定性(Paul等人,2012年)。不平衡数据集的分类是数据挖掘、机器学习和模式分析中的一个重要问题。决策树技术的分类精度受到类别不平衡数据集的极大影响。提出了几种集成技术来处理这样的数据集。最近,基于AAMI标准EC57:1998,使用重采样和AdaBoost集成分类器对五组心跳进行分类。Shigang Liu等. 讨论垃圾邮件检测(Liu等人,2016)使用基于模糊的过采样、随机过采样和欠采样技术来处理类不平衡数据。使用支持向量机、k-最近邻(kNN)、朴素贝叶斯(NB)和随机欠采样增强(RUS-Boost)来建立模型,并基于多数投票技术将每个模型的预测组合在一起。 分类器性能的度量指标有F-测度、类不平衡率、真阳性率和假阳性率https://doi.org/10.1016/j.jksuci.2020.03.0151319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comS. Guggari等人/沙特国王大学学报3041类不平衡的数据集。类似地,实值负选择过采样(RNSO)(Tao等人, 2019)技术用于生成人工少数民族数据,以提高分类精度。G-Mean和F-Measure是用于评估UCI数据库中11个数据集性能的度量为了克服这些问题,在文献中提出了分区方法(Kumar和Minz,2015; Guggari等人,2018;Rokach,2008)。特征分割是一种有效的方法,用于开发一种新的集成与多样化的分类器。存在两种类型的划分方法:(1)基于维度的划分技术(a.k.a.垂直分区),其中子集是基于特征集获得的,(ii)基于数据实例的分区技术(也称为水平分区),其中创建数据实例的子集(Kumar和Minz,2015)。据观察,分区方法广泛使用局部信息来识别模式(Kumar和Minz,2015; Seetha和Narasimha Murty , 2016; Rokach 和 Maimon , 2006; Kumar 和Minz,2017; Rokach,2008),并且与经典方法相比能够产生更高的识 别 率 。 多 视 图 方 法 ( Rokach, 2008 ) , 串 行 分 区 ( Seetha 和Narasimha Murty,2016)和基于主题的分区(Vijayakumar等人,2015)方法是文献中的一些垂直分区技术。本研究的重点是提出一种新的垂直划分技术,利用音乐节奏树的思想,以提高效率的类不平衡数据集,结构的稳定性和决策树的分类精度。音乐节奏树是一种简单的结构,用来描述音符之间的关系(全音符、半音符、四分音符等)。音乐节奏树被成功地应用于各种背景,如术语重写系统的处理(Jacquemard等人,2015),基于机器的音乐作曲 ( Dostál , 2013 ) , 整 数 比 例 ( Boenn , 2018 ) , 情 感 表 达(Alexander等人,2015)和脑电图(EEG)(Balasubramanian等人, 2018)等。最近,已经进行了一项研究,以了解使用音乐节奏的人类的行为和神经特征,并揭示了音乐、语音和动物交流的相似性(Kotz等人,2018年)。与其他成熟的方法相比,所提出的划分方法显示出改进的分类和更高的结构稳定性。我们还研究了所提出的方法在类不平衡数据集上的适用性。论文的其余部分分为7个部分,如下所示:详细的相关工作在第2节中讨论,我们在第3节中介绍我们提出的方法。实验结果和分析在4-7中描述,2. 相关工作在本节中,我们讨论了一些关键的相关工作,这些工作是在文献中提出的垂直划分,以解决决策树技术的不稳定性和类不平衡问题。最初,Kusik基于特征的数据类型在机械工业中引入了分区技术(Kusiak和Larson,1995)。在其他工作中,基于Meta学习进行特征划分,其中分类器根据数据集的特性选择特征(Rokach,2006)。Lior Rokach等人使用特征集分解方法改进了搜索质量。它利用广度不经意包装搜索技术来选择特征(Rokach和Maimon,2006)。类似地,在其他工作中,网页的分类是基于特征划分来执行的,并且使用协同训练方法,该方法利用标记和未标记的数据实例(Blum和Mitchell,1998)。采用遗传算法等进化算法进行特征选择和 Vapnik-Chervonenkis 维 度 绑 定 , 将 特 征 分 配 到 特 定 分 区 中(Rokach,2008)。被称为多视图集成学习(MEL)的集成技术提高了低维(Kumar和Minz,2015)和高维(Kumar和Minz,2015)数据集的分类准确性。MEL方法使用朴素贝叶斯(NB)、k-最近邻(kNN)和支持向量机(SVM)方法对数据实例进行分类。在另一项工作中,Vijayaku-mar等人根据主题划分了数据集的特征。主题的识别取决于领域的知识,例如,如果我们确定研究和工作经验是教师招聘数据集的主题。相关的特征研究主题、出版物数量(国家/国际)、研发项目和咨询工作数量等,被分配到相同的块(Vijayakumar等人,2015年)。最近,被称为约束粒子群优化方法(OMEL-C-PSO)的进化算法被用来选择的功能和分区的功能的基础上贝尔数的高维数据集。使用来自UCI存储库的10个高维数据集评估该方法的性能,并使用支持向量机在10倍交叉验证程序的帮助下对数据实例进行分类(Kumar和Minz,2017)。提出了利用费雷尔图和贝尔三角形概念设计决策树分类器的非顺序划分方法。这些方法应用于来自UCI存储库的低维和中维数据集,并表明在分类准确性和结构稳定性方面的性能改进(Guggari等人,2018年)。在另一项研究中,集成技术被设计用于低维和中维数据集。用特征空间的均匀分布来描述分类错误率,并利用60多个数据集进行了实验。Spearman相关系数用于发现误差和方差之间的关系,并且该研究表明对于中等数据集的关系更强(Cervantes等人,2018年)。最近,使用稀疏自动编码器基于内容执行分区选择以改进图像分类。它识别出有助于识别图像的显著特征,并使用最小-最大归一化融合技术。通过与支持向量机和极限学习机的结果比较,证明了该方法的优越性。它通过使用十倍交叉验证和留一法来证明结果(Das和Walia,2019)。不稳定性是决策树的一个重要问题。布莱曼群岛第一个在决策树中发现这个问题并使用Bagging技术来解决它的研究者。Bagging是分类器的集合,并使用多数投票技术将它们组合起来以识别类别标签(Leo,1996; Leo,1996)。类似地,提出了信息模糊网络来产生稳定的决策树,并将其与Meta学习方案(Last等人,2002年)。在其他研究中,提出了模糊最小-最大决策树-HB(FMMDT-HB)来提高结构稳定性,并基于Hoeffding界分割节点(Mirzamomen和Kangavari,2016)。称为交叉分割技术的提升技 术 用 于 稳 定 决 策 树 ( Mirzamomen 等 人 , 2015 年 ) 。Baranauskas观察到,少于5个类的数据集提供了稳定的决策树(Baranauskas,2015)。基于决策树的区域相容性,提高了结构的稳定性它使用证据理论的概率分配来测量稳定性(Wang等人,2018年)。集成学习越来越受欢迎,以解决类不平衡问题(Zhang et al.,2018年)。合成邻域样本生成技术用于重新平衡数据集。它为多数类添加一个合成样本,为少数类添加多个样本使用KEEL数据集用5倍交叉验证技术评估该方法的可靠性(Chen et al., 2018年)。配对集成技术用于解决这两个类3042S. Guggari等人/沙特国王大学学报X1/4fgX ¼ rF RFMX不平衡和概念漂移问题。它使用两个分类器-长期稳定分类器和动态分类器。此外,考虑10个真实世界以及31个合成数据集,以使用ROC曲线下面积(AUC)测量来评估性能(Zhang et al.,2018年)。提出了一种解决多类不平衡学习问题的进化逆方法 它从重叠区域中的大多数类中选择几个实例,并使用N1byClass度量(一个类与其他类的重叠百分比)来解决重叠区域(Zhang et al., 2019年)。类似地,多分类器系统被引入来解决分类问题。它使用具有装袋抽样技术的同质分类器,其中50%的数据实例和50%的特征用于构建模型。实施加权多数表决技术以组合分类器的输出(Mohammed等人,2020年)。在另一项工作中,执行多矩阵集成技术来解决不平衡问题。该算法以熵为目标函数对样本进行过滤,以获得更好的决策边界。 它使用55个KEEL二进制分类数据集来证明该方法的新颖性(Wang等人, 2019年)。2.1. 对基准方法在本节中,我们将简要介绍流行的决策树技术,如分类和回归树(CART),C4.5和C5.0。CART方法生成回归树并预测实数而不是类。它基于最小平方误差进行分割,并使用节点的加权平均值来预测类(Rokach,2001)。C4.5方法使用信息增益比来构建树,减少过拟合问题Ging是一个复合分类器,其中每个分类器都是从具有替换的样本实例中训练出来的。随机森林是Bagging技术的扩展。它随机选择一个特征子集,并为每个子集构建一个未修剪的决策树(Rokach,2010)。 为了比较,我们使用集成技术(Catal等人,2015),它是C4.5(J48),逻辑回归和多层感知器分类器的组合。垂直分区技术(Seetha和Narasimha Murty,2016),一种顺序分区方法,其中支持向量机(SVM)用作基础分类器。它将数据集的特征按顺序划分为相互排斥的子集。3. 基于音乐节奏树的决策树分类器划分技术在本节中,我们提出了基于音乐节奏树的分区技术(MRTPDT),这 是 一 种 垂 直 分 区 方 法 , 其 中 基 于 音 乐 节 奏 树 技 术 ( Sebö 和Waksman,1999 )的 思想 ,将 特征 集划分 为非 空和 互斥 的子集(块)。它在逻辑上将特征集划分为具有不同特征的子集。设F = {F1;F2;.;F m}表示m的集合 特征和CC1;C2;. ;C s表示s个类标签的集合。所提出的方法的算法给出如下:3.1. 算法1. 计算特征F x和F y的相关系数r y,其中8x; y 1; 2;. ;m;xy,由下式给出
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功