没有合适的资源?快使用搜索试试~ 我知道了~
可在www.sciencedirect.com上在线ScienceDirect电气系统与信息技术学报5(2018)363使用集成方法提高阿拉伯语推文的自动分类精度哈曼湾放大图片作者:Abdelaala, Ahmed N.作者:Elmahdya.哈桑·哈拉瓦尤尼斯ba埃及开罗爱资哈尔大学工程学院计算机和系统工程系b埃及Minia大学工程学院计算机和系统工程系接收日期:2015年11月16日;接收日期:2018年2月27日;接受日期:2018年3月17日在线提供2018年摘要近年来,推文分类成为人们感兴趣的话题,特别是对于阿拉伯语。本文根据阿拉伯语推文的语言特征和内容,将其自动分类为体育、文化、政治、技术和一般等几个预定类别之一,并采用集成方法提高阿拉伯语推文的分类准确率,主要方法是:在分类之前使用的同一数据集上使用bagging、boosting和stacking,对结果进行验证,并确定最佳分类器具有较高的准确率。实验结果表明,采用集成方法比采用个体分类器更好地提高了分类精度与使用J48,NB或SMO作为单个分类器相比,分类器朴素贝叶斯(NB)的准确率提高到1.6%,分类器顺序最小优化(SMO)提高到2.2%,最终决策树(J48)分类器达到© 2018 电 子 研 究 所 ( ERI ) 。 Elsevier B. V. 制 作 和 托 管 这 是 CC BY-NC-ND 许 可 证 下 的 开 放 获 取 文 章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词:阿拉伯语推文;预处理;分类;分类器算法;加密方法1. 介绍阿拉伯语文本具有与英语文本不同的性质,因此阿拉伯语文本的预处理更具挑战性,也是文本分类之前的重要技术,目的是从庞大的数据中获取知识,减少处理操作。预处理主要包括许多步骤:去除无用的词,称为(停用词)如from、in、on等,”[10]“以其字,以其字。文本分类旨在将文档分类到预定义的类别中。它也被称为文本分类,文档分类和文档分类。*通讯作者。电子邮件地址:hammam mohamed36@yahoo.com(H.M. Abdelaal)。电子研究所(ERI)负责同行评审https://doi.org/10.1016/j.jesit.2018.03.0012314-7172/© 2018电子研究所(ERI)。Elsevier B. V.制作和托管这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。364H.M. Abdelaal等人/电气系统与信息技术杂志5(2018)363分类分类有两种方法:人工分类和自动分类,人工分类依赖于基于规则的分类,自动分类依赖于机器学习算法。在本研究中,我们使用自动分类的方法。这种分类的目的是根据阿拉伯语推文的语言特征、内容以及表征每个类别的某些词语将其自动分配到预定类别中。 还有三种不同的算法:为了提高NB、J48和SMO分类器的准确率,采用了bagging、boosting和stacking等算法,这些算法的主要目的是将弱学习算法转化为强学习算法,通过降低误报率,在假设每个基分类器在每个样本上有40%的错误概率的情况下,这些算法可以降低错误率。大多数基本分类器使数量更有可能是正确的。集成算法比单一分类技术具有更好的准确性。集成方法的成功取决于个体分类器在错误分类实例方面的多样性(Lee和Cho,2010)。在我们的实验中,我们使用了流行的工具,如WEKA(怀卡托知识分析环境)WEKA是一个重要的数据挖掘和机器学习算法,通过结果表明,使用集成方法实现的准确率超过使用单个分类器。SMO分类器的准确率达到88.60%,J48分类器的准确率达到86.80%,NB分类器的准确率达到88.60%。每个分类器的改进率分别为2.2%、3.2%、1.6%2. 相关作品Tiwari和Prakash(2014)主要使用集成方法:boosting,bagging和stacking来提高J48在Sonar数据集上的准确性,该数据集包含111个模式,这些模式是通过在各种角度和各种条件下将声纳信号从金属圆柱体上反弹而获得的。他们的实验结果表明,堆叠效果最好。其他集成算法优于单个J48算法。Syarif等人(2010)使用集成方法来提高网络入侵检测系统的准确性。他们使用了四种不同的数据挖掘分类器,朴素贝叶斯,J48(决策树),JRip(规则归纳)和iBK(最近邻)。他们的实验表明,采用四个基本分类器和三种集成方法的原型在检测已知入侵时达到了99%以上的准确率。Bekkali等人(2014)在实验中使用了从Twitter收集的数据集。他们使用了NodeXL Excel模板,这是一个免费的Excel模板,可以更容易地收集Twitter网络数据。该语料库被手动分为六个类别:电影,新闻,纪录片,健康,旅游和经济。他们的系统的有效性进行了评估和比较的F1-措施使用NB和SMO分类。Leeet al.(2011)将推文的热门话题分为18个大类,如体育、政治、技术等。使用两种数据建模方法,基于文本的数据建模和基于网络的数据建模。他们的研究结果表明,使用基于文本和基于网络的分类建模,分类准确率分别可达65%和70%。Sriram等人(2010)根据作者信息和从推文中提取的特定领域特征将推文分类为预定义的类别,如事件,交易,新闻,意见和私人消息实验结果表明,Bag-Of-Words(BOW)方法表现不错,但八个特征(8F)在这组通用类中表现得更好。3. 推文收集和预处理这些推文是使用Twitter搜索应用程序编程接口(API)从Twitter网站收集的。收集的推文是关于不同的公共类别,每个类别有几个关键字。表1显示了每个类别收集的tweet该数据集由500条不同类别的推文组成;每条推文都是根据其内容和所在域手动标记的。这些推文被分为五类,主要是体育;政治;技术;文化和一般。数据预处理是数据挖掘中的一个重要步骤,因为它允许我们从嘈杂的单词中清理数据它们是非常常见的单词,在选择与用户需求相匹配的文档时似乎有点价值。因此,不得将其作为索引术语。这些词中的大多数与分类任务无关,并且可以在不损害分类器性能的情况下被丢弃,并且甚至可以由于降噪而导致改进(Han等人, 2006年)。 数据预处理是一种提高数据质量,从而提高数据精度的技术H.M. Abdelaal等人/电气系统与信息技术杂志5(2018)363365··········•∼表1每个类别收集的推文数。类别名称多条推特体育100政治100技术100文化100一般100总500Fig. 1.格式文件的示例包括布尔方法。以及后续开采过程的效率它在知识发现过程中非常重要,因为质量决策必须基于质量数据。检测数据标准化,及早纠正它们,减少要分析的数据可以为决策带来巨大的回报(Feldman和Sanger,2007)。预处理包括以下步骤:删除非阿拉伯语单词(忽略英语单词)。删除特殊字符,如(#、%、、@、等)。删除变音符号和标点符号(1.,a.将所述第一(见附件二)。将(,,)替换为()。删除定冠词。将()改为(),将()改为()。删除连词()(和)。删除重复的字符,例如(消除常见的重复笑。删除重复的连字符,例如(“"变成”“) 。删除停用词,如(, )(from,on,in)。词干提取是一个语言规范化的过程,其中一个词的变体形式被减少;例如。 单词“write”、“writing”和“writer”都变成了“write”(Al-Shalabi等人, 2012年)术语加权是预处理方法之一;它帮助我们显示文档集合中的重要词以用于分类目的(Zhengwei et al., 2010年)。 术语加权主要有几种方法:布尔方法和术语频率-逆文档频率(TF-IDF),在本研究中使用布尔方法,它是指一个词的存在或不存在分别为布尔0或1(Saad和Ashour,2010)。图1显示了使用布尔方法(0,1)的表单文件示例。然后使用WEKA程序将数据转换为逗号分隔值(CSV)。图2描述了从收集500条推文开始的推文收集和预处理然后根据内容将推文接下来是推文的预处理,这是对推文进行分类之前从海量数据中获取知识的一个非常重要的步骤,减少了处理操作。推文被标记化(这意味着将文本更改为离散标记的序列),之后我们将它们存储在文档中,而不重复(唯一的单词)。下一步是按SMO,NB,··366H.M. Abdelaal等人/电气系统与信息技术杂志5(2018)363==图二. tweets预处理和分类大纲。表2单个分类器的总体准确率百分比方法10-倍交叉验证个体量词J48NBSMO准确度%83.687.086.4和J48分类器使用交叉验证(CV)方法。最后一步是评估两种情况下的准确性结果:单独分类器和组合算法的情况下。4. 实验结果在采用交叉验证(10倍)方法得到J 48、NB和SMO作为单独分类器的准确率后,将训练数据随机分为n个块,每个块保持一次,然后在剩下的n-1个块上训练分类器,然后采用Bagging、Boosting和Stacking三种算法来提高阿拉伯语推文分类的准确率。表2示出了单个分类器:NB、J48和SMO的总体百分比准确度。4.1. 结果评估我们可以使用几种度量来衡量分类准确率,这些度量是:准确率,精确率,召回率和F-度量。准确度是指被正确分类的样本数量。精确度和召回率的计算是根据计算真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)(Sawaf等人, 2001年,如图所示。图3示出了两类预测的不同结果和正确预测类的比率。我们可以将精度计算为:精度(P)TPTP+ FP还可以将召回率计算为:Recall(R)TPTP+ FNH.M. Abdelaal等人/电气系统与信息技术杂志5(2018)363367==图三. 正确预测类的比率。表3整体准确性。F、R和P代表各个类别。分类器\类别名称NBJ48SMO交叉验证PRFPRFPRF技术0.8950.0770.8280.9520.590.7280.64510.784体育0.97110.98510.960.9810.930.964一般0.910.710.7980.9590.70.8090.9730.720.828文化0.7160.960.8210.5960.990.7440.9480.730.825政治0.9190.910.9150.9130.940.9260.9310.940.935准确度%87.083.686.4TP:被正确分配到给定类别的推文数量TN:被正确分配为不属于类别的推文数量FP:被错误分配到类别的推文数量。FN:未正确分配到类别的推文数量表3和图4;显示了F1测量(F),以及单个类别的召回率(R)和精确度(P)。这些类别是:技术,文化,体育,政治和一般使用交叉验证方法。F测度结合了查准率和查全率,F测度用于计算文本分类器的性能,公式如下:F1-措施(F)2(精确度和召回率)精确度+召回率最后,准确率(总体成功率)是正确分类数除以分类总数准确度TP+ TNTP+ TN+ FP+ FN见图4。F、R和P代表各个类别。368H.M. Abdelaal等人/电气系统与信息技术杂志5(2018)363表4集成方法(Bagging)对每个分类器使用10倍交叉验证的准确性方法10-倍交叉验证合奏套袋分类器J48NBSMO准确度%84.688.688.0表5使用10倍交叉验证的每个分类器的集成方法(Boosting)的准确性方法10-倍交叉验证合奏提振分类器J48NBSMO准确度%86.087.088.64.2. 提高分类准确性4.2.1. 利用Bagging算法提高分类精度我们用来改进阿拉伯语tweets分类的第一个算法是bagging。Bagging算法是基于这样的思想,即原始训练集的引导样本相对于原始训练集会有很小的变化,但有足够的差异来产生不同的分类器,集合中的每个成员都使用不同的训练集进行训练,并且通过平均或投票来组合预测不同的数据集是通过从原始集合中采样生成的,随机选择N个项目进行替换(Lior,2010)。 在该算法中,使用了三个分类器J48,NB和SMO,以提高机器学习算法的准确性。表4显示了表2中每个分类器与Bagging算法的准确度;我们注意到,与单个分类器的准确度相比,Bagging算法在J 48、NB和SMO分类器的分类准确度方面有所提高4.2.2. 使用Boosting算法我们用来提高阿拉伯语推文分类准确性的第二个算法是boosting。提升是一种使用几种不同方法计算输出,然后使用加权平均技术对结果进行平均的 通过改变权重公式来结合这些技术的优势,您可以使用不同的窄调模型为更广泛的输入数据提供可接受的预测力(Anon,2018)。Boosting是非常少的代码,减少了方差,但它对噪声和离群值敏感在该算法中,使用了三个分类器J48,NB和SMO,如表5所示,我们注意到Boosting算法在J48和SMO分类器的分类精度方面有所提高,但NB分类器的分类精度与单个分类器相同。4.2.3. 利用叠加算法提高分类精度我们用来提高阿拉伯语推文分类准确性的第三个算法是堆叠。堆叠是一种不同的组合多个分类器的技术。与bagging和boosting不同,它可以进行分类或回归,这取决于选择不同的Meta分类器,以及堆叠次数,堆叠技术是两个级别的分类,在第一级它使用基分类器并且通常是多个分类器,在第二级它根据基分类器的结果学习Meta分类器以给出最终的分类结果,因此堆叠算法比其他分类器(如bagging和boosting)需要更多的时间来建立模型。在该算法中使用了三个基本模型;它们之间的区别是Meta分类器。在第一个模型中,j 48分类器被用作Meta分类器;第二个模型NB分类器被用作Meta分类器;最后SMO分类器被用作Meta分类器。在每个模型中,我们使用不同数量的H.M. Abdelaal等人/电气系统与信息技术杂志5(2018)363369表6在两个基本分类器(J48和NB)中,每个分类器的堆叠算法的百分比准确率方法10折交叉验证表7在三个基本分类器(J48,NB和SMO)中,堆叠算法对每个分类器的百分比准确率方法10折交叉验证表8集成方法与每个分类器的性能百分比准确度%改善%分类器个人套袋提振堆叠套袋提振堆叠J4883.684.686.086.81.02.43.2NB87.088.687.087.61.60.00.6SMO86.488.088.688.41.62.22.0我们在两种情况下使用的基本分类器第一种情况是使用两个基本分类器J48和NB。第二种情况是使用三个基本分类器J48、NB和SMO。表6显示了具有两个基本分类器和10倍交叉验证方法的堆叠模型的准确率百分比。表6显示了使用三个基本分类器和10倍交叉验证方法的堆叠模型的准确率百分比。从表6和表7中,我们注意到,当我们将SMO分类器用作Meta分类器时,在两种情况下(两个和三个基础分类器)实现高准确度的SMO分类器分别为88.2%和88.4%,其次是NB分类器,分别为87.4%和87.6%,最后是J48分类器,分别为86.20%和86.80%。表8和图 5、比较了集成方法和单个分类器的分类效果,并对每个分类器的分类精度进行了提高。注意到J 48分类器;分别使用每个算法(Bagging,Boosting,Stacking)逐渐提高准确率。NB分类器中,Bagging算法的分类准确率达到88.6%, Boosting算法的分类准确率达到87.0%,叠加算法的分类准确率达到87.60%。SMO分类器,采用Boosting和Stacking算法,准确率分别达到88.6%和88.4%,采用Bagging算法,准确率达到88.0%。J48分类器,采用Boosting和Stacking算法,分类准确率分别达到86.0%和86.8%。5. 结论为了提高阿拉伯语推文的分类准确率,本文采用集成方法或组合方法(bagging、boosting和stacking)实验结果表明,单个分类器的分类精度最高的是SMO,其次是NB,最后是J 48,集成方法也能提高分类精度;同时我们注意到,随着堆叠算法中基分类器数量的增加,分类精度也会提高,但由于它由两级分类器“基分类器”组成,需要更多的时间来建立模型算法堆叠Meta分类J48NBSMO基础分类器J48NBJ48NBJ48NB准确度%86.287.488.2算法堆叠Meta分类J48NBSMO基础分类器J48NBSMOJ48NBSMOJ48NBSMO准确度%86.887.688.4370H.M. Abdelaal等人/电气系统与信息技术杂志5(2018)363图五、使用10倍交叉验证的每个分类器和单个分类器的集成方法之间的比较和在未来的工作中,可能会通过使用更多的数据集和其他集成方法来扩展这项工作,以达到更高的精度。引用Al-Shalabi河,Ababneh,M.,Kanaan,G.,Al-Nobani,A.,2012. 为阿拉伯语构建一个有效的基于规则的轻型词干分析器,以提高搜索效率。国际阿拉伯信息技术杂志。9(34)。装袋、提升和堆叠。http://stats.stackexchange.com/questions/18891/bagging-boosting-and-stacking-in-machine-learning网站。Bekkali,Mohammed,Lachkar,Abdelmonaime,Abdullah,Mohamed,2014. 基于粗糙集理论的阿拉伯语文本分类。西迪·穆罕默德·本·阿卜杜拉大学(USMBA),计算机科学&信息技术(CS&IT)。Feldman,Ronen,Sanger,James,2007.文本挖掘手册,分析非结构化数据的高级方法剑桥大学出版社http://www.roelsbeestenboel.nl/text.pdf.Han,Jiawei,Kamber,Micheline,Pei,Jian,2006. 数据挖掘:概念与技术,第二版。 伊利诺伊大学香槟分校。李,K.C.,赵,H.,2010年。 集成分类器在位置预测任务中的性能,重点是Markov Blanket perspective。 Int. J. u e-Serv.Sci. 技术3(September(3)).Lee,Kathy,Palsetia,Diana,Narayanan,Ramanathan,Ali Patwary,Md. Mustafa,Agrawal,Ankit,Choudhary,Alok,2011. 推特热门话题分类。电气工程与计算机科学系-IEEE国际数据挖掘会议。利奥尔河,2010.模式分类使用包围方法。世界科学出版公司Ltd,New Jerseyhttp://www.ise.bgu.ac.il/faculty/liorr/hbchap45.pdf.萨阿德,M.,Ashour,W.,2010年。使用决策树的阿拉伯文文本分类在:计算机科学和信息技术,莫斯科,俄罗斯http://site.iugaza.edu.ps/msaad/files/2011/01/mksaad-arabic-text classification-using-decision-trees-CSIT2010.pdf。Sawaf,H.,Zaplo,J.,Ney,H.,2001.阿拉伯语新闻文章的统计分类方法。In:The Workshop on Arabic Natural Language Processing,Toulouse,Francehttp://www.abdelali.net/ref/Sawaf ArabicClassification.pdf.Sriram,Bharath,Fuhry,Dave,Demirbas,Murat,2010.witter短文本分类改进信息过滤俄亥俄州立大学计算机科学与工程系。Syarif,Iwan,Zaluska,Ed,Prugel-Bennett,Adam,Wills,Gary,2010.Bagging、Boosting和Stacking在入侵检测中的应用。电子工程理工学院。Tiwari,Aakash,Prakash,Aditya,2014. 利用WEKA算法对声纳数据集进行了Bagging、Boosting和Blending集成分类算法的改进。国际工程技术杂志Res.2(September(9)).Zhengwei,Q.,Cathal,G.,Aiden,D.,Alan,S.,2010. 从个人位置日志中挖掘重要位置的时间加权方法。在:CIT2010-第10届IEEE计算机和信息技术国际会议,英国布拉德福德。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功