没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于改进卡方的阿拉伯语文本分类特征选择Said Bahassinea,Abdellah Madanib,Mohammed Al-Saremc,Mohamed Kissid,aChouaib Doukkali大学理学院计算机科学系利马实验室,B.P. 20,24000,El Jadida,MoroccobChouaib Doukkali大学理学院计算机科学系LAROSERI实验室,B.P. 20,24000,El Jadida,Moroccoc沙特阿拉伯麦地那莫纳瓦拉泰巴赫大学信息系统实验室d卡萨布兰卡哈桑二世大学计算机科学系LIM实验室,穆罕默德科学和技术学院,B.P.。146,摩羯座,Morocco阿提奇莱因福奥文章历史记录:2017年12月25日收到2018年5月17日修订2018年5月21日接受2018年5月24日在线提供关键词:特征选择卡方阿拉伯文文本分类Lightstemming互信息信息增益SVM决策树A B S T R A C T在文本挖掘中,特征选择是减少大量空间特征、提高分类精度的常用方法在本文中,我们提出了一种改进的方法,阿拉伯语文本分类,采用卡方特征选择(简称ImpCHI),以提高分类性能。此外,我们还比较了这种改进的卡方与三种传统的特征选择度量,即互信息,信息增益和卡方。在我们以前的工作的基础上,我们扩展了目前的工作,以评估其他评估方法,使用SVM分类器的方法为了这个目的,5070阿拉伯文文档的数据集被分为六个独立的类。在性能方面,实验结果表明,结合ImpCHI方法和SVM分类器优于其他组合的精度,召回率和f-措施。这种组合显著提高了阿拉伯语文本分类模型的性能。当特征数为900时,该模型获得的最佳f-测度为90.50%©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着在线文档的快速增长,文本文档的处理已经成为一项重要的技术。一方面,这种技术可以帮助找到有趣的相关信息。另一方面,它很重要,因为它有助于理解和组织这些文件。基于文档内容并使用机器学习将看不见的文本文档标记为一个或多个预定义的适当类别被称为文本分类问题。文本分类可以用于不同领域的广泛应用,包括数字图书馆系统,检测意见评论中的垃圾邮件(Hammad和El-Halees,2015),电子邮件消息的分类(Nikhath等人, 2016年),评估-*通讯作者。电子邮件地址:kissim@gmail.com(M. Kissi)。沙特国王大学负责同行审查制作和主办:Elsevier情感分析评估(Mostafa,2017),电影评论分析(Singh等人,2017),文本摘要(Jo,2017),用于营销和阿拉伯语观点挖掘的句子分析(Cherif等人, 2016年)。虽然,已经针对自然语言进行了文本分类的几项研究,例如英语(Barigou,2016),中文(Ye-wang et al.,2016);(Junkai等人,2016),拉丁语和土耳其语文本(Kilimci等人,2016年),由于阿拉伯文字的复杂性,阿拉伯语的屈折和派生规则,以及其复杂的语法规则和丰富的形态(Alghamdi和Selamat,2019)。在实现的上下文中,文本分类系统可以分为三个主要步骤:— 预处理步骤:去除标点符号、停用词、变音符号和无意义的词— 特征选择步骤:在该步骤中,从原始文本中选择相关特征。它们呈现输入到学习步骤中的文本。— 学习步骤:已经部署了许多技术来教系统如何将文本文档划分为不同的类别。https://doi.org/10.1016/j.jksuci.2018.05.0101319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com226S. Bahassine等人/沙特国王大学学报·文本分类的一个主要困难是原始数据的范围。为了克服这一障碍,用于删除冗余和不相关的属性,并选择最明显的特征。在本研究中,我们提出了一种改进的卡方特征选择方法,以最小化数据,并产生更高的分类精度。然后,我们比较了八个选择过程,使用四个特征选择和两个分类器的阿拉伯语文本分类的效果。本文的其余部分组织如下:第二部分介绍了阿拉伯语文本分类以前的工作回顾第三部分介绍了数据采集和文本预处理第四部分介绍了三种传统的特征第五章介绍了特征选择的方法。第六节给出了实验结果。最后,本文将提出一些结论,并对未来的研究提出建议。2. 以前的研究在阿拉伯语文本分类研究领域,已经使用了许多方法来从原始文档中选择相关属性和最佳特征数量(Mesleh,2011)。这可以通过统计技术来完成,该技术计算每个属性的得分,然后利用得分最高的属性来构建分类器。Baraa等人提出了一种新的阿拉伯语文本分类方法,即频率比累积方法(FRAM)(Baraa等人,2014年)。它处理特征选择和分类在一个过程中。结果表明,FRAM的分类结果优于三种分类器:朴素贝叶斯,多变量Ber- noulli朴素贝叶斯(MBNB)和多项朴素贝叶斯模型(MNB)。采用单字词级表示方法,在宏观f-测度值上达到了95.1%。但研究人员并没有在回忆率、准确率和f-测量方面对结果进行比较。Suhad等人比较了现有阿拉伯语词干提取方法的准确性,并部署了阿拉伯语WorldNet本体,并将其作为词汇和语义技术用于概念表示方法中(Suhad等人, 2015年)。他们使用BBC数据集进行实验。作者得出结论,与其他词干提取方法相比,位置标记与词根提取器提供了最佳的结果,并且“Has Hyponym”关系与位置标记的组合优于其他语义关系,与其他组合相比增加了12.63%。但作者没有在召回率和准确率方面对结果进行比较。Harish等人对八种广泛使用的特征选择方法进行了比较研究,即:词频-逆文档频率(TF·IDF)、信息增益(IG)、互信息(MI)、卡方(v2)、模糊度度量(AM)、词频强度(TS)、词频-相关频率(TF RF)和符号特征选择(SFS)(Harish和Revanasiddappa,2017)。他们使用了五种不同的分类器朴素贝叶斯,K-最近邻,基于质心的分类器,支持向量机和符号分类器。实验在标准基准数据集上进行,如Reuters- 21578,20-Newsgroups和4个大学数据集。结果表明,符号特征选择方法优于其它特征选择方法.实验结果表明,SFS方法对提高分类准确率有显著效果。它在f-措施方面达到了94%。Rasha等人使用词干技术(Rasha和Mahmoud,2016)对四种分类器对阿拉伯语文本分类准确性的影响进行了比较研究:顺序最小最 优 化 ( SMO ) 、 朴 素 贝 叶 斯 ( NB) 、 决 策 树 J48 和 K 最 近 邻(KNN)。两种方法被使用Khoja和光茎。并与不使用词干提取的分类结果进行了比较。作者从当地和国际报纸网站上收集了语料库。该数据集由750个文档组成,分为五类,即经济,政治,宗教,体育和技术。所有文件都经过预处理,删除标点符号、数字、格式标签和非阿拉伯文字。作者使用Weka数据挖掘工具实现了Khoja和Light词干分析器。结果显示在精度,召回率和f-措施。结果表明,在训练阶段,LightStemmer的分类准确率高于Khoja Stemmer,SMO分类器的分类准确率高于其他分类器,而NB分类器的分类准确率高于其他分类器。这是因为SMO需要更大的数据才能更好地执行。它实现了94%的f-措施时,轻堵塞和NB使用。但是作者Attia等人提出了一种用于阿拉伯词根提取和文本分类的新框架(Attia等人,2016年)。它是基于使用阿拉伯语模式,并在不依赖任何字典的情况下提取词根。为了研究性能,使用了从沙特新闻社(SAP)收集的包含六个类别的1526个文档的语料库。在预处理步骤中,删除了停用词、非阿拉伯字母、符号和数字。然后,应用具有三个N-gram核(N = 2,3,4)的LibSVM。虽然,结果表明,根提取提高了分类器的召回率,准确率和f-措施方面的质量,精度略有下降。准确度和f-测量报告分别为90.79%和62.93%。Mahmoud等人提出了一种新的方法来提高阿拉伯语文本分类的准确性(Mahmoud等人,2016年)。他们提出了混合词袋法,即两个相邻词以不同的比例收集。以词频作为特征选择,采用频率比累加法对文本进行分类。在调查中使用了归一化为了评估该方法,从在线阿拉伯语网站收集了三个不同类别的数据集实验结果表明,在不使用归一化和词干提取的情况下,使用归一化的文本分类方法的准确率要高于使用归一化和词干提取的文本分类方法实验结果表明,采用归一化的文本分类方法,对四类1200个文本的分类准确率最高,达到98.61%Harrag等人试图探索使用决策树方法对分类阿拉伯文本文档的影响(Harrag等人, 2009年)。他们使用了两个不同的语料库。第一个包含373个文件,属于八个类别;它是从阿拉伯科学百科全书“你知道吗”(阿拉伯语:Do you know)中收集的。第二个包含435个文件,属于14类;它是从圣训百科全书((圣训百科全书)收集的。作者使用了三分之二的数据集来训练文本分类器,三分之一用于测试分类器。改进后的分类器对科学数据集和文学数据集的泛化准确率分别达到93%和91%研究结果还表明,语料的性质和特征也会Bahassine等人提出了两个贡献(Bahassine例如,2014年)。在第一个例子中,他们开发了一种新的硬词干算法,将所有形式的属性还原到它们的根。在第二个贡献中,他们比较了Khoja词干合并器和拟议的词干合并器对阿拉伯语文本分类的影响。为了评估该提出的词干分析器的性能,使用从cnnarabic.com收集的数据集。它包含了5070份文件,长度不等,分为六类:体育,娱乐-S. Bahassine等人/沙特国王大学学报227商务、中东、科技和世界。召回率被用来比较所获得的模型的性能。两种算法被使用; Khoja词干分析器和清理数据后提出的词干分析器。为了降低维数,作者使用卡方作为特征选择。结果表明,使用新的词干分析器的文本分类优于使用Khoja词干分析器的分类。当特征数为500时,该 模 型 的 最 佳 召 回 率 为 79.74% , 而 Khoja 算 法 的 最 佳 召 回 率 为78.44%。之 后 , Bahassine 等 人 使 用 相 同 的 语 料 库 扩 展 了 第 一 项 工 作(Bahassine等人,2017年)。采用查全率、查准率和f-测度对模型的性能进行了比较.结果表明,使用新的词干分析器的文本分类优于使用Khoja词干分析器的分类。实验结果表明,无论特征数是高还是低,查全率、查准率和f-measure都会降低。与其他类别相比,运动类别实现了最高的精确度,召回率和f-测量值,因为此类中的属性与其他类别相比是独特的。娱乐类的精确度、召回率和f测量值都很差。体育类的f-测量值为92.9%,商业类为89.1%。在 另 一 项 研 究 中 , Bahassine 等 人 阐 述 了 一 种 新 的 选 择 方 法(Bahassine等人,2016)。研究人员一方面对轻词干提取和硬词干提取进行了比较研究,另一方面对卡方和所提出的特征选择方法进行了比较研究。然后,他们分析了词干提取和特征选择对阿拉伯语文本分类的影响,使用决策树的召回措施。作者收集了一个语料库,其中包含250份来自“Hespress”和“Hes-port”在线媒体的文档。所收集的文献分为五类:文化艺术、经济、政治、社会和体育。在此数据集中,每个文本都保存在单独的文件中。为了从无意义和嘈杂的单词中清除数据,通过去除数字、标点符号、数字、所有非阿拉伯字符和停用词对所有文档进行预处理。 实验结果表明,与卡方特征选择和硬词干提取方法相比,本文提出的特征选择方法和轻词干提取技术在查全率方面大大提高了阿拉伯语文本分类的性能。它仍然是比较所提出的方法,使用更大的语料库方面的精度和f-措施。回顾以往的研究,我们注意到,他们只使用词干或特征选择来减少属性的数量,以优化设计的分类器的性能。然而,这些步骤不足以在准确性方面产生更好的分类在本文中,这两种技术将被使用,并将在召回率,精度和f-措施的结果进行比较除了上述方法外,还可以 使 用 以 下 技 术 : 朴 素 贝 叶 斯 ( NB ) ( Jadon 和 Sharma ,2017 ) 、 决 策 树 ( Bahassine 等 人 , 2014; Bahassine 等 人 ,2017;Bahassine等人,2016年; Kissi和Ramdani,2011年)和K最近邻(KNN)(Jo,2017年),神经网络(NN)(Al-Anzi和AbuZeina , 2017 年 ) 和 支 持 向 量 机 ( SVM ) ( Al-Anzi 和AbuZeina,2017年)已用于文本分类任务。因此,在这项工作中,DT和SVM将被用作分类器来比较使用了开源阿拉伯语语料库(OSAC)(Saad和Ashour,2010年)。该语料库包含5070个不同长度的文档。这些文件包括六个类:体育,娱乐,商业,中东,科技和世界。在此数据集合中,每个文档都保存在单独的文件中。语料库分为两个集合:训练集由4057个文本组成。同时,剩余的文件被指定为测试集。数据集中类的分布如表1所示。3.1. 文本预处理文本预处理是文本分类过程中的一个重要步骤。该步骤可以减少错 误 并 提 高 分 类 的 准 确 性 ( Uysal 和 Gunal , 2014; Ayedh ,2016)。这一努力的主要目标是消除数据中的嘈杂和无意义的单词(Ayedh,2016)(Elhassan和Ahmed,2015)。语料库的每个文件都经过以下程序:- 删除数字、标点符号和数字。- 删除所有非阿拉伯字符- 删除停用词和无用的词,如:代词,文章和命题。- 把字母“"改成”“。- 把字母“"改成”“。- 将字母" “ 、 ” “ 改 为 ” “ 。3.2. 产生词干提取是通过去除前缀、后缀和中缀将词形变化减少为一种形式(词干或词根)的过程。有几种类型的词干提取算法:统计(Al-Shalabi和Evens,1998)、字典、换能器(Nehar等人,2012)、形态学(Boudchiche等人,2017),包括硬梗(Khoja和Garside,1999)和轻梗(Cherif等人,2014年)。最后两种算法被认为是最常用的类型。硬词干是基于阿拉伯语单词的三个字母的词根。轻词干删除常见的前缀和后缀。值得注意的是,Khoja它从单词中删除最大的后缀和前缀,同时通过将单词的其余部分与其动词和名词列表进行比较。Sawalha对三种词干提取算法进行了比较研究:Khoja的词干提取器、Buckwalter的形态分析器和Al-Shalabi算法(Sawalha等人,2008年)。结果表明,KhojaCherif等人指出Khoja的算法存在几个缺陷(Cherif等人,2014;Sawalha等人,2008; Cherif等人,2015),但他们没有比较阿拉伯语文本分类中词干提取的效果。然而,提出了新的词干提取算法,并与Khoja的算法(Bahassine等人,2017;Bahassine等人, 2016年)。该算法将在本文中使用表1数据集说明。性能我们提出的特征选择和其他三个在查全率、查准率和F测度。3. 数据收集语料库或数据集合可以被定义为可以被分类在许多子集下的文本文档的集合为了评估特征选择的性能质量,类别数量一些培训数量的测试文本设置设置业务836669167娱乐47437995中东14621170292赛特526421105体育762610152世界1010808202所有507040571013228S. Bahassine等人/沙特国王大学学报;ð-Þ提取词的词干,并将文档以词的向量(词干)表示。4. 特征选择在文本分类中,特征选择是减少大数据量的有效方法.它可以增强分类过程。特征选择删除不相关和噪声数据,并选择所有数据的代表性子集,以最大限度地减少分类过程的复杂性。在文献中可以检测到许多特征选择技术,诸如:互信息(MI)(Yang和Pedersen,1997)、卡方(Bahassine等人,2014)、信息增益(IG)和词频-逆文档频率(TF-IDF)(Dadgar等人,2016年)。本研究试图引入一个修改后的版本卡方特征选择方法,这将在下文中。4.1. 信息增益信息增益通过知道文本文档中是否存在术语tk来测量类别预测所获得的信息的比特数。项tk的Ig定义为(Mesleh,2011; Mestiani,2016):IGtk;ciXPt;cωlog. Pt;c1包含项tk; D =在其他类中不包含项tk的文档数每个特征在每个类别中被分配一个分数,如(3)中所述。然后,将所有这些分数与单个最终分数max(卡方(tk,ci))组合。(参见表2中的示例)。表1中显示了以下项的卡方值:桶、联盟、平等、叙利亚和研究人员,其中六个类使用(3)。例如,在班级体育中,“平等”一词的卡方值为709.373,而在所有其他类别中则要低得多。因此,这学期的最后分数是709.373,最后一门课是因此,最终得分用于以降序对所有属性进行分类,并选择最高的top(p)得分特征。5. 改进的卡方特征选择(ImpCHI)卡方检验法已经显示出很好的结果,但仍有一些局限性。例如,当使用卡方选择前20个属性时,每个类的属性数量往往会相应变化(见表3)。表3中每个类的属性分布不是文档数量的比例,因为20个属性中有9个属于在体育类中,20个属性中有11个属于商业类。因此,这些属性的分类肯定会受到影响。c2fci;<$cigt2ftk;<$tkg4.2. 互信息Ptωpc表4显示了使用卡方作为特征选择的前20个属性的每类分类率。表3和表4表明,属性数与f-测度之间存在相关性。这意味着属性的数量对分类精度有影响。结果显示,互信息是衡量变量之间依赖性的一种方法。able(a termtk and a categoryci),如果一个termtk的MI为零,那么一个termtk和一个categoryci是独立的。MI定义为(Mesleh,2011;Mestiani,2016):MI tClog Pt k; c i2Ptk ωPci4.3. 卡方卡方统计公式与信息理论特征选择函数有关,该函数试图捕捉这样的直觉,即类ci的最佳项tk是在类ci的正例和反例集合中分布最不同的项。N AD CB2卡方etk;ciA CBDABCD3当量(3)示出了卡方统计,其中:N =语料库中的文档总数,A =类ci中包含术语tk的文档的数量; B =其他类中包含术语tk的文档的数量;C =类ci中不包含术语tk的文档的数量。“体育类别”下的属性数目为9,f-量度为93.7%。“商业”类的属性数量为11,转换为87.6%的f-度量。在其他类别下没有发现任何属性尽管在这个类下没有属性,但是类“中东”和“科技”的f-度量值可以通过属于其他类的属性的卡方值来解释,并且也可以在经济学术语。例如,“平等”这个词既可以指“体育”,也可以指“中东”。表3使用卡方的每个类的前20个属性的数量类使用卡方检验业务11娱乐0中东地区0赛特0体育9世界0表2语料库中某些术语的卡方检验类Term桶式过滤器联系我们平等与平等叙利亚叙利亚研究人员业务254.8554.578117.85020.48623.273娱乐6.59815.45733.4300.0832.177中东13.6838.725125.399187.8263.209赛特3.60816.05935.52914.202555.922体育11.28636.742709.3738.20420.332世界15.843141.74264.00823.86126.331S. Bahassine等人/沙特国王大学学报229¼¼¼ ð Þ我们的算法的输入是术语文档矩阵M(n/w)dimension。 N表示文档的数量,W表示项(属性)的数量。条目N(ci):属于类别ci的文档的数量。输出:将使用选择p个相关术语(属性)ImpCHI)。为了弥补卡方问题,这导致了一些类下的属性,如在该算法的伪代码如下所示:算法D={d1,d2,d3,,dn} n个文档T={t1,t2,t3,,tw} w项(属性)的C={c1,c2,c3,,ck} k类集合(k =n)M={mij =tf-idf(di,tj)}数据矩阵P:为所有类别选择的相关项的数目N(ci):属于类别ci的文档的数目 chi:卡方(ti,ci)(参见等式3)L:三胞胎列表(ti,chi,ci)函数NumSelbyClass(p,ci)//ImpCHI将选择的属于类别ci的相关术语的数量returnround(p<$N(ci)//round(x)将x的元素舍入为最接近的整数。函数TermsSelbyClass(L,ci,p)//属于类ci的相关术语列表,将由ImpCHI选择。i= 0count = 0LT=[][]limite = NumSelbyClass(p,ci)while(countlimite)如果L[i][2]=ci,则LT = LT+L[i][0]count++endifi++endwhile表4使用ch-squqre和DT对前20个属性进行分类的结果类精度召回F-measure业务93.282.687.6娱乐000000中东4495.260.2赛特38.224.830.1体育90.297.493.7世界000000平均45.658.349表5使用impchi算法按类分布前P个相关属性100 600美元业务31699娱乐2956中东629173赛特21062体育31590世界420120总和2099600最后,选择前p个属性。如表5所示,使用ImpCHI的前p个相关属性的分布。表5中每个类别的属性分布是文档数量的比例。20个属性中有6个属于6. 结果和分析所选特征的值从20到1400不等,以便使用DT和SVM分类器对阿拉伯文文档分类进行前面提到的特征选择卡方、MI、IG和ImpCHI的影响的最佳比较使用常用的评价指标精确度、召回率和f-测量对结果进行比较,如下所述:查全率度量是检索到的数据中相关数据的比率。其定义如下:返回LT开始L=[][]Tr=[]//属于类别ci的相关项的列表,rtptpfn其中:tp:真阳性;fn:假阴性ð5Þ将由ImpCHI选出对于T中的每个tichi,ci = maxChiClass(ti,C)//chi是所有类的项ti的最大卡方,而//ci是给出卡方最大值的chi的对应类L = L+[(ti,chi,ci)]L= SortbyChi(L)//通过卡方值chi对L进行排序(三元组中的第二个元素)对于Ci,精度度量是准确数据在检索数据中的比率。其公式如下:ptp6TP-2000其中:fp:假阳性;系统的F度量定义为其精确度和召回率的加权调和平均值其定义如下:端Tr = Tr+ TermsSelbyClass(L,ci,p)F2 rprpð7Þ例如,使用ImpCHI算法选择前21个项(p = 20)。首先,计算每个术语和所有类别的卡方值。然后,maxChiClass(ti,C)被保持并且成为类cj的项(属性)(参见表2)。属于同一类的属性按卡方值排序。每个类的top(NumSelbyClass(p,ci))属性与属于同一类的文档的数量成比例。其中:r是在(5)中给出的召回率;p是在(6)中给出的精度选择属性数目的变化有利于分析四种特征选择方法和两种分类器在比较阶段的性能实验结果表明,当特征数小于60时,查准率、查全率和f-测度都有所下降,这可以解释为特征选择不足。230S. Bahassine等人/沙特国王大学学报表6、7和8示出了当使用SVM和DT分类器时,四种特征选择方法MI、IG、卡方和ImpCHI的精确度、召回率和f测量值的结果。实验结果表明,ImpCHI算法对大多数特征的选择性能优于其他特征选择算法表6显示了使用SVM和DT时不同特征选择方法的精度值可以看出,当使用SVM时,该方法的分类精度普遍高于其他方法,但当特征数超过900时,其平均分类精度为85.29%。当使用DT时, IG表现出最好的性能,最高精度值为79%,但对于不同尺寸的特征,所提出的方法的平均精度值为75.43%,而IG仅为74.37%。表7显示了使用SVM和DT分类器的四种特征选择方法的召回值。当使用SVM时,MI表现出最差的性能。该方法的召回率普遍高于其他方法,当特征数为900时,召回率最高可达90.50%。当使用DT时,当特征数量为300个特征时,召回率的最高值为79.50%。表8示出了MI、IG、卡方和使用SVM和DT分类器的所提出的方法的f测量值。当使用支持向量机时,当特征数在40 ~ 900之间时,该方法取得了较好的效果,最佳的f-measure值为90.50%,当特征数为900时,平均f-measure值为84.93%。当使用DT时,使用所提出的方法的f-measure的平均值为74.54%。另一个有趣的结果是,当ImpCHI与SVM分类器一起部署时,可以获得最高的准确率,召回率和f-度量。SVM分类器给出了更好的结果,在精度,召回率和f-措施相比,DT的所有特征选择在不同的特征大小,除了当特征的数量为20。然而,决策树提供了一个非输出的、易于解释的结果,它可以帮助我们识别出每个类的重要术语,而支持向量机是一个黑箱,很难解释结果。当特征数超过900时,IG特征选择取得了较好的效果,f-测度的最大值为89.50%,并且是在1000个特征时得到的。对于少量的特征,该方法不能选择最佳的属性,但当属性的数量增加时,该方法获得更好的结果。MI 特征选 择随着所选 特征的数量 而增加。f- 测度的 最高值为83.50%,平均值为51.28%。与其他使用SVM和DT分类器的特征选择相比,它获得了最差的值。ImpCHI特征选择在特征数为40 ~ 900时取得了较好的效果,f-测度的最佳值为90.50%,是针对900个特征得到的。与阿拉伯语文本分类的十六个特征选择相比,卡方(Mesleh,2011)实现了最佳的f度量,但与ImpCHI相比,卡方并没有给出最佳结果所提出的方法的平均值实现了更好的性能,与f-measure的平均值相比增加了10.52%(Bahassine等人, 2017年,使用相同的语料库。表6SVM和DT分类器的精度值与四个FS在不同大小的功能。分类器FS204010030050070090010001400AvgDT卡方45.6063.4072.7075.4074.7076.0073.3073.4074.6069.90IG61.3070.0076.8079.0078.8076.0075.9076.4075.1074.37ImpCHI70.8074.9076.7078.9075.2076.0076.5074.9075.0075.43MI15.6015.6037.8048.7074.4074.5074.5077.8074.2054.79SVM卡方53.7070.0080.7087.2088.4088.8088.1088.1087.6081.40IG68.0074.5082.3087.3087.3088.9088.8089.7089.2084.00ImpCHI69.7078.6083.8088.9088.9089.4090.8089.3088.2085.29MI16.9017.7042.3065.5079.3082.0081.0081.2084.5061.16表7在不同的特征尺寸下,使用四个FS的SVM和DT分类器的召回值分类器FS204010030050070090010001400AvgDT卡方58.3066.2073.0076.8074.5075.7074.3074.4074.2071.93IG61.4071.2077.4079.5078.4076.4076.1076.4074.5074.59ImpCHI70.4075.7077.6079.4076.0076.1076.0074.6074.9075.63MI30.1030.1040.6055.4068.6072.2071.6074.2073.9057.41SVM卡方57.7066.9079.3087.3088.2088.6088.4088087.7081.34IG65.1074.9082.1087.1087.6089.0088.9089.7089.2083.73ImpCHI68.0079.1084.1089.0088.9089.5090.5089.2088.2085.17MI29.9029.9041.0057.6069.7074.7076.7079.4084.4060.37表8F-测量SVM和DT分类器在不同特征大小下的四个FS的值分类器FS204010030050070090010001400AvgDT卡方49.0061.8072.5075.7073.9073.6072.3072.4073.3069.39IG59.3070.4076.6079.1077.8074.2073.9074.2073.3073.20ImpCHI69.6075.0076.5078.1074.5075.1074.0073.8074.3074.54MI15.3015.3030.8047.3065.7071.5070.4072.2073.0051.28SVM卡方47.0062.6079.4087.2088.2088.5088.1087.8087.5079.59IG62.1074.7082.2087.0087.2088.8088.6089.5089.0083.23ImpCHI67.3078.5083.8088.9088.9089.4090.5089.1088.0084.93MI15.0015.0031.2051.1067.5073.2074.7077.6083.5054.31S. Bahassine等人/沙特国王大学学报231在不同尺寸的特征上,选择对所有特征选择总是最有效的特征选择并不容易。然而,ImpCHI大多是最好的一个。基于这些发现,可以推断,ImpCHI算法和SVM分类器显着提高阿拉伯语文本分类的精度,召回率和f-measures方面的分类准确率。7. 结论本研究报告了一种改进的特征选择算法结合决策三在一个时间间隔和SVM在另一个时间间隔的文本分类的结果,并比较了这种方法的影响与文本分类的结果卡方,MI和GI。实验结果表明,使用ImpCHI和SVM进行文本分类比使用卡方,MI和GI取得了更好的结果。在未来的研究中,我们将尝试将此方法应用于其他语言的数据,以提高我们的改进算法的通用性。此外,我们将尝试推广其他特征选择算法中的每个类的属性平衡的概念。引用Al-Anzi,F.S.,AbuZeina,D.,2017.使用余弦相似度和潜在语义索引增强阿拉伯语文本分 类 。 J.KingSaudUniversity. 告 知 。 Sci.295 ( 2 ) , 189-195 。https://doi.org/10.1016/j的网站。jksuci.2016.04.001网站。Alghamdi,H.M.,Selamat,A.,2019.阿拉伯语网页聚类:一个评论。J King SaudUniversity ( 英 语 : J King Saud University ) 告 知 。 Sci. 31 ( 1 ) , 1-14 。https://doi.org/10.1016/j的网站。jksuci.2017.06.002网站。Al-Shalabi 河 , Evens , M. , A Computational Morphology System for Arabic ,in : the Proceedings of the Workshop on Computational Approaches toSemiticLanguages , Montreal , Quebec , Canada , 1998. 电 话 :10.3115/1621753.1621765Attia,N.,Dongoul,Z.,哈达角,2016.用于阿拉伯语根提取和文本分类的有理核函数。J.KingSaudUniversity.告知。Sci.28(2),157-169。https://doi.org/10.1016/j.jksuci.2015.11.004网站。Ayedh,A.A.,uanzheng,T.,TAN,A.,Alwesabi,K.,Rajeh,R.H.,2016.预处理对阿拉伯文文献分类之影响。算法9(2). 网址://doi. org/10.3390/a9020027。Bahassine,S.基西湾Madani,A.使用特征选择和决策树进行阿拉伯语文本分类的新词干200-205.Bahassine,S.,Madani,A.,基西,M.,2016年。A improved Chi-sqaure featureselection for Arabic text classification using decision tree,第11届智能系统国际穆罕默德,1-5。https://doi.org/10.1109/SITA.2016.7772289网站。Bahassine,S.,Madani,A.,基西,M.,2017.使用新词干分析器进行特征选择和决策树的阿拉伯语文本分类。J. Eng. Sci. Technol.12(6),1475-1487.Baraa,S.,Nazlia,O.,Zeyad,S.,2014.一种基于频率比累积的阿拉伯文文本自动分类方法。Int. Arab J. Inform. Technol.11(2),213- 221.Barigou,F.,2016.提高了k-最近邻算法在文本分类中的效率。 Neu. Network World 26(1),45-65. https://doi.org/10.14311/Nnw.2016.26.003网站。Boudchiche,M.,Mazroui,A.,Ould Abdallahi,O.B.,Lakhouaja,A.,Boudlal,A.,2017. AlKhalilMorpho Sys 2:一个强大的阿拉伯语形态句法分析器。 J. King Saud University.告知。Sci.29(2),141-146。 https://doi.org/10.1016/j。jksuci.2016.05.002网站。W. Cherif,A.马达尼湾Kissi,建立一个基于语法规则的词干来提高阿拉伯语的搜索效率,在:第九届智能系统国际会议:理论与应用(SITA),(2014)页。1-6.doi:10.1109/SITA.2014.6847295Cherif,W.,Madani,A.,基西,M., 2015. 一种新的基于规则的阿拉伯语词干提取算法。《 国 际 知 识 工 程 杂 志 》 , 数 据 最 小 值 3 , 315-336 。 网 址 : //doi.org/10.1504/IJKEDM.2015.074082。Cherif,W.,Madani,A.,基西,M.,2016.一种混合最优加权方案和机器学习用于渲染推文中 的 情 感 。 Int. J. Intell. 工 程 师 通 知 。 ( IJIEI ) 4 ( 3/4 ) , 322-339.https://doi.org/10.1504/IJIEI.2016.0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功