没有合适的资源?快使用搜索试试~ 我知道了~
基于余弦相似度和潜在语义索引的阿拉伯语文本分类
沙特国王大学学报基于余弦相似度和潜在语义索引法瓦兹湾迪亚?阿布扎伊纳?安齐科威特大学计算机工程系,科威特阿提奇莱因福奥文章历史记录:2015年11月4日收到2016年3月28日修订2016年4月2日接受2016年4月8日在线发布保留字:阿拉伯语文本分类监督学习余弦相似度潜在语义索引A B S T R A C T余弦相似度是文本分类问题中最常用的距离度量之一。在本文中,我们使用这个重要的措施,以调查阿拉伯语文本分类的性能。对于文本特征,通常使用向量空间模型(VSM)作为将文本信息表示为数值向量的模型。然而,潜在语义索引(LSI)是一种更好的文本表示技术,因为它保持了单词之间的语义信息。因此,我们使用奇异值分解(SVD)方法提取基于LSI的文本特征。在实验中,我们对一些著名的分类方法,如朴素贝叶斯,k-近邻,神经网络,随机森林,支持向量机和分类树进行了比较。我们使用的语料库包含10个主题的4,000个文档(每个主题400个文档)。语料库包含2,127,197个单词,其中约139,168个单词是唯一的。测试集包含400个文档,每个主题40个文档。作为一个加权方案,我们使用词频.逆文档频率(TF.IDF)。这项研究表明,使用LSI功能的分类方法显着优于TF。最后,本文还指出,基于余弦测度的k-近邻分类器和支持向量机是性能最好的分类器。©2016作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍最近,阿拉伯语文本分类(TC)得到了广泛的研究。Manning和Schütze(1999)将文本分类定义为根据文本内容将文本分类到预先指定的类别集合中的一个类别的任务。根据Albertiani(2002)的观点,文本分类是用预定义的主题类别对自然语言文本进行标记的活动。在大数据环境下,研究人员一直在努力解决这个巨大信息时代的文本分类问题。随着文本搜索业务的大量增长,需要有效的算法来满足有效的检索时间和相关性约束。在当今的市场中*通讯作者。电 子 邮 件 地 址 : fawaz. ku.edu.kw ( F.S.Al-Anzi ) , abuzeina@ku.edu.kw(D.AbuZeina)。沙特国王大学负责同行审查吸引商业投资。搜索引擎,例如, Google和其他高流量查询处理门户网站,有望满足和满足当今用户的需求。监督机器学习(ML)方法被广泛用于文本分类。最流行的机器学习算法包括朴素贝 叶斯(NB)、k-最近邻(k-NN )、支持向量机(SVM)、神经网络(NN)、分类树(CT)、逻辑回归(LR)、随机森林(RF)和最大熵(ME)。此外,相似性或距离度量也被用于文本分类以及一些分类器的基础。例如,k-NN算法使用相似性函数(诸如欧几里德距离或余弦相似性)来寻找邻居,TorunogJ.S.Lu等人。(2011年)。在文本分类问题中,大的特征集是一个挑战,应该处理以获得更好的性能。因此,利用特征约简技术对于有效地表示文本特征是重要的。Harrag和Al-Qawasmah(2010)提出了许多降维技术,例如基于根的词干提取、光词干提取和奇异值分解(SVD)。在这项工作中,我们使用SVD作为一个功能减少技术,以及产生语义丰富的功能。SVD是一种线性代数方法,用于截断潜在语义索引(LSI)产生的术语-文档矩阵,LSI是一种很好的http://dx.doi.org/10.1016/j.jksuci.2016.04.0011319-1578/©2016作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com190F.S. Al-Anzi,D.AbuZeina/沙特国王大学学报已知索引和检索方法。尽管向量空间模型(VSM)被广泛用于文本特征表示,但它是一种语义损失,而LSI-SVD的特点是保持语义信息。Rosario(2000)表明,SVD可以用于基于LSI(具有单词选择的底层结构)来估计文档中单词使用的结构。Kantardzic(2011)指出,LSI在文本分类中使用时会产生更好的结果,因为它可以更好地表示文档本文共分两部分。首先,使用LSI-SVD技术生成包含4000个文档的语料库的文本特征。然后使用生成的特征以及余弦相似性度量对测试集文档进行分类。第二,为了比较的目的,采用了一些分类方法。分类器包括NN、NB、k-NN、SVM、RF、CT、LR和CN 2(归纳规则)。在实施中Gensim是一个用于自然语言处理(NLP)的Python库,而Orange是一个用于数据可视化和分析的开源机器学习工具。在下一节中,提出了一个文学评论在第3节中,我们介绍了奇异值分解,然后在第4节中介绍了余弦相似性的理论背景。实验设置见第5节,结果见第6节。最后,在第7节中给出了结论和未来的工作。2. 文献综述余弦相似性度量在模式识别和文本分类中有着广泛的应用。例如,Nguyen和Bai(2011)使用余弦相似性度量进行人脸验证。在这项工作中,重点将是余弦测度的语言应用。在这些应用中,Silber和McCoy(2002)使用余弦度量进行文本摘要。El Gohary等人(2013)使用余弦测度来检测阿拉伯语文本中的情感。Takçaise和Güngör(2012)指出,余弦是语言识别问题中常用的相似性度量。Sobh等人(2006年)使用余弦度量进行阿拉伯语文本摘要。Roberts等人(2005)使用余弦相似性阿拉伯语的统一03 The Dog of the Dog(1994)使用余弦测量阿拉伯书目数据的索引和检索过程。Lin和Chen(1996)使用余弦方法从汉英书目数据库中提取概念描述符(术语或关键词)。Elberrichi和Abidi(2012)指出余弦相似性在信息检索(IR)和文本分类中占主导地位。对于阿拉伯语文本分类领域,文献中提出了各种特征提取和分类方法,如表1所示。在这个表中,TF.IDF是词频逆文档频率的简写,这是众所周知的文本特征权重方案。TF.IDF是两部分的组合,(TF:文档中单词的频率,IDF:整个文档中单词频率的倒数)。ANSI是美国国家标准协会的缩写。即使LSI是词的语义的一个强大的特征表示因此,作出了努力,以解决这一缺陷,利用语义信息的阿拉伯文文本分类。余弦相似性度量被选择用于分类过程。表1中突出显示的单元格表明,只有两项研究工作与本研究(LSI和余弦)具有相同的范围。然而,第一项工作,即弗劳德等人。(2013)是针对文档聚类进行的,而我们提出的研究是针对文本分类。此外,我们使用了一个包含4000个文档的更大的数据集,而他们使用了278个文档。我们还比较了使用八个知名分类器的结果以及探索大规模集成电路的性能使用范围广泛的秩近似。关于其他工作,即Harrag和Al-Qawasmah(2010),他们使用NN进行分类,而我们使用余弦相似性度量。由于这项研究展示了不同文本分类算法的比较研究,我们提出了文献中发现的监督机器学习算法之间的比较。表2显示SVM在阿拉伯语文本分类方面优于大多数分类算法。表2中所示的信息被安排为研究者、所使用的分类器、最佳性能分类器和语料库大小。然而,表2中提供的信息并不是判断性的,因为我们同意Ratiani(2002)的观点,即只有当它们基于同一作者在仔细控制的条件下进行的实验时,所示的比较才是可靠的。表1阿拉伯语文本特征和分类器摘要。参考特征分类器Syiam等人(2006),Thabtah et al.(2008),Gharib et al.(2009),Hmeidi et al.(2008),Ababneh et al.(2014),Kanaanet al. (2009),Duwairi(2007),Zrigui et al.(2012年)、Moh 'd Mesleh(2011年)、TF.IDFk-NNElberrichi和Abidi(2012)ANSI03 The Dog(2008)Syiam等人(2006年)、Gharib等人(2009年)、Omar等人(2013年)、Kanaan等人(2009年)、MohJbara(2010)、Larkey等人(2004)、Al-Eid等人(2010)、Alghamdi和Selamat(2012)、Ezzat等人(2012)、Al-Kabi和Al-Sinjilawi(2007)、Erkan和Radev(2004)TF.IDF余弦Froud等人04 The Famous(2013)Gharib等人(2009年)、Omar等人(2013年)、Hmeidi等人(2008年)、Al-Shargabi等人(2011年)、Zrigui等人(2012年)、Alsaleem(2011年)、Khorsheed和Al-Thubaity(2013年)、Hadni等人(2013年)、Moh'dMesleh(2011年)、Al-Shammari(2010年)、Harrag等人(2012年)、(2009),Raheel等人(2009年),TF.IDF SVMAl-Harbi等人03 The Dog(2008)Al-Kabi和Al-Sinjilawi(2007年),Duwairi(2007年)TF.以色列国防军Dice距离Gharib等人(2009年)、Omar等人(2013年)、Al-Shargabi等人(2011年)、Al-Kabi和Al-Sinjilawi(2007年)、Kanaan等人(2013年)、(2009)、Duwairi(2007)、Zrigui等人(2012)、Alsaleem(2011)、Khorsheed和Al-Thubaity(2013)、Hadni等人(2013)、(2013)、Moh'd Mesleh(2011)、Al-Shammari(2010)、Harrag等人(2009)、Raheel等人(2011)、(2009年),TF.以色列国防军Al-Shargabi等人(2011)、Khorsheed和Al-Thubaity(2013)、Harrag等人(2009),Raheel等人(二零零九年)TF.IDFCTAl-Harbi等人(二零零八年)卡方Harrag等人(二零零九年)TF.IDF我Harrag和Al-Qawasmah(2010)LSINNF.S. Al-Anzi,D.AbuZeina/沙特国王大学学报191i¼1i1/1我表2阿拉伯文文本分类的性能比较研究人员分类器最佳分类器语料库大小(文档,猫)Al-Shargabi等人(2011年)NB、SVM和CTSVM2356,6Zrigui等人(2012年)SVM、NB和k-NNSVM1500,9Gharib等人(二零零九年)k-NN、NB和SVMSVM1132,602 The Dog(2011)NB和SVMSVM5121,705 The Dog(2013)SVM、NB和CTSVM2个语料库:Hadni等人(二零一三年)NB和SVMSVM伊斯兰诗歌四一五,十二02 The Dogk-NN,SVM,NB,RocchioSVM小行星7842,1003 The Dog(2010)NB和SVMSVM2966,3Hmeidi等人(二零零八年)k-NN与SVMSVM2066年,2Raheel等人(二零零九年)NB、SVM和CTSVM6825,7Harrag等人(二零零九年)NB、CT、SVM和MECT2个语料库:350,8280,14Al-Harbi等人(二零零八年)SVM和CTCT七个语料库05 The Dog(2007)余弦、NB和欧几里得NB八十,十二Kanaan等人(二零零九年)k-NN、NB和RocchioNB1445,903 The Dog(2007)NB,k-NN和距离NB一千,十Harrag等人(二零零九年)NB、CT、SVM和MECT2个语料库:350,8280,14也就是说,没有一种学习算法对于所有问题和数据集都是普遍最好的。3. 奇异值分解一般来说,Salton和Buckley(1988)提出的向量空间模型可以用来对文本分类特征进行建模。在VSM中,矢量4. 余弦相似度度量这项工作的目的是研究余弦测量作为阿拉伯语文本分类的最流行的机器学习方法之一的性能。更准确地说,我们评估了余弦相似性对NN,NB,k-NN,SVM,RF,CT,LR和CN 2规则的性能。狄奥多罗和库特鲁巴斯文档的内容被表示为(二零零八年)限定余弦相似性测量为S余弦 x;y一个字对应一个独立的维度。一般来说,el-向量的分量是词的重要性的权重其中,kxk< $$> qPlx2和kyk<$qly2是在文件中。权重可以使用二进制值来表示,以指示单词的存在或不存在。可以采用其他表示法,例如n-gram、关键字或更长的句子,Zriguiet al.(2012)。显然,VSM表示具有巨大的特征向量,应仔细考虑以避免硬件限制、软件能力和计算时间复杂性。在这项工作中,我们使用LSI和SVD的方法,开发,以提高IR技术的准确性和有效性。LSI专注于在一系列使用上下文中单词的语义含义,而不是使用简单的字符串匹配操作,Kantardzic(2011)。LSI已经被用于许多自然语言处理应用,例如搜索引擎、Carpineto等人的研究。(2009),以及其他领域,如数字图像处理,Andrews和Patterson(1976)。使用LSI和SVD分解技术的目的是找到术语和文档之间的关系。也就是说,LSI生成一个term_by_document矩阵,该矩阵被数学分解以识别非结构化文本中概念和文档之间的语义相关性,当然没有信息损失(或损失最小)。SVD是基于线性代数的一个定理,该定理说,一个矩形m×n矩阵A可以分解为三个矩阵的乘积该定理通常表示为:Amn=UmmSmnVT nn。图1展示了降秩SVD。U、S和VT的阴影区域中的粗体K表示在计算秩k近似时保留的值。有许多免费的和商业的软件可用于相关的大规模集成电路。我们最初使用MATLAB来分解term_by_document。但由于硬件的限制,我们采用了Genism,它的特点是高效,使用记忆。分别是向量x和y。x和y都是一维向量tors. 由于余弦测度对于稀疏向量具有易于解释和计算简单的优点,因此它被广泛应用于文本挖掘和信息检索中,Dhillon和Modha(2001)。余弦相似性也可以由两个向量之间的角度或角度的余弦来定义这允许具有相同组成但不同总数的文档被相同地对待,这使得它成为文本文档最流行的度量,Strehl 等人。(2000 年)的第10/2000号决议。5. 实验设置本节介绍了两个小节,数据集和提出的方法。5.1. 数据集我们创建了一个包含4000个文档的语料库,这些文档属于10个不同的类别。该语料库包含2,127,197个单词,其中包括超过139,168个独特的单词。我们从科威特的Alqabas报纸(“Alqabas”,2016年)获得了这些文件表3显示了所用语料库的统计数据。测试集包含400个文档,每个类别40个文档因此,准备好的语料库中的总文档是4400个文档。5.2. 该方法使用以下算法总结所提出的方法:步骤1:对于整个语料库(4000个用于训练的文档和400个用于测试的文档),执行预处理步骤以XTy192F.S. Al-Anzi,D.AbuZeina/沙特国王大学学报测试数据集训练数据集TF.以色列国防军计结果余弦测度大规模集成电路计算预处理n●~表3语料库和类别分布。#类别#医生。#单词#独特的词1健康400218,21429,5742经济400181,36629,4433犯罪和法院400172,14529,4164教育400259,12737,5155技术400209,31936,1036体育400168,93429,5687旅游400270,14240,4888伊斯兰教和沙里亚400242,94345,8439议会400182,50331,18310政治事务400222,50437,649总40002,127,197346,782**整个语料库中的唯一词总数为139,168。为分类过程准备文本。因此,清理文本有以下三个步骤:声明非索引字列表是为了删除不重要的字。这些词很普通,没有区别意义。非索引字列表包括几乎所有文档中的单词,例如报纸的名称,文档的来源,文档的序列号等。指定忽略字符。它们包括{,@,#,£,€,$,%,°,^&,,*,(,),-,_,+,=,»,«,{,},[,],|、,/,:,;,0,1,2,3,4,5,6,7,8,9}。因此,任何包含一个或多个列出的忽略字符的单词都将被编辑以删除这些字符。对于语料库中的所有文档步骤2:使用Python,使用Gensim库生成TF.IDF特征和LSI特征,步骤如下:创建包含所有单词的字典使用字典中的信息和文档字数将文档转换为向量使用TF. IDF对向量进行加权。每个加权向量中的特征数量与通过所有过滤过程(即非索引字列表)后的文档中的单词数量相同。LSI向量(特征)使用TF.IDF向量创建。每个LSI向量中的特征数量是用于LSI变换的k步骤3:使用上一步骤中生成的TF、IDF特征和LSI特征来测量性能。使用余弦相似性度量来执行分类。选择秩k近似(一个合适的奇异值)。因此,应研究不同的k值以找到最佳性能。Bradford(2008)指出,对于真实语料库,推荐目标维度(k)为200-500作为“黄金标准”。这一步的分类过程类似于k-NN分类器,它寻找待测试文档与所有训练文档之间的相似性。k-NN分类器找到k个最近的文档,但余弦相似性分类器返回最近文档的标签(即k= 1)。Gensim有助于将余弦相似性用于TF、IDF和LSI特征。第4步:使用Orange工具测量LSI特性的性能。使用以下分类器执行分类:{NN、NB、k-NN、SVM、RF、CT、LR和CN 2规则}。步骤5:使用混淆矩阵评估性能,以找到性能指标,如准确率,精确率,召回率,图1. 文档项矩阵的SVD表示。F1测量F1 = 2((precision * recall)/(precision + recall))。Sokolova和Lapalme(2009年)对这些措施进行了全面审查。图2以可视化形式示出了所提出的方法。图中还用余弦测度对TF、IDF特征和LSI特征进行了比较.然后,LSI功能将使用所有提出的分类器,包括余弦测量进行比较。6. 实验结果在本节中,给出了实验结果在进行任何实验之前,应设置三个参数。第一个是秩k近似(对于LSI情况)、小单词阈值和单词频率阈值。对于小单词,可以删除任何小于特定字符长度的单词此选项提供了删除文本中单个字符的选择,例如“”字符“事实上,忽略小词将摆脱许多NNNBk-NNSVMRFCTLRCN2图2. 所提出的方法的框架。表4余弦分类器的性能●●●●●●特征准确度(%)秩-k词频小词TF.IDF67.25没有必要11LSA82.504611F.S. Al-Anzi,D.AbuZeina/沙特国王大学学报193常见的单词,如{},使用Google(“Google”,2016)翻译为:{to,in,on,of}。然而,许多其他小词被认为是某些类别的关键短语,例如:{艺术,足球,血液,银行,石油}。然而,实验结果表明,这种丢弃在某些情况下会提高性能,如本节所示(表4)。关于词频,它是每个词在整个语料库中出现的次数。例如,可以选择出现多次的任何单词作为特征实体;否则,该单词将不会被选择。这一点很重要,原因有两个:SVD可以找到单词之间更好的相关性,因此单个单词没有相关性。另一个原因是删除通常出现一次的错别字。结果分为两个部分:第一部分是基于TF、IDF和LSI特征的余弦分类器,第二部分是余弦分类器与其他分类器的比较。6.1. TF、IDF和LSI特性在这个实验中,我们使用余弦相似度来衡量TF,IDF和LSI特征的分类性能。所需参数设置如下。词频阈值设置为1(删除仅出现一次的单词)。小单词阈值设置为1(删除一个字符长度的单词,小于或等于此阈值)。对于秩k近似,选择一个范围以使用不同的k值找到最佳性能。范围选择为从10、12、14、. 到100。图3显示,在k= 46时达到最佳精度。k= 46被视为基线,并在下一小节中将余弦分类器与其他列出的分类器进行比较时使用。在k= 46时,基于LSA特征的准确度得分为82.5%。对于TF.IDF性能,使用相同的参数(即词频阈值= 1,小词阈值= 1,TF.IDF不需要要求k值),TF.IDF的准确率为67.25%,如表4所示。研究LSI是否显著优于TF。IDF;使用Plötz(2005)置信区间[el,eu]必须计算为图3.不同奇异值的精度。图4.置信区间计算公式。首位. 图4显示了如何找到置信区间。N设置为值400,即测试集中的文档数。如果改变的分类错误率在置信区间之外,则这些改变可以被解释为具有统计学显著性。否则的话,多半是偶然造成的。我们使用95%作为置信水平。我们还使用了TF.IDF方法的错误概率,如表4中报告的32.75%(100由于我们使用95%作为置信水平,因此z等于标准正态分布的1.96。它可能被解释为标准正态变量z落在-1.96和1.96置信区间为[32.75%- 4.42,32.75%+ 4.74]?[28.33%,37.49%]。由于使用LSI方法的错误概率为17.5%(100-为了研究小词去除的效果,我们在k= 46处进行实验,小词阈值被设置为不同的值{2,3,4,5,6,7,8},如表5所示。表中的第一行条目是小词阈值的基线设置。词频阈值设定为1。结果见表5。表5显示,在TF.IDF的情况下,当删除小于或等于6个字符的小词时,通过删除小词然后,它减少了许多被删除的单词。在LSI的情况下,存在诸如去除小于或等于2、4和5的字的性能提高的一些情况。表5中提供的信息表明,在获得更好性能的同时,可以丢弃大量的小词。在小于或等于五个字符(65)的情况下,1,339,592个小词被以更好的表现被淘汰事实上,这是非常在所提出的方法中,时间复杂度是重要的,因为时间复杂度在训练集的大小上是线性的,这对于大数据集的缩放很差可以进行更多的研究,以找到丢弃如此大量的噪声时的最佳性能。6.2. 使用不同分类器的LSI性能在本节中,比较了余弦分类器与其他八个分类器{NN、NB、k-NN、SVM、RF、CT、LR和CN 2规则}之间的性能。LSI特性用于本评价。余弦分类器的性能已经使用Gensim获得,如前一小节所示。橙色工具用于其他分类器。图5示出了具有实现的分类器的Orange工具的快照。在实验中,我们使用的准确性作为性能指标。由于测试数据集具有相同数量的文档(即每个类40个),因此准确度和F-1度量值将相等。因此,使用准确度,它只是正确预测的观测值与实际观测值的数量表5删除小单词的表现。194F.S. Al-Anzi,D.AbuZeina/沙特国王大学学报86848280787674123456789 10 11 12 13 14 15k近邻图6. 不同k值下k-NN的性能.表6图5. 橙色工具的快照。表7中所示的k-NN性能是使用曼哈顿距离(k= 10个邻居)测量的。发现曼哈顿距离比其他距离测量(如欧几里德、汉明和最大值)实现更好的性能。然而,由于本研究主要集中在余弦相似性度量,我们进行了更多的研究基于余弦度量的k- NN的性能。Orange和Weka(“Weka”,2016)工具都没有因此,我们使用了RapidMiner(RapidMiner,2016)机器学习工具,该工具被发现可以提供此选项(即具有余弦测度的k-NN)。因此,在k-NN分类器中使用不同的k值来测量性能。图6示出了使用基于余弦测量的k-NN实现的精度。结果发现,比其他措施,如曼哈顿表7分类器的性能分类器准确度(%)支持向量机84.75余弦82.50LR 81.25k-NN 77.25尼泊尔卢比76.75RF 74.75NB 65.26CT 54.00CN2 47.25距离测量,这是最好的使用橙色工具。在图6中,k= 7时的最高准确度为84.5%。我们还使用RapidMiner工具重新研究了SVM的性能,发现其为84.5%(与使用Orange工具实现的准确率84.75%几乎相同)。因此,我们的研究结果表明,基于余弦测度的k-NN获得了与支持向量机(强大的分类方法)相同的准确性。7. 结论和今后的工作本文表明,余弦相似性度量是一个很好的选择,可以考虑阿拉伯语文本分类。 它还提供了八个文本分类词的显著性检验我们使用以下参数进行比较:{词频= 1,小字长= 1,k= 46}。表6显示了SVM分类器优于所有其他遵循余弦度量的分类器使用余弦精度计算置信区间,结果为[14.09,21.53]。表7显示SVM在置信区间内,这意味着从统计学的角度来看,余弦和SVM和LR具有相同的性能因此,表7中的阴影分类器被发现得分最好的性能。分类方法实验结果表明,支持向量机分类器和基于余弦测度的k-NN分类器具有相近的分类性能.作为一个未来的发展方向,我们建议研究的性能,多层次和多标签阿拉伯语文本分类。 我们还建议研究特征约简方法,如我们在本研究中提出的(小词阈值)和加权方案。致谢这项工作得到了科威特科学促进基金会(KFAS)的支持,研究资助号为P11418 EO 01,科威特大学研究管理研究项目编号为EO 06/12。引用Ababneh,J.,Almomani,O.,Hadi,W.,El-Omari,N.K.T.,Al-Ibrahim,A.,2014.矢量空间模型对阿拉伯文本进行分类。国际计算机Trends Technol.(IJCTT)7(4),219-223.Al-Eid,R.M.B.,Al-Khalif,R.S.,Al-Salman,A.S.,2010.衡量Twitter中阿拉伯语文本内容的可信度。2010年第五届数字信息管理国际会议(ICDIM)。IEEE,pp. 285-291。准确度(%)F.S. Al-Anzi,D.AbuZeina/沙特国王大学学报195Alghamdi,H.M.,Selamat,A.,2012年。 使用改进的向量空间模型在阿拉伯语黑暗网站中进行主题检测。2012年第四届数据挖掘与优化会议(DMO)。IEEE,pp. 6比12Al-Harbi,S., Almuhareb,A., Al-Thubaity,A., Khorsheed,M., Al-Rajeh,A.,2008年阿拉伯文文本自动分类。In:JADT;08,France,pp.77-83号。Al-Kabi,M.,Al-Sinjilawi,S.,2007.阿拉伯语文本分类不同方法效率的比较研究。Univ. 沙迦河纯应用Sci. 4(2),13-26.Al-Kharashi,I.A.,Evens,M.W.,1994.阿拉伯语信息检索系统中作为索引词的词、词干和词根的比较。J. Am.社会信息科学45(8),548- 560。Alqabas,2016,January.检索自.Alsaleem,S.,2011年。使用SVM和NB的阿拉伯文文本自动分类Int.ArabJ.e-Technol. 2(2),124Al-Shalabi河,奥贝达特河,2008年用基于n-gram的文档索引改进KNN阿拉伯语文本分类.在:第六届国际会议信息学和系统,开罗,埃及,pp. 108比112Al-Shammari,E.T.,2010.改进阿拉伯文文档分类:引入本地词干。2010年第十届智能系统设计与应用国际会议(ISDA)IEEE,pp. 385-390.Al-Shargabi,B.,Al-Romimah,W.,Olayah,F.,2011年。基于停用词消除的阿拉伯语文本分类算法比较研究。2011年智能语义Web服务和应用国际会议论文集。^Margaret,p. 十一岁安 德 鲁 斯 , H.C. , 帕 特 森 , C.L. , 1976. 奇 异 值 分 解 与 数 字 图 像 处 理 。 IEEETrans.Acoustics Speech Signal Process. 24(1),26-53。布拉德福德,RB,2008年大规模潜在语义索引应用所需维度的实证研究。第17届ACM信息与知识管理会议论文集。ACM,pp. 153-162.Carpineto,C., Osin'ski,S.,罗 马 诺湾,Weiss ,D.,2009 年 Web集群引擎综述。ACM计算监视器(CSUR)41(3),17.迪隆岛Modha,D.S.,2001.利用聚类对大型稀疏文本数据进行概念分解。马赫学习. 42(1-2),143-175。Duwairi,R.M.,2007.阿拉伯文文本分类。Int. Arab J. Inf. Technol. 4(2),125- 132.El Gohary,A.F.,苏丹,T. I.,Hana,文学硕士,小伊妈妈2013.一种用于分析和检测阿拉伯语文本中情感的计算方法。Int. J. Eng. Res. Appl.(IJERA)3,100-107.Elberrichi,Z.,Abidi,K.,2012.阿拉伯语文本分类:不同表示模式的比较研究。Int.Arab J. Inf. Technol. 9(5),465-470.Erkan,G.,Radev,D.R.,2004. LexRank:基于图的词汇中心性作为文本摘要中的显着性。J.Artif.内特尔结果:四五七至四七九Ezzat,H.,Ezzat,S.,El-Beltagy,S.,Ghanem,M.,2012. Topicanalyzer:一个无监督的多标签阿拉伯语主题分类系统。2012年信息技术创新国际会议(IIT)。IEEE,pp.220- 225弗劳德,H.,Lachkar,A.,Ouatik,S.A.,2013.基于潜在语义分析的阿拉伯语文本摘要增强阿拉伯语文档聚类。arXiv预印本arXiv:1302.1612。Gensim,2016,January.检索自https://radimrehurek.com/gensim/>。T.F. Gharib,Habib,M.B.,法耶德,Z. T.,2009.基于支持向量机的阿拉伯语文本分类。Int. J. Comput. Appl. 16(4),192-199。谷歌翻译,2016年1月。检索自https://translate.google.com/>。Hadni,M.,Ouatik,S.A.,Lachkar,A.,2013.一种基于阿拉伯语词干分析器的阿拉伯语文本分类方法。国际数据最小知识管理杂志过程(IJDKP)3.Harrag,F.,Al-Qawasmah,E.,2010.基于SVD的神经网络阿拉伯语文本分类算法研究JDIM 8(4),233-239.Harrag,F.,El-Qawasmeh,E.,Pichappan,P.,2009.使用决策树改进阿拉伯文文本分类。在:第一届网络数字技术国际会议,2009年,NDT'09。IEEE,pp. 110- 115赫梅迪岛Hawashin,B.,El-Qawasmeh,E.,2008. KNN和SVM分类器在全词阿拉伯语文章上的性能。Adv. Eng. 告知。 22(1),106-111。Jbara,K.,2010.使用文本分类算法的Al-Hadith知识发现。J. Am. Sci. 6(11),409-419.Kanaan,G.,Al-Shalabi河,Ghwanmeh,S.,Al-Ma'adeed,H.,2009.应用于阿拉伯语文本的文本分类技术的比较。J. Am. Soc. Inform. Sci. Technol.60(9),1836-1844。Kantardzic,M., 2011. 数据挖掘:概念、模型、方法和算法。约翰·威利父子公司Khorsheed,M.S.,Al-Thubaity,A.O.,2013.使用大量不同阿拉伯语数据集的文本分类技术的比较评估。朗资源Eval. 47(2),513-538。L.S.的Larkey,Feng,F.,中国农业科学院,康奈尔,M.,Lavrenko,V.2004年多语言主题跟踪中的特定于文档的模型。第27届国际ACM SIGIR信息检索研究与发展会议论文集。ACM,pp. 402- 409Lin,C.H.,陈洪,1996.多语种(汉英)文献概念检索和分类的自动标引和神经网络方法。IEEE Trans.系统人Cybern。B部分:Cybern。 26(1),75-88。哥伦比亚特区曼宁Schütze,H.,1999.统计自然语言处理基础。麻省理工学院出版社.Moh'd Mesleh,A.,2011.阿拉伯文文本分类的特征子集选择度量。模式n。Lett. 32(14),1922-1929年。Nguyen , H.V. , 巴 伊 湖 , 2011 年 。 余 弦 相 似 度 学 习 在 人 脸 验 证 中 的 应 用 In:Computer Vision-ACCV 2010.施普林格,柏林海德堡,pp. 709- 720Omar,N.,Albared,M.,Al-Shabi,A.,Al-Moslmi,T.,2013.对阿拉伯客户评论进行主观性和情感分析的分类算法的开发。 Int. J. Adv. Comput. Technol. 14(5),77-85。橙色,2016年1月。检索自http://orange.biolab.si/>。Plötz,T.,2005.高级随机蛋白质序列分析博士论文。比勒费尔德大学技术学院。Raheel,S.,Dichy,J.,Hassoun,M.,2009.通过提升决策树自动分类阿拉伯文文档。2009年第五届信号图像技术&互联网系统国际会议(SITIS)。 IEEE,pp. 294- 301RapidMiner,2016,January.检索自https://rapidminer.com/>。Roberts,A.,苏莱提湖,Atwell,E.,2005. aConCorde:走向阿拉伯语的适当统一。在:语料库语言学2005年会议的会议记录。英国伯明翰大学。Rosario,B.,2000.潜在语义索引:概述。Tech.第240章. Salton,G.,巴克利角,1988.自动文本检索中的术语加权方法。信息处理。管理。24(5),513-523。Alftiani,F.,2002.自动文本分类中的机器学习。ACM计算监视器(CSUR)34(1),1-47。Silber,H. G.,McCoy,K.F.,2002.高效计算的词汇链作为自动文本摘要的中间表示。Comput.凌28(4),487-496。索布岛Darwish,N.,Fayek,M.,2006.一个可训练的阿拉伯语贝叶斯提取通用文本摘要。在:第六届语言工程会议ESLEC,pp。 49比154Sokolova,M.,Lapalme,G.,2009年分类任务绩效测量的系统分析。信息处理。管理。45(4),427-437。Strehl,A.,Ghosh,J.,穆尼河,2000.相似性度量对网页聚类的影响。Orkshop onArtificial Intelligence for Web Search(AAAI 2000),pp. 58比64Syiam,M.M.,法耶德,Z. T.,Habib,M.B.,2006.阿拉伯文文本智能分类系统。Int. J.内特尔Comput. INF. Sci. 6(1),1-19.Takça,H.,Güngör,T.,2012.一种用于语言识别的基于质心的高性能分类方
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- CoreOS部署神器:configdrive_creator脚本详解
- 探索CCR-Studio.github.io: JavaScript的前沿实践平台
- RapidMatter:Web企业架构设计即服务应用平台
- 电影数据整合:ETL过程与数据库加载实现
- R语言文本分析工作坊资源库详细介绍
- QML小程序实现风车旋转动画教程
- Magento小部件字段验证扩展功能实现
- Flutter入门项目:my_stock应用程序开发指南
- React项目引导:快速构建、测试与部署
- 利用物联网智能技术提升设备安全
- 软件工程师校招笔试题-编程面试大学完整学习计划
- Node.js跨平台JavaScript运行时环境介绍
- 使用护照js和Google Outh的身份验证器教程
- PHP基础教程:掌握PHP编程语言
- Wheel:Vim/Neovim高效缓冲区管理与导航插件
- 在英特尔NUC5i5RYK上安装并优化Kodi运行环境
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功