没有合适的资源?快使用搜索试试~ 我知道了~
Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com用于阿拉伯语文本Alaa Saleh Altheneyana,1,Mohamed El Bachir Menaib,*a沙特国王大学计算机和信息科学学院信息技术系,P.O.沙特阿拉伯利雅得b沙特国王大学计算机和信息科学学院计算机科学系,P.O.地址:Box 51178,Riyadh 11543,Saudi Arabia2014年9月28日在线发布作者归属是指根据作者的写作特征,将作者归属于匿名文本的过程。针对英语、汉语和荷兰语等自然语言,开发了几种作者归属方法。然而,阿拉伯文的相关作品数量有限。朴素贝叶斯分类器已被广泛用于各种自然语言处理任务。然而,通常没有提到所使用的事件模型,这可能对分类器的性能产生相当大的影响。据我们所知,朴素贝叶斯分类器尚未被考虑用于阿拉伯文的作者归属。 因此,我们建议研究他们使用这个问题,考虑到不同的事件模型,即简单朴素贝叶斯(NB),多项式朴素贝叶斯(MNB),多变量伯努利朴素贝叶斯(MBNB)和多变量泊松朴素贝叶斯(MPNB)。我们评估了这些模型 实验结果表明,MBNB提供了最好的结果,可以属性的作者的文本与97.43%的准确率。与相关方法的比较结果表明,MBNB和MNB是适当的作者归属。©2014沙特国王大学。制作和主办:Elsevier B.V.All rights reserved.1. 介绍*通讯作者。联系电话:+966 1 4670687。电子邮件地址:atheneyan@ksu.edu.sa(A.S.Altheneyan),menai@ksu.edu.sa(M.E.B. Menai)。1电话:+966 504 882499。沙特国王大学负责同行审查作者归属是作者分析的一个分支。它是根据匿名文本的特征确定其作者的过程(Juola等人,2006年)。这个问题由来已久,作者归属的研究可以追溯到19世纪。早期的传统方法是基于人类专家的,然后从1964年到20世纪90年代,非传统的作者归因研究被进行。当时的研究重点是定义衡量作者写作风格的特征。近几http://dx.doi.org/10.1016/j.jksuci.2014.06.0061319-1578© 2014沙特国王大学。制作和主办Elsevier B.V.保留所有权利。制作和主办:Elsevier关键词作者归属;阿拉伯语;朴素贝叶斯分类器;事件模型474A.S. Althenyan,M.E.B. 梅奈近年来,信息检索、机器学习和自然语言处理等领域的发展 对 作 者 归 属 研 究 产 生 了 巨 大 影 响 ( Stamatatos ,2009)。作者归属可以在不同领域的广泛应用中使用,包括情报,刑法和民法,计算机取证和网络犯罪调查以及传统的文学研究应用。已经开发了大量的方法来解决作者归属问题。这些方法可以基于它们的方法分为三类:酉不变方法、多变量分析和机器学习方法(Koppel等人,2009年)。这些方法依赖于作者无意识地使用的语言手段,如语义、句法、词汇、拼写和形态学手段。尽管阿拉伯语是联合国的官方语言之一,并被数亿人广泛使用,但迄今为止,只有极少数关于阿拉伯语文本的作者归属研究发表(Shaker和Corne,2010年)。朴素贝叶斯分类器已用于许多语言的作者归属,包括英语(Hoorn等人,1999; Zhao和Zobel,2005; Tan和Tsai,2010; Pillay和Solorio,201 0),土耳其语(Türkoglu等人 , 200 7 ) , 和 墨西哥( Coyotl-Morales 等 人 ,2006))。然而,通常没有提到使用的事件模型。 朴素 贝 叶 斯 分 类 器 也 被用 于阿 拉伯 语文 本分 类( ElKourdi 等 人 , 2004; Al-Salemi , 2011; Al-Shammari ,2010; Alsaleem,2011; Noaman等人, 2010年)。分类器提供的结果令人鼓舞。在本文中,我们提出了调查的朴素贝叶斯事件模型的阿拉伯文作者归属,因为他们没有被认为是这个问题之前。本文研究了四种朴素贝叶斯事件模型,即简单朴素贝叶斯(NB)、多项朴素贝叶斯(MNB)、多变量Bernoulli朴素 贝 叶 斯 ( MBNB ) 和 多 变 量 Poisson 朴素贝 叶 斯(MPNB)。本文的其余部分组织如下。第二节概述了作者归属和写作风格特征。第三节讨论了阿拉伯语的特点。在第4节中,提供了不同的作者归属方法的广泛研究,以及可用的特征选择方法的研究。在第5节中,描述了朴素贝叶斯事件模型第6节详细介绍了阿拉伯文的作者归属系统第7节介绍并讨论了实验结果。最后,在第8节中给出了这项工作的一般结论。2. 背景2.1. 作者归属作者归属解决了仅基于文本的内部特征从一组候选作者中确定匿名文本的作者 它适合一个典型的文本分类问题,其中每个作者代表一个类(Koppel等人, 2009年)。作者身份归因的主要研究内容是特征选择和归因技术。2.2. 文体特征写 作 风 格 特 征 是 提 取 的 有 助 于 文 本 归 属 的 文 本 特 征(Abbasi和Chen,2005 a)。根据作者归属研究,存在许多特征集的分类,其可以被分类为:词汇、字符、句法、语义、内容特定、结构和语言特定(Abbasi和Chen,2005 a,b; Stamatatos,2009)。词汇特征:词汇特征是最早也是最具透明度的作者归属特征之一.这些特征的例子有单词长度、句子长度、单词频率和词汇丰富度。词汇特征的一个主要问题是,在一些东方语言中(例如,中文中,单词之间没有界限,这使得在不需要特殊工具的情况下很难应用这些方法字符:基于字符串的度量将文本视为字符序列。有几种度量方法,如字符类型、字母频率和字符n元语法.字符n-gram测度的意义在于它可以捕获词汇信息和上下文信息.它们可以很容易地应用于任何语言,而不需要任何特殊的工具。然而,由于冗余信息(例如,|或者|、|_或|).句法:作者无意识地使用句法特征,这使得它们比词汇特征更可靠。不同的句法测量被用于归因研究,包括词性频率、改写规则频率、句法错误和功能词。这些特征需要精确的语言相关工具来提取它们。语义:当前用于处理语义分析的自然语言处理(NLP)工具是不够的。因此,只有少数尝试利用语义特征已执行。这些特征包括语义依赖、同义词和最重要的系统功能语言学(SFL),它定义了与POS特征相结合的功能词。内容特定:当所有作者的可用文本内容相同时,使用内容特定功能。特定内容词是指特定主题的关键词,可以用来辅助其他文体特征。结构性:这些特征捕捉了作者在组织文本时的习惯。它们被定义为对电子邮件和在线论坛消息应用作者归属的结果。这些措施的例子包括段落长度,签名的使用,字体颜色和字体大小。在对短文本进行归因时,结构特征是重要的,因为很难捕捉文本的文体属性。特定于存储器的:这些特性是特定于特定语言的。这些特征的度量必须手动定义。通过使用适当的工具,可以独立于应用程序或文本语言从任何文本根据归因研究,词汇和句法特征是最常用的归因特征(Abbasi and Chen,2005 a; Stamatatos,2009)。3. 阿拉伯特色阿拉伯语复杂的语言结构带来了几个挑战:词形变化、变音符号、单词长度和延长。●●●●●●●用于阿拉伯语文本作者归属的朴素贝叶斯分类器475● 拐点阿拉伯语是一种屈折变化很大的语言。词干是由词根通过添加词缀(前缀、中缀和后缀)派生而来的。单词是在词干上添加词缀的结果(例如, root:stem:word:)(de Roeck and Al-Fares,2000).屈折变化增加了单词的数量,这可能在提取词汇特征时引起特定的问题,例如,一些词汇丰富度测量方法并不那么有效(AbbasiandChen,2005a)。● 变音符号变音符号是放置在字母上方或下方的特殊标记,用于表示短元音。变音符号的使用改变了单词的发音和含义然而,变音符号很少在写作中使用,因为读者被期望利用他们的语言语义知识来推断缺失的短元音然而,对于计算机来说,特征提取程序不可能推断出这些知识。这可能会降低使用功能词作为特征的有效性。例如,如果不使用变音符号,功能词(man)和(men)是相同的 , 计 算 机 无 法 区 分 它 们 ( Abbasi 和 Chen , 2005 a;Farghaly和Shaalan,2009)。● 字长阿拉伯语单词往往很短。这可能会降低词汇特征的有效性,例如单词长度分布(Abbasi和Chen,2005 a)。● 伸长率拉长是纯粹出于文体原因在阿拉伯语写作中使用两个字母之间的特殊破折号。虽然延长可以被用作重要的归因特征,但是在提取词汇特征时,特别是词长度特征时,它引起问题,因为一些词长度在使用延长之后加倍。例如,单词是四个字母的单词。在加上四个破折号后,拉长的单词是八个字母(Abbasi和Chen,2005 a)。4. 文献综述4.1. 特征选择在处理作者归属问题时需要考虑的主要问题之一是特征集的高维性,特别是在使用词汇和字符特征时,因为每个单词和短语都特征选择对于减少特征集、加速计算和改进分类过程是必不可少的(Yangand Pedersen,1997; Forman,2003)。特征选择方法可以分为两种主要方法:包装器和过滤器。包装器使用人工智能中的经典搜索方法(例如,爬山和波束搜索),其探索搜索空间以寻找适当的特征子集。每个子集使用归纳算法进行评估,这是一个耗时的操作。因此,包装器对于大规模问题是不实用的(Forman,2003)。过滤器方法使用特征评分度量来独立地对每个特征进行评分。然后通过选择预定义数量的最佳特征来形成特征子集。许多有效的特征评分度量用于文本,例如:卡方v2(CHI)、文档频率(DF)、信息增益(IG)、术语强度(TS)、互信息(MI)、奇比(OR)、交叉熵(CE)、证据权重(WOE)、随机、Ng-Goh-Low(NGL)系数、Galavotti4.2. 作者归属方法作者归属方法主要分为三大类:一元不变量法、多元分析法和机器学习法。4.2.1. 酉不变量酉不变式是用于确定文本作者属性的最古老的方法。它使用单个文本特征来区分作者,例如句子长度和单词长度(Koppel等人,2009年)。Mendenhall(1887)使用代表单词长度频率的曲线来将文本归因于马洛,培根或莎士比亚 。 Yule ( 1939 ) 使 用 句 子 长 度 检 查 了 De ImitationeChristi(1418年出版的宗教论文Brendon(1963)也使用了单 词 长 度 频 率 来 确 定 Quintus Curtius Sundesgrass Letters(1861年发表在新奥尔良每日新月报上的10封信)的归属。这些方法都没有提供可靠的结果,这给多变量分析方法让路。4.2.2. 多变量分析多变量分析方法使用一组特征来统计属性文本。Mosteller和Wallace(1964)首先使用这种方法,提出使用贝叶斯统计分析来归属联邦党人文集(由约翰·杰伊、亚历山大·汉密尔顿和詹姆斯·麦迪逊撰写的一些政治报纸文章;汉密尔顿和麦迪逊都声称他们撰写了其中的12篇文章)。他们基于最频繁功能词的方法提供了可靠的结果,这鼓励学者探索其他类型的特征和技术。主成分分析(PCA)(Pearson,1901)是一种统计分析方法,它使用尽可能少的特征来检查文本中的变化。它被用于许多有争议的文件的作者归属(Binongo和Smith,1999 年 ; Holmes 等 人 , 2001 a , b; Baayen 等 人 ,2002;Binongo,2003)。线性判别分析(LDA)(Fisher,1936)是用于归因的另一种统计方法(Baayen等人,1996;Stamatatos 等 人 , 2000; Baayen 等 人 , 2002; Chaski ,2005)。基于距离的方法通过使用一些距离测量来测量匿名文本与候选作者所写的可用文档之间的距离,来归属匿名文本的作者(Burrows,2002; Keselj等人,2003; Hoover,2004;Juola,2005; Zhao等人,2006;Zhao和Zobel,2007; Zhao和Vines,2007; Koppel等人, 2010年)。476A.S. Althenyan,M.E.B. 梅奈FGFG12n基 于 马 尔 可 夫 链 的 其 他 统 计 技 术 用 于 作 者 归 属(Khovov和Tweedie,2001;Kukushkina等人,2001年)。数据压缩技术也被考虑,包括Benedetto等人(2002)用于作者归属的Lempel和Ziv(LZ 77)压缩方法,Teahan和Harper(2003)用于文本分类的部分匹配预测(PPM)文本压缩方案,以及Khamov和Teahan(2003)提出的用于剽窃检测和文本分类的基于R-测度的方法。4.2.3. 机器学习方法监督机器学习方法应用于表示为特征向量的训练文档,以构建对匿名文档进行属性化的分类器 各种机器学习方法已被用于作者归属,例如朴素贝叶斯(Hoorn等人,1999; Zhao 和 Zobel , 2005;Coyotl-Morales 等 人 , 2006年 ;Turkoglu 等 人 , 2007;Tan 和 Tsai , 2010; Pillay 和Solorio,2010)、贝叶斯分类器(Kjell,1994; Zhao和 Zobel , 2005; Zhao 等 人 , 2006; Pillay 和 Solorio ,2010 ) 、 K- 最 近 邻 ( Hoorn 等 人 , 1999年 ;Zhao 和Zobel,2005年;Turkoglu等人, 2007)、决策树(Zheng等人 , 2003; Zhao 和 Zobel , 2005; Zheng 等 人 , 2006年;Turkoglu等人,2007; Pillay和Solorio,2010)、神经网络 ( Hoorn 等 人 , 1999; Zheng 等 人 , 2003; Zhao 和Zobel,2005;Zheng等人,2006年;Turkoglu等人, 2007)和支持向量机(SVM)(Diederich等人,2003; Zheng等人 , 2003; Argamon 和 Levitan , 2005; Sanderson 和Guenter,2006; Zhao等人,2006; Zheng等人,2006年;Turkoglu等人,2007年;Pavilion等人, 200 7)。4.3. 阿拉伯文本Abbasi和Chen(2005年a)使用支持向量机(SVM)和C4.5决策树对来自雅虎群组的政治和社会阿拉伯语网络论坛消息进行作者身份分析。他们在提取特征之前对文本进行预处理,以使用伸长过滤器去除伸长;然而,伸长字符和伸长单词的数量被计算出来,以便稍后用作特征。Abbasi和Chen(2005 a)使用的特征集由410个特征组成,包括词汇特征(如频繁词根和句子长度)、句法特征(如虚词)和结构特征(如附件数量和内容特定特征)。这些功能被划分为不同的测试集,如下所示:set1:词汇特征集合2:词汇+句法特征集合3:词汇+句法+结构特征集合4:词汇+句法+结构+特定内容特征使用de Roeck和Al-Fares(2000)的聚类算法来提取根并将它们用作特征。在每个实验中,选择了五位作者,对于每位作者,使用了20个文本。当使用SVM和set4特征时,取得了最好的结果。Abbasi和Chen(2005 b)也使用SVM和C4.5,de Roeck和Al-Fares(2000)的算法来提取词根。他们在英语和阿拉伯语的网络论坛上测试了他们的方法。阿拉伯语集是从雅虎的一个阿克萨烈士组织论坛中提取的,使用了Abbasi和Chen(2005 a)中的四个不同的集。对于每个实验,使用了五位作者,每个作者有20篇文章。当所有四组特征与SVM一起使用时,阿拉伯语和英语的最佳平均精度分别为94.83%和97.00%Abbasi和Chen(2006)使用SVM和writeprint,一种作者身份可视化,它使用他们编写的许多文档为不同的作者写作风格创建模式。他们在Abbasi和Chen(2005 b)使用的相同数据集上测试了他们的方法,该数据集由每个作者的10条消息组成。Writeprint在测试一个作者写的一组消息的归属时优于SVM。然而,SVM在测试单个消息的属性时表现更好。Stamatatos(2008)测试了SVM在Alhayat报纸的阿拉伯语报纸报道中的使用。该研究的目的是提出一种解决类不平衡问题的方法:一些作者有长而多样的培训文档,而另一些作者只有几个短文档。他的结论是,当该方法对某些作者使用许多短文本,对其他作者使用一些长文本时,可以获得最佳结果。Shaker和Corne(2010)使用线性判别分析(LDA)对12本阿拉伯语书籍的归属进行了分析。他们以功能词为特征,从104个常见的连词和介词开始。然后,他们根据Mosteller和Wallace(1964)使用的英语集建立了他们的数据集;然而,只有64个单词被使用,因为他们从集中省略了40个最常用的单词。在功能词的选择上,采用进化搜索的方法来选择功能词子集。每个实验都选择了两名作者。为每位作者选择了两本书:一本用于测试,另一本用于培训。第一个实验将两本书分为1000个词的组块,第二个实验将两本书分为2000个词的组块,每组包含65个和54个虚词。当使用2000个词块和54个虚词时,获得的最佳成绩是87.63%的准确率。5. 阿拉伯文作者归属的朴素贝叶斯模型设a、A、f和n分别表示作者、作者总数、特征和特征总数,很好对于朴素贝叶斯分类器,为每个作者提供一组训练文档.每个文档由一组特征ff1; f2;.表示。 ; f ng. 一个新的docu-段由相同的特征集 F1; F2;.. . ; f n,学习者被要求预测新事物的作者假设这些特征的出现是相互独立的(Mitchell,1997)。5.1. 简单朴素贝叶斯简单的朴素贝叶斯分类器(NB)用一组特征f1;f2;.. . ;fn到最可能的目标作者a,根据等式(一).词汇、句法、结构和内容特征。他们我还用了一个过滤器来去除伸长和集群a¼argmaxPajf;f;. ;fa2A用于阿拉伯语文本作者归属的朴素贝叶斯分类器477ðÞ¼¼ð Þ吉吉2priYia¼FG吉吉AI ¼我对于预处理,采取以下步骤:概率P∈ajf1;f2;. 需要使用以下贝叶斯公式为每个a2A计算;fn:提出了一种基于Laplacian先验的特征频率预处理方法,避免了零概率问题。P a j f; f;.. . ; f Pf1; f2;.. . ; fnja·Pað2Þ5.3. 多变量Bernoulli朴素贝叶斯12NPf;f;. ;f12N其中P=f1;f2;. . ;fn-假设f1,f2,. . ;fn,Eq. (2)可以简化为Eq。(三)、P a j f 1; f 2;.. . ; f nP f 1; f 2;.. . ; f nj a·P a利用链式法则,我们得到:Yn多变量Bernoulli朴素贝叶斯模型类似于多项式模型,但不是将文档表示为频率向量,而是表示为二进制向量(Al-Salemi,2011)b<1; b2;. . ; b n>. 如果fi出现在文档中,则bi1;否则,bi0。新文档归因于最可能的目标作者a根据等式。(十一)、P f 1; f 2;.. . ; f nj a·P a P a:1/1Pfija4na¼argmaxa2APabiP因此,一个作者a是归因于根据方程。(五)Yna¼ argmaxa2A Pai1P fij a51/1ð11Þ其中概率P a由a在训练数据中的频率估计。a编写的文件数量5.4. 多变量Poisson朴素贝叶斯P文件总数泊松统计分布通常用于模拟固定时间单位内的随机事件泊松分布P FI A可以使用高斯分布(Zhao和Zobel,2005)或拉普拉斯先验(Al-Salemi,2011):Pfijagfi;li;ri在英语中,文本分类已经被使用(Kim等人,2006; Huang和Li,2011)。文档表示为随机向量x1; x2;. ; x n;其中x i是泊 松 分布fi-lig/fi;li;ri/p12019- 04 -20ð7Þ随机变量赋值vi从term-free-特征f1的频率(Kim等人,2006年)。新文档对最可能的目标作者a的归属由等式2给出其中,li是由下式编写的文档中特征fi的平均值:作者a和ri是它的标准差。Laplacian先验由Eq.(八)(十二)、a¼ argmaxa2A P ani¼1e-kiakvið12ÞPfja1Daið8Þ当使用MNB、MPNB和MBNB时,一些特征诸如Aa其中,Dai是由a写入并包含fi的文档的总数,Da是由a写入的文档的总数。因为字长不合适。理想的特征是based概率kai由等式(1)计算。(十三)、引导分类器。为了克服这个问题,使用拉普拉斯算子将文档的数量Dai用计数1来准备kc1kfai2天að13Þ前科诸如单词长度、词汇丰富度和句子长度等连续特征只能使用高斯分布来计算。5.2. 多项式朴素贝叶斯多项式模型捕获特征频率信息(Yang和Liu,1999)。因此,代替将文档表示为特征集合f1;f2;. . ;fn,例如在简单模型中,的文件是表示作为一向量vv1;v2;.其中v i是f i的频率 在docu-我是说。所以,新文件被认为是最有可能的目标作者a根据等式(九)、Yna¼ argmaxa2A PaP vija91/1其中c1;c22½0;1]。6. 阿拉伯文作者归属系统在本节中,我们描述了系统的主要组件,我们实现了测试四个朴素贝叶斯事件模型的阿拉伯文作者归属。作者归属过程的四个主要阶段包括文本预处理、特征提取、特征子集选择、训练和归属。图1说明了这一过程。6.1. 预处理的 概率 P vi a使用等式2计算。(10)(Manning等人, 2008年)、规范化:规范化用于帮助克服阿拉伯语文本表示中的变化。我们选择了以下几种Pvjiað10Þ降低归一化步骤:恩纳其中,Mia是特征fi在由作者a编写的文档中的频率,na是文档o使用CP1256进行文本编码。o用裸露的铝合金替代铝合金、铝合金或铝合金。o将序列“”替换为“”。概率Pfija使用等式(1)计算。(八)、●Y我C478A.S. Althenyan,M.E.B. 梅奈图1阿拉伯文文本的作者归属。o将最后一个“”替换为“”。o将最后一个“”替换为“”。我们实现了自己的预处理工具。训练集和测试集中的每个文档在提取其特征之前都进行了预处理。功能词、标点符号、变音符号和非字母删除:保留非字母、变音符号、标点符号和功能词(停用词),因为它们可以提供作者证据。伸长率:伸长率可以用作重要的属性特征,但在提取法律特征时,特别是单词长度时,它会带来问题。为了克服这个问题,我们实现了一个伸长过滤器来提取伸长的数量和伸长的单词的数量。然后在去除伸长之前将其用作特征。词干:词干是为阿拉伯语单词寻找词根的过程词干方法分为基于根的类和基于词干的类。Abbasi andChen,2005 a,b使用最常见的根作为特征。他们使用de Roeck和Al-Fares(2000)的聚类算法和一个词根词典来提取词根,而其他特征则从原始文本中提取。Stamatatos(2008),Shaker和Corne(2010)没有使用任 何 词 干 预 处 理 。 在 我 们 的 工 作 中 , 我 们 使 用Khojahhttp://zeus.cs.pacificu.edu/she-6.2. 特征提取文档被表示为特征的数值向量我们使用了一个类似于Abbasi and Chen,2005a,b,2006使用的特征集,其中简单朴素贝叶斯模型共有408个特征,其他模型共有374个特征200个不同的词被用作特征。一个完整的描述的功能集,灰表1。的提取这些特征分两个步骤执行:首先,提取所有不同的单词,然后,基于某种特征选择方法选择这些特征和200个单词。6.3. 特征选择对于特征选择,我们使用NB模型的词频特征选择,因为该模型的概率计算取决于特征的均值和标准差。卡方用于MNB,MBNB和MPNB,因为这种措施在阿拉伯语文本分类 中 使 用 时 提 供 了 良 好 的 结 果 。 事 实 上 , Al-Salemi(2011)使用了具有不同特征选择方法的朴素贝叶斯分类器当Mesleh(2008)用他的SVM分类器对阿拉伯语文本进行测试时,卡方也提供了其他特征选择方法中最好的结果。卡方也被Al-Harbi等人(2008年)和Mesleh(2007年)使用。6.4. 训练和归因四个模型NB,MNB,MBNB和MPNB的训练和测试上的一个大型阿拉伯语语料库的作者归属。它们的性能评估和比较将在下一节中详细介绍。7. 实验评价作者归属系统是在NetBeans IDE 6.9.1环境下使用JAVA编程 语 言 在 具 有 Intel Core 2 Duo CPU P8700@2.53 GHzCPU、4-Gbyte RAM和32位Windows Vista操作系统的个人计算机上实现的。●●●用于阿拉伯语文本作者归属的朴素贝叶斯分类器479-----一种- - -一种- - -一种表1提取的特征。注意,M =单词的总数,V =不同单词的总数,并且C =不同单词的总数。文件中的字符特征字符总数(C)单词总数(M)拉长频率拉长单词频率标点符号总数空格字符总数/C空格字符总数/空格字符数制表符空格总数/C制表符空格总数/空格字符数标点符号总数/C空白行数/总行数平均句子长度标点符号的频率(8个特征)“?".",“:“,”!",“’ ”,‘‘平均词长(字符数)词长频率分布/M虚词总数/M(来自Kojah词干分析器)hapaxlegomena 总 数 /Vhapaxlegomena总数/M词汇丰富度即,V/M200字空格字符总数fntn nn fn r空格gNumber0123456789101112–1314–21特征提取工具TokenizerTokenizerElongation filterElongation filter字符词典句子分割器字符词典2223–373839–202203204205–208209–408分词器TokenizerTokenizerTokenizer不同的性能指标被用来衡量归因方法的有效性。Abbasi和Chen(2005 a,2006),Stamatatos(2008)和Shaker和Corne(2010)使用准确性度量来评估他们提出的方法的性能,而Abbasi和Chen(2005 b)使用精度度量。为了能够将我们的结果与其他阿拉伯语作者归属系统的结果进行比较,我们使用了准确度和精确度。我们还使用了召回率和F1测量作为额外的指标。7.1. 阿拉伯语语料库不同的阿拉伯语语料库已被学者用来解决阿拉伯语作者归属问题。Abbasi和Chen(2005年a,2006年)使用了来自雅虎论坛的阿拉伯语网络论坛消息,用于阿克萨烈士组织。Abbasi和Chen(2005年a)使用雅虎群组中的政治和社会阿拉伯语网络论坛消息。Stamatatos(2008年)使用了Alhayat 报纸的阿拉伯 语报纸报道。最后 ,Shaker 和Corne(2010)使用了阿拉伯作家联盟网站上的12本阿拉伯语书籍来测试他们的方法。我们计划使用Abbasi和Chen(2005a,b,2006)使用的相同语料库来有效地将我们的结果与他们的结果进行比较,但不幸的是,我们无法从作者那里获得。然后,我们建立了自己的数据集,其中包括30本阿拉伯语书籍,从Alwaraq网站(http://www.alwaraq.net)收集的10位不同作 者 : Alfarabi , Alghazali , Aljahedh , Almas3ody ,Almeqrezi,Altabary,Altow7edy,Ibnaljawzy,Ibnrshd和Ibnsena。每本书被分成1980到2020个单词的块,这样每个作者就有60个书块。7.2. 对词干提取和/或标准化我们对语料库进行了词干提取和归一化,并将其分为四个不同的数据集。第一个数据集包含既没有被词干化也没有被标准化的原始文档(表示为RN)。第二个数据集包含尚未进行词干分析但已规范化(表示为R+ N)的文档。第三个数据集包含已经词干化但未规范化的文档(表示为+RN)。最后,第四个数据集包含经过词干处理和标准化的文档(表示为+R +N)。使用十重交叉验证来训练和测试 四 个 朴 素 贝 叶 斯 模 型 ( NB 、 MNB 、 MBNB 和MPNB)。表2-5总结了四个分类器在不同数据集上获得的结果,包括召回率、精确度、准确度和F1测量的平均值和标准差。请注意,l和r分别表示平均值及其标准差。图2示出了四个分类器在不同数据集上的平均准确度的变化。从结果中可以清楚地看出,无论使用什么数据集,MBNB模型都能获得最佳结果。MBNB模型实现了最佳结果与97.43%的准确性和86.07%的F1测量时,应用于既没有干也没有归一化(R N)的数据。MNB模型的结果比MBNB差,但它优于MPNB和NB模型。它的最佳性能是当它被应用于既没有主干也没有正常化(R N)的数据时,其准确率为92.03%,F1-mea为92.03%。有56.26%的把握。NB模型的性能最差,其总体准确率为82.30%。在分类之前对数据进行标准化对其分类结果的影响很小。事实上,从标准化数据得到的总体结果表明,不同朴素贝叶斯模型的准确度最高可提高2.93%,最低可降低2.93%。1.64%,在无词干和词干数据的情况下,分别。然而,对数据进行词干处理对结果的影响更大,因为不同模型的准确度降低到7.1%。480A.S. Althenyan,M.E.B. 梅奈表2NB、MNB、MBNB和MPNB分类器在数据集上的结果-R+N。l(召回)r(召回)l(精度)r(精度)l(准确度)r(准确度)l(F1-测量)r(F1-测量)(%)(%)(%)(%)(%)(%)(%)(%)NB10.5018.538.9318.1182.1015.247.1212.43MNB53.5038.8754.2936.6089.108.3148.1031.07MBNB87.0022.3489.1417.4997.402.6685.4817.32MPNB36.0037.0035.0035.0087.008.0031.0030.00最佳结果以粗体显示表3 NB、MNB、MBNB和MPNB分类器在数据集-R-N上的结果l(召回)r(召回)l(精度)r(精度)l(准确度)r(准确度)l(F1-测量)r(F1-测量)(%)(%)(%)(%)(%)(%)(%)(%)NB11.5019.029.0517.5982.3012.787.9512.93MNB60.1735.2463.6429.2492.034.3056.2626.16MBNB87.1721.1689.4416.3197.432.7386.0716.26MPNB37.0039.2633.6232.2187.406.7930.1928.56最佳结果以粗体显示表4 NB、MNB、MBNB和MPNB分类器在数据集+R +N上的结果。l(召回)r(召回)l(精密度)r(精密度)l(准确度)r(准确度)l(F1-测量)r(F1-测量)(%)(%)(%)(%)(%)(%)(%)(%)NB2.005.490.651.9180.4019.670.892.53MNB30.8339.3429.4735.3886.1710.5322.4924.46MBNB53.6741.1853.1136.6290.735.4746.6031.66MPNB24.6734.6820.1628.3884.939.1416.9920.93最佳结果以粗体显示表5 NB、MNB、MBNB和MPNB分类器在数据集+R-N上的结果。l(召回)r(召回)l(精度)r(精度)l(准确度)r(准确度)l(F1-测量)r(F1-测量)(%)(%)(%)(%)(%)(%)(%)(%)NB0.832.641.635.1780.1715.980.752.36MNB31.3340.1027.3836.0686.2711.2322.5325.87MBNB61.8340.2461.2636.2692.375.1455.6232.81MPNB28.3339.0919.3526.7485.679.8619.3025.20最佳结果以粗体显示百分百百分之九十五百分之九十百分之八十五百分之八十百分之七十五(-R+N)(-R-N)(+R+N)(+R-N)也没有针对10个不同的作者进行标准化。NB模型对5/10的作者(Alfarabi、Alghazali、Altabary、Ibnrshd和Ibnsena)的文本进行了分类,准确率为90%以上。它的最低性能(约60% 的准确率)是在Ibnaljawzy的文本上给出的。MNB模型将准确率为90%及以上的文本归因于7/10的作者 : Alfarabi 、 Alghazali 、 Almeqrezi 、 Altabary 、Ibnaljawzy、Ibnrshd和Ibnsena。它对Alghazali和Almeqrezi文本的准确率大于96%。MBNB模型的精度大于95%图2四个分类器在不同数据集上的平均准确度变化。7.3. 性能比较图图3-6显示了对既没有进行词干分析的数据应用不同朴素贝叶斯模型的平均结果Alfarabi 、 Alghazali 、 Almeqrezi 和 Altabary 的 比 例 超 过98%。MPNB模型以90%及以上的准确率将文本归因于2/10的作者:Alghazali和Almeqrezi。然而,其最低准确度约为82%(Alfarabi)。表6所示的MBNB模型单次运行的混淆矩阵证明了其在以下方面的高性能:NBMNBMBNBMPNB精度(Accuracy用于阿拉伯语文本作者归属的朴素贝叶斯分类器481自由战士报阿尔梅克雷齐-阿尔塔巴里伊本塞纳百分百百分之九十百分之八十百分之七十百分之六十百分之五十百分之四十简单朴素贝叶斯百分之九十九百分之九十八百分之九十七百分之九十六百分之九十五百分之九十四多变量Bernoulli朴素贝叶斯图3不同作者的NB模型平均准确度的变化。图5不同作者的MBNB模型平均准确度的变化。自由战士报阿尔梅克雷齐-阿尔塔巴里伊本塞纳百分之九十八百分之九十六百分之九十四百分之九十二百分之九十百分之八十八百分之八十六百分之八十四多项式朴素贝叶斯百分之九十四百分之九十二百分之九十百分之八十八百分之八十六百分之八十四百分之八十二百分之八十百分之七十八百分之七十六自由战士报阿尔梅克雷齐-阿尔塔巴里伊本塞纳多变量Poisson朴素贝叶斯图4不同作者的MNB模型平均准确度的变化。图6不同作者的MPNB模型平均准确度的变化。归因于Alfarabi,Alghazali,Almas3ody和Ibnaljawzy的特定文本。此外,它还可以用来强调作者风格之间的一些相似之 处 。 例 如 , 它 表 明 , Almeqrezi 的 九 个 文 本 归 因 于Almas3ody,因为一些共同的特征,包括平均词长和功能词的频率。以下是一段被错误分类的文字片段:7.4. 与其他方法出于比较的目的,我们认为所有的作品都是为了解决我们所知的阿拉伯作者归属问题。表7列出了我们的结果和其他参考文献中报道的召回率,精确度和准确度。结果实际上并不能直接比较阿尔法拉比阿尔塔自由战士报Almas3ody阿尔梅格altow7edy伊卜纳廖济伊本塞精度(Accuracy精度(Accur
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功