多项式网络在阿拉伯语文本分类中的性能实验

29 浏览量更新于2024-01-14 收藏 773KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com基于多项式网络的阿拉伯语文本分类Mayy M.Al-Tahrawia，*， Sumaya N.哈提卜ba约旦安曼Al-Ahliyya Amman大学信息技术学院计算机科学系b约旦安曼Al-Ahliyya Amman大学信息技术学院软件工程系接收日期2014年5月7日;修订日期2014年11月6日;接受日期2015年2月14日2015年9月10日在线发布摘要本文利用多项式神经网络开发了一个基于统计学习的阿拉伯语文本分类系统。多项式网络最近被应用于英语文本分类，但它们从未用于阿拉伯语文本分类。在这项研究中，我们研究了多项式网络在阿拉伯语文本分类中的性能实验在文本分类中广泛使用的阿拉伯语数据集：半岛电视台新闻数据集上进行。我们选择这个数据集是为了直接比较多项式网络分类器与阿拉伯文本分类文献中其他知名分类器在这个数据集上的性能。实验结果表明，多项式网络分类器是一个有竞争力的算法，阿拉伯语文本分类领域的最新技术©2015作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍随着自然语言电子文本的可用性和使用的快速增长，自动文本分类（TC）成为理解和组织此类文本的重要技术。TC会自动将未看到的文档分配到一个或多个预先定义的类，*通讯作者：P.O. Box：348，19374 Amman，Jordan.电话：+96279 5414927，+962 78 6702047电子邮件地址：mtahrawi@ammanu.edu.jo，mayy.tahrawi@gmail。com，tahrawi_mayy@yahoo.com（M.M.Al-Tahrawi），ammanu.edu.jo（S.N.Al-Khatib）。沙特国王大学负责同行审查文档内容。它被用于许多领域，如数字图书馆，垃圾邮件过滤，在线新闻，词义消歧，信息检索和主题爬行。由于网络上的大量文本，由于成本和时间的考虑，无法由人类专家手动分类，因此非常需要自动TC。TC工作的大部分工作都致力于英语和拉丁语文本的自动分类（ Yang 和 Liu ， 1999 年 ; Fang 等人， 2001 年 ;Reintiani，2002年; Joachims，2002年; Crammer和Singer，2003年; Lewis等人，2004年）。尽管阿拉伯语是联合国的七种官方语言之一，有超过4亿人以阿拉伯语为母语，但研究人员对研究阿拉伯语文本分类的TC方法兴趣不大。此外，这些以阿拉伯语为母语的用户中有很大一部分不能阅读英语。阿拉伯语语汇研究工作的局限性可归因于多方面的原因：阿拉伯语语汇的复杂形态http://dx.doi.org/10.1016/j.jksuci.2015.02.0031319-1578© 2015作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier关键词多项式网络;阿拉伯文本分类;阿拉伯文档分类438米 Al-Tahrawi，S.N. al-Khatib阿拉伯语中同义词的广泛传播，阿拉伯语的高度抽象性和派生性，缺乏可公开免费访问的阿拉伯语语料库，最后缺乏标准的阿拉伯语形态分析工具。事实上，所有阿拉伯语TC的研究人员都得出结论，构建阿拉伯语文本分类器是一项具有挑战性的任务（ Khreisat ， 2006; Harrag 和 El-Qawasmeh，2009;El-Halees，2007; Duwairi，2007）。然而，最近对阿拉伯文文本分类的需求和兴趣有所增加，原因有很多：阿拉伯文的文件非常丰富，有数千万阿拉伯互联网用户，其中很大一部分用户不能阅读英文网页。除此之外，阿拉伯语的互联网内容在过去几年中增长迅速，超过了整个互联网内容的3%，在整个互联网内容中排名第八（http://www.InternetWorldStats.com）。这种不断增长的内容需要交换，从而自动有效地分类。据报道，一种阿拉伯语自动分类器，没有关于此阿拉伯语分类器的技术文档或规范。最近，研究人员开始研究一些著名的英文TC算法在分类阿拉伯文文本文档的性能。例子包括朴素贝叶斯算法（NB）（Yahyaoui，2001;El-Kourdi等人，2004;Duwairi，2007;El-Halees，2008; Kanaan等人，二○ ○九年;Al-Saleem ，2010年，2011年; Chantar和Corne，2011年;Khorsheed和Al-Thubaity，2013年; Belkebir和Guessoum，2013 年 ;Sharef 等人， 2014 ）、支持向量机（ SVM ）（ Mesleh ， 2007;Al-Harbi 等人， 2 0 0 8 ;El-Halees ， 2008;Said例如， 2009;Al-Saleem ， 2010 ， 2011; Chantar 和 Corne ，2011;Khorsheed 和 Al-Thubaity ， 2013 ）， k- 最近邻（kNN）（Al-Shalabi等人，2006年; Duwairi，2007年;El-Halees ， 2008 年 ;Kanaan 等人， 2009 年 ; Khorsheed 和 Al-Thubaity，2013年; Ababneh等人， 2014）和决策树（Al-Harbietal. ， 2008;El-Halees ，2008; Harrag 等人， 2009 年 ;Chantar和Corne，2011年; Khorsheed和Al-Thubaity，2013年）以及其他（Sawaf等人， 2001年; Duwairi，2005年，2007年;Khreisat，2006 年 ;Ghwanmeh ， 2007 年 ;El-Halees ， 2007 年， 2008年;Al-Harbi等人，2008; Kanaan等人，2 0 0 9 年; Khorsheed和 Al-Thubaity ， 2013 年 ; Belkebir 和 Guessoum ， 2013 年 ;Fodil等人， 2014年）。多项式神经网络（ Polynomial Neural Networks ，PN）是一种有监督的机器学习算法，它利用传统的数学方法和进化编程概念来进化一个多项式函数网络，该网络能够从输入输出数据的集合中近似任何连续的多变量函数它们与人工神经网络的不同之处在于，它们既没有生物灵感，也没有解释。PN于2008年首次用于TC（AL-Tahrawi和Abu Zitar，2008）。由于PN技术的要求随着模型复杂度和所用特征数量的增加而呈指数增长，因此在TC中没有更早使用然而，（AL-Tahrawi和Abu Zitar，2008;AL-Tahrawi，2014，2015）已经证明PN是该领域最先进的英语文本分类器，包括SVM，KNN，NB，逻辑回归（LR）和径向基函数网络（RBF）。本研究首次在阿拉伯语文献中研究了PN在阿拉伯语文本分类中的应用TC. 本文的其余部分组织如下：阿拉伯语TC的相关工作在第2节中介绍，PN分类算法在第3节中详细介绍，数据集和数据预处理在第4节中介绍，实验，结果和结果分析在第5节中介绍，最后结论在第6节中介绍2. 相关工作虽然许多著作很早就研究了英语和拉丁语文本的分类，但在过去十年中，只有少数著作研究了阿拉伯语文本的分类。这些研究使用不同的数据集、数据预处理方法、特征选择方法、分类方法以及不同的指标来评估这些分类器的性能，从而解决TC问题。2.1. 数据集与英语TC的情况不同，阿拉伯语TC没有免费的基准数据集可供研究人员使用;因此，许多研究人员依赖于收集自己的内部数据集（Khreisat，2006; Duwairi，2007;Kanaan等人，2009年;Al-Saleem，2010年; Fodil等人，2014年），这是从不同的资源，如新闻频道和网站收集。一些数据集可供研究人员免费使用，如El-Kourdi等人（2004），El-Halees （ 2007 ， 2008 ）， Mesleh （ 2007 ）， Said 等人（2009），Chantar和Corne（2011），开源阿拉伯语语料库（OSAC）（Belkebir和Guessoum，2013）和沙特报纸（ SNP ）（ Al-Harbi 等人， 2008 年 ;Al-Saleem ， 2011年;Ababneh等人， 2014年）。这些语料库中（文档，类）的数量从（ 175 ， 5 ）（Fodil等人，2014）至（33 K，34）（Sawaf例如，2001年）。一些研究人员没有澄清关于他们语料库的这一重要信息（Khreisat，2006;El-Halees，2007，2008）。关于将数据集划分为训练/测试部分，即使使用相同的数据集，也没有就将数据集划分为训练/测试部分达成一致。此外，一些研究人员甚至没有提到他们使用的数据集的训练/测试划分（El-Halees， 2007; Fodil等人， 2014年）。2.2. 阿拉伯文TC文献的文本预处理数据预处理被认为是构建文本分类器的重要组成部分。对文本文档应用数据预处理的主要优点是减少数据集中的特征（术语）数量，以及在资源需求和分类准确性方面提高分类器性能。阿拉伯语TC领域的许多研究人员在分类之前对文本应用一组文本预处理步骤，如排除停用词、标点符号、变音符号、非字母和元音，以及对一些字母如alhamza进行规范化（El-Kourdi et al.，2004年; Khreisat，2006 年 ;Duwairi ， 2007 年 ;El-Halees ， 2007 年， 2008 年 ;Mesleh，2007年;Al-Harbi等人，2008; Kanaan等人，2009;Said等人，2009年;Al-Saleem，2010年，2011年; Chantar和Corne，2011年; Khorsheed和Al-Thubaity，2013年; Belkebir和Guessoum，2013年;Sharef等人，2014; Fodil等人，2014;Ababneh等人，2014年）。一些研究人员还删除了不常见的单词（Mesleh，使用多项式网络的阿拉伯语文本分类4392007; Chantar 和Corne ， 2011 ）或小于一定长度的单词（Sharef等人， 2014年）。TC中的另一个主要预处理步骤是去梗或根提取。这一步的目的是减少单词的词干或词根，从而减少分类器需要处理的术语数量。这导致减少分类器系统的存储和处理要求。阿拉伯语TC的研究人员在构建阿拉伯语TC系统时使用了三种不同类型的词干提取： 2009; Fodil 等人，2014 ）、 Light Stemming （ Said 等人， 2009; Belkebir 和Guessoum ， 2013; Sharef 等人， 2014 ）和 / 或根提取（ Duwairi ， 2007; Said 等人， 2009 年 ; Belkebir 和Guessoum，2013年）。然而，一些研究人员在构建他们的分类器时没有应用任何类型的词干或根提取（Mesleh，2007; Chantar和Corne，2011）。另一方面，一些研究人员没有对数据集进行任何类型的预处理（Sawaf等人， 2001年）。2.3. 特征加权和选择特征选择（FS）在TC中被广泛使用，因为大多数分类器无法处理语料库中大量的术语。除此之外，在构建分类器时使用所有术语（特征）对分类器准确性的影响一直是一个很大的争论;许多研究人员认为，使用所有语料库术语会增加分类器的噪音和处理要求，而不会提高分类准确性，而其他人则发现FS对TC有害（Khreisat，2006）。使用FS，计算每个术语的区分能力，并且仅使用得分最高的术语来构建分类器。几种FS方法用于阿拉伯语TC研究领域，如交叉验证（ El-Kourdi et al. ， 2004 ）、 X 平方分布（ CHI ）（Mesleh ，2007;Al-Harbi 等人， 2008 年 ;Khorsheed 和 Al-Thubaity，2013年; Belkebir和Guessoum，2013年; Sharef等人，2014）、信息增益（IG）（El-Halees，2008;Said等人，2009; Khorsheed和Al-Thubaity ，2013），文档频率（DF ）（ Said 等人，2009; Khorsheed 和 Al-Thubaity ，2013），互信息（MI）（Said等人，2009）、相关系数（CC）（Said等人，2009）、二进制粒子群优化-K-最近邻（BPSO-KNN）（Chantar和Corne，2011）、半自动分类方法（SACM）和自动分类方法（ACM）（Fodil等人，2014年）。另一方面，（Sawaf等人，2001）随机选择特征，（Khreisat，2006）没有使用任何FS。在决定选择用于构建分类器的特征之后，将使用TC文献中使用的各种表示或权重之一来在分类系统中表示特征常见的例子包括术语频率。逆文档频率（TF.IDF）（El-Kourdi等人，2 0 0 4 ; Mesleh，2007; Kanaan等人，2009;Chantar和Corne，2011; Belkebir和Guessoum，2013; Fodil等人，2014）、术语频率（TF）（Khreisat，2006; Kanaan等人，2009年;Khorsheed和Al-Thubaity，2013年; Sharef等人， 2014; Fodil 等人， 2014 ），文档频率（ DF ）（Khorsheed和Al-Thubaity，2013），加权IDF（Kanaan等人，2009）、归一化频率（Sawaf等人，2001;El-Halees，2008）、布尔（Al-Harbi等人，2008年; Khorsheed和Al-Thubaity ， 2013 年），二元（ Al-Harbi 等人， 2008 年 ;Khorsheed和Al-Thubaity，2013年）和其他FS方法，如余弦系数，骰子系数和Jaccard系数（Ababneh等人， 2014年）。2.4. 分类算法几种分类算法在阿拉伯语TC的文献中进行了实验英语TC中的一些众所周知的算法在阿拉伯语TC中是成功的，如支持向量机（SVM）（Mesleh，2007;Al-Harbi等人，2008;El-Halees ， 2008;Said 等人， 2009;Al-Saleem ， 2010 ， 2011;Chantar and Corne ， 2011;Khorsheed andAl-Thubaity ，2013），Najuéve Bayes（NB）（El-Kourdiet al.，2004 年;Duwairi，2007年;El-Halees，2008年;Kanaan等人，2009年;Al-Saleem，2010年，2011年; Chantar和 Corne ， 2011 年 ; Khorsheed 和 Al-Thubaity ， 2013 年 ;Belkebir 和 Guessoum ， 2013 年 ; Sharef 等人， K-Nearest_Neighbor （ kNN ）（ Duwairi ， 2007;El-Halees ，2008; Kanaan等人，2009年;Khorsheed和Al-Thubaity，2013年; Ababneh等人，2014）、最大熵（Sawaf等人，2001; El-Halees ，2007 ，2008 ）、人工神经网络（ANN ）（El-Halees，2008; Belkebir和Guessoum，2013; Khorsheed和Al-Thubaity ， 2013 ）、决策树（ DT ）（ Al-Harbi 等人，2008;El-Halees，2008;Chantar和Corne，2011; Khorsheed和Al-Thubaity，2013）和Rocchio反馈算法（Kanaan等人，2009年）。2.5. 绩效评价在构建了一个分类器之后，必须使用一些正式的度量来评估它的性能，比如准确性（El-Kourdi et al.，2004;Al-Harbi等人，2008年; Khorsheed和Al-Thubaity，2013年; Belkebir和 Guessoum ， 2013 年），精密度（ Sawaf 等人， 2001年;Khreisat ，2006 年; Duwairi ， 2007 年 ;El-Halees ，2007年，2008年;Kanaan 等人， 2009;Al-Saleem ， 2010 ， 2011; Chantar 和Corne，2011; Ababneh等人，2014），召回（Sawaf等人，2001 年;Khreisat ， 2006 年 ; Duwairi ，2007 年;El-Halees ，2007年，2008年;Kanaan 等人， 2009;Al-Saleem ， 2010 ， 2011; Chantar 和Corne，2011; Ababneh等人，2014）、F-测量（Sawaf等人，2001; El-Halees，2007，2008; Mesleh，2007; Said等人，二○ ○九年;Al-Saleem ，2010年，2011 年; Chantar和Corne，2011 年;Sharef 等人， 2014; Ababneh 等人， 2014 年），沉降（Duwairi，2007年）和错误率（Duwairi，2007年）。5.2节中给出了计算这些度量的公式表1总结了其中一些研究。该表列出了每项研究工作所使用的语料库、将语料库划分为训练和测试部分、应用于语料库文档的数据预处理、特征加权方法和选择标准、所使用的分类算法文件按时间顺序列于表格中。从表1所示的各种研究工作中可以清楚地看到，在数据集、其大小、类的数量甚至在应用于文档的预处理步骤上都没有达成一致。这使得直接和公平的比较非常困难。3. 多项式网络多项式神经网络（PN）分类器在文献中已经已知多年（Fukunaga，1990; Campbell等人，2001年; Assaleh和Al-Ragan，2005年; Liu，2006年）。最近，PNs被证明在两个基准数据集的英语TC领域具有竞争力：路透社和20个新闻组，仅使用0.25表1阿拉伯文TC的相关研究工作的总结。参考语料库预处理培训/特征特征分类性能数据集类型##测试分裂重量选择算法440M.M. Al-Tahrawi，S.N. al-KhatibDocs类Sawaf等人阿拉伯语NEWSWIRE新闻33 K十，三十四没有0.80/0.20归一化随机最大精密度：50.0（2001年）1994频率熵召回率：89.5F测量值：62.7库尔迪半岛新闻新闻15005停用词的排除、剥离0.333/TF.IDF横NB平均精度：等人（二零零四年）元音，根提取0.667验证68.78%0.50/0.50最佳准确率：92.8%。0.6670.333赫赖萨特约旦报纸新闻N.A4删除标点符号，停止0.40/0.60TF没有曼哈顿宏观平均（2006年）（阿拉伯，盖德，单词、变音符号和非字母。距离，精确度和召回率：Al-Ra’I,将首字母“”、“”替换为“”。将最后一个“”替换为"“。骰子测量曼哈顿测量：（0.665，0.56）。骰子测量：（0.8875，0.83）杜瓦伊里内部收集新闻100010删除标点符号，0.50/0.50N.A.N.AKNN，NB，NB记录最好（二零零七年）格式化标签，介词，基于距离最高精度代词、连词和助动词精度/等级：1，动词最低精度/等级：67根提取物基于距离的最后用微平均精度，召回、辐射和错误发生率：（74.0，62.8，4.1，7.4）哈利斯半岛阿拉伯电视台新闻N.A.6删除标点符号和非标点符号N.AN.A.N.A最大召回率：80.48（二零零七年）新闻字母熵精密度：80.34www.elaph.net，www.转换到F测量值：80.41palestine-info.info和用代替，用代替www.islamonlone.net删除停用词产生梅斯勒半岛新闻14459足趾切除术和标点0.667/TF.IDF迟SVM宏观平均指数（二零零七年）纳哈尔标记.0.333Al-Hayat过滤所有非阿拉伯语单词。Al-Ahram排除停用词、变音符号，多斯托非字母和介词。哈姆扎的正常化删除不常见的术语。阿尔比沙特新闻社各种17,6587停用词0.70/0.30二进制迟SVM和C5.0平均精度：等人（二零零八年）SPA-SVM：68.65%SNP-C5.0：78.42%网站哈利斯半岛电视台新闻N.A6停用词、标点符号10倍归一化IG最大精确度、召回率和（二零零八年）网站标记、变音符号和非字母转换到用代替，用代替横验证频率熵，NB，KNN，DT，SVM，f度量NB（无FS）优于所有产生安算法，女（91.81）精确度、召回率和f度量SVM（带I.G）表现优于所有算法，女（88.33）Kanaan报纸网站新闻14459排除停用词。4倍TFN.A.KNN、NB和NB优于其他等人（二零零九年）删除标点符号，横TF.iDFRocchio使用精度和变音符号和非字母。验证加权召回IDFSaid等Alj-News阿拉伯语新闻15005(1)使用三个Stemmer进行Stemming：1200/300N. A.DFSVMMico-F1结果为（二零零九年）数据集4470N.A.RDI MORPHO3交叉-IG图见Alj杂志阿拉伯语Sebawai根提取器（SR）验证MI他们的研究。数据集轻型股骨柄（AS）CCAS伴MI或IG(2)删除停止词。最佳记录性能al-Saleem报纸网站新闻51217停用词、标点符号10倍N.A.N.ACBA，NB和CBA跑赢（二零一零年）标记、变音符号和非字母。横SVM宏观平均精度，正常化验证回忆和F测量。(80.5、80.7、80.4）尚塔尔阿赫巴尔-阿尔卡莱杰新闻17084删除连字符、标点符号1365/343TF.IDFBPSO-最佳表演是在关于Corne网络报新闻11734标记、数字、数字、非阿拉伯语821/352KNN注意，Alj_新闻：（2011年）Alwatan在线新闻15005字母和变音符号。1200/300J48（精确度、召回率、报纸删除停用词和罕见词SVMF-测量）半岛电视台新闻发生的次数少于五次，支持向量机（0.937，0.93，0.931）数据集NB（0.858，0.843，0.846）没有堵塞。J48（0.747，0.723，0.729）没有正常化的一些阿拉伯语字母al-SaleemSNP新闻51217去除数字和标点符号10倍N. A.N. A.SVM平均精密度，（2011年）哈姆扎的正常化交叉-NB召回过滤所有非阿拉伯语文本。验证。F-measure删除停用词。支持向量机（0.7790.778 0.778）NB（0.741 0.74 0.74）霍尔希德阿卜杜勒阿齐兹国王城沙特新闻17,65810删除数字，标点符号，0.70/0. 30TFDFKNN最佳精度：而Al-科学和机构kashida和停止词。DFIGNBNB：72.69图拜蒂技术语料库沙特哈姆扎的正常化二进制迟SVM（二零一三年）报纸C4.5网站安作家（接下页）使用多项式网络的441表1（续）参考语料库预处理培训/特征特征分类性能数据集类型##测试分裂重量选择算法442M.M. Al-Tahrawi，S.N. al-KhatibDocs类论坛伊斯兰主题阿拉伯语诗贝勒凯比尔 OSAC新闻100010删除数字，拉丁字母，0.70/0. 30TF.IDF迟安最佳精度：和孤立的字母，标点符号SVMBSO-CHI-SVM盖苏姆停用词和附加符号。BSO-CHI-（95.67%）（二零一三年）HAMZA的正常化SVM- 根词干- 光炮。SharefN.A.N.A.31724删除数字，标点符号，随机TF迟频率FRAM取得了最好等人（2014年）非阿拉伯语单词，停用词比宏观平均值F1：使aleph和hamza积累(95.1%）使用字母方法词袋（BOW）轻炮泥（FRAM）(93.6%）使用3克删除所有带长度NB人物等级少于三个。多变量表示伯努利朴素贝叶斯（多国旅）多项式朴素贝叶斯（MBNB）Fodil等人ADTC 1（阿拉伯文新闻1755删除标点符号，N.A.TFSACM的全球认可评分（2014年）主题数据集书变音符号，数字，非阿拉伯字母，TF.IDFACM累积衡量百分比分类，惟真主所喜悦的，是真主所喜悦的。专题的文档子集1）规范一些书写形式，概率正确分配到ADTC2（阿拉伯文主题数据集包括ﻩ‘‘（CTP）每个类别：使用TF。IDF 95%使用TF 88%分类，删除停用词子集2）。产生AbabnehSNP新闻51217Hamza正常化0.70/0.30余弦N.A.KNN余弦跑赢大盘等人（2014年）过滤所有非阿拉伯文本很明显，骰子和Jaccard删除停用词。骰子拥有最好的班级水平Coe cautious结果：关于Jacaard精密度：0.917Coe cautious召回：0.979使用多项式网络的443不w^ arg minjj Mw- 0jji我我我JJ我X1不112我i;1i;2i;3i;NiYX（AL-Tahrawi and Abu Zitar ，2008;AL-Tahrawi ，2013 ，2014，2015）。几种神经网络方法可以用于对不同类型的数据进行分类。在这项研究中，我们使用的多项式神经网络算法提出的坎贝尔等人。（2001）对阿拉伯文本文件进行分类。所提出的算法使用具有均方误差标准的判别训练。详细介绍了该算法及其在TC中的应用M1M2M3. . . Mnc]2015年其中nc是训练类的数量。然后，训练问题简化为找到一组最佳权重w（每个类一个权重），该权重最小化理想输出（目标）与训练数据的多项式展开的线性组合之间的距离，使得（ Campbell et al. ， 2001 年 ; Al-Tahrawi 和 AbuZitar，2008年）：将在以下小节中进行解释。optI2Wð6Þ3.1. PN的体系结构本研究采用的PN模型的表示由两层组成。在第一层（输入层）中，输入（特征）集合x（x1，x2，.，x N），其中N是输入特征的数量，用于形成所需阶数或次数K的单项基函数p（x）的集合。对于每个观测形成一个基函数p（x）对于一个K次多项式，p（x）的元素是其中oi是理想输出（列向量，其在第i类的数据位于M中的行中包含Ni类模型w opt可以通过应用正规方程方法一次性（非迭代地）获得（Campbell等人，2001年;Al-Tahrawi和Abu Zitar，2008年）：Mt Mw选择1/4M至1/7 M最后，w_opt计算如下：形式的单项式（Campbell等人，（2001年）：w选择1/4百万吨-1百万吨ð8Þ我我N Nxkj;其中kP0和06k6K<$1J联系我们例如，如果输入向量x包含两个要素3.3. PN分类器x1和x2，二阶多项式网络基函数p（x）看起来如下：新的不可见输入的分类包括两个部分：识别和验证。识别涉及发现px½1xxx2x xx2]t给定特征向量，这个输入。在核查阶段，在本研究中使用了2次多项式，因为该次数记录了我们实验中的最佳性能结果。然后，PN的第二层组合第一层的所有输出（基函数）以计算分数wt p（x），其中w是分类模型。生成分数wt p（x），识别阶段是接受还是拒绝。在PN算法中，识别阶段如下进行：以类似于在训练阶段中对训练输入所做的方式，将不可见输入的项向量x扩展为其多项式项p（x）（等式2）。① ①）。然后，新的看不见的输入被分配给类别c，使得（Campbell等人，二○ ○一年;J I对于每个输入向量xi和每个类j。然后，通过对所有特征向量的总得分进行平均来计算最终输出（Campbell等人，（2001年）：Al-Tahrawi和Abu Zitar，2008年）：c¼arg maxw opt·px对于i1; 2;.. . ; nc9sj¼ 1MMi¼1wtpxi3我其中nc是语料库中预定义类的数量。在验证中，接受或拒绝某个类别的决定其中M是类j中的特征向量的数量。该最终分数将用于识别和验证新的不可见输入。也就是说，数据首先在第一层中扩展到高维空间，然后线性分离使用第二层。在TC中使用PN的详细说明见第3.2节。3.2. PN分类器的训练阶段PN被训练为使用均方误差作为客观标准来近似理想输出。Campbell等人给出了第i类项向量（文献）的多项式展开式. Al-Tahrawi和Abu Zitar（2008年）：阳离子可以基于使用某一阈值。在在我们的实验中，我们接受分数高于0.5的分类，因为输出分数w i。 p（x）介于0和1之间。3.4. 使用PN的文本分类（TC）TC的训练阶段开始于使用向量空间模型为每个训练文档形成术语向量x。项通常由其tf.idf权重、二进制权重、归一化频率、. . 在我们的实验中使用了归一化然后，针对语料库中的每个训练文档形成期望的阶PN基函数，如等式（1）所示。（一）.在本研究M½½p xpxpx。 . . p-100[2014 - 04 - 04]其中，N i是类别i的训练特征向量的数量，p（x i，m）是类别i的第m个特征向量的基函数。在为训练类的每个类i形成M i之后，通过连接为每个类计算的各个M i，获得所有类的全局矩阵 M （ C a m p b e l l 等人，（2001年）：iments.例如，如果训练文档的特征向量是（0.5，0.2）;即，本文档中术语1和术语2的归一化频率分别是0.5和0.2，则本文档的二阶PN基函数为2019 -01-1500：00022这是一个最好的结果，因为它记录了我们的实验，444M.M. Al-Tahrawi，S.N. al-Khatibَ�在形成每个输入（训练）文档的基函数之后，如等式（1）中形成M i（类i的多项式展开）。（四）、然后，所有类别M的全局矩阵形成为等式（1）。（五）、现在，PN被训练为使用如等式2所示的均方误差准则来近似理想输出。（6）并且如等式（6）中那样计算各个类权重。（7）和（8）。最后，通过为新文档的项向量x形成基函数p（x），在新的未见过文档上测试分类器，如等式2所示。（1）并将此文档分配给最接近的类，如等式（ 1 ）中所示。（九）、4. 数据集在阿拉伯文TC领域的少量研究工作中使用了不同的阿拉伯文数据集，因为不存在基准阿拉伯文数据集。我们在这项研究中使用了半岛电视台新闻阿拉伯语数据集（Alj-News），可在（Alj-News Dataset）获得。Alj-News数据集来自半岛电视台阿拉伯语新闻网站。该数据集由1500份阿拉伯语新闻文件组成，平均分布在五个类别中：艺术，经济，政治，科学和体育。每个类有300个文档（240个用于培训，60个用于测试）。我们选择这个数据集，因为它被用于阿拉伯语TC文献中的几项研究（Said et al.，2009;Mohamed等人， 2005; Chantar和Corne，2011），这使得我们的结果与这些研究中取得的结果进行直接比较。第4.1节和第4.2节解释了预处理步骤和应用于该数据集的FS4.1. 数据预处理阿拉伯语语言组成的28字母（）除了哈姆扎（）。任何阿拉伯字母除了这三个长元音是一个辅音。阿拉伯语中使用了几种变音符号：Fatha、Kasra、Damma、Su kunn、Shadda、Mad（英语：Mad）和Tanwin。它们充当短元音，用于显示单词的正确发音（有时是含义），因为一个阿拉伯单词可以使用不同的变音符号具有不同的发音（因此也具有不同的含义）。例如，单词“”有几种形式和含义，例如：(1) 说(2) ladder：梯子已保存：收藏此帖子12月24 Saved：收藏此帖子12月24Saved：(4) 联系我们：(5) safety：安全消除无变音符号的阿拉伯语单词歧义的唯一方法是在上下文中找到它们。表2列出了这些变音符号的读音和发音。阿拉伯语与拉丁字母的不同之处在于，它是从右向左书写的，同一个字母根据其在单词中的位置而具有不同的形状;例如，（，，）是一个字母的四种不同形状，分别在单词的开头，中间和结尾。阿拉伯语表现出两种性别：阳性和阴性，以及三种数字类别：单数，双数和复数。阿拉伯语的复数形式分为两类：规则的和不规则的。一个名词有三种格，主格、格和属格。显然，阿拉伯语非常复杂和丰富，这解释了在阿拉伯语文档上实现准确的自动分类结果的困难。数据预处理是构建TC系统的一个常规部分，其目的是去除噪声并减少数据集中的特征（术语）数量。这导致减少构建分类器的处理器和内存需求，以及获得更准确的分类。我们在Alj-News数据集上应用了以下预处理步骤：(1) 令牌化：通过识别诸如空格、标点、特殊字符等分隔符，将文档从字符序列转换成标记（术语或特征）序列。(2) 删除非阿拉伯字母、数字、变音符号、特殊字符和标点符号。(3) 删除停用词：包括代词、连词和介词。我们扩展了Khoja和Garside（1999）采用的停用词列表，包括478个停用词，而不是他们采用的仅168个停用词。(4) 词干化：是将一个外来词或派生词还原为词干。词干不必与词根相同;通常，相关的词映射到同一词干就足够了，即使这个词干本身不是有效的词根。该预处理步骤的主要优点是减少文档中的术语数量，从而降低TC系统的计算和存储要求。对于高度衍生的阿拉伯语，其中大量的单词可以使用一个词干形成的情况下，词干是一个有价值的工具，在减少自动TC的复杂性。在这项研究中，我们采用了Khoja（Khoja和Garside，1999）的Stemming算法。这是一个著名的侵略性阿拉伯语词干（根提取器），它删除最长的后缀和最长的前缀，然后将剩余的单词与动词和名词模式匹配以提取根。作为一个例子， Khoja 词干算法将分别表示（学校）、（教师）、（课程）和（学习者）的阿拉伯语单词（）减少到一个词根（）。词干分析器使用了几个语言数据文件，例如所有变音字符、标点字符、限定冠词和停用词的列表。它是用C++和Java开发的，可在（ArabicStemmerCode.zip）上获得。表2阿拉伯语变音符号的发音变音符号示例声音Fatha Bagarba卡斯拉·阿比达玛·阿吉布Sukun B.B.ShaddaBbTanwin丹文邦马德·阿使用多项式网络的445表4在Alj-News数据集上应用预处理后的特征（术语）数量。类数方面联系我们表5用于构建PN分类器的功能。表3Khoja Stemming算法Khoja阿拉伯根提取器1. 通过删除任何标点符号、变音符号和非字母字符来设置单词的2. 忽略停用词3. 删除限定词，例如：。4. 删除特殊前缀（）5. 如果最后一个字母是shadda，则删除并复制最后一个字母6. 将“”替换为“”7

下载后可阅读完整内容，剩余1页未读，立即下载