阿拉伯语文本分类特征选择及萤火虫算法在沙特国王大学学报的应用

193 浏览量更新于2024-01-14 收藏 782KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于萤火虫算法的阿拉伯语文本分类特征选择Souad Larabi Marie-Saintea， Alalyaniba沙特阿拉伯利雅得苏丹王子大学计算机和信息科学学院计算机科学系b沙特阿拉伯利雅得沙特国王大学计算机和信息科学学院信息技术系阿提奇莱因福奥文章历史记录：收到2018年2018年5月26日修订2018年6月12日接受2018年6月15日在线提供保留字：阿拉伯语自然语言处理特征选择萤火虫优化方法文本分类A B S T R A C T由于互联网、电子邮件和数字图书馆中存在大量的文档，文档分类正成为一项非常重要的任务。它通常是在执行特征选择之后实现的，特征选择包括选择适当的特征以提高分类精度。大多数基于特征选择的文本分类方法都依赖于建立词频与文档频率的逆特征向量，这通常是效率不高的。此外，许多文献分类研究都集中在英语语言上。本文主要研究阿拉伯语文本分类问题，由于阿拉伯语的复杂性，目前对阿拉伯语文本分类的研究还不够深入提出了一种新的基于萤火虫算法该算法已成功地应用于不同的组合问题。然而，它还没有涉及到特征选择的概念来处理阿拉伯文本分类。为了验证该方法的有效性，采用了支持向量机分类器以及精确度、召回率和F-测度三此外，OSAC真实数据集上的实验以及与国家的最先进的方法进行比较。所提出的方法实现了精度值等于0.994。实验结果证实了所提出的特征选择方法在提高阿拉伯语文本分类准确率方面的有效性。©2018作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍自然语言处理（NLP）是计算机和人类自然语言之间的交互。NLP的主要任务是使计算机能够从人类或自然语言的参与中开发出重要的信息，使组成文本的信息能够被许多数据挖掘和机器学习算法所获取。文本分类（TC）是机器学习和数据挖掘的重要应用之一。它包括将自由文本文档分配到预定义的类别。TC吸引了许多研究人员，首先是由于互联网（Fangye和Yuanlong，2017），电子邮件（Berry和Castellanos，2008）和数字图书馆（Cardie和Wilkerson，2008）中的大量文档;其次是它在许多核心现实世界应用中的主要用途（Lewis和Yang，2004;Schwarzmann等人，#26263;的故事。*通讯作者。电子邮件地址：slarabi@psu.edu.sa（新加坡） Larabi Marie-Sainte）。沙特国王大学负责同行审查主题;图书馆中的学术论文和数字文档通常按技术领域和子领域组织;垃圾邮件过滤将电子邮件分为两类：垃圾邮件和非垃圾邮件。自动文本分类是非常需要的，以减少时间和精力，除了产生高识别率。TC和传统的分类问题一样，需要对数据进行预处理以提高分类性能。特征选择（FS）是分类过程之前执行的关键步骤。它涉及检测相关特征（重要词）的子集，用于分类过程。由于文件篇幅大，在技术合作之前非常需要这一文件（Hamouda，2013年）。它们的主要优点包括促进数据理解，减少训练时间，克服维数灾难问题。此外，分类器复杂度和处理需求（例如，存储器和桌面空间）将减少（Ballesteros等人，2002年）。在这项研究中，我们处理阿拉伯语文本分类（ATC）。阿拉伯语是世界上最伟大的语言之一。然而，对阿拉伯文本分类的研究相对较少，特别是对特征选择技术的研究。这是由于阿拉伯语结构概念的复杂性。阿拉伯文本文档中有两种类型的特征，外部特征和内部特征。外部特征定义为与文档内容无关的术语，包括https://doi.org/10.1016/j.jksuci.2018.06.0041319-1578/©2018作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS. Larabi Marie-Sainte，N.Alalyani/沙特国王大学学报321作者姓名、出版日期等。而内部特征包括文本内容的语言学特征，如词汇特征和语法特征。后者主要在ATC中进行研究。特征选择是一个组合问题，需要一个有效的优化技术，特别是在处理ATC。生物启发算法在解决复杂问题和组合问题中很常见。其中一些已经成功地应用于阿拉伯语，例如粒子群优化（Nicolas和Skubacz，2007;Zaeland和 Kanaan，2009; Chantar 和Corne ，2011）和蚁群优化（Mesleh和Kanaan，2008）。萤火虫算法（FA）是一种公知且有效的生物启发算法（Ramezanian等人，2010年）。它已经成功地完全应用于FS概念，以处理阿拉伯语说话人识别系统（Harrag和Harrag，2014），但从未用于阿拉伯语文本分类。在这项研究中，我们提出了一种新的基于FA的特征选择方法来执行ATC。这项工作的主要贡献是：开发一种名为Firefly的生物启发算法来处理特征选择过程。结合Firefly和SVM提出了一种新的阿拉伯文本分类系统（ATC-FA）。使用一个可用的数据集，以便将最先进的技术与我们提出的方法进行比较。本文的其余部分组织如下。第二部分是对阿拉伯语的概述。第三部分总结了ATC和FS过程的相关工作。第4节解释了拟议的FS方法。第5节描述了ATC拟议系统。第6节显示了使用OSAC数据集的参数设置及其影响，并讨论了实验结果。最后，第七部分对全文进行了总结，并对未来的工作进行了展望.2. 阿拉伯语阿拉伯语是现存的古老语言之一，有超过2.5亿人使用（Farghaly和Shaalan，2009）。此外，伊斯兰教地区还向15亿多人传播了这种语言（Farghaly和Shaalan，2009年）。自14个多世纪以来，阿拉伯人讲什么是所谓的古典阿拉伯语（CA），这是有关伊斯兰教和古兰经。然而，随着时间的推移，CA已经进步并改为现代标准阿拉伯语（MSA）。CA和MSA具有相同的词法和句法结构，但在词汇和文体结构上存在差异。除了CA和MSA之外，另一种多样性的阿拉伯语已经发展起来，称为方言，在朋友和家庭成员之间使用。这最后一个品种从一个阿拉伯国家到另一个不同（Al-Khalifa等人， 2008年）。阿拉伯语具有特定的语法、拼写和标点符号。此外，它有其适当的俚语，成语，和发音。这种语言以许多特征（Hasanuzzaman，2013）而闻名，这些特征使其比英语等其他语言这些特征包括：● 从右到左读和写● 它包含28个字母没有大写字母，有单数，双数和复数;阳性和阴性，通常这些词是通过词根发展的，词根词是三辅音，动词中完成的动作由后缀表示，例如动词中的未完成或当前动作由前缀表示，例如一个句子由动词、主语和谓语宾语组成，主语代词可以从句子中删除（pro- drop）（Farghaly和Shaalan，2009）。由于阿拉伯语的丰富性和阿拉伯语互联网内容的显著发展，阿拉伯语文本分类器工具的开发非常有趣。然而，它的发展是一项具有挑战性的工作。空中交通管制系统的方法学经历了如图1所示的几个阶段。这些阶段中的大多数在几乎所有ANLP应用中都是常见的。在本研究中，研究了三个阶段：特征选择，分类和评估。3. 相关作品与英语相比，阿拉伯语文本分类领域很少有人致力于生成包括特征选择在内的智能分类器。Kanaan等人（2006年）提出了一种新的ATC。在FS阶段，使用文档频率阈值（DF）方法在分类阶段，采用了关键最近邻算法和支持向量机算法。该研究报告的精度为0.95，并表明kNN适用于阿拉伯语文本。实验是在从不同的报纸网站上收集的阿拉伯语报纸文章上进行的，这些网站包括半岛电视台、Al-Nahar、Al-hayat、Al-Ahram和Al-Dostor。在Fayed et al. （2006）作者还提出了一个新的ATC基于文件频率和信息的混合方法。Rocchio被用作分类器。在分类阶段，训练和测试数据集收集自埃及报纸：El-Ahram，El-Akhbar和El-Gomhoria。通过查准率和查全率来衡量分类器的性能，并与kNN分类器进行了比较。实验结果表明，Rocchio算法比kNN算法对这些文档的分类精度更高，准确率约为0.98。在Mesleh和Kanaan（2008）中，作者提出了一种使用蚁群优化（ACO）的ATC。该方法应用于FS阶段，卡方。使用SVM。使用精确度、宏观平均召回率和宏观平均F1测量来执行评估。ACO Based-FS算法取得了更好的效果相比，六个国家的最先进的特征选择方法。结果实现了0.88的性能（宏观平均F1）。在Al-Thubaity等人（2008）中，作者使用决策树作为分类器，并使用卡方统计（X2）来减少特征。本研究的结果是通过计算的准确性进行评估如下所示，将正确分类的文档的数量除以测试数据集中的文档总数Fig. 1. 文本分类过程。●●●●●●●●●●322S. Larabi Marie-Sainte，N.Alalyani/沙特国王大学学报测试和训练数据是基于阿拉伯语NEWSWIRE和阿拉伯语Gigaword语料库。作者报告了SVM的平均准确度为0.68，C5.0为0.78在El-Qawasmeh et al. （2009），但分类性能基于召回率、精确度和F-度量。实验是在从阿拉伯科学百科全书收集的数据上进行的。决策树对ATC来说似乎是作者报告的全球准确度为0.93。在Zaeland和Kanaan（2009）中，作者基于智能方法研究ATC。FS阶段采用粒子群优化算法（PSO），分类阶段采用径向基函数（RBF）网络。为了评价这项研究，使用了从阿拉伯文在线报纸档案（包括半岛电视台、生活报、金字塔报和多斯托报）以及其他几个专门网站收集的阿拉伯文语料库。通过计算查全率、查准率和F-测度对分类器进行评价.粒子群算法的精度达到0.94（宏F1）。实验结果表明，该算法比文档频率、TF-IDF和卡方统计算法更有效。在Chantar和Corne（2011）中，作者通过在FS阶段应用PSO但使用SVM分类器进行了相同的工作。基于召回率、精确度和F1指标，分类结果比Zaeland和Kanaan（2009）中的结果更准确和有效。作者报道了约0.94的精度值。在Belkebir和Guessoum（2013）中，作者提出了一种基于混合BSO-CHI-SVM方法的ATC来分类阿拉伯语文本。在FS阶段采用蜂群优化算法（BSO）和CHI算法，分类器采用SVM。并将其分类结果与人工神经网络和支持向量机的分类结果进行了比较。实验在开放源代码阿拉伯语语料库（OSAC）上进行，使用不同的性能测量（召回率，精度和F-测量）。结果达到0.96的精度在Mansour等人（2013）中，作者在执行卡方FS方法后使用SVM对阿拉伯语文本进行分类。实验结果表明，F1-measure达到了0.80，证明了支持向量机在阿拉伯文文本分类中的有效性。在Alghamdi和Selamat（2014）中，作者开发了一种混合特征选择方法来提高Web文档聚类的准确性该方法由CHI平方、词频-逆文档频和互信息组成。作者使用K-均值聚类技术对知名的阿拉伯语在线报纸。作者报道纯度提高了28%。Harrag和Harrag（2014）提出了一种新的基于FA的生物启发的FS方法来处理阿拉伯语说话人识别系统。实验结果表明，该方法在提高识别性能和降低系统复杂度方面是有效的Rakhmadi Indriyani和Gunawan（2015）的作者将粒子群优化和遗传算法方法结合起来进行特征选择，以处理阿拉伯语文本分类。为了验证其性能，作者使用了一个来自（www.shamela.ws）和朴素贝叶斯多项分类器（NBM）的数据集。他们报告的准确度为0.8531，没有FS方法，0.8391与PSO和0.902与PSO-GA。作者建议将其他FS方法与所提出的技术相结合，以改善结果。在Roiss和Nazlia（2015）中，作者提出了用于阿拉伯语文本分类的分类器K-最近邻（KNN）的不同变体。本研究主要集中在发展分类器，而不是提出新的或改进的FS。作者报告Macro-F1值达到0.93。在Al-Tahrawi和Al-Khatib（2015）中，作者基于多项式神经网络网络.本研究也着重于提出一种新的分类器，并使用经典的CHI平方FS方法。结果达到0.94的精密度值。在Kanaan等人（2015）中，基于应用两种特征选择方法（CHI和IG）和四种分类器（朴素贝叶斯方法，决策树，朴素贝叶斯多项分类器，K-最近邻）提出了一项比较研究。BBC阿拉伯语数据集被用来进行这项研究。作者指出，K-最近邻分类器提供了最差的结果。萤火虫算法已成功地应用于不同的应用程序中找到相关的功能。在Banati和Bajaj（2011）中，作者将萤火虫算法与粗糙集理论技术相结合。使用四个基准数据集对所提出的FS结果只显示了减少后的特征数未进行确认测试Sarac and Aye Ozel（2013）提出了一种改进的萤火虫算法，用于提高Web文档分类的准确率。作者使用J48分类器，并在WebKB和会议数据集上测试了该技术。实验结果表明，FA提高了分类准确率（0.56- 0.93），减少了分类的时间。在Ghany等人（2015）中，作者开发了一种用于特征选择的二进制FA。为了测试这种方法的效率，他们使用了几个基准数据集，并将其与两种著名的生物启发方法（GA和PSO）进行了比较。实验结果表明，该算法在提高分类性能和减少特征集方面优于遗传算法和粒子群算法。他们报告的分类误差在0.024到0.297之间。在Agarwal和Bhanot（2015）中，FA被用于特征选择以提高人脸识别的分类准确性。开发的FS方法进行了测试，使用ORL和耶鲁大学的数据集，并与一些现有的方法。所提出的算法优于最先进的方法，ORL数据集和耶鲁数据集的准确率分别为0.94和 0.99在Peng等人（2018）中，作者通过将其与模拟退火相结合，开发了一种基于混合FA的特征选择，以改善所获得的结果。为了验证这项技术，他们使用了11个回归和29个分类数据集，并将其与不同的现有方法进行了比较。结果令人满意。在下文中，我们介绍了最近的特征选择研究的基础上群体智能算法。在 Basiri et al. （ 2009 ）提出了一种新的基于蚁群优化算法（ACO）的文本分类特征选择方法。使用Reuters-21578语料库，将所提出的群体智能方法与遗传算法（GA）、信息增益（IG）和CHI进行了比较。结果表明，ACO的精度（0.7713）优于GA、IG和CHI（分别为0.7713和0.7713）。0.7038、0.7220和0.7665）。作者提出了一些改进的线索衰减系数和信息素的量。在Alshomrani等人（2012）中，作者开发了一种新的基于蚁群优化（ACO）和面向轨迹的特征分析（TOFA）的混合特征选择方法用于文本分类。他们使用路透社和布朗数据集来验证所提出的方法以及朴素贝叶斯和决策树分类器，并将所提出的技术与TOFA技术进行了比较。他们报告了使用两个数据集的两个分类器的分类准确性，对于布朗语料库（分别为。路透社）0.71（分别为0.90）与朴素贝叶斯，和1.0（分别。0.57）的决策树。 ACO-TOFA比TOFA得到更好的结果，但所提出的方法值得改进，以提高结果。在Browne et al. （2013）提出了两种基于多目标粒子群优化（MOPSO）的特征选择方法。第一种技术是基于非支配排序的概念，而第二种技术是基于S. Larabi Marie-Sainte，N.Alalyani/沙特国王大学学报323FG半]联系我们半]技术使用拥挤、突变和优势原则。所提出的技术进行了比较与几个国家的最先进的FS方法使用12个数据集取自UCI库和k-NN分类器（k = 5）。作者报告称，第二种方法的性能优于第一种方法以及比较方法。建议加强对Pareto前沿非支配解的探索。他们还建议在这方面应用二进制多目标PSO。在Subanya和Rajalaxmi（2014）中，作者研究了一种基于人工蜂群（ABC）的新特征选择，以识别心血管疾病。他们使用UCI存储库提供的具有SVM分类器的基准数据集来验证所提出的方法。实验结果表明，0.86据报道，这比基于反向排序的FS方法产生的结果更好。Abdalla等人（2015）的作者进行了一种新的粒子群优化（PSO）特征选择方法来处理阿拉伯语文本摘要。对提出的方法进行了测试，并与5个现有的工作进行了比较。作者报告的精度为0.67，与现有方法的结果相比，这不是最佳结果。他们建议改进所提出的PSO，并研究新的群体智能技术，如进化策略。在Azuraliza等人（2017 ）中，作者提出了一种基于蚁群优化（ACO）的新特征选择方法用于情感分析。他们使用k-NN分类器来评估使用客户评论数据集的这种技术的性能。并将所得结果与信息增益（IG）、遗传算法（GA）和粗糙集属性约简（RSAR）进行了比较。作者报告的最大精密度为0.892，这是最佳结果。最后，大多数关于阿拉伯文本类的研究萤火虫的吸引力与它的亮度成正比。因此，对于任何两个闪烁的萤火虫，亮度较低的一个将向较亮的一个移动，亮度越高意味着两个萤火虫之间的距离越小3)萤火虫的亮度是由适应度函数的评价决定的对于最大化问题，亮度可以与目标函数（适应度函数）的值成比例。在本研究中，基于FA的FS（FAFS）源自（Ramezanian等人，2010和Ghany等人，2015）基于二进制版本（离散域）。请注意，萤火虫代表一个文档。每次对一个文档执行以下步骤。如果语料库包含N个文本文档，则对每个文档执行FAFS算法。因此，即使每个文档的大小彼此不同，也第一步：给定一个来自语料库的文档：1. 确定这个文档的大小，即属于它的字数（即萤火虫的大小）。2. 根据这个大小，设置萤火虫的数量来创建群（解释在第6.2节中给出）。3. 随机初始化萤火虫第二步：在初始化阶段之后，每个萤火虫（1）2）揭示被选词和被省略词。具体来说，萤火虫代表一种数组0; 1定义是否选择所研究的文本文档中的每个单词，如下面的等式所示SVM分类取得了令人鼓舞的结果（精度值达到0.93）。此外，建议智能xij1如果在文档i中选择了单词j0否则FS方法（PSO，BSO和ACO）处理阿拉伯语文本分类优于经典技术（DF，X2，. . ）.这是令人鼓舞的应用生物启发的方法，而不是经典的。此外，群智能算法（ACO（Basiri等人，2009; Alshomrani等人，2012; Azuraliza 等人， 2017 ）， PSO （ Browne et al. ， 2013 和Abdalla等人，2015）和ABC（Subanya和Rajalaxmi，2014））已经成功地应用于特征选择问题以处理不同的领域（文本分类、疾病识别、文本摘要等），但是它们在阿拉伯文本分类中并没有得到很好的应用。Fur-western，FA被成功地用于FS，它优于GA和PSO在大多数现有的研究。FA在不同的情况下也优于PSO（Yang，5792）。此外，基于FA的 FS处理阿拉伯语说话人识别系统（Harrag和Harrag，2014）取得了令人满意的结果。因此，我们非常有动机提出一个新的ATC由SVM和智能FS方法基于FA。4. 基于萤火虫算法的特征选择（FAFS）如上所述，FS是执行分类之前的关键步骤。它包括通过选择相关词来降低文本文档的维度。为了实现这一点，实现了FA（Yang，5792）。这是一种受萤火虫社会行为启发的新算法。萤火虫大约有两千种，大多数萤火虫会发出短暂而有节奏的闪光，作为萤火虫之间的交流手段。因此，萤火虫闪光的目的是吸引其他萤火虫。通过理想化萤火虫的某些闪光特性，提出了FA，它采用以下三个规则：（1）所有萤火虫吸引其他萤火虫，无论其性别;（2）程度离散化意味着将实际位置变为离散位置，即0; 1之间的二进制数。以下函数将位置限制为零或一（Li等人， 2012年）。S x111如果S是整数，则xij是整数，否则xij是整数，<其中：xij是萤火虫i在维度j处（文档的第j个单词表示萤火虫的位置x ij取1的概率换句话说，它是单词j被选中的概率rand是0; 1之间的随机数。在选择可靠性时，采用随机化的方法来提高开发效率突然的话。第三步：使用目标函数计算当前萤火虫位置的强度我们的目标函数定义如下：如果TFxij>2，则score¼XTFxij3其中：TFxij是萤火虫位置x ij的词频我们的目标函数意味着，如果单词j（萤火虫i）的频率高于2，那么这个频率可以被添加到分数中，因为这个单词有很大的可能性被选为相关的。第四步：给定固定的迭代次数，比较开始。如果萤火虫i的强度小于萤火虫k的强度，则萤火虫i将移向萤火虫k。吸引力函数br用于将萤火虫i移动到萤火虫k。.¼324S. Larabi Marie-Sainte，N.Alalyani/沙特国王大学学报0¼半]2brbe-crm4r是两个萤火虫之间的距离，b0是在r处的吸引力并且c是固定的光吸收系数。在本研究中使用的距离是如下定义的欧几里得距离（m¼2）。~~vuXd算法中，最佳位置（解）被离散化为0和1，以说明从特征空间中选择的特征。因此，文件的大小将减少。算法1和图1中的流程图。2.对FAFS 算法进行了总结。根据Ramezanian等人（2010）给出的建议考虑参数设置。请注意，代数和萤火虫的数量设置在ri;kj xi-xkjt第1页xij-xkjð5Þ应用部分。算法1：FAFS伪代码。其中xij是第i个萤火虫的第j个分量（单词），xkj是第k个萤火虫的第j个组成部分。d是萤火虫的尺寸（所研究文档的大小）。新位置由以下等式确定：xi¼xibrωxk-xia.rand-1兰特6先令其中，方程右侧的第二部分是吸引力函数br，其中m是2，第三部分是随机化，其中a和rand。这些属性是随机的在0和 1之间均匀生成的数字。请注意，该方程取自原始FA（Yang，5792），以确保多样化经营。第五步：由于位置被更新，因此强度也必须被更新（分数Eq. 3）。结束时5. 基于阿拉伯语文本分类的FAFS系统（ATC-FA）当使用FAFS处理语料库的所有文档时，所获得的文档被视为分类器的输入以被分类到合适的类。在这项研究中使用SVM分类器。SVM是Vapnik（1995）提出的一种著名的有效的机器学习模型。为了使用该分类器，WEKA API（Bin Othman和Yau，2007）被集成到系统中，以使用收集的训练数据来构建分类器模型。最后一个阶段是使用精确度（P）、召回率（R）和F-测度来评估我们的ATC-FA系统的性能。为了回忆每个度量的定义，考虑测试集中属于类别A的文档。分类器为每个文档预测一个类别，并且这些预测将落入关于类别A的三个假设中。TP（真阳性）●S. Larabi Marie-Sainte，N.Alalyani/沙特国王大学学报325-1/4Þ ¼ðTpþFp Þ半]表1OSAC阿拉伯语语料库。类文件数量社会经济3299社会法944体育717伊斯兰教总理事会210科学-应用卫生373纯科学-天文学300总5843该语料库已经过预处理，因此本研究省略了预处理阶段。6.2. FAFS参数设置图二.萤火虫算法流程图。TN（真阴性）-FP（假阳性）在描述FAFS并解释其过程之后，需要设置一些参数（萤火虫的数量、迭代次数和运行次数）。迭代给出了在一代萤火虫内获得最佳强度的可能性。在重复多次迭代次数后，运行获得最佳强度。运行可能需要更多的时间，但它们保证所获得的解决方案不能得到改善。这三个参数的设置是基于目标文档大小。如表2所示，文档的大小从10到13000不等。因此，设置相同的迭代次数（分别为萤火虫）因为文档大小对这些参数有很大影响，所以所有文档的参数都不正确。因此，三个数据组已形成的语料库的基础上的文件的大小。每个组包含子组，以检查建议FAFS的准确性和性能。通过首先改变萤火虫的数量，然后改变迭代的数量，最后改变运行的数量，请注意，这些参数在一个实验中不会一起改变该阶段的目的这些文件组的设置和参数总结在表2中。为了显示我们设置的效率，表3列出了上面讨论的数据子组，所选特征的数量以及准确性。如前所述，在每种情况下，文件大小都大大减少。的准确性是通过应用SVM分类器后的dimen，精密度测量器 TpTPÞ ¼ðTpþFn ÞF措施2PRR6. 实验结果ð7Þð8Þð9Þ减少了每个数据子组的大小请注意，仅在OSAC语料库的一部分（85%）上进行参数设置的实验，其余数据保留用于最终评估/验证（测试数据）。然后，使用具有10倍的CV特征将该子集（整个数据的85%）分成训练和测试子集。CV是将数据集随机分为10个大小相等的子集的过程。10个子集中的一个被保留用于测试，其他9个子集被认为是训练数据。该过程重复10次，每次保留不同的子集进行测试。将获得的10个结果平均以提供一个评价。对于最终验证/评估，测试数据（剩余在本节中，我们介绍了本研究中使用的数据集基准。然后，我们解释了如何设置FAFS所需的参数。6.1. 阿拉伯语数据集OSAC从多个BBC和CNN阿拉伯语网站收集。语料库包括5843个文本文档，分布在六个类别中，每个类别包含300; 2000个原始文档，如表1所示。该语料库被分为两个子集，以建立分类系统的训练和测试数据请注意，OSAC的15%）。6.3. 比较研究在本节中，使用SVM分类器的六种FS技术和相关工作部分中讨论的一种最先进的方法进行比较研究。从FAFS获得的结果，这是具有减小的大小的文档，被视为SVM分类器的输入，以将文档分类到合适的类。本实验的目的是表明开发的FAFS对ATS-FA系统有实质性的影响。●●召回令326S. Larabi Marie-Sainte，N.Alalyani/沙特国王大学学报表2FAFS实验装置。DOC尺寸[最萤火虫数量迭代次数试验次数小[10-995105Docs[100-599]121020[600- 一千402070平均[1000-1500]4030100Docs[1500-2000年]4030100[2000-5000]4030100大[6000- 九千4030100Docs[9000-13，000]4030100表3OSAC降维。DOC尺寸[最特征[最小值，最大值]精度精度值在0.08和0.1之间）。实验表明，TFIDF和CfsSubset Eval是最快的方法. FAFS比其他FS方法花费更多的时间最后一个实验致力于比较我们提出的小型[10[100[600–1000]平均值[1000框架与BSO-CHI-SVM方法（Belkebir和Guessoum，2013）（在第3节中讨论）。据我们所知，这是唯一使用OSAC数据集的最先进的方法。此外，它是基于粒子群优化算法，这也属于Docs[1500-2000年][309，575][83百分之九十四]生物启发的家庭其他现有的方法使用不同的Ara-[2000-5000][450，920][77百分之八十七]无法访问的bic数据集大[6000- 九千[1105，1923年][76百分之七十九]表6显示了该比较研究的结果如图所示，Docs[9000-13，000][2011，2431][72百分之七十四]FAFS的性能优于BSO-CHI-SVM（提高了精度值等于0.03）。表4和表5显示了FAFS与WEKA中实现的六种FS算法（InfoGain、OneR、TF-IDF、CorrelationAttribute Eval、Classi- fierAttributeEval和CfsSubsetEval）的比较。精度（P），召回率（R）和F-测量（F）被用来作为性能指标的分类精度。实验结果表明，FAFS算法比六种FS算法具有更高的正确分类率（871个样本，超过876个样本），并且提高了分类性能（提高了6.4. 讨论FAFS是一种具有竞争力的方法，在分类精度和实验时间方面都取得了良好的效果。分类性能达到100%，在大约3分38秒，分类超过5843个文件.然而，它的性能并没有远远超过现有的方法，如在比较研究中所示。FAFS值得改进。表4比较结果：FAFS与InfoGain、OneR和TFIDF的比较类InfoGainOneRTFIDFFAFSPRFPRFPRFPRF社会经济0.9560.9810.9880.9580.9820.9900.9770.9900.9900.9880.9951.000社会法0.9870.9890.9930.9870.9890.9930.9890.9941.0001.0001.0001.000体育0.9410.9470.9080.9410.9470.9080.9630.9670.9540.9950.9960.991伊斯兰教总理事会0.8950.8980.9170.8950.8980.9171.0001.0001.0000.9560.9570.917科学-应用卫生1.0001.0001.0001.0001.0001.0001.0000.9910.9910.9910.9910.983纯科学-天文学1.0001.0001.0001.0001.0001.0001.0001.0001.0000.9900.9910.982加权平均值0.9790.9780.9780.9800.9790.9790.9890.9890.9890.9940.9940.994总数量876876876876仪器正确分类97.8311%（857毫克）97.9452%（858）98.8584%（866）99.4292%（871）仪器分类不正确2.1689%（19分）2.0548%（18毫）1.1416%（10毫）0.5708%（5 μ m）Exp.时间（秒）179.81159.4113.71218.57表5比较结果：FAFS与CorrelationAttribute Eval、ClassifierAttribute Eval和Cfs Subset Eval的比较类相关性属性评估分类器属性评估Cfs子集评估FAFSPRFPRFPRFPRF社会经济0.9560.9810.9860.9630.9840.9920.9790.9910.9960.9880.9951.000社会法0.9920.9931.0000.9920.9931.0000.9960.9960.9931.0001.0001.000体育0.9410.9470.9080.9410.9470.9080.9520.9570.9270.9950.9960.991伊斯兰教总理事会0.8770.8800.9170.9350.9360.9170.9790.9801.0000.9560.9570.917科学-应用卫生1.0001.0001.0001.0001.0001.0001.0001.0001.0000.9910.9910.983纯科学-天文学1.0001.0001.0001.0001.0001.0000.9780.9791.0000.9900.9910.982加权平均值0.9790.9780.9780.9820.9820.9820.9880.9870.9870.9940.9940.994总数量876876876876仪器正确分类97.8311%（857毫克）98.1735%（860）98.7443%（865）99.4292%（871）仪器分类不正确2.1689%（19分）1.8265%（16分）1.2557%（11%）0.5708%（5 μ m）Exp.时间（秒）176.74174.35100.24218.57S. Larabi Marie-Sainte，N.Alalyani/沙特国王大学学报327表6比较结果：FAFS与BSO-CHI-SVM的比较类BSO-CHI-SVM FAFSPRFPRF社会经济0.960.960.960.990.991.00社会法1.00.930.961.001.001.00体育1.01.01.00.991.000.99伊斯兰教总理事会0.890.830.860.960.960.92科学-应用健康0.910.960.940.990.990.98纯科学-天文学1.01.01.00.990.990.98加权平均值0.960.950.950.990.990.99首先，用曼哈顿距离代替欧几里德距离可以提高算法的性能，尤其是运行时间。第二，改进目标函数和离散化方程。最后，研究参数设置，使c和b0。7. 结论本文研究了一种新的基于萤火虫算法的阿拉伯文文本分类特征选择方法，提出了一种新的ATC-FA系统。为了验证所提出的系统的性能，使用三种不同的分类措施在OSAC数据集上进行了几次实验和与现有技术方法的比较不幸的是，只有一个阿拉伯文文档语料库进行测试，由于文献中提到的其他语料库实验结果表明，FAFS方法与SVM分类器相结合，取得了较好的效果因此，建议的ATC-FA系统值得在需要ATC的不同应用中使用。然而，可以对FAFS进行一些改进以减少实验时间并进一步提高分类性能，例如将FAFS实现中使用的Euclidian距离改为另一种耗时较少的度量，如Manhattan距离。目标函数也可以被增强。此外，ANLP是一个有趣的研究领域，需要更多的参与在不同的方面。然而，阿拉伯语语料库却很少，因此，建立一个阿拉伯语文档库，以提供不同的语料库是非常重要的。致谢这项工作得到了沙特阿拉伯利雅得苏丹王子大学机器学习研究小组的支持[RG-CCIS- 2017-06-02]。引用Abdalla，H.，Al-Zahrani，A.M.，Mathkour，H.，2015.基于粒子群算法的阿拉伯语文本摘要特征选择。 J. 通用计算Sci. 21（11），1454-1469。Agarwal，V. ，Bhanot，S.，2015.萤火虫启发的人脸识别特征选择。在：当代计算（IC3），2015年第八届国际会议，pp。257-262.Alghamdi，H.，Selamat，A.，2014.用于阿拉伯文网页分类的混合特征选择k-means方法。技术期刊 70（5），73-79。Al-Khalifa，H.，Al-Ajlan，A.，Al-Salman，A.，2008.阿拉伯文自动可读性测量之发展。在：第三届数字信息管理国际会议论文集，pp。506-511. Alshomrani，S.，Alghamdi，H.S.，Lilian Tang，H.，2012年。基于蚁群算法和TOFA的文本分类特征选择方法在：IEEE世界大会上Computational Intelligence，Brisbane，Australia. 10-15Al-Tahrawi，M.M.，Al-Khatib，S.N.，2015.使用多项式网络的阿拉伯语文本分类。沙特国王大学 J. 沙特国王大学 INF. Sci. 27，437-449。Al-Thubaity，M.，Khorsheed，S.，Al-Harbi，A.，Almuhareb，A.，Al-Rajeh，A.，2008.阿拉伯文文本自动分类。第九届国际文本数据统计分析日。Azuraliza，A.B.，Siti Rohaidah，A.，Nurhafizah Moziyana，M. Y.，雅各布先生2017.ACO-KNN算法作为特征选择的统计分析情感分析电子与通信系统国际会议。巴列斯特罗斯湖L.S.的Larkey，康奈尔法医2002.改进阿拉伯语信息检索的词干提取：轻词干提取和共现分析。在：第25届年度国际ACM SIGIR会议的研究和发展信息检索，pp。275-282.Banati，H.，Bajaj，M.，2011.基于萤火虫的特征选择方法。IJCSI Int. J. Comput. Sci.Issu

下载后可阅读完整内容，剩余1页未读，立即下载