没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报一种用于阿拉伯语观点文本中垃圾邮件检测的集成方法Radwa M.K.放大图片创作者:Sherine Rady J.GharibAin Shams大学计算机与信息科学学院信息系统系,开罗11566,埃及阿提奇莱因福奥文章历史记录:收到2019年2019年10月1日修订2019年10月6日接受在线预订2019年保留字:阿拉伯语垃圾邮件评论检测N-gram功能基于内容的特征否定处理机器学习Ensemble方法A B S T R A C T如今,个人通过在线评论表达经验和意见。这些对在线营销和获得有关产品和服务的真正知识产生了影响。然而,一些在线评论可能是不真实的。它们可能是为了推广低质量的产品/服务而编写的或破坏产品/服务声誉以误导潜在客户。这种误导性的评论被称为垃圾评论,需要引起高度重视。以前的垃圾邮件检测研究主要集中在英文评论上,对其他语言的关注较少。在阿拉伯语在线资源中检测垃圾评论是一个相对较新的话题,尽管产生了相对巨大的数据量。因此,本文提出了四种不同的阿拉伯语垃圾邮件评论检测方法,同时把更多的重点放在建设和评估的集成方法等主题。所提出的集成方法基于将基于规则的分类器与机器学习技术集成,同时利用依赖于N-gram特征和否定处理的基于内容的特征。在两个不同大小的数据集上对所提出的四种方法进行了评估。结果表明,集成方法的效率,它实现了95.25%和99.98%的分类准确率为两个实验数据集和超越现有的相关工作远25%。©2019作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍最近,网上意见资源有了惊人的增长,这些资源富含客户的意见。这些意见有助于突出业务的积极或消极方面,包括产品/服务质量、购买互动或客户支持活动。它们还允许客户从彼此对产品或服务的体验中受益,并在购买前做出明智的决定如果手动完成,分析多个评论以进行决策的这导致了通过情感分析对评论进行自动分析的出现(Ismail等人, 2016年)。情感分析使用自然语言处理(NLP)从在线评论中识别和提取主观信息(即特征)(Touahri和Maroui,2019)。采用的特点*通讯作者。电 子 邮 件 地 址 : radwa. cis.asu.edu.eg ( R.M.K. Saeed) , srady@ cis. asu.edu.eg(美国)Rady),tfgharib@cis.asu.edu.eg(T.F. Gharib)。沙特国王大学负责同行审查有必要对评论进行分类,以确定其中包含的整体情绪(例如,消极、积极或中立)。情感分析对于组织和服务提供商非常有用,因为它允许他们跟踪和监控客户对许多主题的评论,并对其进行分类,以提高产品质量或促进服务性能。由于情感分析的重要性,一些研究已经致力于这一研究领域。这些研究中的绝大多数都关注英语文本的情感分析,而这些研究中的一小部分则致力于形态丰富的语言文本,例如阿拉伯语文本(Tartir和Abdul-Nabi,2017)。阿拉伯语文本的情感分析被认为是一个研究领域,它包含了几个具有挑战性的点,需要处理以实现有效的设计。这些挑战包括:语言的形态复杂性意味着需要有效的预处理和特征表示,需要建立强大的分类器,以及需要识别和消除垃圾意见文本(Touahri和Maroui,2019)。由于阿拉伯语的复杂性,形态复杂性上升。例如,同一个词的书写缺乏规范性。一个阿拉伯单词可以用不同的后缀、词缀和前缀写成不同的形式。此外,不同的阿拉伯语单词可以传达不同的含义,https://doi.org/10.1016/j.jksuci.2019.10.0021319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com小行星1408Saeed等人 /沙特国王大学学报-计算机与信息科学34(2022)1407- 1416相同的三个字母的词根同样的字母,根据它在单词中的位置,也可以写成不同的形式另一个原因是,大多数阿拉伯语单词都是以非结构化的形式书写的,其中一些阿拉伯语单词可能充满拼写错误,缺少标点符号和重复(Al-Radaideh和Al-Abrat,2018)。另一个原因是否定处理。否定词可以改变句子的意义,逆转句子的情感极性。因此,似乎否定处理可以在准确地检测情感方面发挥至关重要的作用(Wahsheh等人, 2013年)。另一个挑战是阿拉伯语垃圾意见检测,它被认为是与意见Spam opinion是指虚假或虚假的评论。 垃圾意见通常是为了使用负面意见来破坏某个产品的声誉,或者通过正面意见来推广低质量的产品(Saeed等人,2018年)。垃圾意见检测对公司有很大的影响,因为如果提供的关于产品/服务的意见包含大量的垃圾意见信息,用户此外,如果用户被这些垃圾意见欺骗,他们将不会再次购买/使用此产品/服务因此,开发一种在阿拉伯语观点文本中检测垃圾评论的方法是一项不可或缺的任务,特别是很少有人尝试这项任务,阿拉伯语(Hammad和El-Halees,2013年)。本文的主要贡献是比较不同的方法来检测垃圾评论在阿拉伯语在线意见来源,同时考虑其他上述挑战。在这个范围内,混合(合奏)的方法进行了研究。本文从基于规则分类和机器学习分类两个研究方向出发,提出了一种混合设计的垃圾评论检测算法,实现了对阿拉伯语垃圾评论的高准确率检测。基于规则的分类器依赖于一组定义的规则,同时考虑基于内容的特征,这些特征依赖于提取N元特征的三重组合以及应用否定处理。基于规则的分类器的决策输出与监督和无监督机器学习分类器的决策输出一起被判断,以得出关于类别的最终决策。为了验证该算法的有效性,在两个数据集上进行了实验论文的其余部分组织如下:第2节给出了在该领域的垃圾评论检测的相关工作的见解,第3描述了所提出的方法,第4给出了实验结果和讨论,最后,第5总结了论文,并描述了未来的工作。2. 相关工作在过去的十年中,在检测垃圾评论的领域中已经进行了大量的研究。这些研究大多集中在使用监督学习技术检测垃圾评论。这些作品主要集中在用英语撰写的评论(Hammad和El-Halees,2013)。针对阿拉伯语评论中垃圾评论的检测研究较少。因此,本节介绍了一个在以前的作品,处理垃圾邮件评论检测阿拉伯语和英语语言。一些阿拉伯语垃圾评论检测方法已经应用于(Wahsheh等人,2013; Hammad 和 El-Halees , 2013;Sabbeh 和 Baatwah , 2018;Jardaneh等人,2019; Alorini和Rawat,2019; Alzanin和Azmi,2019)。Wahsheh等人(2013)开发了一个阿拉伯语垃圾URL检测系统,其中Yahoo!Maktoob社交网络根据包含的URL分为高级或低级垃圾评论。如果URL被列入黑名单,则该评论被归类为高级垃圾邮件评论字典或标记为垃圾邮件,如果URL没有标记为垃圾邮件或包含连续的数字或带有连续字母的“@”符号,则评论被分类为低级垃圾邮件如果评论不包含URL,则将其归类为非垃圾邮件。当使用支持向量机分类器验证时,该系统报告了97.5%的准确度。Hammad和El-Halees(2013)将从tripadvisor.com.eg、booking.com和agoda.ae收集的评论分类为垃圾和非垃圾,使用评论内容特征、关于每个评论的元数据和评论者特征的组合。他们的数据集没有标记,他们根据定义的主观度量列表中的评分手动标记垃圾邮件案例。该系统使用三个分类器进行评估:K-最近邻,朴素贝叶斯和支持向量机,其中最高的 准 确 率 是 由 朴 素 贝 叶 斯 分 类 器 达 到 99.2% 的 值 。 Sabbeh 和Baatwah(2018)和Jardaneh等人。(2019)提出了一个用于检测Twitter上虚假阿拉伯语新闻的模型。两者都采用了基于用户,基于内容和情感分析的功能。两人还在不同的机器学习技术上测试了他们的模型,并得出结论,利用情感分析功能对提高准确性有显着影响Sabbeh和Baatwah(2018)使用决策树分类器获得了89.9%的准确率,而Jardaneh等人,2019)实现了随机森林分类器的76%的准确率。Alorini和Rawat(2019)研究了Twitter上的海湾方言阿拉伯语提取了一些特征,如:哈希标签的数量,缩短的URL的数量,以及是否存在脏话。朴素贝叶斯和支持向量机进行了测试,其中使用朴素贝叶斯分类器实现了86%的最大准确率Alzanin和Azmi(2019)引入了两种不同的学习模型来检测虚假的阿拉伯语推文;半监督学习和使用期望最大化的非监督学习。两种类型的功能进行了研究:基于推文和基于主题的功能。半监督学习模型取得了比无监督学习模型更好的结果,准确率为78.6%。一些相关的工作也已提交的范围内,英文垃圾评论检测,例如(Narayan et al.,2018年;Mani等人,2018; Saumya 和 Singh , 2018; Kumar 等 人 , 2018;Hassan 和Islam,2019; Barushka和Hajek,2019; Jain等人, 2019年)。这些作品使用不同的机器学习分类器检测垃圾评论。Narayan et al.(2018)将语言查询和单词计数以及Uni gram与senti- ment评分结合起来作为特征。Logistic回归分类器的准确率为86.25% Mani等人(2018)介绍了一种集成技术,结合了三种分类器:朴素贝叶斯,随机 森 林 和 支 持 向 量 机 。 他 们 采 用 了 N-gram ( Uni-gram + Bi-gram)特征,并实现了87.68%的最大准确率。在他们的研究中,他们得出的结论是,只使用Saumya和Singh(2018)介绍了一种利用三个特征的方法:评论及其评论的情绪,基于内容的因素和评级偏差。他们记录了随机森林分类器的F1得分为他们的工作阐明了利用情感挖掘可以实现更好的准确性。Kumar等人(2018)根据评论内容和产品评级偏差对垃圾评论进行分类。他们的模型使用神经网络分类器获得了82.2%的准确率Hassan和Islam(2019)介绍了一种模型,该模型利用基于内容的特征,包括词频计数、情感极性和评论长度。该模型通过朴素贝叶斯分类器获得了86.32%的准确率。他们的工作说明,使用评论长度作为特征在检测垃圾评论中具有很好的意义。其他一些工作主要集中在检测英文垃圾评论使 用 深 度 神 经 网 络 , 如 Barushka 和 Hajek ( 2019 ) 和 Jain 等 人(2019)。Barushka和Hajek(2019)使用了一种基于内容的模型,该模型同时考虑了词袋和单词上下文R.M.K. Saeed等人/Journal of King Saud University- Computer and Information Sciences 34(2022)1407-14161409特性.他们使用N-gram和skip-gram词嵌入方法。本工作达到了89.75%的准确率。Jain等人(2019)介绍了两种不同的模型:多实例学习模型(MIL)和卷积神经网络模型(CNN- GRU)。MIL模型基于将相同训练示例的不同实例馈送到相同模型,而CNN-GRU模型基于使用CNN提取N-gram类语义特征并学习来自CNN模块的提取特征之间的语义依赖性。CNN-GRU报告的准确率最高,为91.9%。3. 该方法所提出的用于检测和分类阿拉伯垃圾评论的方法如图1所示。它包括三个主要模块:(I)预处理,(II)提取模块,(III)垃圾邮件检测。以下小节将对每个模块进行说明。3.1. 预处理预处理完成之前,提取任何功能,以删除数据的不相关部分。预处理模块包括五个连续的步骤:标记化,非阿拉伯语文本去除,规范化,停止词去除,和轻词干。这些步骤最初是在评论文本上完成的– 标记化:将评论的文本分割– 非阿拉伯语文本删除:检查所有评论表1阿拉伯文文本规范化。替换字母ﻱﻯ،ٸ،ﺉﺍﺁ،ﺃ،ﺇ،ﭐ،ٳ،ٲﻩﺓﻭﯢ،ﺅ،ٶ没有什么ِ◌،ُ◌،َ◌،ٍ◌،ٌ◌،ً◌– 规范化:通过将单词的不同形式转换为通用形式,从输入文本中生成一致的形式。在这一步中,检查每个评论的标记的字符,以检测它们是否处于规范化形式。表1显示了执行阿拉伯语文本规范化的方式。– 停止 话 移除: 去除毫无意义话这可能会导致改进响应时间和减少索引的空间。 包含700个停用词的阿拉伯语停用词列表是采用这列表包括话等作为(.. . ).– Light Stemming:将单词返回到其原始形式。对于非阿拉伯语言,基本词干可以是前置的或后置的,以表达语法句法。然而,在阿拉伯语中,在词干提取之后很难区分一些阿拉伯语单词,因为有些单词具有相同的词根,而它们具有完全不同的含义。 表2显示了一个阿拉伯语词干问题的例子。 因此,轻词干是用来避免这个问题,其中常见的前缀和后缀集是从一个词裁剪,而不减少一个词的根。表3显示了在应用阿拉伯语轻词干时删除的前缀和后缀的列表。Fig. 1. 拟议办法概览。1410R.M.K. Saeed等人 /沙特国王大学学报-计算机与信息科学34(2022)1407- 1416表2阿拉伯语词干处理问题的示例。阿拉伯语单词在英语中的含义Sentiment score根表5否定处理示例。阿拉伯语句子极性ﺗﻼﻋﺐﻳﻠﻌﺐ杂耍1戏剧1ﻟﻌﺐ1ﺍﻟﻐﺮﻓﺔﻧﻈﻴﻔﺔ1ﺍﻟﻐﺮﻓﺔﻟﻴﺴﺖﻧﻈﻴﻔﺔ表3阿拉伯语轻词干中删除的前缀和后缀列表。表6基于内容的特征及其描述。删除前缀和后缀前缀后缀ﺍﻝ،ﻭﺍﻝ،ﺑﺎﻝ،ﻓﺎﻝ،ﻟﻞ،ﻛﺎﻝ،ﻭﻟﻞ،ﻭﺑﺎﻝ،ﻭﻛﺎﻝ،ﻭﻓﺎﻝﻫﺎ،ﺍﻥ،ﻭﻥ،ﺍﺕ،ﻳﻦ،ﻳﻪ،ﻭﺍ基于内容的特征描述评论中的总字数3.2. 提取模块提取模块是一个重要的模块,因为唯一单词百分比评论评分偏差评论中唯一词的百分比计算出的评论的情感得分与评论者给出的评论评分之间的差异适当特征集的选择在分类中起关键作用(Arif等人,2017年)。该模块由三个过程组成:N-gram特征提取、否定处理和基于内容的特征提取。3.2.1. N-gram特征提取N-gram是文本分类中最常用的特征提取方法。N-gram是文本中n个连续单词的序列。最常用的N-gram特征是:Uni- gram(一个单词),Bi-gram(两个连续单词)和Tri-gram(三个连续单词)。在阿拉伯语中,为了更好地表示特征,需要使用N-gram特征而不是单独使用Uni-gram特征。这是因为它们在完成意义和影响陈述极性方面的作用,如表4所示。因此,在所提出的设计中,提取三种不同N-gram特征的不同组合用于测试; Uni-gram特征、Uni-gram连同Bi-gram特征、以及Uni-gram连同Bi-gram和Tri-gram特征。之后,从包含17,000个单词/短语的情感词典中检索所提取的特征的极性。仅考虑情感词典中存在的N元语法特征3.2.2. 否定处理阿拉伯语的否定词已被考虑到正确的极性分类。一个由50个否定词组成的阿拉伯语否定词列表,例如(. )已建成。在这个过程中,检查每个提取的N-gram特征,以确定前面的单词是否是否定词或不.如果前面的词是否定词,则N元特征的极性反转。而如果前面的词不是否定词,则N元语法特征的极性是保持原样。表5显示了否定处理的示例正确计算否定词和肯定词的数量接下来,基于积极词计数和消极词计数来计算评论情感分数。接下来,将计算出的情感分数与评论者给出的评论评级值进行比较,并且该评论评级值的范围从1到5。这最终导致了评论评级偏差。表6示出了所提取的基于内容的特征的描述。3.3. 垃圾邮件检测在这个模块中,介绍了四种不同的测试方法:(I)基于规则的分类器,(II)经典机器学习分类器,(III)多数投票包围分类器,和(IV)堆叠包围分类器。这些方法使用先前提取的基于内容的特征来将评论分类为垃圾评论或作为一个真实的评论。在下面的小节中,将解释这四种方法。3.3.1. 基于规则的分类器在这种分类方法中,一组规则,这取决于基于内容的功能:字数,独特的话的百分比,和评论评分偏差,被构造。在这些规则中,定义了两个阈值;一个用于单词的计数,一个用于唯一单词的百分比。对于每一个评论,并计算唯一字的百分比,并将其与定义的阈值进行比较。根据这些比较以及评论评级偏差,评论被分类为垃圾评论或真实评论。当量(1)显示评论如何被分类为垃圾邮件或真实评论。R¼。如果CWTCW和PUW>TPUW和RRD¼假3.2.3. 基于内容的特征提取该过程构造了一组不同的基于内容的特征,其是(i)单词计数,(ii)唯一单词百分比,以及(iii)L哪里Spam;如果CW≥TCW或PUW≤TPUW或RRD¼Trueð1Þ审查评级偏差。该过程取决于先前提取的N-gram特征及其处理的极性,以便表4N-gram Features具有已识别极性的示例。N-gram特征示例极性RL:审查标签CW:字数PUW:唯一单词百分比TCw:单词计数阈值TPuw:唯一单词百分比阈值RRD:审查评级偏差1Uni-gramﺧﻴﺒﺔﺃﻣﻞ-13.3.2. 机器学习分类器二元语法ﻛﺒﻴﺮﺓ1将评论分类为垃圾评论或真实评论是二元语法三元语法ﺧﻴﺒﺔﺃﻣﻞﺧﻴﺒﺔﺃﻣﻞﻛﺒﻴﺮﺓ-1-1使用几种机器学习分类器执行:决策树,朴素贝叶斯,逻辑回归,支持向量机,¼¼¼¼R.M.K. Saeed等人/Journal of King Saud University- Computer and Information Sciences 34(2022)1407-14161411K-Means、K-Nearest Neighbor、Bagging、Boosting、RandomForest和Neural Networks。3.3.3. 多数表决集成分类器多数表决集成是当以并行方式一起应用基于规则的分类器和机器学习分类器时由它们做出的决策的聚合。 通过从多个预测模型中获取具有最高投票的预测来做出最终决定。根据最终决定,评论将被归类为垃圾邮件或真实评论。在我们的设计范围内,所有经典的机器学习分类器都用于投票集成。图2示出了多数表决集成分类器的概述。3.3.4. 堆叠集成分类器堆叠是一种类似于多数表决的集成方法。然而,基于规则的分类器和机器学习分类器是顺序执行的,而不是并行执行的。在该方法中,首先执行基于规则的分类器来将评论分类为垃圾评论或真实评论。其次,将基于规则的分类器的输出与原始数据集标签进行比较,以将其分类为一组正确分类的评论和一组图二. 多数投票集成分类器(Major Voting Ensemble Classifier)错误分类的评论。最后,正确分类的评论的集合被用于训练机器学习分类器,而不正确分类的评论的集合被用作机器学习分类器的测试集。 图图3示出了堆叠集成分类器的概述。4. 实验、评估和讨论本节包括实验结果和图1中所提出的架构的评估,包括上述四种阿拉伯语垃圾邮件意见检测方法。4.1. 数据集两个不同的公开可用的意见数据集。第一个数据集是Ott等人(2011)创建的欺骗性意见垃圾邮件语料库(DOSC)。该数据集包含1600条关于芝加哥20家热门酒店的英文评论。DOSC数据集在阿拉伯语专家翻译的帮助下从英语翻译为阿拉伯语。该数据集分为两组:800条真实评论和800条垃圾评论。第 二 个 数 据 集 是 由 Elnagar 等 人 创 建 的 Hotel Arabic ReviewsDataset(HARD)。这个数据集更大,它包括94,052条关于1858家酒店的阿拉伯语评论,并从Booking.com收集。 这些评论以现代标准阿拉伯语和阿拉伯方言表达不幸的是,这个数据集没有被标记为真实和垃圾评论。因此,为了能够在测试和验证中使用它,必须对其进行标记。因此,已经标记的DOSC数据集已经被用作所设计的多数表决集成分类器的训练集,以识别HARD的类别标签。根据其性能选择了多数投票集成分类器,因为根据即将到来的第4.3节中的详细信息,4.2. 评估指标不同的评价指标被用来衡量性能的mance提出的四个阿拉伯垃圾邮件意见检测方法。这些指标包括准确性、召回率(灵敏度)、特异性、精确度和F1评分(Powers,2011)。准确性是一种方法正确区分垃圾评论和真实评论的能力。通过计算所有评价病例中真阳性和真阴性准确度TP公司简介ð2ÞRecall衡量正确识别的垃圾评论的比例它显示了如何很好地检测垃圾评论的方法。召回TPTPFFNð3Þ特异性衡量正确识别的真实评论的比例专属性TN公司简介ð4Þ精确度衡量有多少被归类为垃圾邮件的评论被正确预测。图三. 堆叠集成分类器概述。精密TP公司简介ð5Þ¼ ð Þ小行星1412Saeed等人 /沙特国王大学学报-计算机与信息科学34(2022)1407- 1416F1得分是召回率和精确率的加权平均值F1评分2TP62TPFPFN哪里True Positive(TP):正确预测的垃圾邮件评论数量,这意味着实际类的值是垃圾邮件,预测类的值也是垃圾邮件。True Negative(TN):正确预测真实评论的数量,这意味着实际类的值是真实的,预测类的值也是真实的。误报(FP):错误预测的垃圾邮件评论数量,这意味着实际类的值是垃圾邮件,但预测类的值是真实的。假阴性(FN):错误预测真实评论的数量,这意味着实际类的值是真实的,但预测类的值是垃圾邮件。4.3. 实验结果已经进行了四个实验来测量所提出的四种方法的性能,同时考虑到所采用的提取模块的效果;更具体地说,实验旨在测试考虑N-gram特征提取和否定处理对阿拉伯语垃圾评论检测的影响本节显示了两个数据集的实验:DOSC和HARD。4.3.1. 实验1:基于规则的分类器实验分为两个部分:评估N-gram特征的效果,以及评估考虑否定词对基于规则的分类器性能的影响使用当量(1),已经进行了初步试验,以调整阈值,用于检测两个考虑的数据集中的阿拉伯垃圾邮件评论。基于这些试验的结果,方程中的两个阈值。(1)被定义为:单词计数阈值为170个单词,唯一单词百分比阈值为75%为了评估N-gram特征的效果,使用了不同如表7所示,使用DOSC和HARD数据集进行实验,仅考虑Unigram特征时,分类器的准确率分别为64.00%和65.23%。而当考虑Unigram和Bi-gram特征时,分类器的准确率分别为64.88%和67.26%。然而,在考虑三个N-gram特征(Uni-gram、Bi-gram和Tri-gram特征)的组合时实现了最大准确度,其中分别达到66.63%和71.45%。因此,使用N-gram特征的三重组合提高了分类器准确度,其中对于两个数据集DOSC和HARD,分类器准确度分别提高了2.63%和6.22%。表7还示出了在使用DOSC数据集的N元特征的三重组合时,精确度、特异性和F1得分略微增加,而HARD数据集的召回率、精确度、特异性和F1得分显著增加。为了评估考虑否定词的效果,在考虑否定处理之前从本实验的第一部分获得的结果与应用否定处理之后获得的结果进行了比较。在考虑N-gram特征的三重组合的同时进行比较。 如表8所示,在处理否定之前用DOSC和HARD数据集进行实验,分类器分别获得66.63%和71.45%的准确度,而在处理否定之后,分类器分别获得82.38%和98.35%的准确度这些结果明显地表明,考虑否定处理以及N-gram特征的三重组合对分类具有显著影响,对于两个数据集分别提高了15.75%和26.90%的准确率。表8还显示,两个数据集的召回率、准确率、特异性和F1得分都有显著提高。4.3.2. 实验2:机器学习分类器与先前的分类器(即基于规则的分类器)进行的先前实验类似,机器学习分类器也在两个部分中进行测试:评估N-gram特征的效果,以及评估考虑否定词的效果。关于在使用N元特征表示的三元组组合时实现最佳准确度值,已经得出了相同的发现。在对DOSC和HARD数据集进行否定处理之前,无监督机器学习分类器K-means对这两个数据集分别获得了47.13%和72.73%的准确率。另一方面,监督机器学习分类器:决策树,朴素贝叶斯,逻辑回归,支持向量机,K-最近邻,Bagging,表7N-gram特征提取对基于规则的分类器在阿拉伯垃圾评论检测中的性能分类器数据集N-gram特征业绩计量精度召回精度特异性F1分数基于规则DOSCUni-gram64.00%百分之六十九点二五62.67%百分之五十八点七五65.80%Uni-gram + Bi-gram64.88%66.00%64.55%百分之六十三点七五65.27%一元语法+二元语法+三元语法66.63%百分之六十五点七五66.92%67.50%66.33%硬Uni-gram65.23%57.59%70.92%73.73%63.56%Uni-gram + Bi-gram67.26%58.07%74.15%77.48%65.14%一元语法+二元语法+三元语法71.45%59.04%81.67%百分之八十五点二五68.53%表8否定处理对基于规则的分类器在阿拉伯垃圾评论检测中的性能的影响(N:不包括效果; Y:包括效果)。分类器数据集否定处理业绩计量精度召回精度特异性F1分数基于规则DOSCN66.63%百分之六十五点七五66.92%67.50%66.33%Y82.38%68.00%百分之九十五点四四百分之九十六点七五79.42%硬N71.45%59.04%81.67%百分之八十五点二五68.53%Y百分之九十八点三五百分之九十七点八四百分之九十九点九九九十九点九七百分之九十八点九R.M.K. Saeed等人/Journal of King Saud University- Computer and Information Sciences 34(2022)1407-14161413表9否定处理对不同机器学习分类器在阿拉伯语垃圾评论检测中的性能的影响(N:不包括效果;Y:包括效果Boosting、随机森林和神经网络对于DOSC数据集实现了范围在50.88%和55.25%之间的准确度值,对于HARD数据集实现了范围在61.30%和91.51%之间的准确度值。然而,在采用否定处理后,无监督机器学习分类器对两个数据集的准确率分别为52.88%和84.97%。虽然监督机器学习分类器实现了DOSC数据集范围在52.88%和72.50%之间的准确度值,以及HARD数据集范围在75.41%和96.71%之间的准确度值,如表9所示。这意味着精度值有所增加两个数据集DOSC和HARD的范围分别为2.00-20.73%和5.20-24.05%。表9还显示,无监督机器学习分类器的最佳准确度值是通过两个数据集的K均值获得的。 监督机器学习分类器的最佳准确性是通过DOSC数据集的决策树和HARD数据集的Boosting获得的。从上述两个实验中可以得出结论,否定处理以及作为特征提取方法的N-gram特征的三重组合对所提出的方法的性能具有积极的影响。因此,在以下两种方法和实验中,将直接考虑否定处理以及N元特征的三重组合。4.3.3. 实验3:多数投票集成分类器用DOSC和HARD数据集进行实验,多数投票集成分类器分别实现了74.38%和98.21%的准确度,如表10所示。从这个实验中获得的结果明显表明,多数投票集成分类器甚至优于所有独立的机器学习分类器,其中准确度值比最好的机器学习分类器高出1.88%和1.5%; DOSC数据集的决策树和HARD数据集的Boosting。表10多数投票集成分类器在阿拉伯垃圾评论检测中的性能分类器数据集业绩计量精度召回精度特异性F1分数多数投票制DOSC74.38%65.50%79.64%百分之八十三点二五71.88%硬百分之九十八点二一百分之九十九点五七百分之九十八点一百分之九十三点八八百分之九十八点八三数据集分类器否定处理业绩计量精度召回精度特异性F1分数DOSCK-MeansN47.13%百分之二十八点五45.42%百分之六十五点七五35.02%Y52.88%百分之三十八点五54.04%百分之六十七点二五44.96%k近邻N50.88%62.50%50.71%39.25%55.99%Y52.88%66.25%52.27%39.50%58.43%朴素贝叶斯N52.25%66.75%51.74%37.75%58.30%Y57.38%百分之七十55.89%44.75%62.15%随机森林N51.13%百分之五十八点七五50.98%43.50%54.59%Y59.75%66.25%58.63%53.25%62.21%套袋N51.25%58.25%51.10%44.25%54.44%Y60.13%百分之六十八点五58.67%51.75%63.21%提振N52.38%59.00%52.10%45.75%55.33%Y61.00%百分之六十八点七五59.52%53.25%63.81%支持向量机N52.50%62.50%52.08%42.50%56.82%Y64.38%71.75%62.53%57.00%66.82%Logistic回归N55.25%百分之八十三点七五53.34%百分之二十六点七五65.18%Y65.38%70.50%百分之六十三点九五百分之六十点二五67.06%神经网络N52.00%百分之六十二点二五51.66%41.75%56.46%Y72.13%百分之六十七点七五74.25%百分之六十七点七五百分之七十点八五决策树N51.77%51.02%51.28%52.50%51.15%Y72.50%65.50%76.16%79.50%70.43%硬K-MeansN72.73%77.54%88.13%49.49%82.50%Y84.97%89.13%百分之九十点九三71.75%90.02%朴素贝叶斯N61.30%53.35%百分之九十九点九一百分之九十九点七六69.56%Y75.41%70.22%百分之九十六点五91.92%81.29%Logistic回归N百分之六十九点三五63.19%百分之九十九点七二百分之九十九点一四77.36%Y80.51%83.28%百分之九十点三四71.71%86.67%决策树N81.12%88.92%86.61%56.32%87.75%小行星1414Saeed等人 /沙特国王大学学报-计算机与信息科学34(2022)1407- 1416表11堆叠集成分类器在阿拉伯垃圾评论检测中的性能。数据集分类器业绩计量精度召回精度特异性F1分数DOSC基于规则+朴素贝叶斯79.06%百分之六十八点四五87.58%百分之九十76.84%基于规则+决策树百分之八十点一三69.00%88.75%百分之九十一点二五77.64%基于规则+逻辑回归82.00%69.00%百分之九十三点二四百分之九十五79.31%基于规则+支持向量机83.88%68.00%百分之九十九点六三百分之九十九点七五百分之八十点八三基于规则+提升百分之八十五点二五72.25%百分之九十七点六四百分之九十八点二五百分之八十三点零五基于规则+随机森林85.63%72.75%百分之九十七点九八百分之九十八点五百分之八十三点五基于规则+神经网络百分之八十五点七五72.25%百分之九十八点九七九十九点二五83.53%基于规则+Bagging百分之八十五点七五73.00%百分之九十七点九九百分之九十八点五83.67%基于规则+K最近邻86.25%74.00%百分之九十八点零一百分之九十八点五84.33%基于规则+K-Means百分之九十五点二五91.75%百分之九十八点六六百分之九十八点七五百分之九十五点零八硬基于规则+朴素贝叶斯百分之九十九点一七百分之九十八点九一百分之九十九点九九百分之九十九点九八九十九点四五基于规则+支持向量机百分之九十九点五三百分之九十九点四百分之九十九点九九百分之九十九点九八百分之九十九点六九基于规则+K最近邻百分之九十九点九百分之九十九点八八百分之九十九点九九九十九点九七百分之九十九点九四基于规则+随机森林百分之九十九点九二百分之九十九点九百分之九十九点九九九十九点九七百分之九十九点九五基于规则+逻辑回归九十九点九三百分之九十九点九一百分之九十九点九九九十九点九七百分之九十九点九五基于规则+Bagging百分之九十九点九四九十九点九三百分之九十九点九九九十九点九七百分之九十九点九六基于规则+决策树百分之九十九点九五百分之九十九点九四百分之九十九点九九九十九点九七九十九点九七基于规则+神经网络百分之九十九点九六百分之九十九点九六百分之九十九点九九九十九点九七百分之九十九点九八基于规则+提升九十九点九七九十九点九七百分之九十九点九九九十九点九七百分之九十九点九八基于规则+K-Means百分之九十九点九八百分之九十九点九八百分之九十九点九九九十九点九七百分之九十九点九八见图4。 所提出的堆叠集成分类器相对于不同数据大小的准确性。4.3.4. 实验4:堆叠集成分类器通过对DOSC和HARD数据集的实验,堆叠集成分类器通过将基于规则的分类器的输出与K-means分类器的输出分别集成到两个数据集,从而实现了95.25%和99.98%的最大准确度值。表11示出了从该实验获得的结果,其明显地揭示了堆叠集成分类器优于所有其他三种先前方法(“基于规则的分类器”、“机器学习分类器”和“多数投票集成分类器”)。准确度显示,DOSC数据集的改善范围为12.87为了评估堆叠集成分类器的可扩展性,从HARD数据集上实验不同的数据大小,以研究数据大小对分类精度的影响。范围从1 K到90 K,增量步长为10 K样本。图 4显示了该实验的结果。如图4所示,精度以0.5%的速率线性增加,直到60 K个样本。这发生在96- 99.5%的准确度范围内。然后,该图显示了在最大语料库大小90K时准确率的缓慢增加,达到99.87%。这些结果清楚地证明了堆叠分类器适用于扩展大小的数据集。4.4. 分析与探讨前面的实验表明,在考虑否定处理以及N-gram特征的三重组合时,阿拉伯语垃圾邮件评论检测的准确性对于不同的分类器(基于规则的,经典的机器学习和混合方法),这种改进已经发生这种准确性提高在5%和27%之间这一改进表明,R.M.K. Saeed等人/Journal of King Saud University- Computer and Information Sciences 34(2022)1407-14161415图五、比较DOSC和HARD数据集的四种垃圾邮件评论检测方法的准确性表12堆叠集成分类器在阿拉伯垃圾评论检测中的性能摘要。分类器数据集业绩计量精度召回精度特异性F1分数堆叠包围DOSC百分之九十五点二五91.75%百分之九十八点六六百分之九十八点七五百分之九十五点零八硬百分之九十九点九八百分之九十九点九八百分之九十九点九九九十九点九七百分之九十九点九八见图6。 在DOSC数据集上的叠加集成方法和一些相关工作之间的比较。小行星1416Saeed等人 /沙特国王大学学报-计算机与信息科学34(2022)1407- 1416真阳性的数量(即正确分类为垃圾评论的评论数量)以及真阴性的数量(即正确分类为真实评论的评论数量)已经增加,这意味着更准确的分类。从提出的四种分类方法中,堆叠集成分类器在将K-均值分类器与基于规则的分类器相结合时表现最好。在DOSC数据集上,层叠集成分类器的性能比其他方法高出12%。堆叠集成相对于基于规则的分类器、多数投票集成分类器和最佳机器学习分类器的准确度值的增加分别为12.87%、20.87%和22.75%,而对于HARD数据集,这些值分别为1.63%
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功