社交媒体情感分析在沙特阿拉伯推特数据上的单因素方差分析

20 浏览量更新于2024-01-17 收藏 801KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报通过单因素方差分析Manar AlassafAl-Shahan，Ali Mustafa QalanQassim大学计算机学院计算机科学系，沙特阿拉伯阿提奇莱因福奥文章历史记录：收到2020年2020年10月5日修订2020年10月27日接受2020年11月5日网上发售关键词：情绪分析单因素方差分析阿拉伯语推文特征选择机器学习高维A B S T R A C T社交媒体是现代生活不可或缺的必需品。因此，它充满了人们的意见，情感，想法和态度，无论是积极的还是消极的。这种丰富的观点为将情感分析应用于教育部门创造了许多机会，这反映了国家和文化的发展。在这项研究中，我们收集了一个真实世界的Twitter数据集，其中包含大约8144条与沙特阿拉伯卡西姆大学有关的推文。本实验研究的主要目的是探索使用单向方差分析（ANOVA）作为特征选择方法，大大减少分类时通过阿拉伯语推文传达的意见的功能数量的可能性。这项研究的主要动机是，以前的研究没有全面研究单向方差分析，以解决维度灾难，并提高分类性能的情感分析阿拉伯语推文。因此，进行了各种实验来研究单向ANOVA的效果，并选择有关不同监督机器学习分类器性能的重要特征。支持向量机和朴素贝叶斯取得了最好的结果与单因素方差分析相比，在收集的数据集的基线实验结果。此外，本研究还对所有结果之间的差异进行了统计分析作为进一步的证据，支持向量机的单因素方差分析代表了不同阿拉伯语基准数据集的优秀组合，其结果优于其他研究。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍近年来，全球结构化和非结构化数据的数量一直在呈指数级增长，特别是因为社交网站的日益普及，这些网站产生了大量数据。这种爆炸性的数据增长使组织、机构、政府和个人在获取知识和做出决策以帮助他们有效地从数据中受益方面面临挑战。Twitter是世界上最受欢迎的微博之一，它允许用户发布限制在280个字符的推文。Twitter是一个全球性的平台，用于表达各种主题的观点，想法和感受。值得利用人们在上面发布的任何内容来制定营销政策，支持*通讯作者。电子邮件地址：a. qu.edu.sa（M. Alassaf），al. qu.edu.sa（上午）。Qingdao）。沙特国王大学负责同行审查客户服务，并改善各组织和部门。情绪分析（SA），与文本数据一起使用（Liu，2012），是一种将数据转换为知识的技术。SA包括一系列相互关联的领域，如自然语言处理（NLP），计算语言学和机器学习（ML）。SA的主要目的是从文本数据中提取主观意见。这些意见的分类有助于根据受益人的要求改进服务，并指导组织和个人实现预期目标。SA可以分为不同的粒度级别：文档级别、句子级别和方面级别（Liu，2012）。选择的级别取决于SA的目的。文档级别将文档中的观点分类为积极或消极情绪。另一方面，句子层面将每个句子分别分为肯定、否定或中性。在这个层次上，句子是主要的信息单位。在研究中，推文通常被视为类似于句子的短文本（Kiritchenko等人，2014; Paul and Borikar，2018）。方面级别提供了比前面的级别更全面的细节。这个层次通过分析文本来精确地确定人们喜欢什么和不喜欢什么。换句话说，它提取实体及其方面，以确定有关它们的意见是积极的，消极的还是中立的。https://doi.org/10.1016/j.jksuci.2020.10.0231319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM. Alassaf和A.M. Qamar沙特国王大学学报2850SA的最新方法主要分为监督方法（Hu et al.2013）和基于词典（或无监督）的方法（Assiri et al.，2018; Vu和Le，2017）。基于词汇的方法将单词映射到分类（积极，消极，中性）或数值分数，算法使用该分数来获得给定文本中的整体情感。另一方面，监督学习方法依赖于学习分类模型，该模型依赖于一组标记数据来教导系统如何从标记的训练数据推广到看不见的情况。在阿拉伯语中，在大多数SA研究中使用了监督方法而不是基于词典的方法（Alrefai等人，2018年）。一些最近的综述与本作者的目标一致（Alrefai等人，2018; Boudad等人，2018; Mite-Baidal等人， 2018年）已经报道了朴素贝叶斯（NB），k-最近邻（k-NN），支持向量机（SVM）和逻辑回归（LR）是实现SA任务的最流行的ML分类器。多层感知器（MLP）也能够在SA中获得优异的结果（Akhtar等人，2017;Al-Batah等人， 2018年）。通过采用SA，教育部门可以实现重大改进。有了利用大数据的机会，获取学生或员工反馈的传统形式不再是非常重要的，特别是因为意见是在社交媒体上自发和明确地写出来的。因此，研究大量在线发布的数据是高等教育领域关注的问题。在阿拉伯世界，已经有在教育部门使用SA的适度尝试;例如，Al-Rubaiee等人（2016）使用SVM和NB实现了阿拉伯语文本分类，以生成阿卜杜勒-阿齐兹国王大学学生的反馈。他们分析了1121条推文，这些推文被手动标记为三类（积极，消极和中性）。作者发现，最好的结果是通过支持向量机在积极和消极的类，但只有当使用n-gram特征。据我们所知，他们在2016年发表的研究是唯一一项在教育领域处理阿拉伯语推文的研究。然而，他们的研究的主要弱点是，他们考虑的推文数量是与类似研究相比最低（Chen等人，2014;Abdelrazeq等人，2015年）。很少有人关注在教育部门的阿拉伯语推文中使用SA，因此，这种遗漏代表了本研究作者收集属于教育实体的推文的强烈动机特征选择（FS）涉及识别重要用于分类任务的功能。它显着影响一般的数据挖掘，特别是文本挖掘（Doan和Horiguchi，2004）。FS的主要好处包括促进数据理解，减少训练时间，克服维数灾难。在阿拉伯语文本分类中，一些研究（Hawashin等人，2013; Raho等人，2015）已经证明，使用FS方法极大地提高了分类精度。有四种关键的FS方法，根据它们与学习模型的相互作用来定义：过滤器方法，包装器方法，嵌入式方法和混合方法。过滤器方法是一种特征排序技术，可独立于分类算法评估数据特征的相关性（Pervez和Farid，2015）。它依赖于统计方法，具有低复杂性。根据一些先前的研究（Elsied等人，2014; Yangand Pedersen，1997），过滤器方法被广泛用于文本分类领域，其中通过评分矩阵选择特征，例如信息增益（ IG ），卡方，相关系数和方差分析（ANOVA）。包装器方法使用特定的算法来评估所选特征的质量，并且是解决FS问题的强大方法（Kohavi和John，1997）。定义了在可能的特征子集空间中的搜索过程，并生成和评估各种特征子集。虽然包装器方法是FS方法中最有效的方法，复杂性和准确性需要更多的时间（Ko等人，2004年）。嵌入式方法将过滤器或包装器FS方法以及分类器集成到用于选择重要特征的单个方法中。它具有以下优点：（1）包装器方法，包含与模型的交互;（2）过滤器方法，计算量较小（Liu和Yu，2005）。最后，混合方法结合不同的方法，以获得最佳的可能的特征子集。混合方法的最大优点之一是，它们从其他FS方法中获得最大的优势，同时减少它们的缺点。Twitter数据中使用了四种文本特征：语义，句法，文体和Twitter特定特征（Giachanou和Crestani，2016）。语义特征：这些特征与词的意义有关，如情感词、观点词、语义概念和否定。观点、情感词和短语是SA中最常用的特征，可以从词典中提取。句法特征：这些是unigram、bigram、n-gram、词频、词性（POS）和依赖树。文体特征：这些具有特定于社交媒体的非标准写作风格。一些例子包括表情符号和标点符号。Twitter特有的功能：包括主题标签、转发、回复、提及、URL和推文长度。大多数ML研究采用单向ANOVA作为筛选方法来选择相关特征。单因素方差分析已经证明了其在解决特征空间中的高维问题方面的有效性（Elsied等人，2014年; Grünauer和Zeroze，2015年）。特征如果方差很高，则在特征和目标类之间存在关系。换句话说，目标类受具有较高方差的特征的据我们所知，还没有研究在SA中全面使用单因素方差分析迄今为止，只有三项研究（Arowolo等人，2016;Elssied等人，2014年;Grünauer和Escherze，2015年）使用单因素方差分析作为FS方法，但它们都不涉及SA领域。因此，本研究使用单因子变异数分析作为模拟退火多类别问题的一种可行性研究方法，通过降低提取特征的高维数。本文的主要贡献是在句子水平上考察了单因素方差分析对SA的有效性所提出的技术被应用到阿拉伯语的推文有关卡西姆大学。监督方法与不同的ML分类器一起使用，例如SVM，NB，LR，k-NN和MLP。本文的其余部分组织如下。第二部分介绍了方差分析作为一种FS方法的背景，并对阿拉伯语推文的SA进行了文献综述第3节说明了方法。第4讨论了实验结果，第5报告了结论和未来工作的计划。2. 文献综述本节有两个目的：第一，介绍将单因素方差分析描述为减少高维性的过滤器的相关工作;第二，讨论从特征工程的角度处理阿拉伯语文本的最ANOVA是一种统计方法，用于确定两组或多组的平均值是否不同（Stahle和Wold，1989）。它使用概率分布来度量方差。在统计学中，概率值（p值）是获得测试观察结果p值表示概率，●●●●M. Alassaf和A.M. Qamar沙特国王大学学报2851假设零假设（H0）是正确的，检验统计量等于观测值或在备择假设（H1）预测的方向上更极端的值。H0表示被研究的群体之间没有差异，而H1表示存在差异。根据结果与显著性水平的比较，p值用作拒绝H0的选项。显著性水平（a）是当零假设为真时拒绝零假设的概率。例如，0.05的a意味着推断存在差异而实际上不存在差异的风险为5%。因此，一个较小的taggers作为阿拉伯语tweets的句法特征。标准阿拉伯语标签的准确率Albogamy和Ramsay的研究表明，阿拉伯语的推文并不遵循标准的阿拉伯语语法。因此，根据NLP，处理阿拉伯语推文是一项艰巨的任务perspective.在SA中，Al-Twairesh et al.（2018）在沙特推文基准数据集上使用了不同的FS方法，称为Al-Twairesh et al.（2017）创建的AraSenTi-Tweet。这些方法包括三种基于语义特征的方法（所有模型p值意味着有更强的证据支持H1等ﻳﻤﻜﻦﺍﻟﻤﻔﺮﻭﺽ///（Wasserstein和Lazar，2016）。单向ANOVA是一种ANOVA，用作FS过滤器，以帮助测量ML任务中特征对目标类的影响。作为一种单变量方法，单因素方差分析计算所有特征的得分，然后选择得分最高的特征。单因素方差分析已经证明了其在解决特征空间中的高维问题方面的有效性（Elssied等人，2014年;Grünauer和Zeroze，2015年）。如果组之间在方差方面存在差异，则特征会影响目标类，方差是均值的平方差的平均值。这导致拒绝H0，即所有群的均值都是等价的，而接受H1。使用ANOVA确定相关特征需要确定阈值，在该阈值下，根据与类的相关性使用单因素方差分析作为FS过滤器有助于衡量功能对目标类的影响。因此，每个特征将具有F值和p值作为分数或权重。根据计算的分数，将确定重要的特征。较高的F值意味着影响类的特征将被认为是相关的。此外，低于显著性水平（例如0.05）的低p值将被视为重要特征。一些研究使用百分比来选择特征的最高F值，然后将其转发给ML分类器（Grünauer和Grüze，2015）。另一方面，一些研究已经使用p值来确定目标类别的重要特征（Arowolo等人，2016; Elssied等人， 2014年）。在文本分类中，Elssied et al.（2014）提出了一种新的垃圾邮件分类方法。通过使用基于单因素方差分析的FS和SVM的组合来降低文本数据的高维数的检测方法实验结果表明，该方法具有较高的分类性能。单因素方差分析作为FS方法是快速的，不受计算成本的影响，并且易于理解。此外，它是一种基于类之间的方差差异来选择特征的方法，而不管语言的复杂性阿拉伯语最近被列为网络上第五大常用语言，约有1.33亿阿拉伯语互联网用户（Doochin，2019）。阿拉伯语有三种类型：古典阿拉伯语（CA），现代标准阿拉伯语（MSA）和非正式阿拉伯语（有时称为口语阿拉伯语）。CA是伊斯兰教的语言MSA是官方语言，所有阿拉伯人都能理解，即使他们的宗教信仰不同。MSA用于新闻公告，官方演讲和科学文章。非正式阿拉伯语是人们日常与家人和朋友交谈时使用的语言;这种类型的阿拉伯语因地区而异同样，通过社交媒体进行的互动在阿拉伯社区中也很普遍，因为这是就各种主题交流信息和自由坦率地表达意见Infor-mal阿拉伯语通常用于在社交媒体场所写作（Abdulla et al.， 2014）;然而，该领域的许多研究人员认为这是一个障碍Alwakid等人， 2017年）。对阿拉伯语文本的分析是极其复杂的，特别是方言的多样性，方言的使用意味着忽视语法和拼写的标准规则（Albogamy和Ramsay，2015）使用POS和增强词，例如：“”/“”/“”。在他们的研究中，使用向后选择（向后消除）算法来选择特征。向后选择从一个完整的特征集开始，然后从集合中排除特征，迭代地，直到满足某个停止标准。因此，如果特征集的删除提高了性能，则这将导致删除的特征负面地影响分类的性能，并且因此其不应被包括在最终特征集中。选择的主要缺点是它的计算成本;然而，它是可以接受的低维数据集。 Al-Twairesh等人尝试使用不同的任务分类：双向分类、三向分类和四向分类。他们的实验发现，只有包含两个情感类别（积极和消极）的双向分类，才能在特定的语义特征（所有模型的单词）中获得最高的结果。另一方面，三向和四向分类的最佳F-分数是文体特征（情感）：分别为60.71和53.56。此外，在特征提取中最流行的方法之一是不受高维问题的困扰（无论单词或样本的数量如何，只有100-300维）是Word 2 Vec。 Word2Vec方法是一种分布式表示学习算法，用于在嵌入式低维向量空间中学习单词的连续向量表示。它利用小型神经网络根据单词的上下文计算单词嵌入。基于具有语义相似性并共享共同上下文的词在向量空间中重新定位的词的向量在空间中彼此相邻地映射。尽管不同的研究（Abu等人，2019; Alali等人，2019;Gridach等人，2018年）使用Word2Vec，它依靠单词之间的语义相似性，而没有任何FS方法，与用于比较的其他研究相比，他们在选定的阿拉伯语基准数据集上的结果略有改善。特征的数量在100到300之间，可能被认为不足以在文本分类任务中获得高性能。3. 方法本节解释了框架方法，其中包括为实现研究目标而执行的主要任务SA应用于阿拉伯语推文，每条推文都被分类为适当的观点（积极，消极或中立）。图 1显示了应用SA的框架，以阿拉伯语的推文在森-张力水平。根据图 1、实现的主要步骤有数据集采集、预处理、特征提取、FS、交叉验证、意见分类和性能度量。这些步骤将在以下小节中介绍。3.1. 数据集集合数据集收集的第一阶段涉及创建Twitter应用程序编程接口（API）用户，以检索足够的M. Alassaf和A.M. Qamar沙特国王大学学报2852Fig. 1.研究推特设计了一个关键字/标签组合来收集推文。因此，如果任何推文的内容中包含了“推特”或“#推特_推特_推特”，它就会被收集。关于收集期，从2018年1月至2019年6月收集了超过18个月的存档推文此期间包含2017-2018学年的春季学期，以及2018- 2019学年的两个一个Python脚本通过与Twitter的官方API连接来收集数据集结果数据集包含67，659条推文。实施了一些过滤过程，以提取与我们的研究最相关的推文删除数据集中重复的推文副本删除包含针对大学生的删除只包含媒体、统一资源定位符（URL）或没有任何文本的这将推文的数量减少到8 234条，对这些推文执行了方法中的其余步骤此外，作者注意到，大多数推文都是用非正式的阿拉伯语写的，特别是在卡西姆方言中，尽管有些推文确实出现在MSA中。创建带注释的语料库对于训练ML算法也是必不可少的。因此，文本应该被标记以帮助机器理解它们。在这项研究中，注释任务涉及根据其作者的意见（积极，消极或中立）标记每条推文。这一过程由三名注释员进行，他们都是卡西姆大学毕业生，母语是阿拉伯语。当所有注释者对推文的类别不一致时，这些推文在训练阶段之前被从数据集中排除。只有32条推文受到这种分歧的影响，因此被排除在外。原因是，如果它们对所有三个注释器都感到困惑，它们可能会被ML分类器错误分类。在排除这32条推文后，8202条推文剩下表1显示了一些注释后的tweet示例。3.2. 预处理预处理是任何文本分类系统的主要部分，因为在此阶段识别的单词是传递到后续处理阶段的基本单元。预处理可以提高数据质量，从而提高挖掘过程的效率和准确性。最流行的预处理步骤是文本清理、标记化、停止词去除、词干提取和标准化（Ghallab等人，2020年））。由于缺乏标准化或使用非标准词汇以及重复，社交媒体上的大多数文本都是非结构化或嘈杂的（Al-Shammari，2009）。在对本研究的阿拉伯语推文进行预处理时，执行了以下任务：1. Tweet清理：这个过程删除文本中不必要的，无关紧要的项目（例如，数字、标点符号、URL、特殊字符、非阿拉伯字母、Twitter快捷方式、变音符号），以提高分类性能。2. 标记化：这将文本分解为单个单词，即，标记以识别用于进一步处理的基本语言单位。3. 删除停用词：停用词是语言中最常见的词。例如，连词、冠词和关系词是英语中的停用词。由于它们出现的频率很高，因此在文本分类中没有用处。因此，它们在文本分类任务中的存在对理解文本数据内容构成了障碍，必须被删除。阿拉伯语中包含一些在句子中没有真正意义的停用词，如、。4. 词干提取：词干提取将单词的不同形式合并为一个表示，称为词干。例如，单词●●●M. Alassaf和A.M. Qamar沙特国王大学学报2853表1框架的输入和输出示例唯一表示：“写”。如前所述，这个数据集中的大多数推文都是用阿拉伯方言写的然而，“词干名”对辩证词却不准确.它可能导致分类器性能的提高或降低（Harrag例如，2009年）。阿拉伯语文本挖掘使用轻词干分析器比使用根词干分析器执行得更好（Sallam等人，2016年）。两个最流行的阿拉伯语光词干提取器是Tashaphyne和由信息科学研究所（ISRI）开发的一个。对于沙特方言阿拉伯语，先前的研究（Alzinadah和Jones，2016）已经取得了ISRI的可接受因此，在这项工作中使用了ISRI。5. 规范化：规范化的主要目标是统一一些具有不同形式的阿拉伯字母的形状。它类似于词干处理，但工作在字母级别。因此，这一阶段显著有助于预期输出的一致性。例如，它将所有形式的“alif”（，把“ya”a”和“alif maqsora”（“，）的不同形式变成 ”“ ，把”ta“a”（“”）变成“”，把“”变成“”。经过上述预处理步骤后，此阶段对tweet的影响与表2中的示例相似。如表2所示，预处理使推文更加一致，没有噪音或不需要的数据。因此，现在更可预测和分析的推文已经准备好被传递到特征提取阶段。执行这些步骤后，类似的推文内容有可能出现在多条推文中。因此，对推文进行了检查，以删除重复内容。相同的推文不会有助于学习分类器;因此，应该删除额外的副本经过预处理后，58条重复的推文被删除，剩下8144条推文用于实验。图2描绘了数据集中意见类别的分布。中性和负面类别占大多数，分别为 4351 （ 53.4% ）和 3128（38.4%）。正面推文的比例最低，只有665条（8.2%）。表2图二. 数据集中意见类别的分布3.3. 特征提取在预处理阶段之后，文本内容准备好被转换为ML分类器可以理解的数字表示。本研究使用术语频率-逆文档频率（TF-IDF）。TF-IDF测量术语频率，即术语在给定文档中出现的次数（ Yamamoto andChurch，2001）。这对于文本表示特别有用，其中单词频率指示重要的术语。在SA中，术语的频率在识别重要信息方面起着至关重要的作用。许多词可以频繁出现，并可能对识别意见的极性产生重要影响。TF-IDF可以通过方程计算（1）wi;j<$tfi;j×idft1等式的第一部分包含词频（TF），其是单词在给定文档中出现的次数。（二）、术语i在文件j预处理对推文的影响。tfi;j¼文档中的总字数此外，逆文档频率（IDF）是TF-IDF计算的一部分，它为罕见词提供更高的权重，为常见词提供更低的值。给出了计算公式由方程式（3）：M. Alassaf和A.M. Qamar沙特国王大学学报2854.关于我们Þn个样本n个样本Þn个样本Mwg-DFBG东-←-DFBGn个样本-←←-←←←-←-SSbgSSwgidf日志文件总数3条款iFS方法（后续阶段）被授予特征形式的所有可能选项（一元语法、二元语法、三元语法），并且n元语法范围被选择为[1-3]。n-gram表示给定文本中的序列单词的数量。根据这项研究（ Giachanou 和Crestani，2016），使用的特征提取方法提取了句法特征。该数据集的维数很高，因为提取的特征数量为165，756。3.4. 特征选择基于F值和p值的两种单因素方差分析方法被用于统计选择重要特征。在第一种单因素方差分析方法中，根据F值并基于原始特征数量的给定百分位数（m%）选择特征只有m%的得分最高的功能算法2：p值伪代码的单因素方差分析INPUT：一对（E;Y，其中E表示TF-IDF提取的特征，Y是每个特征的类。OUTPUT：基于p值的特征子集开始1. n class←Count（Y）2. 对于每个Ej2（E;Y），3. n sample per classes←Count（Yi）4. n个样本←计数（n =E;Y= E）5. dfbg←n classes-1 //类6. dfwg n样本1 //类7. ss所有特征和（平方（E））8. sum all featuressum（E）9. 广场对所有特征平方求和（对所有特征求和）10. SStotal ss all featuressquareofsumallfeatures//所有特征的平方和11. SSbg←012. 对于每个Yi2Y，用于训练ML分类器。第二方法取决于的单向p值13. SSbg ←ssbg平方和伯爵E方差分析，确定分类任务的相关特征，并将其与显著性水平进行比较。如果特征的p值小于显著性水平，则保留该特征以供进一步处理。否则，它将被丢弃。显著性水平(a) 通常设置为0.05（Arowolo等人， 2016年）。在算法1和2中说明了为两种单因素ANOVA方法选择特征的方法。图1：基于的单因素方差分析伪代码F值。INPUT：一对（E;Y，其中E表示TF-IDF提取的特征，Y是每个特征的类此外，所选要素的百分比%m。OUTPUT：基于F值的特征子集开始1. n class←Count（Y）2. 对于每个Ej2（E;Y），3. n sample per classes←Count（Yi）4. n个样本←计数（n =E;Y= E）5. dfbg←n classes-1 //类6. dfwg←n samples-1 //类7. ss all features←sum（square（E））8. sum all features←sum（E）9. square of sum all features←square（sum all features）10. SStotal←ssall features-square of sum all features//总平方和11. SSbg←012. 对于每个Yi2Y，14. 端15. SSbg ssbgsquareofsumallfeatures//类间平方和16. SSwg←SStotal-SSbg//类17. Msb←//类18. M←//类19. F-值←20. p存活率F值//特征21. 如果p值<0：05然后22. 将要素插入到集合FS23. 端24. 回返（外勤人员）端这些方法之间最显著的区别之一是，基于F分数的方法需要确定特征的百分比，而另一种方法依赖于选择特征的条件。此外，p值准则对于过滤特征比对于所选百分比方法更严格。因此，通过p值选择一组特征，其可以是通过百分比方法确定的特征集的子集。3.5. 交叉验证法实现了五种ML分类器：SVM、NB、LR、k-NN和13. SSbg ←ssbg平方和伯爵EMLP。这些分类器被用于不同的实验14. 端15. SS bg←ss bg-square 的总和所有特征 //Sum of squares16. SSwg←SStotal-SSbg//类17. Msb←SSbg //类18. M←SSwg//类内方差为了发现单因素方差分析在分类器性能中的有效性NB和LR是概率算法，提供了输出类的概率分布。另一方面，支持向量机的工作是基于在训练阶段构造最优超平面（决策面）来分离具有最大值的数据。19. F东风WGvMwg妈妈的泛化能力。 k-NN分类器是一种基于案例的-值←Mwg //函数的20. 端21. 升序（E基于-值）22. FS←选择（最高%m E基于F值）23. 回返（外勤人员）端学习算法，其使用用于观测对的距离或相似性函数，例如欧几里得距离或余弦相似性度量。最后，MLP由感知器组成，堆叠在不同的层中，以解决复杂的问题。一些技术处理多类分类，例如一对一（ OAR ）和一对一（OAO）。OAR方法将一个类视为正类，而将其他类视为þþ类MwgM. Alassaf和A.M. Qamar沙特国王大学学报2855×-β在训练分类器时是负面的。因此，对于具有n个类的数据，它训练n个分类器。在分类任务中，为了将看不见的示例分类到类中，从所有基本分类器中选择最高概率用于分类决策。在OAO中，该方法考虑每个二进制类对，并在包含这些类的数据子集上训练分类器。因此，对于n-类，该方法生成n（n1）2二进制分类问题在分类任务期间，每个分类器仅预测一个类，并给出最终决策，例如，通过多数表决。一些ML算法可以通过使用OAR或OAO来解决多类分类问题，或者可以固有地解决这个问题，例如NB，k-NN和MLP。OAR方法本质上是SVM和LR的默认技术，因此它被如此使用调整超参数最流行的方法之一是通过交叉验证（CV），这在研究中提到（Wainer和Cawley，2018）。在10倍CV中，作为普通CV，但对于每个超参数设置，计算性能度量的十个值。然后，针对每个超参数设置计算平均测试性能测量。最高平均测试性能指标作为模型的最终性能指标。在本研究中，根据给定值调整每个分类器的超参数，如表3所示。网格搜索算法本质上是一种优化算法，用于选择实现最佳结果的特定问题或算法的超参数值。在这项研究中使用的网格搜索算法与10倍的CV选择每个分类器的超参数的最佳值。3.6. 模型评估F1-score是多类分类问题中常用的一种度量方法。它被定义为精确度和召回率的调和平均值。精度是正确预测与ML分类器所做的总预测的比率。类似地，召回率是ML分类器做出的正确预测与正确SA类总数的比率。宏平均值计算所有类的平均值，并对所有类（无论其大小）赋予相同的权重。计算F1分数的宏观平均值以评估具有通过单向ANOVA选择的特征的ML分类器。4. 实验结果本节包含所进行的实验的结果和对结果的讨论，包括对多个分类器和场景的比较此外，本节还包括对不同阿拉伯语基准数据集的当前研究结果的评估，以与其他试图提高阿拉伯语SA分类器性能的研究进行表3每个分类器的参数及其在调整步骤中的可能值表4每个实验中使用的特征数#实验#特性1基线：基础165,8522AN0VA_10%：单因素ANOVA（F值），10%16,585提取的特征3AN0VA_20%：20%的单因素ANOVA（F值）33,171提取的特征4AN0VA_30%：30%的单因素ANOVA（F值）49,755提取的特征5ANOVA_p值：单因素ANOVA（p值）19,5944.1. 结果和发现我们考虑了五个实验场景，可以根据使用单因素方差分析的特征排名来区分。首先，基线实验采用不含FS方法的方法。然后，在第二、第三和第四个实验中，基于最高F值，分别使用10%、20%和30%的原始特征进行单因素方差分析。在第五种情况下，使用单因素ANOVA作为基于特征p值的FS方法。表4显示了影响FS在每个实验中的特征数量最后一次实验得到的特征数占原始特征数的11.8%。第二个实验检索到最少的特征--165，852个特征中的16，585个。在ANOVA 30%中，根据样本数量，49，755个特征仍然是相当多的特征，这证明了不考虑超过30的百分比的原因。五个分类器（SVM，NB，LR，k-NN和在所有实验中的MLP）的结果示于表5中。如表5所示，通过将基线实验的结果与使用单因素ANOVA作为FS方法的结果进行比较，SVM和NB优于所有其他分类器，与基线实验中的结果相比，使用单向ANOVA作为FS方法获得了非常好的结果在基线实验中，SVM和NB都达到了0.69的F1分数。在基线实验中，MLP和k-NN在不使用FS方法的情况下取得了良好的效果。与基线实验中的结果相比，使用单因素ANOVA不会影响LR的结果。F1分数的值0.70相对恒定。对于大多数分类器，具有F值和p值的单因素方差分析的实验结果在分类器水平上彼此相当接近4.2. 讨论从统计学角度来看，使用单向ANOVA和Tukey检验（Tukey，1949）确定分类器和实验水平的各种结果之间是否存在显著差异。将ANOVA应用于10倍F1评分结果。ANOVA基于两个假设：正态分布-检验样本的方差齐性，ML分类器参数的长度与值的ANOVA，要求随机变量具有相等的方差。在应用方差分析来检验显著差异的问题SVM C = [0.001，0.01，0.1，1，10，100]，Gamma = [0.0001，0.001，0.01，0.1，1，10，100]，内核= [sigmoid，linear，rbf]NB alpha = [0.00001，0.0001，0.001，0.01，0.1，1]，fit_prior =[True，错误]k-NN n_neighbors = Range [1，30]LR C = [0.001，0.01，0.1，1，10，100]，fit_intercept = [True，False]MLPlearning_rate = [constant，adaptive]，activation = [logistic，tanh，雷卢因此，使用这些10倍F1分数检验与ANOVA相关的假设。该统计检验的目的是提供证据证明结果在p值方面存在显著差异。如果p值小于显著性水平（通常设定为0.05），则这些结果之间的差异具有统计学显著性;否则，结果之间无统计学显著性差异。因此如果●●●●M. Alassaf和A.M. Qamar沙特国王大学学报2856表5F1-不同实验的分数。分类器实验基地方差分析_10%方差分析_20%方差分析_30%ANOVA_p值SVM0.69（±0.12）0.87（±0.07）0.86（±0.08）0.86（±0.08）0.88（±0.07）NB0.69（±0.10）0.78（±0.09）0.80（±0.10）0.82（±0.09）0.80（±0.09）LR0.70（±0.13）0.70（±0.12）0.70（±0.11）0.70（±0.11）0.70（±0.11）k-NN0.58（±0.12）0.44（±0.08）0.38（±0.08）0.36（±0.08）0.43（±0.06）MLP0.67（±0.12）0.60（±0.08）0.61（±0.10）0.60（±0.11）0.60（±0.10）表6在分类器水平上比较具有显著差异的结果分类器具有显著差异的实验p值SVMSVM_方差分析_10%与SVM_Base0.000SVM_ANOVA_20%与SVM_Base0.000SVM_ANOVA_30%与SVM_Base0.000SVM_ANOVA_p值与SVM_Base0.000NBNB_方差分析_10%与NB_基础0.004NB_方差分析_20%与NB_基础0.000NB_方差分析_30%与NB_基础0.000NB_ANOVA_p值与NB_基础0.006LR无显著差异–k-NNk-NN_ANOVA_10% vs. k-NN_Base0.000k-NN_ANOVA_20% vs. k-NN_Base0.000k-NN_ANOVA_30% vs. k-NN_Base0.000k-NN_ANOVA_p值与k-NN_Base0.000k-NN_ANOVA_20% vs. k-NN_ANOVA_10%0.018k-NN_ANOVA_30% vs. k-NN_ANOVA_10%0.004k-NN_ANOVA_p值与k-NN_ANOVA_30%0.021MLPMLP_ANOVA_10%与MLP_基础0.022MLP_ANOVA_p值与MLP_基础0.034如果使用单因素方差分析作为FS影响分类性能，则基线实验的结果与其他实验的结果之间将存在统计学显著差异。除了单因素方差分析之外，Tukey检验通常用于将所有分类器相互比较，以确定哪些分类器不同。表6显示了每个分类器的结果，其中包含基于F1评分的统计学显著差异。在SVM中，在基线实验和使用单因素方差分析的实验之间观察到统计学显著差异。在基线实验中，最低SVM结果为0.69（F1评分）。因此，可以说，当ANOVA用作FS方法时，SVM分类器是一个很好的选择。另一方面，SVM的其余结果之间没有显著差异。NB结果也可以得出相同的结论。这些发现加强了方差分析作为FS方法与SVM和NB的有用性。此外，LR的结果显示方差分析没有改善，基线结果和基于方差分析的实验结果之间没有显著差异。对于k-NN分类器，FS方法和基线结果的所有实验均存在显著差异。在基线实验期间发现了k-NN的最佳结果，从而得出ANOVA没有改善k-NN性能的结论。最后，对于MLP实验，基线结果与ANOVA_10%和ANOVA_p-值实验的结果相比具有统计学差异。基于上述分析，表7分别显示了每个分类器的最佳实验SVM和NB，在单因素方差分析的FS方法的实验中SVM的最佳F1得分结果在所有实验中均采用ANOVA：分别为0.87、0.86、0.86和0.88。表7每个分类器的最佳F1得分结果。分类器最佳场景：F1-scoreSVM单因素方差分析的所有实验：0.86NB采用单因素方差分析的所有实验：0.78LR有和无单因素方差分析的所有实验：0.70无单因素方差分析的k-NN： 0.58无单因素方差分析的MLP： 0.67这些实验的结果很接近，但所选特征的数量完全不同，如第4.1节所述。在ANOVA_10%、ANOVA_20%、ANOVA_

下载后可阅读完整内容，剩余1页未读，立即下载