没有合适的资源?快使用搜索试试~ 我知道了~
阿拉伯语情感分析综述:研究历史,挑战与未来方向
沙特国王大学学报基于阿拉伯语方面的情感分析Salha AlyamiAlzheimer,Areej Alhothali,Amani Jamal沙特阿拉伯吉达阿卜杜勒阿齐兹国王大学计算机和信息技术学院计算机科学系阿提奇莱因福奥文章历史记录:收到2022年2022年6月3日修订2022年7月1日接受2022年7月11日在线提供保留字:基于阿拉伯语的情感分析阿拉伯语情感分析意见目标提取基于语义的情感分析Aspect情感分类系统性文献综述A B S T R A C T基于情感的情感分析(ABSA)是一种自然语言处理任务,它提供了客户虽然有几篇综述论文对阿拉伯语ABSA研究进行了研究,但所涵盖的研究数量很少,或者对所纳入的研究进行了不充分的分析。此外,据我们所知,只有一个系统的文献综述专门针对阿拉伯ABSA已因此,本系统的文献综述进行了分析现有的技术和资源用于阿拉伯ABSA。该综述涵盖了2012年至2021年期间发表的47项主要研究,这些研究从8个书目数据库和搜索引擎中检索。根据所使用的数据集、所覆盖的领域、阿拉伯语类型、预处理程序、所选特征、单词表示、所采用的技术和用于评估所提出的技术的评估指标对所纳入的研究进行分析。作为分析的结果,不同的局限性和问题被确定,并提出了多个未来的研究方向。还构建了一个新的分类法,所采用的技术,这是根据基于方面的情感分析任务和方法进行分类©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。内容1.导言65252.背景65252.1.阿拉伯语和阿拉伯语情绪分析挑战65252.2.情绪分析65263.相关工作。......................................................................................................................................................................................................................................................65264.方法学65264.1.目标65274.2.研究问题65274.3.搜索策略65284.3.1.文献资源65284.3.2.搜索关键字65284.3.3.搜索字符串65284.3.4.研究选择65284.3.5.搜索过程65284.4.数据提取65295.结果65305.1.选定研究概述5.2.研究人员使用了哪些数据集来开发和测试他们提出的阿拉伯语ABSA模型或算法,哪些数据集可以公开访问?.......................................................... 65315.3.阿拉伯语ABSA研究涵盖哪些领域和阿拉伯语方言?................................................................................................................................................................ 65315.3.1.域名65315.3.2.阿拉伯语方言5.4.RQ3:阿拉伯语ABSA研究涉及哪些ABSA相关任务?.............................................................................................................................................................6534*通讯作者。电子邮件地址:salyami0094@stu.kau.edu.sa(新加坡)Alyami)。https://doi.org/10.1016/j.jksuci.2022.07.0011319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comS. Alyami,A.Alhothali和A.贾马尔沙特国王大学学报65255.5.阿拉伯ABSA研究人员采用了哪些数据预处理步骤来准备数据?............................................................................................................................................65345.6.RQ5:阿拉伯语ABSA任务采用了哪些算法和预测模型?..................................................................................................................................................... 65355.6.1.阿拉伯ABSA技术的分类65355.6.2.意见目标表达提取65355.6.3.方面类别检测65375.6.4.方面情绪分类65395.7.RQ6:使用哪些特征和单词表示技术来生成阿拉伯语ABSA模型和算法的文本表示?.......................................................................................................65415.8.建议问题7:采用什么评价标准来评价拟议的技术?................................................................................................................................................................65436.讨论65446.1.阿拉伯ABSA研究的重要发现和趋势6.2.纳入的主要研究的局限性65466.3.未来研究方向65477.限制65478.结论6547参考文献65471. 介绍在过去的二十年里,互联网用户可以表达意见的在线渠道数量显著增加。这些渠道包括社交媒体平台、评论网站、论坛、博客和电子商务评论。通过分析通过这些在线平台共享的数据,企业可以更好地了解客户此外,政府可以监测其公民对不同事件的反应和政府决策,这可以帮助他们做出决策(Pozzi等人, 2017年)。研究人员用来分析人们的意见和态度的自然语言处理(NLP)方法之一是情感分析(SA)(Liu,2012;Jabbar等人, 2019年)。SA是一项NLP任务,从文本输入中提取表达的观点,并将其极性分类为积极,消极,中立或冲突(Liu,2012; Liu,2020)。SA根据其执行的粒度级别分为几类:文档级、文档级和方面级(Liu,2012)。在文档级和文档级SA中,假设每个评论或句子都表达了关于单个实体或主题的观点。这种约束约束文档级和文档级SA处理其中文档或句子包括具有相反极性的多个实体或方面的意见的场景。另一方面,基于方面的情感分析(ABSA)可以检测多个实体或实体方面在同一句子中表达的不同观点(Liu,2012; Pontiki等人, 2014年)。这种细粒度的分析可以告知决策者人们喜欢或不喜欢特定实体的特定功能在过去的五年中,已经做出了重大努力来解决ABSA任务,特别是对于用英语书写的文本(Do等人,2019; Maitama等人,2020;Brauwers和Frasincar,2021)。然而,阿拉伯语的情况并非如此,阿拉伯语情感分析(ASA)的大多数研究都是在文档或句子级别进行的(Abo et al.,2019年)。因此,多个研究人员已经将阿拉伯语ABSA确定为未充分探索的领域(Guellil等人,2019;Al-Ayyoub等人,2019; Ghallab等人,二○二○年;Alsayat和Elmitwally,2020; Nassif等人,2021年)。尽管几篇综述论文已经检查了阿拉伯语ABSA研究,但是所涵盖的研究数量有限,或者已经被包括的研究没有得到充分的分析(Boudad等人,2018;Al-Ayyoub等人,2019; Badaro等人,2019;Guellil等人,2019; Ghallab等人,2020; Oueslati等人,2020年)。另一方面,不同的综述仅关注单个ABSA任务,例如方面提取(Dalila等人,2018;Maitama等人,2020)或技术,如深度学习(Alhumoud和Wazrah,2021; Nassif等人, 2021年)。据我们所知,仅发表了一篇关于阿拉伯ABSA的系统性文献综述(SLR)(Obiedat等人, 2021年)。然而,由于使用的关键词和书目数据库范围有限,它只涵盖了21个阿拉伯ABSA初级研究因此,本文对阿拉伯语ABSA文献进行了系统回顾,旨在对现有的阿拉伯语ABSA研究进行更广泛的覆盖和分析这是通过检索大量的书目数据库、扩大出版年份范围、滚雪球和利用更广泛的检索查询来实现的这导致了47个阿拉伯ABSA主要研究的检索所包含的研究已被彻底分析的数据集利用,所涵盖的领域,阿拉伯语类型,预处理步骤,选择的功能,采用的技术和使用的评估指标此外,根据ABSA任务和采用的方法,为所采用的技术建立了新的分类法作为这种分析的结果,确定了各种限制和未来的研究领域,这将有助于研究人员在这一领域作出贡献本工作的其余部分分为以下几个部分:第2部分提供了阿拉伯语和基于方面的情感分析的背景信息。第三节对相关工作进行了总结和讨论。第4节描述了用于执行本系统性综述的方法。第5节说明了调查结果。第6节讨论了研究结果,强调了主要研究的局限性,并确定了未来的研究方向。第7节介绍了这项工作的局限性最后,第8节给出了结论。2. 背景2.1. 阿拉伯语和阿拉伯语情感分析挑战阿拉伯语是一种闪米特语言,在中东和北非国家有超过3亿人使用。此外,它是伊斯兰教的语言及其圣书《古兰经》,1.8 10亿穆斯林用来进行他们的宗教仪式(Darwish和Magdy,2014;Larabi等人,2019年)。阿拉伯语有不同的变体,包括古典阿拉伯语( CA ) , 现 代 标 准 阿 拉 伯 语 ( MSA ) 和 方 言 阿 拉 伯 语 ( DA )(Darwish和Magdy,2014; Larabi等人,2019年)。CA是阿拉伯语用来写古兰经,而MSA是一个现代的,简化的变体CA以前在政治,新闻,书籍和教育。另一方面,DA是日常交流中使用的阿拉伯语的非正式版本(Habash,2010)。阿拉伯语DA没有标准化,S. Alyami,A.Alhothali和A.贾马尔沙特国王大学学报6526根据地理和社会经济水平的不同而有所不同(Habash,2010年)。此外,每个阿拉伯语DA都有独特的词汇,句法,语音和形态特征,使其与其他DA和MSA区分开来(Habash,2010)。由于各种原因,阿拉伯语被认为是NLP系统处理的比其他语言(如英语)更具挑战性的语言(Alotaiby et al.,2014年)。这些原因包括上述阿拉伯语变体、其形态的复杂性以及不一致和模糊的正字法(Rozovskaya等人,2006; Soudi等人,2007; Farghaly和Shaalan,2009; Habash,2010; Larabi等人, 2019年)。 阿拉伯语的形态是复杂的,因为它是一种派生语言,这意味着通过应用特定的模式,可以使用单个词根来派生单词的许多形式(Soudi等人,2007年; Farghaly和Shaalan,2009年; Habash,2010年)。阿拉伯语正字法歧义的一个原因是使用变音符号而不是元音,从而导致具有不同变音符号的同一单词具有不同的含义(Farghaly和Shaalan,2009; Habash,2010;Larabi等人,2019年)。另一个导致阿拉伯语正字法歧义的方面是字母形状根据其在单词中的位置而波动(Farghaly和Shaalan,2009;Habash,2010; Larabi等人,2019年)。此外,研究人员在阿拉伯SA遇到了额外的困难。这些问题包括拼写错误、对各种否定形式的处理、形态分析工具的局限性、对具有不同极性的单词使用相同的词根、垃圾邮件和讽刺内容(Al-Twairesh et al., 2014年)。2.2. 基于情感分析的情感分析根据Liu(2012)的观点,意见包括两个基本要素:目标和情感。目标(或主题)可以是一个实体或它的一个方面,情绪可以是积极的,消极的,中性的,或1到5之间的分级。实体(或对象)可以是人、企业、服务、产品、事件、主题、问题或组织。另一方面,方面可以是整个实体或实体的部分或属性。可以使用方面类别、方面的唯一名称或方面术语来描述方面;实际文本引用方面。方面术语可以是隐式的或显式的。隐式是指非名词术语,如形容词或副词,指的是一个方面,而显式是指名词或名词短语,显式描述的方面。语义评估(SemEval)-一系列国际NLP研讨会-将ABSA视为其2014年,2015年和2016年的目标任务之一 他们为不同ABSA任务的基准数据集注释和基线评估提供了指南(Pontiki等人,2014; Pontiki等人,2015; Pontiki等人,2016年)。SemEval-2014研讨会任务-4(Pontiki等人, 2014)定义了具有两个粒度级别的四个ABSA任务。第一个是细粒度级别,包括方面术语提取和方面术语情感分类。在这种情况下,体术语在句子中被明确提及(例如,“但是员工对我们很讨厌”);体术语是令牌“员工”,它有一个负极性。第二个是粗粒度级别,包括方面类别检测和方面类别情感分类。方面类别是从预定义的类别集合中选择的,并且可以检测显式和隐式方面。在前面的示例中,方面类别是具有负极性的SemEval-2014 task-4框架有一个关键的缺点,它假设句子的各个方面属于同一个实体。因此,SemEval-2015(Pontiki等人, 2015)将ABSA任务重构为三槽元组提取。第一个插槽是方面cat-egory,他们将其重新格式化为E#A,以检测同一句子中的多个实体和属性都是从预定义的集合中选择第二个插槽是用于意见目标表达(OTE),即sen的文本块。指的是E#A对。第三个位置是E#A货币对的情绪极性,可能是积极的,消极的或中性的以下评论的提取元组的示例:{E#A = ''FOOD#QUALITY”,OTE = ''food”,Polarity = ''positive”}.SemEval-2016(Pontiki等人,2016)改编了SemEval-2015的相同子任务,并引入了一个文档级子任务,该任务预测了整个文档中表达的方面类别和极性的所有元组。3. 相关工作在过去的五年中,多篇综述文章在不同的粒度级别(包括文档、句子和方面级别)讨论了ASA问题、资源、工具和技术。表1总结了这些综述论文的目的、所涵盖研究的出版年份范围、纳入的阿拉伯文ABSA研究数量和综述类型。如表1所示,研究人员所涵盖的阿拉伯语ABSA研究数量有限,范围从两个(Oueslati等人,2020)至23(Al-Ayyoub等人,2019年)。这可能与以下事实有关:大多数这些综述和调查论文主要关注不同语言(如英语)的文档和文档级ASA或ABSA处理。此外,一些评论只关注单一方法,例如深度学习(Nassif et al.,2021; Alhumoud 和Wazrah, 2021 ),或单个ABSA任务,例如方面提取(Dalila等人,2018;Maitama等人,2020年)。尽管Al-Ayyoub等人(2019)涵盖了最多的阿拉伯语ABSA研究,但他们仅提到这些研究中的大多数有助于阿拉伯语ABSA,而没有提供关于他们如何处理ABSA任务的足够细节。据我们所知,Obiedat等人(2021)进行了唯一一次专门针对阿拉伯语ABSA的SLR。虽然他们提供了关于阿拉伯ABSA的最全面的细节,但在他们的工作中观察到了不同的问题。其中之一是他们的关键词选择,他们使用短语“aspect-based”和“multi-aspect”来表示搜索查询和包含标准中的ABSA。这些关键词可以省略专注于特定任务的研究,例如意见目标提取,或者利用方面的同义词术语,例如特征和意见目标。另一个问题是他们对纳入研究的报告表现的解释含糊不清。他们比较了使用不同数据集的研究的表现。他们也没有说明结果与哪项任务有关。为了解决上述综述的局限性,本研究对阿拉伯ABSA文献进行了全面、最新的这是通过搜索大量的书目数据库和搜索引擎来实现的,采用了更广泛的关键词术语,这些术语考虑了ABSA任务的不同命名约定,并涵盖了更广泛的出版物类型和目录。因此,我们已经能够确定47个阿拉伯ABSA的主要我们还对所有包含的关于ABSA覆盖的任务,使用的数据集,覆盖的领域,阿拉伯语类型,预处理步骤,选定的功能和技术的研究进行了全面的分析这一分析使我们能够找出目前阿拉伯ABSA文献的问题和局限性,并提出未来的研究方向,以鼓励研究人员从事阿拉伯ABSA。4. 方法SLR是一种回顾文献的策略,遵循严格和系统的过程来收集、评估和分析主要研究,以回答关于S. Alyami,A.Alhothali和A.贾马尔沙特国王大学学报表65276527相关工作的总结注:(N/A:不可用; SLR:系统性文献综述)参考目的ASA水平阿拉伯语ABSA年范围审查类型书目数据库研究(Al-Ayyoub等人,2019年度)(Badaro等人, 2019年度)调查各种ASA问题的方法、资源、工具和应用程序,以及情绪分析查看阿拉伯语挑战,阿拉伯语NLP工具,ASA文档、句子、方面文档,23182007–20182002–2018调查调查N/AN/A词典、数据集、选定特征、技术,判决,(Boudad等人, 2018年)专注于深度学习和应用讨论阿拉伯语和ASA的困难,ASA的方法,方面文件,32008–2016叙事N/A(Dalila等人, 2018年)公共可用资源和相关任务探讨了面向对象的显式体提取技术的研究判决,方面方面92010–2019审查叙事N/A包括阿拉伯语在内的几种语言,方法、数据集和涵盖的领域审查(Guellil等人, 2019年度)(Ghallab等人, 2020年)探索ASA技术、新兴趋势以及为ASA开发词典和语料库的各种方法确定ASA研究方法方面的趋势文档、句子、方面文件,382010–20192013–2018调查单反N/ASpringer、Elsevier和IGI(Oueslati等人, 2020年)所采用的,选择的功能,数据集,应用领域,预处理程序,阿拉伯语类型和研究调查ASA障碍,可用的语料库,句子,体文件,22006–2019单反全球Springer、Elsevier、IEEE、(Alhumoud和开发ASA情感词典的方法、技术,以及为ASA改编英语资源的策略检查ASA困难,ASA研究使用句子,体文件,62013–2018单反ACM和ACLSpringer,IEEE,ACM,ScienceWazrah,2021年)(Nassif等人, 2021年)基于RNN的神经网络在模型,数据集,评估指标,这些RNN模型的局限性,以及ASA相关的问题分析使用深度学习的ASA研究句子,体文件,72000–2020单反Direct、ACLweb、NIPS、AAAI和Semantic ScholarIEEE、ACM、Springer、(Maitama等人, 2020年)在深度学习模型、数据集、词嵌入、领域覆盖和评估指标检查涉及隐式和句子,体方面132008–2019单反Elsevier、Wiley、TaylorFrancis、Scopus、Web ofScience、DBLP和谷歌学术ACM、DBLP、IEEE Xplore、用于多种语言的显式方面提取,包括阿拉伯文,在技术方面,科学-直接,施普林格-Link、Scopus和Web of(Obiedat等人, 2021年)领域、评估指标和所采用技术审查方法、数据集、涵盖的领域,方面212015–2021单反科学Web of Science,Scopus,IEEE本研究阿拉伯语ABSA研究从数据集的角度分析阿拉伯语ABSA研究方面472012–2021单反Xplore和ACM数字图书馆Web of Science,Scopus,IEEE涵盖的领域,阿拉伯语语言类型,ABSA任务已处理,预处理步骤,方法,选定Xplore、SpringerLink、ScienceDirect,ProQuest,特征和单词表示,以及评估指标。讨论与拟议的阿拉伯ABSA解决方案Google Scholar和ACM数字图书馆特别的话题。SLR的主要目标是提供一个可重复的,公正的,和详尽的技术搜索当前的literature。为了进行我们的系统评价,我们遵循Kitchenham等人(2007)的(Kitchenham等人,2007)系统评价指南。这些准则主要由三个阶段组成。第一阶段是综述计划,包括几项活动,如确定综述的必要性、说明研究问题和制定综述方案。该方案描述了SLR过程中每一步的计划,从制定研究问题到选择主要研究以及开发从相关研究中提取和合成数据的机制。第二阶段是通过应用和记录方案的所有阶段进行审查。最后一个阶段包括撰写、验证和发布评审4.1. 目的相关工作部分(第3节)显示,当前阿拉伯语SA相关综述文件没有充分解决阿拉伯语ABSA问题。因此,本研究的目的是进行一项研究-对阿拉伯语各种ABSA任务的现有文献进行了深入和严格的系统审查。4.2. 研究问题文本分类NLP系统的性能和鲁棒性受到多种因素的影响。这些因素是使用的数据资源、预处理步骤、输入文本表示的选定特征、开发的模型 或 算 法 以 及 用 于 评 估 拟 议 解 决 方 案 的 评 估 指 标 ( Sokolova 和Lapalme,2009年; Landeiro和Culotta,2018年; Kowsari等人,2019;Babanejad等人,2020; Petz等人,2014; Naseem等人, 2021年)。考虑到这些因素,我们的研究问题(RQ)结构如下:研究人员使用了哪些数据集来开发和测试他们提出的阿拉伯语ABSA模型或算法,哪些数据集可以公开访问?阿拉伯语ABSA研究涵盖哪些领域和阿拉伯语方言?●●S. Alyami,A.Alhothali和A.贾马尔沙特国王大学学报6528表2用于书目数据库和学术搜索引擎的搜索设置。 注:(N/A:不可用)数据库/搜索引擎元数据字段出版物类型纪律出版日期IEEE Xplore所有元数据所有N/A2012–2021ACM数字图书馆所有元数据和全文所有N/A2012–2021SpringerLink所有元数据和全文期刊文章和会议论文计算机科学、工程和语言学2012–2021ScienceDirect标题、摘要和关键词所有所有2012–2021ProQuest所有元数据学位论文所有2012–2021Scopus标题、摘要和关键词所有所有2012–2021Web of Science标题、摘要和关键词所有所有2012–2021Google Scholar标题所有所有2012–2021RQ3:阿拉伯语ABSA研究涉及哪些ABSA相关任务?阿拉伯ABSA研究人员采用了哪些数据预处理步骤来准备数据?RQ5:阿拉伯语ABSA任务采用了哪些算法和预测模型?RQ6:使用哪些特征和单词表示技术来生成阿拉伯语ABSA模型和算法的文本表示?RQ7:使用什么评价标准来评价所提出的技术?RQ8:阿拉伯语ABSA研究的局限性是什么,未来的研究机会是什么?4.3. 搜索策略4.3.1. 文献资源我们使用两种策略对相关的主要研究进行了彻底的搜索。首先,我们使用电子书目数据库和学术搜索引擎进行了自动搜索。其次,我们手动检索了纳入的主要研究和相关综述文章的参考文献列表(滚雪球)。我们搜索了八个不同的书目数据库和学术搜索引擎,这些数据库和搜索引擎覆盖了大多数相关的计算机科学会议和期刊(Cavacini,2014;Gusenbauer 和 Haddaway ,2020 ) 。 其 中 包 括 Web of Science1 、Scopus2 、ScienceDirect3 、IEEE Explorer4 、ACM 数字图书馆 5 、SpringerLink6和Google Scholar7。此外,我们还在ProQuest8上搜索了与阿拉伯语ABSA相关的博士和硕士论文。我们的检索针对每个数据库进行,因为不同的文献资源具有不同的文献检索设置。表2列出了为每个检索的书目数据库或检索引擎选择的检索设置。这些设置包括要与搜索字符串匹配的选定元数据字段、出版物类型、学科和出版物期间。4.3.2. 搜索关键词不同的研究人员使用各种术语来提及基于方面的情感分析,包括“特征级情感分析”、“基于特征的情感分析”、“基于特征的意见挖掘”、“特征级意见摘要”和“方面情感分类”(Liu,2012; Hu和Liu,2004; Pontiki等人,2014; Pontiki等人,2016年)。类似地,不同的表达被用于体术语和体类别,诸如“体表达”、“意见目标表达”、“意见目标”。第1https://www.webofscience.com/wos/woscc/basic-search2https://www.scopus.com/3https://www.sciencedirect.com/第https://ieeexplore.ieee.org/Xplore/home.jsphttps://dl.acm.org/6https://link.springer.com/7https://scholar.google.com/8https://www.proquest.com/和“方面分类”(Liu,2012; Pontiki等人, 2014; Pontiki 等人, 2016年)。 另一方面,一些研究人员单独使用术语“方面”,而不区分方面术语或方面类别(Maitama等人,2020年)。由于命名的这种变化以及我们对所有阿拉伯ABSA技术和资源的兴趣,我们试图使用通用和通用的术语进行检索。因此,我们用来构建搜索字符串的搜索词是此外,我们使用不同的同义词,如“识别”和“检测”的方面提取。4.3.3. 搜索字符串我们使用了几个操作符,如通配符(*)来表示所有可能的词根结尾,例如,extract* 表示extraction,extracting等。此外,我们使用AND和OR布尔运算符来组合术语并处理同义词、重复变体和不一致的命名。我们将Google Scholar中的一些同义词划分为不同的搜索字符串,因为将它们与OR运算符组合会产生超过一万个不相关的结果。图1描述了与电子数据库或搜索引擎结合使用的搜索字符串。4.3.4. 资料选择本综述中的所有主要研究都必须满足一些纳入标准。为此,我们确定了一组入选和排除标准,如表3所示。如果研究符合所有入选标准,则纳入研究。但是,如果符合至少一项排除标准,则排除该研究4.3.5. 搜索过程该阶段包括使用先前选择的文献资源、检索字符串以及纳入和排除标准识别相关的主要研究。首先,我们在Google Scholar中进行了初步搜索,在那里我们发现了多个声称是第一个在阿拉伯语ABSA上发表的资源。例如,Al-Smadi et al.(2015)和Alhazmi and Salim(2015)均 于 2015 年 发 表 。 然 而 , Al-Ayyoub 等 人 ( 2019 ) 强 调 了Rahamatallah等人(2013),该论文于2013年发表,早期解决阿拉伯语ABSA问题的努力。因此,我们选择了2012年至2021年的检索期,以确保我们涵盖了最重要的主要研究,并包括阿拉伯语ABSA的早期工作。我们通过标题筛选开始检索过程,并选择标题符合两个标准之一的研究。第一种情况是,除了关键词“阿拉伯语”之外,标题至少还包含关键词 第二个条件是标题是否包含涉及ABSA、ABSA同义词或ABSA子任务的术语。 由于使用多个搜索字符串,我们得到了许多重复的结果。因此,我们通过消除候选人重复来解决这个问题。●●●●●●S. Alyami,A.Alhothali和A.贾马尔沙特国王大学学报6529Fig. 1. 搜索字符串,用于自动搜索每个电子数据库和搜索引擎。表3入选和排除标准。入选标准该研究发表于2012年至2021年,研究报告用英语这项研究至少处理了一项ABSA任务用于模型或算法开发和测试的文本数据是用阿拉伯语或阿拉伯语编写的。一该研究发表在Scopus索引的同行评审期刊或会议排除标准在文档或句子级别处理阿拉伯语情感分析的研究一项针对阿拉伯语以外的未经实证检验硕士或博士论文和论文,其结果发表在同行评审的期刊或会议论文aArabizi是一种使用拉丁字母的阿拉伯书写形式(Darwish,2014年)。标题筛选后的研究考虑到纳入和排除标准,我们然后扫描每个检索数据库或搜索引擎的每个独特研究的摘要和结论如果摘要和结论是不确定的,我们检查了完整的短信了如果硕士或博士论文的工作发表在同行评议的期刊或会议论文上,我们只包括论文。之后,我们对符合纳入标准的研究或相关综述文章的参考文献列表表4总结了每个数据库或检索引擎的检索结果、重复、扫描研究和相关研究的数量。所有数据库和搜索引擎返回的结果总数,包括扫描步骤和滚雪球结果,如图所示。 二、如表4所示,ACM和SpringerLink等数据库返回了许多不相关的这是同时搜索全文和所有元数据的结果,因为没有选择来共同考虑元数据,例如标题、摘要和关键字。为了缩小Springer-Link结果的范围,它返回了许多来自不相关学科的结果,我们选择了与我们的主题最密切相关的学科,包括计算机科学,工程学和语言学。4.4. 数据提取在这一步中,我们遵循Kitchenham等人(2007)的(Kitchenham等人,2007)数据提取指南,一名研究人员提取数据,另外两名研究人员进行验证。为表4删除重复数据和应用排除标准前后每个数据库的检索结果数据库/搜索引擎搜索结果标题扫描后的研究数量删除重复后的研究数量摘要和结论扫描唯一选定研究IEEE893320108ScienceDirect5412666ACM1164391872SpringerLink339213972198ProQuest1419530Scopus4859454378Web of Science3137041311Google Scholar246844121910212S. Alyami,A.Alhothali和A.贾马尔沙特国王大学学报6530图二. 搜索和选择过程的流程。每一项主要研究包括两种数据。第一类是关于主要研究本身的信息,如作者、出版商、出版日期和出版类型。第二类是回答研究问题所需的数据。这些包括ABSA任务、阿拉伯语类型、领域、技术、预处理步骤、特征、单词表示生成技术、数据集和报告的性能。将提取的数据制成表格,以便于分析到单独的表格中。5. 结果本节介绍了SLR结果,首先概述了纳入的主要研究。然后对从纳入研究中提取的数据进行分析,以解决预先指定的研究问题。5.1. 选定研究选择程序完成后,我们最终得到了47项初步研究,如图2所示。图3、图4和图5按年份、出版商和出版物类型描述了纳入的主要研究的分布。超过89%的论文发表于2016年至2021年间,这表明阿拉伯语图3.第三章。多年来阿拉伯语ABSA研究的数量见图4。 按出版商分列的阿拉伯语ABSA研究分布情况。图五、按出版物类型分列的阿拉伯语ABSA研究分布情况ABSA在2016年开始受到关注。根据论文的发表形式,主要分为会议论文、期刊论文、书籍章节、博士论文和硕士论文五类。大多数研究是发表在同行评审期刊或会议论文集上的文章。如图4所示,许多研究由著名的出版商发表,如Springer、IEEE、ACL和Elsevier。所纳入的研究可根据其目的分为三类:(1)致力于创建新的公共基准数据集的研究,(2)开发新的S. Alyami,A.Alhothali和A.贾马尔沙特国王大学学报6531图六、按目标分列的阿拉伯语ABSA研究分布情况解决ABSA任务的技术,和(3)研究提供了一个新的公开可用的基准数据集和解决ABSA任务的新方法。如所示。图6是47项研究中的4项,致力于开发阿拉伯语ABSA的公共基准数据集一项研究为阿拉伯语ABSA建立了其余42项研究致力于开发解决阿拉伯语各种ABSA任务的新技术。所有纳入的研究都用于解决关于获得和使用的数据集的第一个研究问题。另一方面,只有43项研究涉及开发-图7.第一次会议。阿拉伯ABSA研究在阿拉伯ABSA数据集上的分布一系列新技术被用来解决剩下的研究人员使用各种术语来描述涉及意见目标的短语,包括方面检测,方面术语提取,特征提取和意见目标表达提取。此外,一些研究区分了方面类别的情感分类和意见目标表达。然而,本综述中包含的大多数研究都使用方面情感分类来指代这两种情况。标准化的各种术语,在这项研究中,我们将使用意见目标表达(OTE)提取,指的是提取意见目标条款,方面类别检测(ACD)检测预定义的方面类别,和方面的情感分类(ASC)参考意见目标表达和方面类别的情感分类。5.2. 研究人员使用了哪些数据集来开发和测试他们提出的阿拉伯语ABSA模型或算法,哪些数据集可以公开访问?研究人员为阿拉伯语ABSA使用了两种类型的数据集:可公开访问的基准数据集和本综述中涉及的五项研究致力于创建公开可用的阿拉伯语基准数据集,其中四项遵循SemEval注释指南。如中所示。图7,大多数主要研究使用内部私人数据集。此外,阿拉伯语酒店评论数据集SemEval-2016(AL-Smadi等人,2016年)是最常用的公共数据集,而三个或更少的主要研究使用其余的公共数据集。表5和表6显示了与不同的公共和私有阿拉伯ABSA数据集相关的各种属性。5.3. 阿拉伯语ABSA研究涵盖哪些领域和阿拉伯语方言?5.3.1. 域ABSA被认为是一个高度依赖于域的NLP问题,因为不同的域有不同的实体,表5公共阿拉伯语ABSA数据集的摘要,其中包括数据集名称,阿拉伯语语言类型(MSA:现代标准阿拉伯语,DA:方言阿拉伯语),注释的ABSA任务(OTE:意见目标表达),域(电影,新闻等),数据集大小、平衡(是、否)、链接和数据集ID。数据集名称(参考)阿拉伯语类型带注释的ABSA任务域大小平衡链路IDHAAD书评阿拉伯语(MSA显式OTE、OTE极性、方面书1513句,OTE:2838没有URLaD1(Al-Smadi等人,(2015年)(DA)类别,方面类别极性(1296不同),方面2014年加沙冲突职位:阿拉伯语Posts:Explicit OTE,OTE polarity,新闻分类:142265 posts,OTE:9655,方面没有URLbD2突发新闻帖子(生活津贴)方面类别,方面类别分类:4(Al-Sarhan等人,(2016年)极性备注:说明:Aspect category,Aspect新闻13628评论,方面阿拉伯语(MSA范畴极性分类:5SemEval-2016 Arabic hotel(DA)阿拉伯语(MSA句子
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功