乌尔都语情感分析研究：挑战与机遇-AReviewofUrduSentimentAnalysis:ChallengesandOpportunities

95 浏览量更新于2023-12-09 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志22（2021）53审查乌尔都语的情感分析调查：一种资源贫乏的语言放大图片作者：Jiangsua，Jiangsua，Jiangsu b，Jiangsua，Jiangsu A.HameedC，Syed Asif Hassand，Shakeel Ahmadd技术创新学院，扎耶德大学，144534，阿布扎比校区，阿联酋b计算和信息技术研究所，Gomal大学，D.I.Khan（KP），巴基斯坦c信息技术和电气工程学院信息和通信技术与自然科学系，Hovedbygget，B316，Norwegend沙特阿拉伯吉达阿卜杜勒阿齐兹国王大学拉比格计算机和信息技术学院阿提奇莱因福奥文章历史记录：2019年12月27日收到2020年3月7日修订2020年4月23日接受2020年5月15日网上发售保留字：乌尔都语情感分析预处理情感词典数据集语料库乌尔都语情感分类语义取向A B S T R A C T背景/介绍：互联网的曙光打开了大门，方便和广泛的信息共享的主题，如产品，服务，事件和政治观点。虽然对情感分析的研究数量正在迅速扩大，但这些研究大多涉及英语语言问题。本研究的主要目标是提出最先进的调查，以确定的进步和缺点，背负乌尔都语情感分析，并提出整改措施。方法：我们描述了迄今为止在这一领域取得的进展，分类研究沿三个方面，即：文本预处理，词汇资源和情感分类。这些预处理操作包括分词、文本清理、拼写检查和词性标注。对语料库和词典等复杂的词汇资源进行了评价，并对观点词、修饰语、否定语等情感分析结构进行了调查。结果和结论：报告了每项审查研究的性能。基于实验结果和本文提出的建议，为乌尔都语情感分析的进一步研究奠定了基础©2020 THE COUNTORS.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。内容1.导言. 541.1.Need of UrduSA 541.2.研究动机541.3.我们的贡献551.4.与以前工作的关系552.调查方法2.1.调查协议562.2.研究问题562.3.检索策略和纳入排除标准562.4.研究质量评估2.5.开展调查3.调查分类*通讯作者。电子邮件地址：zu.ac.ae（A. Khattak），zubair@gu.edu.pk（M.Z. Asghar），anasaeed08@gmail.com（A. Saeed），ibib@ntnu.no（I.A. Hameed），shassan1@kau. edu.sa，asif_srmcbt@yahoo.com（S. Asif Hassan），sarahmad@kau.edu.sa（S.Ahmad）。https://doi.org/10.1016/j.eij.2020.04.0031110-8665/©2020 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com54A. Khattak et al./ Egyptian Informatics Journal 22（2021）533.1.RQ 1.乌尔都语SA中使用的文本预处理技术是什么？在已发表的文章中，研究人员使用的技术是什么？...........................................................................573.1.1.乌尔都语单词分割583.1.2.文本清理583.1.3.乌尔都语拼写检查纠正、词性标注和命名实体识别593.2.RQ2：乌尔都语SA使用了哪些不同的词汇资源，创建这些资源使用了哪些技术？............................................................................................................... 603.2.1.乌尔都语语料库603.2.2.情绪词汇构建603.3.第三个问题：哪些技术已被用于乌尔都语文本的情感分类，以及在乌尔都语评论中有效分类情感的推荐方法是什么？..................................................613.3.1.主观分析613.3.2.语义取向623.3.3.修改器管理643.3.4.否定处理653.3.5.情感分类684.各种方法之间的比较。...................................................................................................................................................................................................................................... 684.1.几项调查的总结。................................................................................................................................................................................................................................. 684.2.UrduSA 68的未决问题4.2.1.情感词汇的稀缺性和意见词缺乏精确度4.2.2.俚语和俚语储存684.2.3.修饰语和否定语4.2.4.以领域为中心的词的分类4.2.5.slang的分类4.2.6.Emoticons的分类5.结果和讨论695.1.对提出的研究问题的答复695.2.定性和定量评价5.3.乌尔都语情感分析趋势716.结论727.知情同意728.人权和动物权利筹资72竞争利益声明参考文献721. 介绍社交媒体网站的出现允许并鼓励广泛传播有关商品，指导方针，设施和困境的知识和意见[18]。社交网络上的信息共享导致了高科技设备的发展，以促进公司和个人的良好决策[42]。英语语言加载了情感分析（SA）资源。这包括词典，解析器，词性标记器和大量的自然语言处理（NLP）工具[14]。虽然今天的SA系统的主要部分仅使用一种语言的SA增加了忽略其他语言文本中关键信息的可能性。对乌尔都语等语言的数据进行分析，需要形成一个包容性的SA结构和可操作的SA工具。1.1. Urdu SA巴基斯坦乌尔都语的SA由于几个问题而变得困难。其中最重要的是缺乏公认的乌尔都语词汇资源[22，5，36]。由于这一缺陷，乌尔都语SA主要需要将信息从充满资源的英语语言转移到缺乏资源的乌尔都语[52，48]。一般来说，乌尔都语网站的结构是一个说明性的布局，而不是一个适当的文本编码方案。这个圈子-在构造机器可读的语料库的努力中，立场引起了障碍。在任何语言中制作SA系统的基本组件都是情感词典。资源丰富的英语伴随着大量的情感词汇（如SentiWordNet），这些词汇已经建立得很好。另一方面，乌尔都语是一种资源匮乏的语言，严重缺乏情感词汇。与分词相关的问题、形态学的差异、词汇和格标记的不一致是阻碍创建完全可操作的乌尔都语SA系统的其他令人生畏的障碍。对乌尔都语SA的研究很少。究其原因，主要是语言工程单位缺乏兴趣和语言资源短缺。在大多数情况下，过去对乌尔都语进行的研究强调了语言处理的各个方面[14，27]。这包括停止词识别，词干提取，概念搜索，命名实体识别（NER），乌尔都语形态和数据集。然而，Singh[70]对乌尔都语情感分析进行了简要的调查，重点是主观性分析。在这个调查中，我们试图涵盖乌尔都语文本预处理，词汇资源和情感分类的大部分细节，以及乌尔都语情感分析的任务和技术。1.2. 研究动机这项调查的动机如下。A. Khattak et al./ Egyptian Informatics Journal 22（2021）5355乌尔都语是巴基斯坦的国语，也是印度次大陆广泛使用的语言. 近年来，网络上有关乌尔都语的数据资源贫乏的乌尔都语中的SA，需要不同的词汇资源。本调查试图提出国家的最先进的作品进行文本处理及其相关的工具，语料库，情感词典和情感分析方法的乌尔都语。乌尔都语SA的快速研究进展促使我们通过搜索，识别，总结和评估相关研究进行全面调查。1.3. 我们的贡献我们在本文中的贡献总结如下。1. 对乌尔都语情感分析中的任务进行分类;2. 讨论乌尔都语文本预处理的重要性3. 考虑乌尔都语情感分析所需的不同词汇资源;4. 评估目前可用于乌尔都语情感分类的不同技术和任务;5. 讨论乌尔都语情感分析中修饰语和否定语的作用;6. 描述现有技术的局限性，列出尚未解决的问题和可行的解决办法;7. 在乌尔都语情感分析中提出未来的方向。1.4. 与先前工作的与其他资源丰富的语言（如英语）相比，乌尔都语的情感分析仍处于成熟的初始阶段然而，所做的工作有限，因此直接影响了目前可用的调查和综述文章的数量。Anwar等人。[14]在他们对自动乌尔都语处理的调查中，提出了一个专注于乌尔都语语料库开发不同的语言技术，如词性标注（POS），解析和命名实体识别。作为对乌尔都语语言处理进行的早期调查之一，它缺乏在乌尔都语中执行情感分析所需的适当技术，本研究旨在解决这一问题。Daud等人。[27]调查了乌尔都语处理中的不同语言资源和预处理技术，讨论了各种任务的最佳实践技术，例如句子绑定-元识别、标记化、词性标注、NER和WordNet词典的开发。乌尔都语处理的各种应用，如信息检索，剽窃检测和分类，也进行了研究。然而，这项调查的重点是情绪分析范式。因此，需要进行详细的调查，重点是发送分析。本文中进行的调查是完全不同的，因为重点是乌尔都语的情感分析，而不仅仅是简单的文本处理。Singh[70]在他对乌尔都语情感分析的调查中，重点关注主观性分析和情感分类。在他们的研究结果中，他们报告说缺乏不同的乌尔都语语言工具，如POS标签和命名实体标签。他们包括17项关于乌尔都语情感分析的研究，并根据技术和数据集对这些研究进行了分类。然而，在这项调查中，我们专注于乌尔都语情感分析，从三个维度回顾了27项研究，即：(i) 文本预处理，（ii）词汇资源，和（iii）情感分析，进一步分为不同的子类别（图）。①的人。此外，我们还报告了所选研究使用的技术、数据集、目的、局限性和未来方向在这项调查中，我们讨论了现有的技术，并提出了作者报告的原始结果。Khan等人[43]通过回顾发表在乌尔都语情感分析中的14篇以上的文章，对乌尔都语情感分析进行了调查乌尔都语SA所需的技术在机器学习、基于词典和混合方法的基础上进行了然而，仍然有必要进行全面的调查，这可以涵盖乌尔都语SA的各个方面，提出问题并找到答案。Lo等人[47]进行了一项关于多语言情感分析的调查，重点是稀缺资源语言。不同的技术和工具进行多语言情感分析的调查和报告。此外，还确定了不同的挑战，并就今后的方向提出了建议。然而，我们提出的调查是不同的，因为我们专注于乌尔都语的情感分析。本文件分为以下几节。第2提供了所进行调查的详细分类第三对比较结果进行了讨论，最后，第四给出了本文的总体结论。2. 调查方法本次调查采用的方法如下：Fig. 1. 搜索和筛选研究文章的流程图。●●56A. Khattak et al./ Egyptian Informatics Journal 22（2021）532.1. 调查方案本调查是通过从不同的电子资源库中检索相关文章来进行的。在下一步中，通过应用纳入和排除标准过滤所获取的文章数量。最后，根据研究问题选取相关工作，并对结果进行详细分析。2.2. 研究问题在这项工作中，我们解决了以下研究问题进行调查。RQ1：乌尔都语SA中使用的文本预处理技术是什么？在已发表的文章中，研究人员使用的技术是什么RQ2：乌尔都语SA使用了哪些不同的词汇资源，创建这些资源使用了哪些技术？第三个问题：哪些技术已被用于乌尔都语文本的情感分类，以及在乌尔都语评论中有效分类情感的推荐方法是什么？2.3. 检索策略和入选排除标准通过提出不同的检索查询进行了基于关键词的系统检索，以检索最相关的研究文章。我们使用了不同的关键词，如“乌尔都语情感分析”，“乌尔都语文本的情感分类”，“乌尔都语意见挖掘”，“乌尔都语为了纳入或排除研究，我们选择了纳入和排除标准[62，63，40]，如下所示：（i）IP1：如果在文章的标题和在本文档内开发的几个或全部关键词之间存在关联，则包括文章，（ii）IP2：包括文章，其摘要包含与社交媒体中的个性分类相关的解释或建议阅读，（iii）IP3：包括文章，其关键词是在本文档内创建的关键词的成员，（iv）IP4：包括提出社交媒体人格分类新方法的文章。排除原则（EP）如下所示：EP 1：排除不符合纳入标准的每篇文章，按顺序实施。作者对纳入-排除过程的所有步骤的参与是，第一和第二作者创造了纳入和排除的原则，而所有作者执行这些原则以完成前-排除过程。包括和不包括论文。图1显示了本次调查采用的搜索和过滤过程。2.4. 研究质量评估为了评估所选文献的质量，我们采用了[62]提出的方法。根据以下质量评估（QA）问题对每份选定论文（纳入文献）进行评价：问题1：本文提供了用于乌尔都语SA的一种或多种预处理技术的描述。问题2：本文描述了乌尔都语SA问题3：本文清楚地说明了使用一些最先进的技术对乌尔都语文本进行情感分类将上述每个质量评估问题的答案添加到Excel表格中，并评定为1表1列出了将上述质量评估问题应用于四项研究的结果每项评估的理由见评估总和和最终标准化评分描述了每项研究的质量评估结果标准化评分显然，在总质量评分为3分的情况下，四项研究S1、S2、S3和S4的标准化评分分别为0.83、1.0、0.66和0.5我们将质量分数设置为0.5作为阈值。任何低于此分数的研究都将被排除在论文库之外，即如果至少有一项研究部分涵盖了其中一个质量评估问题，则认为适合纳入调查。根据这些评分结果（表1），将文章分组，描述文章与研究问题的相关性。为了检查文章质量评估的有效性，一位博士生导师随机获得了五篇文章，并被要求根据概述的标准评估论文。为了解决质量分类中的任何分歧，我们咨询了第二位博士生导师[31]。2.5. 进行这项统计调查根据第2.3节中定义的检索标准，从不同的电子数据库（如ScienceDirect、IEEE Xplore、ACM、Springer Link和Wiley）中检索了几项研究（2 5 0）。在应用纳入标准后，由研究者检查标题和摘要（I期），结果显示，我们得到了81项研究。在下一阶段（II期），由另一名研究者（共同作者）采用排除标准对选定的文章进行审查。到表1一组样本研究及其质量评估分数。质量评估问题示例研究备注标准S1穆赫塔尔和汗S2Alfrez等人S3Sana等人S4Asghar等人[五十二][七]《中国日报》[68个][22日]QA1QA2本文提供了用于乌尔都语SA的一种或多种预处理技术的描述。本文描述了一个或多个10.511100.51研究S4给出了乌尔都语SA中使用的一些预处理技术的部分描述。Qa3乌尔都语SA本文明确提出了情感分类1110.5贡献关于乌尔都语SA研究S4给出了情绪的部分描述求和乌尔都语文本的最新版本(out（3）：2.5322乌尔都语SA使用的分类技术累加前几行归一化评分（00.831.00.660.5通过将前一行中的分数除以3（因子数）得到的A. Khattak et al./ Egyptian Informatics Journal 22（2021）5357在研究者之间达成共识和分歧后，在博士生导师的指导下安排小组会议。最终选择了40项研究。3. 调查分类本节介绍了对乌尔都语情感分析和相关任务进行的调查的全面总结，这将有助于确定研究差距，并找到解决方案，乌尔都语文本情感分析系统的开发调查从文本预处理、词汇资源和情感三个方面进行。二、3.1. RQ 1.乌尔都语SA中使用的文本预处理技术是什么？在已发表的文章中，研究人员使用的技术是什么？乌尔都语文本预处理的目的是准备输入的乌尔都语文本进行进一步处理，通过应用多种技术，如乌尔都语图二. 测量分类图58A. Khattak et al./ Egyptian Informatics Journal 22（2021）53分词、文本清理、拼写检查和纠正，以及POS和NE标记器。已经使用不同的技术来执行乌尔都语SA任务中的预处理任务，其呈现如下：3.1.1. 乌尔都语分词乌尔都语分词是识别单词之间的边界的过程。在乌尔都语中，识别单词边界很重要，因为空格并不表示边界。词分割被认为是乌尔都语文本处理中的重要部分，因为它包括形态分析器、POS标记器和翻译器，并且由预处理模块执行以指示词边界。对乌尔都语分词进行的早期工作总结如下。[5]，报告说乌尔都语字母分为连接词和非连接词。可以在单个单词中插入空格，例如，“Khoob surat“（Khoob surat，美丽的）。相反，两个不同单词之间的空格可以省略，例如，“阿兰姆吉尔”（alamgeer，通用）。以下两个问题与乌尔都语的分词有关，即：（i）空格插入，和（ii）空格省略。在乌尔都语中，大多数单词都是由更多的99.15%。该系统还可以进一步扩展以包括其他语言3.1.2. 文本清理文本清理旨在清除输入文本中的标点符号，HTML剥离，URL和其他特殊字符，以便为情感分析模块中的进一步处理做好准备。由于乌尔都语文本的拼写特征，例如可选择使用变音符号和单词边界的模糊性，在文本清理过程中添加了两个额外的任务，即：变音符号省略和单词边界识别。在乌尔都语中，dia- critics是可选的，它们的使用主要由作者决定例如，（），是一种常规的做法，以消除他们在文本规范化[30]。乌尔都语情感分析中的文本清理已在许多研究中进行，总结如下。[7]，在乌尔都语文本中进行情感分析，考虑删除标点符号，HTML标签和其他特殊符号。此外，他们还研究了变音符号的省略、正音化、标记化和词边界识别。至于变音符号的省略，他们报告说，像阿拉伯语和其他基于脚本的语言，如波斯语，土耳其语，信德语和旁遮普语;乌尔都语脚本是由字母和变音符号组成一个字（通常是两个字）。比如说，ﺑﺎﺵﺧﻮ变音符号改变了单词的意思。然而，在书面bash，happy）是一个有两个字符串的unigram。就语法和语义而言，这些字符串是同一个单词的一部分。在键入时，插入空格以避免连接两个字符串。如果我们省略空格，我们会得到一个不正确的单词“khushbash”。因此，空间被插入[7]。在乌尔都语中，单词边界识别非常重要。例如，短语“din aur rat”（白天和晚上）写有几个空格，而“din aur rat“（白天和晚上）写没有空格。为了解决这一问题，Zeroz等人[7]通过包括符号“”来识别单词边界。|“在短语中，例如|ﺍﻭﺭ|“Din aur rat，day and night”（白天和黑夜）。[4]，报告乌尔都语脚本是基于草书，其中字母分为joiners和non-joiners。由于这种上下文敏感性，出现了分词的问题，因为空格并不总是精确的指示符单词的边界，就像英语一样。Durrani和Hussain[30]提出了一种基于规则的最大匹配框架，用于乌尔都语分词，通过使用不同的语言信息，如词素Bi-gram统计，乌尔都语语料库中的词缀和前缀，进行分割，空格省略和空格插入。在运行整个分割过程后，正确识别的单词对每个类别的识别率超过90%。然而，所提出的模型不能处理未知词。Daud和Khan[28]使用OpenNLP（一种基于机器学习的工具包）在预处理阶段执行乌尔都语分词。Mukund和Srihari[58，56]报告说，乌尔都语分词有不同的方法，例如基于监督的机器学习，基于词典和混合。他们提出了一种混合技术，使用隐马尔可夫模型（HMM）和字典查找，从而得出结论，乌尔都语分词是一项艰巨的任务，由于专业工具的不可用。Mukund和Srihari[57]提出了一种用于词边界分割的模型，其中二元组HMM模型被训练用于每个词中所有位置之间的字符转换他们使用CRULP发布的分割良好的乌尔都语语料库作为训练数据。Lehal[45]在他们关于分词的工作中，提出了一种分词策略来解决乌尔都语和乌尔都-梵文翻译系统中的空格遗漏问题，其中双语语料库和统计消歧方法用于训练分词模块。在这项工作中，实验进行了160万乌尔都语单词实现的准确性对于文本，这些符号是可选的，因为一些作者经常使用双音文字，而另一些作者则忽略它们。Durrani和Hussain[30]在乌尔都语分词的工作中，确定了词的边界，并对输入文本进行了规范化，以消除任何编码歧义。输入文本基于空格和标点符号进一步标记化。使用标点符号作为单词“空格”是因为有时空格并不一定表示单词边界。然而，在大多数情况下，空格确实暗示了词或语素边界，这仍然可以用于词边界识别。此外，词缀合并也是必要的.情感分析从给定文本的预处理开始。这个步骤包括规范化，标记化，最后是分词。乌尔都语使用上下文敏感的脚本，因此，标记化和单词边界识别是分开处理的[3]。预处理的单词然后被分配词性标签，例如，名词、动词、形容词、连词和否定词等。接下来，通过短语分块将这些标记的词转换成短语，从而获得名词短语、动词短语和形容词短语等。Mukund和Srihari [58]在研究乌尔都语文本的信息提取系统时，报告说分割过程包括两个模块，即省略变音符号和文本规范化。这是使用变音符号（airab，''阿拉伯语变音符号'）不是强制性的，而使用变音符号写作乌尔都语文本是留给作者的。词汇，注释语料库用于训练和字母的方法，适用于词汇数据，以消除变音符号。由于乌尔都语中的许多字符具有不同的拼写形式，这种变化会导致NLP中的差异，因此对文本进行规范化以保持字符的Unicode一致性。此外，该方法还可以用于Agent目标识别和问题意见挖掘。Ali和Ijaz[9]在他们的乌尔都语文本分类工作中，应用了不同的预处理技术，例如基于词典的标记化，规范化，停止词去除，基于词缀的词干和对输入文本的变音消除，以使其以适当的格式提供，并减少噪音以供后续处理。在他们关于乌尔都语自动离散化的研究工作中，Ali和Hussain（2010）开发了一种统计技术，用于从乌尔都语文本中自动识别变音符号。他们将不同的预处理技术与所提出的统计技术相结合，以量化给定文本中不同变音符号的影响。预处理技术包括标记化，POS标记，A. Khattak et al./ Egyptian Informatics Journal 22（2021）5359和堵塞。此外，他们还使用了发音词典和单词双字母表。结果表明，字母级三元模型在应用所有知识源的情况下，准确率达到95.37%。然而，通过增加语料库的大小可以实现更高的准确性。3.1.3. 乌尔都语拼写检查纠正、词性标注和命名实体识别拼写检查和纠正应用于检查和纠正单词的拼写，以达到更高的准确性。自动拼写检查的历史从那时起，已经提出了一些不同的拼写检查技术，其中一些技术利用一般的拼写错误趋势，而另一些则使用拼写错误单词的语音来定位可能正确的单词。现代统计技术基于在大量数据的训练期间对趋势的学习，并且越来越受欢迎[30]。在乌尔都语拼写检查和拼写纠正[30，61，37，36]方面进行的工作总结如下。乌尔都语的书写变化使得拼写检查和纠正变得困难。因此，为了解决这个问题，Durrani和Hussain[30]提出了在预处理模块期间对拼写变化进行词汇查找检查。Naseem和Hussain[61]在他们关于乌尔都语拼写纠正的工作中，提出了一种基于排名的乌尔都语拼写纠正技术，通过对有关插入，删除，替换和换位的错误进行分类。他们的脚本驱动的算法方法可以识别，纠正和审查错误。该技术使用错误编辑距离技术来纠正错误，而错误排名是基于词频和与错误单词在形状和声音方面的相似性来执行的。他们取得了令人鼓舞的结果，并证明可以通过提高声音和形状的相似性来改进拼写检查器，因为形状也可以用于基于阿拉伯文字的语言在从事基于语料库的乌尔都语词汇开发时，Ijaz和Hussain[36]从语料库中检查了乌尔都语词汇开发的各个阶段。他们解决了各种问题，如可选的声乐内容，Unicode的变化，名称识别和拼写变化。语料库的获取，清洗和tokenised，和结果的乌尔都语词汇的开发考虑的区别性特征，如POS标签，词元和音素。他们的工作的主要限制是，创建的词典不提供不同的领域所提到的创建语料库的覆盖。在进行乌尔都语拼写检查时，伊克巴尔等人[37]提出了反向编辑距离技术，用于乌尔都语文本的拼写检查和纠正。所提出的技术是基本编辑距离方法的变体。在这种技术中，单词最初与词典中可用的单词进行比较，并按顺序排列。如果发现错误，则插入、删除、替换和字母换位产生词典中可用的正确单词。该算法的复杂度为86n + 41。然而，观察到使用反向编辑距离方法与使用编辑距离算法相比，换位误差校正得很差。此外，反向编辑距离算法可以用于其他语言。在乌尔都语拼写检查的早期工作中，Naseem和Hussain[61]报告说，相当数量的拼写错误是由于不正确地使用空格插入。对乌尔都语语料库中的拼写错误进行了人工识别和分析共发现975个错误，其中736个错误是由于不规则的空间使用（75.5%），239个错误是非空间相关的（24.5%）。在与空格有关的错误中，大部分错误（占总错误的70%）是由于空格省略，5%是由于空格插入。因此，不规则使用空间处理乌尔都语文本导致相对较高的错误比例相比，其他错误源因此，这需要解决所有乌尔都语的语言处理应用程序。拼写检查工作在三个层次：（1）检测错误，(2)错误的纠正;（3）错误的排序在错误检测步骤中，验证语言中的单词的有效性，并且将无效单词识别为拼写错误。纠错的目的是从词典中选出有效的候选词，对错误的词进行纠错。排序步骤通过选择校正并按降序对这些校正进行排序来操作[61]。像其他语言一样，乌尔都语的词性标注在为每个句子中的单个单词分配词性方面起着关键作用。例如，当通过乌尔都语POS标记器时，句子： “'Alizaheentalibilmhay ， Aliisanintelligentstudent“ （阿里是一个聪明的学生）提供以下 POS 标记的输出（VBF/PNN/PNN/PNN/PNP/PNN）。不同的作者[57，64]，已将POS标记应用于乌尔都语文本进行后续处理。为此，使用POS标记器，其读取输入文本并为每个单词分配词性。安瓦尔等人[13]，提出了一个使用N-gram马尔可夫模型的乌尔都语POS标记器，在带注释的乌尔都语语料库上进行训练。他们的重点是在不同的可能组合中为每个单词分配一个准确的标签他们的结果被认为是最先进的。然而，他们的技术的效率可以通过使用混合标记方案来实现HMM来提高Malik等人进行的工作。[39]提出了使用语言学证据来解决“kaa，of”行为的POS标记机制。该技术有利于句法分析和语法关系的识别，并通过不同的分类测试验证了该方法的有效性。然而，只有句法模式被认为是，有必要解决的语义角色的“”（kaa，的）在不同的短语。Mukund和Srihari[56]通过使用结构对应学习（SCL）提出了乌尔都语博客的情感分析系统，SCL实验结果表明，该方法优于监督学习方法.Khan等人。[43]提出了一种使用条件随机场（CRF）模型的乌尔都语文本一个丰富的功能集与语言相关和语言无关的范例。采用了所提出的技术进行评估对基线分类，即支持向量机使用基准数据集。结果表明，在更好的f-分数方面，获得了比类似工作的改进。未来的目标是开发乌尔都语的词性标注语料库，并利用词性标注语料库进行在致力于命名实体识别的同时，Khan等人[41]开发了48，000个单词的乌尔都语NER数据集，由7个实体的4621个标记实体组成。在实验的基础上，他们提出了不同的统计和机器学习模型，例如CRF，最大熵（ME），HMM和递归神经网络（RNN），可以应用于开发的数据集的训练和测试目的。Malik[49]提出了一个使用人工神经网络（ANN）进行乌尔都语命名实体识别和文本分类的系统。开发了一个乌尔都语命名实体语料库，其中包含人物、组织、地点等实体，其余标记为其他。HMM和ANN用于分类目的。实验结果表明，该方法具有较高的精度。然而，改进单词标记化过程可以提供更好的结果。此外，其他神经网络也可以用于文本分类。60A. Khattak et al./ Egyptian Informatics Journal 22（2021）533.2. RQ2：乌尔都语SA使用了哪些不同的词汇资源，创建这些资源使用了哪些技术对于乌尔都语文本处理和情感分析，使用以下两个主要的词汇资源：（i）语料库和（ii）词汇。3.2.1. 乌尔都语语料库与SA相关的所有应用程序的强制组件是机器可读的黄金标准用户评论语料库乌尔都语资源的伤疤城市已经转化为乌尔都语评论语料库的不存在。这是由于以下事实：（a）乌尔都语网站通常采用说明性布局，而不是常规的乌尔都语文本字体和编码系统[36]乌尔都语机器可读语料库尚未问世[58，7，57]从上述研究中，我们确定了三种语料库创建技术，即：（i）手动，（ii）自动和（iii）双语。在本节中，我们通过总结有关这三种类型的先前工作，在进行乌尔都语文本的情感分析时，[7]获得了两个评论语料库来评估所采用模型的有效性。第一个语料库：该语料库由650条评论组成，其中322条是正面的，328条是负面的。另一个语料库平均评论长度为196个字。定义阈值，并删除阈值限制内的评论或具有中性分数的评论在乌尔都语中进行主观分类时，Mukund等人[59]汇编了一个从BBC乌尔都语新闻中获得的数据集。应用两个级别的过滤器，即日期和关键字搜索。日期过滤器用于检索从2003年开始的三年内的文章。基于关键词的过滤器由一组通常用于表达乌尔都语情感的种子词组成，例如“愤怒”（ghussa，愤怒），“愤怒”（Piyar，爱）这些词起作用并代表广泛的其他相关情感词。使用HTML解析器解析检索到的数据通过这种方式，获得了由700个句子组成的500篇文章，为情感进行了注释。大约有6000个句子没有标记情感。在研究乌尔都语语言处理的资源时，Hus- sain[35]观察到乌尔都语是一种资源贫乏的语言，因此，为乌尔都语语言处理创建词汇资源为了应对这一挑战，Hussain[35]开发了一个基于Unicode的系统，用于从不同的在线资源创建乌尔都语语料库Rajput[64]致力于创建一个基于本体的语义网络，用于以乌尔都语文本注释Web文档。代替使用NLP，提出了一种半自动化的方法，使用领域为中心的本体和上下文感知的种子词。实验结果表明，在乌尔都语报纸网站上发布的在线分类广告上进行实验时，获得了更好的准确率和召回率。但是，该系统无法处理复杂的文件。在双语语料库创建技术中，已经建立的一种语言的语料库被翻译成另一种语言[71，44，16]。例如，在英语语言中获得的语料库可以翻译成任何其他语言，如乌尔都语。双语语料库创建技术分为两种类型：（i）自动：在自动双语技术中，一种语言的语料库通过使用文本翻译工具自动翻译成另一种语言，例如语言翻译器[10]。在（ii）手动：这种技术，一种语言的语料库通过使用手动注释翻译成另一种语言[16]。就乌尔都语而言，语料库建设的双语翻译方法仍然没有使用[58，7，59]。在这项研究中，我们提出了一个自动双语技术乌尔都语语料库创建。所提出的技术受到[71，46]的启发，用于瑞典-丹麦语，瑞典-芬兰语和芬兰-丹麦语的语料库创建。3.2.2. 情感词汇构建情感词典是一个词汇库，包含情感术语及其情感类和得分[15]，在情感分析系统的开发中起着关键作用。这是因为每个情感术语都被分配了适当的情感类别和分数，这有助于计算各个级别的分数，例如单词，句子和文档级别[21]。有不同的技术可用于开发情感词典，例如手动注释，自举和基于语料库[52]。基于人工注释的技术通过由一组语言学专家（也称为人类注释者）选择和注释意见词然而，这一战略是昂贵和耗时的。基于引导的技术考虑初始种子词，并在不同网络资源的帮助下扩展这些词[1]。然而，这种方法需要充分收集语料库。基于语料库的方法利用了现有语料库和已有的情感词典[16]。在这一节中，我们提出了文献回顾的乌尔都语情感词汇的建设进行了选择性的研究在乌尔都语情感词典开发中，Javed等人[38]使用现有的英语情感词典来开发乌尔都语情感词典，而不是从头开始创建词典他们使用双语词典将英语情感词翻译成乌尔都语，并获得了一个包含89，000条关于巴基斯坦政治局势的推文的关于基线方法获得了令人满意的结果然而，该词典缺乏情感词的评分，由此可以丰富通过考虑语法规则和同音异义词的极性乌尔都语词汇是由Zeroz等人开发的。[6]涉及区分文本中的主观和客观表达的初始步骤。其次是主观文本的语义指向，以确定其积极或消极的倾向。最后，适当提高情感词的强度 . 例如， “ 非常美丽 ”（bohatkubsurt）是一个主观短语，其中“非常美丽”（bohat）代表观点词“非常美丽”（khoubsurat）的加强词。虽然这一过程提供了74%的精确度，但发现词典在意见词的情感评级方面存在不足。此外，修饰语和他们的情绪评级没有处理。[5，6]对乌尔都语SA进行的研究产生了一种文本分析程序，该程序需要从文本中识别和提取情感细节。涉及两个基本步骤：情感注释词典的制作和情感分类模型的结构化。该程序为胶片数据集提供了72%的精度水平，为制造数据集提供了78%的精度水平。然而，修饰语可以通过包含额外的形容词来扩大，而词汇可以通过对意见词的情感评级来升级。Daud和Khan[28]对罗马-乌尔都语文本处理的研究导致了英语和罗马-乌尔都语的双语SA方案。使用双语分类器，他们将英语和罗马乌尔都语的推文分开并分类。这是通过一个双语情感词典的方式，这是与利用SentiStrength，WordNet和双语猫的话塑造成为可能。这一制度的主要不足之处在于，A. Khattak et al./ Egyptian Informatics Journal 22（2021）5361考虑到了罗马-乌尔都语文本，没有办法管理乌尔都语原文Asghar等人。[22]在单词层面使用双语策略开发了乌尔都语情感词典。该技术是基于使用不同的语言资源，如一个列表的意见字，列表的修饰语和否定。首先，使用双语翻译技术将英语语言的意见词翻译成乌尔都语，然后分配适当的情感分数。在下一阶段，从不同的来源收集乌尔都语修饰语，并分配合适的情感得分。该系统是新颖的，有助于SA开发人员在乌尔都语。然而，词典需要不断更新，以保持其最新。在表2中，我们列出了乌尔都语情感分析的可用词汇资源以及限制和解决方案。3.3. 第三个问题：哪些技术已被用于乌尔都语文本的情感分类，以及在乌尔都语评论中有效分类情感的推荐方法是什么？像其他语言一样，乌尔都语的情感分类在不同阶段进行，即：（i）主观分析，(ii) 语义取向在本节中，进行了相关工作在这方面提出。3.3.1. 主体性分析主观性分析处理在每个评论中的主观和客观文本的识别。主观句中含有观点信息，而客观句中不含观点限制词。例如，句子：“-“（yehghar bohat khoubsurat hay，这表2乌尔都语情感分析

下载后可阅读完整内容，剩余1页未读，立即下载