基于语境化词表征的Shahmukhi词性标注方法及其性能评估

82 浏览量更新于2024-01-18 收藏 2.35MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报基于语境化词表征的shahmukhi语词性标注Amina Tehseena，Toqeer Ehsanb，Hannan Bin Liaqatc，Amjad Alid，Ala Al-Fuqahad，aGujrat大学信息技术系，Gujrat 50700，巴基斯坦b巴基斯坦古吉拉特大学计算机科学系，邮编：c巴基斯坦拉合尔54000教育大学Township校区信息技术系科学技术部d哈马德·本·哈利法大学科学与工程学院信息和计算技术系，卡塔尔多哈阿提奇莱因福奥文章历史记录：2022年6月23日收到2022年10月29日修订2022年12月5日接受2022年12月22日在线提供关键词：ShahmukhiPunjabi词性标注深度神经网络ELMo迁移学习A B S T R A C T词性标注在构建自然语言处理应用程序中具有初步作用本文介绍了第一个POS标记语料库的开发和评估，以及基于双向长短记忆（BiLSTM）网络的Shahmukhi（西旁遮普语）的POS标记器。一个13万字的平衡语料库已被注释，其中包含来自14个不同文本域的文本。通过研究CLE乌尔都语词性标记集的适用性，设计了一个Shahmukhi词性标记集，并设计了标注指南。一个多步骤的语料库评价过程已被用于标记语料库，包括基于语法和基于n-gram的一致性评价。所有领域的平均注释者间一致性为 95.35% ，平均Kappa系数为 0.94。BiLSTM POS标记器的性能与著名的语言无关的TreeTagger和Stanford POS标记器进行了比较通过采用迁移学习，在从万维网收集的 14.9 个 Shahmukhi词的语料库上训练上下文无关（ Word2Vec ）和上下文化（ELMo）词表示，进一步提高了标记的准确性标记器的f分数为96.11，准确率为96.12%。对于一个形态丰富和资源不足的语言，这些POS标签的结果是相当有前途的。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍旁遮普语是一种印度-雅利安语言，是世界上第十大使用最多的语言，全世界有1.5亿人说旁遮普语（Ahmad et al.，2020; Simonsand Fennig，2017）。它在巴基斯坦、印度、加拿大、美国、英国和其他旁遮普移民国家作为巴基斯坦的一种主要语言，它被该国44.15%的人口（PBS，2017）使用它是一种形态丰富的语言，并受到其他语言的影响，如阿拉伯语，乌尔都语，印地语，波斯语，英语和梵语（Humayoun和Ranta，2010; Sharma，2016）。旁遮普语有各种Majhi，Doabi，Powadhi和Malwai方言*通讯作者。电子邮件地址：aalfuqaha@hbku.edu.qa（A. Al-Fuqaha）。沙特国王大学负责同行审查Pothohari 、 Lahandi 和 Multani 主要在东旁遮普省使用，而Pothohari、Lahandi和Multani在西旁遮普省使用。然而，旁遮普东部和西部都使用Majhi方言，并被认为是旁遮普语的标准方言（Kaur等人， 2017年）。旁遮普语的独特之处在于它是用两种互不相干的文字写的：Shahmukhi和Gurmukhi。Shahmukhi主要用于巴基斯坦旁遮普西部它是用波斯阿拉伯语书写的;这是一种从右到左的，草书的，上下文敏感的书写系统（Malik，2006）。另一方面，Gurmukhi是用从左到右的音节字母书写的，并且在印度的东旁遮普使用（Dua等人，2012年; Saini和Lehal，2011年）。这两种难以理解的文字造成了一个楔子，因为大多数来自西旁遮普的人同样，来自东旁遮普省的大多数Gurmukhi有趣的是，他们尽管有大量的发言者，在计算方面，Shahmukhi仍然是一个低资源的语言。然而，近年来已经针对Shahmukhi完成了一些工作，其包括：命名实体识别（Ahmad等人，2020），名词的词汇语义关系分析（Akhter等人，二〇一九年;https://doi.org/10.1016/j.jksuci.2022.12.0041319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Tehseen，T. Ehsan，H.B. Liaqat等人沙特国王大学学报336Hashmi等人，2019a）和动词（Hashmi et al.，2019 b），词汇概况（Arslan et al.，2019）和词干处理（Mateen等人，2017年）。尽管已经为Gurmukhi脚本做了出色的工作，包括旁遮普语机器翻译（Malik，2006），文本汇总（Gupta和Kaur，2016），词干提取（Gupta和Lehal，2011），文本到语音（Singh和Lehal，2006），词性（POS）标记（Sharma和Lehal，2011）和词义去歧义（Walia等人，2019年）。与古尔木希相比，沙赫木希的资源和技术相当匮乏。大多数研究人员将Shahmukhi和Gurmukhi之间的音译用于各种任务，例如为他们的Shahmukhi文本实现POS标签（Akhter等人，2019;Hashmi等人， 2019 a; Hashmi等人，2019 b; Arslan等人，2019年）。音译遇到了各种各样的问题。第2.1节对音译问题进行了详细分析。对于低资源的Shahmukhi，没有探索POS标记作为POS标记集，POS标记语料库和POS标记器不可用（Ahmad等人，2020年）。词性标注是任何语言处理语音合成、信息提取、机器翻译、句法分析和语义分析等自然语言处理任务必不可少的预处理操作。因此，有必要为Shahmukhi开发独立和平衡的资源。本研究采用Shahmukhi词性标注语料库和Bi-提出了一种基于方向长短期记忆（BiLSTM）网络的POS标签器。为了建立Shahmukhi语料库，在线资源用于表3中提到的语料库收集。已经进行了几个预处理任务的语料库清洗和准备。收集了1490万个单词的语料库，并将其划分为 14 个文本域，如表 4 所示。为了设计用于Shahmukhi的POS标签集，CLE乌尔都语POS标签集（Ahmed等人，2015）进行了研究，并设计了一个合适的36个POS类的ShahmukhiPOS标签集。从14个文本域中提取了13万字的平衡语料库用于注释。为了开发出一个有效的、准确的词性标注语料库，我们进行了多层次的语料评价。语料库评估过程从完整性和正确性开始，然后对标记的语料库进行人工审查。为了进一步确保一致性，已经执行了基于语法和基于n-gram的一致性评估。所有领域的注释者间一致性已经计算，平均一致性为95.35%，平均Kappa值为0.94。注释语料库的最终版本已被用于标注器的训练和测试。开发了一个基于BiLSTM神经网络的POS标注器为了开发BiLSTM POS tagger，我们使用第6.2节中讨论的各种功能进行了一些实验。迁移学习已被纳入标签培训。两个独立于语言的POS标记器; TreeTagger和Stan-福特·泰格受过训练。TreeTagger的f值为85.11，准确率为85.77%，而Stanford tagger的f值为94.36，准确率为94.43%。我们的BiLSTMPOS标记器优于这两个标记器，f分数为96.11，准确率为96.12%。为了将Shahmukhi文本音译为拉丁字符，KamranMalik等人（2010）提出的音译方案已用于所有示例中。POS标记的语料库可以在网上免费获得1。论文的主要内容如下.第2节对该领域的文献进行了全面回顾。第三部分讨论语料的收集和准备。在第4节中，设计了Shahmukhi的POS标签集，并讨论了标记准则。第五部分包括注释过程，并讨论了语料库的评价。第6节介绍了我们的BiLSTM POS标记器开发及其训练，其他统计POS标记器培训和标记器结果的解释第7节通过讨论结果总结了本文。2. 相关工作相关的工作分三个部分：第2.1节介绍了为Shahmukhi POS标记所做的工作，第2.2节介绍了对Gurmukhi和Urdu POS标记集的分析，第2.3节讨论了几个在Gurmukhi和Urdu上训练的POS标记模型。我们研究了乌尔都语的词性标注，因为Shahmukhi和乌尔都语使用相同的脚本和语法相似性也存在。2.1. Shahmukhi词性标注在这一节中，我们提出的文献，突出了Shahmukhi POS标记器的不可用性。为了实现Shahmukhi语的词性标注，研究者使用Gur- mukhi标注器对文本进行词性标注.标签已通过将Shahmukhi文本音译为Gurmukhi完成。Shah-mukhi和Gurmukhi的音译方案已经提出。Malik（2006 ）提出了使用字符映射和依赖规则的 Shahmukhi到Gurmukhi音译。Saini等人（Saini等人，2008年）提出了Shahmukhi到Gurmukhi的音译方案，准确率达到 91.37% 。 Lehal（ Lehal，2009）提出了Gurmukhi到Shahmukhi的音译系统，在单词水平上的准确率为98.6%。尽管有这些音译方案，但据观察，研究人员并没有使用这些方案从Shahmukhi到Gurmukhi的音译，然后再回到Shahmukhi本身是一项具有挑战性的任务。例如，从Shahmukhi音译到Gurmukhi面临识别没有变音符号的Shahmukhi文本的问题。Shahmukhi文本通常没有短元音，这会导致潜在的歧义。例如字用短元音书写时的rkHzabar它变成动词rakH用作名词rukH这对识别正确的文本。在Gurmukhi中存在Shahmukhi字符的多重映射，这增加了音译错误。例如，Shahmukhi字符' '和' '在Gurmukhi中有多个映射。 Shahmukhi 字符对于 Gurmukhi 字符（ Singh 和 Sachan ，2019）。同样，当从Gurmukhi音译到Shahmukhi时，它面临着正字法和发音之间的差异，专有名词的音译，Gurmukhi文本中缺少nukta（点）符号和多个字符映射的问题（Lehal，2009）。正字法和发音使音译具有挑战性。例如，Shahmukhi字符“”被转换为“”，如单词xyAl“idea”导致单词kHyAl。此外，多个映射会产生歧义，因为某些Gurmukhi字符被映射到多个Shahmukhi字符。Gurmukhi字符“z”可以映射为“”、“"、"”和“”。同样，Gurmukhi字符' t '在Shahmukhi ' '和 ' '中有两个映射。例如，对于Gurmukhi词taakt正确Shahmukhiword是tAqt、、、、和.在Shahmukhi中，一些专有名词使用基于一般规则的映射产生的典型拼写来书写。1https://github.com/toqeerehsan/Shahmukhi-POS-Tagging。2http://www.akhariwp.com/。A. Tehseen，T. Ehsan，H.B. Liaqat等人沙特国王大学学报337错误的文本。这些词的音译规则的形成是具有挑战性的，因为基于一般规则的映射不起作用。此外，对于nukta符号，虽然五个辅音此外，对于Gurmukhi脚本中的某些Shahmukhi字符，例如“”和“”，没有精确的等价映射需要手动清理语料库，以解决突出的音译问题。Hashmi et al.（2019 a）基于语料库对Shah-mukhi名词的词汇语义关系（LSR）进行了研究。 Shahmukhi 被音译为 Gurmukhi 用于 POS 标记。Shahmukhi动词的LSR由Hashmi et al.（2019 b）研究。在这部作品中，Shahmukhi被音译为Gurmukhi用于词性标记。注释后，进行从Gurmukhi到Shah- mukhi的音译，并手动审查语料库以解决音译问题。Arslan et al.（2019）研究了Shahmukhi的词汇概况（VP）。这是一项基于语料库的研究，其中开发了200万个语料库，用于选择名词以开发同义词集。在语义类别方面，1,000个名词的清单是用英语编制的。检索到的名词列表从英语翻译为Gurmukhi，然后从Gurmukhi翻译为Shahmukhi。由于Shah-mukhi的POS标记器不可用，因此使用音译进行POS标记。Gurmukhi和Shahmukhi之间遇到了音译问题，人工清理语料库。Shahmukhi的同义词的名词研究在Akhter等人。（2019年）。拼音被用于POS标记。Shah-mukhi的命名实体识别（NER）和分类由Ahmad等人研究（Ahmad等人，2020年）。他们开发了一个包含318，275个代币的语料库。他们手动标记命名实体，并发布了Shahmukhi的第一个NER语料库他们强调了沙穆希POS机的不可用性。进行 Shahmukhi-Gurmukhi 音译的研究见表 1 。他们研究了Shahmukhi的动词、名词和词汇概况，对于这些任务，需要POS标记的语料库来识别词性。由于Shahmukhi词性标注器的不可用，这些研究使用音译来实现词性标注语料库。在Shahmukhi-Gurmukhi双向音译过程中，研究者遇到了上述音译问题。为了开发出一个有效的语料库，需要对语料库进行手工清理，这使得音译复杂且耗时。因此，需要为Shahmukhi开发独立的资源。词性标注不仅是表1和NER中提到的任务所必需的，而且也是其他自然语言处理应用程序的关键任务。2.2. Gurmukhi and Urdu POS标签集已经为乌尔都语设计了一些POS标签集（Hardie，2003;Sajjad和Schmid，2009; Ahmed等人，2015）和Gurmukhi（Singh，2008;Kumar和Josan，2012; TDIL，2014）。NLP任务，实践哈迪（哈迪，2003年）乌尔都语POS标签集和G。Singh（Singh，2008）Gurmukhi词性标注集由于包含大量的标注而遇到了一些挑战，如形态句法歧义和数据稀疏。Sajjad和Schmid的（Sajjad和Schmid，2009）乌尔都语POS标签集包括对动词的不充分分析，因为动词只有一个标签（Mukund等人，2010年）。它被认为是一种纯句法结构，缺乏形态特征和功能特征。这些问题限制了它的使用，仅用于POS任务，并被认为不适合其他NLP任务，如解析（Abbas，2014）。鉴于，CLE乌尔都语POS标签集（Ahmed等人，2015年）的准确性被认为是相当充分的，语言上合理的，涵盖了所有语言方面。它还涵盖了在语言的计算处理过程中由以前的标记集创建的挑战在CLE乌尔都语POS标签集中，已经为形态句法类别提供了特殊的考虑（Khan等人， 2019年）。例如，动词被适当地分为形态POS类;动词不定式和限定动词，其次是动词助动词的句法类;情态，时态，体貌和进行体。Gurmukhi POS标记集包括由TDIL 3开发的减少数量的GurmukhiPOS标记集，其被Kaur等人使用。（2014），以提高Gurmukhi POS标记的准确性。Kumar and Josan（2012）设计了另一个Gur- mukhi标签集。在TDIL tagset中，代词被相对较好地分类，而在Kumar和Josan（2012）TDIL标记集也有单独的互反代词标记（PR_RCP），在标记集文档4中提供了示例apasaShahmukhi脚本显示它类似于CLE乌尔都语POS标记集和自反Apna（APNA）标记是适用的。此外，在TDIL标记集中，为不确定代名词（PR_PRI）定义了单独的POS类，用于kisE“to whom”等词。对于这些单词，CLE乌尔都语POS标记集标记人称代词（PRP）和人称指示代词（PDM）适用，而不是PR_PRI。在TDIL标记集中，wh-词有两个标记：wh-词代词（PR_PRQ）和wh-词指示（DM_DMQ）。在Kumar and Josan（2012）CLE乌尔都语POS标签集有很好的分类代词类，这些代词类非常适用于Shah- mukhi脚本，因为来自这两个标签集的wh-词或疑问词标签也像乌尔都语一样充当代词。然而，从属连词，并列连词，副词和形容词的标记在某种程度上可以映射到Shahmukhi脚本，并在一定程度上是相同的CLE乌尔都语POS标记集以及。Kumar和Josan名词的四种词性分类：普通名词（NN）、专有名词（NNP）、复合名词（NNC）和复合专有名词（NNPC）。而TDIL标签集将名词分为普通名词（N_NN）、专有名词（N_NNP）和方位名词（N_NST）。从这两个标签集，普通和专有名词标签适用于Shahmukhi。虽然，TDIL中的N_NST标记在句法上表现得像Shahmukhi中的普通名词，类似于CLE乌尔都语的POS标记集。在Gurmukhi脚本中，一些词汇项目被连接并表现为单个词汇项目，而在Urdu和Shahmukhi中，它们被认为是单独的词汇项目。例如，单词mUm batI在Shahmukhi语和乌尔都语中，我们相应地，对于动词和助动词，类似的挑战也遭到了反对。由于hUyE gA在Gurmukhi中，它们被写为单个词汇项，并分配一个动词标签。为了分析Gurmukhi tagsets指南中提供的示例，我们使用Google翻译器进行翻译。对于符号，Kumar和Josan包括太多的标签。主要动词（VBM）类别也被细分为时态和人称POS。对于标记，时态和人称POS标记与VBM标记结合使用因此，结合使用两个以上的标记，这增加了标记集的大小这两个标签集还定义了分离的外国片段，残留和未知的词的标签 CLE乌尔都语POS标记集还为外来片段提供POS类3http://punjabipos.learnpunjabi.org/TagSet.aspx。4http://www.tdil-dc.in/tdildcMain/articles/134692Draft%20POS%20Tag%20stan-dard.pdf。A. Tehseen，T. Ehsan，H.B. Liaqat等人沙特国王大学学报表338338在将Shahmukhi音译为Gurmukhi后，使用Gurmukhi POS tagger进行Shahmukhi POS标记的概述。引用音译VP动词LSR名词LSR名词同义词Gurmukhi POS TaggerShahmukhi POS标记器Hashmi等人（2019年a）UXXUXUXAkhter等人（2019年）UXXXUUXHashmi等人（2019年b）UXUXXUXArslan等人（2019）UUXXXUX(FF)但它提供了明显的词性类，而不是未知词标签。总之，由于脚本障碍和缺乏文档化工作，很难更详细地研究Gurmukhi POS标记集对Shahmukhi的适用性。然而，乌尔都语和Shahmukhi的文字是相同的，并且都共享大量的词汇（Bhurgari，2007; Hasan等人，2015年）。语法上也存在相似之处，包括形态丰富性，格标记，复杂的谓语结构和系动词结构。在未来，乌尔都语语法也可以帮助句法分析Shahmukhi由于句法结构的相似性和适用性。通过考虑所有讨论的参数，CLE乌尔都语POS标记集已被视为设计一个Shahmukhi POS标记集的基准。2.3. 现有的Gurmukhi和Urdu POS标签POS标记器已经通过使用基于规则的、概率的、混合的、机器和深度学习方法来开发。随机标记器基于诸如条件随机场（ CRF ）（Laffeirs等人，2001）、隐马尔可夫模型（HMM）（Charniak等人，1993），支持向量机（SVM）（Giménez和Marquez，2004），最大熵（ME）（Ratnaparkhi，1996）和决策树（DT）（Schmid，2013）。M. Kaur等人（Kaur等人，2014）通过使用减少的标记集和基于HMM的模型来改进Gurmukhi POS标记器性能。从网络空间收集了一个语料库，包含42 000个单词。他们使用了由印度语言技术发展（TDIL）5提出的标签集，该标签集由36个标签组成。由于Sharma和Lehal（2011）使用的大标签集导致了数据稀疏问题。所提出的模型报告了92Mittal et al.（2014）开发了Gurmukhi POS标记的统计二元模型。他们使用了TDIL提出的标签集。利用网络资源收集语料2,400句，共 10,000 字 . 在无未知词的情况下，词性识别准确率达到92.16%Sharma（2016）提出了一种基于规则和CRF的混合方法，用于Gurmukhi POS标记。TDIL建议使用36个类别的标记集使用了28，000至42，000字的语料库。这位涂鸦者的准确率达到了92%。基于SVM的Gurmukhi标记器由Kumar和Josan（2016）开发。Kumar和Josan（2012）提出了一个包含38个类的旁遮普语POS标记集。使用54，000个单词的语料库来训练和测试标记器的准确性。平均准确率为89.90%。Anwar等人提出了一个乌尔都语的统计词性标注器（Anwar等人， 2007年）。标记器基于n-gram马尔可夫模型和随后的退避模型。EMILLE语料库用于训练和测试。使用两个标签集进行实验，第一个标签集包含250个标签，第二个标签集包含90个标签。小标记集的退避模型给出了95%的最佳准确率。Sajjad和Schmid（Sajjad和Schmid，2009）实验了四种最先进的乌尔都语概率POS标记器：TnT标记器，TreeTagger，SVM标记器和随机森林（RF）标记器，并比较了它们的性能。11万字的语料库是从网上收集的使用具有42个标签的标签集进行注释。结果表明，SVM标记器表现更好，准确率为95.66%。对于乌尔都语，Ahmed et al. （Ahmed等人， 2015）提出了POS标签集。它有12个主要类别，再细分为35个同义类。标签集用于注释来自CLE乌尔都语文摘语料库的10万个单词（Urooj等人，2014年）和96.8%的准确性，这是一个形态丰富的语言安静的前景。Khan等人提出了一种基于CRF的乌尔都语POS标注器。（2019），并根据SVM对结果进行了评价。使用两个基准数据集：CLE数据集（Urooj等人，2014）和BJ数据集（Jawaid等人，2014年）。两个标签集被使用，一个是35个句法类，另一个是37个句法类。CLE和BJ数据集的报告准确率分别为86.95%和93.56%。Khan等人（2019）中提出的工作已被Khan等人进一步扩展（Khan等人，2019年）。在这项研究中，研究了机器和深度学习方法的有效性。模型在两个基准数据集上进行了评估：CLE数据集和BJ数据集。评估的模型包括：CRF，SVM，HMM，n-gram马尔可夫模型和两种递归神经网络（RNN）变体。RNN的这两种变体包括简单的LSTM-RNN和带有CRF的LSTM-RNN实验结果表明，在CLE数据集上，基于CRF的模型表现得更好，准确率为83.52%。相反，在BJ数据集上，LSTM-RNN模型表现更好，准确率为88.7%。Nasim等人（Nasim等人，2020）使用了两种最先进的标记器：CRF和BiLSTM与CRF。这两种模型主要用于序列标记。两种模型的准确率均达到96%。Ehsan和Butt（Ehsan和Butt，2020）致力于乌尔都语的依赖解析。他们提出了训练两个依赖解析器的比较研究; BiLSTM解析器（Kiperwasser和Goldberg，2016）和MaltParser（Nivre等人，2007年）。两个解析器都接受了乌尔都语的两个依赖树库的训练; CLE-UTB（Ehsan和Hussain，2020; Ehsan和Hussain，2019; Ehsan，2022）和HUTB-UTB6。CLE-UTB使用了40个标签的标签集和148，000个标记的语料库，其中有7，854个句子。他们进一步开发了一个基于BiLSTM网络的POS标记器。标记器在CLE-UTB上的最佳准确率为96.3%。词性标注也有助于训练浅层语法分析器（Ehsan例如，2022年）。表2总结了Gurmukhi和Urdu的POS标记方法。3. 沙赫穆希语料库图1示出了Shah-mukhi POS标记语料库和神经POS标记器的开发方法。第一步，从万维网上收集了一个包含1490万个Shahmukhi词的语料库。然后通过Unicode规范化和清洗对语料库进行规范化。一个较小的版本的语料库已被选定为注释相对于14个文本域。乌尔都语POS标签集的适用性进行了研究，并提出了一个标签集Shahmukhi。注释5http://www.tdil-dc.in/tdildcMain/articles/134692Draft%20POS%20Tag%20stan-dard.pdf。6https://github.com/UniversalDependencies/UDUrdu-UDTB。A. Tehseen，T. Ehsan，H.B. Liaqat等人沙特国王大学学报表339339Gurmukhi和Urdu的POS标记模型，语料库和结果总结引用方法/模型数据集标签集语言结果/准确度（Kaur等人， 2014年度）统计学：HMM四万两千字TDIL tagset of 36锡克教文92（Mittal等人， 2014年度）统计学：Bi-gram2400句标签建议36个标签锡克教文92.16%的准确率（Sharma，2016）模型混合：基于规则有一万个代币语料库28，000至通过TDIL tagset36个班锡克教文92%的准确率（Kumar和Josan，2016）和统计：通用报告格式统计学：SVM四万两千字语料库54，00038标签锡克教文89.90%准确度（Anwar等人，（2007年）统计：n-gram话Emille Corpus：两个标签集一乌尔都95%的准确（Sajjad和Schmid，2009年）马尔可夫模型统计：射频标签，训练语料库有1000个单词语料库110000有250个标签，其他90个标签42个标签乌尔都SVM标记器表现最好，准确率为TreeTagger、SVM和TnT标记器采自网络空间（Ahmed等人，（2015年）（Khan等人， 2019年度）统计统计：CRFCLE 乌尔都语文摘语料库10万字CLE数据集和BJ35标签两个标签集一个乌尔都乌尔都96.8%的准确率CLE数据集上的准确率为86.95%，准确率为93.56%（Khan等人， 2019年）。评价统计学：CRF、HMM、数据集CLE数据集和BJ有35个标签，one with 37 tags两个标签集：CLE乌尔都在BJ数据集对于CLE数据集，CRF模型的表现更好，SVM RNN：LSTM和数据集tagset和Sajjad83.52%的准确率和BJ数据集LSTM-RNN模型（Nasim等人， 2020年）LSTM与CRF统计学：CRF RNN：数据集（Jawaid标签集Sajjad tagset 42乌尔都准确率为88.7%96%的准确率（Ehsan和Butt，2020）BiLSTM CRFRNN：BiLSTM tagger例如， 2014年度）1，48，000个标记的语料库，7，854个句子标签40标签乌尔都96.3%的准确率Fig. 1. Shahmukhi词性标注语料库和神经词性标注器的开发方法。编写了手册注释指南。已经采用了几种评估技术来确保有效的注释语料库。最后，将标注的语料库划分为训练集和评估集，以训练神经和其他统计POS涂鸦者在本节中，第3.1节讨论语料库收集，而在第3.2节中介绍语料库准备过程3.1. 语料收集语料库是NLP任务的重要资源为了建立西方和亚洲语言的基准语料库，包括新闻、维基百科、Emille数据集、小说、短篇小说和文章在内的在线来源已被广泛认为是主要来源（Anwar等人，2007;Hashmi等人，2019年a）。在这项工作中，沙穆希语料库的显着规模已被收集。互联网上的Shahmukhi文本来源很少，因为大多数在线Shahmukhi来源都是图形格式的数据，Shahmukhi文本语料库是从表3所示的几个在线可用资源中收集的。在这些在线资源中，Wichaar和Bhulekha是新闻网站。《旁遮普故事集》由多位作家撰写的沙赫穆希短篇小说组成。著名的来源维基百科和埃米尔显着贡献语料库的大小。使用Cyotek webcopy7执行文本抓取。3.2. 语料准备对于语料库准备，第一步是解析抓取的数据并获取大量的原始Shahmukhi文本。因为从网站上抓取的从UTF-8格式的源代码中获得了近1490万个标记和79.7万个句子的语料库表3显示了收集的语料库与源有关的详细此外，已经执行了以下任务用于语料库准备：7https://www.cyotek.com/cyotek-webcopy。A. Tehseen，T. Ehsan，H.B. Liaqat等人沙特国王大学学报340表3用于语料库收集的在线来源以及每个来源对语料库的标记和句子的数量序列号来源标记数句子数1 Wichaara2 Bhulekhab3旁遮普故事c4埃米尔d5，218，157 315，0215旁遮普语维基百科e4，883，034223，762总计14，996，961797，934ahttp://www.wichaar.com/。bhttps://bhulekhatv.com/chttp://www.punjabikahani.punjabi-kavita.com/Punjabi-StoriesShahmukhi.php。dhttps://cqpweb.lancs.ac.uk/emillewpun/。ehttps://pnb.wikipedia.org/wiki/。3.2.1. Unicode规范化Shahmukhi字母表尚未标准化。因此，从在线资源收集的语料库包括来自各种语言的Uni码。因此，有必要将语料库映射到统一的Unicode，以确保整个语料库的一致性。 Shahmukhi通常使用乌尔都语字母书写（Bhurgari，2007; Hasan等人，2015年）。因此，语料库已被绘制为存在于CLE8发布的乌尔都语键盘中的Unicode。建立了一个实用程序来生成CLE键盘中不存在的Unicode报告例如，虽然有些角色我们已经改进了一个PART IC LARMAP PINGS UCAS A S A N D Y ET C。3.2.2. 清洁对于语料库清理，单词标记化被忽略，句子分割被执行。像这样的符号，、、等已作为单独的令牌处理。单词标记化在POS标记期间手动执行。不可打印的字符被删除，所有重复的文件被丢弃了3.2.3. 文本域/体裁根据内容，1490万字的语料库已被划分为14个文本域。具有详细统计数据的文本域如表4所示。文本数据可在埃米尔和8http://www.cle.org.pk/software/localization/keyboards/CRULPphonetickb2Lv1.0。htmls。旁遮普语维基百科有纯文本，所以两者都被处理为单独的文本域，并分别标记为Emille Dataset和Pnb Wikipedia。4. 词性标注词性标注是任何语言的补充元素。为了制定Shahmukhi词性标记集和标记指南，CLE乌尔都语词性标记集被认为是基准，其适用性进行了研究。CLE乌尔都语POS标记集被认为是语言学上合理的，涵盖了第2.2节中讨论的所有语言学方面。以下部分介绍了设计的Shahmukhi词性标记集、标记指南和注释Shahmukhi时面临的注释4.1. POS标记集设计的Shahmukhi词性标记集包含12个主要词性类别和36个子类。主要类别与CLE乌尔都语POS标记集相同。然而，在代词类中添加了一个额外的标记代词后缀（PRX）。表5显示了设计的关于类别的POS标签集名词范畴又分为普通名词和专有名词两大类，名词修饰语又分为形容词、量词、基数词、序数词、分数词和乘法词六大类。动词和助动词分别表示两个和四个小类。代词范畴包含的子范畴最多，因为在代词之下有八个子范畴.标记集包括用于每个类别的剩余和感叹词的单个标记。介词、象征、助词和附加词各有两大类。连词又分为并列连词、从属连词、前置连词和SCKar连词。总之，标记集涵盖了Shahmukhi的所有形态句法范畴。4.2. 标签指南下面的部分将借助Shahmukhi示例对POS标记集类4.2.1. 动词动词分为主动词不定式（VBI）和主动词限定式（VBF）。VBI是动词不定式，如khAnA‘to 表示时态的动词形式被标记为VBF。在（1）中，hOndAA. Tehseen，T. Ehsan，H.B. Liaqat等人沙特国王大学学报3414.2.2. 助动词动词又分为体（AUXA）、进行（AUXP）、情态（AUXM）和时态（AUXT）。AUXA指的是出现在主要动词之后的动词，如（ 6 ）中的 jAndIAUXP 标志着正在进行的事情，如（ 3 ）中的rhIAUXT表示动作的时态，如（3）中的aE4.2.3. 名词名词又分为普通名词（NN）和专有名词（NNP）。常见名词的例子有kuRyAN表示状语性质的名词称为时空名词，它指的是空间和时间，如"命名实体和缩写被分配标签NNP。在（6）中，panjAbIA. Tehseen，T. Ehsan，H.B. Liaqat等人沙特国王大学学报3424.2.4. 代词在CLE乌尔都语POS标签集中，代词分为七个猫-根据代词的句法性质，将代词分为人称代词（PRP）、指示代词（PDM）、关系指示代词（PRD）、关系人称代词（PRR）、反身代词（PRF）和反身代词（APNA）。然而，我们在代词词性分类中增加了额外的子类：代词后缀（PRX）。PRX是名词的宾语代词和所有格代词。在Shahmukhi PRX中有在（10）是PRX。PRX词有时起助动词的作用，并带AUXT标记。（Butt，2007）详细讨论了代词的作用旁遮普语的后缀PRP作为名词短语的中心词出现，并取代名词，例如在（2）和（4）中，分别 PDM出现在名词之前作为其说明符，例如在（7）中的“这个”。PRS观察了诸如“我们的”和“他的”之类的所有权tuhADA“你的”这个词PRR和PRD指的是关系代词。在（9）中，vargAPRD指的是紧跟着它的名词，就像（8）中的jEsAPNA是指与名词的自身关系PRF指自己。（7）中的apnA(11)分别是APNA和PRF类似于乌尔都语，在Shahmukhi疑问词也充当代词，量词和副词，如kUn4.2.5. 名词性修饰语名词性修饰语提供有关名词的信息。它们包括形容词（JJ），如（17）中的单词pichlE“先前”，（12）中的数量词（Q）：sabhkujh“一切”，（1）中的基数词（CD）：panj“五”，（14）中的序数词（OD）：pahlI“第一"，（1）中的分数乘法（QM）：dUgnI'dou

下载后可阅读完整内容，剩余1页未读，立即下载