基于深度学习的Shahmukhi词性标注:性能评估与资源开发

0 下载量 18 浏览量 更新于2024-06-17 收藏 2.35MB PDF 举报
本文探讨了"基于语境化词表征的Shahmukhi词性标注方法及其性能评估"这一主题,主要关注于开发首个Shahmukhi(西旁遮普语)词性标注语料库并对其进行深入分析。Shahmukhi是全球第十大常用语言旁遮普语的一种方言,大约有1.5亿人使用,特别是在巴基斯坦和印度地区。 研究团队,来自巴基斯坦Gujrat大学信息技术系、古吉拉特大学计算机科学系、拉合尔教育大学信息技术系以及卡塔尔哈马德·本·哈利法大学科学与工程学院,共同合作开发了这个13万词汇量的平衡标注语料库,涵盖了14个不同的文本领域,旨在支持自然语言处理应用的发展。他们借鉴了乌尔都语词性标注集的经验,并设计了一套专门针对Shahmukhi的标注体系和指南。 为了确保标注质量,研究人员采用了多步骤的评价流程,包括语法和n-gram一致性检查,平均注释者间一致性高达95.35%,Kappa系数为0.94,显示出高度的一致性和可靠性。此外,他们还将传统的词性标注器如TreeTagger和StanfordPOS与他们的BiLSTM(双向长短记忆网络)词性标注器进行了对比,后者利用迁移学习提升了准确性,特别是在上下文相关的词向量表示(ELMo)上,取得了显著的效果,标记器的F分数达到了96.11%,准确率也达到96.12%。 对于资源相对匮乏且形态丰富的Shahmukhi语言,这样的词性标注成果具有重要意义,不仅为本地语言处理提供了基础支持,也为跨语言的自然语言处理任务开辟了新的可能性。值得注意的是,该研究发表在沙特国王大学主办的期刊上,并遵循CCBY-NC-ND许可协议,为学术界开放获取,促进了知识共享和语言研究的国际合作。