基于深度学习的Shahmukhi词性标注：性能评估与资源开发

146 浏览量更新于2024-06-17 收藏 2.35MB PDF 举报

本文探讨了"基于语境化词表征的Shahmukhi词性标注方法及其性能评估"这一主题，主要关注于开发首个Shahmukhi（西旁遮普语）词性标注语料库并对其进行深入分析。Shahmukhi是全球第十大常用语言旁遮普语的一种方言，大约有1.5亿人使用，特别是在巴基斯坦和印度地区。研究团队，来自巴基斯坦Gujrat大学信息技术系、古吉拉特大学计算机科学系、拉合尔教育大学信息技术系以及卡塔尔哈马德·本·哈利法大学科学与工程学院，共同合作开发了这个13万词汇量的平衡标注语料库，涵盖了14个不同的文本领域，旨在支持自然语言处理应用的发展。他们借鉴了乌尔都语词性标注集的经验，并设计了一套专门针对Shahmukhi的标注体系和指南。为了确保标注质量，研究人员采用了多步骤的评价流程，包括语法和n-gram一致性检查，平均注释者间一致性高达95.35%，Kappa系数为0.94，显示出高度的一致性和可靠性。此外，他们还将传统的词性标注器如TreeTagger和StanfordPOS与他们的BiLSTM（双向长短记忆网络）词性标注器进行了对比，后者利用迁移学习提升了准确性，特别是在上下文相关的词向量表示（ELMo）上，取得了显著的效果，标记器的F分数达到了96.11%，准确率也达到96.12%。对于资源相对匮乏且形态丰富的Shahmukhi语言，这样的词性标注成果具有重要意义，不仅为本地语言处理提供了基础支持，也为跨语言的自然语言处理任务开辟了新的可能性。值得注意的是，该研究发表在沙特国王大学主办的期刊上，并遵循CCBY-NC-ND许可协议，为学术界开放获取，促进了知识共享和语言研究的国际合作。

A. Tehseen

，

T. Ehsan

，

H.B. Liaqat

等

人

沙特国王大学学报

表

339

Gurmukhi

和

Urdu

的

POS

标记模型，语料库和结果总结

引用

方法

模型

数据集

标签集

语言

结果

准确度

（

Kaur

等人，

2014

年度）

统计学：

HMM

四万两千字

TDIL tagset of 36

锡克教文

（

Mittal

等人，

2014

年度）

统计学：

Bi-gram

2400

句

标签

建议36个标签

锡克教文

92.16%

的准确率

（Sharma，2016）

模型

混合：基于规则

有一万个代币

语料库28，000至

通过TDIL tagset

个班

锡克教文

92%

的准确率

（

Kumar

和

Josan

，

2016

）

和统计：通用报告格式

统计学：

SVM

四万两千字

语料库

，

000

38标签

锡克教文

89.90%准确度

（

Anwar

等人，（

2007

年）

统计：

n-gram

话

Emille Corpus：

两个标签集一

乌尔都

95%

的准确

（Sajjad和Schmid，2009

年）

马尔可夫模型

统计：射频标签，

训练语料库有1000个

单词

语料库110000

有250个标签，

其他90个标签42

个标签

乌尔都

SVM标记器表现最好，准确率为

TreeTagger

、

SVM

和

TnT

标记器

采自

网络空间

（

Ahmed

等人，（

2015

年）

（

Khan

等人，

2019

年度）

统计

统计：

CRF

CLE

乌尔都语文

摘语料库

万字

CLE数据集和BJ

标签

两个标签集一个

乌尔都

96.8%

的准确率

CLE

数据集上的准确率为

86.95%

，准确率为

93.56%

（

Khan

等人，

2019

年）。

评价

统计学：CRF、HMM、

数据集

CLE数据集和BJ

有

个标签，

one with 37 tags

两个标签集：

CLE

乌尔都

在

数据集

对于

CLE

数据集，

CRF

模型的表现更好，

SVM RNN：LSTM和

数据集

tagset

和

Sajjad

83.52%

的准确率和

数据集

LSTM-RNN

模型

（

Nasim

等人，

2020

年）

LSTM与CRF

统计学：CRF RNN：

数据集（

Jawaid

标签集

Sajjad tagset 42

乌尔都

准确率为88.7%

96%

的准确率

（

Ehsan

和

Butt

，

2020

）

BiLSTM CRF

RNN

：

BiLSTM tagger

例如， 2014年度）

，

000

个标记

的语料库，7，854

个句子

标签

乌尔都

96.3%

的准确率

Fig. 1. Shahmukhi词性标注语料库和神经词性标注器的开发方法。

编写了手册注释指南。已经采用了几种评估技术来确保有效的注释语料

库。最后，将标注的语料库划分为训练集和评估集，以训练神经和其他

统计POS

涂鸦者在本节中，第3.1节讨论语料库收集，而在第3.2节中介绍语料库准

备过程

3.1.

语料收集

语料库是

NLP

任务的重要资源为了建立西方和亚洲语言的基准语

料库，包括新闻、维基百科、

Emille

数据集、小说、短篇小说和文

章在内的在线来源已被广泛认为是主要来源（

Anwar

等人，

2007;

Hashmi

等人，

2019

年

）。在这项工作中，沙穆希语料库的显着规

模已被收集。互联网上的

Shahmukhi

文本来源很少，因为大多数在

线

Shahmukhi

来源都是图形格式的数据，

Shahmukhi

文本语料库是

从表

所示的几个在线可用资源中收集的。

在这些在线资源中，Wichaar和Bhulekha是新闻网站。

《旁遮普故事

集》

由多位作家撰写的沙赫穆希短篇小说组成。著名的来源

维基百科

和

埃米尔

显着贡献语料库的大小。使用Cyotek webcopy

执行文本抓取。

3.2.

语料准备

对于语料库准备，第一步是解析抓取的数据并获取大量的原始

Shahmukhi

文本。因为从网站上抓取的从

UTF-8

格式的源代码中获

得了近

1490

万个标记和

79.7

万个句子的语料库表

显示了收集的语料

库与源有关的详细此外，已经执行了以下任务用于语料库准备：

https://www.cyotek.com/cyotek-webcopy。

剩余21页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

基于深度学习的Shahmukhi词性标注：性能评估与资源开发

精细金属掩模板(FMM)行业研究报告 显示技术核心部件FMM材料产业分析与市场应用

【创新未发表】斑马算法ZOA-Kmean-Transformer-LSTM负荷预测Matlab源码 9515期.zip

j link 修复问题套件

C#实现modbusRTU(实现了01 3 05 06 16等5个功能码)

【创新未发表】基于matlab粒子群算法PSO-PID控制器优化【含Matlab源码 9659期】.zip

Python毕业设计-豆瓣电影短评数据挖掘与情感分析项目源码（高分项目）

yolo算法-血细胞数据集-946张图像带标签--红细胞-血小板.zip

YOLOV5交通标志识别的代码+标注好的6105张数据集（高分完整项目代码）配置完环境就能运行

Vue.js 源代码分析 2.4.zip

元素-vue2.zip

最新资源

精细金属掩模板(FMM)行业研究报告显示技术核心部件FMM材料产业分析与市场应用