基于单调组块注意的词性标注和上下文权重的词形特征

181 浏览量更新于2024-01-17 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于单调组块注意的词形特征和上下文权重的词性标注Rajesh Kumar Mundotiyaa，Arpit Mehtaa，Rupjyoti Baruaha，Anil Kumar Singhaa印度瓦拉纳西印度理工学院计算机科学与工程系阿提奇莱因福奥文章历史记录：收到2021年2021年8月17日修订2021年8月18日接受2021年8月27日网上发售保留字：词性标注形态特征注意机制卷积神经网络A B S T R A C T词性标注是自然语言处理中一个基本的序列标注问题。最近的深度学习顺序模型结合了前向和后向单词信息进行POS标记。上下文词对当前词的信息在捕捉非连续关系中起着至关重要的作用我们已经提出了CNN-GRU-Softmax（MCCGS）的单调块式注意力，这是一种坚持这些基本信息的深度学习架构该体系结构由输入编码器（IE）、上下文编码器（CE）和消歧器（D）组成，输入编码器（IE）对单词和字符进行编码，上下文编码器（CE）为相邻单词分配权重，消歧器（D）解决标签间的依赖关系。此外，不同的形态特征已被集成到MCCGS-IE，MCCGS-CE和MCCGS-D的MCCGS架构MCCGS体系结构在UD树库的21种语言上进行了验证最先进的模型，类型约束，改装，来自不同来源的远程监控和位置感知自注意，MCCGS及其变体，如MCCGS-IE，MCCGS-CE和MCCGS-D，获得平均精度83：65%、81：29%、84：10%、90：18%、90：40%、91：40%、90：90%、92：30%。所提出的模型架构提供了最先进的准确性低资源语言马拉地语（93：58%），泰米尔语（87：50%），泰卢固语（96：69%）和梵语（97：28%）从UD树库和印地语（95：64%）和乌尔都语（87：47%）从印地语-乌尔都语多代表树库。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY许可下的文章（http://creativecommons.org/licenses/by/4.0/）。1. 介绍自然语言处理（NLP）是人工智能的一种应用词性标注是文本处理的一项前期工作，它为一个词分配一个语法类别，一句话它在各种NLP应用程序中起着至关重要的作用，如句法分析、词义消歧、机器翻译系统、问答、情感分析、共指消解、文本分类、社交媒体内容分类和自然语言理解。*通讯作者。电子邮件地址：iitbhu.ac.in（R.K. Mundotiya），arpitmehta. cse18@iitbhu.ac.in（A. Mehta），iitbhu.ac.in（R.Baruah），aksingh. iitbhu.ac.in（A.K. Singh）。沙特国王大学负责同行审查制作和主办：Elsevier语篇中的以及语法特征如性、数、人称等。细粒度的词性范畴提供了一种语言学线索（句法信息）来决定一个词在句子或短语中的适当词性范畴除此之外，语义信息也被编码在单词或句子中。可以使用POS类别来消除由形态分析器提供的多个答案的在传统的机器翻译系统中，词法分析器捕获语义信息机器翻译系统将每个单词从源语言翻译成目标语言。Yin等人（2019）观察到，专有名词POS类别词在欧洲语言中没有被正确翻译他们试图通过使用多任务学习与神经机器翻译和POS标记联合建模来克服这个问题从POS数据中获得的一条句法信息可以在机器翻译系统生成过程中更好地编码源句子结构对于用于POS标记的常规机器学习技术，严重依赖于特征工程，诸如前缀、后缀、上下文单词和语言特定特征，即，大写和创建几个手工制作的功能。为https://doi.org/10.1016/j.jksuci.2021.08.0231319-1578/©2021作者。由Elsevier B.V.代表沙特国王大学出版。这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comRajesh Kumar Mundotiya，A.梅塔河Baruah等人沙特国王大学学报7325例如，条件随机场（CRF）和最大熵（ME）对包括词汇、词缀和其他形态信息的符号特征起作用，以提高POS标注性能。词汇和基本形态信息的可用性是容易的，而依存信息是不幸的，由于深刻的语言学知识。这些特征直接并入机器学习算法中。然而，深度学习将这些特征作为密集表示包含在模型中。密集特征表示是一种充分的表示，它从特征的提供值中学习自身即使将这些密集特征集成到深度学习模型中，也无法有效地解决长期非连续关系依赖性。词所定义的非连续依赖于词本身的语义信息和上下文邻居的信息，因此在词性标注中起着重要这一现象在图中得到了解释。 1，其中单词“communities”依赖于单词“it”，作为结果，它标记了“NNP”（单数专有名词）。如果这里忽略了非连续依赖项，则由于后缀'-s'或'-es'的信息，标记可能是'' NNPS '（复数专有名词）。同样，形态信息提供了一个词的分类线索，即。单词这些信息通常表现为名词类别。先前提出的方法基于基于注意力的上下文信息（Lin等人，2021;Shao等人，2021;Mundotiya等人，2020年）或手工制作的功能（现有的语言知识）（普朗克和 Agic' ， 2018 年; 普朗克和 Klerke ， 2019年;Chakrabarty等人，2019）用于非连续关系建模，但没有根据需要汇集在一起，这提高了POS标记性能。除此之外，由于深度学习遵循分层方法，因此对特征包含的研究较少，即在哪一层集成可以提高词性标注的性能。因此，在本文中，注意力机制和形态特征的包含已经被用于一种新的神经架构，具有CNN-GRU-MAX（MCCGS）的单调组块注意力，其包括三个基本组件。第一个组件，输入编码器，负责使用字符和单词嵌入对单词内信息进行编码，其中单词嵌入来自通过CNN获得的字符。词之间的依赖关系由双向GRU编码，并使用单调块式注意作为第二个组件，在本文中表示为上下文编码器的单词分配权重作为上下文特征。第三个组件，消歧器，使用双向GRU解析标签依赖关系，并使用softmax解码标签的概率分布。此外，在建议的MCCGS架构中，手工制作的功能（形态特征）在所有三个组件的密集表示已被执行。所有这些广泛的实验都在21种语言Fig. 1. 形态特征和较长上下文依赖性的影响。Universal Departments Treebank数据集。本文的无声贡献摘要如下：- 提出了一种新的神经词性标注方法，该方法利用单调的分块注意机制，结合形态特征的密集表示，为当前词的相邻固定词分配高权重。- 提供了国家的最先进的经验结果后，将形态特征在不同的层次上提出的方法对通用Departments树库。- 在两个不同的印度-雅利安语言数据集上评估了该方法的鲁棒性。第一个数据集包含属于Hindi-Urdu多代表树库的印地语和Urdu语言。在第二个数据集中选择了一个在 UniversalDepartamentTreebank中具有很少注释数据的树库，包括泰米尔语、泰卢固语、马拉地语和梵语。我们已经获得了显着的改善，与现有的国家的最先进的结果相比，这两个数据集。2. 相关工作传统上，大多数高评分的POS标注方法基于概率和统计学习算法，诸如隐马尔可夫模型（ Kupiec ， 1992 ）、最大熵马尔可夫模型（Ratnaparkhi，1996）、条件随机场（Laffe et al.，2001）、半马尔可夫随机场（semi-CRF）（Sarawagi和Cohen，2004）、支持向量机（Kudo和Matsumoto，2001）、隐马尔可夫支持向量机（Altun等人，2003年），需要精心设计的手工制作的功能或语言特定的功能，在培训过程中，以监督的方式。随着大量数据的可用性，出现了一种深度学习模型，它不依赖于传统特征，并且超过了大多数文本处理任务（包括POS标记）的概率和统计学习算法。应用神经网络（Lu等人，2003; Hinton等人， 2006）对海量标注数据的词性标注问题并不是一个新的研究课题。Santos et al.（2014）使用卷积神经网络（CNN）通过字符级别进行单词表示，以进行POS标记。虽然这些方法忽略了句子中单词之间的全局长程依赖关系，但递归神经网络（RNN）的变体，即门控递归单元（GRU）、长短期记忆（LSTM）、双向LSTM（Bi-LSTM）和双向GRU（Bi-GRU）被提出来捕获每个词的较长依赖关系的特征，从而获得良好的性能。一开始，Huang et al. （2015）使用LSTM单元作为单词信息编码器，CRF作为标签序列解码器。后来，Ling等人（2015）提出了一种字符到单词（C2 W）模型，该模型通过使用Bi-LSTM将字符视为原子单元来生成单词嵌入，然后通过Bi-LSTM进一步编码，然后通过softmax解码标签。Ma和Hovy（2016）扩展了Lample等人。（2016）的工作，这是为命名实体识别提出的，通过使用CNN来捕获与单词嵌入一起使用的单词内信息。分别由Bi-LSTM和CRF捕获和解码的单词序列和标签序列信息。多扎等人（2017）使用单向LSTM进行字符级信息，然后是线性注意力机制。Liu et al.（2018）使用句子的所有字符以及单词边界来通过Bi-LSTM生成单词嵌入，并以并行方式与高速公路网络和Bi-LSTM一起使用，以通过CRF解码标签依赖关系。Zhang et al.（2018）提出了一种基于Bi-LSTM的多通道模型，用于获得单词和标签依赖关系Rajesh Kumar Mundotiya，A.梅塔河Baruah等人沙特国王大学学报7326.Σ2fg.Σ..ΣΣ并且通过在SoftMax解码器中使用先前字的标签作为当前字的上下文来同时进行它们的交互大多数早期提出的关于神经POS标记的工作假设手工制作的特征对于基于深度学习的模型来说已经过时，并且唯一地依赖于端到端的训练。然而，Faruqui et al.（2015）早期的工作将语义符号特征与单词嵌入相结合。类似地，Sagot和Alonso（2017）使用形态词典作为额外的输入，从Plank et al.（2016）模型中收集的词法词典和Alexina词典（特定于语言）作为通过使用手工制作的功能对深度学习模型的影响提供了显着的性能提升近年来，研究界一直在尝试建立一个鲁棒的模型，通过注意机制来改进自我特征学习，并假设学习上下文特征来进行词性标注。注意机制有助于捕捉句子中单词之间的非连续关系。Mundotiya等人（2020）提出了自我注意力和基于单主音组块注意力的模型，并在印地语数据集上进行了实验，以通过使用各自的注意力机制来处理句子和单独窗口内的非连续关系同样，Wei et al.（2021）提出了一种基于注意力机制的新模型。本文利用标准的加性自注意和位置感知自注意机制分别对输入序列的离散和可变长度的位置信息进行隐式编码，以基于全局序列编码器Bi-LSTM提供互补的上下文信息。Shao等人（2021）在单词和句子水平上使用自我注意力来获得相同全局序列编码器上的上下文信息，其进一步用于通过半CRF方法消除单词标签的歧义。表1是与我们的方法相关的用于POS标记的不同深度学习模型的比较概述。它描述了使用CNN，RNN和预训练嵌入的输入编码器，与上下文和手工制作的功能比较，以及使用CRF和softmax的解码器，类似于最近的显着系统。3. 基于CNN-GRU-Softmax（MCCGS）架构的为了设计MCCGS模型架构，我们遵循Ma和Hovy（2016），其中字符和单词信息在模型的核心组件LSTM或GRU之前融合到基于深度学习的模型中。这个模型在我们提出的深度学习架构中扩展了注意力机制。最近，注意力机制在以下方面取得了成功：语音、图像和文本处理。对于文本处理在神经机器翻译系统中，注意力精确地对齐成对的源词和目标词。这种对齐考虑了输入的上下文信息与它们的非连续关系，并为下一个单词分配权重。在这里，我们利用了注意力的优势，上下文信息和非连续关系，在一个antagistic措施的POS标签。如图2所示，输入编码器、上下文编码器和消歧器是所提出的MCCGS架构的基本核心组件。3.1. 输入编码器设D<$xj;yjj16j6N是一个有标号的句子。在这里，D是一个单变量培训句话这属于的培训数据X D1;D2;. ;Dm. xj表示单词，yj表示句子D的对应POS标签。POS标签y j属于q个标签，它们被表示为y j2y1;y2;. ;yq.在该组件中，MCCGS将给定的输入句子D通过可学习的词嵌入和字符级嵌入获得每个词xj的向量表示可学习的词嵌入捕获词的语法和语义信息，该信息通过字符级嵌入的形态信息的附着而增强。从独热向量表示中获得了唯一词词汇量大小的可学习词嵌入。X中的所有句子都应该有长度N。如果D的长度大于N，则删除先行词，如果属性小于N，则应用填充。该表示和嵌入大小的随机向量Wx（其是可训练的）展示了潜在向量。这种潜在的VEC-在传递到具有去激活偏置的全连接层之后获得的句子D中的所有单词x1：N的向量被认为是单词嵌入v1：N。v1：N 1/4Wx：x1：N例如，被视为输入的句子（图1）“部落社区说它正在寻求新的融资”是一个单词序列。每个唯一的单词在单词编码中表示一个数字，并且该数字成为随机生成的实值向量。这些随机生成的随机向量在模型学习过程中自我更新。为了获得字符级的单词嵌入，假设单词x j具有C个字符，其中C^c1;c2;. ;cij16i6k. 字符查找字典将字符标识与其独热向量表示进行映射。对于每一个字符，xj中的ci由一个表示，热向量表示，其大小为k，使用填充操作。padding操作在应用了padding的单词的末尾追加特殊符号pad><表1用于词性标注的深度学习模型的比较概述在这里，RNN和CRF指的是它们的变体，如LSTM、GRU、Bi-LSTM和Bi-GRU以及semi-CRF。嵌入是指预训练的嵌入。系统输入编码器特征解码器CNNRNN嵌入上下文手工制作CRFSoftmaxHuang等人（2015年）UULing等（2015年）UU马和霍维（2016）UUUDozat等人（2017年）UUUPlank等人（2016）UUUSagot and Alonso（2017）UUUU普兰克和克勒克（2019）UUUUMundotiya等人（2020年）UUUWei等人（2021年）UUUUULin等人（2021年）UUUURajesh Kumar Mundotiya，A.梅塔河Baruah等人沙特国王大学学报7327在句子层面上也是如此如果xj的长度大于k，初始字符ci：k已经考虑。现在卷积，CNN的第一个操作，已经应用于滤波器F。令z是使用f个内核大小的滤波器过滤器在区域上移动并且生成一组特征C，被称为特征图，其为fr1;r2;. ;rlg 2C. l是根据内核大小和字长计算的，l<$k-f<$1。ri¼/F：ci：ik-1bc2这里，F、b、c和f分别是滤波器、偏置和非线性函数。来自所有特征的一条相关信息具有杠杆作用的最大池化，这是CNN的另一个构建块。Cmax¼ max f r1;r2;.. . ; r lg 3池化操作提取通过全连接层的相关信息以生成最终向量。这个过程在每个单词上迭代，生成p1：N.字级嵌入v 1：N and character-l evelembed-dingsp1：N已经逐分量地级联以生成词向量表示w1：N。这种生成的词向量表示利用词和句子级别的形态、句法和语义信息。w1：N1/4;p 1：N;v 1：N1/63.2. 上下文编码器上下文编码器分两步工作以生成其输出。第一步假设一个词的数量相同C¼。Cmax;1Cmax.. . ;2Cmaxzð4Þ倾向于通过GRU（RNN的一种变体）捕获序列信息。它允许保存更长时间戳的信息。虽然自然语言从所有特征生成的单变向量已连接C，并已传递到三个堆叠的完全连接层。从倒数第二层得到的向量pj具有单词的字符级信息。pj¼/WC：CbC5WC和bC是学习参数，并且f是ReLU非线性函数。该字符级词向量生成过程已在图1中示出。3.第三章。这里，已执行填充操作（pad>），因为输入字的长度小于所需长度。<所有独特的字符-语言数据集的字符与它们的索引位置映射。这些索引是字符标识，它进一步用于字符查找字典中，以发出一个已执行CNN操作的独热向量并生成字符级嵌入。例如，卷积运算基于过滤器生成多个n-gram，如thi、hin、ing、ngs、gspad><在特征图中使用的大小（比如3）在这些生成的文件上-“言必行，行必果。Bi-GRU获取单词向量并生成隐藏向量每个方向。具有词向量wi的隐藏向量hi-1决定哪些信息将被转发到具有相关度的后续时间戳在每个时间戳中，向前和向后过程生成隐藏状态，即，啊！h1：N和←h1：N。前进！h1：N和反向ds<$h1：N隐藏向量根据分量方式级联，生成生成一个新的隐藏向量h1：N作为结果。！h1：N1/4G--R！联合w1;w2;. . . ;wN2007←h1：N<$GR←Uw1;w2;.. . ;wN200200h1：N1/4！h1：N;←h1：N语境编码器的第二步是注意机制。注意力机制，其首先被引入用于基于文本的应用（Bahdanau等人，2015），专注于给定输入的令人信服的部分，以产生更好的决策。许多基于深度学习的任务，如图像识别（Zheng et al.， 2017），机器翻译（Zheng et al.，2017; Vaswani等人，2017; Devlin等人，2019; Bahdanau等人，2015; Indurthi等人，2019; Chiu和Raffel，2018）和文本分类（Sinha等人，2018年; Sun和Lu，2020年），在部署注意力机制后，它们的性能显著提高。单调的块式注意机制明确地利用了灵活的图二. MCCGS体系结构及其组件的概述。图三.用于生成词向量的字符级CNN模型架构。ΣRajesh Kumar Mundotiya，A.梅塔河Baruah等人沙特国王大学学报7328noXMQ.2014年12月14日，乌克兰vv1v2.ΣΣΣ.Σjjv jjshHM d¼1l¼ 12002年输入和输出之间的对齐，其中输出是与任务相对应的标签。注意力是在分块的输入序列上计算的。让SJ-1是消歧器隐藏状态在j-1，以及P. y^ijx;h日本出口1/4升Expoj1/1ð20 Þh1：N¼h1;h2;.是输入隐藏向量。能量Eji计算如下：ej;i¼MonotonicEnergy.sj-1;hi10mm其中：这里，Wh和bh是学习参数。训练目标是使交叉熵损失最小化，以及l2归一化。1XX我的日志。你好。1-ylloblog g.1-y^lkhjj221MonotonicEnerg y.sj-1;hi对于每个句子d，模型预测q个POS标签，11个值的向量转换成一个独热向量，用于计算-g·vT 坦河Wsj-1WhibrÞW s; W h; r; b; v和g是可训练参数。能量定标器为时间戳TJ的的输出是获得从i<$t j-1;t j-11;t j-12;. N.它被传递到logistic sigmoid函数以产生选择概率pj;i。pj;i<$rej;in;n~N0;112这里，具有单位方差高斯噪声n的Logistic sigmoid，以二进制值约束选择概率pj;i上下文cj由隐藏状态hi生成，这些隐藏状态在pj;i.到隐藏状态的固定窗口长度w在这里被称为块。块能量以与单调能量相同的方式计算，但是跳过v;g和r的长度归一化。对前一个w的软注意在隐藏状态和tj上我申请了CJ。v¼tj-w100000uj;k¼ChunkEnergy.sj-1;hk-1;二、þ;þ;......的人。;j延迟与有效POS标签的平均差异由于每个标签的概率取决于另一个标签的概率，因此它与4. 包含形态特征深度学习模型根据给定的训练数据自动生成其特征，而不像传统的统计模型那样依赖于手工制作的特征。在手工特征之外，符号特征非常常见，如词汇、词缀等。最近的研究已经经验性地证明，使用这些手工制作的外部特征提高了模型的性能（Agic等人，2018; Plank和Klerke，2019; Scherrer和Rabus，2019; Gupta等人，2020年）。Plank和Klerke（2019）通过在跨语言设置中的输入编码器中纳入lex-icon功能，展示了POS标记的改进。然而，深度学习模型支持分层架构，每一层都能捕捉到它的特征。因此，我们已经在所有三个组件，即在输入编码器，上下文编码器和所提出的MCCGS模型的消歧器处并入形态学特征。设F个特征集可用训练数据，其中包括f1;f2;f3;. . ;f k 形态特征。中的每个功能特征集由向量（！fi）与每个连接其他.tj！啊！啊！！cj¼ Xsoftma x.uj;k·hkð15ÞF¼f1f2f3....................fkð22 Þ千分之四伏3.3. 消歧义器大多数关于顺序标记的早期工作依赖于长短期记忆和条件随机场来消除结构化推理的歧义（Murthy等人，2018年）。具有相关联的生成的上下文向量的每个时间戳的隐藏状态用于使用双向GRU消除标签依赖性的歧义。！hj¼G--R！联合sj-1;cj-16←hj<$GR←U。sj-1;cj-17j ！j←j将形态特征包括到MCCGS模型中以以下方式描述。在此，我们仅描述了在执行特征包含之后MCCGS模型架构扩展的变化，因为MCCGS模型的其余组件是相同的。1. 在MCCGS模型的输入编码器处包含该特征集表示为：w 1：N¼ p 1：N; v 1：NF 1：N23米这里，w1：N是在等式中代入的结果词向量。6. MCCGS模型。2. 当在上下文编码器处集成该形态特征集时，通过Bi-GRU的最终输出表示（在等式2中提到）被输出。9）已随新的表述而改变，即─h¼h;hð18Þh1：N1/4！h1：N;←h1：NF1：N24小时h_j在到达软最大层之前被传递到多层神经网络。该倒数第二层在对多层神经网络的输出进行缩放和归一化ojhj：Whbh193. 当在消歧器组件处包括形态特征时，则多层神经网络的输入已经改变。该层的新输入（等式18）由以下人士代表─Rajesh Kumar Mundotiya，A.梅塔河Baruah等人沙特国王大学学报7329¼;FÞ半-]克雷蒂克hj“！hj←hj#j25这里，第j个词的特征集Fj与消歧器层的Bi-GRU的最终隐藏表示级联。图4描绘了包含形态特征到输入编码器、上下文编码器和消歧器组件中的模型架构。形态学特征的包含是互斥的;因此，在单个组件处进行包含。该模式是图的扩展。 2涉及由特征向量组成的特征集F！f1;！f2;！F3啊！fk。特征向量在插入之前被连接在每一个组成部分中形成光栅。每个concate- nator的输出（粉色、黄色和蓝色）分别表示 Input-Encoder 、 Contextual Encoder 和Disambiguator组件。5. 实验5.1. 数据集我们已经进行了实验，21种语言和注释的数据集，这些语言获得的通用知识（UD）树库1（版本2： 7），以验证所提出的模型架构。中数据集的预定义拆分采用训练和开发的方法对模型进行训练和测试。培训和开发数据集的统计数据见表2。训练和开发数据的熵在图5中提到，它是通过香农熵在一元组水平上计算的（香农，1951年;宋等人，2012; Mundotiya等人，2020年），显示出几乎对称的分布。在我们的实验中，一个句子与他们的通用词性（UPOS）标签和附加功能被认为是。这些额外的特征是树库的时态、格、性、数、人称和引理。这些额外的特征被视为输入，以进行准确的预测。5.2. 实验设置该模型架构有三个核心组件：输入编码器、上下文编码器和消歧器。输入编码器在100维和16维的潜在向量中保持单词处的标记向量和字符级信息。单词特征向量通过统一的分布0：05; 0：05（Kim等人，2016年，《易经》称为用维度为30的独热向量初始化的级别向量。CNN应用了两个大小为64的卷积层;124和固定窗口大小为3的内核，然后是最大池。多层前馈层中的单元的数量等于卷积层的大小，其应用于独热向量以获得字符级信息的标记向量（Santos等人，2014年）。Bi-GRU有128个隐藏向量，可以捕获上下文句子信息。单调的组块注意在相邻词之间具有依赖性，组块大小为10，发射概率为0： 6。标签端依赖性由Bi-GRU捕获，消歧器组件中有128个隐藏单元我们已经使用梯度下降学习算法的高级版本，通过时间反向传播（BPTT）来优化用于训练模型的权重。BPTT的目标是更新神经网络的权重，以使与某些预期输出相比的误差最小化。它是一种监督学习算法，第1页https://universaldependencies.org/见图4。包含符号特征的MCCGS模型体系结构。表2这些语言及其统计数据，来自UD树库。有些语言有多个树库;因此相关的树库信息在后面提到-在语言名称中。语言串大小开发规模匈牙利语（hu）910441希腊语（el）1662403Swedish-Lines（sv）31761032丹麦语（da）4383564希伯来语（he）5421484克罗地亚语（hr）6914960保加利亚语（bg）89071115葡萄牙语-GSD（pt）96641210荷兰-阿尔皮诺（NL）12264718简体中文（zh_cn）125432002Italian-IDST（it）13121564Hindi-HDTB（hi）133041659German-GSD（de）13814799西班牙语-GSD（es）141871400法语-GSD（fr）144491476芬兰-FTB（fi）149811875挪威-博克马尔语（无）156962409Polish-PDB（pl）177222215罗马尼亚文-非标准（ro）241221052Persian-PerDT（fa）261961456捷克PDT（cs）684959270要校正的网络涉及已经给定的标签。Adam优化器（梯度下降的高级版本）已被用于以0： 01的初始学习率训练模型和0： 007的衰变率。这里，学习率的更新定义为：gt<$^1g0，其中t是指已完成的历元数，g0和q分别是初始学习速率和衰减速率。批量大小和时期在训练期间是固定的，即，分别为32和40。早期停止（Caruana等人，2001），耐心值为3，应用于验证性能，以避免模型过拟合。还使用了一个额外的正则化器，即概率值为0： 5的dropoutRajesh Kumar Mundotiya，A.梅塔河Baruah等人沙特国王大学学报7330图五. 训练和测试数据集的熵。6. 结果和分析为了比较我们提出的模型的性能，准确率，精度，召回率，F1分数和马修斯相关系数（MCC）指标已被使用。表3显示了应用MCCGS模型后21种语言在发育数据上的标记准确性。在此表中，列表示相应21种语言中每种语言的精度、召回率、F1、MCC为了比较所报道的结果，我们考虑了在没有附加特征并入的情况下已经改善其性能的最先进的技术，位置感知自我注意（PSA）机制（Wei等人， 2021），并结合了类型约束的附加功能（Täckström等人，2013）、改造（Faruqui等人，2015）和来自不同来源的远程监督（普朗克和Agic'，201 8）。通过利用类型约束（TC w）和翻新（Retro）现成嵌入评估神经标记文献中的词汇信息。来自不同来源的远程监督（DSDs）（Plank和Agic'，201 8）是使用词汇信息的另一种方式。特征包含结果的复制呈现在表3右侧的三列中。为了进行比较，我们重新使用了（ Plank 和 Klerke ，2019）的标记准确度值。然而，PSA结果是从从头开始的整个模型训练中获得的。在21种语言中的7种语言中，MCCGS模型表现出更好的准确性。MCCGS模型是在所有21种语言中，性能最好的模型比改造模型我们的模型也给出了更好的准确性比TCW以外的两种语言（PT和IT）。DsDs对五种语言pt、es、it、bg和de的准确性优于所有三种模型（MCCGS、TCw和Retro），这是令人惊讶的。而PSA模型在12种语言上的准确率最高。6.1. 特征包含UD树库具有丰富的词汇和语法特征，因为它提供了添加语言特定特征的工具。在这里，我们使用了所有语言的实验数据集中可用的那些普遍特征，例如性别，数字，人称，格，引理和时态。所有这些特征在包含在MCCGS模型的不同组件中之前已经连接起来。其余的训练设置是相同的，即在MCCGS模型的参数设置中提到。我们可以分析出，对于表4中的大多数语言，在消歧器（MCCGS-D）处的特征包含与MCCGS特征包含的其余部分相比提高了准确性。en是唯一一种在使用这些特性后模型性能降低1%的语言。像这样，cs是唯一一种在上下文编码器（MCCGS-CE）上的特征包含精度提高0：59%。在输入编码器（MCCGS-IE）中包含特征，提高了nl、pt、es、da、fr和de语言的准确性通过1：87%; 4：64%; 1：78%; 0：92%; 1：52%和3：14%，分别有四种语言（es，it，bg和de），如表3所示，与MCCGS模型相比，DsDs模型表现得更好。尽管如此，MCCGS-IE进一步提高了表4中提到的bg和de语言的准确性。用单因素方差分析（ANOVA）检验，将MCCGS模型及其变体与TCw 、Retro、 DsDs和PSA模型进行了比较，结果显示其显著性MCCGS、MCCGS-IE、MCCGS-CE和MCCGS-D获得的p值分别为0： 003; 0： 001; 0： 002和0： 000。这些p值相对低于显著性值（0： 05），它发出了更强有力的证据，反对国家的最先进的模型所作的早期假设该结论支持我们获得的结果，如表3和表4所示。与其变体和一些早期最先进的模型相比，该模型的平均准确度显示MCCGS-D提供了最高的分数，92：3%。而建议的MCCGS模型提供平均精度90：4%，进一步提高了功能，包括-sion。最先进的模型提供83：6%; 81：3%; 84：1%和表3使用MCCGS模型得到的结果。郎精度召回F1MCC精度TCw复古DSDSPSA胡83.879.5980.0275.9779.5977.575.576.286.20nl93.6891.4491.6491.9591.4489.286.689.691.85PT91.3589.9590.2089.5389.9592.288.693.191.97es90.7389.6688.9989.0289.6688.988.991.764.58嗨94.6194.5794.4794.1194.5763.963.066.294.85它88.5789.4488.7388.2689.4491.890.093.788.88da91.0090.5590.3890.0890.5589.388.290.189.08Fi93.8993.1393.1492.8693.1381.479.283.192.43El86.6887.0085.7785.4787.0086.179.379.289.55BG89.2090.0488.9389.4290.0489.987.191.092.46CS97.2395.5395.7595.8495.5387.584.987.495.14他85.1282.5382.7584.6782.5375.971.776.888.74没有96.1295.5595.4093.8895.5591.188.891.494.66fa95.5394.9095.1194.8894.9043.844.143.695.87SV92.5392.2292.0692.2492.2289.287.089.893.09en94.5894.7494.3688.5194.7487.682.587.394.02ro88.7486.0785.4785.7186.0784.280.286.088.02HR91.3389.8989.6088.9889.8985.283.085.990.50fr93.7593.2092.5292.6193.2090.089.991.389.39de88.4187.2086.9785.4387.2087.184.787.590.20pl93.8792.7792.0192.2992.7784.983.985.492.35Rajesh Kumar Mundotiya，A.梅塔河Baruah等人沙特国王大学学报表73317331在MCCGS模型中包含形态学特征后获得的评分这里，IE、CE和D分别代表MCCGS-IE、MCCGS-CE和MCCGS-D模型精度召回F-scoreMCC精度郎IE CEDIECEDIE CEDIE CEDIECED胡81.07 82.8982.7981.3380.0082.6179.93 79.9581.7477.9775.8482.9581.3380.0082.61nl92.99 92.3793.8793.3192.1892.8492.97 91.6392.7191.2089.4889.9593.3192.1892.84PT94.46 91.2594.1794.5989.8194.2494.4894.1794.0889.7493.9394.5989.8194.24es91.21 91.3691.1291.4490.7691.3991.17 90.1791.0891.6891.1590.7191.4490.7691.39嗨93.25 94.2194.8193.0993.9194.7792.99 93.9294.6392.6593.6094.4293.0993.9194.77它90.23 90.6992.0190.9190.7392.2190.33 90.2891.6789.8890.0191.5690.9190.7392.21da91.10 88.7691.4891.4789.2491.2491.10 88.6090.5391.0888.2990.5991.4789.2491.24Fi90.7893.5493.0190.9293.7592.43 90.5193.0092.2490.1193.1493.0190.9293.75El86.95 90.8689.6387.4887.7589.5386.80 87.8488.3486.2887.9088.3587.4887.7589.53BG89.63 86.6791.8589.4088.2592.5588.72 86.7791.7291.5085.0491.7089.4088.2592.55CS96.31 96.7995.7695.7396.1295.8095.87 96.2195.5795.7696.1495.4995.7396.1295.80他84.38 87.6287.8084.6887.7787.9183.65 87.0187.2184.8479.6386.7784.6887.7787.91没有96.34 96.5496.4595.5796.2596.2895.69 96.3096.0995.6595.9595.7695.5796.2596.28fa95.83 95.8395.7995.6395.7395.9995.6095.7195.4295.4295.5895.6395.7395.99SV93.03 93.7994.7492.8291.0494.7692.73 91.4494.5092.1291.2294.3292.8291.0494.76en93.

下载后可阅读完整内容，剩余1页未读，立即下载