简化阿拉伯语形态学深度学习任务的实时嵌入方案

10 浏览量更新于2023-12-09 收藏 802KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志22（2021）35全文一个简单的Galois二次幂实时嵌入方案，用于执行阿拉伯语形态学深度学习任务穆罕默德·A.ELAffendia， Ibrahim Abuhaimedb，Khawla AlRajhiba沙特阿拉伯苏丹王子大学计算机科学系b沙特阿拉伯苏丹王子大学CCIS EIAS数据科学区块链实验室阿提奇莱因福奥文章历史记录：2019年12月22日收到2020年3月8日修订2020年3月29日接受2020年4月21日网上发售保留字：深度学习阿拉伯语形态学2的伽罗瓦幂实时嵌入并行神经模型图A B S T R A C T本文描述了如何使用一种简单的新伽罗瓦二次幂（GPOW2）实时嵌入方案来提高下游NLP任务的性能和准确性GPOW2在目标NLP任务的上下文中实时（实时）计算该方法的一个优秀特性是能够在同一遍中捕获多级嵌入。它同时计算字符，单词和句子嵌入的飞行。GPOW2是在试图提高SWAM阿拉伯语形态引擎性能的背景下衍生出来的，SWAM阿拉伯语形态引擎是一种多用途工具，支持分割、分类、POS标记、拼写检查、单词嵌入、语义搜索等任务。SWAM是一种面向模式的算法，它依赖于形态模式和POS标记来执行NLP任务。本文阐述了GPOW2如何提高了词性标注和模式匹配的准确性，从而提高了整个引擎的性能。模式预测的准确率为99.47%，词性标注的准确率为98.80%。©2020 THE COUNTORS.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍分布式语义和词嵌入技术[27，25，26]目前是执行任何类型的深度学习NLP任务的规范。虽然这些技术可以追溯到Bengio等人的工作。[3]，但它们只是在Word令人惊讶的成功之后才变得流行并引起注意矢量（Word2Vec）方法由Mikolov[27，25，26]提出。继Word2vec方法的成功之后，人们提出了许多其他更好的方法，包括Elmo[32]，UMLfit[19]和BERT[8]，它们利用了双向LSTM模型，迁移学习，Transformer和注意力技术的力量。尽管单词嵌入方法取得了成功，并取得了突破性进展，但仍有一些领域需要改进，其中包括：通讯作者。电子邮件地址：affendi@psu.edu.sa（硕士） ELAffendi），iabuhoimed@psu.edu.sa（I.Abuhaimed），khrajahi@psu.edu.sa（K. AlRajhi）。开罗大学计算机和信息系负责同行审查。1. 所需的分布式语义向量提供了从大型语料库生成的通用预计算表。由于计算量大，该过程不能在NLP模型2. 正如可以预期的，嵌入向量仅针对出现在语料库中的单词计算。计算表3. 在计算时间和内存方面，计算预嵌入是一个资源密集型4. 由于语义向量是在整个语料库上计算的（在大多数方法中），因此单词的局部上下文可能会被语料库全局上下文负面地掩盖。虽然这个问题已经通过Elmo[32]，UMLfit[19]和BERT[8]等新方法得到了解决，但由此产生的模型仍然很复杂，难以集成。5. 目前的大多数方法都不容易扩展或缩小计算句子或字符嵌入本文描述了一种简单的实时神经嵌入方案，该方案在上下文中实时计算嵌入目标NLP任务，而不需要列表的预嵌入或预训练的迁移学习模型。https://doi.org/10.1016/j.eij.2020.03.0021110-8665/©2020 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com36M.A. ELAffendi et al./ Egyptian Informatics Journal 22（2021）35新计划的主要特点和优点如下：1. 该方案是基于一个简单的伽罗瓦2的幂（GPOW2）整数变换，保持字符和文字的位置在文本嵌入向量。例如，在base-64的情况下，每个字符由6位表示在生成的嵌入向量中。2. 模运算是一种伽罗瓦变换，在向量较大的情况下，可以用来简化运算3. 该方案很容易放大和缩小，以生成句子和字符嵌入。可以并行应用多个单词句子嵌入（三重嵌入）来执行NLP任务4. 嵌入是作为训练过程的一部分实时生成的，而不需要列表嵌入5. 正如下面将要证明的，GPOW2带来了高精度，与某些已建立的基线相比毫不逊色通过将该方法应用于阿拉伯语形态学中的一个现实问题，说明了GPOW2的强大功能多年来，SWAM形态引擎[17]从一个简单的形态分析器发展成为一个多用途的语言工具，可以解决拼写校正，语义搜索，句子嵌入以及许多其他任务。该算法是面向模式的，并采用传统的概率语言模型来捕获单词和词素的上下文。该算法的主要问题是，它是相对缓慢的，由于穷举搜索过程中的适当的模式。用GPOW2取代传统的概率语言模型来预测单词模式和pos标签，大大提高了SWAM的性能和准确性。本文的结构如下：下文第2节陈述了主要问题。文献综述见第3。第四介绍了新颖的伽罗瓦二次幂（GPOW2）可逆文本变换，并演示了它是如何工作的。第5节描述了如何将GPOW2嵌入直接集成到预测NLP目标的神经模型本节将详细描述神经模型实验结果和发现在第6节中给出第7提供了一个详细的示例，说明模型如何工作。第8节展示了所提出的神经模型如何大大提高传统SWAM的性能。结论和建议见最后一节。2. 问题如在引言中所提到的，大多数嵌入方案通过大型查找表来提供它们的服务，其中每个词仅由在大型语料库上计算的一个嵌入向量表示这些方法的问题已经在引言中列出.2.1. 研究目标本研究的主要目的包括开发一个简单的通用嵌入方案，在目标NLP任务的上下文中实时计算上下文嵌入。解决当前嵌入方法的可扩展性问题，并提供如何在字符，单词和句子级别计算嵌入的指导。用一步神经预测模型代替SWAM穷举搜索过程以提高性能3. 文献综述和相关工作分布式语义和向量空间表示可以追溯到20世纪90然而，我们今天所知道的词嵌入起源于Ben- gio等人的工作。[3]他们是第一个使用神经模型来学习词汇的分布表示的人，基于他们在语料库中他们的模型执行以下操作：1. 词汇表中的每个单词都与一个连续的密集特征向量相2. 连续的特征向量是使用神经网络模型生成的，同时考虑到语料库中出现的顺序（单词的上下文）3. 预测单词的联合条件概率使用Softmax激活函数计算（这是当前单词嵌入模型的常见做法）4. 该模型包括至少一个隐藏层，表示特征向量Bengio等人的一个有趣的观察结果是，分布表示表现出显着的泛化能力，并且在处理词汇表外的单词时更好虽然Bengio等人的结果和发现非常有趣，但该领域的研究在一段时间内停滞不前，可能是由于当时缺乏适当的计算能力。词嵌入发展的下一个里程碑是Collobert和Weston[6]的工作，他们开发了一个统一的多任务神经模型，该模型基于使用深度学习模型计算的分布式特征向量同时执行多个NLP任务，类似于Ben- gio等人开发的模型。Bengio和Collobert的工作之间的主要区别（除了执行多个NLP任务的能力）是Collobert的研究中使用卷积神经网络第三个也是迄今为止最重要的一个里程碑是Mikolov等人的工作（Mikolov例如，2014; Mikolov等人，2016年），他开发了Word toVec- tor（Word 2 Vec）方法来计算分布式单词表示。Word2Vec和以前的方法之间的主要区别是使用浅层神经模型来学习向量，这使得在短时间内在大的语料库上训练模型变得可行。另一个区别是在焦点词周围使用了对称的上下文窗口。Word 2 Vec方法有两种形式：连续词袋（CBOW）和Skip-gram。在CBOW版本中，半监督神经网络用于计算给定单词的嵌入向量。在Skip-gram版本中，Skip-gram模型用于预测给定单词的邻居词嵌入发展的第四波浪潮是“transfer learning”[19，32]，其中预训练的分类模型可以在类似的任务中重用经过深度训练的模型，从而在更短的时间内生成更准确的结果，而不是从头开始。这种做法是从图像识别领域借鉴来的，在图像识别领域，预训练的模型被用来训练新模型，从而产生更好的准确性和性能。迁移学习的好例子包括ELMo[32]和UMLfit[19]。最近，一些人努力改进Word 2- Vec并将其扩展到句子嵌入。这些努力包括Ksuner等人的工作。[22]和Mijangos，Sierra，●●●M.A. ELAffendi等人/Egyptian Informatics Journal 22（2021）3537-Herrera[24]计算句子嵌入和Joulin等人的工作。[20]包括字符嵌入和单词嵌入。Mikolov的工作也被扩展到包括句子嵌入[26，27]、文档嵌入[28，30，22]和字符嵌入[20]。这使得将该技术纳入许多应用和生产环境成为可能。一个很好的例子是快速文本系统，它集成了字符嵌入和单词嵌入[20]。关于应用词嵌入来执行核心NLP任务，已经报道了许多努力。在我们的案例中，最相关的任务包括Zhang，Yu和Fu在中文句子分割方面的工作[36]。3.1. 阿拉伯语单词嵌入和应用Altowayan和Tao[2]使用词嵌入进行阿拉伯语句子分析。他们首先从各种来源汇编了一个大型阿拉伯语语料库，在此基础上计算了标准阿拉伯语和方言阿拉伯语的单词嵌入向量。由此产生的分布式单词表示，然后被用来训练二进制情感分类器，以确定主观性和senti- ment。作者的主要动机是避免手动特征工程，这是一个困难的耗时的任务。他们报告说，他们的结果略好于基于手工制作功能的传统方法。Dahou等人。 [9] 使用一个相对较大的语料库，使用 CBOW 和Skipgram模型生成阿拉伯语单词嵌入。作者测试并比较了生成的词嵌入的质量与类似的和传统的方法生成的结果。SWAM阿拉伯语形态分析算法[15，17]是新兴阿拉伯语形态工具家族的一员，包括 BAMA[5] ， MADA + TOKEN[18] 和MADAMIRA[31]。深度学习和神经网络技术在阿拉伯语形态学中的应用在ELAffendi和Alrajhi[14，16]中得到了很好的介绍，他们还介绍了一种有趣的RIT 64文本编码替代one-hot编码，结果证明它的速度快了许多数量级，并带来了更准确的结果。4. 一种新的可逆伽罗瓦二次幂（GPOW2）文本嵌入方案：一个简单的调整，工作本文所用的模型和得到的良好结果是基于一个简单的可逆伽罗瓦二次幂（GPOW2）整数变换，通过该变换，所有输入字被编码为二次幂的多项式（和）。GPOW2是RIT 64变换[14]的推广，正如名称所暗示的那样，利用伽罗瓦有限域的属性[23，33]对单词的整数表示进行各种代数运算。这种转换基于一个简单的想法，即单词和字符串可以被视为基数r为2的幂的数字系统中的整数。用于形成单词和字符串的字符是这个数字系统的数字。基数r应该足够大，以容纳用于形成单词和字符串的所有字符。在当前版本的GPOW2中，r的值为64（26），最多可容纳64个字符。基于此假设，长度为m的每个单词或字符串表示为多项式：W¼ a m r m a m-1r m-1.. . 1 r10 r0这里的ai4.1. 什么是伽罗瓦域有限域F定义如下[23，33]：伽罗瓦或有限域F是具有以下性质的元素的有限集合F的所有元素形成具有群运算“+”和中性元素0的加法群F中除0以外的所有元素与群运算当两个群运算混合时，分配律成立：对于所有的a，b，c2 F：a（b + c）=（ab）+（ac）.域中元素的个数称为域的阶数和基数。一个m阶伽罗瓦域存在，如果m是一个素数幂：m =pn，对于某个整数n和一个素数p。在这种情况下，p是域4.2. Galois素域GF（p）伽罗瓦有限域的一个特殊情况是伽罗瓦素域，称为GF（p）。伽罗瓦素域是具有素数元素的有限域，即m = p，对于某个素数p（意味着在上述关系中n = 1）。在GF（p）中，每一个非零元素都有一个逆元素，运算是模p完成的。4.3. 我们为什么要关心？伽罗瓦域已成功地用于密码学[23]和通信信道编码[33]。从我们最初的实验来看，伽罗瓦有限域将在文本编码和文本处理领域产生一定的影响主要的吸引力是我们可以定义两个运算+和 * 对应于两个阿贝尔群。伽罗瓦有限域的一个含义是使用模运算来执行句子和大型文档的嵌入操作的可能性4.4. 阿拉伯语单词和字符串因为阿拉伯语单词可以表示为整数基2的幂（所得整数的基数是2的幂），所以我们可以容易地识别语言中所有单词的伽罗瓦素数域，或者基于单词的长度使用与2的幂相关联的梅森素数属性的多个域。一个Mers- enne素数是一个素数，是一个小于2的幂，通常表示为一个数字的形式Mn= 2n 1的某个整数n。4.5. 2的幂变换1. 每个字都由一个唯一的数字表示，其基数r是2的幂（2，4，16，32，.）。. ）.2. 表示每个字符所需的二进制数等于基数的基2指数n（在r = 64的情况下，表示一个字符所需的二进制数为6（sine 64 = 26））。3. 由此产生的整数变换是伽罗瓦素数域[23]的成员，其阶是序列的上最接近Mers- enne素数[33]4. 上面这一点意味着许多字符串操作是在一个伽罗瓦素数域中建模和执行的。伽罗瓦素域是阶为素数p的域。算术是模p完成的。5. 转换是可逆的，因为结果整数的基数是2的幂。●●●38M.A. ELAffendi et al./ Egyptian Informatics Journal 22（2021）356. 因为基数是2的幂，所以变换保留了字的二进制表示中字符的位置和顺序。在r = 64的情况下，每个字符由6位表示。此功能是实现字-词叠加嵌入的主要手段。7. 转换是自适应的。此转换所能容纳的最大语言字符数等于基数的值。如果需要更多的字符，那么可以很容易地切换到更高的2次幂基数。例如，在阿拉伯语的情况下，意识到最多需要64个字符来表示语言中的大多数字符串。这包括28个字母的字符，一些标点符号和特殊符号。详细解释和依据见[14，13]。5. 一种通用的GPOW2嵌入方案：实时同步嵌入模型6. 模型、实验和结果在本节中，将上文第5节中描述的多通道神经GPOW2模型应用于黄金标准公共阿拉伯语形态数据集，以证明其准确性。主要目的是计算阿拉伯语单词模式和POS标签的预测。数据集在下面的第6.1节中描述，而结果在第6.2节中给出。 3.6.1. 数据集在过去几年中，已经作出了一些努力，预先注释阿拉伯数据集和树库。这些集合在大小、深度上不同，更严重的是，在使用的标记集合不幸的已经提出了广泛的标签集[35]。数字-表2多通道GPOW2模型详细信息。信道模型嵌入类型注释为了说明GPOW2的强大功能，使用多通道神经网络模型来预测阿拉伯语单词的pos标记和模式。该模型包括三个通道：字符通道，单词通道和句子通道（图1）。GPOW2用于计算三个通道的嵌入（字符嵌入，单词嵌入和句子嵌入）。卷积神经模型已被用于每个单词和字符通道。对于句子通道，使用了LSTM。模型参数见下表214层双向LSTM（多通道模型的主干）（5层，包括连接层）2卷积神经网络（6层，两个输出）3卷积神经网络（6层，两个输出）GPOW2句子嵌入GPOW2字嵌入GPOW2字符嵌入与串联图层合并的输出与串联层合并的第二个输出与串联层合并的第二个输出图1.一、具有三个输入的多通道GPOW2模型：字符，单词，句子。表1从RIT 64正向转换得到的二进制表示形式（）。ﻡﻱﻕﺕﺱﻡﻝﺍ100,100101,001100,001001,001010,010100,100100,011000,110M.A. ELAffendi等人/Egyptian Informatics Journal 22（2021）3539每组中的标签的BER从大约20个标签到超过20个标签变化。150.例如，宾夕法尼亚州立大学LDA采用的简化标签集（RTS）仅由25个标签组成，根据一些作者[10]，这些标签不足以覆盖阿拉伯语的所有特征，而Khoja[21]提出的标签集包含约171个标签。选择本研究数据集的主要决定标准包括：1. 该集合应完全注释2. 公开提供给研究人员3. 所使用的标记集应该足够广泛，以涵盖标准的阿拉伯语特性（不要太小，也不要太详细）基于这些标准和比较，明确的选择是由杜克斯[11，12]在利兹大学的统计分析工作中编写的古兰经阿拉伯语语料库（QAC）。选择QAC的主要原因是：1. 使用的标记集是一个中等大小的代表性标记集，涵盖所有标准阿拉伯语特征。2. 一个透明的众包过程被用来注释语料库与许多修订周期。3. 该集合服务良好，公开可用，注释质量非常高。4. 对树库中的每个词都进行了详细的形态句法分析。5. 这套数据可在项目网站http://corpus.quran.com/download/上免费向研究人员公开获取。6.1.1. 我们在数据集上的工作如上所述，QAC为语料库中的每个词提供了非常详细的分割和有价值的句法和形态信息，包括词缀、附缀和所有类型的语素。然而，需要进行一些预处理，使语料库可用于计划的分析。因此，已执行了以下主要预处理任务：1. 推导出QAC中所有单词的形态模式（形态模板），因为这些在原始注释集中没有提供开发了一个小工具来导出该模式。这很重要，因为SWAM是面向模式2. 为相应的任务和模型提取适当的训练和测试表，并解码其中呈现语料库注释的紧凑格式。3. 计算集合中所有单词和语素的频率和二元组。如上所述，原始SWAM在词素和单词级别使用统计语言模型6.2. 实验和结果两个主要的实验进行评估的准确性和泛化能力的GPOW2嵌入。在这两个实验中，多通道GPOW2模型已被用来预测各自的词类（POS或模式）。三个并行嵌入模型（三个通道）已连接成一个3.句子嵌入模型使用大小为5的窗口（每个单词具有大小为5的窗口（前2个单词和后2个单词））（总共420位）该集合被分成80%的训练集和20%的测试集。下表提供了两个实验的模型参数和准确度的详细信息。6.2.1. 实验1：使用GPOW2第一个实验集中在预测词模式，这是主要的性能问题，在SWAM。数据集的总其他网络参数在下面的表3从表中可以看出，准确率为99.24%。图2提供了作为时期数量的函数的准确度的曲线图。6.2.2. 实验2：使用GPOW2预测POS标签使用类似的设置来预测相同集合的词性标签。下面的表4示出了POS标签实验的参数和准确度。图3提供了准确度曲线图作为训练时期的数量的函数7. 工作原理：详细示例本节提供了一个详细的示例来解释GPOW2深度学习模型的工作原理。该模型使用反向传播算法在多时期训练过程中学习。训练过程中的一个典型时期（回合）如下图4所示。该图表示POS标记模型的训练过程中的一次通过。这一进程可概述如下：1. 为了训练模型来预测给定输入单词的pos标签，我们需要在神经网络的输入层（图1中的前两个底层）计算该单词的GPOW2嵌入。4）。2. 为此，我们需要指定输入单词的“上下文窗口”的大小3. 在下面的图44. 因此，窗口中三个单词的GPOW2表示被传递到底层的神经网络，如下面的图4所示。表3模式预测模型的参数。参数值总设置大小77，915项目词汇量7508文本编码输入和输出的GPOW 2编码初始训练集大小80%初始测试集大小20%目标向量大小84个神经元（模式的GPOW2表示）统一的嵌入层，以产生所需的预测。三个嵌入通道是：并行输入层数三个（字符，单词，使用GPOW2的单词上下文）1. 字符嵌入通道，使用卷积模型和每个字符的GPOW2表示来计算字符嵌入（6位）2. 词嵌入模型，使用卷积网络和GPOW2向量表示为集合中的每个孤立词计算词嵌入（84位）输出神经元数量84（使用GPOW2）优化ADAMS激活函数Sigmoid损失函数对比损失时期数量训练准确率99.47%验证准确度99.25%测试准确度99.24%40M.A. ELAffendi et al./ Egyptian Informatics Journal 22（2021）35图二. 模式预测的准确性。5. 基于这些向量，在从底部开始的第二层（图1中的隐藏层1）中计算单词的实时嵌入。四、6. 然后在后续层中处理嵌入向量，直到它为输出层中的pos标记产生“预测”（如果图1，则从顶部起第二个）。四、7. 然后使用对比损失函数将得到的“预测”与实际标签的GPOW2表示（图4中的顶部框）进行8. 对比损失函数计算“预测”（来自输出层）和实际pos标记GPOW2表示之间的差异然后将差异（损失）反馈给神经网络，以计算下一个时期9. 这一直持续下去，直到通过最小化损失达到可接受的精度请注意，单词和标签的GPOW2表示是使用以下方法计算的：上面的表1中已经给出了一个简单的例子，说明GPOW2如何表示单词、标签和模式7.1. 与黄金标准基线和报告结果的在本节中，我们的结果与已建立的黄金标准QAC 基线（传统SWAM），Buckwalter[13]，Alashqar[1]以及使用LDC阿拉伯树库[29]建立的基线进行了比较。下表5总结了这些基线，而比较在表6中示出：表4POS预测模型的参数。参数值总尺寸77，915词汇量7509初始训练集大小80%初始测试集大小20%目标层大小84个神经元（POS标签的GPOW2表示）并行输入层的数量三个（使用 GPOF2 的字符、单词、单词的上下文）输出神经元的数量 84 个（使用GPOW2）优化ADAMS激活函数Sigmoid损失函数对比损失时期数量训练准确率99.48%验证准确率98.82%测试准确度98.80%图三. POS标签的准确性。7.2. 分析1- 上表显示了使用已建立的基线获得的pos标记准确性与我们的GPOW2模型结果的比较。GPOW2精度在表格底部以粗体显示。2- 使用词嵌入神经模型获得的词性标注准确率（98.8%）明显优于所有基线，包括传统的SWAM金标准。3- 比较证实，传统SWAM是高度准确的，其唯一的问题是计算成本M.A. ELAffendi等人/Egyptian Informatics Journal 22（2021）3541图四、 GPOW2模型中典型通道的简单示例表5GPOW2的基准。基线描述Alashqar[1] 33个QAC标签Alashqar[1]使用了QAC中的33个来计算六种传统标注算法的准确性SWAM，模式编码分割。因此，Neuro SWAM中的分割精度也优于所有基线5-Alshqar（2012）进行的实验表明，标签集的大小对准确性的影响很小。他用了33号和9号两个尺码。在我们所有的实验中，原始原始游泳-完整的标签集（黄金标准）Buckwalter -完整的QAC标签集LDC位置标记（LDC标记集）[13]应用传统的语言模型方法来计算POS标记和形态模式预测的准确性Buckwalter[5]算法已被调整为使用由500，000个数据集组成的LDC阿拉伯语树库的子集来计算（预测）POS QAC POS标记。[29]使用由500，000个数据集组成的LDC阿拉伯语树库完整的标签集，大约42个。8. 神经SWAM优于传统SWAM正如预期的那样，用神经预测器取代原始SWAM中的穷举搜索组件，在保持相同准确度的同时，减少了93.11%的执行时间。两个版本的SWAM都被用来分析整个QAC集。花了LDC分割精度[29]使用LDCArabic Treebank包含500，000个要计算的原始迭代SWAM 1018.8秒分析完整集合，而Neuro SWAM在70.2秒内完成完整任务测试是根据-在iCore 7笔记本电脑上形成，具有16 Gig RAM。的精度仍然几乎的一样的原始SWAM4-虽然在嵌入模型中没有直接解决分割问题，但模式预测准确度（99.94%）是分割准确度的间接指标。在在执行的测试中，Neuro版本的总体准确度达到97.57%，而Neuro版本达到96.8%。下表7总结了结果。42M.A. ELAffendi et al./ Egyptian Informatics Journal 22（2021）35表6将GPOW2与表5中总结的基线进行比较。Taggers比对柱的实验类型准确度Unigram二元模型卦布里尔嗯TNTAlashqar[1] 33 QAC tags百分之八十点四百分之八十点五百分之八十点三百分之八十点九百分之七十五点二百分之六十九点二80.90%原始原始游泳-完整的标签集（黄金标准）百分之九十八点四三Buckwalter92.68%LDC位置标记（LDC标记集）百分之九十四点六LDC分割精度百分之九十四点九一GPOW2神经模型pos标记百分之九十八点八GPOW2神经模型模式分类访问百分之九十九点二四表7使用QAC数据集的原始SWAM与混合神经SWAM的性能。参数原始SWAM工具包混合神经SWAM评论性能（使用完整数据集）1018.8秒70.2秒93.11%性能提升总体准确度97.57% 96.8%准确度略低于原始SWAM，预计在进行使用更大的数据集9. 结论本文介绍了一种简单新颖的同时计算字、词和句子嵌入的伽罗瓦二次幂（GPOW2）方案。GPOW2嵌入方法基于一个简单的二次幂变换，该变换在句子或文档的最终变换中保留字符和单词的位置。这个有趣的特性使得设计不同复杂度和深度的并行嵌入图成为可能。为了证明GPOW2的强大功能，该方法已被应用于解决与SWAM语言工具性能相关的现实生活中的阿拉伯语形态问题[13]。SWAM是一个面向模式的工具，它执行从分割到语义搜索的各种任务。GPOW2将SWAM的时间性能提高了90%以上，同时保持了引擎的高精度。GPOW2预测的阿拉伯语形态模式和POS标签的测试准确率分别为99.24%和98.80%这些结果击败了针对相同数据集获得的SWAM黄金标准结果需要做更多的工作来扩展和改进新兴的GPOW2模型在不同的方向，并将其应用到其他类型的任务。确认这项工作由苏丹王子大学EIAS数据科学区块链实验室资助。作者非常感谢实验室和苏丹王子大学引用[1] 阿拉什卡尔河基于《古兰经》语料库的阿拉伯语词性标注比较研究。In：Proc. Int.Conf. 信息学和系统（INFOS）（pp。29[2] Altowayan AA，Tao L.用于阿拉伯语情感分析的词嵌入。In：Int. Conf. Big Data（大数据）. IEEE，2016.[3] 放大图片作者：Bengio Y，Ducharme R，Vincent P，Jauvin C.神经概率语言模型，J Machine Learn Res，vol. 号31999年2月，第1999年2月。1137[4] Blei DM，Andrew，Ng Y，Jordan MI.潜在Dirichlet分配J Mach Learn Res 2003;3（4-5）：993-1022. doi：https://doi.org/10.1162/jmlr.2003.3.4-5.993网站。[5] 巴克沃特巴克沃特阿拉伯语词法分析器2.0版。LDC目录号LDC 2004 L02，ISBN 1-58563-324-0，2012年。[6] Collobert J ， Weston J ， Bottou L ， Karlen M ， Kavukcuoglu K ， Kuksa P.Naturallanguage processing（almost）from scratch. J Mach Learn Res2011;12：2493-537.[7] 迪尔韦斯特湾等（1988）。用潜在语义索引改进信息检索。In：Proc.第51届美国信息科学学会年会，36比40[8] 张明，李明，张伟，张伟. BERT：用于语言理解的深度双向转换器的预训练，arXiv：1810.04805 [cs.CL]，2018。[9] 张文忠，张文忠，张文忠.用于阿拉伯语情感分类的词嵌入和卷积神经网络。在Proc.COLING 2016，26th Int. Conf. Computational Linguistics：Technical Papers（pp.2418-2427），2016.[10] Diab，M.面向现代标准阿拉伯语处理的最佳POS标签集。自然语言处理的最新进展（RANLP）。pp. 91[11] Dukes K，Habash N.（2010年a）。阿拉伯语古兰经的形态学注释。在：Proc.语言资源和评估会议（LREC）（25302536），马耳他瓦莱塔。[12] Dukes K，Atwell E，Sharaf A.古兰经阿拉伯语部树库的句法注释指南。In：Proc.Language Resources and Evaluation Conference（LREC），Valletta，Malta，pp. 1822[13] 阿布海迈德·埃拉芬迪SWAM Arabic Linguistic Toolkit（SALT）：一种用于执行下游NLP任务的新型混合词嵌入神经工具，未出版，2019年。[14] 作者声明： Alrajhi KS. 深度学习神经网络的文本编码：一种可逆的 Base 64（Tetrasexagesimal）转换（RIT 64）替代一种热编码与阿拉伯语形态学的应用，在：第6届国际数字通信，网络和无线通信会议，黎巴嫩大学，贝鲁特，黎巴嫩，第10页。70-74，2018年。[15] MA. A Suggested Framework for Arabic Morphological Analysis ： A SlidingWindowAsymmetricMatchingAlgorithmandItsImplication ， EgyptInformaticsJ，Cairo University，vol. 号92008年6月1日[16] MA.阿拉伯语形态学的生成力及其含义：阿拉伯语语料库标注中的模式定位及模式本体论。In：Alenezi M，Qureshi B（eds.），第五届国际研讨会数据挖掘应用。智能系统与计算进展，第753卷。Springer，Cham，2018.[17] ELAffendi MA ， Altayeb M. The SWAM Arabic Morphological Tagger ：Multilevel Tagging and Diacritization，Using Lexicon Driven Morphotactic andViterbi，ICAIConf. 人工智能，拉斯维加斯，内华达州，美国，2014年。[18] Habash N，Rambow O，Roth R. MADA+TOKAN：一个用于阿拉伯语标记化、变音符号化、形态消歧、POS标记、词干提取和词形化的工具包。In：Choukri，K.Maegaard ， B. （ eds. ），Proc. 第二届国际会议。阿拉伯语资源和工具。 TheMEDAR Consortium，in Proc. LREC，Reykjavik，Iceland，2009.[19] Howard J，Rud.er S.用于文本分类的通用语言模型微调。1801.06146v5 [cs.CL] 23，2018.[20] 杨志华，李志华 . Bag of Tricks for Efficient Text Classification. arXiv ：1607.01759v3 [cs.CL]，2016。[21] 作者：Khoja S，Garside R，Knowles G.用于阿拉伯语的形态句法标记的标记集。Comput. DEP.兰茨University;2001.[22] Kusner MJ，Sun Y，Kolkin KI，Weinberger KQ.从Word嵌入到文档距离。在Proc.32nd Int.Conf.Machine Learning，Lille，France，JMLR：W CP vol.37，2015中。[23] 作者：Kythe Prem K，Kythe Dave K代数与随机编码理论。北京：清华大学出版社，2017.[24] Mijangos V ， Sierra G ， Herrera A. 句子相似度的词嵌入模型。 Res ComputSci2016;117：63-74.M.A. ELAffendi等人/Egyptian Informatics Journal 22（2021）3543[25] Mikolov T，Chen K，Corrado G，Dean J.向量空间中单词表示的有效估计，arXiv预印本arXiv：1301.3781，2013。[26] Mikolov T，Sutskever I，Chen K，Corrado GS，Dean J.分布式表示单词和短语及其组合，Adv Neural Inf Proces System，pp. 3111-3119，2013。[27] Mikolov T，Le QV，Sutskever I. Exploiting Similarities Among Languages forMachine Translation[28] [10]杨文，李文，李文.一种用于文档排序的双嵌入空间模型arXiv预印本arXiv：1602.01137 February 4，2016.[29] Mohamed E，Kübler S.阿拉伯语词性标注。载于：LREC议事录，瓦莱塔，马耳他，2010年。[30] Nalisnick E，Mitra B，Craswell R.使用双字嵌入改进文档排名。WWW'16 WWW-万维网联盟（W3C），2016年。[31] Pasha A ， Al-Badrashiny ， Kholy AE ， Eskander R ， Diab M ， Habash N ，Pooleery M，Rambow O，Roth R.MADAMIRA：一个快速，全面的工具，阿拉伯语的词法分析与消歧。 In ： Proc. Language Resources EvaluationConf，2014.[32] Petersy ME，Neumanny M，Mohit Iyyery M，Matt Gardnery M，Clark C，Lee K，Zettlemoyer L.深度语境化单词表示，arXiv：1802.05365v2，2018。[33] 陈泰，陈泰.信号处理、通信和网络的数学基础。北京：清华大学出版社，2017.[34] Dumais ST.潜在语义分析。《信息科学与技术年度评论》，第38卷，第38页。188-230，2005年。doi：10.1002/aris. 1440380105.[35] Zeroual I，Lakhouaja A，Belahbib R.为阿拉伯语建立一个标准的词性标记集。JKing Saud Univ- Comput Information Sci 2017;29（2）：171-8.[36] 张明，于南，付刚.一种简单有效的神经网络模型用于联合分词和词性标注，IEEE/ACM，音频，语音，语言处理，2018年第26卷第9期

下载后可阅读完整内容，剩余1页未读，立即下载