没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于广义向量空间的跨语言语义关系检测Rizka W.放大图片作者:Sholikaha,Agus Z.Arifina、Chastine Raghachaha、Ayu Purwariantiba印度尼西亚泗水,Institute Teknologi Sepuluh Nopalan,智能电气和信息技术学院,信息学系b印度尼西亚万隆万隆技术学院电气和信息学院信息学阿提奇莱因福奥文章历史记录:收到2020年2020年7月21日修订2020年8月5日接受2020年8月11日网上发售保留字:广义向量空间多任务学习A B S T R A C T语义关系检测在自然语言处理中有着重要的作用。在监督方法中,训练过程需要足够数量的标记数据。然而,在低资源语言中,标记数据是有限的,而在丰富资源语言中,标记数据是大量可用的。此外,各种研究倾向于对单任务问题进行建模,而没有考虑与其他任务的泛化。因此,需要一种策略,该策略可以利用资源丰富的语言中的标记数据的可用性,并概括模型以跨语言的方式改进关系的识别。在本文中,我们提出了一个框架,以确定跨语言的语义关系,使用多任务学习与一般向量空间。该方法的目的是构造一个通用的向量空间和语义关系识别.实验在三个数据集上进行:结果表明,使用多任务学习与一般向量空间可以克服跨语言语义关系识别的问题。同义词和上位词任务的准确率分别达到84.9%和84.8%。©2022由Elsevier B.V.代表沙特国王大学出版。这是一篇开放获取的文章,CC BY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍语义关系在提高各种下游自然语言处理(NLP)和信息检索(IR)任务的性能方面具有重要作用,例如查询扩展(QE)(Azad和Deepak ,2019; Lemos等人 ,2014 年;Al-Shboul和 Myaeng,2014年),查询理解(Wang等人,2015)、分类群生成(Gupta等人,2017; Wang 等 人 , 2019 ) , 蕴 涵 任 务 ( Roller 和 Erk , 2016;Upadhyay等人,2018)和文本分类(Yousif等人,2015; Vishnu和Himakireeti,2019)。手动识别语义关系在时间和精力方面是昂贵的。因此,需要一种自动化方法最近的研究已经进行了自动识别语义关系。这些方法大致可分为* 通讯作者:信息学系,智能电气和信息技术学院,Institute Teknologi SepuluhNopalan,泗水60111,印度尼西亚。电子邮件地址:rizka16@mhs.if.its.ac.id(R.W.Sholikah)。沙特国王大学负责同行审查。两类:基于模式和基于分布。基于模式的方法采用词汇句法模式到自由文本语料库中提取语义关系。Hearst(Hearst,1992)提出了一种有影响的方法其思想是将几种模式,如在这种方法中,可以手动执行 图 案的 初 始 化( Hearst , 1992; Roller 等 人 , 2018 ) 或 自动(Nityasya et al.,2018; Simanovsky和Ulanov,2011; Snow等人, 2004年)。在手动方法中,模式列表可以由注释者或本地语言创建。同时,自动化方法可以通过利用来自一定关系的词典种子来执行。基于模式的方法的主要缺点是稀疏性。在这里,每一对词被认为是有关系,如果只有两个词共同出现在一个特定的模式。分布式方法通过利用每个词的分布式表示来执行关系的提取。目前,分布表示是使用词嵌入来获得的分布式方法可以被分类为监督的(Anke等人,2016; Hahgiwara,2008)和非监督(Chang等人,2018)方法。监督方法预测x和y是否具有关系,而非监督方法对x和y的关系的存在程度进行建模。https://doi.org/10.1016/j.jksuci.2020.08.0021319-1578/©2022由Elsevier B. V.出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com小行星2162Sholikah等人 /沙特国王大学学报-计算机与信息科学34(2022)2161- 2169然而,与语义关系的提取相关的研究更集中于单个关系的建模,例如同义词提取(Hahgiwara,2008; Hu等人,2015; Nguyen等人,2017)、上位词提取(Anke等人,2016; Lenci和Benotto,2012;Kotlerman等人,2010; Weeds等人,2014)和反义词识别(Nguyen等人,2017年)。最近的研究发现,将问题与其他相关问题一起概括可以提高性能(Santus等人,2015; Yu等人,2015;Shwartz等人,2016年)。Santus等人(Santus等人,2015年)提到,考虑到两个任务具有相关性,两个不同的任务可以提高彼此的表现。研究表明,同义词关系可以提高识别上位词关系的性能。另一项研究表明,上位词任务可以通过利用共下位词关系来改进(Yu et al.,2015年)。基于这一事实,一些研究已经使用多任务学习架构对两个任务的一般化进行了建模(Balikas等人,2019; Sholikah等人,2020年)。多任务架构是一种基于神经网络(NN)的方法,可用于将多个问题解决为单个NN。在训练过程中实现了两个相关任务之间的信息泛化和传递。尽管现有的方法取得了成功,但它们中的大多数都用于资源丰富的语言,如英语。低资源语言中的语义关系检测在标记数据和资源方面具有限制,例如依赖树和词性(POS)标记。标记数据在训练可用于识别某些关系的模型时非常重要。训练过程中使用的标记数据量会影响模型的质量。与此同时,在资源丰富的语言中,标记数据是大量可用的。这些数据可以用作低资源数据的扩充,以提高模型的质量。然而,来自丰富资源语言的数据不能直接应用,因为每种语言具有不同的向量空间。天真地将单词从资源丰富的语言翻译成资源贫乏的语言可能会导致上下文筛选和误译。因此,我们需要一种策略,可以利用标记数据的可用性在丰富的资源语言和推广模型,以提高跨语言的方式识别的关系。在本文中,我们提出了一个监督框架,结合了一般的向量空间和多任务学习架构用于跨语言语义关系检测。提出的框架,工作可以学习一种以上的语言与一个以上的问题,lem到一个单一的神经网络。在一个一般的向量空间中,我们引入了使用大可用性标记数据从丰富的资源语言,以增加有限的标记数据在低资源的语言。广义向量空间可以作为从资源丰富的语言到资源较少的语言的迁移学习,以提高语义关系的识别。相比之下,多任务架构通过将两个任务训练到单个网络中来概括模型以获得更好的性能。本文组织如下:自动识别语义关系的相关工作的审查写在第2节。我们建议的框架的详细解释在第3节中描述。实验结果和讨论在第4节中给出。第5讨论了结论和未来工作的一些方向。2. 相关作品2.1. 单语语义关系抽取单语言环境下语义关系的自动识别可以采用两种方法:基于模式的方法和基于分布的方法。基于模式的方法是高度依赖语言。这种方法需要一个特定关系的模式列表,以便与语料库模式列表是专门为特定语言创建的,并且只能用于该语言的数据。使用基于模式的方法的早期研究是由Hearst进行的(Hearst,1992)。Hearst在英语中定义了几种模式来手动提取上位词关系。此模式适用于来建立一个大型的分类法,叫做Probase。Snow等人进行的其他研究(Snow等人,2004)使用自动模式提取。使用词典种子自动执行模式提取。词典种子是关系对(x;y)的列表。然后,词典种子用于基于x和y之间的依赖路径来识别模式。根据分类结果的权重对所得到的模式进行过滤,以去除噪声和不相关的模式。类赫斯特模式的使用在稀疏性方面有一个这是因为如果每对词一起出现并且符合可用的模式,则认为它们具有关系。最近的研究使用长短期记忆(LSTM)来概括模式,以获得依赖模式的连续表示(Nguyen等人,2017; Lamurias等人,2019年;Zhang等人,2015年)。LSTM可以产生令人满意的性能和良好的覆盖率。然而,这种方法需要几个标记的数据。这些资源并非在每种语言中都可用,特别是低资源语言。基于分布式的方法通常可以分为分为两类:有监督和无监督。在无监督的方式下,早期的研究使用分布相似性方法来衡量单词和句法特征之间的关联程度。给定一个句法模式和词汇表,分布相似性创建一个矩阵,该矩阵由句法模式作为列和词汇表作为行组成。此外,该矩阵用于确定词汇和句法模式之间的权重。其他研究在检测上位词关系时考虑关系的方向,因为它们是不对称的。将方向特征知识与分布方法相结合。这种方法被称为分布包含假设(DIH)(Kotlerman等人,2010年)。DIH有一个假设,即下义词x的上下文是上义词y的上下文的子集。监督方法预测x和y之间是否存在关系。监督的方法利用词嵌入作为输入到分类器中的向量表示。有几种方法使用x和y的串联、差分和点积作为特征。然而,Vylomova等人(Vylomova等人,2016)表明,语义关系,如上位词关系,很难建模。2.2. 跨语言语义关系抽取与单语语义关系相比,跨语言语义关系的研究还不够Lewis andSteedman(Lewis and Steedman,2013)利用分布语义方法提取跨语言语义关系。此方法使用释义技术在不同语言的名称实体之间创建链接。Upadhyay等人 (Upadhyay等人, 2018)也采用了分布式方法。该方法执行基于依赖性的上下文,用于跨语言的泛化源语言和目标语言之间的对齐是通过利用小型双语词典来执行的Far- uqui和Kumar(Faruqui和Kumar,2015)提出了一种在独立于语言的开放域中提取关系的管道首先,将非英语语言中的每个句子翻译成英语,然后进行短语和关系的提取。将每个句子翻译成英语的目的是提供合格的资源,例如依赖关系树和POS标记器,这些资源在其他语言中的可用性有限第二,从英语到原文的投射R.W. Sholikah et al./Journal of King Saud University- Computer and Information Sciences 34(2022)2161-21692163每一个短语都是成对的,并使用双语评估中的分数进行过滤。Vyas和Carpuat(Vyas和Carpuat,2015)提出了一种使用双语稀疏矩阵识别语义关系的无监督方法。他们使用稀疏矩阵捕获源和目标中MeRSxT,其中S和T是源和目标。Wang等人(Wang等人,2019)提出了使用投影学习来生成跨语言向量空间,这是通过遵循Conneau等人(Conneau等人,2017年)。然后,使用来自分段线性变换的特征来识别上位词关系。该方法通过使用来自源语言的标记数据(大量)结合来自目标语言的有限数据来训练分类器,来预测目标语言(低资源语言)中的超词关系。本研究中的方法与我们提出的方法相似。然而,我们提出的方法使用多任务学习架构,并确定上位词和同义词的关系。2.3. 多任务学习多任务学习是一种将多个相关任务建模为单个NN的架构。多任务学习允许通过共享隐藏层在任务之间共享信息。共享表示使模型能够概括原始任务并最小化过拟合问题(Ruder,1706)。多任务学习架构已经在各种机器学习任务中显示出成功,例如计算机视觉、NLP和语音识别。关于语义关系识别的现有研究集中于解决单个任务,诸如同义词(Hahgiwara,2008; Hu等人,2015; Nguyen等人,2017)、上位词提取(Anke等人,2016;Lenci和Benotto,2012; Kotlerman等人,2010; Weeds等人, 2014)和反义词(Nguyen et al.,2017年)。单任务体系结构不能适应其他任务的泛化。Shwartz等人(Shwartz等人,2016 )将语 义关系提 取建模为 多类分类 问题。 Balikas等人(Balikas等人,2019)使用多任务学习架构来解决上位词任务,该任务利用另一个相关联的任务,例如同义词和共下位词。他们的结果显示,与单任务相比,使用多任务后的性能有所提高。一项初步研究(Sholikah等人,2020)还提出了一个多任务架构,使用丰富资源语言的附加功能来解决上位词和同义词任务。实验结果表明,多任务学习能提高被试的上位词和同义词任务的成绩。然而,这些研究仅针对单语任务。3. 方法拟议框架的概述如图1所示。训练过程中使用的数据集来自源语言和目标语言的训练数据。图1给出了一个拟议框架的例子,其中源语言是印度尼西亚语,目标语言是阿拉伯语。在本研究中,三种类型的局域网-将使用语言对:阿拉伯语-阿拉伯语、英语-阿拉伯语和英语-印度尼西亚语。数据集由成对的单词及其关系组成,即,植物-树-上位词。源语言和目标语言中的每个单词都使用通用向量空间查找转换为其向量表示。此外,在同义词和上位词任务中的每对词的特征被馈送到网络中。使用三种类型的特征:第一个单词的嵌入向量(蓝色),第二个单词的嵌入向量(红色),以及第一个和第二个单词之间的向量偏移(绿色)。网络的输出由两种预测组成:预测一对单词是否具有同义词关系和预测一对词是否具有上位词关系。在图1中,所提出的方法分为两个主要过程:一般向量空间构造和语义关系识别。通用向量空间构造旨在构建跨语言的通用向量表示,而语义关系识别使用多任务学习架构来识别目标语言中的语义关系、同义词和设S和T分别为源语言和目标语言。PS是源语言中的词对关系表,PT是目标语言中的词对关系表。词对关系表包括两个任务:Ps同义词和Ph上位词。对于每个任务,都有一个积极和消极对的列表。在同义词任务中,肯定对是具有同义词标签的关系对,而否定对具有除同义词之外的标签。同样的方式也适用于上位词任务。我们将源语言定义为比目标语言具有更多标记数据的语言,即,jPSj jPTj.该方法的目的是通过使用PS源语言和PT目标语言训练分类器来创建能够识别目标语言中的语义关系的模型。分类器是使用多任务学习架构通过学习P s和P h来学习的在单个NN中。3.1. 一般向量空间构造在这项研究中,源语言和目标语言的链接是使用一个通用的向量空间。通用向量空间在同一空间中表示源语言和目标语言,使得源语言和目标语言中的相关术语应该在相邻点处。通用向量空间还允许跨语言相似性的直接测量,因为它们位于相同的向量空间中。各种研究表明,成功地建立了一个一般的向量空间。所使用的方法之一是从源语言到目标语 言的 矩 阵投 影 学习 。 在这 项 研究 中, 我 们应 用 了Artetxe 等 人(Ruder,1706)提出的正交约束的投影学习方法。该方法使用仅需要几对双语词典和来自每种语言的单语嵌入的轻资源,这对于低资源语言是广泛可用的事件。令X和Y分别是源语言和目标语言的单语嵌入。在这项研究中,我们使用了fastText(Artetxe等人,2017)从维基百科转储数据库创建单语嵌入。假设有一个双语词典D,由X i*和Y j* 组成。X i*是i* 源语言的嵌入表示,Y j* 是源语言的嵌入表示。 是j* 目标语言的嵌入。目标是识别线性变换矩阵W*,其最小化Xi* W和Yj*w. r. t字典Di j之间的平方欧几里德距离之和。获得W*的目标函数在等式中给出。(一).Wω^arg minX XDijkXiωW-Yjωk21W我J在预处理过程中,在计算W*之前,对嵌入矩阵X和Y执行平均居中和长度归一化,如Artetxe等人(Ruder,1706)中所述。映射后的性能下降可以通过向W添加正交约束来防止。正交约束保持了单语映射的性能,同时产生了更好的双语映射。 因为WT W=I,等式(1)可以转换为Eq。(二)、最大T r.XWYTDT;2W--12.-我...ð Þ ¼ ð Þ¼···BYnlogYbn1-Ynlog1-Ybn1/1N小行星2164Sholikah等人 /沙特国王大学学报-计算机与信息科学34(2022)2161- 2169Fig. 1. 拟议框架。其中Tr(.) 是主对角线上所有元素的和。在正交条件下的最优解为UVT=W*,其中XT-DZ=URVT是XTDZ的奇异值分解因子分解.然后,投影的结果被用作查找矩阵,如图1所示。来自源语言的数据集使用来自投影XW的新嵌入矩阵,而目标数据集使用原始嵌入Y。使用查找矩阵将PS和PT中的每对词转换成它们的向量表示然后,将结果用作输入在NN。3.2. 语义关系识别下一步是使用多任务学习架构来识别语义关系。多任务学习架构是一种可以解决多个问题的NN模型。在多任务学习中,输入到网络中的输入可以是单输入或多输入,而输出的数量取决于要解决的任务的数量。在这项研究中,我们使用两个数据集作为输入,两个任务作为输出。在前面的过程中,我们已经获得了数据训练中每个项的向量嵌入。下一步是使用矢量表示作为特征被送入神经网络。我们获得三种特征:特征来自w!,w!和所述偏移向量之间w!2-w!1. 将w1和w2的向量组合为特征是一种常用的方法。 根据Levy等人的研究,(Bojanowski等人, 2017),使用矢量偏移。-w!2--w!1件当应用于隐藏层时,有效并导致更好的性能。在共享隐藏层中,每个任务可以交换信息以提高它们的性能。在这个过程中,可以存在积极和消极的信息。积极的信息有利于任务的完成,而消极的信息则会影响任务的完成.然而,在这项研究中,我们没有探索这些部分,以创建一个共享参数的约束。这个问题将在我们未来的研究中使用。下一层是特定的隐藏层,其仅用于某个任务Ti。此层中没有共享参数。共享隐藏层的输出用作特定隐藏层的输入。假设我们有来自前一层的h;每个任务Ti的映射可以通过以下等式计算(四)、h si¼f。WiThbi;4其中f(.)表示ReLU激活函数,Wi和bi是任务Ti的权重和偏差。每个任务的最后一层由一个节点组成,因为我们使用了sigmoid函数来预测二进制分类。sigmoid函数在等式中示出(五)、f x151-x一般来说,具有Z任务Ti;i1; 2;;Z的多任务学习具有损失函数,其是每个任务的损失函数的线性组合给定Xi作为任务Ti的输入并且Yi作为任务Ti的输出,总损失函数可以被定义为等式(1)。(六)、X而不仅仅是连接。然而,在这项研究中,仍然使用连接属性,因为这些特征表示训练数据中每个单词的重要信息其中Li是具有任务权重ki的特定任务i的损失函数。因为这两个任务都是二进制分类,所以我们使用二进制交叉-熵作为两个任务的损失函数。二进制交叉熵给定的级联的向量嵌入-w!1可以使用Eq.(七)、-w!二、-w!2--w!对于每个任务Ti,将向量映射为Fi2R3d×1,1X小时。Σn1]h/f。WTFibb.其中Y是网络的预测概率,N是数据训练的次数。其中W和b分别是共享隐藏层的权重和偏置,并且f(.)是非线性函数。在这个架构中,我们使用了整流线性单元(ReLU)。与其他非线性激活相比,ReLU的使用基于简单性。此外,正如其他先前的研究所报告的那样,ReLU在计算上是有效的。3.3. 实验设计本文的实验场景分为五类:1)一般向量空间设置下的实验,2)跨语言检测的有效性实验,3)Z特征可以克服模型中的词汇记忆问题。此外,矢量偏移还产生更好的性能。总长度:X1:Z;Y 1:ZkiLiXi;Yi;6一个非线性的共享隐藏层。映射可以通过以下等式来执行:(三)、L=X;Y=Nð7ÞNR.W. Sholikah et al./Journal of King Saud University- Computer and Information Sciences 34(2022)2161-21692165所使用的特征,4)关于目标语言的数据集的数量的影响的实验,以及5)关于最先进的方法的实验第一个场景的目标是显示使用双语设置和多语言设置构建时一般向量空间设置的有效性第二个场景的目的是找出跨语言检测的性能相比,单语检测。第三个场景比较了分类过程中不同特征的使用,因此可以看出哪些特征产生最佳性能。第四个场景旨在显示训练过程中目标数据量对模型性能的影响最后一种情况是通过将所提出的方法与最先进的方法进行比较来测量所提出的方法的性能4. 实验结果与讨论4.1. 数据集描述在该实验中,我们使用来自Balikas等人的瘤胃数据集(Balikas等人, 2019年)的英语(EN)和我们的内部数据集从初步研究(Sholikah等人,2020年)为印度尼西亚语(ID)和阿拉伯语(AR)。数据集的详细统计数据见表1。Original是在词汇表外(OOV)过滤之前的原始数据集数量。双语OOV和多语言OOV分别显示使用双语通用向量空间和多语言通用向量空间进行OOV过滤后的数据集数量每个数据集包含详情见表2。在这项研究中,单语词嵌入是从使用fastText方法构建的预训练词嵌入中获得的,300个维度在实验中,我们还使用了多语种单词嵌入进行比较。多语言单词嵌入是基于(Lample et al.,2017年)。多语种词嵌入实现了多个单语种词嵌入到单个向量空间的映射在使用双语设置生成一般向量空间的过程中,我们遵循Artetxe等人(Ruder,1706)提出的方法。该映射利用双语词典作为初始种子来训练从源语言到目标语言的投影。EN-ID和EN-AR之间的双语词典对于然而,我们只选择了5,000条记录,这些记录基于单词嵌入词汇表具有更高的频率。4.2. 评估指标所提出的框架的质量是使用准确度来衡量的(八)、准确度:<$Nc8其中Nc是该方法正确预测的数据测试的数量,N是数据测试的总数。因为没有表2关系的详细数量关系ENIDAR上下义词6,3258,0424,885同义词6,3258,8906,080随机6,3258,0004,000在数据集中的不平衡类,使用精度足以描述模型的性能。用于评估性能的测试数据来自目标语言。将目标数据集按70:30的比例分为训练数据和测试数据。4.3. 实验结果在这个实验中,第一个场景是使用双语设置和多语言设置来比较一般向量空间。实验使用三个单词对:ID-AR,EN-AR和EN-ID进行第一语言是源语言,而第二语言是目标语言。例如,在ID-AR中,ID是源语言,AR是目标语言。我们使用了三种方法:线性支持向量机,单神经网络,我们提出的方法。单个NN具有相同的层结构,所提出的方法与一个单一的特定隐藏层,以解决一个任务。单个NN只能用于单个任务。所有方法都使用相同数量的数据训练和数据测试,并使用相同的功能。该方案的结果见表3。在ID-AR数据集中,不同方法的同义词任务的准确性表明,使用双语映射比多语言映射获得更好的性能。支持向量机、单任务神经网络和我们提出的方法的准确率分别达到80.9%、77.2%和83.2%。这一结果同样适用于上位词任务,双语映射获得了较好的结果。然而,在单个神经网络中,多语言映射的准确性优于双语映射。在EN-AR和EN-ID两个数据集中,两个任务的绩效也显示出与ID-AR相似的结果。结果还表明,双语制图获得了更高的分数相比,多语种制图。使用双语映射可使性能提高0.1%第二种情况是比较跨语言和单语言,语言检测跨语言检测使用来自一般向量空间的向量表示。训练数据是源语言中的标记数据与目标语言中的标记数据的组合。同时,在单语映射中,使用了单语词嵌入的向量表示。训练数据仅来自目标语言的标记数据。在这个场景中,使用了三个数据集三种方法适用于每个数据集:线性SVM,单一NN,我们提出的方法。每种方法分别用于解决两个任务:同义词任务和上位词任务。表4显示了三个数据集中的性能方法。在ID-AR数据集上,对于两个任务,单NN方法和所提出的跨语言方法与单语言相比具有更好的准确性。同义词任务的正确率为83.2%,上位词任务的正确率为83.1%。了类似的结果表1数据集的统计数据。数据集原始双语OOV多语言OOVID-AREN-AREN-IDAR14,96514,18014,18014,1809,228ID24,93223,722–23,72220,186EN18,975–18,577–17,998小行星2166Sholikah等人 /沙特国王大学学报-计算机与信息科学34(2022)2161- 2169表3嵌入映射的比较语言方法双语制图多语言映射SynHyperSynHyperID-ARSVM80.981.380.581.2单个NN77.280.376.981.9提出83.283.181.781.7EN-ARSVM81.181.380.580.9单个NN77.381.077.380.6提出83.082.982.382.5EN-IDSVM82.079.582.677.2单个NN80.780.679.578.3提出84.984.882.882.8表4使用跨语言和单语言进行比较。语言方法跨语言单语SynHyperSynHyperID-ARSVM80.981.381.481.4单个NN77.280.376.677.5提出83.283.182.582.5EN-ARSVM81.181.381.481.9单个NN77.381.076.781.9提出83.082.982.982.9EN-IDSVM82.079.582.580.1单个NN80.780.679.581.1提出84.984.885.485.5在EN-AR数据集中也可以找到。在同义词识别任务中,跨语言识别的准确率在单一神经网络方法和提出的方法中分别达到77.3%和83.0%,超过了单语言识别。同时,在EN-ID数据集中,单语产生的值比跨语言。同义词和上位词任务的正确率分别达到85.4%和85.5%。第三种情况比较了输入网络的各种功能的使用情况。比较了三种类型的特征:连接、偏移以及连接和偏移的组合。利用所提出的方法进行了实验。采用基于双语映射的广义向量空间,导出了向量表示.实验应用于三个数据集:实验结果示于表5中。表5显示,对于所有数据集,与其他特征相比,连接和偏移的组合具有更高的准确性。同义词和上位词任务的正确率分别达到84.9%和84.8%。第四个场景确定目标语言的训练数据量对模型性能使用我们提出的方法进行了实验。来自目标语言的数据集以70:30的比例分成训练数据和测试数据然后,以10%、25%、50%、75%、90%和100%对训练数据进行采样使用源语言的全部训练数据。实验结果如表6所示,这表明三个数据集的结果是一致的。数字越大训练数据越多,模型的性能就越好,尽管训练数据已经使用来自源语言的训练数据进行了增强最后一个场景是比较我们提出的方法与以前的方法。使用六种方法进行比较:逻辑回归,Levy等人的方法(Bojanowski等人, 2017)、来自Shwartz等人的方法(Shwartz等人,2016),单任务NN,来自Balikas等人的方法(Balikas等人,2019)和预阈值方法(Sholikah等人,2020年)。选择逻辑回归作为比较方法,因为该方法是解决二元分类的基本方法。 Levy等人(Bojanowski等人,2017)使用SVM作为分类器和关联特征。Shwartz方法是一种以词嵌入、连接和依赖路径为特征的方法.然后,这些功能通过Softmax激活被送入网络。网络是一个单一的网络,只能解决一个单一的任务。然而,在这个实验中,我们消除了依赖路径特性,因为印度尼西亚语和阿拉伯语仍然缺乏创建此特性的适当资源。单任务神经网络是一种常见的神经网络方法,其结构与所提出的方法相同,但仅由一个任务的一个输出组成。这种方法被用来作为一种比较的方法来说明在相同的网络结构的单任务神经网络和多任务神经网络的性能的差异。Bali-kas方法使用多任务学习架构。与所提出的方法相比,该方法使用线性层作为隐藏层。此外,共享参数是为每次迭代而不是批处理执行的。我们的初步方法使用多-表5使用的功能比较特征EN-IDEN-ARID-ARSynHyperSynHyperSynHyper级联83.883.881.581.582.582.6偏移82.782.780.180.081.781.7级联偏移84.984.883.082.983.283.1R.W. Sholikah et al./Journal of King Saud University- Computer and Information Sciences 34(2022)2161-21692167表6训练过程中使用的目标语言标记数据的百分比。任务结构类似于Balikas方法,在每次迭代中共享参数。区别在于隐藏层;我们的初步研究使用了非线性激活(ReLU)。所有这些方法最初都用于单语任务。在这个实验中,一般向量空间被用作向量表示因此该方法可以应用于跨语言。所有比较方法都使用它们的原始特性,除了不包含依赖路径特性的Shwartz方法。实验结果见表7。在所有的数据集上,与其他方法相比,该方法表现出更好的性能.该方法在同义词和上位词识别中的正确率分别达到84.9%和84.8%。在ID-AR数据集上相比之下,在EN-AR中4.4. 讨论被归类为低资源的语言数量远远高于资源丰富的语言。在低资源语言中,标记数据的数量是有限的。这个因素会影响监督方法的训练过程,这通常需要大量的标记数据。相反,在资源丰富的语言中(即,英语),标记的数据是大量可用的在这项研究中,我们处理这些问题,利用大量的标记数据,从丰富的资源语言使用多任务学习与一般向量空间。多任务学习和广义向量空间的结合可以克服有限的标记数据的问题,同时通过一次训练两个任务来推广模型。因此,在具有有限标记数据的低资源语言中,可以执行具有足够数据的训练实验结果表明,该方法可以克服上述问题。表7示出了所提出的框架可以超越现有技术方法和我们的初步方法的性能所提出的方法使用多任务学习,Balikas方法(Balikas等人,2019)和初步方法(Sholikah等人,2020年),可以在这两项任务上产生更好的性能。这一发现表明,每个批共享参数允许更多的信息传输与每次迭代的共享相比。从一个表现良好的任务到一个表现不佳的任务的积极转移可以提高这两个任务的表现。因此,对于所有数据集,同义词任务的结果具有与超词任务相似的准确性。相比之下,在其他方法中,超词任务的准确率总是高于同义词任务。在这项研究中,双语向量嵌入被用作一般的向量空间。双语向量嵌入是通过将源语言投影到目标语言中来构建的。实验比较了双语向量嵌入和多语种向量嵌入的使用,结果表明双语词嵌入在几乎所有任务中都有更好的表现。结果示于表3中。基本上,双语和多语言的载体嵌入是使用类似的技术与种子监督。多语言词嵌入是从各种目标语言到英语的双语投影中构建的。同时,我们的双语向量嵌入是通过将源语言投影到目标语言来构建的。双语向量嵌入在本研究中的优势可能归因于可以覆盖的词汇量。统计数据集如表1所示,可以看出,在进行OOV检查后,双语向量嵌入的数据量大于多语种。在跨语言环境中,用作学习的训练数据包括源语言和目标语言的增强。与其他最先进的方法相比,多任务架构策略产生了更好的性能,如表7所示。然而,当应用我们提出的方法时,与没有增强(单语)相比,数据增强的效果不太显著,如表4所示。这种情况可能是由于来自投影的向量嵌入与来自目标数据的原始向量空间的相似度较低。这一发现在之前的研究中也有报道,表明与在一般空间中的表示相比,使用单语向量的向量表示产生更好的表示(Upadhyay等人,2018),包括使用机器翻译将源语言翻译成目标语言而形成的通用向量空间(Sholikah等人,2020年)。然而,整体框架可以通过将增强数据与多任务架构相结合来掩盖这些缺陷。表7比较我们提出的方法与其他方法。方法ID-AREN-IDEN-ARSynHyperSynHyperSynHyperLogistic回归62.470.464.972.263.369.8Levy et. 等人(Levy等人,(2015年)79.680.179.079.879.380.4Shwartz等al. (Shwartz等人,(2016年)64.466.664.170.264.368.5单任务神经网络77.280.380.780.677.381.0巴利卡斯等等人(Balikas等人, 2019年度)64.768.263.770.364.869.1Sholikah et.al. (Sholikah等人, 2020年)80.783.181.782.480.283.7该方法83.283.184.984.883.082.9目标语言EN-IDEN-ARID-ARSynHyperSynHyperSynHyper百分之十69.769.766.466.467.567.3百分之二十五75.175.274.774.774.174.0百分之五十79.279.277.076.979.379.4百分之七十五82.882.979.479.481.081.1百分之九十83.383.382.182.182.182.2100%的84.984.883.082.983.283.1≈2168R.W. Sholikah等人 /沙特国王大学学报-计算机与信息科学34(2022)2161- 2169该方法使用三种特征:第一个词的嵌入向量、第二个词的嵌入向量和两对词之间的偏移向量。使用如表5所示,这三个特征中的每一个获得的准确度可以超过单独使用每个特征的准确度。的第一和第二单词的嵌入向量的使用可以可以用作表示一对关系中的每个单词的特征。然而,这些特征不包含关于两个词之间的关系的信息。同时,向量偏移的使用充当表示关系的特性的特征,例如在下游任务中,例如利用特定关系的向量偏移的类比,例如,King–Man Queen–Woman5. 结论低资源语言中的问题是可用于训练特定模型的标记数据的限制。在基于监督方法的语义训练中使用的标记数据量会影响模型的性能相比之下,在资源丰富的语言中,标记数据是大量可用的。因此,多任务学习架构可以通过将多个任务组合到单个网络中来概括模型。共享参数可以最小化过拟合,并可以提高每个任务的性能因此,我们将多任务学习与一般向量空间相结合,以跨语言的方式检测语义关系。使用三种数据集:ID-AR,EN-AR和EN-ID对所提出的方法进行评估实验结果表明,该方法在同义词和上位词的正确率分别达到84.9%和84.8%的情况下,这一发现表明,所提出的方法可以用来检测语义关系,从有限的标记数据在跨语言的方式。在未来的工作中,我们将专注于每个任务的损失的自动加权。此外,我们将分析在不平衡数据集中执行的方法,因为在本研究中,数据集由平衡类组成。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。确认这项工作得到了印度尼西亚共和国研究、技术和高等教育部在PMDSU计划下的支持引用Azad,H.K.,Deepak,A.,2019年。 使用Wikipedia和WordNet进行查询扩展的新方法。信息科学492,147-163。Lemos,O. A.,宝拉,AC,洛佩斯,C.V.,2014.基于叙词表的接口驱动代码搜索查询自动扩展。第11届采矿软件仓库工作会议论文集。Al-Shboul,B.,Myaeng,S.- H、2014.专利类别检索中基于维基百科的查询短语扩展。Inf. Retrieval 17(5-6),430-451.王志,赵,K.,王,H.,孟,X.,温,J. - R.,2015.通过基于知识的概念化的查询理解。第二十四届国际人工智能联合会议论文集。古普塔,A.,莱布雷河,Harkous,H.,Aberer,K.,2017.使用上位词子序列的分类学归纳。2017年ACM信息与知识管理会议论文集。Wang,C.,中国地质大学,范,Y.,他,X.,Zhou,A.,中国农业科学院
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功