没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于特征级融合的阿拉伯语问句分类:值得做吗?Alami Hamzaa, Noureddine En-Nahnahib,Abdelkader El Mahdaouyc,Said El Alaoui Ouatika摩洛哥凯尼特拉伊本托费尔大学国家应用科学学院工程科学实验室b信息学、信号、自动化和认知主义实验室(LISAC),Dhar El Mahraz科学学院,Sidi Mohammed Ben Abdellah大学,邮政信箱1796,非斯30003,摩洛哥c摩洛哥穆罕默德六世理工大学计算机科学学院阿提奇莱因福奥文章历史记录:收到2021年2022年3月10日修订2022年3月11日接受2022年4月9日在线发布保留字:阿拉伯语问答系统的语义级融合BERTELMo问题嵌入自然语言处理A B S T R A C T问句分类是问句分类系统中最关键的环节之一它旨在通过为每个问题分配预定义的类标签来减少答案搜索空间。最近,基于深度学习方法的上下文化单词表示方法在自然语言处理的各个领域中取得了最先进的性能。然而,很少有作品应用这些表示分类阿拉伯问题。在这项研究中,我们提出了一个阿拉伯语问题分类方法的基础上,句子transformers为基础的表示。此外,我们还研究了各种词表示的融合我们的贡献是三方面的。首先,我们的方法处理词汇表外的单词。其次,我们应用BERT表示从单词中提取最有价值的特征,然后构建更好的问题表示。第三,我们研究了融合不同的词嵌入对阿拉伯语问题分类的影响。为了评估所提出的模型,我们对包含3173个标有阿拉伯语和Li Roth分类法的问题的数据集进行了分层5折交叉验证。实验结果表明,我们的模型都优于以往的阿拉伯语问题分类任务相关的工作。在阿拉伯语分类案例中,我们使用基于AraBERT的模型获得了94.20%的最高准确率。至于Li Roth分类法,基于AraBERT和W2V串联的模型的总体准确率最高,为93.51%。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍文本信息的持续增长已经对传统搜索引擎的能力这些限制表明迫切需要能够对以自然语言书写的问题提供精确且相关的答案的问题查询系统(QAS),而不是根据其与给定查询的相关性排序的文档列表因此,QAS是人机交互(HCI)的自然形式之一通 常 , QAS 可 以 由 三 个 主 要 组 件 组 成 ( Jurafsky 和 Martin ,2009):(1)用于执行查询公式化和问题分类以识别的问题处理模块*通讯作者。电 子 邮 件 地 址 : hamza. uit.ac.ma ( A.Hamza ) , noureddine.en-nahna-hi@usmba.ac.ma ( N. En-Nahnahi ) , abdelkader. um6p.ma ( A.El Mah-daouy),ouatikelalaoui. uit.ac.ma(S。El Alaoui Ouatik)。确定答案类型;(2)段落检索模块,其涉及使用信息检索系统(IRS)根据由问题处理组件制定的查询来检索最相关的文档。然后,分析这些文档以提取可能包含答案的候选段落集合;(3)答案处理模块,负责根据候选段落与答案类型的可能性对候选段落进行排序。接下来,自然语言的答案是制定从顶部candi日期段落。图1示出了问答系统的架构。(See 图 2-4)。问题分类或答案类型识别是为给定问题分配一个或多个类别标签的任务。注意到该任务的准确性对返回的答案的质量具有显著影响(Ittycheriah等人,2002; Moldovan等人,2003; Hovy等人,2001;Mohasseb等人,2018年; Yilmaz和Toklu,2020年)。无论如何,问题分类有两个主要目标(Loni,2011)。从一个角度来看,它缩小了搜索空间的大小和答案的时间。例如,实现https://doi.org/10.1016/j.jksuci.2022.03.0151319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comA. Hamza,N.En-Nahnahi,A.El Mahdaouy等人沙特国王大学学报6584Fig. 1. 问答系统的流程图(Hamza等人, 2021年)。“灯是什么时候发明的是时间,QAS应该只提取包含时间类型的命名实体的候选段落。此外,QAS根据问题类别标签执行基于搜索模板的特定答案提取过程。这些模板帮助系统提取正确的答案。例如,表1给出了问题“人工智能的发明者是人类的类型对 于 阿 拉 伯 语 , 在 自 然 语 言 处 理 方 面 已 经 取 得 了 很 大 进 展( Aouichat 等 人 , 2018; Hamza 等 人 , 2021;Elnagar 等 人 , 2020;Alami等人,2019; Hamza等人, 2022年)。这图二. CNN字符嵌入模型的架构。是由于所使用的特征表示如词频逆文档频率TF-IDF和词嵌入的辨别能力(Mikolov等人,2013; Bojanowski等人,2017年)。后者是上下文无关的连续分布式单词表示,即使对于像阿拉伯语这样具有复杂形态的语言,也可以捕获单词之间的语义和句法关系。这些嵌入的一个主要问题是,一个多义词的所有意义共享一个单一的向量。最近,句子编码器(例如,来自变换器的双向编码器表示(BERT))在许多自然语言处理任务中实现了良好的性能(Devlin等人,2019年; Sun等人,2019年)。这些模型能够提供上下文单词表示,并产生更可行的问题(短句)嵌入。 尽管如此,这些表示在阿拉伯语问题分类任务中没有得到太多的关注。在本文中,我们建立了一个有效的阿拉伯语问题分类器的基础上BERT模型(Devlin等人, 2019年)。此外,我们还研究了基于BERT模型的混合阿拉伯语问题分类方法(Devlin等人,2019),语言模型嵌入(ELMo)(Peters et al.,2018),以及通过子词信息(W2V)丰富的词嵌入(Bojanowski等人, 2017; Grave等人,2018年)。相反,香草模型(没有任何类型的融合的标准模型我们按照三种方法计算问题嵌入:1)Vanilla模型,其中我们仅应用一个单词表示来构建问题嵌入; 2)基于级联的模型,其中我们组合由两个不同单词表示计算的同一问题的两个嵌入;以及3)bOOm单头神经融合模型,其中我们应用基于高级深度学习技术的最后,我们训练一个softmax分类器来识别问题标签,给出它们的嵌入。 BERT、ELMO和W2V的融合是合理的,原因如下:1)信息融合在提高各种系统的性能方面起着至关重要的作用(Singh等人,2019年; Zhang等人,2019; Shuang et al., 2020); 2)BERT和ELMo是上下文表示; 3)BERT被识别为自动编码器模型。此外,它由多头注意力组成,多头注意力是自我注意力的一种形式(Lin et al., 2017); 4)ELMo使用双向RNN(自回归模型)来计算上下文化的单词向量; 5)W2 V计算静态单词表示。我们相信,这些词表示的融合将产生有效的阿拉伯语问题嵌入。据我们所A. Hamza,N.En-Nahnahi,A.El Mahdaouy等人沙特国王大学学报6585图三. 所使用的ELMo模型的架构。知识,没有以前的工作提出了一个特征级融合模型,使用BERT,ELMo和W2V字表示的问题分类任务。我们的评估表明,我们的方法取得了可喜的成果,因为他们都优于以前的方法在阿拉伯语问题分类。这项工作的目标是双重的:建立一个有效的阿拉伯语问题分类方法,因为它直接影响问答系统的性能(Moldovan等人,2003),并研究了不同的词嵌入融合对阿拉伯问题分类的影响。因此,我们将这个目标分解为五点。- 寻求一个适当的上下文语义表示阿拉伯问题。由于阿拉伯语以其复杂而丰富的形态而闻名,表示问题仍然是一个具有挑战性的过程。- 使用Wordpiece模型和卷积神经网络(CNN)字符嵌入处理词汇表外的单词问题分类任务受到这个问题的困扰,因为问题是短文本,从词汇表中删除单词将消除问题中有价值的信息。见图4。BERT模型的体系结构。- 研究深度学习技术,从原始问题中自动提取有意义的特征。此外,这些技术使我们不需要语言规则和特征,如(词性,句法树,停止词删除,…. ).- 研究了两种特征级融合模型(基于级联的和bOOm单头神经融合),其中融合了在不同自然语言处理任务中达到现有技术水平的连续和分布式单词表示,包括BERT、ELMo和W2V,以构建有效的问题嵌入。- 进行广泛的实验和比较,以显示深度学习模型技术的有效性以及特征级融合对阿拉伯语问题分类的影响。本文的其余部分组织如下:第2节给出了一个简短的概述不同的融合技术和以前的作品阿拉伯语问题分类;第3节介绍了建议的融合模型;第4节总结了实验结果;最后,第5节总结并提出了未来的工作。2. 相关工作在本节中,我们首先总结了与阿拉伯语问题分类相关的最重要的工作,然后我们综述了现有的不同融合技术。2.1. Arabic question classification相关工作近年来,阿拉伯语问句分类越来越受到研究界的关注。这些研究中的一个共同主题是在两种方法之间进行选择:基于规则的方法和基于学习的方法。基于规则的方法需要语言学的专门知识来建立问题分类规则。然而,自然语言的模糊性使得归纳这些规则很困难,需要费力的手工工作。这些规则是数据特定的,并且几乎不可扩展,因此它们的有效性依赖于有限的问题数据。在基于学习的方法中,专家的知识被一个特别的带注释的问题集合所取代。后来,这些问题被转-A. Hamza,N.En-Nahnahi,A.El Mahdaouy等人沙特国王大学学报6586表1阿拉伯语搜索模板及其英语翻译的示例英语翻译阿拉伯语搜索模板人工智能是由人工智能的发明者是表2阿拉伯语分类学。解释类形成有价值的特征,这些特征将被馈送到机器学习分类器中以执行问题分类。这种方法具有对各个区域具有更好的可兼容性的优点(Abdelnasser等人,2014)通过采用基于学习的方法对与古兰经有关的问题进行分类。首先,他们基于命名实体类别构建了一个新的分类法。然后,他们训练一个支持向量机(SVM)分类器,将问题表示为一组术语,其中每个术语由一个词干和一个词性标签组成。他们的数据集包含180个训练问题和50个测试问题。他们使用3倍交叉验证获得了77.2%的准确度。Chalabi等人(2015)提出了一种基于阿拉伯语语法规则的阿拉伯语问题分类器。这些规则是使用NOOJ工具1构建的。该分类器在200个问题上进行了训练,并在200个问题上进行了测试,总体结果是93%的召回率和100%的准确率。Ahmed等人(2016)将TF-IDF项加权技术与SVM或MultinomialNaive Bayes分类器联合应用。分类器接受了300个阿拉伯问题的训练,200个问题准确率、召回率和F1测度分别为100%、94%和97%。Hasan和Zakaria(2016)采用了一种混合方法,构建了一个基于模式匹配和SVM分类器的阿拉伯语问题分类系统。该系统涉及三个主要类别“什么”、“在哪里”和“谁”。使用阿拉伯语WordNet扩展问题,其中TF-IDF方法用于代表问题。他们对包含200个问题的数据集进行了10次交叉验证。他们的实验结果在“什么”,“哪里”和“谁”的F-测量值分别为83.6%,84.6%和95.2%Aouichat等人(2018)结合卷积神经网络(CNN)和SVM设计了一个阿拉伯语问题分类系统。为了将问题分类到它们的粗类中,他们首先应用TF- IDF方法来表示问题,然后根据这些特征训练SVM分类器。在使用SVM分类器获得粗类之后,使用词嵌入来他们的数据集包含3840个阿拉伯语问题,整个系统的准确率为82%。Momtazi(2018)建立了一种监督方法来对基于社区的问答中的问题进行分类。首先,他们应用潜在Dirichlet分配来执行无监督主题建模。接着,使用提取的主题的混合物对问题进行分类。该数据集是从德国和波斯的社交论坛上抓取的。一组2800个波斯语问题和1000个德语问题由三个人工注释器进行注释。他们在波斯和德国数据集上分别获得了69%和43%的宏观f-测量。Mohasseb等人(2018)根据语法结构对不同类型的问题进行了分析。他们提出了一个基于语法的问题分类框架(GQCC)。他们应用形式语法方法将问题转化为语法模式。然后训练机器学习算法来对这些问题模式进行分类。该数据集由5000个随机标记的问题组成第1http://www.nooj-association.org/选自雅虎非事实问题,TREC 2007问题分类数据和维基百科数据集。验证和实验集分别包含200和1160个问题。他们用J48算法记录了88.5%的最好分数Hamza et al.(2021)从阿拉伯语言规则中获得灵感,提出了一种新的阿拉伯问题分类法(表2)。他们采用连续分布的词向量,并通过子词信息来表示阿拉伯语问题。这些特征被用来训练各种分类器。该数据集包括1041个用于训练的问题和261个用于测试的问题。在他们的实验中,他们首先通过对SVM分类器应用5倍交叉验证来比较阿拉伯分类法与LiRoth分类法Li et al.(2002)。接下来,他们训练了一组众所周知的分类器,包括SVM,XGBoost,MLP,Naive Bayes和Logistic回归。最好的性能记录由SVM分类器与阿拉伯语分类法相结合,其中它实现了90%的准确率,91%的精度,90%的召回率和90%的F1测量。我们相信,所有这些相关的工作都有助于提高阿拉伯语问题分类任务。然而,仍然存在许多相当大的缺点:1)以前的研究使用较小的数据集来训练他们的阿拉伯语问题分类器,这影响了他们的模型的泛化能力; 2)TF-IDF表示无法捕获单词之间的语义和句法关系。此外,它会导致巨大而稀疏的特征向量; 3)预先训练的单词嵌入没有考虑上下文,也没有考虑多义词; 4)最后,所有讨论的研究都没有处理词汇表外(OOV)单词。因此,在训练过程中看不见的单词是错误的。在目前的工作中,我们的目标是处理所有这些shortcoming- ings结合最近的上下文表示与perfor-OOO V字处理程序。2.2. 问题分类在多个研究领域(生物识别(Singh等人,2019年),视觉问题分类(张等人,2019),问题分类(Shuang et al.,2020))信息融合在增强不同系统的性能方面做出了重大贡献。请注意,根据研究领域,融合可以在不同的层次上进行整合。例如,在生物识别系统中,融合可以包括在传感器级别、特征级别、分数级别、排名级别或决策级别中。在视觉问题分类系统和问题分类的情况下,融合在特征级与多种方法(例如简单向量算子和神经融合)结合。特别是,Shuang et al.(2020)提出了一种多原型融合来处理静态词嵌入的多义无意识和任务无意识问题。由于一个词可能出现在不同的语境中,他们为这个词创造了多个原型。然后,他们训练了一个神经网络,根据上下文和特定任务选择最合适的原型。然而,作者没有处理OOV词。在Liu等人的其他工作中。(2018),作者将他们改进的TF-IDF特征与词向量特征融合在一起,以表示人类、群体实体、动物、. . 状态、结构地点时间数字是/否A. Hamza,N.En-Nahnahi,A.El Mahdaouy等人沙特国王大学学报6587222ð - Þ..ΣΣhω ωi- -¼ðþÞ表3使用词段模型分割问题的示例。问题巴克沃尔特音译mA hw AlEAm Al*y nAl fyh twmAs mAn jA}zp nwbl?分词[客户端]巴克沃尔特音译[mA,hw,AlEAm,Al*y,nAl,fyh,twmAs,mA,##n,jA,##}zp,nwbl,?]文件准确。首先,通过改进的TF-IDF算法计算文本的词权重。接下来,他们训练了一个神经词向量模型来获得词向量。最后,文档表示是加权词向量的和。这种组合不考虑上下文信息,因为它应用TF-IDF和词向量Mikolov et al.(2013,)表示。我们应该提到的是,在这项工作中,我们融合不同的词表示以下两种类型的特征级融合,包括- ING向量运算符和神经融合。我们通过应用考虑词上下文的词表示来处理多义无意识问题,并且我们通过采用微调词表示方法来处理任务无意识问题,该方法根据特定任务优化神经网络的权重。此外,OOV使用CNN嵌入和词段模型来管理。3. 方法我们的主要贡献在于根据两种选择来构建阿拉伯问题分类器:1)仅应用一种上下文词表示(BERT,AraBERT,ELMo)将问题映射到向量空间。然后,问题向量用于在问题分类任务上训练软最大分类器; 2)微调模型(AraBERT,BERT)与基于特征的模型(ELMo,W2 V)的模型级融合。问题被并行地馈送到微调模型和基于特征的模型以计算问题嵌入。我们使用词段模型分割问题,并使用上下文表示AraBERT或BERT计算问题嵌入。同时,我们使用ELMo或W2V计算词向量,并应用递归神经层来获得问题嵌入。通过融合这两个并行过程产生的嵌入得到的特征向量。提出了两种融合模型:级联和bOOm单头神经元融合。对于分类,我们添加了一个softmax层来获取每个问题类标签的概率。下面的小节描述了我们的方法的所有步骤。3.1. 词段模型词段模型基于子词单元方法(Schuster et al.,2012; Wu等人,2016年)。该模型在大型语料库上进行训练,通过最大化语料库(训练数据)的语言模型似然性来选择给定的K个词段数这种方法完全是数据驱动的,独立于语言,并为任何可能的问题产生分割。我们应用了与论文中提出的相同的模型(Devlin等人,2019年),该公司在包括阿拉伯语和英语在内的104种不同语言的大型语料库上进行了预培训。表3示出了问题及其对应的词段分段的示例,其中##字符表示词段的分割。3.2. CNN字符嵌入最近,参考文献的作者(Heilbron等人,2020)证实了单词上下文增强了早期视觉皮层中单个字母的神经表征。 这在NLP方法中应用过,即CNN字符感知嵌入(Kim等人,2016年),旨在基于其字符提取单词表示。设jVj为字符总数,m为字符嵌入的维数,ARm×jVj为矩阵字符嵌入。假设一个词w由一个n个字符的序列½v 1;.. . ;v n],其字符嵌入可以用矩阵Bw2Rm×n表示,其中每列表示一个字符。为了获得特征图gwRn-jl,将非线性应用于被添加到特征图gwRn-jl之间的卷积的偏置。Bw和一个宽度为j的滤波器FRm×j。gw的第i个元素由下式给出:gw½i]¼tanhBw½ω;i:ij-1];Fb1其中Bw ;i:iJ1是i到(i:iJ1)B w的第-列,以及是Forbenius内积。为了捕捉最显著的特征,我们采用最大时间(Kim等人, 2014年度)yw<$maxgw<$i]2当应用于单词w时,与F相关的特征。接下来,我们应用多个可变宽度的过滤器来获得单词w的特征向量yw。最后,y w被馈送到高速公路网络(Srivastava等人,2015年,信息畅通无阻。高速公路层计算其输出z如下:ztfWFybF1-ty3其中f是非线性,tr WT y bT称为变换门,1 t称为进位门。这种方法更适合于形态丰富的阿拉伯语,因为它利用了子词信息。此外,OOV词可以很容易地处理这个字符级的方法。3.3. 具有子词信息的具有子词信息的丰富的词向量通过训练神经网络来计算词表示,该神经网络在给定该词及其字符嵌入的情况下预测词的上下文。因此,词嵌入是其字符n-gram的总和。我们应用在(Grave等人, 2018年)。这些表示在各种NLP应用中都是有效的。然而,它计算一个静态的单词表示,在推理过程中不考虑单词上下文3.4. 语言模型ELMo已经证明对各种自然语言处理任务非常有效(Peters等人,2018年)。它计算上下文敏感的表示,捕捉高度可转移和任务不可知的语言属性(刘等人,2019年)。这些表示是通过训练语言模型获得的我A. Hamza,N.En-Nahnahi,A.El Mahdaouy等人沙特国王大学学报6588k;jLJk;jK03k;jC特征融合采用两种方法:1)级联-基于LSTM的大型语料库网络。网络的输入是词在corpora中的CNN字符嵌入的输出。更明确地说,ELMo单词表示是通过将L个隐藏层hLM与sj和c相加和缩放来计算的,W2V和ELMo分别是基于多层感知器和自回归模型(LSTM)的无监督基于特征的方法。而BERT是一种基于自编码器模型(双向Transformer)的微调方法。Elmo1/4cXshLMj¼0ð4Þ3.6. 特征级融合网络的隐藏层是一组级联的BiLSTM,其中第一个表示hk计算为2)bOOm One Head Neural fusion。3.6.1. 级联hL MBiLST ML M。hL M;z1;. . . ;znð5Þ在这个向量算子融合中,我们构建了问题嵌入-通过将单词的ELMo表示传递给其中zk是单词k的CNN字符嵌入,其对应于sponds tohLM和hLM是层的初始隐藏状态门控递归单元(GRU)层,并获取最后一个隐藏状态的输出。因此,这执行单词级功能k;0 0在这项工作中,我们使用了预训练的ELMo表示2,这些表示是在从阿拉伯语原始文本随机采样的2000万字数据上训练的(Che等人,2018年)。该模型的架构由两个堆叠的BiLSTM层组成,训练在NVIDIAP100 GPU上进行了3天在问题分类器训练阶段,ELMo表示保持静态,即,我们此外,我们省略了逐层注意力得分sj以及比例因子c。最后,我们计算ELMo表示-将输出层的平均值作为2通过句子融合。ELM oquestion<$GR U ELM ok1;. . . ;ELMokn2007年7月其中k1和kn是问题中的第一个单词和单词编号n。同时,在BERT端,我们通过特殊令牌[CLS]的嵌入来表示问题。BERTquestion<$BERT½CLS]108问题嵌入计算为ELMo的串联BERT表示ELMok¼1XhLMj¼0ð6Þpquestion[问题]ELMoquestion[问题]其中p问题是问题嵌入。我们应用相同的我们应该强调的是,这个模型产生了更合适的表示多义词,这可能会导致更好的句子嵌入。3.5. 伯特BERT及其亲缘关系(Liu et al.,2019年; Yang等人,2019年)已经在几个下游NLP任务上实现了最先进的性能。该模型基于公知的Transformer模型(Vaswani等人,2017年,我们将不会详细调查。BERT的输入是由词段模型产生的一系列标记.特殊字符[CLS]添加在每个序列的开头。隐藏层是一组双向Transformer层(Vaswani等人,2017),并且预训练使用两个目标:1)掩蔽语言模型(MLM)由完形填空程序(Taylor,1953)激活,从输入标记中选择15%的任意样本用于可想象的替换。在选择的令牌中,80%被例外令牌[MASK]取代,10%被随机Wordpiece令牌替换,10%保持不变。MLM目标函数是预测掩码标记的交叉熵损失; 2)下一句预测(NSP)如果两个片段在原始语料库中彼此跟随,则模型以二进制分类的方式学习。我们使用两个预训练的BERT权重:1)多语言预训练,Google Research3发布的训练BERT。每种语言的整个Wikipedia转储被用作每种语言的训练数据该模型由12个双向Transformer层组成,每层768个隐藏单元,12个注意头,有110 M个参数。预训练在4到16个云TPU上进行了四天; 2)AraBERT(Antoun等人, 2020年)在21 GB的3.7B令牌阿拉伯语语料库上训练。输入的句子由Farasa Segmenter分割(Darwish等人, 2016),然后应用单词片段模型。将BERT与W2V连接的上述过程,用W2V字嵌入替换ELMo字嵌入3.6.2. bOOm单头神经(3OHN)融合在这种神经融合架构中,我们通过在ELMo词嵌入之上应用GRU来计算ELMo问题嵌入ELMo问题,因此,ELMo问题是一个矩阵,它包含问题中单词的ELMo以类似的方式,BERT问题表示是包含问题标记的BERT表示的矩阵,问题标记包括特殊标记[CLS]。这两个矩阵被连接,然后被馈送到一个头部注意力层(Vaswani等人,2017年),它不仅对BERT代币而且对ELMo单词应用了自我注意力。因此,由一个头部注意力计算的[CLS]令牌考虑BERT和ELMo表示。此令牌被添加到BERT模型生成的[CLS]令牌中。然后,我们应用bOOm融合层(Merity,2019)而不是密集层,以最大限度地减少计算并省略参数矩阵。最后一个问题嵌入是来自bOOm融合层的结果向量添加到BERT模型计算的[CLS]令牌的嵌入。图5示出了所提出的架构。 在BERT和W2V特征融合的情况下,我们用W2V嵌入代替ELMo嵌入。3.7. 分类在通过基于vanilla和fusion的模型计算问题表示之后,我们添加了一个具有类别交叉熵损失的softmax分类器来训练整个模型。后者最小化了以下公式:0esp1CCElogB10BERT模型、ELMo和W2V的不同性质启发我们将它们结合起来用于阿拉伯语问题分类。实际上,B@XCJesjCAÞ2https://github.com/HIT-SCIR/ELMoForManyLangs3https://github.com/google-research/bert其中CCE是分类交叉熵损失,s p是模型得分对于正类标签,sj是类标签j的得分,C是KK¼-A. Hamza,N.En-Nahnahi,A.El Mahdaouy等人沙特国王大学学报6589图五. bOOm单头神经融合模型。见图6。 数据集在阿拉伯语分类中的分布。见图7。 数据集在修改后的Li Roth分类法上的分布。见图8。问题长度分布。类别标签的总数。必须指出的是,在训练过程中,ELMo参数是冻结的,而BERT参数是微调的.4. 实验结果4.1. 数据集在这项工作中使用的数据集是在(Hamza等人,2021年)。它包括从TREC4(1503个问题),CLEF5(800个问题)和摩洛哥学校教科书(870个问题)中收集的3173个问题。TREC和CLEF问题-第http://trec.nist.gov/http://www.clef-initiative.eu/A. Hamza,N.En-Nahnahi,A.El Mahdaouy等人沙特国王大学学报表46590所获得的结果香草模型的基础上,阿拉伯分类。宏观平均数准确度%精密度%召回率%F1评分%精密度%召回率%F1评分%香草阿拉伯语AraBERT94.20 ± 0.6994.05 ± 0.6293.62 ± 1.4593.76 ± 1.0194.25 ± 0.6894.20 ± 0.6994.19 ± 0.69香草阿拉伯BERT92.25 ± 1.2392.62 ± 0.6991.54 ± 1.9491.90 ± 1.3592.41 ± 1.2092.25 ± 1.2392.24 ± 1.24香草阿拉伯语ELMo90.20 ± 1.2490.93 ± 1.3989.10 ± 1.1989.90 ± 1.2990.35 ± 1.2190.20 ± 1.2490.19 ± 1.23香草阿拉伯语W2V85.31 ± 1.7887.84 ± 1.5482.00 ± 2.0384.36 ± 1.8285.93 ± 1.4785.31 ± 1.7885.22 ± 1.75表5基于Li Roth分类法的香草模型的结果宏观平均数准确度%精密度%召回率%F1评分%精密度%召回率%F1评分%香草粗粒AraBERT93.48 ± 0.9792.09 ± 3.5388.56 ± 4.3589.52 ± 4.0693.52 ± 0.9893.48 ± 0.9793.44 ± 1.03香草粗BERT91.40 ± 1.3888.98 ± 3.2987.03 ± 2.4487.71 ± 2.4091.50 ± 1.3191.40 ± 1.3891.40 ± 1.35香草粗粒ELMo86.35 ± 1.3574.52 ± 1.3074.55 ± 1.2774.46 ± 1.3485.93 ± 1.3586.35 ± 1.3586.05 ± 1.42香草粗粒W2V78.92 ± 2.6769.01 ± 2.0367.44 ± 2.5367.85 ± 2.3978.71 ± 2.4678.92 ± 2.6778.35 ± 2.69表6基于阿拉伯语分类法的级联模型所获得的结果宏观平均加权平均准确度%精密度%召回率%F1评分%精密度%召回率%F1评分%阿拉伯语联系人AraBERT_ELMo93.82 ± 0.7094.12 ± 1.0993.16 ± 1.4593.52 ± 1.0493.91 ± 0.6793.82 ± 0.7093.82 ± 0.69阿拉伯语联系人BERT_ELMo92.34 ± 1.0592.68 ± 0.6891.72 ± 1.4592.11 ± 1.0092.45 ± 0.9892.34 ± 1.0592.35 ± 1.04阿拉伯语concat AraBERT_W2V94.17 ± 0.7994.34 ± 1.1193.51 ± 1.5193.79 ± 1.0294.28 ± 0.7794.17 ± 0.7994.16 ± 0.78阿拉伯语concat BERT_W2V92.06 ± 0.8192.34 ± 1.0491.51 ± 1.2991.82 ± 1.0592.20 ± 0.7392.06 ± 0.8192.06 ± 0.79表7基于Li Roth分类法的级联模型的结果宏观平均加权平均准确度%精密度%召回率%F1评分%精密度%召回率%F1评分%AraBERT_ELMo93.51 ± 1.0589.89 ± 5.2986.53 ± 3.3187.65 ± 3.8893.40 ±1.0893.51 ± 1.0593.40 ±1.04BERT_ELMo粗精矿91.77 ± 1.1290.55 ± 2.4586.58 ± 2.8687.41 ± 2.3091.93 ± 1.0591.77 ± 1.1291.75 ± 1.12AraBERT_W2V粗浓缩液93.51 ± 0.8292.19 ± 3.0189.81 ± 3.3490.67 ± 3.0193.55 ± 0.8393.51 ± 0.8293.49 ± 0.84粗浓度BERT_W2V90.70 ± 2.1689.08 ± 2.9685.41 ± 2.5586.70 ± 2.2490.85 ± 2.1290.70 ± 2.1690.72 ± 2.16由(Abouenour等,2013年),而摩洛哥学校教科书的问题是由两位专家提取和编写的(Hamza等人,2021年)。每个问题都由一位专家根据 两 种 不 同 的 分 类 法 进 行 注 释 : 阿 拉 伯 分 类 法 ( Hamza 等 人 ,2021),其包括7个类,以及Li &Roth分类法的修改的粗类(Hamza等人, 2021年,共有7个班级。图6和图7描述了该数据集在两个分类上的分布。我们应该注意到,这两个分类的分布是不平衡的。为了描述数据集,我们绘制了问题长度(问题中的单词数量)分布(图8)。观察到的问题长度的平均值、中位数和标准差分别为6: 63、 6和2: 88。而只有25%的问题长度大于8。4.2. 实验设置如图6和图7所示,数据集不平衡。因此,为了更好地评估,我们应用分层5倍交叉验证,并采用以下指标来评估所提出的方法:1)准确性,2)宏观精度,3)宏观召回,4)宏观F1评分,5)加权精度,6)加权召回,和7)加权F1评分。我们使用Adam优化器来最小化期望的类标签和预测的类标签之间的分类交叉熵损失,该优化器应用预热和权重衰减。在训练阶段,我们将epoch的数量固定为11,批次大小为32。我们所有的实验都是使用Tensorflow 2.0和keras-bert 6python库(Abadiet al. , 2016; Abadi 等 人 , 2016 ) , 并 在 Google collaboratoryenvironment 7提供的免费GPU上进行。4.3. 我们提出的问题分类我们测试了基于三种类型的问题表示的各种问题分类器,包括1)情境化和无监督微调模型,即,AraBERT和BERT; 2)上下文化和无监督的基于特征的模型,称为ELMo; 3)静态和无监督的基于特征的模型,称为具有子词信息的丰富词向量W2 V。首先,我们评估香草分类器的基础上,这些representations,没有任何类型的功能融合。AraBERT和BERT将问题表示为特殊标记[CLS]的嵌入,而基于ELMo和W2V的分类器将问题表示为在计算的单词嵌入之上应用的GRU层的最后隐藏状态。表4和表5显示了两种分类法(阿拉伯语和Li Roth)的结果。的6https://github.com/CyberZHG/keras-bert7https://colab.research.google.com/A. Hamza,N.En-Nahnahi,A.El Mahdaouy等人沙特国王大学学报表86591基于阿拉伯分类学的3OHN模型的结果宏观平均加权平均准确度%精密度%召回率%F1评分%精密度%召回率%F1评分%3OH阿拉伯语AraBERT_ELMo93.51 ± 0.9593.59 ± 1.0092.76 ± 1.4693.02 ± 0.8093.61 ± 0.9293.51 ± 0.9593.49 ±0.923OH阿拉伯语BERT_ELMo91.46 ± 1.8192.47 ± 0.9290.65 ± 2.0591.37 ± 1.4491.76 ± 1.5291.46 ± 1.8191.46 ± 1.813OH阿拉伯语AraBERT_W2V93.98 ± 0.8294.46 ± 0.9393.30 ± 1.5493.72 ± 1.0794.11 ± 0.7793.98 ± 0.8293.97 ± 0.833OH阿拉伯语BERT_W2V91.30 ± 0.9287.91 ± 3.0585.39 ± 1.0286.22 ± 1.4591.57 ± 0.9191.30 ± 0.9291.36 ±0.92表9基于Li Roth分类的3OHN模型的结果宏观平均加权平均准确度%精密度%召回率%F1评分%精密度%召回率%F1评分%3OH粗AraBERT_ELMo93.38 ± 1.3289.93 ± 3.3188.43 ± 2.7689.06 ± 2.9493.44 ± 1.3493.38 ± 1.3293.39 ± 1.333OH粗BERT_ELMo91.30 ± 0.9287.91 ± 3.0585.39 ± 1.0286.22 ± 1.4591.57 ± 0.9191.30 ± 0.9291.36 ±0.923OH粗AraBERT_W2V92.94 ± 1.0790.50 ± 4.0486.16 ± 2.8887.43 ± 3.0192.98 ± 1.1392.94 ± 1.0792.89 ±1.073OH粗BERT_W2V91.30 ± 0.61
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功