没有合适的资源?快使用搜索试试~ 我知道了~
阿拉伯文本多类分类中基于ArabBERT模型的上下文语义嵌入应用
沙特国王大学学报基于ArabBERT模型的上下文语义嵌入在阿拉伯文本多类分类中的应用Alma-zahra El-Alamia,Said Ouatik El Alaouia,b,Noureddine En Nahnahia摩洛哥非斯西迪·穆罕默德·本·阿卜杜拉大学信息学、信号、自动和认知主义实验室b摩洛哥凯尼特拉伊本·托费尔大学国家应用科学学院工程科学实验室阿提奇莱因福奥文章历史记录:收到2020年2021年1月13日修订2021年2月6日接受在线预订2021年保留字:自然语言处理阿拉伯语文本分类句子嵌入BERTAraBERT微调深度神经网络A B S T R A C T尽管预先训练的词嵌入模型已经推进了广泛的自然语言处理应用,但它们忽略了文本中的上下文信息和含义。在 本 文 中 , 我 们 研 究 了 预 训 练 的 阿 拉 伯 语 BERT ( Bidirectional Encoder Representations fromTransformers)模型学习通用上下文语句表示的潜力我们提出了两种不同的方式,迁移学习模型和特征提取器,利用预先训练的AraBERT的上下文文本表示学习一方面,我们采用阿拉伯语BERT(AraBERT)模型在OSAC数据集上微调其参数后,将其知识传递给阿拉伯语文本分类。另一方面,我们探讨了AraBERT的性能,作为一个特征提取器模型,通过将其与几个分类器,包括CNN,LSTM,Bi-LSTM,MLP和SVM相结合。最后,我们进行了一组详尽的实验,比较两个BERT模型,即AraBERT和多语言BERT。研究结果表明,经过微调的AraBERT模型实现了最先进的性能结果,在F1得分和准确性方面达到了99%。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着自 然语言处理 (NLP )技术 的突破,阿 拉伯语文本 分类(ATC)成为一个非常活跃的研究领域。事实上,阿拉伯语的屈折和派生性质使其分析更加复杂。ATC任务的主要思想是根据阿拉伯语文本的内容为其分配预定义的类别。文本表征是ATC系统的一个重要环节,对ATC系统的性能有着重要的影响.已经提出了广泛的阿拉伯语文本表示方法。例如,基于词袋(Bag-Of-Words,BOW)表示的传统文本建模(Moh'd Mesleh,2011; Hmeidi等人,2015年)达到了最先进的水平,*通讯作者。电子邮件地址:usmba.ac.ma(法文)z.阿拉米),瓦蒂克-uit.ac.ma维。OuatikEl Alaoui),noureddine. usmba.ac.ma(N.En Nahnahi).沙特国王大学负责同行审查制作和主办:Elsevier在NLP领域。然而,它存在着“维度诅咒”和不同文本单位之间缺乏语义联系的问题.预先训练的单词嵌入模型,例如Word2vec(Mikolov等人,2013)、Doc2vec(Le和Mikolov,2014)和Glove(Pennington等人,2014)已经成为文本分类和其他NLP任务的一组有效表示模型。这些在大型语料库上预先训练的模型旨在为文本建立连续的分布表示,并将单词表示为低维向量空间中的密集向量。虽然词嵌入已经被证明有很好的性能,但它没有考虑多个词之间的关系和句子内部的完整意义。短信了为举例来说,的两句子并且将具有基于词嵌入和BOW表示的相同表示,而它们的含义完全不同。为了解决上述问题,上下文嵌入模型已被证明是有效的学习通用的句子表示。这些预先训练的模型允许考虑单词上下文和句子的含义。例如,来自称为ELMo的语言模型的嵌入(Peters等人,2018)是一种动态语言建模技术,嵌入取决于上下文,即使单词是多义的。它在两个方向上结合了两个语言模型,形成了一个多层递归神经网络(RNN)。ULMFiThttps://doi.org/10.1016/j.jksuci.2021.02.0051319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comEl-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报8423(Howard和Ruder,2018)是一种从左到右的语言模型,它结合了几种微调技术来提高一些预训练模型(如ELMo)的性能。与ELMo采用的从左到右和从右到左模型的级联不同,BERT(Devlin et al.,2018)应用双向Transformer训练来生成更准确的单词表示。现有的BERT有三个处理阿拉伯语的版本,包括多语言BERT(mBERT)和两个版本的AraBERT。在本文中,我们首先将AraBERT作为预训练模型进行探索。然后,我们在文本分类任务上对其参数进行微调,以实现新的最先进的结果。我们的目标是处理最遇到的阿拉伯语的挑战,如文本分类的背景下的模糊性和复杂性。为此,我们采用了关键技术创新语言Ara-BERT建模.我们还研究了AraBERT模型作为具有各种分类器的特征提取器所获得的表示能够考虑文本内的上下文信息并捕获句子中的词之间的语义关系。据我们所知,没有现有的工作采用阿拉伯文文本多类分类的AraBERT。本工作的主要贡献如下:1. 我们提出了一个很有前途的ATC方法,使用上下文语义嵌入来解决阿拉伯语2. 我们通过探索两个变量来研究预训练的AraBERT。首先,在ATC任务中,我们对AraBERT其次,我们利用AraBERT作为一个特征提取模型合并了几个分类器。3. 我们评估了阿拉伯文文本分类的多语种对应部分的AraBERT性能。我们进行了几个比较实验,以展示微调的Ara-BERT模型实现了高性能。本文的其余部分组织如下。我们将在第二介绍相关的工作。第3详细描述了所提出的我们在第4节中介绍了我们的实验和结果。第五部分是结论和未来工作。2. 相关工作许多研究者提出了不同的技术和解决方案来处理阿拉伯语文本Moh结果表明了卡方测度的有效性。Hmeidi等人(2015)介绍了经典算法的比较研究,包括朴素贝叶斯,决策树和SVM。本研究考察了使用不同的阿拉伯语词干(如基于光和根的词干)对这些分类器实现所获得的结果表明,结合光词干提取器的SVM分类器的强准确性。提出了一种基于嵌入的阿拉伯语文本分类方法El Mahdaouy等人(2016)探索了词嵌入平均值和文档嵌入,包括Doc 2- vec和Glove,以生成文本表示,然后基于SVM分类器对其进行分类在同样的背景下,El-Alami和Alaoui(2018)提出了一种阿拉伯语文本分类方法基于Doc2vec和词义消歧(WSD)。将获得的文档表示馈送到多层感知器以分配到其预定义的类别。Word和文档嵌入方法实现了良好的性能。然而,使用词嵌入平均值来产生文档嵌入不能保持信息上下文。另一方面,Doc 2 vec更昂贵,因为单词组成可能会有所不同;因此很难拟合词汇表外(OOV)单词。由于卷积神经网络和递归神经网络的巨大流行性、有效性和从连续上下文窗口捕获局部映射以建模句子的能力,人们对它们的兴趣激增。CNN通过卷积过滤器和池化来强调不同句子位置的特征。而RNN允许处理任何长度的序列并捕获长期依赖关系。在这种情况下,Dahou et al.(2016)建议利用CNN进行阿拉伯语情感分析。他们将其建立在一个预先训练的阿拉伯语单词嵌入模型之上,该模型依赖于网络抓取的单词语料库。 作者在平衡和非平衡数据集上评估了他们的方法。在另一项工作中,Alayba et al.(2018)结合神经模型进行阿拉伯语情感分析。该网络架构由几个层组成:CNN、LSTM和全连接,使用不同的情感分类级别来处理特定阿拉伯语单词的形态多样性。在同一背景下,El-Alami et al. (2020)探索了CNN、LSTM及其组合,用于基于采用嵌入在阿拉伯语词网中的语义信息的改进技术的阿拉伯语文本分类。然而,对于CNN和LSTM,捕捉句子中单词之间关系的计算成本随着句子长度的增加而增加。最近的语言建模趋势是上下文嵌入模型,如ELMo,ULMFiT和BERT。这些模型表示单词和句子,考虑文本中的上下文信息。ElJundi等人(2019)使用ULMFiT结构和维基百科资源开发了一种通用语言模型(hULMonA)他们还评估了预先训练的多语言BERT在阿拉伯语发音方面的表现。最近,Antoun等人(2020)介绍了阿拉伯语的预训练Ara- BERT,该算法应用于几个自然语言理解任务,并与多语言伯特尽管阿拉伯语文本分类取得了这些新的进展,但由于阿拉伯语文本数据的复杂性和模糊性,处理阿拉伯语文本数据仍然具有挑战性,从而引发了诸如精确语义捕获等问题。在本文中,我们试图通过使用预训练的ArabBERT来处理所揭示的问题,然后微调其参数用于阿拉伯语多类分类。此外,我们将其性能与多语言BERT进行了比较。此外,我们探讨Ara-BERT作为一个特征提取模型。我们从两个方面证明了所提出的方法3. 该方法我们提出了一种基于上下文嵌入的阿拉伯语文本分类方法第一个是对AraBERT预训练模型进行探索,然后对其参数进行微调而第二种变体研究了结合几个神经网络分类器和SVM的AraBERT作为图 1说明了我们的系统的总体架构,包括几个步骤:文本预处理,预训练的AraBERT 微调和特征计算通过同一模型,最后,类别预测。El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报8424Fig. 1.阿拉伯文文本分类系统的总体架构。3.1. 文本预处理文本预处理包括以下几个步骤1. 删除标点符号,变音符号,非字母和非阿拉伯语单词。2. 将不同的,,(Alef)写作规范化为,并将(Teh Marbuta)替换为。3. 将数据转换为与微调的AraBERT模型相匹配的格式。它包括以下阶段:a) 我们首先应用令牌化将输入文本分解为令牌。表1给出了应用于示例句子的AraBERTv1和mBERT标记器的结果我们观察到AraBERTv1 标 记 器 更 适 合 阿 拉 伯 语 , 因 为 它 使 用 FarasaSegmenter(Abdelali et al.,2016),它考虑了阿拉伯语形态的特点;b) 然后,我们通过在每个文本的开头添加特殊的[CLS]标记,并在句子和结尾之间添加[SEP]标记,将每个文本转换为BERTc) 我们将每个标记映射到基于预训练的AraBERT词汇表的索引3.2. AraBERT微调AraBERT 是 一 个 基 于Vaswani 等 人 ( 2017 ) 实 现 的 多 层 双 向Transformer编码器。其主要思想是从未标记的文本中预训练深度双向表示,并从两个方向合并上下文,然后在下游任务中微调所有参数。它依赖于两个过程,包括掩蔽语言建模和下一句预测。表1两个版本BERT的标记化过程示例在这项工作中,我们探索了预训练的ArabBERT,并对其进行了微调,以用于阿拉伯语文本分类。为此,我们将微调后的AraBERT输出连接到涉及Softmax分类器的附加层,以预测文本类别。首先,我们将每个文本标记为N个标记,并在其开头添加[CLS]标记。之后,我们为每个标记生成一个输入表示Eii通过对对应于令牌的向量嵌入求和而构造,段,即,它属于哪一个句子,以及它的标记位置。然后,我们将Ei向量馈送到AraBERT,并使用语料库的标记数据对其参数进行如图2所示,我们将特殊[CLS]令牌的最终隐藏向量表示为h,将第i个输入令牌的最终隐藏向量表示为Ti。最后,我们将最终隐藏状态h作为整个文本的表示,并将其用作具有Softmax分类器的前馈层的输入,以获得预测输出类别c上的概率分布(Sun等人, 2019年):pcjh其中W是我们的任务特定参数矩阵。在微调过程中,来自AraBERT和W的所有参数都被联合训练,以最大化正确类别的对数概率。在下一小节中,我们将描述第二个变体,它将AraBERT作为特征提取模型进行研究。3.3. 用于特征提取的我们方法的第二种变体涉及作为特征提取器的AraBERT探索。它包括两个步骤:(1)从预先训练的AraBERT中提取固定特征;(2)将获得的特征输入分类器模型。3.3.1. 文本表示我们使用上下文预训练的AraBERT计算文本表示。其基本思想是将文本表示为固定长度的向量。因此,每个文本都被转换为768维向量嵌入,其中该向量的每个元素编码原始文本的隐式语义灵感来自肖句子AraBERTv1标记器mBERT分词器ﺃﺷﺎﺭﺳﻠﻴﻤﺎﻥﺍﻟﻰﺍﻥﺍﻟﺠﻬﺎﺯﺍﻟﻔﻨﻲﻗﺮﺭﺗﻘﻠﻴﻞﺍﻟﻔﺘﺮﺍﺕﺍﻟﺘﺪﺭﻳﺒﻴﺔ搜索结果搜索结果ﺍﺵ,#“图二、提出的用于ATC的微调AraBERT的流程图El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报8425图三. 基于预先训练的ArabBERT的基于数据库的方法。(2018),如图3所示,我们探索了Bert即服务技术,该技术从一个或多个层中提取激活,而无需微调AraBERT的任何参数。计算所有令牌的倒数第二个隐藏层的平均池化。获得的表示被用作各种分类器的输入,如CNN,LSTM,BiLSTM,MLP和SVM。我们采用的基于特征的方法有一个主要的优点,这是降低分类算法的复杂性,通过预先计算文本表示,然后建立低成本的模型上获得的向量。3.3.2. 文本分类从上述过程中得到的上下文嵌入向量被馈送到几个分类器,包括CNN,LSTM,BiLSTM,MLP和SVM。CNN:我们构建了一个1D卷积网络,其中第一层是卷积层,包括不同的参数,因为过滤器大小固定为64。这些特征检测器在文本表示矩阵中传递,以利用ReLU函数识别特定特征。卷积的结果被合并,然后传递到一个完全连接的层。之后,我们使用drop-out来防止过拟合,并将其分数增加到0.5.最后,在输出层中使用Softmax函数将文本分类到预定义的类别中。LSTM:我们构造一个包含100个单元的隐藏层的LSTM。作为输入,我们提供包含嵌入向量的表示矩阵。辍学率固定为0.5.然后,前一层的结果向量被馈送到一个完全连接的网络。最后,使用Softmax层来获得适当的类别。BiLSTM:我们在获得的文本表示上训练双向LSTM模型。构建的BiLSTM网络的第一个隐藏层包含100个记忆单元。为了避免过拟合问题,我们采用dropout并将其参数固定为0.5。然后,将输出的向量连接到全连接层。最后,将得到的特征馈送到输出层以预测文本类别。MLP:在这个模型中,我们构建了一个MLP分类器,它将嵌入矩阵作为输入。它依赖于一个底层神经网络,包含100个隐藏层,每个层有50个节点。我们在最后一层执行Adam优化器和Softmax函数,从前一层接收输入特征向量来分类文本。SVM:我们训练一个SVM,采用径向基函数核来映射所获得的文本表示空间在一个无限的,维度空间基于SVM的体系结构预测文本类别使用的伽玛参数值为0.01,并设置- ting的惩罚参数值为1000。4. 实验和结果我们进行了几个实验,以评估所提出的阿拉伯文文本分类方法。我们利用OSAC(Saad和Ashour,2010),包括三个不同大小的数据集。对于所有实验,80%的数据用于训练,20%用于测试。我们使用AraBERT模型(Antounet al.,2020年),这是预先训练的7000万个阿拉伯语句子,对应于24 GB的文本配置。它有12个编码器块,768个隐藏维度,12个注意头,512个最大序列长度,总共110 M个参数。我们探索两个版本的AraBERT模型:AraBERTv0.1和AraBERTv1。因此,我们针对预训练的多语言BERT来评估AraBERT(Devlin等人,2018年)。后者是在104种语言上进行的案例和训练,这些语言是它使用12层,768隐藏,12头和110 M参数。4.1. OSAC数据集开源阿拉伯语语料库(OSAC)是用于文本分类的大型标准数据集(Saad and Ashour 2010)。它由不同的语料库组成,包括BBC,CNN和OSAc。数据集统计数据如表2所示,根据文档数量的类别分布如图2所示。 四、4.2. 讨论我们已经进行了大量的实验,以显示从预训练模型BERT中使用迁移学习对阿拉伯语文本分类的影响。首先,通过实验研究了不同参数下的BERT模型的应用。表2OSAC数据集统计。数据集类别数样本数目字数关键词数量CNN65.0702.241.348144.460BBC74.7631.860.786106.733OSAC1022.42918.183.511449.600El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报8426¼-1/42见图4。OSAC中的类别分布根据文档编号。输入OSAC数据集。我们探索了两个版本的预训练Ara-BERT模型,包括AraBERTv0.1和AraBERTv 1,并针对mBERT模型对其进行了评估。我们使用分类准确度来衡量我们模型的性能。它是正确预测的标签与测试数据集总数的比率。从形式上讲,因此,与多语言模型相比,阿拉伯语模型允许大约5%的关于CNN数据集,最好和最差的结果由微调的AraBERT模型报告,准确率为95%,F1得分为99%,mBERT模型的准确率为72%,F1得分为99%事实上,经过微调的AraBERT模型可以使CNN数据集的分类结果提高近23%准确度TPTPTNFPFNð2Þ总体而言,微调的AraBERT模型优于微调的mBERT。这可以通过以下事实来解释:此外,由于类是高度不平衡的,我们利用F1分数的措施,更好地代表在这种情况下的性能。它的定义如下:模型仅在阿拉伯语上进行预训练此外,与mBERT相比,它们使用大数据和词汇,导致单词多样性。在我们研究的第二阶段,我们的目标是回答以下问题-F1评分TPTP1FPFNð3Þ问题:结合上下文嵌入是否提高阿拉伯语文本分类性能?为此,我们根据基线TP:真阳性(分类器正确分类的样本)TN:真阴性(分类器已正确分类为阴性的样本);FP:假阳性(分类器已错误分类为阳性的样本);FN:假阴性(分类器已错误分类为阴性的样本)。表3报告了微调BERT模型在准确性和F1分数方面的结果。对于BBC数据集,所有模型产生接近的结果,在99%和99.5%之间变化。对于OSAc语料库,可以注意到,基于AraBERTv0.1和AraBERTv1,微调的mBERT获得了近94%的准确度和F1分数,而微调的AraBERT达到了99%包括TFIDF_SVM、LSA_SVM、Word2vec_SVM、Doc2vec_SVM、Doc2vec_MLP、LSTM和BiLSTM。⬛ TFIDF_SVM:我们在Bag-Of-Words上使用了文本预处理和Khoja词干提取器。然后,我们计算基于词频逆文档频率(TFIDF)的文本表示。这些后者被馈送到SVM分类器。⬛ LSA_SVM:我们探索潜在语义分析(LSA)方法来生成文本特征。每个文本都被转换为包含1200个特征的矢量。然后,使用SVM对它们进行分类。表3我们的第一种方法使用微调的AraBERTv1和AraBERTv0.1与OSAC上的微调mBERT数据集微调的AraBERTv1微调的AraBERTv0.1微调的mBERT准确度(%)F1评分(%)准确度(%)F1评分(%)准确度(%)F1评分(%)BBC99.59999.49999.399OSAC99.299999993.694CNN95.69995.899.271.971El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报8427表4所提出的方法与OSAc的基线模型模型准确度(%)F1评分(%)BiLSTM9393LSTM9191Doc2vec_MLP9090LSA_SVM9091Doc2vec_SVM8989TFIDF_SVM8888Word2vec_SVM7273建议的微调ArabERTv0.19999建议微调的ArabERTv199.299⬛ Word2vec_SVM:我们根据词嵌入的平均值来训练文本表示。我们利用参考文献(Grave et al.,2018年)。然后,我们将SVM分类器应用于所得的表示向量。⬛ Doc2vec_SVM:我们在OSAc上训练Doc2vec模型来生成文本向量。每个矢量由300维表示。之后,这些表示被馈送到SVM。⬛ Doc2vec_MLP:我们使用El-Alami和El Alaoui(2018)中实现的模型。我们建立了一个分类系统,使用词义表示,文档嵌入和词义消歧。所获得的表示被馈送到MLP网络。⬛ LSTM:我们在参考文献(Grave et al.,2018年)。生成的要素将传递到完全连接的层。然后,所生成的表示被用作分类过程的输入以预测文本类别。⬛ BiLSTM:我们为BiLSTM提供文本表示,其中100个单元在单词嵌入模型的顶部进行训练(Graveet al.,2018年)。后者连接到一个完全连接的层。来自前一层的结果向量被馈送到分类器。在训练过程中,我们最小化交叉熵误差并应用Adam优化器。图五、微调的AraBERT模型与CNN数据集上的ULMFiT和表4报告了微调的AraBERT模型和基线的准确性和F1分数结果。我们注意到,两个微调的AraBERT击败了所有的基线。微调后的Ara-BERT模型在精度和F1得分方面比经典TFIDF_SVM方法高出11%。它们也超过Doc 2- vec_SVM 10%和Doc2vec_MLP 9%。此外,微调后的AraBERT模型优于LSA_SVM模型,后者分别仅达到90%和91%的准确度和F1得分因此,我们注意到我们的模型增强了9%。相反,Word2vec _SVM获得最低的准确度,即,与其他基线相比,F1评分为73%。微调后的AraBERT模型也优于LSTM 和BiLSTM模型。这并不奇怪,这两个微调的AraBERT模型accomp-plish最好的性能,因为他们结合了从两个方向的上下文。在第三阶段,为了展示同时采用左右上下文的优势,我们进行了进一步的实验,将微调后的AraBERT与ELMo和UMLFit模型进行比较。图5显示了使用CNN数据集获得的性能。我们采用了许多语言的预训练ELMo表示(Che等人,2018)和阿拉伯UMLFiT模型(ElJundi etal., 2019年)。我们注意到,经过微调的AraBERT模型比ELMo模型的性能高出27%。相比之下,AraBERT仅超过ULMFiT 6%。这是由于在Transformer模型的所有层中,左右上下文中的AraBERT而在ELMo中,上下文嵌入是由一个双向递归神经网络生成的,该网络在最后一层简单地连接了左右上下文。而ULMFiT是一个单向模型。最后,我们试图研究AraBERTv1和AraBERTv0.1作为基于特征的模型,并显示抽象的微调方法对分类性能的影响。 我们将以前的模型与涉及CNN,LSTM,BiLSTM,MLP和SVM的几个分类器结合起来。 表5总结了AraBERT和mBERT作为OSAc数据集上的特征提取模型的分类准确度和F1评分。我们观察到,Ara-BERTv 0. 1模型与SVM分类器合并,分别获得了F1得分和准确性的97%和96%的最佳结果MLP和BiLSTM分类器也表现良好,在F1得分和准确性方面达到96%,而CNN和LSTM的准确性最低,为95%。对于Ara-BERTv1与所有分类器相结合,它达到了近96%的F1-得分和准确率的最高值然而,mBERT在基于SVM分类器的F1分数方面执行95%mBERT与 MLP 、 LSTM 和 CNN 合 并 后 的 F1 分 数 达 到 93% 总体而 言 ,AraBERT 模 型 作为特征提取器取 得 了 良 好 的 性 能 , 并 击 败 了mBERT。 这表明,AraBERT是有前途的微调和基于特征的方法。在OSAC数据集上进行的大量实验表明,微调的AraBERT模型超过了所有最先进的方法和微调的mBERT模型。然而,它们的性能也优于使用AraBERT作为特征提取器的方法表5我们的第二种方法的性能结果,其中我们使用AraBERTv1,AraBERTv0.1和mBERT作为OSAc上具有不同分类器的特征提取模型分类器mBERTAraBERTv1AraBERTv0.1准确度(%)F1评分(%)准确度(%)F1评分(%)准确度(%)F1评分(%)CNN939395969596LSTM939395969596BiLSTM949495969696MLP939396959696SVM949596969697El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报84285. 结论和今后的工作提出了一种基于上下文语义嵌入的阿拉伯语文本分类方法.上下文信息的使用使我们能够处理阿拉伯语问题,例如复杂性和歧义性,阿拉伯语的特定模型(AraBERT)。我们建议以两种不同的方式使用预训练的AraBERT,迁移学习模型和特征提取器。第一种变体依赖于预先训练的ArabBERT微调,而第二种变体研究了两个Arabic BERT模型作为与几个分类器相结合的特征提取器。事实上,通过采用句子嵌入表示,我们的方法能够通过在单个密集向量中表示多个单词和短语之间的关系来捕获文本中的语义。为了评估所提出的方法的有效性,我们在OSAC数据集上进行了一组实验。所获得的结果证明,微调后的AraBERT模型优于mBERT,取得了新的最先进的结果,在OSAC数据集上的准确率高达99%。我们打算将AraBERT用于其他NLP任务。此外,我们正在对一个新的multiAraBERT模型进行竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用Abdelali,A.,Darwish,K.,Durrani,N.,Mubarak,H.,2016年。Farasa:阿拉伯语的快速和激烈的分段器。在:在计算语言学协会北美分会2016年会议的会议记录中:演示,pp. 11比16Alayba,A. M.,帕拉德,五,英国,M。&伊克巴尔河2018.一个用于阿拉伯语情感分析的CNN 和LSTM 组合模型。 国际机器学习和知识提取跨领域会议。Hamburg,Germany:Springer,Cham,pp. 179-191.Antoun,W.,Baly,F. &Hajj,H. 2020. AraBERT:基于transformer的阿拉伯语理解模型。arXiv预印本arXiv:2003.00104。切 , W. , Liu , Y. , 王 玉 , 郑 , B. , Liu , T. , 2018 年 In: Towards better UDparsing : Deep contextualized word embeddings , ensemble , and treebankconcatenation.AssociationforComputationalLinguistics , Brussels ,Belgium,pp. 55比64Dahou,A.,Xiong,S.,周杰,Haddoud,M.H. Duan,P.2016年。用于阿拉伯语情感分类的词嵌入在2016年第26届计算语言学国际会议上的会议记录中。大坂,日本:COLING 2016组委会,pp。2418-2427Devlin,J.,张,M。W.,李,K. &Toutanova,K. 2018. Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805。El Mahdaouy,A.,Gaussier,E. &El Alaoui,S. O. 2016.基于词和文档嵌入的阿拉伯语文本分类高级智能系统与信息学国际会议。开罗,埃及:Springer,Cham,pp.32比41El-Alami,F. Z. &El Alaoui,S. O. 2018.基于词义表示的阿拉伯语文本分类方法。第九届信号、图像、视频与通信国际研讨会。Rabat,Morocco:IEEE,pp.141-146El-Alami,F.Z.,El Alaoui,S.O.,En-Nahnahi,N.,2020.阿拉伯文文本分类的深度神经模型和改进。Int. J. Intell.告知。Technol.16(2),74-86.ElJundi,O.,Antoun,W.,El Droubi,N.,哈吉,H.,El-Hajj,W. &沙班湾2019.hULMonA:阿拉伯语的通用语言模型。第四届阿拉伯语自然语言处理研讨会论文集。佛罗伦萨,意大利:计算语言学协会,pp。68比77格雷夫,E.,Bojanowski,P.,古普塔,P.,Joulin,A. &米科洛夫2018.学习157种语言的单词向量。第十一届语言资源与评估国际会议论文集,宫崎,日本:欧洲语言资源协会。霍华德,J.,&鲁德,S。2018.用于文本分类的通用语言模型微调。arXiv预印本arXiv:1801.06146。赫梅迪岛Al-Ayyoub,M.,Abdulla,N.A.,Almodawar,A. A.,埃斯波赖格河,Mahyoub,N.一、2015.阿拉伯语文本自动分类:一项全面的比较研究。J. 告知。Sci. 41(1),114-124。勒角,智-地米科洛夫2014年。句子和文档的分布式表示在第31届国际机器学习会议(ICML-14)上。中国北京,pp. 1188-1196年。Mikolov,T.,萨茨克弗岛,巴西-地陈凯,Corrado,G.S.,Dean,J.,2013.单词和短语的分布式表示及其组合。 在:神经信息处理系统的进展。Lake Tahoe,Nevada,USA,pp. 3111- 3119Moh'd Mesleh,A.,2011.阿拉伯文文本分类的特征子集选择度量。模式识别。Lett.32(14),1922-1929年。彭宁顿,J.,Socher河,哥伦比亚特区曼宁2014. In:Glove:单词表示的全局向量。计算语言学协会,多哈,卡塔尔,pp。 1532-1543年。彼得斯法医诺伊曼,M.,Iyyer,M.,加德纳,M.,克拉克角李,K.,Zettlemoyer湖,2018年深层语境化的词语表征。在NAACL。美国路易斯安那州新奥尔良市计算语言学协会。Saad,M.K.,Ashour,W.M.,2010.开源阿拉伯语语料库。塞浦路斯莱夫克欧洲大学孙角,澳-地邱,X.,徐,Y.,黄,X.,2019年。如何微调BERT用于文本分类?中国计算语 言 学 全 国 会 议 ( China National Conference on Chinese ComputationalLinguistics)China,Springer,Cham,pp. 194-206.瓦斯瓦尼,A.,沙泽尔,N.,北帕尔马,乌斯科里特,J.,琼斯湖,加-地戈麦斯,A. N.,例如,2017. 你需要的只是关注。在:神经信息处理系统的进展。Long Beach,CA,USA,pp. 5998- 6008Xiao,H. 2018. 伯特即服务
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功