没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报:基于Transformer微调模型的多语言攻击性语言检测
沙特国王大学学报基于Transformer微调模型Alma-zahra El-Alamia,Said Ouatik El Alaouia,b,Noureddine En Nahnahia摩洛哥非斯西迪·穆罕默德·本·阿卜杜拉大学信息学、信号、自动和认知主义实验室b摩洛哥凯尼特拉伊本·托费尔大学国家应用科学学院工程科学实验室阿提奇莱因福奥文章历史记录:2021年3月27日收到2021年6月20日修订2021年7月15日接受2021年7月22日在线提供保留字:攻击性语言检测社交媒体多语言迁移学习文本分类自然语言处理A B S T R A C T攻击性通信侵入了社交媒体内容。处理这个问题的最有效的解决方案之一是使用计算技术来区分攻击性内容。此外,社交媒体用户来自语言不同的社区。本研究旨在利用迁移学习模型和微调阶段来解决多语言攻击性语言检测(MOLD)任务。我们提出了一种有效的方法的基础上双向编码器表示从变压器(BERT),已显示出巨大的潜力,在捕捉文本中的语义和上下文该系统由几个阶段组成:(1)预处理,(2)使用BERT模型的文本表示,(3)分为两类:攻击性和非攻击性。为了处理多语言,我们探索了不同的技术,如联合多语言和基于解释的技术。第一个是为不同的语言开发一个分类系统,第二个涉及翻译阶段,将所有文本转换为一种通用语言,然后对其进行分类。我们从半监督攻击性语言识别数据集(SOLID)中提取的双语数据集上进行了几个实验。实验结果表明,与阿拉伯语BERT(AraBERT)结合使用的基于推理的方法在F1分数和准确率方面分别达到93%和91%以上。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍在最近的十年中,随着交互式网络以及特别流行的在线社交媒体(如Facebook和Twitter)的兴起,用户生成的内容在网络上可访问的数量呈指数级增长。目前,任何在线信息都可以在几秒钟内到达数十亿网络用户,这不仅导致了积极的思想交流,而且导致了网络上的恶意和攻击性内容。然而,使用人类版主来检查这些冒犯性的内容不再是一种有效的方法。这将引领社交媒体管理员*通讯作者。电 子 邮 件 地 址 : usmba.ac.ma ( 法 文 ) z. El-Alami ) , ouatikelalaouiuit.ac.ma。Ouatik El Alaoui),noureddine.usmba.ac.ma(N. En Nahnahi).沙特国王大学负责同行审查制作和主办:Elsevier使用自然语言处理(NLP)技术自动执行攻击性语言检测过程并监督内容。多语言攻击性语言检测(MOLD)任务通常被建模为监督分类问题,其中系统在包含多语言辱骂或攻击性表达的注释文本上进行训练。Zampieri et al.(2019)和Zampieri et al.(2020)在国际语义评估研讨会(SemEval)上分享了任务,吸引了100多个团队的提交。提出了几项关于攻击性语言识别的工作,但仅在单语背景下,通过对英语等特定语言进行工作(Zampieri等人,2020)、阿拉伯语(Alami等人,2020年,或其他语言。然而,几种语言在全球网络中盛行,导致文本分类领域的多语言多样性,这在诸如攻击性语言检测、垃圾邮件过滤等的几种情况下可能是需要的。多语言文本分类(MTC)被定义为同时对以不同语言(阿拉伯语、英语、西班牙语)书写的一组文本进行分类的任务。. ),并属于一组跨语言的固定类别。这个问题与跨语言文本分类不同(Bel et al.,2003年),当一个文件写在一种语言必须分类在一个类别系统学习另一种语言。有几种方法可以处理https://doi.org/10.1016/j.jksuci.2021.07.0131319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comF.- z. El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报6049MTC问题;第一个包括开发几个单语言分类器,其中每种语言都有一个特 定 的 分 类 系 统 ( Lee 等 人 , 2006; Amini 等 人 , 2010; GonalvesandAguresma,2010)。第二种方法涉及不同语言的一个分类系统。其基本思想是将不同语言的各种文本输入到同一个分类器中,然后在多语言数据集上进行训练。第三种方法结合了翻译阶段,以便将所有文本格式化为一种语言,然后开发一个分类系统(Prajapati等人,2009年;Bentaallah和Malki,2014年)。然而,尽管多语言文本分类的重要性,在这方面的研究受到限制。此外,MTC问题从未使用来自变压器的双向编码器表示(BERT)来解决。该Transformer具有学习如何自动从原始数据中提取复杂特征的能力,从而侵入自然语言处理领域并给出有希望的性能(Devlin等人,2019年)的报告。多语言BERT还通过联合预训练大型Transformer模型,推动了跨语言和多语言理解任务的发展(Vaswani等人,2017年,在多个语言?在本文中,我们提出了一种MTC方法,并设计了一种新的解决方案,利用迁移学习技术在多语言攻击性语言检测领域。对MOLD领域的主要贡献可归纳如下:我们提出了一种有效的方法来标记阿拉伯语和英语推文分为两类:进攻性或不进攻。针对多语种问题,探讨了联合多语种技术和基于联合多语种技术我们研究了来自转换器的上下文嵌入,包括BERT、多语言BERT(mBERT)和AraBERT,即阿拉伯语BERT(Antoun et al.,2020年),以确定攻击性语言超过多种语言。我们在SOLID数据集上进行了大量的实验,以评估我们的本文的其余部分组织如下。我们在第2节介绍了相关的工作。第3节描述了拟议的方法。我们在第4节中介绍了实验结果第五给出了结论和未来工作的方向。2. 相关工作多语言文本分类和冒犯性语言检测有着悠久的历史,我们在本节中简要回顾这两个方面。2.1. 攻击性语言检测最近,识别社交媒体中的网络欺凌、攻击、仇恨言论、有毒评论和攻击性语言受到了研究人员社区的广泛关注。几个公共数据集可用于训练机器分类器进行这些分配。然而,没有标准的基准语料库或训练集可以组合以获得更鲁棒的分类系统。Kumar et al.(2018)介绍了关于攻击识别的共同任务的报告和发现。所提供的数据集包含15,000个带注释的Facebook帖子和评论,分别使用英语和印地语。目标是区分三类:非攻击性,隐蔽攻击性和过度攻击性。有毒评论的分类是Kaggle的公开竞争。在包含来自维基百科的评论的用户的数据集上评估了用于该任务的各种方法。这些评论分为六类:有毒,严重有毒,淫秽,威胁,侮辱,身份仇恨。关于仇恨言论识别,Davidson等人(2017)提出了一个最近的仇恨言论检测数据集,其中包含超过24,000条英语推文,属于三个类别:非攻击性,仇恨言论和亵渎。Mandl等人(2019)报告了攻击性语言识别的共享任务,其中从Twitter和Face- book开发了三个数据集,并提供印地语,德语和英语。此外,Zampieri等人(2019)和Zampieri等人(2020)提出了SemEval竞赛团队获得的几种语言的几种攻击性语言检测结果。2.2. 多语言文本分类多语言文本分类是文本分类领域的一个新兴领域然而,在这一领域实现的以前的作品并不多。Early,Lee et al. (2006)提出了一种基于潜在语义索引的多语种文本分类方法。该方法包括在英文和中文数据集上执行多个单语方法。在另一项工作中,Prajapati et al.(2009)引入了一种依赖于将文档翻译成通用语言的方法,然后执行分类。他们使用WordNET将这些知识结合起来,将术语映射到概念,然后使用线性分类器Roc- chio和概率朴素贝叶斯和K-最近邻(KNN)对文本进行Amini等人(2010)通过结合两种半监督学习技术(包括共正则化和基于共识的自训练)来研究MTC。他们在路透社语料库第1和第2卷(RCV 1/RCV 2)上训练了不同的单语分类器,其中包含五种不同的语言:英语,德语,法语,意大利语和西班牙语。作者使用六种分类方法验证了他们的方法:Boost ,co-regularized boosting , boosting with self-training , SupportVector Machine(SVM)with self-training,co-regularization +self-training 和 boosting with full self-training 。 Bentaallah 和Malki(2014)比较了两种基于WordNet的多语言文本分类方法。第一个依赖于机器翻译来直接访问WordNet,并使用消歧策略来只考虑术语的最常见而第二个排除了翻译,并探索了与每种语言相关的WordNet。Mittal和Dhyani(2015)基于N-gram技术解决了多语言文本分类问题他们用西班牙语、意大利语和英语学习MTC他们通过预测文档的语言来进行,并在分类阶段使用朴素贝叶斯最近,Kapila和Satvika(2016)使用不同的机器学习算法解决了印地语和英语语言的MTC问题,包括SVM,KNN,决策树,自组织映射和遗传算法。他们通过采用各种特征选择方法提高了方法最近,深度神经网络和上下文嵌入提出了在文本分类领域的英语(莱例如,2015; Zhou等人,2015;Nowak等人,2017; Devlin等人,2019; Peters等人,2018; Liu和Guo,2019等)和阿拉伯语(Dahou等人,2016;El-Alami等人,2020;Elnagar等人,2020;Antoun等人,2020年)。另一方面,一些多语言掩蔽语言模型,如mBERT(Devlin et al.,2019)和XLM(Lample和Conneau,2019)具有预训练的大型trans-former模型(Vaswani等人,2017年,在多个语言?这些模型在跨语言理解任务中进行了探索(Lample和Conneau,2019; Conneau等人,2019年),并已证明在这方面有效。总之,尽管跨语言文本分类的工作量相当大,MTC几乎被忽视,很少有研究提出使用经典的技术,如SVM和KNN。此外,对冒犯性语言检测领域的研究仅从单语角度进行了展望。其他研究调查了最近的技术,如mBERT,但只有F.- z. El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报6050在跨舌区。因此,需要一种新的方法来研究MTC在攻击性语言检测领域从深度学习方面使用有前途的迁移学习技术BERT。因此,在本研究中,我们研究了MOLD领域的迁移学习技术。我们的工作在MTC领域构成了一个相对较新的领域。3. 所提出的系统我们的多语言攻击性语言检测系统包括几个模块,包括推文预处理,BERT分词,文本表示和推文分类。图1示出了所提出的系统的总体流程图3.1. 预处理算法预处理阶段由几个步骤组成,以便仅保留相关信息。图2显示了两个推文预处理的例子。我们遵循以下步骤:1. 我们继续删除所有的主题标签,HTML标签,提及和URL。2. 对于英文文本,我们进一步将缩写替换为完整形式,修复拼写错误的单词,并将文本转换为小写。3. 如果存在表情符号,我们将其替换为它们所代表的文本,因为表情符号或表情符号在定义推文时起着至关重要的作用。我们有两个案例:- 对于阿拉伯语推文,我们首先检测表情符号,然后将表情符号的含义从英语翻译为阿拉伯语。之后,我们用推特中的阿拉伯语含义替换 图图2展示了存在表情符号时的阿拉伯语推文预处理示例。- 对于英文推文,如果存在的话,我们会用它们的感官来替换表情符号。在预处理步骤之后,我们探索了两种变体:(1)通过合并tweet而不翻译的联合多语言方法和(2)通过翻译tweet的基于注释的技术。图3描述了每个策略算法。3.2. 翻译翻译是一个旨在将多语言推文格式化为一种通用语言的过程。我们生成两个语料库如下:d关于第一个语料库,我们使用Google Translator API将英语tweets翻译为阿拉伯语。然后,我们合并阿拉伯语和翻译的推文。然后,我们应用AraBERT标记器。Fig. 1. 提出了总体系统流程图。F.- z. El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报6051图二.阿拉伯语和英语推文的预处理示例。图三. 使用的多语言算法。d为了制作第二个语料库,我们基于相同的API将阿拉伯语推文翻译成英语。然后,我们将英文和翻译的推文结合起来。接下来,我们将所有推文都馈送到BERT标记器。3.3. BERT标记化在BERT中,我们需要一个表示整个输入句子的向量来输入分类器。因此,决定第一个标记[CLS]的隐藏状态被用来表示整个句子。另一方面,在“下一个句子预测”过程中,BERT需要知道第一个句子在哪里结束,第二个句子在哪里开始。因此,使用令牌[SEP]。在标记化过程中,我们首先添加特殊的在标记化过程中,将标记[CLS]添加到每个tweet的头部,并在句子之间和结尾添加特殊标记[SEP]。对于阿拉伯语,所有单词标记都由Farasa分割器分割(Abdelali等人,2016年),然后用Arabert tokenizer进行标记。对于英语和双语推文,我们使用BERT标记器。最后,我们根据预训练的BERT模型词汇表将每个令牌映射到索引。3.4. Tweet表示我们的目标是探索BERT在MTC领域,更具体地说,多语言攻击性语言检测任务。我们使用预训练的模型,包括未分类的BERT基础(L =12层,H = 768,A = 110 M参数),mBERT(L = 12,H = 768,A = 110 M参数)和AraBERT(L = 12,H = 768,A = 110 Mparams),根据所使用的多语言方法。这些模型通过联合调节所有层中的左上下文和右上下文,从未标记文本中预训练深度双向表示。我们的网络架构分为两个阶段:(1)预训练模型的探索和(2)微调。 在微调期间,使用预训练的模型初始化BERT模型。之后,所有参数都根据来自MOLD任务的标记数据进行微调。为了在MOLD上微调BERT模型,正如我们之前提到的,我们对输入文本进行标记并添加[CLS]和[SEP]标记。然后,我们为每个标记生成一个输入表示,该表示是通过对与标记对应的向量嵌入、标记所属的段和标记位置进行求和而构建的。然后,我们将这些表示向量馈送到BERT模型并对其进行微调。我们将第一个[CLS] token的最终隐藏状态作为tweet表示。之后,我们使用前馈层对获得的向量进行归一化,以获得预测输出标签(进攻性或非进攻性)的概率分布。3.5. 文本分类在微调阶段之后,为了识别推文是否具有攻击性,我们将微调的推文表示馈送到Sigmoid函数并训练模型以优化二进制交叉熵损失。在微调期间,我们将分类层的权重定义为W,并计算标准分类损失F.- z. El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报6052¼ ð Þ×2-1/4使用[CLS]:C的最终隐藏表示,即,日志文件softmax文件CW文件:4. 实验和结果4.1. 多语种语料库我们构建了自己的多语言数据集,其中包含英语和阿拉伯语的推文,因为没有标准的语料库来评估MOLD。英文数据集是从SemE-val'2020竞赛中的半监督攻击性语言识别数据集中提取的。该数据集由Rosenthal等人提出,2020年),包含超过9,000,000条注释推文,遵循OLID的三级分类法:攻击性语言检测,攻击性语言的分类和攻击性语言目标识别。我们从SOLID数据集中收集了大约6000条英语推文,涵盖两类:攻击性和非攻击性。为了构建阿拉伯语数据集,我们从Mubarak et al.(2020)在SemE-val '2020中这些推文被贴上了两个标签:OFF和NOT,分别代表攻击性和非攻击性。数据集统计数据如表1所示。4.2. 评估指标为了评估MOLD系统的性能,我们采用了两个指标,即准确度和F1分数,它们在语料库类别中平均,定义如下:准确度TP/TN1TPTNFPFN4.4.比较方法我们将BERT模型与各种神经模型进行比较,如卷积神经网络(CNN),递归神经网络(RNN)和双向RNN。对于这些神经网络,需要预处理阶段主体层次结构由嵌入层、隐藏层和输出层组成。嵌入层构成了深度学习网络的第一个隐藏层这一层是一个大小为x r的矩阵,其中r是单词嵌入向量的长度(300维),x是固定为200个token的推文的最大长度。我们使用dropout来避免过拟合问题;它的参数设置为0.5。在训练过程中,我们将epoch的数量固定为10,批次大小为20。输出层利用Sigmoid激活函数,Adam优化器和交叉熵损失来预测推文标签。关于参数设置,每个深度神经网络都有自己的适应性。实施细节如表2所示。dCNN我们构建了一个CNN模型,由一个1D卷积层组成,内核大小为5和128个滤波器。下一层是最大池化层,默认值后是dropout层.最后,输出层负责影响每个tweet的类别。dRNN作为RNN模型,我们使用长短期记忆(LSTM)和门控递归单元(GRU)模型。我们的LSTM模型最后一层是分类层,预测推文类别。我们保持相同的架构,F1评分TPTP1FPFNð2ÞGRU模型,我们通过GRU层改变LSTM层。这种架构在尝试不同的TP(真阳性):阳性且正确预测为阳性的样本FP(假阳性):阴性但被错误预测为阳性的样本;FN(假阴性):阳性但被错误预测为阴性的样本;TN(真阴性):阴性且正确预测为阴性的样本。4.3.实验装置我们进行了一组实验,以评估我们的系统性能。实验在前一小节中描述的语料库上运行我们将数据集分为80%用于训练,其余20%用于测试。我们使用Tensorflow和Keras库来构建和训练所有BERT模型。在训练阶段,我们将所有模型的epoch数固定为5,批次大小固定为32所有tweet的最大输入序列长度设置为128。我们在GoogleColab上运行整个实验阶段。作为度量评估,使用两个度量,包括Accu- racy和F1。我们利用Adam作为Sigmoid层的优化器模型这两种模型都是为了解决基本RNN的消失梯度问题而设计的。双向RNN我们构建了一个双向LSTM(BiLSTM),它由一个包含100个隐藏单元的BiLSTM层输出的向量被平坦化,然后馈送到分类层。而双向GRU(BiGRU)是使用具有与BiLSTM相同配置的BiGRU层构建的d模型组合我们以不同的方式组合了几种模型。首先,我们合并CNN和RNN层来构建CNN-LSTM和CNN-GRU。两个模型都包含一个CNN层,然后是一个RNN层。 然后,我们使用全局最大池和dropout层。 最后,预测层将属性分类到tweet。关于CNN-BiLSTM模型,它结合了CNN和Bi-LSTM网络。模型层次结构包含一个CNN层和具有100个隐藏单元的BiLSTM层,然后是全局最大池化和dropout层。表1多语言数据集统计。文件数量进攻没有冒犯链接英文数据集599431932991https://sites.google.com/site/offensevalsharedtask/solid阿拉伯语数据集780015906210https://sites.google.com/site/offensevalsharedtask/multilingualF.- z. El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报6053表2神经模型实现细节。表3联合多语言方法在MOLD数据集上的性能结果过滤器= 128)● 具有默认值的● 脱落层(脱落分数= 0.5)● 全连接层● 带Sigmoid函数的输出层LSTM● 1 LSTM层(100个隐藏单元)● 脱落层(脱落分数= 0.5)● 全连接网络● 带Sigmoid函数的输出层GRU● 1个GRU层(100个隐藏单元)● 脱落层(脱落分数= 0.5)● 全连接网络● 带Sigmoid函数的输出层CNN 89.74 90LSTM 66.43 80格鲁乌90.06 90BiLSTM 90.42 89CNN-BiLSTM88.36 89多语种埃尔莫77.23 79mBERT 91.36 91我们在整个语料库上计算词频-逆文档频率(TFIDF)特征矩阵,然后应用Khi 2度量将TF-IDF矩阵转换为低空间特征向量,双向LSTM(BiLSTM)双向GRU(BiGRU)● 1层BiLSTM,包含100个隐藏单元● 脱落层(脱落分数= 0.5)● 全连接网络● 带Sigmoid函数的输出层● 1层BiGRU,100个隐藏单元● 脱落层(脱落分数= 0.5)● 全连接网络● 带Sigmoid函数的输出层真正包含最好的1000个功能。然后,我们训练一个基于径向基函数核的SVM,对获得的推文表示进行预测,以正确分类。结果表明,mBERT在准确性方面略优于SVM-Khi 2。但是,它们得到相同的F1值。这一发现并不奇怪,因为SVM仍然很受欢迎,并且仍然实现了很高的在文本分类领域的竞争结果。 其次我们CNN-LSTM● 1D卷积层(内核大小= 5,过滤器= 128个过滤器)● 1个LSTM(100个隐藏单元)● 最大池化层● 脱落层(脱落分数= 0.5)● 全连接层● 带Sigmoid函数的输出层CNN-GRU● 1D卷积层(内核大小= 5,过滤器= 128个过滤器)● 1个GRU(100个隐藏单位)● 最大池化层● 脱落层(脱落分数= 0.5)● 全连接层● 带Sigmoid函数的输出层CNN-BiLSTM● 1D卷积层(内核大小= 5,过滤器= 128个过滤器)● 1个BiLSTM(100个隐藏单元)● 最大池化层● 脱落层(脱落分数= 0.5)● 全连接层●带Sigmoid函数的我们还评估了所提出的方法对其他一些迁移学习技术,包括通用语言模型微调模型(ULMFiT)和嵌入语言模型(ELMo),以及基线分类器SVM。4.5. 实验结果我们已经进行了广泛的实验,使用变压器BERT模型,研究不同的MTC策略的MOLD任务。第一组实验是使用多语言BERT来研究联合多语言方法相比之下,第二组涉及基于推理的方法评估,这是通过探索AraBERT和BERT模型的两个方面首先,我们通过将翻译应用于英语来评估这种方法,其次,我们研究了使用翻译到阿拉伯语的相同为了评估我们的贡献的影响,以下小节总结了所获得的发现和一系列深入的分析。4.5.1. 联合多语种方法结果第一个实验旨在基于联合多语言方法评估MOLD上的mBERT。表3总结了准确性和F1分数方面的结果。首先,我们估计mBERT对经典分类器SVM结合特征选择方法卡方(Khi2)。为此,针 对 CNN 、 LSTM 、 GRU 、 BiLSTM 和 CNN-BiLSTM 模 型 评 估mBERT。可以观察到,mBERT在F1方面达到了91%,并且在F1方面击败了所有其他神经模型。我们还将mBERT与多语言ELMo模型进行了比较(Peters等人,2018),一个深度上下文化的单词表示,使用在特定任务上训练的深度双向语言模型(biLM)来建模语法和语义特征,以创建嵌入。我们采用预先训练的多语言ELMo(Che等人,2018)来生成推文表示,然后我们将获得的表示馈送到包括1D卷积层的CNN分类器。该层包含一个大小为64的过滤器,该过滤器通过表示矩阵来检测推文中的特定特征。之后,我们应用最大池层,以便对传入的特征图进行下采样。输出向量组合在一个矩阵中,然后传递到一个完全连接的层。然后,应用dropout技术来减少过拟合,并将其分数设置为0.5。从表3可以看出,mBERT超过ELMo几乎是F1的12%。这种差距 可 能是 由 于ELMo 在 推 文的 两 个 方向 上 连 接两 个 BiLSTM, 而mBERT是双向的。在mBERT评估之后,我们利用混淆矩阵(图4)来发现分类器无法预测正确类别的地方。图四、联合多语言文本分类方法的混淆矩阵(模型架构和参数模型准确度(%)F1评分(%)CNN● 1D卷积层(内核大小)=5,SVM-Khi288.1791F.- z. El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报6054图五.基于英语的联合翻译方法的准确性结果。见图6。使用英语的联合翻译方法的准确性和损失结果。F.- z. El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报60554.5.2. 联合翻译单语方法结果正如我们之前提到的,当我们遵循联合翻译单语技术来处理多语言时,我们使用Google Translator API生成两个语料库。第一个语料库只包含英语的推文。相反,第二个包含阿拉伯语的推文。在这项工作中,我们没有使用任何消歧过程来处理歧义问题。接下来的实验将分别在每个语料库上对上述方法进行评价。图5说明了基于解释的方法的发现,我们将所有tweet翻译为英语。可以注意到,BERT达到了几乎92%的准确度。此外,CNN-LSTM和GRU模型比其他模型更差。此外,CNN、CNN-LSTM和Bi-GRU的准确率基本相同,从86%到87%。这一发现证明了捕获不同单词组合之间的依赖关系的重要性,这些依赖关系在BERT中是可能的,但在CNN、RNN或它们的组合中却不是。我们将BERT与另一个微调模型ULMFiT(一种迁移学习模型)进行了进一步比较。该模型由Howard和Ruder,2018年提出,并在大型通用领域语料库上预训练语言模型(LM)并对其进行微调为了实现,我们遵循Jeremy Howard在fast.ai中描述的训练方案,采用预训练的语言模型,使用未标记的数据对其进行微调,然后微调MOLD任务的分类。所获得的结果表明,BERT比ULMFiT高出2%,这要归功于BERT的双向性质,与在推文中捕获较少语义的ULMFiT相比,BERT能够反映更多语义我们进一步评估BERT与其他BERT版本,如RoBERTa(Liu etal.,2019)和DistilBERT(Sanh等人,2019年)的报告。图6中报告了准确度和损耗结果。实验结果表明,BERT算法在精度上优于RoBERTa和distilBERT算法.然而,RoberTa具有最小的损失值。第三个实验旨在评估AraBERT表4联合翻译的分类结果基于阿拉伯语。模型准确度(%)F1评分(%)CNN8585CNN-GRU67.781GRU85.2886BiLSTM83.9084AraULMFiT80.0980AraBERT90.793方法。在这个实验中,我们将英语推文翻译成阿拉伯语。然后,我们将它们与阿拉伯语推特合并。表4描述了合并数据集的准确度和F1评分结果。可以观察到,AraBERT击败了所有深度神经网络,在F1方面达到了93%。此外,可以指出的是,GRU模型比其他神经网络的F1值高出86%。CNN报道的准确率与GRU相同,为85%。此外,BiLSTM实现了84%的准确度和F1测量。而最低的性能是由CNN-GRU提供的,在F1方面提供81%。阿拉伯语UMLFiT(AraULMFiT)模型也用于比较目的。我们对来自(ElJundi et al.,2019年,在MOLD任务中。我们注意到,经过微调的AraBERT模型的性能比AraULMFiT高出13%。该结果证明了使用双向模型(AraBERT)代替单向模型作为AraULMFiT的优势。为了更深入地分析,我们比较了不同的多语言技术。图7示出了所获得的结果。基于评估,我们采用了联合翻译方法的AraBERT,因为这种组合获得了93%的最佳F1分数。我们已经领导了一个详尽的实验,以调查BERT模型在MOLD领域的效率。研究结果表明,Transformer BERT模型在攻击性语言检测领域具有较好的多语言文本分类能力。5. 结论和今后的工作本文提出了一种基于迁移学习的攻击性语言检测领域多语言文本分类方法。我们使用联合多语言和基于预防的方法来解决多语言问题。我们 的 方 法 依 赖 于 转 换 器 BERT 模 型 , 包 括 BERT , mBERT 和AraBERT,这些模型在多语言攻击检测任务中进行了微调。我们遵循几个步骤来构建MOLD系统:(1)预处理,(2)Tweets标记化,(3)BERT模型微调和(4)Tweets分类。我们进行了详尽的实验,从SOLID数据集提取的双语语料库。我们工作的主要发现证实了基于预防的方法和联合多语言方法都超过了最先进的方法,并取得了良好的F1和准确性分数。重要的是,我们的研究结果提供了BERT模型在MOLD领域的鲁棒性的证据。尽管在双语环境中试验了我们的方法,但当考虑更多语言时,我们的贡献仍然可以操作因此,在未来的工作中,我们将通过整合其他语言来进一步推动我们的实验。我们还计划探索一些图7.第一次会议。联合翻译单语分类与按F1联合多语种分类F.- z. El-Alami,S.Ouatik El Alaoui和N.恩纳赫纳希沙特国王大学学报6056为了解决歧义问题,我们采用了基于消歧的策略,并提高了性能。我们还计划开展其他任务,如仇恨言论缩进和欺凌。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用Abdelali,A.,Darwish,K.,Durrani,N.,Mubarak,H.,2016年。Farasa:AFast and Furious Segmenter for Arabic , in : Proceedings of the 2016ConferenceoftheNorthAmericanChapteroftheAssociationforComputational Linguistics:Demonstrations.计算语言学协会,加利福尼亚州圣地亚哥,pp。11-16. https://doi.org/10.18653/v1/n16-3003阿拉米,H.,El Alaoui,S.O.,Benlahbib,A.,En-nahnahi,N.,2020年。 LISACFSDM-USMBA 团 队在SemEval-2020 任 务12 : 克服 阿 拉伯 语攻 击 性语 言识 别 的AraBERT预训练-微调差异。第十四次研讨会论文集评估,2080-2085年Amini,M.R.,古特角,澳-地N.C.,2010.结合共正则化和共识自训练的多语言文本分类。在:在第33届国际ACM SIGIR会议的研究和发展信息检索,pp。475-482.https://doi.org/10.1145/1835449.1835529.Antoun,W.,Baly,F.,哈吉,H.,2020. AraBERT:基于transformer的阿拉伯语理解模型。arXiv预印本arXiv:2003.00104。Bel,N.,科斯特角,澳-地H、&Villegas,M.,2003.跨语言文本分类。数字图书馆理论与实践国际会议,柏林,海德堡,pp。126比139Bentaallah,文学硕士,Malki,M.,2014.多语言文本分类中使用词网的比较研究。ICWIT,121-128.切,W.,Liu,Y.,王玉,郑,B.,Liu,T.,2018年迈向更好的UD解析:深度上下文化的词嵌入,集成和树库连接。CONLL 2018-SIGNLL Conf.Comput. Nat. 浪学习. Proc. CoNLL 2018股份任务倍增。从原始文本解析到Univers。看情况55-64.网址://doi. org/10.18653/v1/K18-2005Conneau,A.,Khandelwal,K.,Goyal,N.,乔杜里,V.,Wenzek,G.,Guzman,F.,格雷夫,E.,Ott,M.,Zettlemoyer湖,Stoyanov,V.,2019.大规模无监督跨语言表征学习.在:在计算语言学协会第57届年会的会议记录:摘要,pp。 31比38Dahou,A.,熊,S.,周杰,Haddoud,M.H.,段,P.,2016.用于阿拉伯语情感分类的词嵌入和卷积神经网络。在:在Coling 2016年的会议记录中,第26届计算语言学国际会议:技术论文,pp. 2418- 2427戴维森,T.,Warmsley,D.,梅西,M.,韦伯岛,2017.自动仇恨言论检测和攻击性语言问题。在:在网络和社交媒体国际AAAI会议的会议记录,ICWSM 2017年,pp。512-515Devlin,J.,Chang,M.W.,李,K.,Toutanova,K.,2019. BERT:用于语言理解的深度双向转换器的预训练。在:计算语言学协会北美分会2019年会议的会议记录:人类语言技术,第1卷(长论文和短论文),pp。 4171- 4186El-Alami,F. Z.,El Alaoui,S.O.,En-Nahnahi,N.,2020.用于阿拉伯语文本分类的深度神经模型和改进。International Journal of Intelligent Information Technologies(IJIIT)16,74-86。https://doi.org/10.4018/www.example.comElJundi,O.,Antoun,W.,El Droubi,N.,哈吉,H.,El-Hajj,W.,Shaban,K.,2019.hULMonA : 阿 拉 伯 语 的 通 用 语 言 模 型 68-77 。 https://doi.org/10.18653/v1/w19-4608Elnagar,A.,Al-Debsi河,埃克塞特,O. 2020.使用深度学习模型进行阿拉伯语文本分类。我来通报。过程管理。57,102-121。https://doi.org/10.1016/j.ipm.2019.102121的网站上发布的。Gonalves,T.,夸雷斯马,P.,2010.通过单语分类器组合的多语言文本分类。第四届法律本体论与人工智能技术研讨会论文集。605,29霍华德,J.,Ruder,S.,2018.用于文本分类的通用语言模型微调。Proceedings of the56th Annual Meeting of the Association for Computational Linguistics(Volume1:LongPapers),Melbourne,Australia,pp.328-339.https://doi.org/10.18653/v1/p18-1031R. 卡皮拉·萨特维卡基于分类技术的多语言文本分类7 3 2016 1578 1581库马尔河,巴西-地Ojha,A. K.,Malmasi,S.,Zampieri,M.,2018.社交媒体中的攻击识别基准。在第一次关于巨魔,侵略和网络欺凌的研讨会(TRAC-2018)的会议记录中,美国新墨西哥州圣达菲,pp. 1-十一岁Lai,S.,徐,L.,Liu,K.,赵,J,2015.用于文本分类的递归卷积神经网络。第二十九届AAAI人工智能会议,美国德克萨斯州奥斯汀。Lample,G.Conneau,A.2019年。跨语言语言模型预训练。神经信息处理系统的进展(NeurIPS 2019)。32岁李角,澳-地H、Yang
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功