没有合适的资源?快使用搜索试试~ 我知道了~
阵列13(2022)100109AraScore:基于深度学习的阿拉伯语简答题评分OmarNaela,YoussefELmanyalawya, Nad aSharafb,a德国开罗大学,埃及b德国国际大学,埃及A R T I C L E I N F O保留字:阿拉伯语简答题深度学习A B S T R A C T在过去的几年里,阿拉伯语NLP一直明显落后于英语,但自然语言处理的最新进展使阿拉伯语能够迎头赶上,并在许多任务中显示出有希望的结果。复杂的任务,如简短的答案评分,已被广泛研究,主要是英语,利用机器学习和最先进的深度学习技术。在本文中,我们介绍了第一个基于深度学习的阿拉伯语简答题评分系统,旨在提供一个可靠的系统,帮助阿拉伯世界的教师更好地利用他们的时间进行其他教学活动,从而提高该地区的学习质量。我们根据经验研究不同的技术,并根据我们的结果提出性能最佳的系统,我们已经实现了最先进的性能, QWK得分为0.78,显示了最近阿拉伯语NLP工具的强大和强大。1. 介绍自动评分系统已经有效地减少了在评分考试中花费的大量资源和时间,允许教师更好地利用他们的时间和精力在其他核心任务上,这将为他们的学生带来更好的教育体验。由于评分过程的精确性,已经进行了广泛的研究,以确保提供一个公平的平台。该平台应能够适当证明取代人工评分方法的合理性。基于参考的系统[1]是应用于实现此类系统的基本且有效的技术之一。这样的系统在给出学生的答案和参考答案的情况下工作。使用相似性度量,例如余弦相似性和Levenshtein距离[2]。这样的措施可以在以后的算法中使用,为每个答案分配一个类。随着机器学习的兴起,已经部署了基于响应的系统,其中不提供参考答案,而是一组带有不同分数的人工标记答案。这些标记的答案可以用于以监督的方式训练机器学习模型[3]。在过去的几年里,深度学习架构一直在征服NLP,例如RNN,LSTM,注意力机制和基于transformer的模型[4]。他们在不同的NLP任务中取得了最先进的结果。因此,基于响应的系统通过利用深度神经网络进一步发展[5],与其他方法相比,取得了更有前途的结果[6]。NLP目前的进步也可以追溯到发布大型预训练语言模型[7,8],可以针对下游任务进行微调,通常称为迁移学习。阿拉伯语的简短回答得分存在差距。 大多数现有系统都是以参考为基础的。这两种方法由[9]探索。结果发现,有足够数量的人类评级的答案,那么基于响应的方法很可能比基于参考的方法表现得更好。但这一点在阿拉伯语中仍未得到探索。阿拉伯语简答题评分的唯一基于回答的方法见[10]。然而,现有的阿拉伯语简答题评分系统从未探索过深度学习。凭借深度学习系统提供的性能,本文中的工作试图通过为阿拉伯语简短答案评分提供基于深度学习响应的系统来在本文中,我们试图从两个主要方面做出贡献。 首先,我们通常会解决在实现基于深度学习的简答评分系统方面缺乏研究的问题,特别是使用基于transformer的模型[11],我们将在其中演示和讨论多个实验来实现我们的系统。其次,我们工作的核心贡献是调查并提出了第一个基于阿拉伯语深度学习的简短答案评分系统。该系统利用RNN,LSTM,AraBERT和AraELECTRA[7,8],以及由与SVM一起使用的本文的组织如下:第2节包括阿拉伯语所面临的挑战的概述,以及迁移学习和深度学习领域的概述。∗通讯作者。电子邮件地址:nada. giu-uni.de(N. Sharaf)。https://doi.org/10.1016/j.array.2021.100109接收日期:2021年8月1日;接收日期:2021年10月16日;接受日期:2021年11月15日2022年1月7日上线2590-00562021的 作者。发表通过 Elsevier Inc.这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表阵列期刊主页:www.elsevier.com/locate/arrayO. Nael等人阵列13(2022)1001092简答题评分第3节概述了数据集、预处理步骤和用于这项工作的评估指标。第4节讨论了应用的方法。实验一在第5节中示出。第6节讨论了实验结果。在第7节中进行了进一步讨论。最后,我们提出了今后工作的方向2. 背景在本节中,我们将简要讨论阿拉伯语中的挑战,如词法,方言变体和词汇歧义。然后,除了深度学习和迁移学习之外,还讨论了传统的NLP方法,利用BERT等Transformer语言模型以及它们如何促进NLP的兴起。 最后,以前关于自动评分系统的工作也将可以讨论。2.1. 阿拉伯语词法阿拉伯语以复杂的语言而闻名。它包含许多微妙和模糊之处,使其与其他语言不同,使其成为NLP环境中具有挑战性的语言。其中一个挑战是与英语相比,阿拉伯语单词可以采用多种形式,导致单个单词的许多变化,这些变化通常可以翻译成一个句子英文[12]阿拉伯语中的所有动词都有一个词根,通常来自三个字母,这使得它具有高度的派生性。因此,构建阿拉伯语词干提取/词形分析工具[13],并适应BERT中用于阿拉伯语的WordPiece和SentencePiece等标记器要困难得多。和.此外,词汇歧义在阿拉伯语中也很普遍,语境在确定含义方面起着重要作用一句话或一句话[14]。2.2. 方言变体阿拉伯语的另一个挑战是方言的变化。每个地区都有自己的阿拉伯语版本。虽然大多数方言都保留了阿拉伯语的一般结构,但通常每种方言都有一套额外的自定义规则和词汇[14]。不幸的是,这可能会影响阿拉伯语数据集的质量例如,一个模型可以在埃及方言上表现得非常好,但在突尼斯方言上表现得很差[15]。因此,为了建立通用的阿拉伯语模型,在收集数据时必须考虑到不同的方言。幸运的是,考试通常是用标准阿拉伯语解决的,作为正式的标志,但并不严格执行,特别是对年轻的学生。一般来说,这使得构建一个通用的分级系统比其他任务更容易,即使可能会发生一些变化和不一致。2.3. 词汇歧义与其他语言相比,阿拉伯语中词汇歧义的原因有很多。造成词汇歧义的一个主要方面是是变音符号化。虽然变音符号的一般目的是表明一个给定单词的发音,但它也可以确定一句话中的一个词。例如,单词/词元可以根据变音符号和方言有不同的含义[16]。在表1中,我们展示了这个词的一些不同含义可以拥有。这在阿拉伯语中是一种常见的现象,这使得它成为一种非常复杂和丰富的语言。对于我们的特定案例(自动评分),我们使用的数据集是阿拉伯语翻译版本。 因此,变音符号被完全忽略。此外,学生通常不包括变音符号在他们的答案,以方便写作,除了正式的阿拉伯语考试,因为人类评分员通常可以理解没有变音符号的上下文。然而,这对自动化NLP系统提出了一个困难的挑战,因为为这项任务收集的任何数据集都很可能不包括变音符号。表1阿拉伯语中的词汇歧义。阿拉伯语含义教知识标志知道被称为Teach教导2.4. NLP中的传统特征提取NLP中的特征提取和表示通常使用n-gram词袋特征来执行,这在今天仍然被广泛使用。这种方法虽然高效且易于实现,但通常适用于特定和小型语料库[11]。词袋模型的主要缺点是失去了上下文意识。此外,当它被应用于大型语料库时,它会导致稀疏的向量,这阻碍了表示的效率和质量在过去的十年中,预训练的单词嵌入也出现了,比如Word2Vec和GloVe。 它们在所需语言的大型语料库上进行训练,并为每个单词生成一个高维向量,同时考虑到语义相似性[17,18]。由于将每个单词表示为独立向量,当单词根据上下文可以具有不同含义时,也不考虑上下文。这样的模型也遭受无法来处理看不见的单词当处理包含特定内容的文本时,这可能会导致问题,例如简短答案评分数据集中丰富的科学内容。2.5. NLP中的深度学习毫无疑问,深度学习已经彻底改变了NLP。RNN等架构极大地改进了顺序数据的处理,它们通过考虑先前的单词来准确地捕获自然语言中存在的特征,这对于捕获句子中的语义至关重要[19]。不幸的是,传统的RNN遭受消失梯度问题,这导致在序列开始时捕获的信息丢失。因此,LSTM网络被引入来解决这个问题,它能够学习长期依赖关系,随后引入了Bi-LSTM,它可以处理两个方向(从左到右和从右到左)的顺序数据,这允许更好的上下文理解。2.6. 双向编码器表示从变压器transformers的引入[20]是NLP的一个转折点。这导致了许多基于transformer的语言模型的引入,例如BERT,“Bidirectional EncoderRepresentations from Transformers”的缩写BERT是一种语言模型,它在大量非结构化文本上进行了预训练,以培养对给定语言的一般理解[21]。 这是通过在两个任务上训练BERT来实现的:1. Masked LM:使用特殊的标记[MASK]屏蔽一定比例的输入标记,并且模型需要通过从两个方向看并使用句子的完整上下文来预测被屏蔽的标记/单词因此,实现了完全上下文感知的深度双向模型O. Nael等人阵列13(2022)1001093表2基于参考的阿拉伯语自动简短回答评分系统的历史。作者接近精度[27]参考RMSE= 0.76[28]参考84%2. 下一个句子预测:这是一个二元分类任务,模型接收成对的句子作为输入,第二个句子是正确的句子或从另一个文档中随机选择的句子。BERT学习预测正确的后续句子。这样可以更好地理解句子之间的关系。2.7. Electra我们将要讨论的另一种语言模型,ELECTRA是“高效学习一个能准确分类令牌替换的编码器”的缩写作者在[22]中还介绍了一种类似于BERT的基于transformer的语言模型,但提出了一种新的更有效的预训练方法他们建议替换令牌检测,而不是BERT中存在的MLM任务。类似于GAN训练过程[23],生成器随机地用假的高质量单词替换令牌。然后训练一个神经网络来预测每个令牌是原始的还是被替换的。因此,ELECTRA从所有输入令牌中学习,而不是仅从掩码令牌中学习,这导致了一个成本更高、计算效率更高的模型,在许多下游任务中优于BERT [22]。重要的是要注意,这种方法不是对抗性的,因为产生损坏令牌的生成器是用最大似然训练的。2.7.1. 深度学习在简答题评分中的应用基于transformer的语言模型为NLP中的transfer学习开辟了道路。这些模型已经针对下游任务进行了微调,并在大多数NLP任务中取得了最先进的结果[21]。 深度学习在开发简答题评分系统方面的研究很少,只有少数使用模型,如BERT和ELECTRA。具有注意力的双LSTM被证明是手头任务的有力候选者[6]。他们取得了可喜的成果,Kaggle ASAP-SAS数据集的二次加权Kappa(QWK)为0.723。1在同一数据集上,[24]使用了不同的架构,如CNN,LSTM和BERT,报告的QWK分别为0.62,0.65和0.71,BERT实现了最佳性能。2.8. 阿拉伯语简答题评分只有少数阿拉伯语简答题评分系统存在,其中大多数是基于基于参考的方法。作者在[25,26]中提出了一个有前途的基于参考的阿拉伯语简答评分系统,该系统具有基于分数相似性的有效反馈。他们提出了基于字符串的相似性和基于语料库的相似性,以及一种混合方法来比较学生答案和参考答案之间的相似性。表2和表3提供了为英文和阿拉伯文简答题评分所做的一些工作。以前的工作没有使用相同的数据集。我们展示了每一篇论文,使用的方法和获得的结果。[28] 介绍了最新的基于阿拉伯文参考的简答题评分系统。所提出的模型依赖于标记化,停止词去除,并检索词根和同义词的每个关键字在学生两个答案都是表3英语简答题自动评分系统.作者接近精度[29]答复率77.4%[30]参考88%[3]响应MSE= 0.321[31]参考RMSE= 0.91表示为各自的向量。因此,计算两个答案之间的余弦相似度,并将其用于类别/年级预测。作者在[32]中提出了一个基于响应的系统,使用word2vec和简单的模型,如SVM,随机森林和小型多层感知器。虽然他们在不同的数据集上进行了实验,但他们已经显示出了有希望的结果,并激励使用更大的最先进的神经网络进行阿拉伯语简短答案评分。据我们所知,神经语言模型和语境化嵌入尚未被用于阿拉伯语自动评分系统,我们认为这是由于以前缺乏足够的阿拉伯语资源。我们发现这是一个很好的机会,可以调查阿拉伯语NLP中最近的深度学习进展,以实现自动化的简短答案评分系统。3. 数据集我们在ASAP Short Answer Scoring数据集上进行了所有实验(在第5节中详细讨论),这是一个公开的数据集,来自Kaggle之前举办的自动评分比赛。该数据集是通过扫描针对10年级学生的分级考试及其各自的答案,然后使用OCR工具收集的将扫描的答案转换为文本。 由于我们的工作范围是阿拉伯语,因此我们使用Google Translate API2将数据集从英语翻译为阿拉伯语。 毫无疑问,使用机器翻译不是一个可扩展的解决方案。这是以损失一些数据质量为代价的,并且翻译大量数据可能会变得非常昂贵。 选择翻译数据集的原因是缺乏任何公开可用的阿拉伯语简答题评分数据集。我们发现,唯一公开可用的阿拉伯语数据集是AR-ASAG[33]数据集,仅包含2133名学生的答案,跨越48个问题,更适合于2中讨论的基于参考和语义相似性的任务。该数据集包含一组学生对10个不同问题/提示的答案,包括各种主题,从阅读理解问题到科学和生物问题。一个整体评分方案是由两个评分员,其中最低等级是0,最高等级是3。图1示出了答案频率分布,每个问题对应大约1600个答案,总共17205个答案。图2,我们还显示了每个分数的频率。我们可以明确地观察到分数之间的班级不平衡,这是合乎逻辑的,因为获得满分的学生人数将远远少于获得1分的学生。我们进一步在图中展示了数据集之间的类不平衡。二、例如,我们发现,对于某些问题,一个得分为3,在一些问题中,主要得分为1。这是一个预期的观察结果,因为不同问题的难度不同。关于我们如何处理类不平衡的细节将在第5节中讨论。我们还在图3中以图形方式呈现了答案序列长度的频率分布。平均序列长度为40,最大长度为250。当微调我们的模型以设置最大序列长度时,将使用该信息(参见表4)。1 https://www.kaggle.com/c/asap-sas。2 https://cloud.google.com/translate/docs/advanced/batch-translation。O. Nael等人阵列13(2022)1001094Fig. 1. 每个提示的答案数。图三. 序列长度分布。见图4。 ELECTRA架构。表4图二. 分数分布。案文[21]。也就是说,像“eating "这样的单词因此,看不见的单词已经被有效地处理3.2. 评估指标自动评分系统的输出可以与人类注释者使用各种相关性或一致性度量分配的分数进行比较。我们使用二次加权Kappa(QWK),这是在原来的ASAP-SAS Kaggle比赛中采用的,每个提示的分数。问题0 1 2 31 380 429 524 3392 168 326 466 3173 451 999 4414 669 937 1325 1391 328 42 346 1515 160 71 517 932 448 4198 549 473 7779 434 742 62210 289 770 580-3.1. 数据预处理对实验进行了不同的预处理步骤。对于我们的基线模型,由TF-IDF矢量化器和SVM组成,我们首先清除了文本中的任何数字和符号,以及翻译过程中的一些工件,在那里我们发现了一些随机的英文字母和未翻译 的 单 词 。 下 一 个 预 处 理 步 骤 是 使 用 Farasa[13] 进 行 词 形 化 。Lemmatizing是一个关键的规范化步骤,它大大减少了TF-IDF向量的大小,以尽可能避免稀疏性在BERT和ELECTRA上运行我们的实验时,进行了光预处理。使用相同的清洁过程,但我们没有进行任何lemmatization。我们认为,当微调trans-former模型时,从词形化获得的性能增益将是微不足道的,因为它们通常是在原始文本上预训练的。我们选择的另一个依据是在标记化输入时使用字节对编码广泛用作此类系统的评估指标[34]。4. 方法4.1. RNN模型使用了多种基于RNN的模型,如标准RNN,LSTM和Bi-LSTM。所有模型由5层组成。第一层由128个单位组成,具有sigmoid激活函数,然后是0.2的dropout层。第三层由64个具有S形激活函数的单元组成,然后是另一个0.2的dropout层。 第五层是一个密集层,有4个输出单元,到数据集中的4个可能的类,使用softmax激活函数。预训练的句子嵌入是使用通用句子编码器生成的[35]。4.2. 伯特·伊莱克特拉作者在[7,8]中介绍了BERT和ELEC- TRA的阿拉伯语版本。它们在77 GB的原始文本上进行了预训练。他们使用了2020/09/01的阿拉伯语维基百科转储,15亿单词的阿拉伯语语料库[36],OSCAR语料库和OSIAN语料库[37]。在第2节中描述的ELECTRA的预训练过程之后,BRAD用于下游任务,其与BERT具有相同的架构,区别在于预训练过程(见图2)。4)。它们提供基本和大型架构,基本架构具有12个Transformer块、12个注意力头和1.36亿个参数,大型架构具有24个Transformer块,O. Nael等人阵列13(2022)100109524个注意力头和3.71亿个参数[7]。我们选择了基础架构,因为它在计算上更有效。每个输入序列的第一个标记是特殊的分类标记-[CLS]。此标记最初用于2中讨论的Next Sentence Prediction任务,作为整个序列表示的聚合。它包含一个768维的上下文嵌入序列/句子。这个令牌的输出被进一步利用在所有下游分类任务中。为了微调BERT和ELECTRA进行分类,将一个额外的输出层添加到BERT层,它接收[CLS]令牌作为输入。作者在[38]中研究了层冻结,以减少微调时可训练参数的数量。他们观察到,当错误通过所有层“反向传播”时,可以实现最佳性能 这是以最慢的微调方法为代价的。因此,最快的方法是冻结所有层并仅使用BERT嵌入,但[38]中的结果表明该方法性能较差。因此,我们使用所有12层,以确保最高的质量。5. 实验在本节中,我们使用三种不同的模型详细描述了实验装置。在我们继续讨论模型之前,我们将首先讨论在所有实验中控制的测试验证方法。由于测试集尚未发布,因此我们在进行任何模型训练之前将20%的训练数据拆分,作为最终的评估方法。此外,我们在训练过程中使用了5折交叉验证。为了解决图2所示的类别不平衡问题,我们使用scikit-learn库进行分层分割,以确保所有分割都能适当代表原始数据。每个模型都使用两种不同的方法进行训练。第一种方法是在每个问题上单独训练模型,另一种方法是在整个数据集上一次训练模型,包括问题ID,特征向量。5.1. 基线两种基线方法用于比较。使用SVM与TF-IDF向量化器配对的经典ML方法,以及基于参考的方法。之所以选择这两个基线实验,是因为事实上,以前的大多数工作都是针对英语实施的,而针对阿拉伯语的工作使用了不同的数据集和评分方法。因此,我们使用与先前工作2中存在的类似的标准基线技术,以便尽可能进行公平的比较,特别是对于阿拉伯语,因为之前没有研究过神经网络自动评分。基于参考的实验定义如下,从每个问题的最高得分答案中挑选随机参考答案,然后计算输入与参考答案的余弦相似度。为了使分数标准化,我们使用以下量表。余弦相似性分数0-0.25将输出0,0.25-产出3.第二基线实验定义如下。我们先训练一个TF-IDF矢量化器。 然后我们用合成向量作为SVM分类器的输入。我们使用网格搜索进行超参数优化。我们搜索中的超参数是核、正则化参数C和核系数gamma。我们对QWK评分进行了优化。以下是每个超参数的值1. 内核:[线性,多边形,rbf,sigmoid,预计算]。2. 正则化参数C:[0.001,0.01,0.1,1,10],然后搜索[10.070,10.074,10.075,10.1,10.125]。图五. 培训/验证丢失。3. Gamma:[0.001,0.01,0.1,1,2],然后搜索[0.165,0.175,0.108,0.11,0.2]。在进行网格搜索之后,选择以下参数:使用的内核是径向基函数,正则化参数设置为10.74,Gamma参数设置为0.108。5.2. RNNs所有3个基于RNN的模型都使用相同的超参数。使用具有早期停止功能的1 e-4的学习速率。我们还使用了批量大小为32,稀疏分类交叉熵作为损失函数。“use bias”超参数设置为true,使图层使用偏置向量。忘记偏差也被设置为真,以将1加到 初始化时遗忘门的偏置,并设置偏置初始化器变成零最后,使用的优化器是Adam。5.3. 微调我们遵循作者在[21,22]中推荐的默认微调策略。建议的超参数如下:• 学习率(Adam):2 e-5、3e-5或5e-5。• 批量:16、32或64。• epoch的数量:2我们手动调整建议参数上的超参数,并设置固定的4个epoch,同时观察训练/验证损失图以确定epoch的最佳数量。BERT架构容易出现过拟合,在小数据集上训练时,它们通常在4个时期之前收敛。这可以在图中观察到。5,这是从一个随机样本运行中提取的折叠。模型在第三个时期之后开始过拟合,验证损失开始趋于平稳,而训练损失仍在减少。另一个有趣的观察是,在检查我们的图时,我们发现验证损失总是以比火车损失更小的值开始。这在训练模型时并不常见,但我们推测这可能是由于训练模式和评估模式之间的设置不同。 BERT和ELECTRA都使用dropout作为正则化的一种手段,仅在训练时使用。因此,由于未使用dropout,因此导致比验证更大的损失在评估中。不过,还需要进一步调查。BERT的最佳超参数集如下:使用5e-5的学习率批次大小设置为32,发现最佳时期数为3。此外,ELECTRA的最佳超参数集如下:使用2 e-5的学习率。同样,批量大小O. Nael等人阵列13(2022)1001096|∑表5参数值。参数值核函数采用径向基函数正则化参数10.74伽马参数0.108RNN学习率1e−4批量32损失函数稀疏 分类交叉熵时代4BERT学习率5e−5批量32时代3ELECTRA学习率2e−5批量32时代3见图6。 输入令牌。被设置为32,并且发现最佳时期数为3。亚当优化器用于两个实验。表5显示了一些参数值。我们还需要确定输入序列的长度。两个BERT 和ELECTRA具有512的最大输入序列长度。因此,我们根据图1中的值设置序列长度。3.一种方法是使用平均序列长度(4×0)来设置序列长度,这减少了计算时间,但也可能导致严重阻碍数据质量。因此,我们使用数据中最大的序列长度(2* 50)来尽可能多地保留数据。这导致我们的输入中有许多零填充6幸运的是,paddings被定义为[PAD]标记,这些标记在训练时被检测到并且没有影响。由于当前的任务是多类分类问题,因此输出层被定义为softmax分类器层:������������������������������������(其中h是第一个标记[CLS]的隐藏状态,W是任务特定参数矩阵,p是类c的概率。我们使用分类交叉熵损失来训练所有层,以输出每个答案在K个类别损失的定义是:������标准RNN、LSTM和Bi-LSTM在每个问题和整个数据集上训练时的得分相似。在每个问题上训练时的平均得分约为0.65,而在整个数据集上训练时的QWK得分约为0.7。BERT和ELECTRA在对每个问题和整个数据集进行训练时,性能都有显着提高。对单个问题的训练导致QWK得分约为0.7,对整个数据集的训练导致QWK得分约为0.77。最后,与单独训练每个问题相比,一次性训练整个数据集上的模型也被证明是更好的方法。7. 讨论在所提出的工作中,不同的模型进行了研究,以实现使用阿拉伯语翻译版本的Kaggle ASAP-SAS数据集的分级系统。首先,由TF-IDF + SVM和基于余弦相似性参考的系统组成的基线实验显示出性能不足。 我们认为, 报告的结果是由于基线方法未能准确地表示答案并在它们之间建立关系我们在第2节中讨论了阿拉伯语面临的挑战。阿拉伯语的本质是高度依赖于一个句子的上下文,如果上下文 没有被考虑在内。我们推测TF-IDF未能解决这个问题,实现了低于标准的性能,既低于建议的QWK分数,并显着低于其他模型。使用具有余弦相似性的基于参考的系统也显示出不期望的结果。这是因为基于参考的系统无法捕捉学生答案中的模式。基于参考的系统在对与参考答案具有相同等级的答案进行评分时表现得更好。当目标向量远离参考答案的类时,性能显著下降。例如,基于参考的系统无法准确区分0级和1级的答案,而这两类中的模式可以很容易地被机器学习模型捕获。值得注意的是,基于参考的系统比基于模型的系统有一些优势。首先,它们更容易实现,不需要培训。其次,计算余弦相似度是一个简单的操作,从而导致更快的推理时间。第三,参照系统与基线模型相比,基于RNN的模型显示出性能的显着提高。 虽然LSTM和Bi-LSTM通常性能优于标准RNN模型,它们的得分非常相似������=−(���)(2)���彼此之间这可能是由于数据集中的答案是长度相对较短,使得标准RNN足以用于其中,K是类别的数量,概率p的对数乘以地面实况标签。���6. 结果我们的结果见表6。该表显示了所使用的模型,每个问题单独训练的相应分数,整个数据集的训练,以及所有问题的平均QWK。在我们开始比较之前,重要的是要注意,任务BERT和ELECTRA都显示出有希望的结果,并且比基线模型好得多。这可能是由于两个模型都是双向的,如第2节所讨论的。 它们擅长捕捉序列的上下文并产生准确表示任何给定序列的高维嵌入,而不是TF-IDF。此外,从巨大的���������������������两个注释器之间的最小值为0.91。此外,作者大量的通用语言语料库表明,提供了比训练更好的起点和模型初始化在[34]中,声称自动化系统和人类注释者之间的QWK应该至少为0.70。我们可以观察到BERT和ELECTRA的表现比基线对应模型要好得多,并且比标准深度学习模型有了显着的改进。基线模型的平均QWK是0.503,这比自动化系统的建议QWK值低得多,使其成为一个可能不会对学术设施有很大的兴趣一个神经网络从头开始执行某个任务,因为预训练的模型已经学习了很多关于给定语言的知识。如第5节中讨论的实验设置所解释的,使用 一个简单的softmax分类层在一个预训练的语言模型之上,具有最小的微调,产生的结果是可比的,并且在大多数情况下比从下到上构建网络更好[6],然后探索广泛的超参数。 这是迁移学习的核心。O. Nael等人阵列13(2022)10010972 0.52 0.56 0.47 0.51 0.51 0.69 0.682019 - 04 - 25 0.51 0.65 0.63 0.64 0.65 0.662019 - 06 - 25 0.43 0.45 0.62 0.65 0.65 0.62 0.632019 - 05 - 28 0.38 0.49 0.51 0.52 0.68 0.80 0.812019 - 04 - 26 0.80 0.81 0.84 0.862019 - 04 - 26 0.42 0.44 0.70 0.650.50 0.48 0.53 0.55 0.53 0.520.45 0.53 0.73 0.75 0.74 0.7610 0.47 0.52 0.72 0.71 0.68 0.70电话:+86-021 - 8888888传真:+86-021 - 88888888���������整个数据集0.46 0.55 0.71 0.70 0.72 0.77 0.78最后,我们进一步验证了ELECTRA在大多数下游任务中表现优于BERT的原因[22],其中该方法 预训练的大小对模型在下游任务中的表现有很大的影响。在第2节和第4节中提出的ELECTRA的替换标记检测预训练方法证明,从所有单词中学习[22]确实比使用MLM和NSP的BERT产生更好的结果。此外,BERT中的MLM任务会导致预训练微调令牌不匹配[21]。预训练中使用的[MASK]标记在微调时不存在。这进一步验证了ELECTRA相对于BERT的性能增益。此外,我们无法进行受控性能分析。我们所有的实验和训练都是在Google Colab上进行的,3并且根据可用性和需求在不同的时间提供不同的GPU。一般来说,基线模型显然是最有效的选择,而ELECTRA的训练时间通常比BERT快。这在预训练时最为突出,其中ELECTRA需要大约1/135的BERT预训练计算,并且可以在单个GPU上进行预训练[39]。最后,在使用我们提出的方法时,需要解决一些实际问题和限制。首先,我们提出的系统是在翻译文本上进行训练和评估的,翻译文本在语法上与实际的阿拉伯文本不同,但大多数情况下具有相同的语义特征,这实际上是手头任务的主要特征。 虽然翻译文本中的这些不一致可能不会造成很大的问题,但对翻译文本的训练模型的效果进行深入分析将有助于确定报告结果与生产环境中的实际性能相比的可靠性。其次,训练模型将仅针对固定的一组问题进行泛化,因为它仅针对相应的答案进行训练。这意味着每次考试都需要进行相同的考试,这是教师通常不喜欢的做法,因为他们想测试学生的实际理解和知识,而不是他们记住以前考试的能力,这些考试很容易随着时间的推移而泄漏。第三,模型的可解释性和可解释性将是使用该系统的一些实体的重要关注点。教学/学习经验的一部分是给予和接受反馈,并反映学生的弱点。如果学生盲目地得到一个数字分数,而老师不理解系统如何对给定的答案得出具体的结论,这是无法实现的。但是,重要的是要注意,反馈和答案分析并不是一般情况,并且根据教育环境(MOOC,学校,大学等)的不同而有很大差异。以及为学生提供的服务,快速可靠的评分有时比提供个人反馈更重要。8. 结论我们通过使用基线模型、RNN、LSTM、Bi-LSTM和两个3 https://colab.research.google.com/。基于transformer的语言模型,即BERT和ELECTRA。因此,我们报告了手头任务的最佳系统, 使用ELECTRA实现,QWK评分为0.78。我们的主要贡献是使用深度学习预训练语言模型研究第一个基于深度学习的阿拉伯语简答评分系统,同时还强调了最近阿拉伯语NLP工具的进步,这些工具在我们的任务中表现出色9. 今后工作在未来,我们计划收集一个足够大的阿拉伯语数据集和质量将是阿拉伯语NLP社区的极大兴趣。此外,我们开始研究正式的方法来验证翻译的数据集,以确保翻译不会影响准确性和质量。此外,特定领域语料库上的进一步预训练语言模型已被证明具有巨大的潜力[40],例如[41]中提出的工作,他们进一步预训练BERT的英语教育内容。对于阿拉伯语模型,也可以通过收集阿拉伯语教育/科学书籍作为预训练数据和其他模型(如ELECTRA)来完成,从而产生可以用于广泛教育应用的模型。唯一的缺点是预训练的计算成本。CRediT作者贡献声明Omar Nael:概念化,方法论,软件,验证,形式分析,调查,资源,数据管理,写作方法论,软件,数据管理,写作-原始草稿.Nada Sharaf:概念化,方法论,验证,形式分析,调查,资源,撰写竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]Gomaa W , Fahmy A. Ans2vec : 一 个 简 短 答 案 的 评 分 系 统 。 2020 , 第586http://dx.doi.org/10.1007/978-3-030-14118-9_59[2]Olowolayemo A,Nawi SD,Mantoro T.以文本相似度为基础的英语语法简答题评分 。 2018 年 国 际 计 算 机 、 工 程 和 设 计 会 议 。 2018 , p. 131-6.http://dx.doi.org/10.1109/ICCED的网站。2018.00034。[3]放大图片Madnani N,Loukina A,Cahill A.内容评分建模策略的大规模定量探索。载于:第12次研讨会会议记录创新使用nlp建立教育应用程序。2017年。p.457比67表6结果问题基于参考SVMRNNLSTMBi-LSTM伯特Electra10.590.550.710.750.740.770.81O. Nael等人阵列13(2022)1001098[4]Ruder S,Peters ME,Swayamdipta S,Wolf T.自然语言处理中的迁移学习。在:计算语言学协会北美分会2019年会议论文集:教程。Minneapolis,Minnesota:AssociationforComputationalLinguistics;2019,p.15-8.http://dx.doi.org/10.18653/v1/N19-5004,URLhttps://www.aclweb.org/anthology/N19-5004。[5]Ke Z , Ng V. Automated essay scoring : A survey of the state of the art. In :Proceedings of the Twenty-Eighth International Joint Conference on ArtificialIntelligence. 人 工 智 能 组 织 国 际 联 合 会 议 ; 2019 年 , 第 6300-8 页 。http://dx.doi.org/10.24963/ijcai.2019/879网站。[6]Riordan B,Horbach A,Cahill A,Zesch T,Lee CM.研究简答题评分的神经结构。 在:第12届研讨会的会议记录,创新使用NLP构建教育应用程序。哥本哈根 , 丹 麦 : 计 算 语 言 学 协 会 ; 2017 年 , 第 159-68 页 。 http : //dx.doi.org/10.18653/v1/W17-5017,URLhttps://www.aclweb.org/anthology/W17-5017。[7]Antoun W,Baly F,Hajj H. AraBERT:基于transformer的阿拉伯语理解模型。在:关于开源阿拉伯语语料库和处理工具的第四次研讨会的会议记录,共同任务是 冒 犯 性 语 言 检 测 。 法 国 马 赛 : 欧 洲 语 言 资 源 协 会 ; 2020 年 , 第9https://www.aclweb.org/anthology/2020.osact-1.2[8]Antoun W,Baly F,Hajj H. Araelectra:用于阿拉伯语理解的预训练文本判别器。第六届阿拉伯语自然语言处理研讨会论文集。乌克兰基辅(虚拟):计算语言学协会; 2021年,第191-5页https://www.aclweb.org/anthology/2021.wanlp-[9]张文龙,王文龙,王文龙.有效的功能集成,用于自动化简短答案评分。在:计算语言学协会北美分会2015年会议论文集:人类语言技术。2015. p. 1049-54[10] ElNaka A,Nael O,Afifi H,Sharaf N. Arascore:调查基于回答的阿拉伯语简短答案评分。Procedia Comput Sci 2021;189:282[11] Mayfield E,Black AW.你应该微调BERT自动作文评分吗?在:第十五次研讨会
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功