DeepEva：意大利语和英语句子复杂性评估的深度学习方法

92 浏览量更新于2023-12-05 收藏 12.44MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

(http://creativecommons.org/licenses/by-nc-nd/4.0/).0Array 12（2021）1000970。本是CC BY-NC-ND许可下的开放获取文章0目录可在ScienceDirect上找到0Array0期刊主页：www.elsevier.com/locate/array0DeepEva：一种用于评估意大利语和英语句子复杂性的深度神经网络架构0Giosué Lo Bosco a，d，Giovanni Pilato b，�，Daniele Schicchi c，d0a意大利巴勒莫大学数学与计算机科学系，Via Archirafi 34，90123 Palermo，Italy b意大利国家研究委员会，高性能计算与网络研究所，Via Ugo LaMalfa 153，90146 Palermo，Italy c意大利国家研究委员会，教学技术研究所，Via Ugo la Malfa 153，90146，Palermo，Italyd地中海科学与技术欧洲地中海研究所，Via Michele Miraglia 20，90139，Palermo，Italy0文章信息0关键词：文本复杂性评估，自动文本复杂性评估，文本简化，人工智能，深度学习，自然语言处理0摘要0自动文本复杂性评估（ATE）是一个研究领域，旨在创建新的方法，使文本复杂性评估的过程自主化，即研究文本语言特征（例如词汇、句法、形态）以衡量文本的可理解程度。ATE可以积极影响金融、健康和教育等多个不同的领域。此外，它可以支持自动文本简化（ATS）的研究，这是一个研究领域，涉及研究通过改变词汇和结构来满足特定读者需求的文本转换的新方法。在本文中，我们介绍了一种名为DeepEva的ATE方法，这是一个基于深度学习的系统，能够根据其复杂性对意大利语和英语句子进行分类。该系统利用了Treetagger注释工具，两个长短期记忆（LSTM）神经单元层和一个全连接层。最后一层输出句子属于“易”或“复杂”类的概率。实验结果显示了该方法对两种语言的有效性，与支持向量机、梯度提升和随机森林等多个基线进行了比较。01. 引言0近年来，与自然语言处理（NLP）问题相关的解决方案显著增长。这些解决方案各不相同，涉及不同的主题，如计算创造力[1]，教学支持系统[2-4]，机器翻译[5]，语义分析[6]，健康支持系统[7]等。自动文本简化（ATS）是一项自然语言处理任务，其主要目的是以自动方式转换文本，使读者更容易理解，尽可能保留内容的原始含义。语言障碍、低阅读能力或缺乏特定语言知识的人群是可以从ATS系统中受益的用户类别。目前，与ATS相关的研究涉及开发智能系统，能够自动简化文本。在这种情况下，自动文本复杂性评估（ATE）是与文本简化系统开发相关的一个重要研究领域。ATE系统分析文本的特征，这些特征代表其复杂性，并将其与与之相关的特征联系起来0� 通讯作者。电子邮件地址：giosue.lobosco@unipa.it（G. Lo Bosco），giovanni.pilato@icar.cnr.it（G. Pilato），daniele.schicchi@itd.cnr.it（D.Schicchi）。1 http://www.libertaciviliimmigrazione.dlci.interno.gov.it/it/documentazione/statistica/cruscotto-statistico-giornaliero0用户的阅读能力。ATE能够识别文本是否已适合读者，或者需要简化。如果文本被判断为过于困难，文本应该被修改，例如通过改变词汇或句子的语法来使文本复杂度适应用户的阅读能力。ATE系统不仅与ATS活动相关：它可以作为独立系统用于许多不同的情境。对文本复杂度的自动评估可以被需要与不同社区交流的人士作为支持系统。教育工作者是需要ATE系统的人的一个例子，因为他们经常制作教育材料，可以被语言问题的学生使用，比如那些受到诵读障碍、聋哑或失语症影响的学生。在这方面，ATE在起草过程中通过建议简化文本来支持教育工作者。此外，自2017年以来，意大利发生了大规模的移民潮。这些现象增加了课堂内非母语学生的数量，他们必须应对语言理解问题。需要支持的学生增加了对教育工作者的努力，以0https://doi.org/10.1016/j.array.2021.1000972021年8月1日收到；2021年9月28日接受22 https://www.oecd.org/skills/piaac/Country%20note%20-%20Italy%20(ITA).pdf0Array 12 (2021) 1000970G. Lo Bosco等人0准备教育材料，这增加了ATE工具的价值。0尽管投资改善了学校系统，使0尽管几乎每个人都可以获得教育，但仍有高比例的人口阅读能力较差。已经进行了统计调查，评估了24个OCSE国家的识字能力。研究将意大利列为识字能力最差的国家。与此同时，英格兰/爱尔兰和美国分别排名第15和第17位，显示了对意大利和英语语言的简化工具的需求。0在本文中，我们提出了克服经典问题的解决方案0利用深度学习和一种名为Treetagger的有效解析工具来评估文本复杂度的措施。通过利用包括读者技能描述的数据集进行学习过程，识别使句子不适合读者的方面。系统通过使用Treetagger提取句子的词性来考虑句法特征。相反，它利用RNN来提取文本复杂性的最重要方面，有助于将句子分类为难以理解（即句子不符合读者技能）或易于理解（即句子适合读者）的两种语言。网络的架构使用两个长短期记忆（LSTM）神经单元层和一个全连接层。LSTM层通过利用其记忆输入序列排列的能力来分析词汇和句法特点。表示提取的特征的输出刺激下一层，使用softmax激活函数激活，给出句子属于两个类别之一的概率。0实验结果突出了系统对ATE任务的适应能力。0这样的系统在英语和意大利语的F1-Score度量上取得了重要的值，突显了它在解决多种语言问题方面的多功能性。0本文结构如下：第2节我们将参考文献0ATE的内容，第3.1节和第3.2节描述了系统，重点放在NN架构上，第4节提供了用于训练NN和评估其性能的实验所使用的语料库的信息；第5节提供了关于NN有效性的讨论。最后，结论在第6节给出。02. 文献综述02.1. 历史测量0ATE是一个相关的研究课题，已经被研究了0自1893年以来，英语是第一个重要尝试解决这个问题的语言，研究人员开始研究其他语言的ATE，比如意大利语。01943年，鲁道夫∙弗莱什创建了一个可读性公式，其中包括0考虑了三个语言元素：平均句子长度（以单词计），词缀数量和对人的引用数量[10]。这样的公式成为了最先进的技术。它被用来控制不同环境下的文本复杂性，比如报纸报道、政府出版物和成人教育材料。同样，1969年，博莫斯[11]创造了一个统计公式，利用了平均句子长度，不在四年级学生知道的词汇表上的单词数量，以及每个单词的字母数量。01975年，受到原始Flesch公式的启发，0创建了Flesch-Kincaid可读性指数（FKI）[12]，这是评估文本复杂性最常用的指数之一。它基于三个常见的可读性公式：自动可读性指数、雾计数和弗莱什阅读便利性。它是在军事环境中开发的，旨在帮助海军学员的培训。0它结合了三个常见的可读性公式：自动可读性指数、雾计数和弗莱什阅读便利性。它是在军事环境中开发的，旨在帮助海军学员的培训。01986年，Roberto Vacca为意大利语改编了FKI0创建了Flesch-Vacca指数（FVI）[13]，专门评估意大利文本的复杂性。另一个用于衡量意大利文本复杂性的历史指数是GulpEase（GE）[14]。01989年，Lexile框架诞生，这是一个使用句子长度的公式0并且开发了一个使用词频的公式[15]。该公式使用1000个Lexile点（从200到1200），其中200是一年级，1200是十二年级水平。0仅涉及句子长度和音节数量的使用。这些不足以涵盖表征文本复杂性的所有因素。因此，它们已经过时，研究人员已经开始探索新的方法来评估文本复杂性。0所描述的公式最重要的缺点是0与仅使用表面特征如句子长度和音节数有关。这些不足以涵盖表征文本复杂性的所有因素。因此，它们已经过时，研究人员已经开始探索新的方法来评估文本复杂性。02.2.现代测量0传统可读性指数的缺点被克服了0使用认知研究来了解读者如何与文本互动。这些研究得出结论，文本理解的评估不能仅使用表面特征，而必须包括心理语言学特征，如文本连贯性、句法分析、与解码相关的测量和意义构建。0在[17]中，利用CohMetrix来衡量英文文本的可读性0对于学习第二语言（L2读者）依赖于文本连贯性的学生来说，它整合了许多深层次因素，如语义词典、词性标注器和其他计算语言学组件，允许对与文本处理和阅读理解相关的特征进行检查。0根据Pro-发展了有意义的可读性指数0类型理论[18]，该理论指出最易读的单词代表人类与之交互的对象。例如，吉他比其上位词“弦乐器”和下位词“原声吉他”更易读。然后，Wordnet[19]被利用来研究这些单词之间的关系，以建立一个与基本词、上位词和下位词相关的易读性度量。30数组12（2021）1000970G. Lo Bosco等人0比其上位词“弦乐器”和其下位词“原声吉他”更易读。然后，Wordnet[19]被利用来研究这些单词之间的关系，以建立一个与基本词、上位词和下位词相关的易读性度量。0已经探索了用于创建语言0特定年级水平的模型。适用于特定类型读者的大型语料库的分析，使我们能够发现表征他的能力的特征。在[20]中，通过使用简单的统计语言模型和表面语言特征来评估网页的阅读难度。已经使用贝叶斯分类的扩展来结合多个语言模型来确定文本复杂性[21]。在[22]中，语法和词汇特征被结合起来估计阅读难度，以胜过仅基于语法或语言建模方法的模型。在[23]中，可读性问题被建模为一项文本分类任务，使用基于多项式朴素贝叶斯分类器变体的统计语言模型来解决。这样的模型已被用于通过检查其阅读难度来对网页进行分类。在[24]中，利用统计模型相关联了词汇（即单词单元的相对频率）和语法特征（即从句子的自动上下文无关语法解析中提取的特征），以建立一个可读性度量。该研究比较了线性回归、多类逻辑回归和比例几率，以选择最适合问题的模型。统计模型已被广泛用于评估财务披露的可读性，因为它们的写作方式和内容理解影响了对产品投资的决定[25,26]。0可能涉及的多种类型和特征的性质0在文本复杂性评估中，建议使用机器学习模型可能通过其学习过程捕捉特征之间的关系。遵循这一建议，提供了几个监督模型。在[27]中，使用简单英语维基百科和维基百科创建了一个包含分别标记为简单和困难的句子的语料库，然后提取了词汇、句法和心理语言学特征，以训练SVM模型，用于基于难度对句子进行分类。在[28]中，使用依赖树和语义网络构建了一个可读性指数，其中诸如句子长度、词长和词频之类的特征通过使用最近邻算法相关联。研究表明，深层句法和语义特征有助于更好地表示读者在理解文本时的困难。在[29]中，提出了一种随机梯度下降分类器，用于对复杂和简单句子进行二元分类。算法的训练是在通过massAlign[31]系统对Newsela[30]的句子进行对齐创建的特定语料库上进行的。在[32]中，使用词长、句子长度、词性计数、常用词频率、医学概念密度、特异性和模糊性等特征，训练了六种不同的ML算法，用于预测健康文本的难度。在[33]中，提出了一种依赖一组特征支持文本简化过程的新可读性评估方法，该方法使用认知动机的度量标准来支持低识字读者的文本简化过程。评估是通过标准分类器、序数（排名）分类器和回归器进行的。最佳模型然后嵌入到一个高效的文本简化系统中。0开发了一个强大的系统，用于测量句子复杂性0意大利语是READ-IT[34]。READ-IT是一个基于SVM的系统，能够考虑影响句子复杂性的许多文本特征。训练阶段是通过利用被认为对70%意大利人难以理解的Repubblica报纸和被推荐给低识字读者的DueParole文章进行的。从意大利语句子READ-IT提取了原始、词汇、形态句法和句法特征，用于训练SVM以识别难以理解和容易理解的句子。它提供了一个复杂性得分，表示句子属于两个类别的概率。在软件代码可读性评估的背景下，在[35]中0测试了许多分类器，以发现影响软件质量的代码编写特征，并创建可读性度量。该研究提出了一个软件可读性的描述性模型，与120名人类注释者的判断强相关。0作者们探讨了句子复杂性评估0将其解释为分类问题。目的是基于词汇和句法特征将句子分为两类。我们选择了NN模型，因为它们已经成功地被用作监督分类模型，在许多情境中展示了它们的力量。此外，它们使得能够克服特征提取阶段的弱点，因为模型本身会自动完成。在[36]中，对词汇和句法特征进行了评估，分析句子作为标记序列，其中标记可以是单词或标点符号。该系统具有一个预处理阶段，将句子表示为一系列实数向量，并使用递归神经网络（RNN）分析序列，以了解使句子难以理解或容易理解的特点。根据计算的测试，系统的性能与READ-IT的性能一致，READ-IT是用于测量意大利语文本复杂性的最先进系统，将其确定为测量意大利语句子复杂性水平的良好替代方案。0基于NN架构开发了一个系统0测量句法复杂性[37,38]。这类系统可以用于支持为理解句法结构存在问题的人创建文本的作者。该系统对意大利语和英语均表现良好，显示了NN模型对解决不同语言问题的高度适应性。开发的模型已与SVM基线系统进行了比较，在英语语言方面取得了与NN模型相当的性能，但在意大利语方面没有。0为了提高NN模型的性能，作者们调查了0如何评估文本复杂性与表示令牌的关系[39]。该论文描述了一系列实验，通过相同的模型进行文本复杂性的评估，但采用不同的令牌表示方法。结果表明，文本复杂性评估的问题主要受模型架构的影响，而不是句子元素表示方式的影响。0ATS系统对目标读者非常适用，以增强TS研究领域。除了已经描述的系统外，还存在其他专门为此目的创建的度量标准，如FKBLEU和SARI[40]。FKBLEU试图将Flesch-Kincaid指数与著名的BLEU指数的扩展结合起来，以创建一种新的测量方法，能够捕捉简化文本的可读性和适当性。SARI指数考虑了系统在添加、删除或保留支持简化的单词方面的表现，它采用基于奖励的方法来评估系统。03. 方法0我们提出了DeepEVA，一个文本复杂度评估系统0根据难易程度对句子进行分类。系统由两个主要模块组成：预处理和分类模型。预处理模块丰富了句子的词性，并处理了使其适合分类器分析的句子的适应性。预处理的最终输出是以向量形式表示的数据。第二个模块是基于RNN的监督分类器，它通过检查标记的句子来学习如何区分难以理解的句子和易于理解的句子。我们的系统结构如图1所示。43 https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/italian-tagset.txtthere exist another tag-set file created by Baroni4 that we have not usedfor our experiments. The reason justifying this choice can be foundin [37] where the authors show that the Stein configuration file is moresuitable for the problem we are tackling.The same procedure has been done for the English language. Wehave used Treetagger for tagging the English sentences that will beelaborated by the model. The configuration file utilized for this processis the one trained on the British National Corpus named BNC tag-set.5The tag-set is composed by 61 tag including, inter alia, 25 differentcategories of verbs, adverb, noun, 4 different punctuation marks types,prepositions and 4 classes of nouns.After the tagging process, every part-of-speech associated with asentence is coded as a vector utilizing the well known one-hot encoding.This type of coding system consists of creating a vector with a totallength equal to the amount of parts-of-speech recognizable by the toolfor a specific language. The rationale of the methodology is to considerthe vector positions representing all possible parts-of-speech and thevalue of 1 as a mark point, which suggests the presence of a determinedpart-of-speech. Thus, the vector elements are put to 0 except for a uniqueposition that contains the value of 1.Words and punctuation marks have been also detected by usingTreetagger. Both of them are turned into vectors of real numbers byusing FastText [41]. FastText is a library that allows making effectiveword representations and sentence classification, taking into accountfeatures not only related to the entire word or punctuation marks butalso tied to local characteristics like the bag of characters that composethe word. It has been used for representing words and punctuationmarks of 157 different languages [42] such as Italian and English.This work has produced available resources in which, for a specificlanguage, there is a correspondence between a word and a vector of realnumbers. In detail, FastText [41,42] has been trained on Wikipedia,64 http://sslmit.unibo.it/~baroni/collocazioni/itwac.tagset.txt5 http://www.natcorp.ox.ac.uk/docs/gramtag.html6 https://www.wikipedia.org/0Array 12 (2021) 1000970G. Lo Bosco等0图1。系统架构。图片分为模块。从左到右：预处理模块计算句子的表示矩阵，将单词、标点符号和词性转换为向量形式。模型模块描述了学习何为难以理解和易于理解的神经网络。输出模块评估模型的响应，将句子分配到第一类或第二类。03.1. 预处理0预处理阶段在模型开始对句子进行详细分析之前完成。其目标是多方面的：对句子进行深入分析，推断其词性，识别单词和标点符号，将每个词性、单词和标点符号转换为模型可以分析的适当数字向量，并正确表示输入句子的特征。推断句子的词性和识别单词和标点符号是通过使用预训练版本的Treetagger[8]来完成的。Treetagger是一个用于将词性与句子标记关联起来的注释工具。在我们的情况下，每个标记要么是句子的单词，要么是标点符号。选择这个工具是因为它能够标记德语、英语、意大利语等不同语言。由于作者的想法是创建一个独特的模型，能够理解是什么特征使意大利语和英语句子难以理解或易于理解，预处理阶段需要以一致的方式为这两种语言进行处理。Treetagger是高度可定制的，这意味着该工具可以用于不同的语言，只需更改一个我们称之为标签集的配置文件，该文件描述了语言的特征。每个标签集文件都是专门为一种语言创建的，并且在文本分析过程中可以识别一组语言元素。意大利语已使用Stein,3标签集进行标记，该配置文件考虑了诸如副词、形容词、动词和名词等语言元素。具体来说，使用Stein配置文件的Treetagger可以识别13种不同类别的动词、8种不同类型的代词、数词、标点符号、名字、定冠词和不定冠词、缩写、形容词等。除了Stein配置文件之外，50数组12（2021）1000970G. Lo Bosco等0和Common Crawl7，它将句子的每个标记映射到一个300维空间向量，这意味着在我们的情况下，在预处理阶段结束时，句子的含义和结构将被表示为适用于模型分析的300维向量序列。0分类器0分类器模块基于一种特定类型的NN，称为长短期（LSTM）神经网络[43]。LSTM神经网络属于循环神经网络（RNNs）家族，一组解决分析序列问题的网络。它们的特点是利用一种称为反馈的刺激，构成网络已经分析的序列元素的累积表示。这种类型的循环允许在网络的结果和输入序列的每个元素之间建立联系，这意味着如果元素或它们的顺序发生变化，结果也会不同。RNNs的计算可以通过使用展开概念[44]来理解，在这个概念中，网络被评估为在分析序列元素时所采取的状态的进展。RNNs可以考虑序列的所有元素，根据序列元素和它们的顺序改变它们的行为。记住元素如何排列到序列中显示出模型与语音识别[45]、语言模型生成[46]、机器翻译[47]、视频中的情感识别[48]等问题相关的非凡潜力。尽管它们具有良好的特性，但这些类型的网络很难使用透过时间的反向传播（BPTT）进行训练，因为存在着众所周知的梯度消失问题[50]。存在一种优化算法（例如，[51]）可以避免梯度消失的问题。然而，这些算法的高效性与它们的计算成本相比，所以它们不如BPTT方法那么有吸引力。为了保持方法不变，研究人员设计了一种称为LSTM单元的新的RNN单元架构，它能够面对梯度消失问题，保持与循环相关的主要属性。LSTM单元通过基于门的特定架构超越了梯度消失问题。门控制信息如何从输入传播到输出，并作用于细胞的内部状态。如图2所示，LSTM单元包含两个循环（o循环和s循环），允许实现反馈刺激以跟踪元素序列。输入与门相关联，通过一系列操作影响系统的状态，细胞的输出主要由输出门和系统状态的适当组合给出。更多细节可以在[44]中找到。我们提出的分类器模型将能够区分两类句子：易于理解，难以理解。如第2节所述，句子的复杂性受到许多因素的影响，如词汇和句法，因此重要的是考虑可以包括不仅是单词而且是句子结构的方法。RNN已经显示出理解这些特征的潜力，正如[36-38]中所示，作者们提出，NN架构可靠地对句子进行难度分类。所提出的分类器模型试图结合[36-38]的思想，构建一个新的强大模型，可以超越过去模型的性能。因此，我们提出了一个由两个单独的LSTM层�1和�2组成的分类器。�1层处理词性序列的检查，而层�2分析单词和标点符号的进展。该模型分别学习代表词性的特征和句子理解难度的复杂性的特征07 www.commoncrawl.org0图2.LSTM单元。图片显示了应用于输入序列的操作流程。每个输入元素都对最终结果有贡献，并且与由Sigmoid函数激活的输入、遗忘和输出门相关联，以及由逻辑Sigmoid函数激活的输入相关联。0由单词和标点符号表达的方面。分析词性，A1层发现了使句子更容易或更难理解的句法规则，而A2层则通过观察单词和标点符号找出了与词汇和句法相关的特征，从而确定了句子的复杂性。实际上，句子的句法与其结构有关；因此，A2层观察标记如何跟随彼此可以推断出句子的句法。A1层和A2层的结果被串联起来，然后由后续的稠密层处理，该层与前一层完全连接。稠密层负责评估A1层和A2层的贡献，以便混合信息，从而对句子的复杂性做出判断。该层的输出由softmax函数激活，给出了句子属于难以理解还是容易理解类别的概率。输出模块处理了稠密层输出的评估。其目标是比较稠密层的两个输出并选择最大值。这意味着根据网络所获得的知识，将输入句子分配给更有可能是正确的类别。03.3. 参数0系统参数是通过测试不同的损失函数、优化算法和尝试多种神经元数量的组合来经验性地计算的。测试表明，一个有效的解决方案是对每一层使用128个神经元，并训练网络，最小化众所周知的交叉熵损失函数，选择RMSPROP[52]优化算法，并在大小为50的平衡小批量上进行。这样一来，模型架构依赖于由128个LSTM神经单元组成的前两层，其结果由最后的2个单元稠密层分析，由softmax函数激活，并通过使用0.05的L2范数进行归一化。采用了提前停止方法，将阈值设置为0.001，以避免过拟合。我们考虑了每个句子的最大长度，即整个语料库的平均长度，这意味着英语语言为20个标记，意大利语为21个标记。68 www.dueparole.itusicorpus is to help educators for preparing students to meet the Englishlanguage objectives for each grade level according to Common CoreStandards [54] in the United States. Since the reliability and quality ofthe resource, it has become widely used for helping the TS field. Indeed,before the Newsela corpus, the most important resource suitable toresolve TS problems was the Parallel Wikipedia Simplification (PWS)90Array 12 (2021) 1000970G. Lo Bosco等04. 结果04.1. 语料库0在文本复杂性评估中，“难”和“易”这两个概念0理解与读者的语言能力密切相关。特定类型的文本可能对一类人具有挑战性，但对语言能力更高的其他人来说可能非常易懂。同样的情况也反映在ATE系统中，它们必须考虑目标用户的属性（例如，母语学习者，第二语言学习者，阅读障碍和聋人），以计算超出复杂性阈值的文本是否适合读者。这种可读性技能可以直接嵌入系统内，或者通过标签过程在数据集内以隐蔽的方式描述。基于ML算法的ATE系统从对句子复杂性分类的数据中学习。它通过检查与数据相关的标签来设置最合适的阈值。计算出的阈值代表模型所获得的知识，只有在描述标签过程准确时才能解释。因此，训练和测试阶段都使用了两个精确选择的语料库进行，一个是根据欧洲语言共同参考框架（CEFR）进行标注的特定意大利语语料库，其中只包含意大利语句子，另一个是基于Newsela构建的英语语料库，其内容由一组专业语言学家精心起草。04.1.1. 意大利语0不幸的是，由于缺乏可利用的意大利语资源，文本复杂性的评估变得更加困难。0据我们所知，用于训练深度学习模型的唯一大型意大利语语料库是PACCSS [ 53]，它是以半自动方式创建的，专门用于解决ATS任务。PACCSS也已经在ATE [ 36, 37 , 39]的背景下使用，通过将所有非简化的句子标记为难以理解，将相对简化的版本标记为易于理解。尽管它代表了解决问题的资源，但ATE仍然需要一个特定的意大利语语料库，因为PACCSS主要适用于ATS主题，而且它是一个银标准。0我们通过收集公开在线资源创建了一个新的基于句子的语料库。0公开在线资源，以开发更可靠的模型。该语料库是专门用于教授意大利语的文本、儿童寓言和经典意大利小说的混合体。虽然教学材料是手工标注的，但我们已经手动检查了提醒文档，将儿童寓言标记为A2，将经典意大利小说标记为C2。众所周知，寓言是用简单的句法结构和常用词语编写的，以便满足低熟练度的语言用户。而我们选择了大多数意大利人认为复杂的经典意大利小说（例如《安娜∙卡列尼娜》）。0该语料库由从duepa中提取的句子丰富了-0角色8（2P）。2P是一本新闻杂志，其文章使用清晰、准确和易于理解的语言编写。2P旨在使有困难理解意大利语文本的人能够获取信息。例如，他们可能是非母语人士、患有诸如失读症或失语症等语言障碍的人，以及语言能力较低的母语人士。2P的作者是专业的语言学家、记者和教师。他们的研究已经发现了一套控制文本复杂性和有效沟通的标准。他们使用一种特定的写作方法，使文本简短，句子易于理解，并丰富文本中的常用意大利语词汇，这些词汇更容易理解。这种称为控制写作的方法可以应用于不同类型的文本，如信息性、规范性、官僚性等。0最终语料库包含约100,000个句子，长度0在6到177个标记之间，并按以下方式分布：C1/C2：73.000，B2/B1：1.000，A2/A1：26.000。不同单词的总数约为70.000，涉及L1和L2学习者。根据CEFR标准注释的新语料库代表了一个可靠的资源，用于训练和测试适用于该主题问题的机器学习模型。04.1.2. 英语0就英语而言，我们已经训练好了模型0PWS是使用自动句子对齐方法构建的，这使得它容易包含错误。事实上，许多简化是不恰当的，有50%的句子对不是简化[ 30 ]。0新闻作者通过创建一个类似的模式来克服这些困难-0专业编辑的帮助下，创建了一个适用于不同年级儿童的简化语料库，由1,130篇新闻文章组成，每篇文章至少经过四次专业人士的重写，以满足不同读者水平的需求。这些文件用从0到4的数字标记，表示文本的复杂性。 0代表文档的原始版本，而标签从 1 到 4 表示同一文档的连续简化级别，其中 4（或在某些情况下是 5 ）是文档的最简单版本。0选择所有文档的句子作为以句点标记结束的字符序列的压缩，处理特殊情况，如首字母缩写。处理后，我们收集了大约530,000个句子，与文档的复杂性级别相关联，其中提取了句子。0句子提取是通过正则表达式进行的。0� � , 包括在具有复杂性级别 � ∈ {0 , 1 , 2 , 3 , 4 , 5} 的文档 � �� 中。0数据集由由句子组成的对 ( � � , � �� ) 列表组成，这些句子0它们是被包含在具有复杂性级别 � ∈ {0 , 1 , 2 , 3 , 4 , 5} 的文档 � �� 中的句子。0我们已经分析了文档中的句子，寻找了0它们是如何分布的。表1显示了所有可能的复杂性对之间的共同句子数量。特别是，元素 ( � � , � � ) , �, � ∈ 0 , 1 , 2 , 3 , 4 , 5 代表复杂性级别为 � 的所有文档和复杂性级别为 �的所有文档之间的共同句子数量。例如，表元素 ( � 2 , � 3 ) 显示了复杂性级别为2 的文档和复杂性级别为 3 的文档之间共同句子的数量为22869。010 也有例外情况，其中文档有五个简化程度。Array 12 (2021) 1000977G. Lo Bosco et al.#𝐿0𝐿1𝐿2𝐿3𝐿4𝐿5𝐿010480132475179918493419141𝐿132475999803184911918515143𝐿2179913184910858622869827458𝐿3849311918228691110292125397𝐿441915151827421253103496254𝐿5414358972542073EpochsNeuronsF1-SCOREEpochsNeuronsF1-SCORE1516.8802016.8651132.8801332.864964.8791164.8647128.88010128.8664256.8797256.866𝐻 =⋃∀𝑗,𝑘≤1𝑑𝑗𝑘 ⧵⋃∀𝑗,𝑘≥2𝑑𝑗𝑘𝐸 =⋃∀𝑗,𝑘≥4𝑑𝑗𝑘 ⧵⋃∀𝑗,𝑘≤3𝑑𝑗𝑘110表1 每个由行 � � 和列 � � 标识的表格单元，表示难度级别为 x 的所有文档与难度级别为 y的文档之间相同句子的数量。0表2通过10折交叉验证方法计算的英语（左）和意大利语（右）语料库的平均测量值，显示了F1-SCORE在改变神经元数量和训练时期时的变化。结果是通过提前停止过程实现的。0分布分析显示，预期的是更高的数目-0对于对 ( �, � ) 的共同句子的数量，对称值 ( �, � ) 和 ( �, � ) , �, � = 1 , 2 , 3 , 5，以及对 ( �, � ) , � ≥ 4 和 � ≤ 2 的共同句子的数量较低。0所有难以理解的句子集合 � 是文档 � �� 中难度等级 � ≤ 1的所有句子，不包括文档 � �� 中难度等级 � ≥ 2的句子。更正式地，我们将难以理解的句子集合 � 设置为：0ments � �� , 其中难度等级 � ≥ 4 的句子不在文档 � �� 中，其中 � ≤ 3，即0通过使用上述描述的选择范式，基数0的 � 是130,000，而 �由80,000个句子组成。最终语料库包含长度在1到160个令牌以上的句子；词汇量大小等于92817个不同的词。04.2. 实验0本文的目标是构建一个能够解决0评估意大利语和英语句子复杂性的问题。接下来，我们将呈现实验和结果。0如第3.1节所述，模型的参数已经0经验选择。我们进行了一系列实验，通过改变LSTM神经元数量来评估系统的性能。表2报告了每个模型配置的性能和达到最佳系统所需的epochs。根据实现的结果，我们选择将LSTM层的神经元数量设置为128，限制网络的复杂性和训练过程的计算量。事实上，该系统在英语语言中经过七个epochs，在意大利语中经过十个epochs后获得最佳性能。每个实验都将难以理解的句子集作为正类，易于理解的句子集作为负类。0表3DeepEva和基准模型在意大利语语料库上取得的结果。每个度量都是根据10倍交叉验证的结果计算得出的平均值。0模型 Epochs Kernel Recall Precision F1-SCORE0DeepEva-IT 10 – .872 ( ± . 014 ) .862 ( ± . 009 ) .862 ( ± . 004 )

下载后可阅读完整内容，剩余1页未读，立即下载