没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报阿拉伯语L2可读性评估:简化研究Naoual Nassiria,Abdelhak Lakhouaja,Violetta Cavalli-Sforzaba摩洛哥乌季达穆罕默德第一大学理学院计算机科学系b摩洛哥伊夫拉内艾阿哈瓦因大学科学与工程学院阿提奇莱因福奥文章历史记录:收到2020年2020年12月21日修订2020年12月29日接受2021年1月7日在线提供保留字:阿拉伯文特点可读性降维A B S T R A C T可读性是将书面文本与读者的技能或等级水平相关联的度量可读性评价在第二语言或外语学习领域中非常重要阿拉伯语等一些语言的阅读非常复杂,这是一个需要克服的巨大挑战,也增加了在向学习者提供文本之前采取这一措施的必要性为了开发强大的工具,自动化这个选择,我们必须首先选择最佳的功能集,用于开发这样的工具。本文通过一系列实验,提出了一种自动测量阿拉伯语作为外语的可读性的方法我们首先使用广泛的功能,可扩展的相关可读性,在文献中发现,并减少他们在随后的实验中,通过消除功能,似乎在可读性预测意义不大。我们的目标是保持最小的功能集,提供良好的可读性预测准确性的基础上三个不同的语料库的阿拉伯语作为外语的学习者,注释有五个难度级别。我们最好的L2可读性准确度结果是86.15%。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍语言教学成功与否的关键之一是所呈现的内容是否适合学习者用第二语言或外语(L2)阅读的学习者需要适合其阅读水平的文本:这就产生了文本可读性的概念。在互联网出现之前,外语教学中使用的阅读文本是由教师和教科书作者亲自挑选或编写的。现在,随着在线免费提供的数据量不断增加,人们越来越需要工具来帮助人们,特别是教育工作者,更好地查找,过滤和管理他们呈现给学习者的文本资源文本的可读性评价是外语教学中的一项重要任务。如果手动完成,这个过程可能很长,成本很高,这限制了它的有效性。因此,几年来,人们对开发*通讯作者。电子邮件地址:naoual. gmail.com,n. ump.ac.ma(N.Nassiri),abdel. gmail.com(A. Lakhouaja),v. aui.ma(V. Cavalli-Sforza).沙特国王大学负责同行审查自动测量文本可读性的技术已经使用了几种计算方法第一种方法,称为一个著名的例子是Flesch-Kincaid等级公式(Flesch,1948),它使用每个句子的平均单词数和每个单词的平均音节数来预测等级水平。另一个公式,Gunning FOG指数(Gunning,1969),使用平均句子长度和至少有三个音节的单词的百分比。后来,随着机器学习(ML)方法的普及,可读性研究开始使用回归模型、最近邻分类器、决策树、贝叶斯分类器、规则学习算法和神经网络等技术与此同时,自然语言处理(NLP)工具和计算语言资源开始补充和丰富传统方法,特别是对于此类资源丰富的语言。这些新方法使用了频率词典、词汇单元分析、语言模型、句法分析器、各种语篇结构和连贯性的测量方法等,其中大部分研究集中在英语作为第一语言(L1)上,并报道了NLP技术在可读性方面的应用比传统方法提供了更好的结果 在(Feng等人, 2010),例如,作者比较了几组解释变量--包括浅层、语言建模、PoS、句法和话语特征--并根据它们的影响进行了评估https://doi.org/10.1016/j.jksuci.2020.12.0211319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comN. Nassiri,A. Lakhouaja和V. Cavalli-Sforza沙特国王大学学报3790预测小学生阅读材料的年级水平。他们发现,基于域内语言模型的特征具有最高的预测能力。 语篇特征和PoS特征--尤其是名词--各自非常有用,但高度相关。平均句子长度(一个浅层特征)比单个句法特征更有用,计算成本更低。在可读性预测中结合使用NLP和ML技术,无论是L1还是L2,都需要三个主要步骤。第一步是收集参考语料库。第二步需要从语料库中识别和提取一组语言特征,也称为预测因子,以与ML技术一起使用。最后一步是分类阶段,旨在确定文本的难度级别。从第二步获得的预测因子必须具有显著的相关性,甚至一个因果关系,与文本的难度鉴于学习阅读难度越来越大的材料是小学和中学教育的一个关键要素,L1的阅读能力研究通常比L2更常见,阿拉伯文也不例外。阿拉伯语作为L1语言的可读性评估实例见(Al-Khalifa和Al-Ajlan,2010年)。作者提出了“阿拉伯性”工具,建立在从沙特阿拉伯语言教科书中提取的语料库上,并使用三个阅读难度级别(初级,中级和中级)进行注释。我们在2.2.1节中进一步讨论了这项工作,但在这里要注意的是,这是使用ML来研究其他语言常用的功能如何影响阿拉伯语文本可读性的早期努力之一。这些基于ML的技术非常依赖于语言,并且在短文本上表现不佳。为了克服这个问题,作者(Mohammadi和Khasteh,2019)介绍了一种利用深度强化学习模型来改进文本可读性评估模型的方法。这种技术对于简化预测模型的实现非常有用,但需要非常大的语料库。不幸的是,这样大的,水平语料库的L1和L2语言学习者是不可用的阿拉伯语。考虑到阿拉伯语文本可读性的测量为L2学习者,似乎有必要适应L1和L2的可读性评估过程中使用的功能在其他语言。一方面,应该强调的是,一般来说,第二语言读者对词汇和句法方面的困难以及语言和文本的其他方面更敏感,其他语言的知识会影响学习者另一方面,阿拉伯语本身在某些重要方面与迄今为止可读性研究所关注的大多数语言不同;此外,它在计算工具和资源方面没有得到很好的支持。一个恰当的例子是,按阿拉伯语熟练程度标注为L2的文本很少。大多数针对阿拉伯语作为第二语言可读性的研究都是基于美国国防语言研究所外语中心(DLIFLC 1)发布的全球语言在线支持系统(GLOSS)语料库。在我们的研究中,我们首先用一系列广泛的特征来预测阅读能力,其中一些特征是阿拉伯语特有的。然后,我们逐渐忽略了似乎比预期更不相关的特征,以便用精简的特征集实现可比较的预测准确性结果该研究使用三个不同的语料库专用于学习者的阿拉伯语作为L2。我们所使用的语料库存在数据不平衡的问题,因此我们在最后一个实验中尝试采用过采样技术来克服这个问题。本文的其余部分组织如下。在第二节中,我们提出了现有的阿拉伯语可读性测量工作从传统的公式到现代的ML技术,并主要集中在每一个使用的功能。在第3节中,我们描述了我们使用的数据和工具,在第4节中,我们介绍了在研究过程中开发的频率字典。第5节和第6节分别详细介绍了特征工程过程和所应用的算法。第7节介绍了我们进行的实验中使用的特征集,并讨论了所获得的结果。最后,我们在第7.5节中总结了对未来工作的一些想法。2. 相关工作阿拉伯语的可读性测量研究开始于使用传统的方法应用于阿拉伯语作为L1,以线性函数的形式与一些(通常是两个或三个)预测特征,如单词,句子和文档的平均长度随后,基于ML模型和使用NLP工具提取的特征相结合的现代方法引起了研究人员的注意本节介绍了一些用于测量文献中阿拉伯语文本可读性的公式,并重点介绍了最近使用基于ML技术和NLP工具的方法的研究2.1. 阿拉伯语作为L11977年提出的第一个阿拉伯语可读性测量公式是Dawood公式(Dawood,1977)。它预测了小学教育最后三个层次的可读性。该公式只包含几个独立于阿拉伯语言特征的简单变量,定义如下:DawoodScore1- 20: 0533×W-0: 2066×S5: 5543×P-1: 0801其中W是以字母表示的平均单词长度,S是以单词表示的平均句子长度,P是文本中的平均词频。在1984年,第二个公式,Al-Heeti可读性公式(Ghani等人,2014年,出现在文学作品中。与Dawood公式一样,它也根据小学水平对文本进行分类,但依赖于一个单一的功能:平均字符字长(AWL)。公式如下:Al- HeetiScore¼英寸AWL× 4:414英寸-13: 468Al Tamimi等人在2014年提出了自动阿拉伯语可读性索引库(AARIBase)(Al Tamimi等人,2014年)。他们使用七个常用的可读性特征进行了因子分析:文本中的字符数(NOC),文本中的单词数,文本中的句子数,文本中的困难单词数(定义为忽略定冠词“单词/al 2 /”后由六个以上字母组成的单词),单词长度(以平均每个单词的字符数(ACW)衡量),句子长度(以平均每个句子的单词数(AWS)衡量),以及平均困难单词数(以文本中困难单词数与总单词数的比率计算)。他们的目的是删除多余的因素,保留他们提议的公式中最重要的因素。基本公式如下:AARIBase1: 28×NOC10 -10-我 们 提 出 的 最 后 一 个 公 式 是 测 量 阿 拉 伯 语 叙 事 的 开 源 指 标(OSMAN)公式(El-Haj和Rayson,2016)。与前面的公式(不考虑变音符号)不同,OSMAN公式允许计算可读性1https://gloss.dliflc.edu/2http://www.qamus.org/transliteration.htmN. Nassiri,A. Lakhouaja和V. Cavalli-Sforza沙特国王大学学报3791×-B有无变音符号的阿拉伯文本公式如下:(1至12)。第四层次是适合读者阅读的小说在高等教育中。他们最好的L1可读性准确度结果是©2019版权所有。C一百分之九十四点八2.2.2. 阿拉伯语L2可读性评估其中A是单词的数量,B是句子的数量,C是难词(超过五个字母的单词)的数量,D是单词中音节的数量,G是复杂单词(超过四个音节的单词)的数量,H是“Faseeh”单词&(具有以下阿拉伯字母中的任何一 个 的 复 杂 单 词 : “/”/“ , ”/}/“ , ”//“ , ”/*/“ , ”/Z/“ 或以”/wA/“或”/wn/“结尾)的数量。这些公式都不能很好地预测阿拉伯语文本的准确阅读水平。它们的弱性能是由于基于一小部分功能,不一定足以做出正确的决定。此外,这些功能中的大多数都是独立于语言的。在许多情况下,对可读性公式也提出了类似的批评(布鲁斯例如, 1981年)。2.2. 现代方法2.2.1. 阿拉伯语L1可读性评估The 如前所述在他们的研究中,作者遵循由不同步骤组成的过程,包括数据集收集,文本预处理,特征提取,分类器训练和测试。由于数据收集普遍缺乏标有适当可读性的阿拉伯语语料库,他们从沙特阿拉伯学校的小学、初中和高中课程的阅读书籍中手工收集了一套文本。他们的最终语料库由150个文本组成,总计约57,089个单词。组成语料库的文本被标注了三个可读性水平:容易,中等和困难。对于这些特征,他们选择了一些在许多可读性公式中成功使用的属性,这些属性已经在以前的可读性研究中进行了测试。其目的是检查和控制哪种特征组合适合于衡量阿拉伯文本的可读性。使用平均句子长度,平均单词长度,每个单词的平均音节数,单词频率和二元语言模型的困惑分数作为特征,他们使用支持向量机(SVM)分类算法实现了77.77%的最高准确率。AARI公式的创建者(Al Tamimi等人, 2014),我们在前一节中介绍过,也试图将ML技术应用于手动收集的语料库。他们的语料库包含约旦课程中的1 196篇阿拉伯语课文,共计405 408个单词,包括阿拉伯语、伊斯兰宗教、自然科学、小学一至十年级的国民和社会教育等科目。他们的目标是确定将得分水平分组在一起是否可以提高预测的准确性。他们使用k-means聚类将聚类的最佳数量设置为3。接下来,他们使用SVM学习模型开发了一种基于AARI值将文本分配到三个聚类的方法他们在10个等级中的平均准确率为83.23%,测试和训练集的分布为70Saddiki等人(2018)的后期工作提出了一项基于146个特征的研究。这些特征的范围从简单的文本特征,如平均单词长度,到更深和更难计算的。所有考虑的功能都受到阿拉伯语和其他语言的启发。该研究使用Khalil等人开发的阿拉伯语L1语料库进行。该语料库由27,688个文本组成,分为四个可读性级别,按难度递增顺序排列。前三个级别源自阿联酋阿拉伯语课程级别可读性评估研究的重点是使用ML和NLP技术测量阿拉伯语文本对外语学习者的难度。2014年,Cavalli-Sforza等人(2014)进行了一项探索性研究,旨在构建一个预测模型,以自动评估给定的文本是否适合现代标准阿拉伯语(MSA)作为中级学习外语的学习者。这项研究使用了从Al-Kitaab教科书(Awad,1998年)和其他资源(如叙利亚学校课程和在线报纸)收集的语料库。该语料库包含114个文本,共49,666个标记。每个文本都被标记为它发生在Al-Kitaab的章节,每个章节被认为是一个学习阶段或水平。该研究以词汇为中心,并基于每个阶段的词汇基本划分为“已知”(在该阶段之前应该学习的单词),“目标”(在该阶段应该学习的单词)和“未知”(在该阶段既不知道也不针对的单词)。他们还提取了一些已经发现对其他语文有用的文本特征,并研究了它们对阿拉伯文的适当性。他们总共使用了8个特征类别。由此产生的最好的结果是用四个集群。在某些情况下,当试图预测课程中应该使用文本的确切阶段(25个阶段中)时,准确性较差,约为60%。我们在本节中讨论的其余研究都是基于GLOSS语料库。后者是DLIFLC提供给用户的一组文本。GLOSS文本使用机构间语言圆桌会议(ILR)量表(Clark和Clifford,1988年)标注了5个难度级别,范围从1到3。水平1 +和2 +用于当一个人的熟练程度大大超过给定的水平,但不足以达到下一个水平。在他2014年的论文(Forsyth,2014)中,Forsyth描述了一种基于从GLOSS语料库中提取的179个文本的MSA可读性预测方法。他根据162个词汇和语篇特征进行了这项研究。他首先开发了一个模型,该模型将语料库的五个基本ILR注释级别用作类,但随后发现有必要将文本重新分组为三个类,以在文本数量方面实现类之间的更大平衡。他用F分数来衡量模型的表现。对于3向和5向分类,他的系统分别获得了0.719和0.519的F-分数。在2015年的研究中,Saddiki et al. (Saddiki等人, 2015)评估了词汇和形态特征在确定MSA文本可读性方面的有用性。他们在由251个文本组成的GLOSS语料库上使用免费提供的NLP和ML工具,收集了35个低复杂度(易于提取)特征,旨在为阿拉伯语的未来研究建立基线作为L2可读性评估。他们的研究结果表明,一小部分容易计算的特征可以指示文本的阅读水平。他们报告的准确度值分别为59.76%和73.31%的五个和三个类。2018年,Nassiri等人使用了由230个MSA文本组成的GLOSS绘制的语料库。在第一项研究中(Nassiri等人,2018a),他们提出了一种基于170个特征的方法,分为10类,以测量不同类型的文本特征。他们还介绍了他们开发阿拉伯语频率词典的过程,该词典用于计算他们的大多数特征。使用F评分、准确性和其他指标测量性能N. Nassiri,A. Lakhouaja和V. Cavalli-Sforza沙特国王大学学报3792预测器对于5向和3向分类,当对训练数据进行测试时,系统分别达到89.56%和90.43%的最大准确率值。在第二项研究中(Nassiri等人,2018 b),他们将特征集从170减少到133,并在训练数据上测试时报告了100%的准确率。我们提到的最后一项研究是由Saddiki等人在2018年进行的(Saddiki等人,2018年),并提出了一个影响阿拉伯语计算可读性的功能的详细分析。对于作为L2语言的阿拉伯语,他们系统地研究了大量的特征,这些特征的提取复杂性从浅到深,最深的是基于语法树。他们还利用了从语料库中计算出的面向阿拉伯语L1读者的特征。该研究使用了基于GLOSS的576 MSA文本语料库。最佳可读性准确率为72.4%。我们通过观察到,除了一个例外,我们所介绍的研究之间的差异主要在于GLOSS语料库的大小和用于预测的特征集,来结束这一节关于阿拉伯语作为L2的文本可读性在本文的其余部分,我们专注于我们的方法及其演变的细节。3. 数据和工具本节简要介绍我们在本研究中使用的数据和工具3.1. 数据我们的语料库是基于以下三个资源创建的1. GLOSS阅读(GR):GLOSS阅读课是基于真实的材料。该语料库是维护和提高学习者语言能力的宝贵资源2. GLOSS-Listening(GL):也是从GLOSS平台收集的,该语料库由从听力材料(如电视报道、广播等)获得的文本组成。3. Aljazeera-Learning3(AL):这是我们从Aljazeera Learning第一个语料库在文献中被广泛使用。第二种方法也在一些研究中使用,而第三种方法首次用于可读性评估。据我们所知,目前还没有其他可供二语语料库免费使用的阿拉伯语难度等级标注。表1提供了这三个语料库的详细信息这三个语料库按五个难度级别进行注释,如下所示:属于GLOSS-听力和GLOSS-阅读组合的文本根据语言熟练度的ILR量表进行注释,该量表被开发用于描述用语言进行交流的能力,特别是ILR使用从0到5的范围来A+级(0+、1+、2+、3+和4+)是指所需的熟练程度超过基本水平,但不完全符合更高的基本水平。我们收集的文本范围从ILR 1级(初级熟练程度)到3级(一般专业熟练程度)。请注意,其他级别没有公开文本。Aljazeera-Learning语料库包含根据五个难度级别分类的文本:Beginner 1 , Beginner 2 , Intermediate 1 , Intermediate 2 和Advanced。3https://learning.aljazeera.net我们使用这三个数据集和五个难度级别获得的可读性预测结果并不令人满意。我们推测,这可能是由于五个不同层次之间的文本数量的巨大不平衡。例如,在GLOSS听力中,1+级有18篇课文,2级有65篇课文。因此,我们尝试加入一些级别,从而从五个级别移动到只有三个级别。相邻水平的几种组合是可能的,但经过各种实验,我们确定最佳组合是将水平1与水平1合并+ 2级+与3级。表2和表3分别显示了corpora 5向和3向数据集当从五个类别减少到三个类别时,准确率的提高证实了我们的假设,即类别之间的不平衡会影响最终的分类性能。3.2. 工具我们使用以下NLP和ML工具来处理语料库:AraNLP(Althobaiti等人, 2014)是一个基于Java的库,提供各种阿拉伯语文本工具,如句子分割器和分词器。我们使用它来进行句子分割,以准备MADAMIRA输入文件。MADAMIRA(Pasha等人,2014)是一种用于阿拉伯语的形态分析和消歧的系统,其结合了两种先前常用的阿拉伯语处理系统MADA(Habash et al.,2009)和AMIRA(Diab,2009)。它自动纠正拼写错误的单词,因为它在其过程中实现了拼写检查步骤Alkhalil-PoS-Tagger(Ababou和Mazroui,2016)是一个阿拉伯语词性标注器。它提供了一组非常丰富的基本标记,为分析文本中的每个单词提供语法信息。此外,Alkhalil-PoS-Tagger包含复合标签,允许分析附加到单词的cliticsAlkhalil-Lemmatizer(Boudchiche和Mazroui,2019)是一种阿拉伯语lemmatizer,它为分析文本中的每个单词分配一个词元,并考虑到上下文。Alkhalil-Lemmatizer基于阿拉伯语形态句法分析器“AlKhalil Morpho Sys 2”(Boudchiche等人, 2017年)。WEKA ( Holmes 等 人 , 怀 卡 托 知 识 分 析 环 境 ( WaikatoEnvironment for Knowledge Analysis,1994)是一个基于一组分类算法的机器学习软件工具。它包含数据预处理、分类、回归、聚类、关联规则和可视化工具。我们在注释阶段使用了Alkhalil-Toolkit和MADAMIRA API。在这个阶段,文本被处理为一个以获得每个文本的注释文件。然后使用每个注释文件计算相应的代表性矢量值。在通过分析器运行文本之前,它们被预处理以删除所有HTML标记、网络链接、数字和非阿拉伯语单词。所有注释工作都是自动执行的;没有执行手动注释。4. 频率词典可读性预测过程的另一个重要资源是频率字典,这是计算大多数基 于 频 率 的 特 征 所 必 需 的 该 词 典 基 于 完 全 发 音 的 Tashkeela(Zerrouki和Balla,2017)古典和MSA文本语料库,也是学习阿拉伯语的宝贵工具它提供了语言中最常用的5000个单词的列表以及每个条目的详细信息,包括单词本身,lemma,PoS标签,原始频率和分散度。●●●●●●●N. Nassiri,A. Lakhouaja和V. Cavalli-Sforza沙特国王大学学报3793表1水平语料库统计。文本句子令牌词汇AL3212,44249,34518,240GR2714,66695,49626,594GL2275,45756,68416,652表2五个层次的数据分布。水平GRGLAL13443121个以上291822029565542个以上686227345398总271227321表3数据分三个层次。水平GRGLAL1_1+636123229565542+_311310135总271227321我们开发了这本词典的两个不同版本,与我们使用的两个形态句法 分 析 器 兼 容 MADAMIRA 和 Alkhalil 采 用 不 同 的PoS 标 签 :MADAMIRA使用34个基本PoS标签,而Alkhalil仅使用27个。标签差异在两个最终词典中产生了与每个单词相关的信息水平上的差异,即标签和原始频率值。从免费提供的Tashkeela语料库生成频率词典的过程如下:1. 数据准备:o 在MADAMIRA的情况下,我们使用AraNLP将该语料库中的每个文件拆分为句子,并准备了一个具有MADAMIRA XML输入格式的文件。o 在Alkhalil的情况下,我们将文本交给Alkhalil-Toolkit以获取形态句法信息(Alkhalil工具不需要句子分割步骤)。2. 选择:对于Alkhalil或MADAMIRA输出文件中的每个单词,我们选择排名最高(最频繁)的结果来获得单词,词元及其3. 字典条目创建:我们通过计算原始频率4和色散5将前一步的输出转换为频率字典条目格式。通过上述程序获得的词典载有5 000个最常见的阿拉伯语单词及其信息。在表4中,我们显示了从使用MADAMIRA获得的词典和使用Alkhalil获得的词典中的提取。可以注意到,这两部词典关于词的位置的主要区别在于“词/ mn”。这种差异是由于两个字母“/m”和“/n”可以被解释为“/min”意思是来自,“/man”意思是谁。使用两个分析仪计算的频率值的差异可归因于标签集的差异,4表示这对词(词元,位置)在语料库5离散度=原始频率/语料库大小也是由于一个或另一个分析器中的误差例如,我们有:1.在句子它应该被标记为连词说),以不需要是(有没有必要的是),以不需要是(有没有必要的是),以不需要是(有没有必要的是),以不需要是”“句中2。“被说”是一个动词。Alkhalil认为它是一个名词,这是不正确的。5. 特征工程与文本难度相关的文本特征在提取的难易程度方面具有一定的复杂性。简单特征包括与语言无关的属性,例如文本长度、句子长度或平均单词长度。复杂或更高级别的特征表示那些依赖于正在处理的语言的特征。浏览可读性研究的最新进展,我们发现了几个有趣的特征类别,包括基于PoS的频率,类型与标记PoS比率,标记和类型频率,类型与标记比率,单词长度,词汇量,词类,句子长度,外国词和歧义词与词的比率。附加的特征类别(例如,话语级特征)在英语等语言中使用,但我们无法在阿拉伯语中提取它们,因为所需的工具和资源不可用。我们在这项研究中使用的大多数功能都来自最先进的技术,但我们已经对其进行了调整,以匹配MADAMIRA提供的PoS类,然后是Alkhalil-Toolkit提供的PoS类。我们还介绍了其他词汇特征。我们总共开发了170个功能,分为10类,如表5所示(我们在表14的附录中列出了170个功能的详细列表)。本文报告的工作的主要目标是将这组特征减少到最可靠的通过应用不同的还原方法,6. 分类算法在以前的工作中(Nassiri等人,2018年a),我们测试了最先进的六种最广泛使用的分类器,从结果中,我们得出结论,两种算法“ZeroR”和“OneR”在生成预测可读性模型方面表现不佳。因此,我们决定使用剩下的四种算法进行这项研究。这些分类如下:J48:基于决策树的方法。这类方法的目的是建立一个分类函数,该函数可以用树来表示,树是从根到叶建立的。实例根据其类别和被认为是所有其他属性中最好的属性进行区分。IBK:一种k近邻方法,存储所有可用的案例,并根据相似性度量对新案例进行排名。SMO(Sequential MinimalOptimization):一种训练支持向量机的快速算法。SMO算法可以被认为是一种分解方法,通过该方法,多变量优化问题被分解为一系列子问题,每个子问题优化少量变量的目标函数,通常只有一个,而所有其他变量被视为子问题中保持不变的常数。随机森林:一种结合了随机子空间和装袋概念的算法。决策树森林算法从由不同数据子集驱动的多个决策树中学习。●●●●N. Nassiri,A. Lakhouaja和V. Cavalli-Sforza沙特国王大学学报表43794频率字典结果。引理玛达米拉哈利勒秩PoS标签原始频率秩PoS标签原始频率ِ◌ﻓﻲ/fiy1介词3,555,2321介词3,648,081最大流量/min2介词2,670,7976介词2,041,624/EalaY中国 3介词2,573,5672介词2,561,534/>an~a4从属连词2,483,3973颗粒2,368,727100 mg/kg5动词2,142,9184动词2,067,943/lA6负性颗粒1,767,3455禁止或否定2,048,404表5按类别的可读性特征。类别特征描述基于POS的频率类型与令牌PoS比率令牌和类型频率类型与标记比率96个基于频率字典计算的单个PoS类型出现次数33唯一单词类型的数量除以总标记17频繁引理除以总标记数4引理与记号的比率5平均字数词汇负荷3熟悉词汇4开放类和封闭类句子长度4平均句子长度外国语1阿拉伯语Ambiguous 3在书面形式共计170人7. 结果和讨论在本节中,我们报告并讨论了五个不同实验的结果,其中四个对应于图1所示的特征约简步骤。最后一个是数据过采样实验。在我们进行的所有实验中,我们对随机选择的80%的数据生成了预测模型然后,在剩下的20%上测试生成的由于语料库中的文本数量在五个难度级别之间是不平衡的,为了在测试阶段有足够的文本,我们决定使用80%-20%的数据分割,而不是通常使用的90%-10%的分割。我们没有使用交叉验证,因为我们在这项研究中的目的不是提高准确率,而是分析不同特征在预测过程中的影响,并试图消除不相关的。我们报告的准确度计算的实验结果如下:正确预测的文档Fig. 1. 特征缩减步骤。特征提取:我们提取并计算了170个特征的值对于基于频率的特征的计算,我们使用频率字典。我们最终为语料库中的每个文件提供了一个特征向量,我们用它来预处理WEKA输入文件,以进行分类。分类阶段:在这最后一步,使用WEKA,我们应用了一个分类算法,使用80%的数据进行训练,20%的数据进行测试。从结果中,我们得到了一个准确度值准确度测试集大小×100它指定分类良好的文本的百分比对于所选择的四种不同的算法重复该步骤四次,并且每种算法分别应用于五个和三个。7.1. 基于MADAMIRA和全特征集的第一个实验包括使用用于形态同步策略特征的MADAMIRA分析仪评估最初从文献收集的170个特征在可读性预测任务中的表现该第一实验的工艺步骤如下:形态分析:这个阶段的输入是一个文本文件,使用AraNLP库分割成句子。后者是给予MADAMIRA的输入,以获得一个结果文件,该文件包含一个分析单词的列表,其中包含PoS、词元、音译等信息。类(如第3.1节所述)。在特征提取阶段,我们注意到我们的corpora不包含任何外来词,因此在向量中包含“外来词”类别是无用的,因为它总是空的,因此不会提供任何关于文本难度的因此,我们继续工作,只有169个功能。表6列出了在对不可见数据进行测试时获得的结果。对于GLOSS语料库,在第一轮实验中,我们使用随机森林算法(RF)和3向分类的GLOSS- Reading实现了74.5%的最大准确率,但使用相同的5向分类只有60%。●●●N. Nassiri,A. Lakhouaja和V. Cavalli-Sforza沙特国王大学学报表63795169功能集和MADAMIRA的测试结果。5向3路ALGRGLALGRGLJ4867.69%44.44%45.65%80百分之七十点九65.21%IBK70.76%45.45%41.3%76.92%63.63%百分之五十八点六SMO百分之七十三点八58.18%百分之四十一点三百分之八十一点五百分之七十二点七百分之六十五点二RF百分之七十三点八百分之六十百分之六十点八百分之八十三百分之七十四点五百分之七十一点七表7Alkhalil可读性特征按类别分布。类别旧的大小新大小忽略的功能基于POS的频率967125类型与令牌PoS比率33267令牌和类型频率1717–类型与标记比率44–字长55–词汇负荷33–词类44–句子长度44–模棱两可33–总16913732算法,而我们得到了最大的准确率值为60.8%和71.7%的5路和3路分类使用的RF算法与GLOSS监听。对于Aljazeera-Learning,我们使用RF算法和3向分类实现了83%的最大准确度值,并且使用SMO et RF算法的5向分类实现了73.8%的最大准确度值。7.2. 基于Alkhalil-Toolkit第 二 个 实 验 包 括 重 复 第 一 个 实 验 , 但 用 Alkhalil-Toolkit 代 替MADAMIRA分析仪。这使我们能够减少使用的功能数量通过使用Alkhalil标签集组合一些PoS标签。表7显示了在从170个特征缩减到137个特征之后,特征的新的分类分布。除了第一步之外,接下来的过程与第一个实验相同。对于语料库中的每个文件,我们使用AlKhalil-Toolkit来获得词形化和PoS标记结果。在其余的实验中使用该过程,除了改变要提取的特征的列表表8给出了第二次实验的最终测试结果。对于Aljazeera-Learning,我们使用SMO算法和三个类实现了84.61%的最大准确率,而使用SMO和随机森林的五个类获得了78.46%的最大准确率。在GLOSS语料库上的测试性能没有那么高在GLOSS-Reading语料库上,我们使用Random For- est和三个类实现了75.47%的最大准确率值,但使用IBK算法的五个类仅为54.71%。对于GLOSS-听力语料库,结果显示整体性能稍低:使用随机森林和三个类的最大准确率值为73.91%,但五个类的最大准确率值为63.04%。在分析这三个语料库的结果时,我们注意到模型预测水平2,2+和3的准确性低于水平1和1+。Aljazeera学习的内容在文本方面存在很大的不平衡:它在1+级中包含200多个文本,而其他级别包含的文本要少得多。在3向分类中,我们得到了更多的测试示例,这些测试在类“1\_1+”中被正确分类,并最终忽略了其他类中的不正确分类。换句话说,测试样本被表3中已经呈现的语料库的不平衡所偏置,因此该语料库的性能很好,并且与其他语料库相比结果存在差异。7.3. 省略一些比率特征许多特征提取技术涉及将原始向量线性变换为新向量。虽然这对数据可视化很有用,但它增加了要测量的特征的数量,并且不一定为可读性评估提供有价值的信息。在我们的研究中,我们的目标是减少冗余的功能,以获得更大的简单性和效率。特征约简的动机也是为了简洁地描述影响可读性的因素,以便我们的结果可以随后用于教育者和材料生产者选择或创建文本,这是一项需要以这种研究为指导。在这个实验中,我们专门研究了衍生特征的情况,这些特征是向量中其他两个预测因子的比率,以确定它们的贡献是否可以忽略不计。删除比率特征后,集合中仍有119个特征。按类别划分的新功能分布如表9所示。在这个实验中,“类型到令牌比率”类别被完全删除,因为它只由比率特征组成。剩下的实验只使用了八类特征,而不是九类。表10给出了该实验的最终测试结果。对于Aljazeera-Learning,我们使用IBK算法和三个类实现了86.15%的最大准确率,而使用IBK和SMO的五个类则达到了78.46%。对于GLOSS语料库,我们使用随机森林算法和三个类实现了77.35%的最大准确率值,而使用随机森林和J 48与GLOSS-Reading的五个类则为56.60%。对于GLOSS听力,我们使用随机森林和三个类获得了69.56%的最大准确率值,但只有63.04%的五个类。表8使用Alkhalil-Toolkit的测试结果。5向3路ALGRGLALGRGLJ4875.38%43.39%百分之五十81.53%71.69%63.04%IBK76.92%54.71%45.65%83.07%62.26%54.34%SMO78.46%43.93%60.86%84.61%73.58%67.39%RF78.46%47.16%63.04%83.07%75.47%73.91%N. Nassiri,A. Lakhouaja和V. Cavalli-Sforza沙特国王大学学报或者说,是一个人,或者说是一个人。表93796Readability 119功能按类别分布。类别旧的大小新大小忽略的功能基于POS的频率7171–类型与令牌PoS比率26224令牌和类型频率17152类型与标记比率404字长541词汇负荷321词类422句子长度422模棱两可312总137119187.4. 选择最佳预测因子这个最终实验的主要目标是确定可读性预测任务中表现最好的特征我们遵循以下流程:1. 对于从先前实验中获得的八个特征类别中的每一个,我们生成WEKA输入文件。2. 对于每个生成的文件,我们使用“CfsSubsetEval”特征选择方法(Hall,1999)用WEKA该方法通过考虑每个属性的个体预测能力以及它们之间的冗余度来评估属性的子集,以便保持与类别高度相关但具有低相互相关性的特征。我们将此方法与“BestFirst”搜索(Korf,1993)相结合或在任何点上,并在两个方向上搜索(考虑在给定点上单个属性的所有可能的添加和删除);3. 我们从每个类别中获取最佳特征,并将它们组合在一起,以获得包含76个特征的新WEKA输入文件。4. 最后,使用WEKA,我们对三个语料库应用分类算法,使用80%的数据进行训练,20%的数据进行测试,以获得准确度值。重复该步骤的四个分类算法,并适用于五类和三类。表 11 给 出 了 最 后 一 个 实 验 的 最 终 测 试 结 果 。 对 于 Aljazeera-Learn
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功