自动生成阿拉伯语词汇识别测试的正字法和语音相似图方法

52 浏览量更新于2024-01-17 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报利用正字法和语音相似图自动生成阿拉伯语词汇识别测试Saeed Salaha， Mohammad Nassara，Raid Zaghala，Osama Hamedba耶路撒冷圣城大学计算机科学系，邮政编码：Box 20002，Palestineb巴勒斯坦图勒凯尔姆巴勒斯坦技术大学计算机系统工程系阿提奇莱因福奥文章历史记录：收到2020年2021年1月30日修订2021年2月5日接受在线预订2021年保留字：NLPLRTN-gram方言正字音系A B S T R A C T词汇再认测验（LRT）主题是被广泛用于测试英语、德语和西班牙语等语言水平的主要方法之一然而，对阿拉伯语的类似研究仍处于发展阶段，现有的建议主要使用人工方法。在本文中，提出了一种新的方法，基于一个新开发的算法，其目的是自动构建高质量的非词与阿拉伯语水平的真正快速测量（阿拉伯语LRT）。建议的算法将自动生成非词的基础上阿拉伯语的特殊特征，他们是正字法（拼写），音韵（发音），n-gram和词频图，这是一个重要的因素，以创建一个多层次的测试。在一个大的阿拉伯语词汇数据集的帮助下，所提出的算法进行了实验。为此，一个基于Web的应用程序，按照建议的方法，设计和实施，以方便收集和分析学习者的反应的过程实验结果表明，该系统自动生成的LRT问题对学习者产生了混淆，混淆矩阵的输出表明，有1/3的非词能够分散学习者的注意力（准确率为65%）。因此，召回率和精确率的结果具有较小的值，分别为0.52和0.48。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍阿拉伯语是当今广泛使用的主要语言之一。它是世界上最重要的七种语言之一。超过4.22亿人将阿拉伯语视为母语，还有许多人将阿拉伯语用于其他目的，如了解宗教，收集人民阿拉伯语分为三个主要类别，古典，口语和标准（Elfardy和Diab，2012; Habash，2017）。古典阿拉伯语是阿拉伯语的遗产，*通讯作者。电子邮件地址： sasalah@staff.alquds.edu （S.Salah ），mohammmad.gmail.com（ M. Nassar ）， zaghal@staff.alquds.edu （ R.Zaghal ）， osama.ptuk.edu.ps （ O.Hamed）。沙特国王大学负责同行审查制作和主办：Elsevier古代阿拉伯语“方言”代表阿拉伯地区（黎凡特，摩洛哥，埃及和海湾）之间真实口语的高度差异，导致所谓的阿拉伯语“双语”，这意味着人们使用同一个词来表达不同的目的;标准阿拉伯语是语言学习中心和书籍中使用的官方语言。古典阿拉伯语和阿拉伯口语都有自己的特点和用法，很少用于科学研究。因此，标准阿拉伯语是这项研究工作的核心部分，大多数阿拉伯语研究都是使用现代标准阿拉伯语（MSA）语料库进行的，这些语料库来自正式的新闻机构，书籍，社交媒体和宗教书籍。一些自然语言处理提案强调需要有有效的机制，通过简单快速的放置测试方法来衡量阿拉伯语能力（Hamed 和Zesch，2018 a;Hamed，2019）。因此，使用自然语言处理（NLP）技术丰富阿拉伯语研究的热情是研究界目前的高度需求。NLP 是人工智能（ AI ）和语言学之间相互作用的一组技术（Nadkarni等人，2011年）。这些技术可用于多种用途，如机器https://doi.org/10.1016/j.jksuci.2021.02.0061319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS. 萨拉赫，M。纳萨尔河Zaghal等人沙特国王大学学报8430翻译、文本挖掘和处理、拼写自动校正、光学字符识别（OCR）应用、情感分析、自动语言放置测试的生成、测试自动校正、语音识别等（Menacer等人，2017; Abdul-Mageed，2017）。有许多研究工作解决了阿拉伯语NLP （ANLP ），包括书面和口语部分（Farghaly和Shaalan，2009; Habash，2010; Guellil等人，2019年）。一些研究工作，如（Jarrar等人，2017; Bougrine等人，2017; Al-Twairesh等人， 2018年）提出了通过将这些方言中的每个词汇收集到一个语料库中来处理阿拉伯方言的解决方案。其他人，如Salloum和Habash，（2014）和Hegazi，（2016）解决了阿拉伯语变音符号;以及阿拉伯语字母的正字法，用于指示阿拉伯字母的书写风格和字母的位置（第许多字母在不同的位置有不同的形状。方言和变音符号超出了本研究工作的范围。如Hamed和Zesch（2017）所述，词汇识别测试（LRT）是一种词汇量测试，经常用于测量全球语言能力。在这样的测试中，学习者看到的是有效的单词，比如“denial”，或者是非单词，比如“platery”，他们需要决定这些单词是有效的还是无效的。轻便铁路的主要优点是简单，只需五分钟便可回答所有问题。如图1所示，只有“是/没有”或检查表的问题被问到，分数很容易自动化。当前的问题可以注意到，当学习者无法找到一个有效的措施，以表明他们的认识和知识水平的阿拉伯语。因此，这项研究的贡献旨在开发阿拉伯语LRT的基础上，一个新提出的算法，自动生成的LRT，这是已经应用于其他欧洲语言的主要骨架。所提出的算法将遵循一定的规则来生成高质量的非词，即，一个可能会使学习者感到困惑的非单词，并为LRT增加了一定程度的复杂性。此外，该方法应用通用机器学习范式，即字符n-gram模型来生成阿拉伯语LRT的良好非词。我们还采用了其他方法，可以更好地适应阿拉伯语的特殊特点，阿拉伯语的语音和拼写。一般来说，表音表示汉字如何发音，而词法表示汉字如何书写。此外，我们使用了原始的词频图，这是一个重要的因素，以产生各种复杂程度的LRT。此外，研究问题可以通过扩展目前广泛用于其他语言（如英语，德语，西班牙语等）的算法来设计阿拉伯语LRT来解决。这种情况导致了几个因素的参与，并被认为是阿拉伯语（从右到左的书面语言）的特殊属性（Hamed和Zesch，2015，2017）。此外，阿拉伯语有数百万个混淆使用和未使用的词汇-大约1200万，这限制了创建好的非词的能力，这些非词具有与要包括在阿拉伯语LRT中的混淆词类似的高排名。除上述挑战外，ANLP的研究仍处于早期发展阶段，例如，资源的缺乏或稀缺（语料库）。有一些商业语料库可以用来帮助进行相关的研究。考虑到多个语料库意味着存在更多的可用词，这将降低分类时的错误率图1.一、LRT中使用的英语和德语问题示例。生成的词汇表是非词或混淆词。因此，本研究的贡献旨在通过提出一种考虑这些问题的新算法来自动开发阿拉伯语LRT。它通过实现一个基于Web的应用程序来支持，该应用程序生成这样的分班测试来衡量学习者的熟练程度。本研究假设要实现的主要假设是，基于书写和发音的相似性生成阿拉伯语非词，这会分散学习者的注意力，特别是在考虑原始词频图和n元语法概念时。此外，在一个专门的语料库中包括新的非词，用于生成阿拉伯语LRT将提高测试的结果和性能。因此，这项工作的主要贡献是：提出了一种新的算法，考虑了一些阿拉伯语言的特点，自动生成高质量的非字，增加了阿拉伯语LRT的复杂性/难度。开发一个基于Web的应用程序的基础上提出的算法，以减轻管理和收集学习者制定一个验证标准，以评估所提出的方法的准确性。验证主要基于人为干预，由阿拉伯专家按照相同的规则编写测试版本，并对获得的结果进行比较、分析和讨论。除引言部分外，本文还包括以下几个部分. 第2节介绍了相关工作的回顾。第3节详细介绍了所提出的方法和建议的算法。所用的数据集，评价措施，实验结果及其讨论在第4节。最后，在第五部分，我们对本研究工作进行了总结并提供一些未来的工作。2. 相关工作语言学家一直是几项研究工作的重点，目的是找到帮助语言学习者了解其熟练程度的最佳方法。例如，英语词汇项目（Balota等人，2007年）包含了国际标准测试，该测试已被创建并成为评估学习者对特定语言的熟练程度的标准衡量标准。这些考试包括托福考试（TOEFEL）和国际英语语言测试系统（ILETS）。这两项考试被广泛用于衡量各类学术和商业类的英语水平另一个简短的快速测试，已被用来给一个指标对英语学习者的熟练程度和其他拉丁语言是LRT。来自欧洲不同研究中心的许多实验和研究由于这项研究工作的重点是阿拉伯LRT，在下文中，我们讨论最相关的贡献，并阐明其主要缺点。因此，我们避免了与一些类似实验相关的潜在问题（Khalil和Darwish，1967; Balota等人，2007年）进行了设计该测试之前。因此，与每个实体相关联的这个历史背景与创建阿拉伯语LRT相关，作为在生成良好的非词（如变音符号化角色）的同时具有效果的组件（Jarrar等人，2017; Hamed和Zesch，2017）及其好处。LexTALE是一种衡量语言能力的方法，英语、荷兰语和德语（Balota等人，2007年;Lemhöfer和Broersma，2012年）。LexTALE是一个五分钟（是，否）的词汇识别测试;当●●●S. 萨拉赫，M。纳萨尔河Zaghal等人沙特国王大学学报8431这表明词汇数据集，但与其他语言能力测试（如TOEIC（国际交流英语测试））相比，它仍然很重要，用户可以通过访问本网站（https：//www.lex-www.example.com）来应用此测试。tale.comLexTALE测试包括60个（是，否）问题，40个单词和20个非单词。非词是手动生成和创建的，但是生成这些非词的过程应该生成的非词必须看起来像真正的单词，这可能会分散外国学习者的注意力，使他们难以识别。LexTALE被认为是一个很好的测量非英语母语者具有从中等到高的水平。荷兰语和德语的Lex- TALE仍然没有被归类为一个很好的衡量标准。也可以手动生成LexTALE测试该手动过程通过替换目标词中的某些字符来创建非词，以获得在拼写和语音概念方面类似的非词。通过将其结果与其他能力测量测试（如快速分班测试（QPT））相关联来验证生成的LexTALE测试。该测试已适应英语以外的其他语言，例如，荷兰语、德语、法语和西班牙语（Duyck等人，2004年）。英语Lex采用了手动生成非词的方法图标项目5（ELP）（Balota等人， 2007年）。ELP是一个大型数据库（描述性和行为），它与搜索引擎相连接，旨在为研究人员提供必要的资源，帮助他们克服处理词汇测试所面临的障碍。可通过下列网址（https://elexicon.wustl.edu）查阅电子学习方案。数据收集了来自六所大学的1300名参与者。关于该数据集的一些探索性信息显示在上述项目的网站上，它提供了可用词和非词及其频率的额外描述性统计数据ELP使用手动过程来创建非词，通过替换目标词中的某些字符来获得在拼写、语音和形态方面与原始非词相似的非词。在ARC非词数据库（Rastle等人，2002年），研究人员提供了一个基于语音和拼写规则的模型，适用于英国南部的英语。该应用程序的结果在这个项目的网站上提供了一些统计信息。这个数据库中的项目被用来建立LRT测试，旨在以不同的方式打击学习者的基础上形态，拼写和语音规则。Wuggy研究项目（Keuleers and Brysbaert，2010）提出了一个计算机应用程序，可以帮助研究人员根据语言规则，使用子音节结构和子音节元素之间的过渡频率来创建更好质量的假词或非词。它已经应用于多种语言，如荷兰语，英语，德语，法语，西班牙语，塞尔维亚语和巴斯克语，并且可以通过一些额外的努力扩展到其他语言。在这方面，假词被认为是一个重要的因素，词汇决策，代表了一个主要的工具，心理语言学家使用执行的文字处理任务。Wuggy算法的一些限制是（i）它主要依赖于子音节或求和的二元语法相似性;（ii）程序需要称为匹配表达式的用户输入，因此它不是用于非词生成的完全自动化的解决方案;（iii）算法不自动检测词结束的表达式另一个类似于Wuggy的应用程序被称为WordGen。它是荷兰语、英语、德语和法语中使用的非词选择和生成的工具（Duyck等人，2004年）。在这项研究中，人工和自动的方法来生成非词。其他研究人员（Jarrar等人，2017年;Hegazi，2016年; Hamed和Zesch，2015年）试图展示阿拉伯语变音在LRT词汇评估中的重要作用，因为他们认为变音揭示了单词的模糊性，并在学习者识别单词时做出更好的判断。为此，我们制作了一个阿拉伯语词汇测试的变音版本样本和一个非变音版本样本，以显示变音的作用结果表明，变音符号的缺失增加了单词识别的歧义性值得一提的是，除了一些历史、宗教和古典书籍以及一些专门的阿拉伯教育领域之外，大多数阿拉伯语书面文本都是非离散化的变音对非词设计有影响，因为阿拉伯变音是一种描述阿拉伯语单词发音的正字法（Khalil和Darwish，1967）。我们假设，非变音的非词可能比图形用户界面比较分析数据库模式结果分析结果讨论非字DS真实语料自动化测试后备发动机从DBn-gram生成非词生成（正字法）非词生成（语音）词频率保持30%原样手动非词生成数据预处理手动生成非词数据收集数据标记化数据清理图二、阿拉伯语词汇识别测试（LRT）的建议框图S. 萨拉赫，M。纳萨尔河Zaghal等人沙特国王大学学报8432带变音符号的变音非词可以更好地分散学习者与密切相关的词，特别是如果他们标有发音变音符号。Hamed和Zesch（2015）建议使用一种全自动的方法来生成高质量的非词，这些非词可以用作英语LRT中的刺激，并使学习者感到困惑。为了实现英语非词生成的全自动化，作者采用基于马尔可夫和字符语言模型的算法，通过自动替换一个字母的方法，研究了英语非词的自动生成，并对生成的非词进行了排序，最后在英语LRT中使用了最高的非 Rastle等人进行了另一项类似的工作，（2002年）的报告。作者通过建立一个基于语音和拼写语言属性的非词数据库，实现了一个自动生成英语非词的范例Gueddah和Yousfi（2013年）提出了一种方法，用于改进在阿拉伯语中输入文档时的拼写检查和纠正过程。该方法提出了一种基于统计模型的相似度计算方法，该方法通过将代价与键盘字符的邻近性和阿拉伯字母的书法相似性等置换错误相关联，利用相似度矩阵计算阿拉伯字母的相似度。他们的主要目的是设计一个拼写检查器，用于检查在阿拉伯语文件中键入的错误单词。与本研究相比，我们根据阿拉伯语的语音和拼写特征为每个字母找到了一个特定的相似性矩阵，因此将基于一个小的相似性集合来执行表示。但这两部作品所涉及的范围不同，主要目标是有一条阿拉伯轻轨他们的主要目的是提出一个阿拉伯语拼写检查器。与以前的研究工作相比，这项研究工作的不同之处在于，所提出的方法考虑了基于算法方法自动生成非词的过程，该算法考虑了四个阿拉伯语言特征：正字法-特征，即，拼写、语音、n元语法和词汇频率。算法1示出了生成非词的过程。所提出的算法首先循环通过存储在数据库中的所有清理词汇表。对于每个词汇，它计算其频率。为了生成多级测试，该算法计算词频（Frequency）;所选单词在语料库中出现的次数。使用两个阈值（阈值1和阈值2）来调整算法操作如果频率>阈值1&&频率阈值2-接下来，它将这两个列表添加在一起以形成相似性列表（SimilarityList），该相似性列表包含从正字法和音位相似性映射生成的所有词汇表。为了生成测试问题，该算法从SimilarityList中随机选择词汇，并检查该词汇在处理后的数据集（ProcsDSList）中的出现情况。如果条件语句返回“否”-这意味着所选词汇表是一个非词，它会将其添加到LTR测试所使用的NonwordList中。如果条件状态返回TRUE- 这意味着所选择的词汇被认为是一个真实的单词，它将其从SimilarityList中删除，并通过从SimilarityList中选择一个新的随机词汇来再次重复该过程。对于每个生成的非字，数据记录将存储原始非字的ID、替换字母、替换位置和新字母。3.2.生成n-gram为了改进生成非词的过程，算法1的结果已经通过应用字符n-gram概念（其是词汇表的后续字符）进行了改进此函数循环遍历已清理的数据文件，然后针对每个词汇表，生成从bi-gram到world-gram的所有可能的n-gram。克，和词频图，这是一个重要的因素，来创建多层次测试。为了生成非词，我们受到其定义的启发：“满足语言的语音约束但不具有意义的词”（Huibregtse et al.， 2002年）。用于生成非词的方法之一在英语中是最小对（Ricks，2015），在阿拉伯语中相应的方法是使用正字法和音韵学。Hamed和Zesch（2015）指出，频繁的n元语法很可能生成好的非词，看起来像现有的单词。Ellis（2002）也指出，频繁出现的单词比不频繁出现的单词更容易猜测。除此之外，阿拉伯语中的非单词可以被描述为看起来像真实单词的假阿拉伯语词汇，并且它被设计成分散学习者的注意力，并且如果他/她尝试发音，则在语音方面混淆他/她，并且在单词书写形状方面拼写。这些论点来自al-Khalil ben Ahmad al-Farahidy的著作《艾因》（Khalil和Darwish，1967年）。3. 所提出的方法图2显示了所建议的方法的主要步骤。在下文中，我们讨论处理以下两个主要子部分的后端引擎3.1. 非词生成：正字法和音韵学生成非词的自动过程基于在上述阿拉伯语算法1：提出的非词生成算法启动程序1. 初始化： NonwordList （） =null ，ProcDSList，SimilarityList= null，频率，阈值1，阈值22. //第一步：从ProcDSList中读取随机字3.loop//对于ProcDSList中的每个单词4.word = getNewWord（）5.频率= ProcDSList.count（字）6.if（Threshold1FrequencyThresh- old2）{<<7.LO=正字法列表（单词）8.LP= ListofPhonologics（word）9.SimilarityList=LP+LO10. endif11. Nonword =getRandomWord（SimilarityList）12. if（proc_list.find（Nonword）==False）13.NonwordList.add（Nonword）14. 其他15.SimilarityList.del（Nonword）16.goto步骤（11）结束过程长度-1克。这些n-gram被插入到一个数据库表中，相对于真实的单词，这可能有助于制定一个统计，S. 萨拉赫，M。纳萨尔河Zaghal等人沙特国王大学学报8433表1阿拉伯字母的正字法和音系相似图相似类型相似集以上单词列表的发音列表是Hona/这里|萨瓦/韦瑟|Eyna 't/长大|Aw/或|Athmarat/撒面粉|Wa adaf/and add |Sa 'ktob/我会写|我的生活正射正射正射语音-发音部位（软腭音-发音部位）语音-发音部位（声门-声门发音部位）语音-发音位置（双唇-唇音发音）语音-发音部位（口腔-发音部位）ﺡ،ﺝ،ﺥﺏ،ﺕ،ﺙﺱ،ﺹ،ﺵﺫ،ﺩﺽ،ﺫ،ﻅ،ﺽﻕ،ﻙ،ﻑﻉ،ﻍﻍ،ﻉ،ﺡ،ﺥ،ﻩ،ﺀﺕ،ﺙ،ﺝ،ﺩ،ﺫ،ﺭ،ﺯ،ﺱ،ﺵ،ﺹ،ﺽ،ﻁ،ﻅ،ﻕ،ﻙ،ﻝ،ﺙ،ﻱﺏ،ﻑ،ﻡ،ﻭﺃ،ﻭ،ﻱ故事|在A/|Yawm/天|Wa-atahath/和谈话|关于/About|阿尔-阿斯迪卡/朋友|Wa hata/甚至|埃尼梅斯|Al- ladina/who|拉胡姆|Makan/place| Fe/In|Kalbi/我的心。在数据预处理步骤之后，是后端引擎步骤，其中为每个单词提取所有n-gram，语音和拼写相似性列表。为了简单起见，我们继续考虑一个样本单词“kalbi”/“我的心”的示例，其中它在整个语料库中出现30次（单词频率= 30）。音位相似性的一个例子是（用kaf：k：替换kkaf：Q：），正字法相似性的一个例子是（用fa '：F：替换kkaf：Q：），n元语法的列表是[/all|润滑油/润滑油|简体中文|心脏/心脏|日本语/lbe|我的心/ qalbi/my heart]。所有提取的相似性列表（语音，正字法和n-gram）和单词的频率将作为输入馈送到下一我们可以通过这些数据来得出一些结论和判断。由于n-gram可以通过考虑前缀和后缀字符的出现频率来替换输入词中的字符来生成非词。因此，将替换来自相似性组的具有使用n-gram列表中的频率的字母的最近字符。这样，n-gram被用来缩小可接受的可能性;这有望提高非词生成过程的质量。下面是一个新的n-gram数据集的例子，该数据集是在单词[’ﺣﺎ所有单词都被收集在一个文件中，并持久化在关系数据库表中，而处理结构化数据库通常更容易和更快。此Oracle数据库模式用于构建和操作相关的LRT测试、分析结果以及构建所需的报告和仪表板等。对于数据库表中的每个单词，我们使用所需的OracleSQL聚合函数构建了一个查询，以检索要插入到一个新表中的单词频率如上所述，在选择测试项目时考虑了词频;因此，频率最高的词是最常见的词，因此，它们很容易猜测。从另一个方面来说，高频词的非词将很容易被猜到，并且它们不会使学习者感到困惑。因此，供试品的频率将低于平均值，以确保足够的耐用性。为了便于理解所提出的方法（图2），我们提供了一个说明性的例子，以查看所有的步骤。通过参考图2，第一步是具有原始数据集。我们从KACST语料库中选取了以下句子（表2，参考文献[3]）“你好，我好，“他说，”你好，我好。ﺍﻷﻋﺪﺍﺀﺍﻟﺬﻳﻦﻟﻬﻢﻣﻜﺎﻥﻓﻲﻗﻠﺒﻲ下一步是数据标记化，它用于使用空白作为分隔符来分隔每个数据文件的内容此步骤的输出是以下单词列表：ﻫﻨﺎ|ﺳﻮﺍﺀ|ﺃﻳﻨﻌﺖ|ﺃﻭ|我的天啊|ﻭﺃﺿﺎﻑ|''那就来吧|ﺳﻴﺮﺗﻲ|ﺫﺍﺕ|ﻳﻮﻡ|ﻭﺃﺗﺤﺪﺙ|ﻋﻦ|ﺍﻷﺻﺪﻗﺎﺀ|ﻭﺣﺘﻰ|ﺍﻷﻋﺪﺍﺀ|ﺍﻟﺬﻳﻦ|ﻟﻬﻢ||ﻣﻜﺎﻥﻓﻲ|.”接下来是数据清理步骤。它是消除任何不需要的文本内容的过程，包括标点符号、特殊符号、阿拉伯方言和变音符号、数字值、停用词、一个字符长度的项目和任何奇怪的项目。这一步的输出是一个干净单词的列表。ﻫﻨﺎ|ﺳﻮﺍﺀ|ﺃﻳﻨﻌﺖ|ﺃﻭ||ﺃﺛﻤﺮﺕ|ﻭﺃﺿﺎﻑ|ﺳﺄﻛﺘﺐ|ﺳﻴﺮﺗﻲ|ﺫﺍﺕ|ﻳﻮﻡ|ﻭﺃﺗﺤﺪﺙ|ﻋﻦ||ﺍﻷﺻﺪﻗﺎﺀ|ﻭﺣﺘﻰ|ﺍﻷﻋﺪﺍﺀ|ﺍﻟﺬﻳﻦ|ﻟﻬﻢ|ﻣﻜﺎﻥ|ﻓﻲ|ﻗﻠﺒﻲ建立数据库方案的阶段这里，n元数据库将每个单词的n元存储在数据库表中，相对于原始单词。非词数据库存储相对于原始词的所有可能的非词（语音，拼写），真实语料库存储相对于其频率值的所有不同的真实词。4. 实验结果和讨论4.1. 数据集和数据准备在这项研究中，使用了免费提供的语料库数据集。它们是从不同的资源中收集的，如新闻机构、社交媒体和阿拉伯书籍;这些文件用于类似的项目，这些项目已经解决了阿拉伯LRT的手动生成问题（Hamed和Zesch，2017; Rastle等人， 2002年）。考虑到还有其他付费资源，根据我们的研究目的，这个免费资源足以实施这样的实验，其他相关研究也考虑了这一点（Hamed，2019）。在下文中，我们总结了有关所用数据集的一些探索性信息。该数据集包含大量原始格式的阿拉伯文本。收集的文件被转换为一个UTF-8格式，每行一个应用一些预处理操作将数据转换为合适的格式。我们主要应用数据清理来消除特殊符号，非阿拉伯字符，数值，标点符号，空格和任何其他奇怪的字符。表2显示了有关所用数据集的一些技术信息。此表的第一列表示语料库源;从其中获得数据的自由源，每个源可以有一个或多个文件，字符数，notepad++文本文件中的行数，大小（KB），带或不带变音符号，以及主要引用。参考表2，可以清楚地看到，属于“Watan source”的数据文件我们观察到，收集的数据集有一些冗余。我们认为，数据冗余将有一个显着的价值时，产生非词的基础上，原始的词频图，这是一个重要的因素，以确定测试水平。由于频率与生成的非词的难度呈负相关，这符合最常见的词越容易被人知道的论点，并且当用相似性替换字母时不容易混淆学习者。图 3显示了应用于原始数据集的各种预处理步骤。由于收集的数据是原始格式，S. 萨拉赫，M。纳萨尔河Zaghal等人沙特国王大学学报8434表2原始数据集的总结（尺寸和参考）。语料来源文件名焦粒计数线大小[KB]变音半岛电视台语料库[1]aljazeera.txt13,260,97680,36913,058没有半岛电视台语料库[1]aljazeera100.txt977,3215,887955没有[2]第二话books.txt858,6221,533839没有KACST语料库[3]KACST.TXT24,551,23574,10623,976没有KACST语料库[3]KACST100.txt1,077,78174,1061,053没有[4]第四届全国政协委员khaleej.txt27,283,9875,69526,645没有[4]第四届全国政协委员Khaleej100.txt1,106,4192311,081没有[4]第四届全国政协委员Wata100.txt1,043,1071781,019没有[4]第四届全国政协委员Watan.txt124,202,282178121,292没有[4]第四届全国政协委员Watan-diac.txt163,473,92440,579159,643是的《古兰经》[5]quran.txt743,9186,236727没有RDI[6] rdi.txt 858，844 2，579 839否Tweets[7]Tweets-ann.txt1,528,27310,0071,493没有Tweets[7]Tweets-sharp.txt1,514,71310,0071,480没有维基新闻[8]WikiNewsTruth.txt177,279423174没有总362,658,681312,114354,2741 网址：http://www.aljazeera.net/portal[在线;上次访问时间：29 th，July 2020].2 网址：https://sourceforge.net/projects/tashkeela/[在线;上次访问时间：29 th，July 2020].3 网址：https://sourceforge.net/projects/kacst-acptool/files/[在线;上次访问时间：29 th，July 2020]. 4网址：https://sites.google.com/site/mouradabbas9/corpora[在线;最后访问时间：29 th，July 2020]. 5网址：http://tanzil.net/download/[在线;上次访问时间：2020年7月29日]。6 网址：http://www.rdi-eg.com/RDI/TrainingData/[在线;上次访问时间：29 th，July 2020].7 网址：https://www.aclweb.org/anthology/D15-1299[在线;上次访问时间：29 th，July 2020]. 8网址：https://www.aclweb.org/anthology/W17-1302[在线;上次访问时间：2020年7月29日]。首先应用标记化过程，以使用空白作为标记符来标记每个数据文件的内容。这个过程是必要的，每个词都在一个单独的行，然后积累表3从已处理文件中提取的总字数。单线。还对数据集应用数据细化操作以消除变音符。如表3所示，所收集的区分数据集少于非区分部分。因此，消除变音符号化将增强非变音符号化数据集，并有助于考虑足够的数据量图书语料库74，770KACST语料库古兰经66，314RDI 74 959推特234，326作为最终的语料库数据。所有目标数据都收集在一个文本文件使用UTF-8编码，一些统计详细信息显示在表3显示了从每个文件中提取的单词总数。表4显示平均单词长度为（6.5），因此，生成的测试具有确定该长度范围以制定测试项的查询条件4.2. 系统实现所提出的方法进行了实验，使用基于Web的应用程序。对于Web应用程序开发，它是使用Oracle APEX19.1实现的。APEX是Oracle的一个快速开发框架，它用于提供一个用户友好的界面，学习者可以通过它进行交互、注册和参加考试。系统管理员可以使用此界面来分析测试结果和其他存储的数据，以及创建相关报告和仪表板的能力。已创建Oracle APEX工作区应用程序。这个工作区完成了创建LRT测试的自动化版本的任务。Oracle SQL表4真实单词和非单词数据集的摘要图三.数据预处理和准备步骤流程图。所有结果都保存到一个文本文件中。在标记化过程中，语料库名称Num.干净的话程序消除标点符号，特殊符号，阿拉伯语Al-Watan-2004 Corpus85,052变音符号，数值，停止字，一个字符长度的项目，半岛电视台新闻1,156,428和任何奇怪的东西所有数据源已经存储到一个文本文件中，其中每个单词都存储在一个Al-Khaleej-2004Corpus Al-Watan-2004Corpus2,272,7509,226,283项目Ave. 字长计数清理数据集6.514,000,849主数据集-不同6.5399,495非词5.238,412,714S. 萨拉赫，M。纳萨尔河Zaghal等人沙特国王大学学报8435创建语句来选择和操作数据库模式中的测试表的数据，在查询中使用一些条件，如频率、长度和类型（拼写和音位）来调整测试难度和风味。在测试窗口中，要求提供一些个人学习者的详细信息，例如母语，年龄，性别和学习阿拉伯语的年数。这些Meta数据和给定测试的结果将用于分析测试的数据集。为了生成人工制作的非词，我们得到了一位阿拉伯语专家的帮助，他教授阿拉伯语多年。这位专家应用了在自动化方法中用于生成拼写和语音非词的相同规则，并使用相同规则手动生成非词类型。本部分旨在对自动生成的测试和手动生成的测试进行比较研究，以验证测试的有效性。为了创建测试表，考虑LRT项目;选择具有1：2（词：非词）比率的20个问题;并且使用SQL查询以基于父词频的随机方式检索三个相等的部分（实词、正字法、语音）;将词长度调整为4至9个字符以在所收集的数据的范围长度内。表5和表6总结了从这些实验中获得的一些样品的主要结果。我们根据非词生成类型将分析分为以下六类：Both-Auto：自动生成非字，即，用一个字的正字法和音系相似性表替换一个字。Both-Manual：手动生成非词，即，用一个字的正字法和音系相似性表替换一个字。Orthographic-Auto：自动生成非词，即，用一个字符的正字法相似性列表替换该字符Orthographic-Manual：手动生成非词，即，用一个字符的正字法相似性列表替换该字符。Phonological-Auto：自动生成非词，即，用一个字的语音相似性表替换它Phonological-Manual：人工生成非词，即，用一个字的语音相似性表替换它表5正确答案/生成类型的数量和总体准确性的总结。4.3. 评估措施几个通用的评价措施被用来评估所建议的方法的性能。对于这项工作，我们专注于最常见的，特别是我们考虑的准确性，精度和召回。前三个度量可以在混淆矩阵的帮助下计算，如图4所示。为了理解这个数字，我们提供了以下基于Hamed（2019）工作的定义。True Positive（TP）是正确答案的数量，即，posi- tive类被正确识别为positive（识别为真实单词的真实单词）。真阴性（TN）是的number正确答案，即，否定类被正确地标识为否定（标识为非词的非词）。假阳性（FP）是不正确答案的数量，即，否定类被错误地识别为肯定类（非词被识别为真正的词）。假阴性（FN）是不正确答案的数量，即，阳性类别被错误地识别为阴性（实际单词被识别为非单词）。图 4显示了学习者回答的混淆矩阵。该测试有30个输入单词，每个单词有49个响应，因此总共有1470个观察结果，1470个中的490个来自真实单词输入集的答案（10个真实单词，每个单词有49个响应），490个观察结果中的257个有正确答案，但是第233章不正确的答案从另一方面来看，980名学生的答案中有277人能够从非词中获得答案，而980名被试中有704名被试不能分散学习者的注意力，他们给出了非词选择。从混淆矩阵的输出，它表明，1/3的生成的非词能够分散学习者的注意力。相应地，准确率、召回率和精确率的计算值分别为65%、0.52和0.48。这些小的值表明，LRT的问题，自动生成的建议系统混淆了学习者。这是正确的，频率增加了灵活性，以确定测试的难度，这支持了多层次的测试生成的想法，但缺点是有较少的显着计数时，与阿拉伯语的总真实的话，这是约1200万字。这将影响生成的非词的准确性，而它正在被分类作为非文字。一代类型描述编号正确答案精度%4.4. 比较分析自动生成非字使用每个字母的正字法和音系相似性列表两者-手动人类非词生成每个字母的5.31107 7.28正如手稿中明确指出的那样，词汇识别测试（LRT）主题是广泛使用的主要方法之一以衡量一些国际语言如英语、西班牙语和德语的语言熟练程度。但类似阿拉伯语的研究仍处于发展阶段，现有的亲，正交-自动正字法-手动语音-汽车语音-手册利用每个字母的正字法相似列表使用每个字母的正字法相似性列表的基于每个字母语音相似性表的7.4164 4.35172 11.7173 11.77非词的生成主要采用人工方法。这项研究工作的目的是丰富阿拉伯语LRT，更准确地说，在自动生成非词的方式，这可以被认为是第一个工作，在这一领域进行。尽管如此，我们还是试图进行比较研究，考虑到阿拉伯文和英文的最相关的贡献我们特别考虑了Hamed和Zesch（2018 b）以及Hamed（2019）所做的工作，他们依赖于人类制作的非词Real word具体的单词取自加工语料库257 17.48针对阿拉伯文LRT，LexTALE（Lemhöfer和Broersma，2012年）和高阶位置特定语言模型（3-gram-ps）合计= 1470 960 65%LexTALE类英语LRT的自动生成（Cavnar和●●●●●●●●●●S. 萨拉赫，M。纳萨尔河Zaghal等人沙特国王大学学报8436表6使用自动生成类型的非字示例。词类型新非词旧查尔新收费ﺁﻳﺎﺕ自动化_bothﺁﻳﺎﺙﺕﺙﺍﺩﻋﻬﻦ自动化_bothﺍﺩﻏﻬﻦﻉﻍﺭﺗﺒﺘﻬﺎ自动正投影ﺭﺗﺒﺜﻬﺎﺕﺙﻏﻴﺒﺘﻬﻢ自动正投影ﻏﻴﺒﺒﻬﻢﺕﺏﻣﻮﻇﻔﺘﻪ自动正投影ﻣﻮﻇﻘﺘﻪﻑﻕﺗﺨﺬﻝ自动语音的ﺗﺨﺬﻕﻝﻕﺳﺄﻧﺘﻬﻲ自动语音的ﺳﺄﻧﺘﻬﻞﻱﻝﺻﺪﻗﻴﻨﻲ自动语音的ﺻﺪﻛﻴﻨﻲﻕﻙﻣﻔﺎﻋﻞ自动语音的ﻣﻔﺎﻋﻂﻝﻁﻣﻼﻣﺤﺎ自动语音的ﻣﻠﻮﻣﺤﺎﻡﻭ见图4。混淆矩阵的输出和评价措施。Trenkle，1994;Hamed and Zesch，2015）.为了便于比较，我们考虑了这些复杂工程所使用的相同评估措施我们主要关注查全率和查准率，这是两个常见的矩阵被广泛用于衡量类似研究的性能。在这项比较研究中，我们考虑了召回

下载后可阅读完整内容，剩余1页未读，立即下载