阘景进阿语法错误自动修正系统

125 浏览量更新于2024-01-14 收藏 2.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种自动纠正阿拉伯语文本中语法错误的创新方法Chouaib Moukrima，Mr. Chouaib，Tragha Abderrahima，El Habib Benlahmera，Almalki Tarikb摩洛哥卡萨布兰卡哈桑二世大学Ben M'sik理学院b摩洛哥卡萨布兰卡哈桑二世大学文学院Ben阿提奇莱因福奥文章历史记录：2018年9月25日收到2019年2月3日修订2019年2月5日接受在线提供2019年保留字：阿拉伯语句法错误自然语言处理本体A B S T R A C T自然语言处理（NLP）已经成为计算机和认知科学中使用实验方法的一个不断增长的研究领域。词法和句法在正确理解句子中起着至关重要的作用。在本文中，我们将提出一个语法错误纠正系统的基础上自动生成正确的句子在阿拉伯语。首先，我们从所考虑的句子中提取单词，然后基于本体中阿拉伯语语法规则的逻辑描述生成所有可能的句法正确的句子。之后，我们将原始句子与生成的句子进行比较，以检测任何最终错误，然后进行纠正阶段。如果系统没有找到与原始句子相似的句子，则会自动提供正确的使用阿拉伯语语法校正器可以提高生产力，并改善任何用阿拉伯语写作的人的文本质量。使用一组阿拉伯语句子进行了成功的测试。实现的系统实现了约92%的准确率和约84%的召回率。通过观察所取得的结果，可以得出结论，我们的方法是有前途的。©2019作者制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍许多作品在几个层次上关注自然语言处理。也就是说，定义单词结构的形态学（Al-Sughaiyer和Al-Kharashi，2004年; Boudchiche等人，2016），句法决定句子的组成（Socher和Christopher，2010;Klein和Christopher，2003），语义以确定含义（Elkateb等人，2017年）。一些程序，如自动翻译，信息提取，自动文本摘要等，可以利用这些。然而，这种软件程序的缺陷在于构成句子的单词之间的关系，该关系有时可能在句法上是不正确的，并且因此可能导致不正确的结果。这就迫切需要一个自动有效的纠正系统。*通讯作者。电子邮件地址：chouaib. univh2m.ma（C. Moukrim）。沙特国王大学负责同行审查这一领域的大部分工作涉及拼写水平（Attia等人，2015）;它只是验证字典中单词的存在，但不能检测语法错误。关于阿拉伯语，这是在网络上使用最广泛的语言之一，对这些类型的错误的研究仍然有限（即阿拉伯语GramCheck为现代标准阿拉伯语开发）（Shaalan，2005）。因此，在几个层次上说明了纠正阿拉伯语语法错误的困难：这种语言的复杂性和丰富性;大多数文本中没有元音;句子结构中词序的不规则性;词的屈折变化问题（词的词尾取决于它们的情况：主格、连格、属格等）;凝集;以及其他形态分析问题。所有这些因素都在几个层面上阻碍了错误的自动处理我们工作的目标是设计一种新的方法，阿拉伯语句法错误的自动处理。“处理”这个词“自动”一词https://doi.org/10.1016/j.jksuci.2019.02.0051319-1578/©2019作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comC. Moukrim等人/Journal of King Saud University477我在没有人参与的情况下检测或校正错误，并且为了执行相应的计算而施加严格的约束。必须以完全明确、连贯和可操作的方式理解语言数据。为此，必须适当使用各种形式和计算机技术。该过程可以完全自动化或仅部分自动化;用户可以在半自动校正或纯自动校正（在本领域中称为计算机辅助系统）之间进行选择本文的其余部分的结构如下：第二展示了语言的语法形式化的起源，以及以前的相关工作。在第3节中，我们描述了我们采用的句法方法和使用的词典。在第4中，我们解释了所使用的领域本体我们在第5节中介绍了我们的方法，并将在第6中通过一个例子来说明我们的工作。第7专门描述了所得到的系统的性能评估最后，在第8节中，我们将汇总所有数据和总结结论。2. 语言语法形式化的起源及相关工作2.1. 语言的语法形式化在50年代中期，几位科学家（语言学家、数学家、逻辑学家和计算机科学家）的共同兴趣是当前形式语法的起源。他们的目的是描述语言的功能（被认为是人类思维功能的代表），一种机器，它对应于各种信息的处理。这一趋势（语言的语法形式化）的发起者一直在寻求描述语言的数学结构。Harris（1968）和N.Chomsky在1956年提出的语法理论与自动机理论的关系（Chomsky，1956）。乔姆斯基在2.2. 相关工作一些系统适当地处理句法错误。我们可以从Knight和Chander（1994）的语法错误纠正工作开始，他们开发了一种统计方法用于纠正冠词和介词错误（Knight和Chander，1994）;这些是最难自动识别和纠正的错误，实际上它们代表了剑桥学习者语料库中大约13.5%的错误（Leacock等人，2010年）。后续工作集中于设计更好的特征和测试不同的分类器，包括决策树学习（Gamon等人，2008）和逻辑回归，诸如Lee的系统（Lee，2004），其已经从统计Penn Treebank解析器导出句法特征和大型手工本体（WordNet）的语义特征。最近的工作已经表明，在带注释的学习者文本上进行训练可以产生更好的结果（Han等人， 2010年）。然而，许多研究报告了完全错误注释的语料库的结果，如Gamon（2010）和Dahlmeier and Hwee（2011）。总的来说，这些研究报告的结果具有较低的精确度和召回率。我们注意到，除了K.Shaalan，他使用Prolog开发了阿拉伯语语法检查某些常见的语法错误（Shaalan，2005）。该工具的最初目的是检测错误，并向用户显示违反语法规则的句子，并可能提供改进建议。本研究首次尝试在本体中使用阿拉伯语语法规则来纠正大多数句法错误，并提出了几点建议。对于像英语这样的其它语言，这样的系统，例如，Grammarly，Ginger，etc.，已经存在。3. 采用的句法方法和词典3.1. 采用的句法方法有几种形式主义来表示文本的解析。另一方面，几乎所有的文献都涉及两种同义的代表形式，即选区代表和独立代表。本文采用的句法分析方法受到了Tesnière（1959）建立的依存语法（GD）的启发。它基于谓词的逻辑本文将从语言学的角度对传统的阿拉伯语语法进行符号化的描述，并最终在本体论上采取计算形式主义。为了达到这一目的，似乎有必要翻译的语法数据的结构形式的四元组（GC，R，OP，Ax）。GC表示语法范畴，R表示语法关系集，OP表示运算，Ax表示公理集。我们所处的框架中的句子被定义为一个句法网络，可以用下面的公式表示GC =S^^nRi^x;y这样我们x，y代表词，R代表语法关系例如，在动词和名词之间建立关系9x2动词;8y2名词我们已经注意到，依赖性解析允许容易的机器处理，促进监督学习和经典算法的应用（Kubler等人， 2009年）。事实上，依存关系树表示一种层次化的信息结构，其中每个单词都链接到它所依存的一个中心词。与基于成分的分析不同，在基于成分的分析中，不能预先预测表示句子的短语的数量，每个生成的因此，知道每个单词只有一个头部，依赖关系解析将包含每个单词的一个表示元素。3.2. 使用的词典接受字典的组织是生成句子的整个过程中必不可少的一步，我们在包含大约6000个词根的数据库中以表的形式组织我们的字典。我们选择Arramooz Alwaseet（Mustafa et al.， 1960年），这是一个阿拉伯语开源字典。它由Ayaspell（阿拉伯拼写检查器）生成;其数据是手动收集的。本词典由三部分组成● 停用词● 名词（见表1）● 动词（见表2）478C. Moukrim等人/Journal of King Saud University表1表«名词»的说明。字段描述发声词非发声词wordtype单词类型（主语名词，宾语名词，... . ）词根feminable这个词接受Teh_marbuta定义这个词是否gender这个词数字这个词是单，双或复数单词的单一形式dualable接受双重后缀这个词阳性词masculin_plural接受阳性复数feminin_plural接受阴性复数broken_plural不规则复数如果存在mamnou3_sarfk_suffix接受Kaf后缀.. .. . .表2表« Verb »的描述。字段描述发声词非发声词动词的词根将来式将来标记，仅用于三边动词三字的动词是三字的（3个字母）或不是可迁可不可迁double_transs对两个对象think_transs这个动词和human是及物unthink_transthe动词是非人类的及物动词反身代词动词过去式可以变化为过去将来可以在现在时和将来时中被动语态可以与被动语态连用.. .. ......你好。本词典收词5万多个，涵盖动词1万多个，名词4万多个，并提供了数十种句法和句法工具。4. 使用的领域本体语义网带来了网络内容组织的新实践和新的基础设施，使软件代理能够有效地帮助互联网用户访问信息源和服务。这是关于到达一个智能网络，在那里信息不仅被存储，而且被计算机理解，以便为用户提供相关的答案。XML使得指出文档内容的逻辑组织成为可能，但不能确保此信息本体论在于注释该信息，以便赋予其可以由计算机解释的含义。这正是RDF和RDF-S层在语义Web体系结构中的作用。OWL是一种基于RDF的RDF模式扩展它定义了一个丰富的词汇表来描述本体。OWL语言可以定义为三个子语言，这取决于人们想要表达的表达水平。OWL Lite：这是OWL的一个子集，它表达了分类和类之间的简单关系。这种子语言不可能表达类或关联的复杂约束。OWL域名语言：这允许更高水平的表达性，同时保持完整性和可判定性（所有计算必须在有限的时间内完成）。这个子集依赖于描述逻辑的特征，以包括推理系统的有用属性。OWL Full：这个子集提供了最大的表达能力，但没有任何计算保证。因此，OWL允许本体以增加预定义词汇的含义。为了实现这一目标，我们基于集合论语言构建了阿拉伯语语法，可以用来定义几乎所有的数学对象。我们借用它的一些理论原则来构建阿拉伯语语法。我们选择了领域本体语言，它是通过定义类和关系（属性）来描述特定领域（阿拉伯语语法）的语言，因为这种类型的本体和数学集合论之间具有显着的收敛性。阿拉伯语的本体我们可以用一个由公理控制的图来表示OAS，公理的节点是概念或类，其弧表示它们的属性：OAS¼ fC;Rg3如C表示概念，R表示关系。Fig. 1.类和属性的图。●●●C. Moukrim等人/Journal of King Saud University479OAS的主要目的是为软件代理提供人工语言智能，以推理阿拉伯语句法结构的对象，允许机器“理解”阿拉伯语句子的组成部分OAS概念表示语法或语言范畴，而它们的本体关系指的是这些语法范畴之间的各种句法联系。每一个语法类都构成一个集合，换句话说，就是一个定义明确的语法范畴，其成分与语法功能有关（图10）。①的人。以层次树形式组织的语法概念表示术语的本体意义上的类，而层次语法关系表示属性，并且我们可以区分两种类型的关系：连接词和词的依赖关系时态，以及赋予词和句子功能特征的功能关系本体使用Protégé工具（Horridge等人，2011）使用OWL 2 'WebOntology Language 2 0编辑阿拉伯语语法规则。由W3C“World WideWeb Consortium”推荐，我们的本体由一组阿拉伯语语法规则组织，以提供用于描述类似资源“类”的组以及这些资源“属性”之间的关系的机制（图1）。 2）的情况。继承系统允许每个本体实体继承描述性属性和包含它的实体公理，因此类'Defined_noun'继承类'Noun'的语法和功能特性，以基于为我们提供适当手段的逻辑描述来例如，我们定义了“主格名词-”的表达（图。 3）。这样的我们'和'是工会和'不'它是一个逻辑否定，'一些'的例子（图。3）意味着格尾属性从命令标记"“（存在$）中获取一些值，而”ONLY“意味着对于所有（6）属性值从主格标记”“中获取。为了清楚地说明这一点。表3-5分别显示了“Protégé”中对名词、动词和小品词图二.属性和类。图三. “主格名词-“的描述表3“名词”的符号和计算描述？（8x2名词j：itscasexjussivemarker8x2Nounj符号描述Protégé中的计算描述解释：9x2NounjItscasexjussivemarker：9x2NounjItstensexTensenot（Its_case some jussive_marker）not（Its_tense some Tense）不接受判决"不要接受时态（过去，现在，将来）？8x2Nounj：itsten s exTense2018年08月28日星期一(Its_gender only性别）接受性别480C. Moukrim等人/Journal of King Saud University表4动词的符号和计算描述？（8x2版本bj：其病例编号为10 x2 0 ，遗传学和标记物编号为10 x 20）8x2Verb表5粒子的符号和计算描述？（8x2Particleej：把它的图案拼在一起，OAS本体的开发由SPARQL定义的查询系统来保证。与SQL查询类似，用户可以通过这种RDF查询语言访问OAS数据库。下面的例子可以说明如何查询OAS：让我们假设我们想要确定其支配元素是ð4Þ图4示出了可能的关系验证（4）及其调控器。如果我们想限制调控器字段ð5Þ结果是（见图）。（5）：5. 所采用的方法所采用的方法将来自Alkhalil分析器的信息分组（Boudchiche等人， 2016年）和上述词典，收集有关词根、名词、动词等的信息以及一些形态规则。该方法分为三个阶段（见图1）。 6）。5.1. 分割阶段阿拉伯语的句子分割问题很复杂。事实上，阿拉伯语既不使用大写字母，也不使用常规标点符号，这使得经典的分段方法不适合这种语言。此外，单词的聚合是阿拉伯语的另一个特点，这使得分割更加难以实现（Hadrich Belguith等人， 2008年）。我们采用了两步分割：第一，将文本分割成句子，第二，将句子分割成单词。将文本分割成单词是由阿拉伯语处理软件架构（SAFAR）平台（Souteh和Bouzoubaa，2011）执行的，该平台包含基于标点符号的上下文探索的阿拉伯语文本分割器，以及充当标点符号的连接词。见图4。 R（x，）的SPARQL查询图五. 的SPARQL查询。符号描述Protégé中的计算描述解释：109x2动词j其c作为e109x109遗传标记：9x2VerbjItsgrxGendernot（Its_case some Genetic_marker）not（它的性别some不接受属格大小写不接受性别？8x2Verbj：itsgenderxGender2018年12月28日，第二届中国国际纺织品展览会在北京举行。性别）(Its_tense some Tense）接受时态符号描述Protégé中的计算描述解释：109x2粒子j它的图案n100x200图案：109x2粒子j它的强度为100x100not（Its_pattern some Pattern）not（Its_tense some Tense）不接受模式不接受时态？8x2Particlej：它的意义是什么？：109x2粒子j其g=100x100not（Its_gender some Gender）不接受性别？8x2Particlej：最大值x最小值28x2粒子的无限性(Its_indiclinable only indiclinable）接受静态大小写结束C. Moukrim等人/Journal of King Saud University481句子切分{w0，w1见图8。分类步骤。见图6。采用的方法的三个阶段。句子的分隔符以及某些粒子的分隔符，如并列连词句子处理器是一个应用程序，显示了如何将文本分割成句子，然后规范化的句子和音译。句子的分词是基于空格、标点符号和某些特殊字符的检测。SAFAR平台提出了几种允许分词的方法，分词被定义为将文本拆分为元素（单词）的过程。此外，在分割阶段，系统需要在所有情况下都知道单词的类别。句子的分割可以被看作是一个操作，其参数是句子和相关联的结果，其是一组不同的单词{w 0，w1. wn}(see 图 7）。5.2. 句子生成阶段：形成一个句子的过程分为两个步骤：第一步：分类分类关联一组句法特征（性别，性别，人称）。. ）与每个字在分割阶段获得（图。第八章）范畴化为我们提供了两种类型的信息：第一种是与词所属的词汇特征（LF）相关的信息，第二种是与词的功能特征（FF）相关的信息。知道每个词汇类别都有不同的特征;如果它是一个动词，这个词只能具有与动词特征有关的特征（时态、及物性、语法形式等），在单词是名词的情况下，分类过程将所考虑的单词与名词特征（数字、性别等）相关联。该相关信息形成两个不相交的集合：GC<$FF[LF<$6]我们使用标准阿拉伯语单词AlKhalil Morpho Sys 2的形态句法分析器（Boudchiche等人， 2016年）。它是一个开放识别其不同的可能的形态句法标签，因此，它可以处理非有声文本以及部分或全部有声文本。Alkhalil提供单词的形态句法信息，例如单词的可能发音、添加到词干的词缀（前缀和后缀）、词干、单词的性质（名词、动词或小品词），并且在名词和动词的情况下，系统提供模式（）、词根和POS标签等。有了AlKhalil的结果，我们的系统仍然无法识别阿拉伯语单词的不同形式出于这个原因，我们使用字典来帮助识别单词的不同形式。例如，要从复数“the boys -“中恢复单数提供的结果的数量非常重要，然而，事实证明，形态分析器Alkhalil对我们的系统产生重复的结果，这就是为什么我们需要检查它们，以便通过删除重复来获得我们想要使用的必要信息。我们首先提取出相关词的范畴，即：isVerb（），isNoun（），isParticle（）。如果它是一个动词，我们只使用以下句法特征：类型，及物，不偏不倚，前缀，后缀和时态。如果它是名词，我们只使用以下句法特征：类型，性，数，前缀，后缀，和重复性。● 如果它是一个小品词，我们使用句法功能：类型。表6显示了一个单词分类的例子‘‘ = write/written/books”第2步：合并表6“”一词的分类用面向对象程序设计Java语言。它包括进行形态分析，允许断章取义的阿拉伯文本的每个单词，见图7。分割阶段。分类语法特征输出1输出2动词类型过去主动动词过去被动动词transitional是是前缀##后缀##名词类型非派生名词动词名词性别男性女性数字复数单数前缀编号后缀##颗粒类型##• Original_Sentence[“word1”，“word2”，分割“word 3”，.]句子生成•List_Sentences[“Sentence1”，“Sentence2”，“Sentence3”，.]• 比较（List_sentences，检测&原文_句子）校正●●482C. Moukrim等人/Journal of King Saud University我在确定了所有必要的句法信息之后，我们继续对句子进行阐述这些词通过合并运算组合起来，形成一组有向对（x，y），这些有向对（x，y）符合控制上述偶的形成的公理（7）。然后，这些夫妇的集合形成一个简单的句子，使其具有以下形式：^nRx;y7图十一岁单词“-“的句法信息矩阵。8x;y2G C=Rx;y！~Ry;xð8Þ配对的形成是由一个本体域描述的预先建立的方案许可的（图1）。 9）。Example.我们将通过句子S来说明这一点：我们可以区分两种合并操作：一种在线性轴上操作（图10），以构成语法关系;另一种在垂直轴上操作，以指定词的功能方面（类型、时态、动词的及物性等）。功能轴将由包含与单词相关的句法信息的矩阵（图11）因此，在通过分类操作更新范畴矩阵之后，单词可以在线性轴上组合，并按照阿拉伯语语法中建立的那样占据它们的许可位置我们已经实现了我们的本体的定义，语法关系，连接语法领域;它们Example.如果你注意主语关系，你会发现它有一个特定的方向;因此，可以说每个关系都有一个起点和终点，起点称为域，终点称为范围。这一规律适用于所有的语法关系，无一例外（图。 12）。b）语法关系是不及物的，在这个意义上，GC的任何元素都不与第二个元素本身相关，而第二个元素又与第三个元素相关，阿拉伯语语法禁止第一个元素也与第三个元素相关28x;y;z2GC28R=的特征在于一组形式属性，我们将简要概述：~Rx; y^Ry; z！Ry; z~~ Rx;y^Ry;z_Ry;zRx;y^Ry;z^~Ry;zð9Þa）语法关系是其元素服从特定顺序的对。它类似于一对代数关系的性质。因此，如果对的两端的顺序改变了关系的意义也改变了，那么我们说语法对是一个不对称关系，在这种情况下，接下来的两对不相等：见图9。合并步骤。见图10。合并示例。上面描述的这种形式系统很可能为我们提供一些关于句子是如何发展的信息;句子的构造需要两种信息。一方面，我们被引导指定上面用字母x、y、z表示的范畴元素。这类信息是由数据库提供给我们的（... . ）.（3）在语法句子中，我们区分两种关系：构成句子本质的主要关系，以及可以放弃而不损害句子一般意义的次要关系。语法关系是无反身的（或反身的），因为没有范畴成分与自身相关：2018x2GC2018R2018 =~R2018;x201810Example.图12个。语法关系法。C. Moukrim等人/Journal of King Saud University483X[0siXixj等另一方面，这些范畴成分的联系要求列举阿拉伯语语法所承认的所有可能的联系。这种类型的信息由本体数据库提供。阿拉伯语句法本体论不仅定义了可能的语法联系，而且以公理的形式施加了约束。例如，关系Subject（）必须由以下约束控制：9x 2动词;8y 2名词！has cases-happy; Nominativehappy 11它假定x的所有主语y都带有主格格词尾（）。我们采用了大约50种语法关系;表7表7语法关系。在我们的阿拉伯语本体论中说明了其中的一些关系：5.3. 发现和纠正错误的阶段此阶段包括比较所有语法正确的前一阶段生成的句子与原始的句子-在这种情况下，我们有两种可能性：如果系统在生成的句子列表中找到了原始句子：在这种情况下，系统传递到下一个句子，因为它认为句子是正确的。如果系统没有在生成列表中找到原始句子删除的句子：用户可以选择如何纠正它：他可以在生成的句子中手动选择一个句子从上一阶段的结果来看。它也可以选择一个纯粹的自动更正，提出最有可能正确的句子。下图（图13）显示了如何根据生成的句子列表检测和纠正错误：我们计算Levenshtein距离：Levenshtein距离是将A1转换为A2所需的最小运算次数（在此集合中进行）。最佳校正推导是用于计算Levenshtein距离的编辑序列：D A1; A2 e 1; e 2;. ; e n，其中e kXi; xjn;16k6N8xi;xj2nfego12动态规划算法允许在h的数量级的时间内计算D（A1;A2），|A1|、|A2|），与|A1|（Resp. A2 |A1（或A2）的长度。这些业务的单位成本如下：xx i;x j。1siXi- xj8 x i ; xj 2 n X [ f e g o n 13]从这一点看，Levenshtein距离也是按单位成本作业将A1转化为A2的最小成本。函数...列表_句子句子1第2句真这个句子的句法是正确的原判句子3…...假句子，句错误检测和纠正建议第一步：将原始句子与生成的句子进行第2步：检测和纠正错误图十三. 检测和纠正错误的阶段。●●484C. Moukrim等人/Journal of King Saud University6. 例如这个例子的目的是说明句法正确的句子生成和检测到的句法错误的纠正之间的联系。让为了纠正这个句子的语法错误，我们将应用我们的方法，使用以下步骤：6.1. 分割第一步是将句子分割成单词，所以结果是：6.2. 分类在将句子分割成三个单元之后，该阶段的目标是关联一组形态句法特征（数量、性别、人称）。. 每个字都有自己的意思（图）。14）。6.3. 合并为了从句法上构造一个正确的句子，我们必须寻找所有可能的合并，然后我们得到：● Mrg1_1 =（Cat1（Seg1）+ Cat1（Seg2））= R1_1（名词1，名词2）● Mrg1_2 =（Cat1（Seg2）+ Cat1（Seg3））= R1_2（名词2，调整）● Mrg2_1 =（Cat2（Seg1）+Cat1（Seg2））= R2_1（Verb，Noun）● Mrg2_2 =（Cat1（Seg1）+Cat1（Seg3））= R2_2（名词，形容词）● 找到第一个关系R1_1的SPARQL查询（图1）。 15）：● 找到第二个关系R 1_2的SPARQL查询（图1）。 16）：● 找到第三个关系R 2_1的SPARQL查询（图1）。 17）：找到第四个关系R 2_2的SPARQL查询（图2）。 18）：作为这个阶段的结果，我们得到了八个语法正确的句子，即：为了改进我们的系统，我们可以让用户选择是否考虑变音符号，因为几乎所有的阿拉伯语见图14。分类步骤。除了宗教书籍和一些学校手册之外，文本是非元音化的;系统通过去除区分标记来使这些句子●●C. Moukrim等人/Journal of King Saud University485¼¼- 四分之一ω图15. R1_1的SPARQL查询。图16. R1_2的SPARQL查询。图17. R2_1的SPARQL查询.7. 评价讨论在本节中，我们给出了对阿拉伯语句子进行的评估结果，为了验证我们的方法，我们需要使用精确度和召回率来评估组合句法信息。然而，没有一个好的语料库包含注释的几个层次的阿拉伯语语法，这首先导致了一个新的参考语料库包含360个句子的注释。在这360个阿拉伯语句子中，有30个句法正确的句子和330个不合语法的句子，这重新组合了几种类型的语法错误，即：200个协议错误（性别，数字，单数，双重或复数）。. ）.语法格结尾的100个错误（主格，accusative或所有格）。● 30个错误的定冠词的语法错误的语料库不容易找到。不可否认，它们暂时不存在于阿拉伯语中。实际上，我们从学习者的写作中手工标注了330个不合语法的句子，其中有三类错误：一致性错误，格结尾错误，以及使用定冠词和不定冠词。我们收集并注释了这组句子。在这项研究中，包括30个正确的句子，看看系统是否能够检测其语法有效性。附录A中给出了这些错误类别的示例。我们的系统的评估使用两个常见的指标精度和召回率以及F-测量。公式如下：图18. R2_2的SPARQL查询.结果则变为：调用正确检测到的错误数引入的错误总数精度数量错误正确检测检测总数F措施2精确度ω召回精确度表8总结了获得的结果表8语法错误的检测结果ð14Þð15Þð16Þ6.4.错误检测和校正我们最后将这三个句子与原句进行比较：●●语法错误精度召回F-measure协议96.75%89.5%92.98%案件结局90.42%百分之八十五87.62%定义文章«»88.88%百分之八十84.20%总92.01%84.83%88.27%486C. Moukrim等人/Journal of King Saud University平均句子长度为7个单词，最长的我们的系统包括大约200条语法规则。该方法的复杂性通常与句子的大小和Alkhalil形态分析器针对每个提取的单词的输出的数量以及在句子生成阶段中使用的语法规则的数量成比例。它可以集成到更高级别的NLP应用程序中，因为它是用开源编程语言Java开发的。此外，可以通过Web服务、库和XML输出获得正确句子的结果。表8中给出的我们的方法的结果显示了92%的精确度和84%或更高的召回率，平均而言，这对于这种类型的任务“错误检测”来说是一个很好的水平。值得注意的是，它的高精度，这是一个非常重要的可靠性水平的特点。这种检测特性在这种情况下很重要，因为如果系统发现句子包含错误，则它将自动移动到下一阶段，以基于从前一阶段提取的单词生成正确的句子。可以通过更全面地列出所组成的实体名单来改进召回。如果我们现在考虑F度量指标（16），这是一个更好的综合指标，我们发现我们的方法表现良好（88，27%）。我们还评估了一组30个正确的句子，以测试系统与语法正确的句子;我们的系统认为，27个句子是正确的，3个是不正确的，这给了我们的系统的另一个优势，并成功地实现了使用这种方法。可以看出，由于句法规则的模糊性，有些关系丢失了。因此，我们可以基于来自本体和形态分析器的语言信息引入统计机器翻译系统（Chollampatt和Ng，2017），以便重新生成正确的句子。将我们的方法与其他方法进行比较会很有趣。然而，正如我们在第2.2节中所解释的，没有可用的系统可以纠正阿拉伯语中的句法错误，就像没有包含此类信息的语料库用于测试一样。此外，不可能与其他语言的相关研究进行比较，尽管这是非常困难的，因为实验条件不一样。结果是令人满意的，因为检测语法错误的阶段允许高精度返回和更正确的语法信息，同时保持大量的信息。对另一方面，在其它部分的评估期间获得的结果，特别是包含“自动生成正确句子的阶段”的校正部分，使我们希望在更大的语料库上的评估将确认所提出的方法的更大的从中期来看，在一个更大的语料库上评估校正并在其他句法信息上验证该方法将是有趣的，即：在我们的系统中发挥最重要作用的句法关系。8. 结论观点在本文中，我们提出了一种新的方法来检测和自动纠正阿拉伯语文本中的句法错误。该方法基于依赖模型生成句子，其规则和约束通过本体对阿拉伯语语法的逻辑描述来获得。我们基于两个假设。首先，是否可以生成所有可能的句子，其次，是否可以比较原始句子和生成的句子。这项工作仍处于早期阶段，我们的主要目标是实现一种新的方法来检测和纠正句法错误的基础上自动生成的句子在一个更大的语料库。获得的第一批结果令人鼓舞，我们期待着扩大我们的研究。利益冲突没有人申报。确认我要感谢我的博士生导师，哈桑二世大学的Abderrahim TRAGHA教授，他给了我做这样的研究的机会，以及信息技术和建模实验室（LTIM）的所有成员。附录A.表A1.错误分类和一些例子C. Moukrim等人/Journal of King Saud University487Almalki，T.，坦塔埃及附录B.补充数据本文的补充数据可在https://doi.org/10.1016/j.jksuci.2019.02.005上找到。引用苏盖尔岛哈拉希岛2004.阿拉伯语形态分析技术：全面调查。J. Am. Soc. INF. Sci. Technol.Attia，M.，Pecina，P.，Samih，Y.，Shaalan，K.，Van enabith，J.，2015年。阿拉伯文拼写错误检测和纠正可在CJO国家语言工程。https://doi.org/10.1017/S1351324915000030上获得。Boudchiche，M.，Mazroui，A.，Ould Abdallahi Ould Bebah，M.，Lakhouaja，A.，Boudlal，A.，2016年。 AlKhalil Morpho Sys 2：一个强大的阿拉伯语形态句法分析器。 J. King Saud University. 信息科学 https://doi.org/10.1016/j 的网站。jksuci.2016.05.002网站。Chollampatt，S.，Ng，H.T.，2017.连接点：迈向人类水平的语法错误纠正。上一篇：第十二届工作坊对创新使用NLP for Building Educational Applications，Copenhagen，Denmark，pp 327-333. 乔姆斯基，N.，一九五六年语言描述的三种模式IEEE Trans.INF.Theory 2，113乔姆斯基，N.，1959.论文法的某些形式性质。Inf. Control Vol. 2，137-167.乔姆斯基，N.，米勒，佐治亚州，1968.自然语言的形式分析。巴黎Dahlmeier，D.，Hwee，T.N.，2011.使用Alternating进行语法错误纠正结构优化。在：计算语言学协会第49 届年会的会议记录。Human LanguageTechnologies，Portland，Oregon，USA，pp. 915- 923Elkateb，S.，布莱克，W。Vossen Piek，Farwell，D.，Rodríguez，H.，Pease，A.，Alkhalifa M.，2006.阿拉伯语WordNet和阿拉伯语的挑战。载于：阿拉伯语NLP/MT会议记录，英国伦敦。Ferré，S.，2017. Sparklis：一个用自然语言指导的sparql端点表达查询构建器。塞曼特Web. 8（3），405-418。Gamon，M.，高，J.，布罗克特角，Klementiev，A.，Dolan，W. B、Belenko，D.，范德文德湖2008.使用上下文拼写技术和语言建模进行ESL纠错。在：自然语言处理国际联合会议（IJCNLP），海得拉巴，印度，pp。449-456.488C. Moukrim等人/Journal of King Saud UniversityGamon，M.，2010年。以母语材料为主纠正学习者写作中的错误在：计算语言学协会（NAACL）北美分会第十一届年会的会议记录，洛杉矶。Hadrich Belguith ， L. ， Aloulou 角， Ben Hamadou ， A. ， 2008. MASPAR ： Delasegmentation à l'analyze syntaxique de textes arabes. Revue Inf. Interact.内特尔I3 7（2）.Han，N.R.，泰特罗特，J.，Lee，S.H.，J.Y. 2010.使用错误标注的学习者语料库开发ESL/EFL错误纠正系统。在：LREC的诉讼哈里斯，Z.，一九六八年语言的数学结构约翰·威利，纽约。Horridge，M.，Knublauch，H.，Rector，A.，史蒂文斯河，巴西-地Wroe，C.，2011.使用Protégé 4和CO-ODE工具构建OWL本体的实用指南。曼彻斯特大学（21/11/2018）hmowl-power.cs.man.ac.uk/protegeowltutorial/resources/ProtegeOWLTutorialP4_v1_3.pdf。克莱因，D.，克里斯托弗，D.，2003.快速确切推理与一分解自然语言分析模型。见：苏珊娜·贝克尔，第15卷，麻省理工学院出版社，第1999 - 1999页。三比十克雷恩湾卡罗尔，J.J.，2004.资源描述框架（RDF）：概念与抽象Rap

下载后可阅读完整内容，剩余1页未读，立即下载