阿拉伯语问题分类方法的有效性研究

46 浏览量更新于2024-01-14 收藏 975KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报一种基于新分类法和词的Alami Hamza，Noureddine En-Nahnahi，Khalid Alaoui Zidani，Said El Alaoui OuatikSidi Mohammed Ben Abdellah大学，信息学和建模实验室（LIM），科学学院Dhar El Mahraz，邮政信箱1796，非斯30003，摩洛哥阿提奇莱因福奥文章历史记录：2018年8月15日收到2018年12月25日修订2019年1月4日接受在线提供2019年1月14日保留字：阿拉伯语问答阿拉伯语分类学问题分类自然语言处理问题的分布式表示机器学习A B S T R A C T搜索引擎无法为给定的问题检索精确的答案，这导致研究团队构建问答系统（QAS）。这些系统提供用自然语言表述的问题的精确答案。问题分类是QAS的一项重要任务，因为找到正确的答案类型可以提高QAS的性能。问句分类在问句分类中起着重要的作用。提出了广泛的分类法;其中大多数不是为阿拉伯问题设计的。该文件的贡献是双重的。首先，我们建立了一个开放领域的阿拉伯问题的分类。其次，我们提出了一个有效的方法来分类阿拉伯问题。其基本思想包括两个阶段：首先，我们计算表示的问题，根据连续的分布式表示的话，它允许捕捉词之间的句法和语义关系。然后，我们应用机器学习方法将问题分为七种类型或类别。我们进行了几个实验，并比较了所提出的方法与不同的艺术状态的阿拉伯语问题分类方法。实验结果表明，该方法达到了90%的准确率。©2019作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍目前，大量的文本文档以不同的语言不断产生，需要先进而有效的搜索工具来满足用户的需求。QAS旨在通过自动提取所需信息来促进寻求信息的过程。这些系统的行为应该接近人类的行为，以满足用户正在查找的内容并给出相关的答案。实际上，QAS输入是自然语言问题，例如，“非斯城是什么时候建的？”并且其输出是自然语言回答，例如，‘‘Fez was built in 789图1显示了三个主要模块问答系统的三个主要功能：（1）问题处理;（2）段落检索;（3）答案处理。1. 问题处理：该组件执行两项任务：关键词提取和问题分类。从所述一沙特国王大学负责同行审查关键词对于文章检索模块是强制性的，而问题类型对于答案处理模块是必不可少2. 段落检索：在该组件中，可以首先执行IR系统，用于基于问题处理模块提供的关键词来检索相关文档。然后，信息提取（IE）技术用于提取包含可能的响应的候选段落。这些段落被送入答案处理模块。3. 答案处理：在这个模块中，提取的段落以及问题类型一起使用，以提供用自然语言制定的最终答案。直观地说，问题处理模块在QAS中起着重要的作用。可以肯定的是，提高关键词提取和问题分类任务的绩效明显地对检索到的文章和最终答案的相关性产生积极的影响。Moldovan等人（2003）指出，43.5%的QAS故障是由于问题处理模块的性能不佳造成的。其中36.4%的失败与问题分类有关，7.1%与关键字提取任务有关。这些统计数据说明了问题分类任务在QAS中的关键作用。https://doi.org/10.1016/j.jksuci.2019.01.0011319-1578/©2019作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Hamza等人 /沙特国王大学学报-计算机与信息科学33（2021）218-224219Fig. 1. 问答系统的流程图显示了三个主要模块：问题处理，文章检索和答案处理。文献中提出了许多系统来分类拉丁语中的开放域和限制域问题（Mishra和Jain，2016; Li和Roth，2002;Sarrouti和El Alaoui，2017）。然而，由于与这种语言的复杂形态相关的困难，阿拉伯语问句分类面临许多挑战，例如其派生和屈折性质，变音标记的存在，大写字母的缺乏语料库和分类法。本文的目的在于提出一种新的阿拉伯语问句分类法，其他阿拉伯语问句的分类法是从Wh问句中得到启发的，或者是针对受限领域的。此外，我们探索了新的问题表示（Bojanowski et al.，2016）在阿拉伯语问题分类领域中，其允许单词的减小尺寸的表示并捕获单词之间的句法和语义关系。实验进行突出我们的方法使用手工制作的语料库从TREC，1CLEF2和Moroc-可以学校的书籍的有效性。出于比较的目的，我们还使用基于拉丁语的Li Roth分类法（Li and Roth，2002）、TF-IDF表示方法以及众所周知的分类算法，即，支持向量机（SVM）、极端梯度提升（XGBoost）等。实验结果表明了该方法的有效性。论文的其余部分组织如下：第2节概述了阿拉伯语问题分类的相关工作;第3节详细介绍了这项工作中采用的单词表示;第4节介绍了我们的阿拉伯语分类法，并描述了所提出的问题分类方法;第5节介绍了实验结果;最后，第6节总结并总结了未来的展望。2. 相关工作在这项工作中，我们专注于阿拉伯语问题分类方法，这些方法可以提高阿拉伯语问答系统（AQAS）的性能，该系统可以追溯到1993年（Mohammed等人，1993年）。一般来说，有三种方法来分类问题：（1）基于规则的方法，其基于通过实现手工制作的语言规则来匹配问题;（2）基于学习的方法通过将问题特征馈送到分类器并应用训练好的分类器来预测问题类型来执行问题分类;（3）混合方法结合了基于规则的方法和基于学习的方法的优点。首先，我们提出了一个全面的调查可用的基于规则的阿拉伯问题分类方法：QARAB（Hammo等人，2002年）：第一个AQAS利用索尔顿的（索尔顿，1971年）向量空间模型。该系统使用信息检索和自然语言处理技术来获得问题的最佳答案他们的问题分类方法是基于问题粒子的类型。根据一组已知的“问题类型”对问题进行分类。ArabiQA（Benajiba等人，2007年）：作者设计了自己的阿拉伯命名实体识别（NER）系统。后者用于QAS中的几个模块，包括问题分类。DefArabicQA（Trigui等人，2010年）：一个定义性的问答系统，回答形式为“X是什么？”的问题。“.他们认为问题分析模块是一个重要的组成部分。问句类型是由问句的疑问代词来定义的.IDRAAQ（Abouenour等人，2012）：作者参加了CLEF 2012的机器阅读评估问答（QA4ME）。3疑问句的分类是以疑问词为基础的。AlChalabi et al. （2015）采用了基于规则的方法，并使用阿拉伯语语法规则对问题进行分类。规则由NOOJ工具构造4他们使用200个问题进行培训，200个问题进行测试。他们获得了93%的召回率和100%的准确率。Abouenour et al.（2012），Hammoet al.（2002），Al Chalabiet al.（2015），Trigui et al.（2010）中提出的大多数规则都是基于疑问词的，其中每个词都可以识别1http://trec.nist.gov/。2http://www.clef-initiative.eu/。3http://clef2012.clef-initiative.eu/。4http://www.nooj-association.org/。●●●●●[X不Dt t#Dt不X220年Hamza等人 /沙特国王大学学报-计算机与信息科学33（2021）218- 224正确答案类型。例如，疑问助词然而，阿拉伯语的小品这两个par-阿拉伯语开放域问题可以用于不同类型的问题，如定义、国家、个人等。不幸的是，识别和实现所有匹配阿拉伯语开放域问题的规则并不明显。另一方面，我们回顾了选择基于学习方法的阿拉伯问题分类方法的相关工作Al-Bayan（Abdelnasser等人，（2014年）：该系统旨在回答与古兰经有关的问题。他们使用了基于命名实体类别的新分类法。作者根据他们的分类构造了180个训练问题和50个测试问题。使用SVM分类器，3倍交叉验证的总体准确率约为77.2%。Ahmed和Anto（2016）比较了SVM和Multinomial Naive Bayes分类器。他们使用TF-IDF 1-gram和2- gram特征来训练分类器。该数据集包含300个用于训练的问题和200个用于测试的问题。他们获得了100%的准确率，94%的召回率和97%的F1测量。3. 字表示基于学习的方法涉及从文本表示到向量空间模型的词转换。本节回顾了在这项工作中利用的词表示3.1. 词频-逆文档频率几种阿拉伯语问题分类方法（Abdelnasser等人，2014; Ahmed和Anto，2016）采用TF-IDF将问题表示为向量空间模型。单词的TF-IDF权重在文档中，d（tfidfd）按照以下等式计算：tfidfd¼ tf dω log. #D1其中tfd;#D和#Dt分别是文档d中单词t的频率计数、文档总数和包含单词t的文档数。我们可以将这种表示与n-gram模型结合起来，n-gram模型在一个gram中表示n个单词。例如，如果我们取这两个句子‘‘Lary的1克（unigrams）是[]。2-grams（bigrams）的集合是[]中。每克1-2克的组合词汇-”[10]“”““”““TF-IDF的1。我们称这种表示为TF-IDF（1，2）克.以类似的方式，我们可以构建TF-IDF（1，2，.. . 得双曲正切值.其中n是自然数，nP1。然而，这种表征存在一系列缺点：（1）单词的语义是理解问题的基础，不能被捕获;（2）单词表征的大小是巨大的。3.2. 具有子词信息的单词的贡献向量表示。这些表征捕捉了大量的词与词之间的句法和语义关系。对阿拉伯文本的几项研究（ ElMahdaouy 等人， 2018; ElMahdaouy等人，2016）应用了词嵌入模型并证明了其有效性。然而，Mikolov等人（2013）提出的方法的缺点是它忽略了单词形态，因为它为每个单词分配了不同的向量。因此，对于词汇量大、生僻词多的语言，不能很好地表示。为了克服这些限制（Bojanowski等人，2016）开发了一种新的模型，用子词信息丰富词向量。作者将每个词表示为一个字符n-gram的袋子，并将词本身纳入其n-gram集合中，词向量是其n-gram向量的和。更正式地说，给定一个词w，它的上下文词c和dw，一个字典包含出现在w中的n元语法的集合。因此，作者将向量表示rd与每个n元语法d相关联，一个词由其n元语法的向量表示之和表示。因此，单词Vw的向量表示由以下等式表示：Vw¼2019-02- 22d2dw设v c是上下文词c的向量表示。然后训练模型以最大化由以下等式表示的评分函数：sw;cr Tvc3d2dw图2示出了单词““的示例，其中所有的3元语法表示该单词。在这项工作中，我们采用Bojanowski等人使用的相同模型。（2016），因为它更适合阿拉伯语，它有丰富的词汇和罕见的单词。该模型捕捉词与词之间的语义关系，词向量的维数为300。4. 方法在本节中，我们提出了从阿拉伯语中提取的分类法和我们的问题分类方法。4.1. 阿拉伯语问句分类法文献中存在与QAS相关的几种分类法（Haoet al.，2015），并且选择用于问题分类的分类不是显而易见的任务。语言的模糊性是使这一选择如此困难的主要挑战之一。为了减少这种模糊性，所选择的分类法应该最大化问题类型之间的相似性距离为了改进阿拉伯语问句分类任务，我们从深层和详细的阿拉伯语问句规则中构建了我们的阿拉伯语分类。阿拉伯语接受13种审讯工具。图3显示了阿拉伯语的审讯工具。我们的分类法，如表1所示，是通过分析阿拉伯语审讯工具的规则提取的，包含7种类型，考虑了阿拉伯语的所有问题类型。以下列表列出了每种阿拉伯语分类类型的Buckwalter5音译、描述和问题示例：– “AlEAql”-"“是一种问题，问的是哪个人，人，组织... 疑问句例如在2013年的一项重大进展中，Mikolov et al. （2013）和Mikolov等人（2013）提出了一种用于学习高质量数据的深度模型，http://www.qamus.org/transliteration.htm●●A. Hamza等人 /沙特国王大学学报-计算机与信息科学33（2021）218-224221图二. 具有子字信息的丰富字向量的示例。“谁和你在一起？” -答案是 “ 穆罕默德 ” ，我们不能回答 “ 一匹马，一张桌子， . . “.– ‘‘gyr工具“mA”-"“用于此类问题。例如– ‘‘HAl Al$y’ w hy}th”工具“kyf”-"“用于此类问题。“– ‘‘AlmkAn”位置，国家，城市. 工具例如““。–‘‘AlzmAn”–工具“”mtY”-"“用于此类问题。– ‘‘AlEdd”贝尔。工具例如，“你有多少支““。–‘‘AltSdyq”– 工具例如， “ 曾经穆罕默德来了吗？”‘‘第2节中介绍的用于阿拉伯语QAS的大多数分类法都是基于Wh问题或为受限领域构建的例如，在一个实施例中，Abdelnasseret al.（2014）提出的古兰经分类法。据我们所知，我们的分类法是第一个从阿拉伯语语言学研究中建立的分类法（Cherif，2007）。出于比较的目的，我们查找了一个分类法来比较我们的阿拉伯分类法。我们选择Li& Roth分类法，如表2所示，原因如下：（1）它基于问题类型的语义解释;（2）它是最广泛使用的问题分类法（Al Chalabi et al.，2015）;（3）其类别被更多的分类学所共享（Hao et al.，2015年），这表明更好的普遍性。尽管Li Roth分类法可用于阿拉伯语问句，但后者需要更恰当和具体的分类法。4.2. 建议的问题分类方法我们的方法是基于机器学习方法和连续分布式表示的话。它考虑了词与词之间的形态、句法和语义关系。此外，所获得的问题向量的维数降低相比，TF-IDF技术。我们的方法的工作流程包括三个主要步骤：（1）文本表1阿拉伯语Taxonomy解释类人类、群体实体、动物、. . 状态、结构地点时间数字是/否表2Li Roth Taxonomy（Li and Roth，2002）.粗课精课缩写缩写，表达DESCRIPTION定义、描述、方式、原因实体动物、身体、颜色、创意、货币、疾病/医学、事件、食品、仪器、语言、字母、其他、植物、产品、宗教、运动、物质、符号、技术、术语、载体、单词人类组，个人，标题，描述位置城市，国家，山，其他，州NUMERICcode，count，date，distance，money，order，other，period，percent，speed，temp，volume.size，weight图三.阿拉伯语审讯工具。222A. Hamza等人 /沙特国王大学学报-计算机与信息科学33（2021）218- 224预处理（2）问题表示和（3）问题分类。4.2.1. 预处理步骤在这一步中，我们从标记化开始，然后删除标点符号。我们没有删除停用词，因为它们的能力为了给问题赋予意义并显著影响分类结果，例如，短语4.2.2. 问题的向量表示我们使用两种不同的方法计算问题向量：首先，使用最常用的词表示TF-IDF加权n-gram。接下来，我们采用第3.2节中解释的表示，将词表示为一个字符n-gram的袋子。训练神经网络以最大化得分函数，该函数将（词，上下文）对映射到R中的得分，并计算为词向量和上下文向量之间所获得的向量在Wikipedia6上进行预训练，每个词向量的维数为300。图4示出了词之间的语义关系的示例。一组人类职业在右边，而一组动物在左边，另一个需要提到的关键点是，阴性词在他们的阳性词下面。我们把一个问题表示成一个词袋。因此，问题向量计算如下：（四）：VQ¼XViwherei2D4我其中，VQ是问题向量，D是问题Q中的单词集合，Vi是单词向量，其中i2D。例如，问题‘‘表示通过的总和的的词向量的[]。另外要提到的一点是，如果一个词在训练语料库中不存在，那么它就不能被表示到向量空间模型中。因此，这个词从问题中删除了。得到的问题向量将作为特征用于分类模块。4.2.3. 分类模块该模块包括根据特定分类法对阿拉伯语问题进行分类。我们采用基于学习的方法，尊重以下管道：首先，我们收集原始问题及其预期类型来完成问题分类任务。接下来，我们应用一个分类模型来映射一个问题，这是由一个向量表示，一个众所周知的分类法的一个且只有一个类型。在这一点上，我们将数据集分为三个部分，包括训练集，验证集和测试集。最后，我们用不同的度量来评估我们的分类器。5. 实验结果为了评估我们的方法的有效性，我们收集了1302阿拉伯语的问题，从三个数据集TREC，7CLEF8和摩洛哥学校的书籍。所有收集的问题都根据两种分类法进行注释，我们的阿拉伯分类法和Li Roth分类法（LiandRoth，2002），其中通过Yes/No类进行了丰富，以在两种不同的分类法之间进行公平的比较。我们开发了一个应用程序来减轻问题注释的过程。见图4。通过PCA投影词向量实现词间语义关系的二维可视化。我们进行了两个主要的评估来回答以下问题：（1）在词嵌入和TF-IDF之间，什么是问题表示，在分类阿拉伯语问题上具有最好的性能？(2)在阿拉伯语问句分类任务中，阿拉伯语分类法是否优于Li Roth分类法，在分类模型和问题分类法之间是否存在关系？在所有实验中，数据集被分割为80%作为训练集，20%作为测试集（训练1041-测试261）。更重要的5.1. 不同问题表征为了确定最佳的阿拉伯问题分类的问题表示，我们固定分类器，并使用不同的问题表示。我们选择了在几个实验中使用的SVM分类器（Abdelnasser等人， 2014;Ahmed and Anto，2016）.分类器在三个数据集上训练：（1）由具有等于300的向量大小的词向量的总和表示的阿拉伯问题;（2）由1-gram TF-IDF加权表示的阿拉伯问题，获得的向量大小是2735;（3）由创建5911维向量的（1，2）-gram TF-IDF加权表示的阿拉伯问题。由于类的比例不平衡（表3），我们使用5倍分层交叉验证来验证模型。我们进行网格搜索的超参数优化。表4显示我们的方法优于现有的基于TF-IDF的方法。这种改进是由于使用了词向量表示（Bojanowski等人，2016），它捕捉语义关系，它们的大小是非常有益的。5.2. 阿拉伯分类法与李罗斯分类法的比较为了评估我们的阿拉伯语分类法的影响，我们比较了几种分类器（SVM，MLP，XGBoost，Naive）的性能表3阿拉伯分类学分布。6https://www.wikipedia.org/。7http://trec.nist.gov/。8http://www.clef-initiative.eu/。问题数量12224112317211556473%问题9.37%百分之十八点五一9.44%百分之十三点二一8.83%4.30%类A. Hamza等人 /沙特国王大学学报-计算机与信息科学33（2021）218-224223表4不同方法的性能评价。表5阿拉伯语分类法和Li Roth分类法的比较结果（Li and Roth，2002）为了对阿拉伯语问句进行分类，AR代表阿拉伯语分类法，Li代表Li Roth分类法。四个分类器，以便证明所提出的分类法和用于学习问题分类的模型表5所示的结果表明，我们的阿拉伯分类学比Li &Roth分类学更有效-omy（Li and Roth，2002）.新的分类法受阿拉伯语研究的启发，而第二种分类法（Li和Roth，2002）是针对英语的。同时，我们可以注意到SVM分类器达到了最好的性能。事实上，Yang和Liu（1999）表明，支持向量机（SVM）在文本分类中明显优于神经网络和朴素贝叶斯。此外，Ahmed和Anto（2016）发现SVM分类器在阿拉伯语问题分类任务中优于Naive Bayes分类器。5.3. 误差分析贝叶斯，逻辑回归）应用两种分类法（阿拉伯分类法和李罗斯分类法（李和罗斯，2002年）。我们使用在对分类器进行评估之后，我们使用混淆矩阵（图1）。 5）找出分类器失败最多的类。图五. SVM分类器和阿拉伯分类法的混淆矩阵（对角线填充0）。系统度量验证测试我们李·罗斯我们李·罗斯TF-IDF 1-gram + SVM精度67.91%68.76%百分之六十八点九六70.11%精度––百分之七十五百分之七十三召回––百分之六十九百分之七十F1测度––百分之六十八百分之七十TF-IDF（1，2）-gram + SVM精度65.60%66.36%67.43%百分之六十五点九精度––百分之七十六百分之七十四召回––百分之六十七百分之六十六F1测度––67&百分之六十六分类器分类精度精度召回F1SVM_AR百分之九十百分之九十一百分之九十百分之九十SVM_LI百分之八十四点二百分之八十五百分之八十四百分之八十四MLP_AR百分之八十七点三百分之八十八百分之八十七百分之八十七MLP_LI百分之八十四点六百分之八十五百分之八十五百分之八十五XGBoost_AR百分之八十三点一百分之八十四百分之八十三百分之八十三224A. Hamza等人 /沙特国王大学学报-计算机与信息科学33（2021）218- 224表6通过我们的方法获得的错误分类的问题的例子。优点是：阿拉伯语分类法非常适合于阿拉伯语问题分类任务;所采用的词表示上限-阿拉伯语预测类型预期阿拉伯语类型问题与TF-IDF相比，问题表示的规模减小了;机器学习模型被应用于基于向量的问题分类。《北大西洋公约》是哪一年签订的组织成立？密苏里州圣路易斯的高度是多少天然化学物种在哪里发现？什么金属的熔点最高？未来的工作将集中在建立一个完整的阿拉伯语QAS，开发QAS的剩余模块：文件处理和答案处理。我们相信词嵌入和机器学习方法将允许创建一个高效的阿拉伯语QAS。引用摩尔多瓦，D.， Pas，ca，M.，Harabagiu，S.，Surdeanu，M.，2003年。开放领域问答系统之效能问题与错误分析。ACM Trans. INF. System. 21（2），133-154.米什拉，A.，Jain，S.K.，2016年。问答系统综述分类. J.沙特国王大学- Comput. 信息科学 28（3），345-361。Li，X.，Roth，D.，2002.学习问题分类器。在：第19届计算语言学国际会议论文集-卷1。计算语言学协会，pp。 1-7号。我们分析了训练的SVM分类器的错误，用阿拉伯语分类法标注的问题。图5显示了在预测属于““的问题的类标签”“时犯的大多数错误。课为例如，的问题‘‘发现的物种？）很难分类，即使是人类也可能对这个问题进行分类（表6）。The ‘‘是一个例子，我们可以看到，预期的标签因此，我们可以通过执行多标签分类来提高QAS的性能。为了解释如何做到这一点，我们以概率最高的两类问题为例（在我们的例子中是描述和实体）。这些类型被馈送到答案处理模块中，答案处理模块将使用该信息来查找（通过段落检索模块）检索到的段落中的两种类型而不是一种类型。因此，即使具有最高概率的问题类型是错误的，答案6. 结论和今后的工作本文建立了一种新的阿拉伯语问句分类方法，并提出了一种基于词的连续分布表示和机器学习的阿拉伯语问句分类方法。我们开发了一个应用程序来注释一组问题，这些问题用于训练我们的分类器，这些问题来自TREC，CLEF和摩洛哥学校书籍。所提出的阿拉伯语问题分类方法利用了使用词嵌入提取的问题表示的质量和机器学习方法的强度。与Li Roth分类法相比，所提出的阿拉伯语分类法独立于用于分类阿拉伯语问题的模型，在阿拉伯语问题分类中提供了有希望的结果。使用我们的阿拉伯语分类法应用SVM分类器获得的准确率为90%。这项工作表明，我们的程序是一个加强目前的阿拉伯问题分类方法。校长Sarrouti，M.，El Alaoui，S.O.，2017.一种基于机器学习的生物医学问答问题类型分类方法。方法Inf.Med. 56（03），209-216。Bojanowski，P.，格雷夫，E.，Joulin，A.，米科洛夫用子词信息丰富词向量。arXiv预印本arXiv：1607.04606。Mohammed，F.，Nasser，K.，Harb，H.，1993.基于知识的阿拉伯语问答系统。ACMSIGART公牛 4（4），21-30.Hammo，B.，Abu-Salem，H.，Lytinen，S.，2002年。Qarab：支持阿拉伯语的问答系统。在：ACL-02 Semitic语言计算方法研讨会的会议记录。计算语言学协会，pp。 1比11索尔顿湾智能检索系统-自动文档处理实验。恩格尔伍德崖Benajiba，Y.，Rosso，P.，Lyhyaoui，A.，2007年阿拉伯文问答系统各组件的实现。在： Proc 。阿拉伯自然语言处理研讨会，第二届信息通信技术国际。Symposium，ICTIS-2007，Fez，Morroco，pp. 三比五特里吉岛，Belguith，L.H.，Rosso，P.，2010. Defarabicqa：阿拉伯文定义问答系统。在：关于语言资源和人类语言技术的闪族语言研讨会，第7届LREC，页。40比45 马耳他瓦莱塔阿布努湖Bouzoubaa，K.，Rosso，P.，2012.基于查询扩展和段落检索的新型阿拉伯文问答系统。在：CLEF（在线工作笔记/实验室/研讨会）。Al Chalabi，H.M.，雷，S.K.，Shaalan，K.，2015.阿拉伯文问答系统的问题分类。在：信息和通信技术研究（ICTRC），2015年国际会议。IEEE，pp. 310- 313Abdelnasser，H.，Ragab ，M.，Mohamed ，R.，穆罕默德，A.，Farouk ，B. ，El-Makky ，N. ，Torki ，M.，2014. Al-bayan ：古兰经的阿拉伯语问答系统。在：EMNLP 2014阿拉伯语自然语言处理研讨会（ANLP）的会议记录，pp.57比64艾哈迈德，W.，Anto，B.， 2016. 使用多项朴素贝叶斯分类阿拉伯问题。国际期刊最新趋势工程技术，82-86（SACAIM特刊）Mikolov，T.，萨茨克弗岛，巴西-地Chen，K.，Corrado，G.S.，Dean，J.，2013.单词和短语的分布式表示及其组合。高级神经信息处理。系统：三一一一至三一一九Mikolov ， T. ， Chen ， K. ， Corrado ， G. ， Dean ， J. Efficient Estimation of WordRepresentations in Vector Space.arXiv预印本arXiv：1301.3781。El Mahdaouy，A.，El Alaoui，S.O.，Gaussier，E.，2018.利用词嵌入相似性改进阿拉伯文信息检索。 Int.J.SpeechTechnol.21 （ 1 ）， 121-136.https://doi.org/10.1007/s10772-018-9492-y网站。El Mahdaouy，A.，Gaussier，E.，El Alaoui，S.O.，2016.基于词和文档嵌入的阿拉伯语文本分类。国际先进智能系统和信息学会议。施普林格，pp. 32比41Hao，T.，谢伟，陈春，沈，Y.，2015年。问答问题目标分类法的系统比较。在：中国社会化媒体处理全国会议。施普林格，pp. 131-143。谢里夫，M.I.M.，2007.《古兰经》中的修辞研究及其秘密的提问方法（博士）thesis）。伊斯兰堡国际伊斯兰大学。杨，Y.，刘，X.，1999.文本分类方法的再审视。在：第22届年度国际ACM SIGIR会议的研究和发展信息检索ACM，pp。 42比49

下载后可阅读完整内容，剩余1页未读，立即下载