阿拉伯语重复问题检测方法：基于上下文表征、类别标签匹配和结构化自我注意

191 浏览量更新于2024-01-27 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

沙特国王大学学报基于上下文表征、类别标签匹配和结构化自我注意的阿拉伯语重复问句检测Alami Hamzab，Said El Alaoui Ouatikb，Khalid Alaoui Zidania，Noureddine En-Nahnahiaa信息学、信号、自动化和认知主义实验室（LISAC），科学院Dhar El Mahraz，Sidi Mohammed Ben Abdellah大学，邮政信箱1796，非斯30003，摩洛哥b摩洛哥凯尼特拉伊本·托费尔大学国家应用科学学院工程科学实验室阿提奇莱因福奥文章历史记录：2020年8月30日收到2020年11月9日修订2020年11月17日接受2020年12月1日网上发售保留字：重复问题检测阿拉伯语问答上下文嵌入Elmo神经注意机制文本分类A B S T R A C T问答系统（QAS）是新兴的解决方案，为自然问题提供准确和精确的答案。重复问题检测（DQD），旨在重用以前的答案，已显示出其改善用户体验和显着减少响应时间的能力。然而，很少有阿拉伯语QAS集成解决方案能够检测其工作流程中的重复问题。在本文中，我们建立了一个DQD方法的基础上，上下文词语表示，问题分类和前/后结构的自我注意。首先，我们从语言模型（ELMo）中提取上下文单词表示嵌入，将问题映射到向量空间中。接下来，我们训练两个模型来根据两个分类法对问题嵌入进行分类：Hamza等人和Li Roth。然后，我们引入一个类标签匹配步骤来过滤出具有不同类标签的问题。最后，我们提出了一个双向注意力双向LSTM（BiAttention BiLSTM）模型，它只关注关键字来预测问题对是否重复。我们还应用了基于对称性，自反性和传递性关系的数据增强策略通过实验研究了问题分类和预处理步骤对DQD模型的影响。所得到的结果表明，我们的模型取得了良好的性能相比，基线结果。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍问题查询系统（QAS）旨在检索用户自然问题的直接和准确答案然而，在QAS不知道过去的问题/答案对的情况下，它们可能无法有效地响应具有快速信息获取需求的用户因此，有必要在QAS中集成一种旨在重用收集的问题/答案对的机制。这种技术可以防止重复生成重复的答案，这是一种巨大的资源和时间浪费。*通讯作者。电子邮件地址： usmba.ac.ma （ A.Hamza ）， ouatikelalaoui. said@uit.ac.ma（ S.E. Alaoui Ouatik ）， khalid. usmba.ac.ma （ K.A.Zidani ）， noureddine.usmba.ac.ma（N. En-Nahnahi）。沙特国王大学负责同行审查制作和主办：Elsevier重复问题检测（DQD）是QAS中的重要任务，因为它提供了一系列益处：1）更便宜的数据存储：系统仅存储原始问题，而丢弃重复问题; 2）改善客户体验：在重复问题检测的情况下，系统省略了回答新问题的整个过程这大大缩短了对重复问题的答复时间3)重复使用内容：对与以前回答的问题类似的新问题使用相同的答案是非常有效的为了更好地说明这些关键优势，我们以社区问答论坛为例在发布新问题的同时检测潜在的相似问题可以防止重复的问题/答案对被反复发布和存储，并且排名最高的相关答案直接返回给最终客户端。为阿拉伯语QAS构建DQD方法是一项具有挑战性的任务，原因有几个。一方面，在自然问题（短文本）中应用NLP任务比在长文档（例如博客文章）中应用NLP任务在短文本的情况下，缺乏通常的词汇特征，并且通常提供次要上下文用于语义理解（Shakeel等人，2020年）。另一方面，挖掘和处理阿拉伯语通常很困难。阿拉伯https://doi.org/10.1016/j.jksuci.2020.11.0321319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Hamza，Said El Alaoui Ouatik，Khalid Alaoui Zidani等.沙特国王大学学报3759语言是信息化程度低的语言，包含丰富的词汇，并且具有复杂的形态学（ Hamza 等人， xxxx; Guellil 等人， xxxx;Al-Smadi 等人，2017），如其衍生和曲折的性质。由于DQD受到形态和词汇特征的影响，为了完成这一研究目标，必须解决阿拉伯语的上述挑战。文本表示是所有NLP任务的基础。因此，提出了各种技术，包括：1）计算巨大且稀疏的文本表示的词频逆文档频率TF-IDF;以及2）Word2 vec Bojanowski等人，xxxx将单词嵌入到向量空间中，而不考虑单词的上下文。最近，作者（Peters等人，2018年，他提出了语言模型嵌入（ELMo）。后者能够提供上下文单词表示，并产生更可行的问题（短句）嵌入。针对上述问题，本文的主要目标是开发一个基于机器学习技术的模型来有效地检测重复问题。更准确地说，我们提出了一个DQD技术的基础上上下文词嵌入，问题分类，和一个前/后结构的自我注意力机制。首先，我们将文本形式的问题映射到一个向量空间，通过应用上下文单词表示ELMo。接下来，我们训练两个模型来根据两个分类法Hamza et al.（xxxx）（Arabic taxonomy）和Li and Roth（2002）对问题嵌入进行分类。因此，执行类标签匹配步骤以仅保留具有相同类标签的问题最后，我们提出了一个神经前向/后向结构的自我注意机制来检测重复问题。我们通过以下原因来证明我们的工作流程：1）ELMo表示具有利用上下文特征用于表示和训练目标的优点，并且隐式地表示上下文语义。2)我们执行类标签匹配，因为问题分类是QAS中的关键组成部分（Moldovan等人，2003），并且很明显，具有不同类别标签的两个问题不是重复的。更重要的是，我们通过使用两种不同的分类法来提高这一步的语义范围。3)知道我们可以通过只关注关键词来识别两个重复的问题，我们采用了一种复杂的神经注意机制。我们进行了几个实验来评估的问题分类器的性能此外，我们研究了预处理步骤和类标签匹配在DQD任务中的重要性实验结果表明，我们的模型取得了良好的效果相比，基线结果。本文的其余部分组织如下。第2节讨论了重复问句检测和阿拉伯语问句分类的相关工作;第3介绍并描述了我们的阿拉伯语重复问句检测方法;第4报告了实验研究和评估结果;最后，第5总结并给出了未来的发展方向。2. 相关工作在本节中，我们简要回顾两个相关主题：重复问题检测和阿拉伯语问题分类。2.1. 重复问题检测重复问句检测任务可以看作是一种副短语识别，其中所有的句子都是问句。因此，一些相关的工作集中在短文本释义识别（PI）问题。作者（Al-Smadi等人，（2017年）语义特征与支持向量机算法设计解决回归问题（SVR）。该方法在收集从流行的阿拉伯新闻机构（特别是阿拉伯电视台和半岛电视台）抓取的一般域推文的数据集上获得了87.4%的F1分数。Inception团队Al-Theiabat和Al-Sadi，2020年参加了NSURL-2019共享任务8：阿拉伯语中的语义问题相似性。他们微调了多语言BERT模型（Devlin et al.，xxxx）的句子相似性任务。他们用不同的随机种子重复实验，然后通过在这些实验的预测结果之间进行投票来创建一个集成模型。由3个模型组成的集合在公共数据集上表现更好，而4，5和6个模型在私有数据集上取得了更好的分数。准确率为95.92%。Wang等人（2020）介绍了一种基于深度学习方法检测重复问题的方法。在通过Word2vec（Bojanowski等人，他们探索了各种深度学习算法（递归神经网络，长短期记忆和卷积神经网络）来检测问题对是否重复。该数据集收集自著名的Stack Overflow网站，该网站专注于软件编程，包括Java，C++，Python，Ruby，Html和Java-C。他们基于LSTM的模型在所有六个问题类别上都取得了最佳成绩Imtiaz等人（2020）基于Siamese MaLSTM构建了一个DQD模型（Mueller和Thyagarajan，2016）。简单地说，MaLSTM模型将两个LSTM编码器应用于两个句子，一个词向量序列。然后使用相似度函数来训练网络，以捕捉两个句子之间的语义差异。作者接受了培训（Imtiaz等人，2020）三种不同的MaLSTM神经网络，具有三种词嵌入方法，包括Google新闻向量嵌入，FastText 1抓取嵌入和FastText 1抓取子词嵌入。最终得分是所有训练模型预测得分的加权和。作者在Quora平台收集的404，351个问题对中获得了91.14%的准确率。Xu和Yuan（2020）提出了一种用于多领域论坛重复问题检测的语义匹配模型（SMM）。他们设计了两种类型的交互机制词对句和词对词，以自动提取匹配模式。预先训练的 GloVe 嵌入（Pennington等人，2014）最初用于将单词表示为300维向量。SMM在多域CQADupStack数据集上优于基线模型（Hoogeveen等人， 2015）和一个私人MOOC数据集。与前人的工作相比，本文的贡献如下：大多数描述的作品应用静态单词表示来表示单词。通过使用ELMo单词表示，我们的目标是考虑上下文中的单词，更好地处理多义词。我们提出了一个类标签匹配的步骤，根据两个税收-经济学阿拉伯和李罗斯。我们研究了这一步对DQD方法性能的影响，因为我们相信重复的问题对应该具有相同的类标签。我们提出了一种特殊的注意机制，它专注于最重要的词来预测一个问题对是否重复。更重要的独立于领域的PI和语义文本相似度方法在阿拉伯语新闻推特上。他们利用词汇，句法，1https://fasttext.cc/。●●●A. Hamza，Said El Alaoui Ouatik，Khalid Alaoui Zidani等.沙特国王大学学报37603k;j2.2. 阿拉伯语问题分类由于我们在我们的DQD模型中集成了一个阿拉伯语问题分类系统，我们简要回顾了一些与阿拉伯语问题分类相关的工作。Abdelnasser等人（2014）为古兰经建立了一个特殊的问答系统。他们将问题表示为术语列表，其中术语包含词性标记和词干。一种特殊的分类法被引入，用于对与古兰经有关的问题进行分类。对180个问题进行了支持向量机（SVM）分类器的训练，并对50个问题进行了3倍交叉验证，获得了约77.2%的准确率。Al Chalabi等人（2015）应用阿拉伯语的语言规则来构建他们的阿拉伯语问题分类器。使用NOOJ2工具设计这些规则。该方法的召回率约为93%，准确率为100%，而训练集和测试集均包含200个问题。在我们以前的工作中（Hamza等人，xxxx）的基础上，引入了一种新的阿拉伯语分类法，并提出了一种基于支持向量机的阿拉伯语问句分类方法。他们使用Word2vec（Bojanowski等人，xxxx）将单词表示成300维向量。这些表示是连续的，分布式的，并捕获跨单词的句法和语义关系。他们的分类器在1302个标记问题的数据集上获得了约90%的准确率，91%的精确率，90%的召回率和90%的F1分数。3. 该方法本节详细介绍了该方法的主要步骤，包括预处理、问题表示、问题分类、类标签匹配和重复问题检测。图 1图示了所提出的技术的流程图。3.1. 预处理值得一提的是，停止词和wh-words（如When和Where）给出的信息对于识别问题类别标签和检测重复问题非常重要。因此，我们的预处理管道包括问题标记化和标点符号以及非阿拉伯语单词删除。在实验中，我们还评估了一个标准的共同前，处理流水线由以下步骤组成：1）我们分割-Fig. 1.我们的阿拉伯语重复问题检测器的流程图。增加数据集的大小因此，神经元模型的性能也可以提高。3.3.问题表征在这项工作中，我们拥抱的上下文表示ELMo在车等。（xxxx）。预处理的问题内的令牌被传递到字符级嵌入层。它由具有多个过滤器的一维卷积神经网络组成，以根据其字符级结构计算令牌表示。给定这种表示，堆叠的两个双向LSTM（BiLSTM）层被训练以优化语言模型目标。令牌k由ELMok表示，其遵循以下等式：2ELMok¼1XhLMj¼0ð1Þ阿拉伯语和非阿拉伯语单词。3.2. 数据增强深度学习方法需要大量重复和非重复问题的语料库。为了应对这一挑战，我们通过使用问题对之间的对称性、自反性和传递性关系来生成新的重复问题（Shakeel等人，2020年）。这些关系可以定义如下：1）对称性：一个问题是自身的重复; 2）自反性：如果一个问题A是一个问题B的重复，那么这个问题B是这个问题A的重复; 3）传递性：如果一个问题A是一个问题B的重复，并且这个问题B是一个问题C的重复，那么这个问题A是这个问题C的重复。为了生成不重复的问题，我们使用以下关系：1）自反性：如果问题A与问题B不重复，则问题B与问题A不重复; 2）传递性：如果问题A与问题B不重复，并且问题B与问题C重复，则问题A与问题C不重复。我们将这些关系应用于2http://www.nooj-association.org/。其中hk;j是神经网络的隐藏层为了提取上下文单词表示，使用了Che et al.（xxxx）和Kutuzovet al.（2017）提出的预训练单词表示模型。该模型是在从阿拉伯语维基百科文档中随机选择的一组2000万个令牌上训练的。所有的标记都被表示为1024维向量空间。一个问题Q，一个l个标记的列表，由下面的矩阵表示：Q1-Q2-ELM owor d1;. . . ;ELMo wor dl23.4. 问题分类我们构建了一个基于ELMo嵌入的神经网络模型来进行阿拉伯语问题的分类。该模型通过对GRU层的所有隐藏状态使用全局最大池化来获得问题表示。因此，模型只捕捉所有时间步中最重要的特征。图2示出了问题分类器的设计。在训练阶段，ELMo模型的参数是固定的，而其余的分类器参数是训练的。这些用Farasa segmenter提出问题（Abdelali等人， 2016年）;2)我们标记化了问题; 3）我们删除了停止词，双关语-A. Hamza，Said El Alaoui Ouatik，Khalid Alaoui Zidani等.沙特国王大学学报3761-不不联系我们-不. .-是的不t1不不不Q back¼Xattbackki×Hi在这种情况下，我们定义了两种类型的匹配，软匹配和硬匹配。为回来我我其中，w i是问题中第i个词的词嵌入。为了获得问题中单词之间的依赖关系，双向LSTM处理问题：！ht¼L-S-T-！M.wt;h-t！1Σð5Þh←1/4←LS-T-M-。w;h←--6我们表示！所有前向隐藏状态的连接！ht和H<$是所有后向隐藏状态h<$的级联。为了将可变长度的问题编码为固定大小的嵌入，我们应用了一种特殊的自注意机制。我们将这一过程称为前向/后向结构化自我注意机制。这个机制需要！H和H←作为输入，并分别输出权重向量att for和att back。图二、基于ELMo嵌入和GRU层的阿拉伯问题分类器attfor1/4softmax.wfr2丹W持续1-H！TΣΣð7Þ参数被优化以最小化由以下等式指示的分类交叉熵损失：Jh-1X½ylogy^t1-ylog1-y^t]3t1/2回接1/4softmax.wback2丹W←返回1H208小时其中yt是预期的类别标签，y^t是每个类别的预测概率，T是分类中的类别数量3.5. 类别标签匹配可训练参数的向量softmax函数确保所计算的权重之和为1。由于问题包含n个单词，因此权重向量attfor和attback的大小必须为n。然后，我们计算前向问题向量Q！作为内隐藏状态的加权和！H根据权重向量类标签匹配”步骤旨在传递一个问题对在他们到达我们的神经复制品att为 . ←Qb-ac-k是隐态的加权和问题探测器。根据所提出的架构，我们训练了两个不同的分类器，包括阿拉伯语上下文类-根据t bac k处的权重向量，sifier（ACC）和Li&Roth上下文分类器（LCC）。 ACC是！-我知道n用阿拉伯分类法训练（Hamza et al.，xxxx），包括7类标签的灵感来自阿拉伯语言规则，而LCC使用修改的Li Roth分类法进行训练（Li and Roth，2002）Q-对于ri×Hi在t时的¼Xð9Þ它包含7个粗粒度的类标签和50个细粒度的类标签，grained类标签。值得一提的是，我们只使用粗粒度的类标签。假设我们有两个问题←-←-Q1和Q2，我们用ACC和LCC对每个问题进行分类.然后，我们匹配Q1和Q2的两个阿拉伯语类标签，Q1和Q2的Li Roth类标签如果我们最后，问题的嵌入向量Q嵌入可以得到为两个Q的串联-！为 Q←b-a-c-k.那么问题Q1和Q2是不重复的。在不同的循环中，四分之一小时Q！;←Q--i11匹配.如果从以下项中获得至少一个匹配，则发生软匹配ACC或LCC。如果从ACC和LCC两者获得两个匹配，则检测到硬匹配。在这两种情况下（软匹配和硬匹配），我们将这些问题传递给我们的神经重复问题检测模块。3.6. 神经网络重复问题检测我们建立了一个神经网络模型，名为BiAttention BiLSTM，基于长短期记忆（LSTM）和结构化自我注意（Lin et al.，2017）来检测两个问题是否重复。在下文中，我们描述了计算一个问题的嵌入的过程，相同的过程被应用于计算第二个问题的嵌入。假设我们有一个问题，它有n个词，用一个词嵌入序列Q表示。Q¼ W1; W2; .. . w.n.我们应用这种向量表示，因为它反映了句子中语义的一个方面，通常问题是一个专注于特定信息的短句图 3示出了使用前向/后向注意力计算问题表示的过程。为了检测两个问题Q1和Q2是否重复，首先我们为Q1嵌入和Q2嵌入构建问题向量。然后，我们通过以下等式计算相似性向量sim模拟实验Q 1嵌入-Q 2嵌入12次方接下来，我们通过将sim向量馈送到sigmoid函数来估计Q1和Q2是否重复该模型最终被训练为优化二进制交叉熵损失的二进制分类器：BC其中，y是真实标签，并且y^是预测标签。其中，Wfor1和Wback1是权重矩阵，wfor2和wback2是ð10Þ嵌入nA. Hamza，Said El Alaoui Ouatik，Khalid Alaoui Zidani等.沙特国王大学学报3762图三.如何使用前向/后向注意力计算问题表示的示例。4. 实验结果在本节中，我们描述并提供了有关我们实验的所有必要信息，包括使用的数据集、实验设置和评价。4.1. 问题分类数据集对于问题分类步骤，我们准备了一个私有数据集.它包含3173个阿拉伯语问题，手动标记为两个分类：阿拉伯语和李罗斯。注释过程由我们团队开发的应用程序完成。我们将数据集分为两组：80%（2538）的问题作为训练集，20%（635）的问题作为测试集。表1显示了所有问题在阿拉伯语分类法和更新的Li Roth分类法上的类别分布。4.2. 重复问题检测数据集为了开发和评估我们的重复问题检测器，我们使用Mawdoo 3提出的数据集（Seelawi等人，xxxx）。它包含11，997个标记问题对，其中45%是重复的，而55%不是。问题1列中问题的最大长度为15个单词，平均长度为6.51个单词。对于问题2列中的问题，最大长度为29个单词，平均长度为6.14个单词。图4显示了包含重复句子的集合长度的频率。例如，如果一个集合包含3个彼此重复的句子，我们可以生成23个连接。我们通过应用数据扩充（对称、自反和传递关系）来添加新的重复对，表1两个分类法的阿拉伯问题数据集中的类分布：阿拉伯语和Li Roth。阿拉伯语分类标签#Li Roth Class Labels#（Human.. . ）602缩写22（状态.. . ）121描述709（时间）318实体468（实体.. . ）1084人类627（地点）450位置453（数字）304数字600(Yes/否）294是/否294见图4。包含重复问题的集合的频率。由于我们有大量的样本，因此我们确信训练集和测试集将分别产生更好的参数估计和性能统计。此后，我们通过添加和生成非重复对来平衡训练集和测试集。我们设法保持训练集和测试集不相交，并防止问题出现在两个集中。最后，训练集和测试集分别包含36990和3858个问题对4.3. 实验设置我们使用google collaboratory environment3来执行和运行我们所有的实验。该环境为研究人员提供了免费的图形处理单元我们使用了众所周知的Python机器学习库，包括Tensorflow 2.0（Abadi etal.， xxxx）、Keras、Pytorch（Paszke等人，和Scikit-learn库来构建、训练和测试我们的模型。对于问题分类，所有模型都是在1000个epoch上训练的，批量大小为32个问题，学习率为10- 3。对于重复问题检测实验，在35个epoch上训练，32个问题对批量大小和10- 3的学习率。4.4. 问题分类评价我们将我们的问题分类器的性能与基于Word2vec 的基线方法（Bojanowski等人， xxxx）和TF-IDF。表2总结了根据阿拉伯分类法和更新的Li Roth分类法的比较结果。在阿拉伯语分类法的情况下，ELMo表示超过了Word2vec（Bojanowski等人，xxxx）在准确性、宏F1分数和加权F1分数方面的嵌入。然而，这是以减少单词的维度为代价的然后我们将它们分为以下几部分：90%的问题集10%用于培训，10%用于测试。这种90%的训练3https://colab.research.google.com/。A. Hamza，Said El Alaoui Ouatik，Khalid Alaoui Zidani等.沙特国王大学学报3763表2使用各种分类法、模型和单词表示评估问题分类模型。精度宏F1评分加权F1评分TF-IDF_SVM_阿拉伯语分类法百分之六十五点三五百分之六十二点八五64.94%TF-IDF_SVM_Li Roth67.24%百分之六十五点二五百分之六十七点二五taxonomyTF-IDF_XGBoost_阿拉伯语56.53%52.68%55.56%taxonomyTF-IDF_XGBoost_Li Roth57.79%58.79%58.44%分类学W2V_阿拉伯分类学92.76%百分之九十二点九六百分之九十二点七五W2V_Li Roth分类法百分之九十二点一三87.24%百分之九十二点零五ELMo_阿拉伯语分类法百分之九十三点八六百分之九十三点三七百分之九十三点八四ELMo_Li Roth分类法91.97%82.67%92.03%图五. 基线模型和我们提出的模型的ROC曲线。向量。模型基于在TF-IDF上，支持向量机XGBoost评分与我们的神经模型相比，性能较低。这可以通过TF-IDF表示是巨大且稀疏的事实来解释。最后，最佳模型获得了93.86%的准确率，93.37%的宏观F1评分和93.84%的加权F1评分。4.5. 神经重复问题检测评价我们比较了我们的BiAttention BiLSTM模型和BiLSTM基线模型。后者应用了一个双向LSTM，每个方向有256个维度，并在所有LSTM隐藏状态中使用最大池图5显示了我们的BiAttention BiLSTM模型和基线模型分别获得了97.98%和95.81%的曲线下面积分数。因此，我们的模型比BiLSTM模型表现得更好。为了研究在重复问题检测流水线中加入类标签匹配步骤的影响，我们进行了几个实验。表4示出了通过整合软匹配和硬匹配步骤获得的结果。与预期相反，类标签匹配对所提出的方法的整体性能产生负面影响。这可以解释为，有些问题是重复的，但它们的类标签是不同.为例如，的问题对‘‘最重要口罩的减少脸脂肪？）”和“的一声（做自然口罩减少面部脂肪？）根据数据集是重复的但是，Li Roth标签为Entity和Yes/No，表示两个不同的类。表3示出了具有不同类别标签的重复问题对的这些示例证实，在构建数据集时另一个要提到的关键点是，标准的预处理管道，分段和删除停止字的负面影响的性能。这证实了在问题（短文本）的情况我们进一步调查类标签匹配的效果，分别测量每个类的性能。表5显示，类标签匹配在预测非重复问题时总是提高模型因此，寻求更好的非重复问题精度的系统可以使用我们提出的类标签匹配步骤。更重要的因此，问题类型被认为是构建数据集时最重要的判断标准之一。为了理解模型关注的单词是什么，以预测问题对是否重复或不重复，我们将BiAttention BiLSTM注意力在问题对样本上的热图可视化（表6）单词的背景越暗，模型越关注这个单词。为了增强表格的可读性，我们用白色写了一些单词，因为它们的背景接近黑色。此外，我们还讨论了该模型所带来的一些误差。例如，在问题对鸡蛋？”和后向注意力集中在第一个问题和第二个问题中的"价值”和“利益”两个词上分别提问模型无法区分在这些可能具有相同含义的单词的语义之间存在某种上下文。另一个例子是问题对(Who 是俄罗斯圣索菲亚大教堂的设计者？）和“ 的一声（What did他们采用设计索非亚大教堂？）其中向后的注意力集中在单词“ （返回） ” 和 "（rely）"。这些单词具有完全不同的含义，因此模型预测该示例为非重复，而根据数据集它是重复的。5. 结论和今后的工作将重复问题检测（DQD）系统集成到问题存储系统中可以改善用户体验，降低存储成本，并重复使用以前的答案或信息。在这项工作中，我们提出了一个DQD方法的基础上上下文表示，类标签匹配，结构化自我注意。它包括以下步骤：1）通过应用上下文表示ELMo提取该表示考虑单词的上下文来计算单词表示其思想是，如果两个问题具有不同的类标签，则这些问题被认为是不重复的; 3）构建具有前向/后向注意力的神经网络来检测问题对是否重复。神经注意机制能够只关注两个问题中最重要的单词，以预测它们是否重复。此外，我们通过使用问题之间的对称性、自反性和传递性关系来扩充数据集。的A. Hamza，Said El Alaoui Ouatik，Khalid Alaoui Zidani等.沙特国王大学学报3764表3具有不同类别标签的重复问题对的示例表4重复问题检测结果。准确度F1评分AUC评分实验结果表明，问题分割和停止词去除都对神经重复问题检测器的性能产生负面影响此外，类标签匹配步骤降低了DQD方法的整体性能然而，系统BiLSTM_增强版89.19% 89.17% 95.81%BiLSTM_增强_标准预处理88.44% 88.43% 95.17%BiAttention_BiLSTM_增强版93.05% 93.05% 97.98%BiAttention_BiLSTM_Augmented_soft match 90.51% 90.48%BiAttention_BiLSTM_Augmented_hard match 83.02% 82.63%寻求非重复问题的更好精度可以使用我们提出的类标签匹配步骤。我们的 BiAttention BiLSTM 模型的准确率为 93.05% ， F1 评分为93.05%，曲线下面积评分为97.98%。它超越了BiLSTM基线模型，BiAttention_BiLSTM_增强_标准预处理91.36% 91.35% 96.70%准确率为89.19%，F1评分为89.17%，曲线下面积评分为95.81%。在未来，我们计划通过嵌入原始文本，表5匹配的影响类精确回忆F1得分BiAttention_BiLSTM_AUG非重复~95%~ 92%~93%重复~91%~ 95%~93%BiAttention_BiLSTM_AUG_soft match Non Duplicate~ 96%~ 87%~ 91%重复~85%~ 96%~ 90%BiAttention_BiLSTM_AUG_硬匹配非重复~98%~ 75%~ 85%重复~68%~ 97%~ 80%表6BiAttention BiLSTM模型的注意力可视化。A. Hamza，Said El Alaoui Ouatik，Khalid Alaoui Zidani等.沙特国王大学学报3765信息和语法信息与深度神经网络模型。此外，我们打算扩大这方面的努力，通过构建一个阿拉伯语的问答系统能够纳入DQD系统。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。CRediT作者贡献声明阿拉米哈姆扎：概念化，方法，软件，写作-原始草案。Said ElAlaoui Ouatik：监督、撰写-审查-编辑。Khalid Alaoui Zidani：写作-审查编辑，调查。Noureddine En-Nahnahi：项目管理，监督，写作-评论编辑。引用Abadi，M.，阿加瓦尔，A.，Barham，P.，Brevdo，E.，陈志，Citro，C.，Corrado，G.S.，戴维斯，一、Dean，J.，Devin，M.，Ghemawat，S.，古德费洛岛，澳-地Harp，A.，欧文，G.，Isard，M.，Jia，Y.，Jozefowicz河，凯泽湖，加-地Kudlur，M.，Levenberg，J.，Mane ， D. ，蒙加河，巴西 - 地 Moore ， S. ， Murray ， D. ，奥拉角在 arXiv 上：1603.04467。网址：https://arxiv.org/pdf/ 1603.04467.pdfAbdelali，A.，Darwish，K.，Durrani，N.，Mubarak，H.，2016年。《易经》云：“易者，易也，易也。在：2016年计算语言学协会北美分会会议论文集：演示。计算语言学协会，加利福尼亚州圣地亚哥， pp 。 11-16.https://doi.org/10.18653/v1/N16-3003网站。网址：https：www.aclweb.org/anthology/N16-3003。Abdelnasser，H.，Ragab，M.，Mohamed ，R. ，穆罕默德，A.，Farouk ，B. ，El-Makky ，N.，Torki，M. ，2014. Al-bayan ：古兰经的阿拉伯语问答系统。在：EMNLP 2014阿拉伯语自然语言处理研讨会（ANLP）的会议记录，pp.57比64Al Chalabi，H.M.，雷，S.K.，Shaalan，K.，2015.阿拉伯文问答系统的问题分类。在：信息和通信技术研究（ICTRC），2015年IEEE国际会议，pp。 310- 313Al-Smadi，M.，Jaradat，Z.，Al-Ayyoub，M.，Jararweh，Y.，2017.利用词汇、句法和语义特征对阿拉伯语新闻推文进行释义识别和语义文本相似性分析。INF. 过程经理。53（3），640https://doi.org/10.1016/j.ipm.2017.01.002网站。网址：https://doi.org/10.1016/j. ipm.2017.01.002。Al-Theiabat，H.，Al-Sadi，A.，2020年。nsurl-2019任务8：阿拉伯语中的语义问题相似性。arXiv：2004.11964..Bojanowski，P.，格雷夫，E.，Joulin，A.，米科洛夫使用子字信息丰富字向量，arXiv预印本arXiv：1607.04606..Calijorne Soares，文学硕士，Parreiras，F.S.，2020.问答技术、范式与系统的文献综述。Journal of King Saud University - Computer and Information Sciences32 （ 6 ）， 635-646. 网址： //doi. org/10.1016/j.jksuci.2018.08.005 。网址：http://www.sciencedirect.com/science/article/pii/S131915781830082 X。切，W.，Liu，Y.，王玉，郑，B.，Liu，T.迈向更好的UD解析：深度上下文化的词嵌入，集成和树库连接，arXiv预印本arXiv：1807.03121。Devlin，J.，Chang，M.，李，K.，Toutanova，K. BERT：用于语言理解的深度双向转换器的预训练， CoRR abs/1810.04805 。 arXiv ： 1810.04805 。网址：http://arxiv.org/abs/1810.04805。盖里尔岛， Saân ， H. ， Azouaou ， F. ， Gueni ， B. ， Nouvel ， D. Arabic naturallanguage processing：An overview，Journal of King Saud University - Computerand Information Sciences doi ： 10.1016/j.jksuci.2019.02.006. 网址： http ：www.sciencedirect.com/science/article/pii/S1319157818310553..Hamza，A.，En-Nahnahi，N.，Zidani，K.A.，Ouatik，S.E.A.基于新分类法和单词连续分布式表示的阿拉伯语问题分类方法，沙特国王大学学报-计算机与信息科学doi：10.1016/j.jksuci.2019.01.001。网址：http：www.sciencedirect.com/science/article/pii/S1319157818308401..Hoogeveen，D.，Verspoor，K.M.鲍德温，T.，2015. Cqadupstack：社区问答研究的基准数据集。在：公园，洛杉矶，Karimi，S.，（编），Proceedings of the 20thAustralasian Document Computing Symposium ， ADCS 2015 ， Parramatta ，NSW ， Australia ， December 8-9 ， 2015 ， ACM ， pp. 3 ： 1-3 ： 8 。 doi ：10.1145/2838931.2838934。网址：https://doi.org/10.1145/2838931.2838934Imtiaz，Z.，Umer，M.，艾哈迈德，M.，乌拉，S.，Choi，G.S.，Mehmood，A.，2020.使用 siamese malstm 进行重复问题对检测。 IEEE Access 8 ， 21932-21942 。https://doi.org/10.1109/ACCESS.2020.2969041网站。网址：https://doi.org/10.1109/ACCESS.2020.2969041。库图佐夫，A.，Fares，M.，Oepen，S.，Velldal，E.，2017. Word vectors，reuse，andreplicability：Towards a community reposi

下载后可阅读完整内容，剩余1页未读，立即下载