越南语事实式问答系统的开发与挑战

35 浏览量更新于2023-10-15 收藏 666KB PDF 举报

2018

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1049面向越南语的事实式问答系统方立宏越南河内科技大学FPT大学FPT技术研究所phuonglh@vnu.edu.vn摘要在本文中，我们描述了一个端到端的事实问答系统的越南语的发展该系统将统计模型和基于本体的方法结合在一系列处理模块中，以提供从自然语言文本到实体的高质量我们提出了这样一个智能用户界面的发展，如越南语的一个isolating- ing语言的挑战，并表明，技术开发的屈折语言不能应用我们的问答系统可以回答广泛的一般知识的问题，有前途的准确性测试集。关键词问答，本体，知识库，混合，越南语ACM参考格式：Phuong Le-Hong和Duc-Thien Bui。2018年。面向越南语的事实式问答系统。在WWW '18伴侣：2018年网络会议伴侣，2018年4月23日至27 日，法国里昂。 ACM ， New York ， NY ， USA ， 7 页。https://doi.org/10.1145/3184558.31915351引言问答（Question Answering，QA）一直是自然语言处理，特别是人机交互领域的一个重要研究方向。QA系统的最终目标是为用自然语言提出的问题提供简洁而准确的答案。例如，对“法国哪个城市人口最多？”开放域QA是一项具有挑战性的任务，因为研究和验证问题的精确答案需要很好地理解问题本身和包含潜在答案的文本通常情况下，我们需要进行句法和语义分析，以充分理解一个问题，并找出答案。这比普通信息检索的任务要困难得多，在普通信息检索中，人们只需要响应于一个问题呈现文档的排名列表，这可以由可用的搜索引擎有效地执行开放领域QA中的最新技术可以分为两大类，即基于语义解析的技术和基于信息检索的技术[2]。语义分析系统试图通过语义分析来正确地解释问句的含义。正确的解释将本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW© 2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191535杜天裴FPT技术研究所FPT大学，河内，越南thienbd@fpt.edu.vn问题转换为返回正确答案的精确数据库查询。另一方面，基于信息检索的系统首先将问题转换成有效查询，然后通过查询语料库和/或知识库来检索候选答案的集合，并且最后使用细粒度启发法来识别确切答案。虽然这两种系统都需要人类的专业知识来手工制作语言资源，包括词典，语法和知识库，但基于信息检索的方法更适合于资源较少的语言，因为许多先进的自然语言处理工具，如句法和语义分析器，并不容易获得。此外，在许多以前的研究中所示的建设QA系统，现有的方法开发的良好的研究语言不容易和方便地应用或扩展到自然语言以外的英语。在本文中，我们提出了一个越南语的QA系统，它结合了统计模型和基于知识的方法在一个链的处理模块，以提供高质量的映射，从自然语言文本的实体。我们提出了这样一个智能用户界面的发展，如越南语的孤立语言的我们的问答系统可以回答广泛的一般知识问题，在测试集上具有很好的准确性。该系统作为开源软件发布，希望它将作为越南问答系统本文其余部分的结构如下。首先，下一节对这一研究领域的现有工作进行了综述. 接下来，我们描述了我们用来开发我们的QA系统的方法然后，我们提出了我们的实验和评估结果。最后，对全文进行了总结，并对今后的工作提出了一些建议。2相关工作已有一些关于建立和评价越南语问答系统的在这一部分中，我们介绍了现有的工作，比较和hightlight他们之间的差异，这项工作。Tran [21]讨论了越南人命名实体的特定QA系统，该系统仅关注为此，可回答问题的多样性相当有限。同一研究小组的先前工作[22]提出了一项针对越南人的QA系统的实验研究，该系统利用搜索引擎来搜索答案。该系统仅限于旅游领域，并且仅在包含一百个问题的小测试集上进行了测试。Duong[5]提出了一个用于越南法律文件的QA系统，该系统能够回答有关商业法律程序和制裁的简单问题该系统使用基于相似性的模型和Lucene第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1050一知道知道知道BC文档搜索引擎检索候选人的文件和提取答案。与这些作品相比，我们的QA系统在三个方面有所不同首先，它是开放域，可以为除特定域或个人命名实体问题类型之外的更广泛的问题提供答案。其次，我们的系统不使用搜索引擎来检索和排名文件，但依赖于一个大的知识库。第三，我们的系统是在一个大约十倍大的测试集上进行评估的，这个测试集涵盖了各种各样的问题，结果是有希望的准确性。最近，Nguyen [17]提出了一个用于越南语的QA系统，该系统使用语义Web信息来为用户的查询提供答案。连同一系列以前的出版物在同一行的研究，这个小组开发了KbQAS系统，这是声称是第一个基于知识的问答系统的语言。1他们的系统的一个关键组成部分是一个知识获取模块，它利用单一的分类波纹下降规则的问题分析方法。这是一个典型的基于规则的系统。虽然他们的方法能够以一致和系统的方式获取规则，但需要从头开始构建知识库，并且适应新的领域或语言仍然需要时间和人力专业知识。据报道，该系统包含92个手动规则，并在74个越南问题的测试集中进行了测试。在这项工作中，我们的系统利用统计和基于规则的方法，一个大的本体库（DBPedia），和Cypher查询语言-查询图形数据库的我们的系统也验证了一个更大的测试集的不同问题，总计近900个问题和答案对。3方法3.1DBPedia和图模型作者运动员艺术家书音乐工作足球运动员作家演员图1：DBPedia本体的摘录图2：一个简单的图形模式，使用图表表示节点结构的语义清晰性注意，像节点一样，关系也可以具有不仅提供附加语义而且提供用于图算法的元数据并且帮助在运行时约束查询的属性。我们已经从越南DBPedia本体的转储文件构建了一个图形数据库这些文件的总大小约为5GB。数据库大小为1.5GB，由一百万个节点组成250万个链接和750万个属性。3.2查询语言我们使用Cypher来查询DBPedia本体。 Cypher是一种表达性强、结构紧凑的图形数据库查询语言。这个兰-我们的QA系统使用DBPedia项目开发的本体[13]。2语言特定于Neo4j4，这是一个很好的知名图形DBpedia是一个众包的社区努力，从维基百科中提取结构化信息，并将这些信息提供给包括越南语在内的多种语言的网络。DBPedia知识库已经成为新兴的Web of Data上结构化信息的重要来源[16]。DBPedia是一个根据W3C3定义的本体，它定义了用于描述和表示知识领域的术语图1显示了DBPedia本体的摘录。这个本体说有一个叫做Writer的类，它是Artist的子类，Artist又是Person的子类。有一个属性将Work类的实例与Person类的实例关联起来。例如，标题为“AngelandDaemon”的小说是类Work的实例，并且通过属性author与其作者“Dan Brown”相关。DBPedia本体也可以被视为由节点、关系和属性组成的属性图模型[20]。节点包含键值对形式的属性;键是字符串，值是任意数据类型。关系连接和结构节点。一个关系总是有一个方向，一个标签，一个开始节点和一个结束节点;方向和标签添加1在他们的工作中，术语2http://www.dbpedia.org/3http://www.w3.org/standards/semanticweb/许多组织在生产应用程序中使用的数据库Cypher的主要优点是易于学习，易于使用，并且非常适合以精确的方式以编程方式描述图形。注意，其他图形数据库具有查询数据的其他手段许多图数据库支持RDF查询语言SPARQL。然而，在建立一个问答系统，我们感兴趣的是一个属性图的表达能力结合一个先进的delarative查询语言。出于这个原因，我们选择Cypher来查询数据库，以查找与特定模式匹配的数据。Cypher使用户（或应用程序）能够要求数据库查找与特定模式匹配的数据图2显示了一个简单模式的示例这个句型描述三个共同的朋友。像大多数查询语言一样，Cypher由子句组成。最简单的查询由一个START子句、一个MATCH子句和一个RETURN子句组成。使用这三个子句来查找名为Michael的用户的共同朋友的Cypher查询的示例STARTa=node：user（ name=“Michael” ） MATCH （ a ） -[ ：knows]->（b）-[：knows]->（c），（a）-[：knows]->（c）返回b，c4http://www.neo4j.com/工作人第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1051我们可以在Cypher查询中使用的其他子句包括WHERE、创建和创建UNIQUE、DELETE、SET、FOREACH、UNION和以. 这些子句允许图形数据库的表达性和高效的查询和更新有关详细信息，请参阅Cypher查询语言的文档页面。5在下面的小节中，我们简要介绍了一些重要的越南语处理模块，这些模块集成在我们的问答系统中。这些模块处理越南语的基本处理任务，包括分词，词性标注和问题分类。由于篇幅所限，本文不介绍文[10]中详细讨论的越南语的一般特点。3.3分词分词或分词是将一串书面语言划分为其组成词的问题。在英语和许多西方语言中，空格是一个很好的近似词定界符。然而，许多语言没有琐碎的分词过程。例如，在汉语或日语中，句子而不是单词被分隔;在泰语和老挝语中，短语和句子而不是单词被定界，并且如前一节所述，在越南语中，音节而不是单词被定界。分词实际上是这些语言的一个难题。特别是，有两种类型的歧义，我们必须处理在越南语分词。第一种歧义被称为重叠歧义，其中一些相邻的音节可以具有不同的分词，并且如果不诉诸于整个句子的句法或语义解析，则不能完全确定它们的有效性。例如，三音节短语“thucabàn”可以有两个单词分割，“（thuca）（bàn）”或“（thuc）（abàn）”，这取决于上下文。一个更复杂的例子是一个四音节短语第二种歧义称为组合歧义，其中两个相邻的音节可以分开或组合成词。例如，两个音节“chanh chua”可以组成一个形容词，意思是有一个锋利的舌头，或者它们可以组成两个单词chanh和chua，一个名词短语，意思是酸柠檬。虽然越南语分词很难，但有前-是有效的方法来解决这个问题，已出版的越南语处理社区。在这项工作中，我们采用了[9]的方法，该方法在不同的测试集上具有一致性，并且在96%-98%的范围内具有良好的准确性。3.4词性标注词性（P0S）标注，也称为语法标注或词类别消歧，是将句子中的每个词自动确定为对应于诸如名词、动词、形容词、副词等的特定词性的问题。词性标注不是一个简单的问题，因为许多词在不同的场合可以代表一个以上的词性。5 http://neo4j.com/docs/stable/cypher-query-lang.html对于像英语或某些其他西方语言这样的经过充分研究的语言，POS标记是一个具有非常高的准确率（约97.3%）的解决问题，这被认为与人类的表现一样高[15]。但是越南语词性标注的准确率远低于英语。最好的机器学习算法和判别序列模型中的最佳特征的组合已经实现了约93.5%的准确度[11]。如前所述，越南语词性标注准确率较低的一个重要原因是其固有的困难。许多越南语词汇的句法功能不容易确定，而句法范畴的变异是一种常见的现象。此外，词性标注在很大程度上依赖于分词，这是一个困难的任务，如前一节所述。3.5问题分类理解问题的第一步是进行问题分析。问句分类是问句分析的一项重要任务，它检测问句的答案类型问题分类不仅有助于筛选出广泛的候选答案，而且还可以确定答案选择策略。例如，如果知道答案类型是城市，则可以将候选答案限制为城市，而不是考虑提供答案的文档的每个名词短语。乍一看，人们可能会认为问题分类可以被框定为文本分类任务。然而，问题分类存在着区别于一般任务的特点首先，问题相对较短，包含的基于单词的信息比整个文本少第二，短问句需要更深层次的分析，以揭示其隐含的语义。因此，应用文本分类算法本身的问题分类不能产生良好的结果。此外，自然语言本质上是模糊的，因此问题分类并不简单，特别是对于什么和哪种类型的问题。例如：“法国的首都是哪里？”“是位置（城市）类型，而“什么是物联网？”也考虑这些例子：（1）兰斯有什么旅游景点？(2)大多数游客在兰斯参观什么？(3)兰斯的旅游景点有哪些（4）什么吸引游客到兰斯？（5）在兰斯有什么值得看的[14];所有这些问题的答案类型相同：位置。不同的措辞和句法结构分类困难[6]。随着统计方法在一般自然语言处理和特别是问题分类中的日益普及，近年来已经看到许多机器学习方法已被应用于问题分类的问题机器学习方法的主要优点是，可以使用从足够大的标记问题集合中提取的有用特征来学习统计模型，然后使用它来自动分类新问题。我们在问题分类模块中使用[12]提出的方法。与许多现有的利用非常丰富的特征空间或手工制作的规则进行问题分类的方法相比，该方法提出了一个紧凑而有效的特征集。特别地，它使用类型化依赖作为语义特征。已经证明，通过只集成两个简单的依赖关系第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1052在英语UIUC数据集和最近引入的FPT问题数据集上，使用常见的统计分类器可以将问题分类的准确率提高8.0%以上开始分类限制越南人。在使用unigram特征和类型依赖特征的情况下，使用最大值可以获得87.6%和80.5%的准确率=分别对UIUC和FPT问题数据集进行熵分类值得注意的是，UIUC数据集上的最佳问题分类准确率为89.00%[6]，其中包括中心词及其上位词等重要特征。这样的语义特征对于诸如越南语之类的资源较少的语言是不容易获得的，其中WordNet仍处于其构造的第一阶段。3.6文本问题到密码查询的转换我们的基于知识的问答系统的一个重要模块是转换成等价的Cypher查询越南语的文本问题的模块。然后执行查询以搜索问题的答案本节介绍此模块的主要处理步骤。首先，文本问题由上面介绍的NLP链处理，范围从分词到词性标记和问题分类。For example a question such as“Thành viên chch t c a t p đoàn FPT là nh ng ai？“（“谁是FPT公司最重要的人？“）将分析如下：‘‘tag’’图3：一个Cypher语法树专有名词对应于图数据库中的节点的名称通过使用它们的词性标签Np来识别它们。剩余的单词被分类为属性或关系，这取决于它们在数据集上的概率使用内置字典。更具体地说，我们的方法结合了基于规则的提取器和基于统计的分类器来执行实体构建。基于规则的提取器用于通过依赖于词性标注器的输出来提取命名实体，诸如人、组织或位置。逻辑回归模型用于预测查询中的每个剩余关键字的属性或关系的可能性为了继续上面的示例，此步骤将FPT确定为实体，并将thànhViênCh Ch t确定为关系，并且此问题没有属性密码查询构造：在最后一步中，我们首先构建分词：输出是一个单词序列： [Thành_viên ， ch_ch t ， c a ， tp_đoàn，FPT，là_nh ng_ai]。这里下划线字符用于连接单词的音节，单词由逗号分隔词性标注：输出是一系列标记的单词：[Thành_viên/N，ch_cht/N，c a/E，t p_đoàn/N，FPT/Np，là_nh ng_ai？/ QW]。在该步骤中，问题的每个单词被标记为词性，其中N表示普通名词，Np表示专有名词，E表示介词等。关键词提取：在这一步中，停止词或不重要的词被排除在问题之外。仅保留关键字。在上面的例子中，单词c a/E被删除。问题分类：这一步决定了问题的答案类型，也就是我们需要查找的信息类型表示对应于文本输入问题的密码查询的句法树。语法树中的节点对应于Cypher子句或运算符（. . ），从名称为START的根节点开始。树的叶节点对应于关键字或值。图3示出了语法树的示例一旦句法树已经建成，我们寻找合适的替代叶节点的元素在前一步中确定由于可能存在叶节点的多个合理替换，因此语法树可以生成多个Cypher查询。这是预期的，因为在越南DBPedia图形数据库中，关键字可以是节点的链接，也可以是另一个节点的属性。原始问题的Cypher查询是START x=node：DBPediaIndex（key=“FPT”）RETURN DISTINCT x.thànhViênCh Ch t在该示例中，答案类型是HUM（人类），因为问题询问一个人（或一组人）。其他一些答案类型包括NUM（数字）、DTIME（日期时间）、YESNO（是/否）等。问题类型、统计模型和分类技术的详细信息见[12]。实体构建：由于我们正在查询由实体（节点）、关系和属性组成的图模型，因此我们需要构造隐含在手头的查询中的实体、关系和属性的集合。这一步对于为文本问题构建良好的对应Cypher查询至关重要。实质上作为另一个完整的例子，考虑以下问题：“Dân s và di tích c aHà N i là bao nhiêu？“（河内的人口和面积是多少？）这个问题由上面的处理链分析，其中中间结果和最终的Cypher查询如下：(1) 分词和词性标记：[Dân_s/N và/E di n_tích/N c a/AHà_N i/Np là_bao_nhiêu？/ QW](2) 关键词提取：[Dân_s/N，di_tích/ N，Hà_N i/ Np](3) 问题分类：答案类型为NUM··第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1053表1：一些问题类型和示例题型例如英文翻译爱|吉|朱乌|. . . ]？阮晋勇来了Facebook在吗Nguyen Tan Dung是谁什么是Facebook？pcủaE[như thế nào|邦保纽|. . . ]怎么样？你觉得他会是个好孩子吗河内有多少人口？你是谁Thái Lan là gì？泰国的首都是哪里rcủaE[như thế nào|邦保纽|. . . ]？阮晋勇来了吗HQT怎么样了？阮晋勇总理的妻子是谁谁是FPT公司的董事长pc ar c aE là gì？陈太宗来了吗Ni sinh c a ch t ch UBND TP.你好吗陈泰东国王的妻子叫什么名字河内人民委员会主席的出生地是哪里E1和E2在一起吗越南和泰国的关系怎么样？越南和泰国的首都是哪里(4) 实体构造：属性={Dân_s，Di n_tích};命名实体={Hà_N i}(5) 密码查询构造：START n=node：DBPedia（key=“Hà_N i”）RETURN n.dânS，n. dinTích在下一节中，我们提出了我们的QA系统和讨论的实验结果。4实验我们的目标是建立一个QA系统，它能够回答越南事实的问题，广泛的主题，从DBPe- dia本体具有很高的准确性。我们已经开发了一种算法，将不同的问题转换为相应的Cypher查询以下上述方法。该系统可以回答各种不同类型的问题，如表1所示。在该表E中，p和r分别表示实体、属性和关系，并且垂直字符“p”表示实体。|'用于表示可供选择的选项。表格的最后一行显示了一个复杂的问题类型，我们在其中寻找两个不同实体（这里是大写字母）的相同关系。它还被进一步扩展以考虑更复杂的问题，其中用户想要寻求一些比较信息，诸如在以下示例问题中，其中查询两个不同的越南省的面积和人口：“Di n tích và dân s c a Hà N i và Thái Binh bng bao nhiêu？“（河内和泰国的面积和人口是多少？）值得注意的是，该系统可以有效地处理同一问题的不同变体，因为不同的句法正确的词序被识别和分析。例如，要查询河内的人口，可以使用以下两种释义之一：你觉得他会在你家吗你能帮我把孩子抱起来吗（河内的人口是多少？）或者问首都是曼谷的国家讲越南语的人可以使用以下两种选择之一曼谷有没有人你去过曼谷吗（曼谷是哪个国家为了评估该系统的性能，我们手动构建了一个包含879个关于人，位置和其他事实的问答对的数据集，其中可以在越南语中找到答案表2：系统QA系统的准确性76.90%查询构造模块的准确性97.50%Wikipedia. 6为了进一步理解性能，除了最终答案的准确性之外，还评估了查询转换的准确性。我们的系统的准确度如表2所示。该系统能够给出76个的正确答案。测试集中70%的问题如果系统未找到问题的答案，则将其视为该问题的错误结果目前的测试集包含以下不同难度级别的问题类型：关于形式为“谁/什么/... 是E”。例如，“谁是巴拉克·奥巴马？”或“巴黎在哪里？” (in Vietnamese关于实体的特征或属性的问题，例如“谁是巴拉克·奥巴马的配偶？河内的人口密度是多少？”，或者一个更棘手的问题，如“阿根廷首都的人口是多少？.关于两个不同实体的相同关系的问题，例如“法国和德国的首都是什么？. 在这里，法国和德国是两个实体，同样的关系是首都。这个问题的正确答案应该是“巴黎”和“柏林”。表1给出了这些类型问题的更多例子以及它们的英文翻译。我们的手动测试集还包含正确的Cypher查询每个问题，使自动查询建设模块也可以进行评估。表3显示了我们的测试集中的两个样本我们的QA系统旨在为fac-toid问题提供简短的答案。然而，通过查询建立在维基百科之上的DBPedia图形数据库，它也可以非常详细地回答许多问题，因为它还可以在任何时候显示问题的答案文本。例如，下面的片段显示了问题“Tác gi c a Truy n Ki u làai？“谁是乔的故事的作者？”一旦系统找到这个问题的简短答案6 根据 www.example.com 的数据，目前越南语维基百科包含约 114 万篇文章https://stats.wikimedia.org/EN/。···第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1054表3：我们测试集中的一些样本<问题>Tác gi c a Truy n Ki u là ai？</问题><回答>Nguy n Du tên ch T Nh，hi u Thanh Hiên，bi t hi uH ng Sn l p h，là m t nhà thi tiēng th i Lê m t，Nguy n sVietNam.Ông là một nhà thơ lớn của ViệtNam，đc ngi Vi t kính tr ng g i ông là“Dai thi haodân t c”. 1965年，阮杜c H i ng hòa bình th gi i công nh nlà danh nhân văn hóa th gi i và ra quy t nh k ni m tr ng thnhân d p 200年。<联系我们我们的问答系统有一个很好的速度，因为它可以回答一个问题，在平均0。04秒在个人计算机上。我们的系统将作为一个开源项目发布，并免费用于研究目的。我们相信，我们的系统将是有用的越南语处理社区。目前，我们的演示系统可在http://124.158.5.68:8080/wiki-qa/上进行测试。5结论本文介绍了一个面向越南语的开放域问答系统该系统结合了统计模型和基于本体的方法在一个链的处理模块，以提供高质量的映射，从自然语言文本的实体。它可以回答广泛的一般知识问题，在测试中具有有希望的准确性集它是作为一个开源软件项目发布的，希望它将作为未来越南问答系统7 .第一次会议。随着可用的大规模结构化知识库的兴起，我们认为，最有前途的方法，开放领域的问题回答是能够有效地查询这样的数据库中的自然语言。在这项工作中，我们专注于利用DBPedia，一个免费提供的数据库的事实是从维基百科中提取然而，存在其他良好的知识库，例如Freebase [1]，这是一个世界知识的开放共享数据库，已被证明对许多应用程序（包括问答）非常有用。我们计划invest-tigate我们如何可以使用这个知识库在我们的系统中的越南部分在未来的工作。我们还计划与其他方法进行一些比较，这些方法可以直接从维基百科文本中找到答案，以显示查询本体的好处当前良好的问答系统利用附加的自然语言处理模块，诸如依赖性解析或语义角色标记[4]。我们希望通过集成最近可用的依赖解析器[8]，语义角色标注器[18]和越南语命名实体识别器[7]来进一步提高我们系统的性能。7我们系统的临时演示链接在http://124.158.5.68:8080/wiki-qa/第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1055最后，最近关于开放域问题回答的工作[2，3]已经显示了嵌入模型的效率，该模型学习单词和知识库成分的低维向量表示以实现更好的准确性。如何使用这些模型来改进我们当前的系统是另一个有趣的研究方向，我们希望在未来的工作中进行研究，遵循最近的一些结果[19]。致谢本研究由FPT Technology Innovation，FPT Corporation提供部分第一作者部分由越南国立大学河内分校（VNU）资助，项目编号为QG.15.04。我们非常感谢我们的匿名评论者，他们的有益评论帮助我们提高了文章的质量。引用[1] Kurt Bollacker， Colin Evans ，Praveen Paritosh， Tim Sturge，and JamieTaylor.2008. Freebase：一个用于构建人类知识的协作创建图形数据库。2008年ACM SIGMOD数据管理国际会议论文集。1247-1250年。[2] 安托万·博德斯苏米特·乔普拉杰森·韦斯顿2014年使用子图嵌入的问题回答在EMNLP的会议记录中。多哈，卡塔尔，615[3] 安托万·博德斯，杰森·韦斯顿，尼古拉斯·乌苏尼尔。2014.用弱监督嵌入模型解决开放问题数据库中的机器学习和知识发现。计算机科学讲义，第一卷。8724Springer Berlin Heidelberg，165-180.[4] Hang Cui，Renxu Sun，Keya Li，Min-Yen Kan，and Tat-Seng Chua.2005年利用依存关系进行问答段落检索。在ACMSIGIR的会议记录中。萨尔瓦多，巴西，400[5] Huu-Thanh Duong和Bao-Quoc Ho.2014年越南法律文书中的越南文问答系统。第13届IFIP TC8国际会议论文集，CISIM。胡志明市，越南，186[6] Zhiheng Huang，Marcus Thint，and Zengchang Qin.2008年利用中心词及其上位词进行问题分类在2008年EMNLP会议记录中。927-936[7] 芳乐红2016年。基于标记正则表达式和双向推理的越南命名实体识别在arXiv预印本arXiv：1610.05652中。[8] Phuong Le-Hong 、 Thi-Minh-Huyen Nguyen 、 Thi-Luong Nguyen 和 My-LinhHa。2015年。使用分布式单词表示的快速依赖分析在知识发现和数据挖掘的趋势和应用。人工智能讲义，卷。9441. 斯普林格。[9] Phuong Le-Hong，Thi Minh Huyen Nguyen，Azim Roussanaly，and TuongVinhHo. 2008年一种混合的越南语文本分词方法语言与自动机理论及应用计算机科学讲义，第一卷。5196 Springer Berlin Heidelberg，240[10] Phuong Le-Hong，Azim Roussanaly，and Thi-Minh-Huyen Nguyen. 2015.一个用于越南语处理的语法组件。 Journal of Language Modelling 3，1（2015），145-184.[11] Phuong Le-Hong ， Azim Roussanaly ， Thi Minh Huyen Nguyen ， andMathias Rossignol. 2010.最大熵法在越南语词性标注中的应用研究。InActesde Traitement Automatique des Langues.加拿大蒙特利尔，50[12] Phuong Le-Hong，Phan Xuan-Hieu，and Nguyen Tien-Dung. 2014.利用相关性分析改进问题分类。知识与系统工程在智能系统和计算的进展，卷。326.Springer，653-665.[13] Jens Lehmann ， Robert Isele ， Max Jakob ， Anja Jentzsch ， DimitrisKontokostas， Pablo Mendes ， Sebastian Hellmann ， Mohamed Morsey ，Patrick van Kleef，Sören Auer，and Chris Bizer.2015年。DBpedia-从维基百科提取的大规模多语言知识库。Semantic Web6，2（2015），167[14] 李欣和丹·罗斯。2006年学习问题分类：语义信息的作用。Natural LanguageEngineering12，3（2006），229[15] 克里斯托弗·D曼宁2011年。词性标注从97%到100%：是时候做一些语言学了吗在计算语言学和智能文本处理。理论计算机科学和一般问题，卷。6608 柏林海德堡施普林格出版社，171-189。[16] Mohamed Morsey ， Jens Lehmann ， Sören Auer ， Claus Stadler ， andSebastianHellmann. 2012年。DBpedia和维基百科的结构化数据的实时提取Program：electronic library and information systems 46，2（2012），157-181.[17] Dat Quoc Nguyen ， Dai Quoc Nguyen ， and Bao Son Pham.2017 年。Ripple Down Question Answering的规则Semantic Web8，4（2017），511[18] Thai-Hoang Pham、Xuan-Khoai Pham和Phuong Le-Hong。2015年。建设越南语语义角色标注系统第10届国际数字信息管理会议论文集。IEEE，韩国济州岛，77-84。[19] Thai-Hoang Pham 、 Xuan-Khoai Pham 、 Tuan-Anh Nguyen 和 PhuongLe-Hong。2017年。NNVLP：基于神经网络的越南语语言处理工具包。在IJCNLP的会议记录中，演示论文。台北，台湾。[20] 伊恩·罗宾逊，吉姆·韦伯，埃米尔·艾弗雷姆。2015年。图数据库：连接数据的新机会（第2版）。O’Reilly[21] Mai-Vu Tran ， Duc-Trong Le ， Xuan-Tu Tran ， and Tien-Tung Nguyen.2012. 越南人命名实体模型。第26届太平洋亚洲语言、信息和计算会议论文集。印度尼西亚巴厘岛，325- 332。[22] Mai-VuTran、Vinh Duc Nguyen、Oanh Thi Tran、Uyen Thi Thu Pham和Thuy Quang Ha。2009年越南语问答系统的实验研究2009年亚洲语言处理国际会议论文集。Singapore，152

下载后可阅读完整内容，剩余1页未读，立即下载