混合问答系统的语料库

81 浏览量更新于2023-10-15 收藏 470KB PDF 举报

2018

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1081混合问答系统的语料库布丽吉特·格劳LIMSI、CNRS、ENSIIE、法国巴黎萨克莱奥赛grau@limsi.fr摘要问答一直是许多研究和评估活动的焦点，无论是基于文本的系统（例如TREC 和 CLEF 评估活动），还是基于知识的系统（QALD，BioASQ）。很少有系统有效地结合了这两种类型的资源和方法，以利用合并两种信息存储库的成果。自2014年以来，唯一专注于混合QA的评估QA轨道是QALD由于这是一项最近的任务，很少有注释数据可用（约150个问题）。在本文中，我们提出了一个问答数据集，构建开发和评估混合问答系统。为了创建这个语料库，我们收集了几个文本语料库，并通过检索允许回答问题的知识库中的路径来增强它们与知识库的实体和关系最终的语料库包含4300个问答对，其中1600个与DBpedia有真正的链接。关键词混合问答，语料库ACM参考格式：Brigitte Grau和Anne-Laure Ligozat。2018.一个混合问答系统的语料库。在WWW '18伴侣：2018年网络会议伴侣，2018年4月23日至27日，法国里昂。ACM，NewYork，NY，USA，6页。https://doi.org/10.1145/3184558.31915401引言问答（QA）系统提供了一个用户友好的工具，用于寻找不同种类的资源，因为它们允许用户输入以自然语言编写的问题。这样的系统必须从相关文档中提取答案或查询数据库，甚至利用这两种资源。问答一直是许多研究和评估活动的焦点，无论是基于文本的系统（例如 TREC 和 CLEF 评估活动），还是基于知识的系统（QALD，BioASQ）。很少有系统[6，24，26]有效地结合了两种类型的资源和方法，以利用合并两种信息库的成果。例如，如果被问到唯一一个获得凯撒奖的美国演员是在哪所大学学习的？，系统将更可能在文本中找到演员，而在知识库中找到他文本资源包含了大量的信息，但需要复杂的自然语言处理本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191540安妮-洛尔·利戈扎LIMSI、CNRS、ENSIIE、法国巴黎萨克莱奥赛anne-laure. ligozat@limsi.fr（NLP）工具来提取答案。相反，知识库包含结构化的信息，一旦问题被翻译成适当的查询语言，就可以直接查询它们。然而，即使知识库更加可靠，它们仍然是不完整的，并且不包含与文本一样多的信息。此外，KB不是专用于存储上下文信息或关于所有实体的信息。只有最著名的实体在KB中有条目混合QA系统旨在利用这两种类型的信息。自2014年以来，唯一专注于混合QA的QA评估轨道是QALD [18]。由于这是一个最近的任务，很少有注释的数据可用于学习。此外，在此轨道中，所有答案都是KB实体。其他问答数据集也存在，但它们是为开发专用于在一个资源中搜索的系统而构建的：Trec，CLEF和SQuAD数据集用于文本QA，QALD和WebQuestions数据集用于知识库QA。因此，它们不适合用于训练或评估混合QA系统。文本数据集不提供答案URI，当它们存在时，需要评估知识库搜索的结果关于KB数据集，QALD数据集包含的示例太少，并且WebQuestions包含的大多是简单的问题，即这些问题可以通过单个三元组解决，并且不需要混合方法。在本文中，我们提出了一个问答数据集，构建开发和评估混合问答系统。它包含文本形式的问题和答案对以及对知识库的引用。实体的文本提及在知识库中具有对其实体的引用，并且KB的有用关系被添加到使得能够对齐文本和结构化表示的对。这些问题必须足够复杂，以至于需要求助于混合解决方案。为了创建这个语料库，我们收集了几个文本语料库，并通过检索允许回答问题的知识库中的路径来增强它们与知识库的实体和关系。所得到的语料库包含4300个问题-答案对，其中1600个与DBpedia具有真正的链接，并且可以用于学习和测试混合QA系统以及改进关于复杂问题的KB系统。2相关工作2.1问答系统大多数QA系统都致力于在文本或知识库中搜索答案，但不是两者兼而有之。文本QA系统主要依赖于能够识别问题和句子之间的相似性，或者更一般地，它们之间的文本蕴涵关系的方法。他们的目标主要是对词汇和句法重叠的识别进行1语料库可在https://zenodo.org/record/1186300#.Wpbj-eYiE5s上找到第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1082变化.方法范围从基于特征的学习方法[9，23，28，29]到神经网络方法，例如[11] 2，在处理词汇相似性时表现出更好的性能。准确答案的提取涉及基于期望答案类型的确定及其在候选句子中的匹配、基于命名实体识别和句法特征的标准。它的范围也从基于特征的学习方法[10]到神经网络方法[5]3在给定NL问题的情况下查询KB时的主要挑战之一涉及问题与KB三元组的对齐，这需要克服词汇间隙并使问题解析适应KB模式，以便确定哪些短语是实体或关系提及（参见Diefenbachet al.[8]最近的一次调查。可以通过基于语义图[2，30]或模式[17]表示问题并将此表示转换为查询来生成查询。 Yao和VanDurme采用了一种顺序性较低的方法，并在问题中识别的实体周围提取KB的子图。深度神经网络方法类似于应用于文本的方法，并将从单词嵌入中学习的问题表示与三重表示进行比较。三元组表示从KB三元组[4]或从它们的标签[13]学习。开发了一些混合QA方法除了并行使用这两种资源来搜索答案的先前方法之外[6，7，12]，[6]还将它们用于验证候选答案类型的补充策略中。最近的一些作品发展了一种合作策略。Yahya等人开发了查询扩展和松弛技术来搜索与三元组相关联的文本上下文中的信息。 Park等人相反，首先在用KB实体标注的文本中搜索信息，如果文本策略不成功，则使用SPARQL查询。在[25]中，混合搜索实际上是通过将问题分解为在两种资源中搜索的子部分来执行的，并且所提供的答案被聚合以用于最终答案选择。混合方法的探索需要扩大可用的数据集，并向它们提供允许学习和评估文本和KB数据的对齐这也将有利于单源QA系统。2.2QA数据集2.2.1文本QA语料库。 1999年至2007年期间，在技术资源中心组织了质量保证评估活动。 TREC问题是从搜索引擎的日志中构建的，答案必须从文本中提取，这些文本主要是新闻专线。问答对的数据集是免费提供的，但没有它们的支持段落，即支持和证明所给答案的段落每年发布约500个事实问题4。CLEFQA活动在2003年至2009年期间进行，随着时间的推移，问题类型和要搜索的文件发生了重要的演变。文档是来自维基百科的新闻专线和文章。由于CLEF建议对欧洲语言进行评估，因此这些问题是经过构思的2更多参考资料请访问http://aclweb.org/aclwiki/index.php? title=问答技术水平3使用SQUAD数据集的几个深度神经网络模型的结果可以是可在排行榜https://rajpurkar.github.io/SQuAD-explorer/上找到4http://trec.nist.gov/data/qamain.html从每一种学习语言的文本5. 每年提供200个问题，并公布其文本答案。这些语料库中的问题涉及报纸上出现的新闻。因此，有些问题与当时的报纸现实密切相关。另一些则是永恒的，涉及百科全书式的信息。除了评估活动，一些语料库已经分发。 Microsoft ResearchQuestion-Answering Corpus 6是Encarta 98上的400个事实问题的语料库。斯坦福问答数据集（SQuAD）7[16]pus的超过100 000个问题的答案对有关500多篇文章的维基百科收集的众包。该语料库现在主要用于开发基于深度学习的文本QA系统。2.2.2知识库语料库。QALD评估活动自2011年以来一直存在，其目标是在知识库上评估QA系统的性能。这些数据集每年由大约200个文本问题组成。它们必须使用DBpedia回答，并提供SPARQL查询。答案是DBpedia URI。这个语料库的一个限制是问题数量少，这使得它很难用于学习方法。另一个限制是偏见，由于事实上，这个语料库是专门建立在知识库上的答案WebQuestions [3]是Freebase上的问答数据集文本问题是使用Google Suggest API查询和Amazon Mechanical Turk来过滤它们的。答案是自由基URI。它由3778个训练样本和2032个测试样本组成。这些问题的形式相当简单，因为它们中的大多数可以表示为知识库的单个三元组，并且似乎不足以复杂到评估混合问答系统。2.2.3混合语料库。自2014年以来，QALD为混合QA创建了一项任务。任务的目标是通过使用DBpedia中的三元组和每个相关维基百科文章的摘要来回答问题。到目前为止，它已经提供了大约150个问题-答案对，可用于评估问答混合系统，但问题的数量仍然很低。3新数据集的要求在第一步中，我们将探索在QA中发生的哪些现象可以使混合方法受益，这样我们就可以定义新语料库的内容。我们考虑一个知识库，这是由三元组和存储二元关系（主题，谓词，对象）的实例，如DBpedia或Freebase，和文本语料库。我们还定义了一个混合搜索如下：找到答案将需要在两个源中搜索信息，并聚合它们。使用文本或知识库（或两者）查找答案的可能性与问题内容（它们是关于实体、事件还是概念）以及期望的答案类型有关–5http://nlp.uned.es/clef-qa/repository/qa.php6https://www.microsoft.com/en-us/download/details.aspx?联系我们7 https://rajpurkar.github.io/SQuAD-explorer/第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1083-. 一旦问题提到实体或答案是已知实体，就可以除了文本搜索之外或代替文本搜索而触发KB搜索。但是，我们希望更仔细地检查哪些情况需要混合解决方案。初步的语料库研究8引导我们定义以下情况：答案是在问题（直接关系）中给出的实体的属性值：谁是比尔克林顿的女儿的丈夫？. 答案可以直接在两个源中搜索，或者通过混合搜索来解决，因为它需要找到不能同时存在于KB中的三个实体和两个关系：（Bill Clinton，daughter ， Chelsea Clinton ）和（ Chelsea Clinton ，married，Marc Mervinsky）;答案是关于一个事件，要么是关于一个角色，要么是事件的名称：谁是马丁·路德·金的刺客？. 一般来说，答案将来自文本，特别是如果事件涉及未知实体，因为事件通常不在KB中表示;前面两种情况的组合，例如与在事件中具有角色的实体的直接关系（关系的组合）：马丁·路德·金的刺客出生在哪里？. 应该进行混合搜索答案要么是一个实例，要么是一个概念：什么动物下蓝色的蛋？. 答案肯定来自文本，例如“Collonca没有尾巴，下蓝色的蛋”，并且可以在一个或另一个来源上操作与答案的关系是语境性的;它可以是一个观点或与一个事件有关，例如，在禁运期间哪个国家向伊拉克购买石油？（关于禁运事件）。答案只能在文本中找到;一个定义：什么是原子？. 答案就在文本中;一个结果来自一个运营商的聚合（比较，排序，计数）：给十个更大的法国公司。答案可以来自文本，只要搜索的信息是明确的，但它们更容易从知识库中推断出来。总之，如果我们希望语料库有助于混合研究，我们必须确保：1）至少一个实体存在于问题或答案中; 2）在与回答问题相关的知识库中存在至少一个关系; 3）问题通常包含附加信息，使得其整个含义不能由唯一关系表示。4数据集的构建为了构建混合系统，最好有一个包含大量问题的数据集，这些问题足够长，以便它们更可能需要混合推理。因此，需要将问题与知识库中的参考文献相关联。我们的目的是增加现有的语料库，而不是从头开始建立一个新的为了获得这样的语料库，两种方法是可能的。第一个包括使用知识库QA系统的问题语料库，并添加相关的文本对。该类型的可用数据集包含太短的问题（WebQuestions）或太少的问题（QALD）。第二在由命名实体识别器注释的9227个文本QA问题中，约59%的问题提到实体这种方法包括使用文本QA数据集，并使用来自知识库的信息对其进行补充。我们选择第二种方法是因为可用文本（TREC 和CLEF）的问题语料库通常是关于知识库（DBpedia）中存在的信息。这些问题中的一部分也很复杂，并且足够长，可以构建混合系统。4.1语料来源名称一些问题2004年：迈克尔·道格拉斯7002005年：迈克尔·道格拉斯200Trec 1999-> 20073400总4300表1：语料库来源我们在CLEF和TREC数据集中选择事实问题我们保留了CLEF2004年和2005年的数据集（参见[14]和[19]），涉及1994年和1995年的报纸他们附上了几种手动编写和翻译的问题：事实问题、“如何”问题和定义问题。事实问题类型有：时间、测量、人、组织、LOCA-行动、目标、方式、其他。定义问题仅限于个人和组织。TREC数据集（参见[20]、[1]、[21]和[22]）基于类似的文件。这些问题是在Trec 1999中手动编写的，并从2000年至2004年的活动日志它们包括事实和定义问题。4.2语料库扩充为了确定问题是否是混合的，我们可以尝试确定是否可以仅用知识库来解决它们。第一步骤在于确定1）知识库的实体是否回答问题; 2）知识库的实体是否是问题中的主要实体（焦点）; 3）KB的路径是否链接两个实体。然后可能出现以下几种情况答案可以被识别为知识库实体，但是不能找到与问题的实体的路径：知识库和文本可以被组合以找到答案;可以在问题中识别实体，但是不能识别答案的实体：然后实体可以通过使用知识库来帮助解决，但是解决必须用文本来完成;可以找到路径：然后可以通过知识库完全解决该问题。这些情况都可能是混合的：第三种情况可以只用知识库来解决，但在实践中，来自文本的信息可以帮助找到答案。因此，下一步是使用来自DBpedia的数据来增强每个问题-答案对：答案URI、问题实体URI、这两个实体之间的路径（以下称为KB路径）。··········第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1084（）下一页为了分发一个更独立的语料库，我们还增加了一个相关的维基百科段落，如果发现对。为此，我们使用[5]发布的代码。现在我们将更详细地定义一个KB路径。首先，通向答案的路径，称为答案路径，是一个有限序列（（en，rn，en+1））n，其中：• n∈ [0，N[，N是路径的长度• 是表示为URI的KBeK的实体，或者必须手动完成因此，当我们决定KB路径作为答案路径的可能子路径的有效性时，我们必须决定问题的一些词是否可以与KB路径中找到的一些谓词相关联，即如果他们能提到的关系。一步或两步KB路径的可能注释类型为：• 正确：KB路径是答案路径。几个案例可以n文本的实体eT发生：n表示为字的序列• rn是表示的知识库rK的关系- KB路径是应答路径，即谓词cor-n作为URI，或者文本rT的关系回答问题的话，它是完全合理的，即。的话，n表示为序列包含问题中给出的所有信息为• e0是问题中的焦点实体，而eN是答案。答案路径允许回答问题，但注意，答案路径不一定包含问题中给出的所有信息;它不是问题的含义的表示，也不是答案的完整理由，并且不对应于QALD语料库中的查询补充问题中的信息将有助于使用文本或KB找到它混合回答路径包含两种类型的实体：至少一个来自知识库的实体和一个来自文本的实体。给定这些定义，潜在地需要混合解决方案的混合对q，a（其中q是问题并且a是答案）是与混合答案路径相关联的对因此，混合解决方案可以包括在KB中找到答案路径的一部分即以及使用文本或使用答案路径之外的文本信息来完成缺失信息以用于选择答案路径。我们将在下面举一些例子知识库路径将问题实体链接到答案实体，因此它具有与答案路径相同的端点为了评估其相关性，我们将参考答案路径来进行评估为了用知识库信息注释对，首先通过使用DBpediaSpotlight将答案和问题与它们提到然后，我们计算的KB路径在一个和两个步骤之间的实体对查询- ING DBpedia。一步KB路径（eq，p，er）由一个实体组成问题eq、答案实体er以及两者之间的预测p。例如，在问题谁是西蒙·佩雷斯？其答案是以色列外交部长，实体eqres：Shimon_Peres和erres：Ministry_of_Foreign_Affairs_（Israel）分别在问题和答案中被标识，并且路径具有谓词 dbp ： office is found and allows to answer thequestion。两步KB路径由2个实体eq和er、2个预测值pi和p2以及中间实体ei：（（eq，pi，ei），（ei，p2，er））组成。两步路径意味着问题足够复杂，需要一些推理。出于计算原因，我们将路径的长度限制为2，因为我们认为，一般来说，长于2步的路径是不相关的，并且不是答案路径的一部分。为了检查这些注释的相关性，我们手动验证了它们我们首先用找到的URI验证答案的注释。然后，对于每个验证过的实体，我们检查KB路径。我们不显式的答案路径，因为它示例（ CERN ， headquarters ， Canton_of_Geneva ），（Can-ton_of_Geneva，capital，Geneva）正确回答了问题：CERN位于何处？以日内瓦为代表– KB路径是答案路径，并且不覆盖问题中给出的所有信息例如，（James_Bond，portrayer，Pierce_Brosnan）正确回答谁在007系列的最新电影中扮演詹姆斯·邦德？皮尔斯·布鲁斯南作为答案9，然而，这是最后一个的事实并不在路径中。部分路径：KB路径是答案路径的子路径：谓词不够精确，需要其他信息来完成。例如，（Kim_Il-sung ，allegiance，North_Korea）部分回答了1994年之前谁是朝鲜的总统？以金日成为答案金日成是总统的信息比效忠更准确。相关路径：找到的谓词与问题词相关，但不对应于答案路径的子路径– 该关系与问题中给出的一些信息匹配，但不属于回答路径。例如（Java、designer、Sun_Microsystems）与问题“Microsoft将从SUN获得什么许可？”相关。与答案Java，因为它使Java和SUN之间的联系，但它没有回答有关微软许可证的问题。– 如前所述，但关系过于模糊或与问题主题相关，即这种关系并非完全离题。错误路径：KB路径与答案路径无关，即所有其他案子。例如（Mississippi，flower，Magnolia）没有回答密西西比州的昵称是什么？与回答木兰花，因为花不能与一些疑问词匹配。这种关系在一些推理中可能是有用的，例如，如果我们知道一个国家的昵称通常是它的相关花，但是我们可以期望我们会在文本中找到直接的关系。因此，不正确的路径意味着问题更好地解决了文本信息。已经发现了许多两步路径，但只有一小部分是正确的。为了缩短注释时间，我们只检查9有些问题隐含了时间戳，比如latest，答案可能不再正确。·····第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1085没有经过验证的一步路径的问题的两步路径。此外，删除了一些不相关的关系：subject、align、direction、seeAlso，它们不是语义关系，并且经常产生错误的路径。5注释语料库的分析我们在验证后对语料库计算了一些统计数据，这些统计数据在表2中给出。类问题一些问题两步路径290一步路径269答案是URI1699总4300表2：语料库统计大约有1700个问题与DBpedia和文本有关。其中，大约560个被注释了有用的KB路径以用于其分辨率。我们的语料库可以用于混合QA，但也为KB QA的情况下，正确的KB由于1-长度的答案路径通常被发现在语料库中的知识库问答，我们想知道是否2-路径的问题带来了新的有趣的情况下，通常不是现有的知识库语料库的一部分。我们发现这类问题有三类(1) 答案需要做一些推论;(2) 答案需要一些地理推理;(3) 该解决方案需要对知识库的模式进行复杂的适应。5.1推论有些问题只能根据所涉及的关系问：Sani Abacha的孩子的名字回答：Mohammed Abacha路径（P）：– (Sani- 阿巴查，配偶，玛丽亚姆-阿巴查）– （Maryam_Abacha，child，Mohammed_Abacha）这类问题通常由一个三元组来回答人的实体，关系子对象和其子对象的实体我们的DBpedia版本不包含Sani Abacha的此信息然而，从萨尼·阿巴查到穆罕默德·阿巴查的路径已经找到，通过萨尼·阿巴查的配偶关系来回答这个问题意味着推断他妻子的孩子也是他的孩子。问：珍·古道尔以什么闻名答案：伦敦出生的灵长类动物学家路径（P）：– (Dian_福西，影响，简_古道尔）– (Dian- -福西，菲尔兹，《灵长类动物学》）在DBpedia中无法直接找到Jane Goodal的领域，但她受到灵长类动物学家Dian Fossey的影响这一事实使得推断她也是灵长类动物学家成为可能在这些情况下，疑问词并不明确地指代这两个关系，并且需要复杂的处理来找到它们。5.2地缘关系对于期望一种类型的位置作为答案的一些问题，可能需要一些地理推断来找到精确的位置。问：斜塔在哪里答案：比萨路径（P）：– （比萨斜塔，比萨省，比萨省）– （Province_of_Pisa，seat，Pisa）要连接比萨和比萨斜塔，路径要经过与比萨有关的比萨省。比萨省可能是一个公认的答案，但能够找到比萨实体更准确。这个例子没有描绘出地理推断的一般规则（寻找斜塔精确位置的推理在其他情况下不适用）5.3适应复杂的知识库模式知识库问答中的主要挑战之一是匹配问题词的相关关系。当该匹配涉及一对多或多对一的对应时，这是特别困难的。问：联邦储备委员会主席的名字是什么？答案：艾伦·格林斯潘路径（P）：– （Federal_Reserve_Board_of_Governors，leaderTitle，Chair_of_the_Federal_Reserve）– (Alan（格林斯潘，头衔，美联储主席）答案的路径是通过美联储主席找到格林斯潘。Chairman涉及实体名称 Chair_of_the_Federal_Reserve 和关系名称leaderTitle和title，这使得很难找到。问：爱德华·巴拉迪尔代表哪个政党答案：保守路径（P）：– （爱德华_巴拉迪尔，党人民运动联盟）– （人民运动、意识形态、保守主义联盟）这个问题的预期答案是保守的。事实上，这不是党的名字，而是它的意识形态。在爱德华·巴拉迪尔和保守主义之间找不到直接的三重关系，但通过人民运动联盟实体可以找到这两个实体之间的路径。根据预期答案的粒度，党这个词必须与两个关系联系起来。6结论QA系统通常专用于在单一类型的源、知识库或文本中进行搜索。然而，使用这两种··············第一届结构化和非结构化知识混合问答国际研讨会（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂1086资源将导致建立更强大的系统。然后，一个挑战是研究哪种现象发生，哪种合作是有用的，以及如何利用QA方法。为了这些目的，我们自动丰富的文本语料库的文本QA与KB注释（KB实体和它们之间的路径的长度为1或2），以补充文本三元组（问题，答案，通道）与相关的KB材料。虽然由一个关系组成的路径通常是正确的，但需要策划2长度的路径。经过注释，语料库包含大约1700个与DBpedia和文本有关的问题其中，大约560个被注释有用于其分辨率的KB路径。我们还表明，搜索一个知识库的解决方案，已被要求在文本检索上下文的问题，导致提出新的问题，需要复杂的推理。对于未来的工作，我们设想探索语料库的自动策展，以定义一个远程监督过程，不会产生太多的噪音，并允许建立更大的语料库。致谢这项工作得到了ANR项目GoAsQ（ANR-15-CE 23 -0022）和FUI项目Pulsar的部分支持。引用[1] Ricardo Baeza-Yates，Berthier Ribeiro-Neto，et al.一九九九年。现代信息检索。第463卷。ACM Press New York.[2] Romain Beaumont，Brigitte Grau，and Anne-Laure Ligozat. 2015. Sem-GraphQA@QALD5： LIMSI参加QALD5@CLEF 。在CLEF 2015 的工作笔记中。[3] Jonathan Berant，Andrew Chou，Roy Frostig，Percy Liang.2013年。基于Freebase的问答对语义分析。2013年自然语言处理经验方法会议论文集。1533-1544年。[4] Antoine Bordes，Nicolas Usunier，Alberto Garcia-Duran，Jason Weston，and Ok-sana Yakhnenko.2013年。为多关系数据建模转换嵌入。神经信息处理系统进展。2787-2795[5] Danqi Chen，Adam Fisch，Jason Weston，and Antoine Bordes. 2017.阅读维基百科回答开放领域的问题。在ACL 2017会议记录中。1870- 1879年。[6] Jennifer Chu-Carroll 、 James Fan 、 BK Boguraev 、 David Carmel 、 DafnaSheinwald和Chris Welty。2012年。大海捞针：搜索和候选人生成。IBMJournal of Research and Development56，3.4（2012），6[7] Silviu Cucerzan和Eugene Agichtein。2005年基于非结构化和结构化Web内容的事实问答在TREC Proceedings，Vol.七十二九十[8] Dennis Diefenbach，Vanessa Lopez，Kamal Singh，and Pierre Maret.2017年。基于知识库的问答系统核心技术综述。Knowl-edge and Information Systems（2017），1-41.[9] Martin Gleize和Brigitte Grau。2015年。学习类型化句子改写的统一核方法。在ACL-IJCNLP的会议记录中。[10] Arnaud Grappy 、 Brigitte Grau 、 Mathieu-Henri Falco 、 Anne-LaureLigozat、Is-abelle Robba和Anne Vilnat。2011年。通过健壮的验证过程从Web文档中选择问题的答案。Web Intelligence Conference（WI）的论文集。[11] 华和林志颖2016年。使用深度神经网络进行成对词交互建模以进行语义相似性测量。在2016年的会议记录中计算语言学协会北美分会会议：人类语言技术。计算语言学协会，加利福尼亚州圣地亚哥，937-948。http://www.aclweb.org/anthology/N16-1108[12] Wesley Hildebrandt，Boris Katz，and Jimmy J Lin.2004年使用多个知识源回答定义问题在HLT-NAACL中。49比56[13] Denis Lukovnikov ， Asja Fischer ， Jens Lehmann ， and Sören Auer.2017年。基于神经网络的单词和字符级知识图谱问答。在第26届万维网国际会议上。国际万维网会议指导委员会，1211-1220。[14] BernardoMagnini 、 Alessandro Vallin 、 Christelle Ayache 、 Gregor Erbach 、Anselmo Peñas 、 Maarten De Rijke 、 Paulo Rocha 、 Kiril Simov 和 RichardSutcliffe。2004年CLEF 2004多语言问题回答轨道概述欧洲语言跨语言评估论坛研讨会。Springer，371[15] Seonyeong Park、Soonchoul Kwon、Byungsoo Kim和Gary Geunbae Lee。2015.ISOFT at QALD-5：链接数据和文本数据的混合问答系统。在CLEF 2015中。[16] Pranav Rajpurkar ， Jian Zhang ， Konstantin Lopyrev ， and PercyLiang.2016年。Squad：100，000+个文本机器理解问题。arXiv预印本arXiv：1606.05250（2016）。[17] Christina Unger ， Lorenz Bühmann ， Jens Lehmann ， Axel-Cyrille NgongaNgomo，Daniel Gerber，and Philipp Cimiano. 2012年。RDF数据上基于模板的问题回答。第21届万维网国际会议论文集。ACM，639[18] ChristinaUnger、Corina Forascu、Vanessa Lopez、ACN Ngomo、E Cabrio、PhilippCimiano 和 Sebastian Walter 。 2014. 关联数据问答（ QALD-4 ）。CLEF会议。[19] AlessandroVallin ， Bernardo Magnini ， Danilo Giampiccolo ， Lili Aunimo ，ChristelleAyache ， Petya Osenova ， Anselmo Peñas ， Maarten De Rijke ，Bogdan Sacaleanu，Diana Santos，et al. 2005年CLEF 2005多语言问题解答轨道概述欧洲语言跨语言评估论坛研讨会。斯普林格307[20] 艾伦·M·沃里斯2001年TREC 2001问答跟踪概述在TREC会议。[21] 艾伦·M·沃里斯2003. TREC 2003问答跟踪概述.. TREC Conference，Vol.2003。54比68[22] 艾伦·M·沃里斯2004年TREC 2004问答跟踪概述。（2004年）。[23] Mengqiu Wang和Christopher D Manning. 2010. 用于文本蕴涵和问题回答的具有结构化潜变量的概率树编辑模型。在科林。[24] Xun Xu，Yansong Feng，Songfang Huang，and Dongyan Zhao. 2016. 基于知识库和自由文本的混合问答。在COLING 2016会议录中，第26届计算语言学国际会议：技术文件。 COLING 2016组委会，大坂，日本， 2397-2407。http://aclweb.org/anthology/C16-1226[25] Kun Xu ， Siva Reddy ， Yansong Feng ， Songfang Huang ， and DongyanZhao.2016年。基于关系抽取和文本证据的Freebase问答第54届计算语言学协会年会论文集（第1卷：长篇论文）。计算语言学协会德国柏林，2326-2336。 http://www.aclweb.org/anthology/P16-1220[26] Mohamed Yahya 、 Klaus Berberich 、 Shady Elbassuoni 和 Gerhard Weikum 。2013年。在链接数据的网络上进行鲁棒的问题回答。在CIKM的诉讼。[27] Xuchen Yao和Benjamin Van Durme。2014年结构化数据上的信息提取：用Freebase回答问题。在ACL的诉讼中。[28] Xuchen Yao ， Benjamin Van Durme ， Chris Callison-Burch ， and PeterClark.2013年。一个轻量级和高性能的单语单词对齐器。在ACL的诉讼中。702-707[29] Xuchen Yao ， Benjamin Van Durme ， Chris Callison-Burch ， and PeterClark.2013年。基于半马尔可夫短语的单语对齐在EMNLP的会议记录中。590-600.[30] Lei Zou，Ruizhe Huang，Haixun Wang，Jeffer Xu Yu，Wenqiang He，andDongyan Zhao.2014. RDF上的自然语言问题回答：图形数据驱动的方法。在SIGMOD的会议记录中。

下载后可阅读完整内容，剩余1页未读，立即下载