时间问题回答的基准：TempQuestions

193 浏览量更新于2023-10-15 收藏 12.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10570TempQuestions：一个用于时间问题回答的基准0Zhen Jia �0School of InformationScience Southwest JiaotongUniversity Chinazjia@swjtu.edu.cn0Abdalghani Abujabal Max PlanckInstitute for Informatics SaarlandInformatics Campus Germanyabujabal@mpi-inf.mpg.de0Rishiraj Saha Roy Max PlanckInstitute for Informatics SaarlandInformatics Campus Germanyrishiraj@mpi-inf.mpg.de0Jannik Strötgen Max PlanckInstitute for Informatics SaarlandInformatics Campus Germanyjannik.stroetgen@mpi-inf.mpg.de0Gerhard Weikum Max PlanckInstitute for Informatics SaarlandInformatics Campus Germanyweikum@mpi-inf.mpg.de0摘要0回答复杂问题是问答（QA）系统今天面临的挑战之一。尽管复杂性有多个方面，但时间和空间意图等问题维度需要专门处理。针对这类问题的方法需要反映所需方面和挑战的基准。在这个方向上迈出了关键一步，发布了一个新的基准，TempQuestions，包含1,271个问题，全部都是时间性质的问题，并附有它们的答案。作为创建这个资源的关键贡献，我们提供了对时间问题的明确定义。大多数问题需要将它们分解为子问题，并且这些问题最好在结构化数据和非结构化文本来源的组合上进行评估。两个QA系统的实验表明需要进一步研究复杂问题。0CCS概念0• 信息系统 → 测试集；0关键词0问答；时间问题；基准0ACM参考格式：Zhen Jia，Abdalghani Abujabal，Rishiraj SahaRoy，Jannik Strötgen和GerhardWeikum。2018。TempQuestions：一个用于时间问题回答的基准。在WWW'18Companion：2018年Web会议伴侣，2018年4月23日至27日，法国里昂。ACM，纽约，美国，6页。https://doi.org/10.1145/3184558.319153601 引言0动机。在过去几十年中，回答自然语言问题（QA）得到了广泛研究。早期的方法，0� 该工作是作者在MPI for Informatics期间完成的。0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在其个人和公司网站上传播作品的权利，并附有适当的归属。WWW'18 Companion，2018年4月23日至27日，法国里昂。©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31915360直到IBMWatson赢得Jeopardy!问答节目，大多数问答系统主要利用文本来源（包括维基百科文章）使用段落检索和其他技术[14,23]。在过去几年中，将问题翻译为结构化知识库（KBs）和数据库（DBs，包括链接开放数据）上的正式查询的范式已经变得普遍[7, 30,33]。结构化数据问答（KB-QA）将问题中的术语翻译为底层KB或DB的词汇：实体名称、语义类型以及属性和关系的谓词名称。最先进的系统（例如[1, 5, 6,34]）在涉及单个目标实体周围的几个谓词的简单问题上表现良好。一个典型的问题是：0“Luc Besson执导的电影中，Bruce Willis主演了哪部电影？”0可以被翻译成SPARQL查询，例如：0SELECT ?x WHERE { ?x type movie.?x directedBy LucBesson.BruceWillisactedIn ?x}0答案是：“第五元素”。然而，知识库问答在涉及需要将输入分解为子问题的复杂问题上存在局限性。一个典型的例子是（答案是“米拉∙乔沃维奇”）：0“贝松电影中的哪位女演员嫁给了他？”0在这里，一个SPARQL查询需要多个查询变量，并且演员、电影和导演之间需要进行三向连接。这样复杂的问题对于今天的知识库问答系统来说太难了。将问题分解为“贝松电影中的女演员”和“女演员嫁给贝松”，然后对它们的结果进行交集操作将是一个可行的执行计划。这种分解的需求适用于各种复杂问题。在本文中，我们专注于一种特定类型的用户输入，即时间相关的问题。在线信息需求中有相当大一部分是与时间有关的[4,20]。即使搜索请求没有明确涉及日期或事件，计算答案可能也需要测试时间条件。考虑以下示例（答案仍然是“米拉∙乔沃维奇”）：0Track: First International Workshop on Hybrid Question Answering with Structured and Unstructured Knowledge (HQA'18) WWW2018, April 23-27, 2018, Lyon, France10580“贝松的第一部科幻电影的女演员是谁，后来又和他结婚了？”0一个问答系统可以将其分解为子问题，如SQ1：“贝松执导的科幻电影” ，SQ2：“出演贝松电影的女演员”，以及SQ3：“嫁给贝松的女演员”。此外，我们需要过滤SQ1的结果以确定第一个（即时间上最早的）答案，并且我们需要将SQ3的结果中的电影年份与婚姻日期进行比较，以排除在该电影之前结婚的配偶。对于这种复杂问题，理想的执行计划需要计算这种分解，并且还需要生成关于时间点和时间间隔的推理的后处理。后者是知识库问答迄今为止尚未考虑的一个新方面。有关面向文本问答的先前工作讨论了这一点[8, 13,15]，但没有针对一般解决方案的目标。贡献。问答的质量通常通过基准测试来评估。为了解决处理复杂问题的挑战，我们提供了一个新的基准集，用于处理时间相关问题。这些问题被选择为其中许多问题需要组合评估子问题并对子结果（子问题的结果）进行推理的组合。已经存在各种各样的问答基准。对于知识库问答，Free917[10]和WebQuestions[7]集合是最受欢迎的。两者都被简单问题所主导，并且不会测试系统分解和处理复杂问题的能力。QALD系列评估任务[31]包括简单和复杂问题。然而，每年的问题数量相对较少（50-250个问题）。[5]的ComplexQuestions集合包含各种类型的复杂问题：然而，时间相关问题只占其中的一小部分。对于面向文本的问答，TREC [2, 32]和CLEF[21]会议系列提供了大量的基准问题，但没有考虑利用结构化数据的设计考虑。本文提出的基准，称为TempQuestions，包含1,271个带有黄金标准答案的时间相关问题。该集合通过精心选择来自Free917、WebQuestions和ComplexQuestions集合的与时间相关的问题，并进行额外的策划和标记。我们的基准支持系统化地测试和评估问答系统处理需要分解和推理子结果的时间相关问题的能力。我们使用两个最先进的问答系统AQQU [6]和QUINT[1]运行了该基准测试，发现两者的性能都较低。这表明还有很大的改进空间，并强调了对复杂问题的研究的需求。TempQuestions可以在以下链接中公开获取：http://qa.mpi-inf.mpg.de/TempQuestions.zip。02 定义时间问题0有各种各样带有时间因素的问题。问题可能包含时间表达式或信号来表示时间关系。此外，问题可能询问某种类型的时间信息，例如日期。然而，为了简洁地定义时间问题，这些概念，即时间表达式和时间信号，也需要进行精确定义。在本节中，我们首先解释这些通常用于的概念。0在自然语言处理（NLP）的背景下进行时间信息标注。然后，我们根据这些现有概念定义了时间问答（QA）的时间问题，并根据时间QA的要求进行了扩展，如下所述。02.1 时间表达式0在自然语言处理（NLP）中，时间标记语言TimeML[22]经常用于对文本文档中的时间信息进行标注。大多数自动进行时间标注的工具也使用TimeML作为标注标准，例如用于时间表达式的时间标记器[27]。除了用于标注两个TimeML实体之间的事件和时间关系的标签外，TimeML还包含用于标注时间表达式的TIMEX3标签和用于标注时间信号的SIGNAL标签（参见第2.2节）。TIMEX3标签用于标注四种类型的时间表达式：日期、时间、持续时间和集合表达式。所有时间表达式的语义都可以规范化为某个标准格式的值，这允许比较时间表达式 -这是时间信息的一个特征，也可以用于时间问答。TimeML捕捉时间表达式的最重要属性是值属性。对于持续时间和集合表达式，值属性捕捉时间间隔的长度，而日期和时间表达式的值属性包含如何在时间线上锚定时间点的信息，具体取决于粒度。根据TimeML的规范，集合表达式指的是事件的重复性质。例如，'每周一次'和'每天'。持续时间表达式用于指定时间间隔的长度。例如，'三周'和'几年'是两个持续时间表达式。请注意，时间信息可能是具体的，如'三周'，也可能是模糊的，如'几年'。日期和时间表达式都指的是时间点 -尽管时间点的粒度不同：所有小于'天'的粒度都被视为时间表达式，例如，指的是一天的一部分的表达式（例如，'星期一早上'和'昨晚'）以及指定时间的表达式（例如，'晚上9点'，'三点钟'和'2018年2月5日23:59:59CET'）。相比之下，日期表达式可能指的是特定的一天（例如，'上周四'和'11月23日'），或者指的是较粗粒度的任意时间点（例如，'21世纪'，'去年'和'2016年9月'）。请注意，这些示例直接显示了日期和时间表达式可以以不同的方式实现：完全指定、相对指定、未指定或隐含指定[27]。完全指定的表达式可以在没有任何其他上下文信息的情况下进行规范化（例如，'2016年9月'作为'2016-09'）。相比之下，相对表达式需要一个参考时间（例如，'上周四'），而未指定的表达式则需要一个参考时间和与参考时间的关系（例如，'(在)星期四'）。在这两种情况下，参考时间可能是句子的时间或文本上下文中提到的日期。如果相对和未指定的日期和时间表达式出现在自然语言问题中，那么了解问题的提出时间也很重要。否则，诸如“两年前谁是美国总统？”这样的问题无法回答，因为无法确定“两年前”指的是哪一年。0Track: 第一届混合问题回答与结构化和非结构化知识（HQA'18）WWW 2018，2018年4月23日至27日，法国里昂105901) X 等于 Y02) X 在 Y 之前03) X 遇到 Y04) X 与 Y 重叠05) X 在 Y 期间06) X 开始 Y07) X 完成 Y0XXX0YYY0XXX YYY0XXX YYY0XXX0YYY0XXX0YYYYYY0XXX0YYYYYY0XXX0YYYYYY0图1：两个时间间隔X和Y之间的13种时间关系（2到7号有逆关系），如Allen [3]所示。0最后，对于规范化隐含表达式（例如假日，例如美国的“哥伦布日2018年”-即十月的第二个星期一）需要非标准的时间知识。在一些研究中，隐含时间表达式的定义已经扩展到进一步包括所有类型的自由文本时间表达式，例如事件名称或其他具有时间范围的文本短语（例如，“奥巴马的总统任期”可以规范化为具有特定开始和结束日期的时间间隔）。在我们的基准测试的创建和分析中（第3和4节），我们将考虑具有完全指定、未指定和相对时间表达式的显式时间问题，与包含隐含时间表达式的隐式时间问题形成对比。02.2 时间信号0TimeML将时间信号定义为明确表示两个TimeML实体（事件或时间表达式）之间时间关系的文本元素，例如'before'或'during'。在自然语言（NL）问题中，信号出现在明确指定搜索信息的有效时间间隔的情况下，例如：“Besson在与Jovovich结婚之前参与了哪些电影？”请注意，我们放宽了TimeML的定义，将所有触发词都视为时间信号，即使其中一个实体没有明确提及，但是是问题的答案，例如在when-questions中。一般来说，Allen的时间推理中的13种时间关系定义可以是所描述的关系，即相等关系以及六种关系before，meets，overlaps，during，starts和finishes及其相应的逆关系（参见图1中关系的可视化）。然而，由于存在歧义，通常无法为时间问题选择唯一的时间关系。例如，问题“What didBesson work on before his marriage toJovovich?”可以解释为询问他在结婚之前直接参与的电影，或者他在结婚之前任何时间参与的所有电影。需要指出的是，NL问题通常存在更多的歧义。虽然问题“Which movies did Besson work on before hismarriage to Jovovich?”以及“Which movie did Besson work onbefore his marriage toJovovich?”都简洁地描述了所需答案电影的数量（分别是多个和一个），但后者需要的是Besson在结婚之前直接参与的电影，即无法简单验证时间约束，而必须对有效答案进行排序并选择最接近的答案。此外，稍微改写的问题“What did Besson work on before his marriage toJovovich?”也可以有不同的解释（单数或复数）-这也使得确定正确答案有时对人类来说很困难。由于存在这种歧义，在时间QA的上下文中，时间关系可以简化为以下三种类型：（i）将before和meet视为关系BEFORE（ii）将before_inverse和meet_inverse视为AFTER（iii）将所有其他关系视为OVERLAP。分别表示上述三种时间关系的典型触发词是时间信号：（i）'before'，'priorto'（ii）'after'，'following'（iii）'during'，'while'，'when'，'until'，'in'，'at the sametime'。除了TimeML中定义的触发词，我们还将序数添加到时间信号的类别中，因为它们经常在NL问题中用于指定可以按时间顺序排序的项目的特定实例。例如，“Besson在与Jovovich结婚之前的最后一部电影是什么？”0这使得即使对于人类来说，确定问题的正确答案有时也很困难。由于存在这种歧义，在时间QA的上下文中，时间关系可以简化为以下三种类型：（i）将before和meet视为关系BEFORE（ii）将before_inverse和meet_inverse视为AFTER（iii）将所有其他关系视为OVERLAP。分别表示上述三种时间关系的典型触发词是时间信号：（i）'before'，'priorto'（ii）'after'，'following'（iii）'during'，'while'，'when'，'until'，'in'，'at the sametime'。除了TimeML中定义的触发词，我们还将序数添加到时间信号的类别中，因为它们经常在NL问题中用于指定可以按时间顺序排序的项目的特定实例。例如，“Besson在与Jovovich结婚之前的最后一部电影是什么？”02.3 时间问题0基于时间表达式和时间信号的扩展概念，我们现在可以简明地定义时间问题：0定义2.1.时间问题是指任何包含时间表达式、时间信号或其答案具有时间性质的问题。0请注意，这个定义纯粹是语义的。在实践中，这些类别是通过与模式和词典的匹配（第3节）来检测的，随后通过推理来消除误报。因此，不同的检测技术（例如，对于具有不同隐含程度考虑的时间表达式[16]），在从给定语料库中检索时间问题时可能具有不同的召回率。此外，请注意，一个时间问题可能包含多个时间信号和时间表达式。此外，只要问题包含任何类型的时间表达式，就属于时间问题的范畴。在这项工作中，我们考虑所有时间表达式，无论其出现类型如何，只要它们可以锚定在时间线上，无论是作为时间点还是作为（可能是开放的）时间间隔。在下一节中对基准的分析中，我们区分了四种类型的时间问题：带有相应时间表达式的显式和隐式时间问题（第2.1节），包含序数的问题（包含序数）和涵盖了所有询问某种时间信息的问题的时间答案（例如，何时问题）。03 TempQuestions: 创建0现有的KB-QA数据集[5, 7,10]是一个混合包，包含多种类型的问题：简单的、组合的、序数的、时间的和空间的等等。虽然我们有合理的证据表明这些基准中存在时间问题，但每个数据集中的时间问题比例都很小：因此，忽略时间问题的系统仍然可以在这些基准上达到可接受的性能。这促使我们从现有资源中整理出时间问题，以创建我们的仅限于时间问题的基准。这是通过制定明确的时间问题定义和约定（第2节）来实现的。我们将我们的新基准称为TempQuestions，其中包含1271个问题。0Track: 第一届混合结构和非结构化知识问答国际研讨会（HQA'18） WWW 2018，2018年4月23日至27日，法国里昂10600具有各种时间要素的TempQuestions可在以下网址获取：http://qa.mpi-inf.mpg.de/TempQuestions.zip。源数据集。具体而言，我们从以下三个基于Freebase的KB-QA数据集中提取了时间问题：0• Free917 [10]:由专家手动注释的917个问题（641个训练和276个测试），并附带他们的SPARQL查询。这些事实性问题由两位以英语为母语的人提供。 • WebQuestions [7] (WQ) :这是知识库问答中最受欢迎的基准之一，包含5810个问题-答案对，分为3778个训练和2032个测试实例。该数据集是使用Google Suggest API和众包构建的。 • ComplexQuestions [5] (CQ):它包含2100个问题及其答案；1300个训练和800个测试。这些问题是商业搜索引擎的查询日志样本，以及以前基准（WebQuestions和Yin等人的数据[35]）的提取。该数据集中的问题在语法上比以前的数据集更复杂。0方法概述。我们采用两阶段方法构建TempQuestions：（i）对上述数据集进行自动化的时间问题检测，（ii）手动检查第一步中的错误。此外，对最终问题的所有答案进行了手动验证，并纠正了以前黄金标准中的错误和冗余。自动检测。为了根据第2节中提出的概念定义识别时间问题，我们使用现有标记器、词典和词汇-句法模式的组合。首先，我们对所有问题运行时间表达式标记器SUTime[11]和HeidelTime[26]。这些标记器注释了显式的TIMEX3标签，因此我们能够识别具有显式时间表达式的问题（例如“谁赢得了[2008年]的德克萨斯州？”）。HeidelTime的时间标签扩展和使用Freebase创建的事件词典用于识别具有隐式时间表达式的问题。使用Setzer[25]的建议构建的信号词词典标记信号词，使用第2.2节的时间介词列表[17,18]标记时间介词（例如“谁在欧洲人到来之前住在美国？”）。我们使用斯坦福CoreNLP[19]识别器和词典标记序数词，如“第一，第二，最后”。经过这一步，我们可以识别出像“谁是海盗队的[第一个]教练？”这样的时间问题。最后，使用诸如“何时”，“自从何时”，“什么日期”，“在哪一年”，“哪个世纪”等简单的起始模式来识别答案是时间性质的问题。现在我们有1541个潜在的时间问题。由于我们关注召回率，并希望收集尽可能多的时间问题，因此有相当多的误报。手动检查。接下来，一个人工专家检查每个问题以删除非时间问题。删除的一些实例包括：“尼克松总统的名字是什么？”（对序数标签的错误解释）和“尼古拉斯∙凯奇在《圣诞颂歌》中扮演谁？”（圣诞节被错误地标记为事件）。此外，同一人工专家还验证了现有黄金答案是否不正确或有噪声。冗余答案被0图2：TempQuestions的长度分布。0标准化为相应Freebase实体的名称。例如，对于问题“利比亚在1951年从谁那里获得独立？”答案‘它从意大利获得独立’被删除，只保留‘意大利’。最后，我们在基准测试中有总共1,271个经过清理和验证的时间问题。04 TempQuestions：分析0我们现在详细介绍我们基准测试的定性和定量分析，给读者提供对内容的了解。我们还通过展示最先进系统在TempQuestions上表现不佳来突出研究的范围。04.1 测量0首先，在图2中，我们展示了我们基准测试中问题按长度（以单词计）分布的情况，并与Free917、WQ和CQ进行对比。TempQuestions中的问题长度在4到15个单词之间，平均问题长度为8.28个单词。该图显示，TempQuestions中的问题相对较长，这意味着对于问答系统来说，解析难度增加。接下来，为了让读者对我们的资源中的问题有所了解，我们在表1中提供了样本问题，按照以下三个维度进行分割：时间类别、实体和关系数量以及问题来源。问题类型的分布。我们同时提供了四类时间问题的详细分类，以及输入来源，如表2所示。两个关键点是：（a）TempQuestions中有很多问题具有隐含的时间表达式（209个）和序数（155个）-这两类问题需要问答系统进行额外的推理和排序，因此增加了难度；（b）总数1,364大于1,271，表明有几个问题属于多个类别，对于当前问答系统来说非常具有挑战性（例如“1776年弗吉尼亚州第一任州长是谁？”同时具有显式和序数标签）。多个实体和关系。表3显示了TempQuestions中实体和关系的出现方式。使用Stanford NER[19]对实体进行标记，然后进行一轮人工检查（在检测到的实体中，36%是人物类型，30%是地点类型，17%是组织类型，17%是其他类型）。关系标记是由专家手动完成的，因为像Saha等人[24]执行自动关系（事实）提取的当前系统远未达到完美。值得注意的是，有几个问题涉及多个实体（205个）和关系（145个）。0研讨会：首届混合结构和非结构化知识问答国际研讨会（HQA'18）WWW 2018年4月23日至27日，法国里昂10610表1：TempQuestions的代表性示例。0属性问题0按问题类型分割0明确“2008年得克萨斯州的获胜者是谁？”时间“1979年后伊朗有什么样的政府？”0隐含“肯尼迪遇刺后谁成为总统？”时间“公牛队之后迈克尔∙乔丹为哪个球队效力？”0时间“尼克斯队在哪些年获得了冠军？”回答“联合国是什么时候成立的？”0序数“巴克内尔斯队的第一任教练是谁？”约束“安迪∙威廉姆斯的第二任妻子是谁？”0按问题概念分割0多实体“法国在1763年的巴黎条约中输给了英国什么？”“奥克兰突袭者队上一次赢得超级碗是什么时候？”0多关系“当阿尔弗雷德∙荣格获得最佳艺术指导奖时，谁获得了最佳男配角奖？”“乔治∙奥威尔在1945年出版了哪本书？”0按问题来源分割0Free917[10]“空速牛津飞机首次飞行是在什么时候？”“1981年丹尼∙德维托获得了什么奖项？”0WQ[7]“欧元之前法国的货币是什么？”“2012年朱莉娅∙罗伯茨嫁给了谁？”0CQ[5]“越南战争开始时谁是美国总统？”“公牛队之后迈克尔∙乔丹为谁效力？”0表2：按来源分布的问题类型。总数大于1,271，因为一些问题有多个标签。0问题标签 Free917 WQ CQ 总计0显式时间 41 344 222 607 隐式时间 3 81 125 209时间答案 88 254 51 393 序数约束 18 111 26 1550总计 150 790 424 1,3640表3：问题中实体和关系的分布。0属性 0 1 2 3 总计0#问题实体 5 1,061 201 4 1,271 #问题关系 0 1,126145 0 1,2710在TempQuestions中（表1中的示例）。多关系和多实体问题对语义解析更加困难[7]，并反映了语义组合性。大多数当前的KB-QA系统都是0表4：AQQU和QUINT在TempQuestions和WebQuestions上的性能。0基准方法精确率召回率 F-Score0TempQuestions AQQU 24 . 6 48 . 0 27 . 2 QUINT 27 . 352 . 8 30 . 00WebQuestions AQQU 49 . 8 60 . 4 49 . 4 QUINT 52 . 160 . 3 51 . 00设计用于单实体单关系问题，需要新的技术来处理我们的资源中的问题。一个没有命名实体的问题的例子是“2015年最富有的人是谁？”。最后，我们展示了时间信号的分布方式：之前（49个问题），之后（28个问题），重叠（435个问题）和序数（156个问题）。信号词可能表明需要对问题进行分解、重写和单独处理每个子问题。正如前面讨论的（第1节），这是另一个需要克服的关键挑战，如果QA系统要回答复杂的时间问题。重叠信号的问题数量增加（表示时间持续或间隔）指向了增加的困难程度。04.2性能0我们现在评估两个最先进的KB-QA系统AQQU [6]和QUINT[1]在TempQuestions上的表现，使用Freebase作为后端KB。AQQU使用远程监督和学习排序技术，在几个生成的SPARQL候选项中找到要在KB上执行的最佳查询，并依赖一组手工编码的查询模板进行语义解析。QUINT消除了对手工编码模板的依赖，仅通过用户问题与其答案配对自动学习问题-查询模板。结果显示在表4中，其中显示了TempQuestions的数字，并与WebQuestions（WQ）进行对比。这些系统设计用于标准KB-QA，因此在我们的新基准上表现明显较差。从F1分数约为27-30%可以看出，而WQ的F1分数约为50.0%。这呼吁为处理时间意图的更好系统，同时解决组合性和推理约束带来的挑战。表5显示了按问题类别的详细结果。总体观察是，虽然所有类别的性能都较差，但具有隐式时间表达式的问题尤其具有挑战性。05个相关资源0已经提出了多个KB-QA的数据集，这些数据集在底层KB（DBpedia或Freebase）、大小（几百到几千）和涉及的问题现象（简单、组合和/或带有条件的问题等）上有所不同[1, 5, 7, 9, 10, 29,31]。我们将读者引用到Diefenbach等人的文章[12]以获取更多详细信息。复杂问题的基准测试仍然是临时的，并且处于初级阶段。QALD [29,31]是一个关于链接数据的QA的系列评估活动，并每年发布数据集以评估KB-QA系统。到目前为止，已经提出了七个挑战。0赛道: 第一届混合结构和非结构化知识问题回答国际研讨会(HQA'18) WWW 2018, 2018年4月23日至27日, 法国里昂AQQU27.660.731.112.934.914.526.133.527.428.457.432.7QUINT29.360.932.625.654.427.025.238.227.321.354.926.110620表5: AQQU和QUINT在TempQuestions上按问题类型分段的详细性能.0类型显式时间隐式时间时间答案序数约束0方法精确度召回率 F-Score 精确度召回率 F-Score 精确度召回率 F-Score 精确度召回率 F-Score0QALD中的问题涵盖了许多有趣的现象，如聚合、计数和附加条件(例如，“哪些德国城市有超过250000名居民?”)。然而，主要缺点是规模非常小(50-250个问题)。最近，Abujabal等人[1]发布了150个与Freebase上的答案配对的问题。虽然该数据集中的所有问题都包含多个实体/关系，但底层的SPARQL查询仍然只需要在单个变量上进行连接。问题是使用WikiAnswers的公共爬行收集的，这是一个大型的社区撰写的自然语言问题语料库。WebQuestions(WQ)[7]和SimpleQuestions[9]数据集包含大多数简单的事实型问题，例如“古巴说什么语言?”，但也有少数例外。虽然WQ[7]中的问题只与答案配对，但在Bordes等人[9]的研究中，它们通过SPARQL查询得到了改进。Bao等人[5]发布了一个新的数据集，其中包含与Freebase上的复杂问题配对的答案(2100个问题-答案对)。LC-QuAD数据集[28]包含5000个问题及其在DBpedia上的SPARQL查询。LC-QuAD中的问题表现出很高的语法和结构变异。这些问题是使用一组手写模板生成的，这些模板将SPARQL查询转化为语言表达，然后由人类进行纠正和改写。06 结论和未来工作0我们发布了TempQuestions，一个用于时间问题回答的新基准，其中包含1271个问题-答案对。由于答案是文本形式，该资源适用于在知识库、自由文本或混合源上进行回答。问题附带有用的标记，如问题类型和信号，以便进行详细的系统分析。为了促进后续研究，我们提供了两个最先进系统在TempQuestions上的结果，并经过深入的审查，显示出这个基准对于当前的知识库问答系统来说特别具有挑战性。作为额外的贡献，我们提供了时间问题的具体定义。最后，通过这个基准，我们呼吁社区构建能够处理时间意图、组合性和基于约束推理等开放挑战的问答系统。0参考文献0[1] Abdalghani Abujabal, Mohamed Yahya, Mirek Riedewald, and GerhardWeikum. 2017. 针对知识图谱的问题回答的自动模板生成. 在WWW上. [2] EugeneAgichtein, David Carmel, Dan Pelleg, Yuval Pinter, and Donna Harman. 2015. TREC2015 LiveQA赛道概述. 在TREC上. [3] James F. Allen. 1983. 关于时间间隔的知识维护.Comm. ACM (1983). [4] Omar Alonso, Michael Gertz, and Ricardo Baeza-Yates.2007. 时间信息在信息检索中的价值. 在ACM SIGIR Forum上. [5] Junwei Bao, NanDuan, Zhao Yan, Ming Zhou, and Tiejun Zhao. 2016. 基于约束的知识图谱问答.在COLING上. [6] Hannah Bast and Elmar Haussmann. 2015.在Freebase上更准确的问题回答. 在CIKM上.0[7] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. 2013.从问题-答案对中在Freebase上进行语义解析. 在EMNLP上. [8] Branimir Boguraev,Siddharth Patwardhan, Aditya Kalyanpur, Jennifer Chu-Carroll, and Adam Lally.2014. 事实型问题的并行和嵌套分解. Natural Language Engineering (2014). [9]Antoine Bordes, Nicolas Usunier, Sumit Chopra, and Jason Weston. 2015.基于记忆网络的大规模简单问题回答. 在arXiv上(2015). [10] Qingqing Cai and AlexanderYates. 2013. 通过模式匹配和词典扩展进行大规模语义解析. 在ACL上. [11] Angel X.Chang and Christopher D. Manning. 2012. SUTime: 用于识别和规范化时间表达式的库.在LREC上. [12] Dennis Diefenbach, Vanessa Lopez, Kamal Singh, and Pierre Maret.2017. 知识库上的问答系统的核心技术: 一项调查. 在Knowledge and Informationsystems上. [13] Aditya Kalyanpur等人. 2012. DeepQA中的结构化数据和推理. IBMJournal of Research and Development (2012). [14] David A. Ferrucci等人. 2012.这就是Watson. IBM Journal of Research and Development 56 (2012). Issue 3/4. [15]Aditya Kalyanpur, Siddharth Patwardhan, BK Boguraev, Adam Lally, and JenniferChu-Carroll. 2012. DeepQA中的基于事实的问题分解. IBM Journal of Research andDevelopment (2012). [16] Erdal Kuzey, Vinay Setty, Jannik Strötgen, and GerhardWeikum. 2016. 随着时间的推移: 对文本短语进行全面标记的时间范围. 在WWW上. [17]Ken Litkowski. 2014. 英语介词模式词典. 在ACL上. [18] Ken Litkowski and OrinHargraves. 2006. 介词项目中的覆盖和继承. 在SIGSEM上. [19] Christopher D. Manning,Mihai Surdeanu, John Bauer, Jenny Finkel, Steven J. Bethard, and David McClosky.2014. 斯坦福CoreNLP自然语言处理工具包. 在ACL上. [20] Donald Metzler, Rosie Jones,Fuchun Peng, and Ruiqiang Zhang. 2009. 改进隐含时间查询的搜索相关性. 在SIGIR上.[21] Anselmo Peñas, Christina Unger, Georgios Paliouras, and Ioannis Kakadiaris.2015. CLEF问答赛道2015概述. 在CLEF上. [22] James Pustejovsky, Robert Knippen,Jessica Littman, and Roser Saurí. 2005. 自然语言文本中的时间和事件信息. 在LREC上.[23] Deepak Ravichandran and Eduard Hovy. 2002. 为问答系统学习表面文本模式.在ACL上. [24] Swarnadeep Saha, Harinder Pal, and Mausam. 2017. 数值开放IE的引导.在ACL上. [25] Andrea Setzer. 2002. 新闻文章中的时间信息: 注释方案和语料库研究.博士学位论文. 谢菲尔德大学. [26] Jannik Strötgen and Michael Gertz. 2015.适用于所有语言的基线时间标记器. 在EMNLP上. [27] Jannik Strötgen and MichaelGertz. 2016. 领域敏感的时间标记. Morgan & Claypool Publishers. [28] PriyanshTrivedi, Gaurav

下载后可阅读完整内容，剩余1页未读，立即下载