重复造轮子：共建问答系统

86 浏览量更新于2023-10-16 收藏 12.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12470为什么要重复造轮子——让我们一起构建问答系统0Kuldeep Singh University of Bonn& Fraunhofer IAIS, Germanykuldeep.singh@iais.fraunhofer.de0Arun Sethupat RadhakrishnaUniversity of Minnesota, USAsethu021@umn.edu0Andreas Both DATEV eG,Germanycontact@andreasboth.de0Saeedeh ShekarpourUniversity of Dayton,Dayton, USAsshekarpour1@udayton.edu0Ioanna Lytra University of Bonn& Fraunhofer IAIS, Germanylytra@cs.uni-bonn.de0Ricardo Usbeck University ofPaderborn, Germanyricardo.usbeck@uni-paderborn.de0Akhilesh Vyas University of Bonn& Fraunhofer IAIS, Germanyakhilesh.vyas@iais.fraunhofer.de0Akmal Khikmatullaev Universityof Bonn & Fraunhofer IAIS,Germanyakmal.khikmatullaev@gmail.com0Dharmen Punjani Universityof Athens, Greecedharmen.punjani@gmail.com0Christoph Lange University ofBonn & Fraunhofer IAIS,Germanychristoph.lange@uni-bonn.de0Maria Esther Vidal LeibnizInformation Centre For Scienceand Technology University Library& Fraunhofer IAIS, Germanymaria.vidal@tib.eu0Jens Lehmann University of Bonn& Fraunhofer IAIS, Germanyjens.lehmann@iais.fraunhofer.de0Sören Auer Leibniz InformationCentre For Science andTechnology University Library &University of Hannover, Germanysoeren.auer@tib.eu0摘要现代问答（QA）系统需要灵活地集成多个专门用于完成QA流水线中特定任务的组件。关键的QA任务包括命名实体识别和消歧、关系抽取和查询构建。由于存在许多不同的软件组件，每个组件实现了这些任务的不同策略，因此在给定问题的特征的情况下，选择和组合最合适的组件构建QA系统是一个重大挑战。我们研究了这个优化问题，并训练了分类器，该分类器以问题的特征作为输入，并以优化基于这些特征的QA组件的选择为目标。然后，我们设计了一种贪婪算法，用于识别包含合适组件并能够有效回答给定问题的流水线。我们在Frankenstein中实现了这个模型，Frankenstein是一个能够选择QA组件并组合QA流水线的QA框架。我们进行了评估0本文根据知识共享署名4.0国际（CC BY4.0）许可证发布。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW 2018，2018年4月23日至27日，法国里昂，©2018IW3C2（国际万维网会议委员会），根据创作共用CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860230通过使用QALD和LC-QuAD基准测试评估了Frankenstein生成的流水线的有效性。这些结果不仅表明Frankenstein精确地解决了QA优化问题，还能够实现优化QA流水线的自动组合，其性能优于静态基线QA流水线。由于这种灵活且完全自动化的流水线生成过程，可以轻松地将新的QA组件包含在Frankenstein中，从而提高生成的流水线的性能。0CCS概念0• 计算方法学 → 自然语言处理；知识表示和推理；0关键词0问答，软件可重用性，语义Web，语义搜索，QA框架01 引言0最近，基于知识图谱中编码的信息回答问题引起了研究界的广泛关注。自2010年以来，已经开发了超过62个用于在数据网络上回答问题的系统[12]。这些系统通常包括基于人工智能的组件。0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France2Track: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France12480问题0加拿大的首都是什么？0苏格拉底影响亚里士多德吗？0特斯拉在物理学方面获得了诺贝尔奖吗？0DBpediaSpotlight0Tag Me0ReMatch0Aylien0RelMatch0SINA0NLIWOD QB0NED RL QB0布鲁克林大桥横跨哪条河流？0SPARQL查询0SELECT DISTINCT ?uri WHERE{dbr:Canada dbo:capital ?uri .}0ASK WHERE {dbr:Socrates dbo:influenceddbr:Aristotle .}0ASK WHERE {dbr:Nikola_Tesla dbo:awarddbr:Nobel_Prize_in_Physics .}0SELECT DISTINCT ?uri WHERE {dbr:Brooklyn_Bridgedbo:crosses ?uri .}0P1 P2 P3 P40Q10Q20Q30Q40图1：由三个NED、两个RL和两个QB组件组成的不同流水线成功回答了四个自然语言问题。每个问题的最佳流水线已突出显示。0自然语言处理和语义技术；它们实现了常见的任务，如命名实体识别和消歧、关系抽取和查询构建。评估研究表明，没有一个最佳的QA系统适用于所有类型的自然语言（NL）问题；相反，有证据表明，实施不同策略的某些系统更适合某些类型的问题[22]。因此，现代QA系统需要灵活地集成多个专门完成QA流水线中特定任务的组件。基于这些观察，我们设计了Frankenstein，一个能够动态选择QA组件以利用组件的特性来优化F-Score的框架。Frankenstein实现了基于分类的学习模型，根据问题的特征估计QA组件的性能。给定一个问题，Frankenstein框架实现了一种贪婪算法，为该问题生成一个QA流水线，该流水线由最佳性能的组件组成。我们使用来自QuestionAnswering over Linked Data Challenge1（QALD）和Large-Scale Complex Question AnsweringDataset2（LC-QuAD）的两个著名基准来对Frankenstein的性能进行实证评估。我们观察到Frankenstein能够组合QA组件以产生优化的QA流水线，优于静态的基准流水线。总之，我们提供了以下贡献：●基于机器学习技术的Frankenstein框架，用于动态选择合适的QA组件并根据输入问题组合QA流水线，从而优化整体的F-Score。●一个包含29个可重用的QA组件的集合，可以组合生成360个不同的QA流水线，集成在Frankenstein框架中。●对QA组件在QA流水线中的优点和缺点进行深入分析，经过对QALD和LC-QuADQA基准中3000多个问题的性能进行彻底基准测试后，对Frankenstein流水线生成器的性能进行了全面评估。通过这项工作，我们预计会出现一类新的QA系统。目前，QA系统是针对特定领域（主要是常识）和背景知识源进行定制的01 https://qald.sebastianwalter.org/index.php?x=home&q=5 2http://lc-quad.sda.tech/0（最常见的是DBpedia[1]）和基准数据（最常见的是QALD）。基于Frankenstein，可以构建更灵活、领域无关的问答系统，并快速适应新的领域。本文的剩余部分结构如下：我们在第2节介绍了我们工作的动机。在第3节中讨论了所解决的问题以及提出的解决方案，第4节介绍了Frankenstein的详细信息。第5节描述了训练数据集的准备，第6节评估了组件的性能。第7节报告了Frankenstein问答流水线的经验评估，第8节进行了后续讨论。第9节回顾了相关工作，最后在第10节讨论了结论和未来工作的方向。02 激励示例0大量组件执行QA任务-无论是作为QA系统的一部分还是独立的[26]。表1列出了几个QA组件，实现了由(i) DBpedia Spotlight [18]，(ii)Aylien API 3和(iii) Tag Me API[8]实现的QA任务NED（命名实体消歧）），由(i) ReMatch[20]和(ii) RelMatch [15]实现的RL（关系链接））以及由(i) SINA[23]和(ii) NLIWOD QB4）实现的QB（查询构建）。例如，给定问题“加拿大的首都是什么？”，理想的NED组件应该将关键字“加拿大”识别为命名实体并将其映射到相应的DBpe- dia资源，即dbr:Canada5。然后，执行RL的组件在给定的问题中找到嵌入的关系并将其链接到底层知识图的适当关系。在我们的例子中，关键字“capital”被映射到关系dbo:capital6。最后，QB组件生成一个形式化查询（例如用SPARQL表示），该查询从相应的知识图中检索所有答案（即SELECT ?c {dbr:Canadadbo:capital?c.}）。表1给出了列出的组件在QALD-5基准测试中的精确度、召回率和F-Score（参见[30]和第5.1节）。我们观察到，DBpediaSpotlight、ReMatch和NLIWODQB分别在NED、RL和QB任务中取得了最佳性能。03 http://docs.aylien.com/docs/introduction 4组件基于https://github.com/dice-group/NLIWOD和[29]。5前缀dbr绑定到http://dbpedia.org/resource/。6前缀dbo绑定到http://dbpedia.org/ontology/。DBpedia SpotlightNED0.670.760.71Aylien APINED0.600.660.63Tag Me APINED0.470.570.52ReMatchRL0.540.740.62RelMatchRL0.100.190.13SINAQB0.380.410.39NLIWOD QBQB0.490.500.49312490（参见第6节了解详细信息）。当QA组件集成到QA流水线中时，流水线的整体性能取决于每个组件的个别性能。事实上，某个组件在给定一组问题上的某个任务上表现出优越性能并不意味着该组件在所有类型的问题上都表现出优越性能。也就是说，组件的性能因问题类型而异。0表1：QA组件在QALD-5基准测试中实现各种QA任务的性能。0QA组件 QA任务精确度召回率 F-Score0表1中的性能值是对整个查询库进行平均的。它们不代表组件在各种输入问题的特定性能。例如，图1说明了四个示例输入问题的最佳性能QA流水线。我们观察到，流水线P1在回答问题Q1：“加拿大的首都是什么？”方面效率最高，但无法回答问题Q4：“布鲁克林大桥横跨哪条河流？”这是因为流水线P1中的RL组件ReMatch未能正确映射Q4中的关系dbo:crosses给定的关键字“cross”，而RelMatch正确映射了该关系。尽管ReMatch在QALD-5上的整体精确度高于RelMatch，但对于Q4，RelMatch的性能更高。同样，对于问题Q2“苏格拉底影响了亚里士多德吗？”，流水线P2提供了所需的答案，而无法回答类似的问题Q3“特斯拉在物理学方面获得了诺贝尔奖吗？”尽管问题Q2和Q3具有相似的结构（即布尔型答案类型），但DBpediaSpotlightNED成功地解决了问题Q2，但在问题Q3中未能消除资源dbr:Nobel_Prize_in_Physics的歧义。与此同时，TagMe可以成功完成NED任务。尽管可以通过执行所有可能的流水线来实验性地确定给定问题的最佳流水线，但这种方法是昂贵的，甚至在实践上是不可能的，因为覆盖所有潜在的输入问题是不可行的。因此，需要一种启发式方法来确定给定输入问题的最佳流水线。03问题陈述0完整的QA流水线由所有必要的任务组成，将用户提供的自然语言（NL）问题转换为形式语言（例如SPARQL）的查询，其评估从底层知识图中检索所需的答案。正确回答给定的输入问题q需要一个QA流水线，理想情况下，使用那些为回答q提供最佳精确度和召回率的QA组件。为了确定给定问题q的最佳执行QA流水线，需要：（i）预测机制来预测给定问题q的组件的性能，（ii）通过集成最准确的组件来组合优化的流水线的方法。0任务和知识图λ；（ii）通过集成最准确的组件来组合优化的流水线的方法。03.1预测最佳执行组件0在这个背景下，我们正式定义一组必要的QA任务为�={t1,t2,...,tn}，例如NED、RL和QB。每个任务(ti∶q�→q+)将给定的问题q�的表示转换为另一个表示q+。例如，NED和RL任务将输入表示“What is thecapital of Canada?”转换为表示“What is the dbo:capital ofdbr:Canada?”。整个QA组件集合由�={C1,C2,...,Cm}表示。每个组件Cj解决一个单一的QA任务；θ(Cj)对应于由Cj实现的�中的QA任务ti。例如，ReMatch实现了关系链接的QA任务，即θ(ReMatch)=RL。设ρ(Cj)表示QA组件的性能，那么我们的第一个目标是预测给定问题q�、任务ti和底层知识图λ的QA组件的性能ρ(Cj)的可能性。这表示为Pr(ρ(Cj)��q�, ti,λ)。在这项工作中，我们假设只有一个知识图（即DBpedia）；因此，λ被视为不影响可能性的常数参数，导致：0Pr(ρ(Cj)��q�, ti) = Pr(ρ(Cj)��q�, ti, λ) (1)0此外，对于每个单独的任务ti和问题表示q�，我们预测所有相关组件的性能。换句话说，对于给定的任务ti，能够完成ti的组件集合是�ti={Cj,...,Ck}。因此，我们将ti分解如下：0�Cj∈�ti，(�Pr(ρ(Cj)��q�) = Pr(ρ(Cj)��q�, ti)�� (2)0此外，我们假设给定的表示q�对于所有QA组件都等于初始输入表示q，即q�=q。最后，找到最佳执行任务ti的组件来完成输入问题q，表示为γtiq，如下所示：0γtiq = arg max Cj∈�ti {Pr(ρ(Cj)��q)} (3)0解决方案。假设我们有一组带有每个组件在每个任务中性能详细结果的NL问题�。然后，我们可以将预测目标Pr(ρ(Cj)��q,ti)建模为一个训练集上的监督学习问题，即一组问题�和一组标签�，表示对于问题q和任务ti，组件Cj的性能。换句话说，对于每个单独的任务ti和组件Cj，目的是训练一个监督模型，该模型预测给定问题q和任务ti的给定组件Cj的性能，利用训练集。如果��=n，并且每个任务由m个组件执行，则需要构建n×m个单独的学习模型。此外，由于输入问题q∈�具有文本表示，因此需要自动提取合适的特征，即�(q)=(f1,...,fr)。特征提取过程的详细信息在第5.2节中介绍。03.2识别最优QA流水线0第二个问题涉及找到一个最佳执行QA组件流程ψgoalq，用于问题q和称为goal的一组QA任务。形式上，我们将这个优化问题定义如下：0ψgoalq = arg max η ∈�(goal) { Ω(η, q) } (4)0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France7https://dandelion.eu/docs/api/datatxt/nex/getting-started/8Component based on https://github.com/dice-group/NLIWOD.9This component is the combination of the NLIWOD and RL components of [15].OSQBOSRLOSNEDOSQBOSRLOSNED4.1Frankenstein ArchitectureFigure 3 depicts the Frankenstein architecture. Frankensteinreceives, as input, a natural language question as well as a goalconsisting of the QA tasks to be executed in the QA pipeline. Thefeatures of an input question are extracted by the Feature Extractor;afterwards the QA Component Classifiers predict best performingcomponents per task for the given question; these components arepassed to the Pipeline Generator, which generates best performingpipelines to be executed, eventually, by the Pipeline Executor. TheFrankenstein architecture comprises the following modules:Feature Extractor. This module extracts a set of features from aquestion. Features include question length, question and answertypes, and POS tags. Features are discussed in Section 5.2.QA Components. Frankenstein currently integrates 29 QA com-ponents implementing five QA tasks, namely Named Entity Recog-nition (NER), Named Entity Disambiguation (NED), Relation Link-ing (RL), Class Linking (CL), and Query Building (QB). To the bestof our knowledge, only two reusable CL and QB components, andfive reusable RL components are available, therefore the componentdistribution among tasks is uneven. In most of the cases NED, RLand QB components are necessary to generate the SPARQL queryfor a NL question. However, to correctly generate a SPARQL queryfor certain NL questions, it is sometimes necessary to also disam-biguate classes against the ontology. For example, in the question412500其中�(goal)表示实现goal的QA组件流程的集合，Ω(η,q)对应于问题q上流程η的估计性能。0解决方案。我们提出了一种贪婪算法，依赖于优化原则，该原则指出对于目标和问题q，最佳执行流程ψgoalq由实现目标任务的最佳执行组件组成。假设⊕表示QA组件的组合，则最佳执行流程ψgoalq定义如下：0ψgoalq := ⊕ ti ∈ goal { γtiq } (5)0提出的贪婪算法分为两个步骤：QA组件选择和QA流程生成。在算法的第一步中，将目标中的每个任务ti单独考虑，以确定最佳的执行ti的QA组件，即γtiq。对于每个ti，根据通过学习解决方程3描述的问题的监督模型预测的性能，创建一个基于性能的有序QA组件集合。图2说明了问题q =“加拿大的首都是什么？”和目标={NED，RL，QB}的QA组件选择步骤。算法为目标中的每个任务ti创建了一个有序的QA组件集合OS ti。在每个OSti中，根据由针对具有特征�(q)和任务ti的问题进行训练的监督方法预测的性能函数ρ(.)的值进行排序；在我们的例子中，�(q) ={(QuestionType：What)，(AnswerType：String)，(#words：6)，(#DT：1)，(#IN：1)，(#WP：1)，(#VBZ：1)，(#NNP：1)，(#NN：1)}表示q是一个WHAT问题，其答案是一个字符串；此外，q有六个单词和词性标签，如限定词、名词等。基于这些信息，算法创建了三个有序集合：OS NED，OS RL和OS QB。OSNED中的顺序表示Dandelion 7、Tag Me和DBpediaSpotlight是具有特征�(q)的查询的前3个最佳执行QA组件；类似地，对于OS RL和OSQB。在第二步中，算法遵循方程5中的优化原则，组合每个有序集合的前ki个最佳执行QA组件。ki的值可以配置；然而，我们经验性地观察到，对于所有研究的问题类型和任务，只有关系链接（RL）任务需要考虑前3个最佳执行QA组件；对于其他任务，只需考虑前1个最佳执行QA组件即可确定最佳执行流程。一旦为每个有序集合选择了前ki个QA组件，算法构建一个QA流程并检查生成的流程是否能够产生非空答案。如果是，则将生成的QA流程添加到算法输出中。在方程5中，算法发现只有QA流程Dandelion、ReMatch和SINA能够产生结果；其他两个流程失败，因为QA组件RNLIWOD 8和Spot Property9无法执行问题q=“加拿大的首都是什么？”的关系链接任务。当组合和检查了前ki个QA组件后，算法结束；输出是产生非空答案的最佳执行QA流程的并集。0问题类型：What答案类型：String#单词数：6 #NN：1，...0第一步：QA组件选择01. Dandelion02. Tag Me03. DBpedia Spotlight01. Spot Property02. ReMatch03. RNLIWOD01. SINA02. NLIWOD QB0第二步：QA流水线生成0问题：加拿大的首都是什么？0目标：{NED, RL, QB}0问题特征01. Dandelion02. Tag Me03. DBpedia Spotlight01. Spot Property02. ReMatch03. RNLIWOD01. SINA02. NLIWOD QB0�0�0�0图2：QA优化流水线算法。该算法分为两个步骤：首先，单独考虑QA组件；使用监督方法预测每个任务和问题特征的前k个最佳执行QA组件。其次，从NED和QB任务的最佳执行QA组件以及RL的前3个QA组件生成QA流水线。由Dandelion、ReMatch和SINA组成的QA流水线成功回答了q。04 FRANKENSTEIN框架0Frankenstein是一个实现QA优化流水线算法的框架，根据输入的问题特征和QA目标生成最佳执行的QA流水线。0Track：Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France............12http://lc-quad.sda.tech/13https://qald.sebastianwalter.org/index.php?x=home&q=5512510最佳QA组件0DBpedia Spotlight0Aylien0AGDISTIS0TagMe0ReMatch0RelMatch0OKBQA DM0SINA0QA组件0特征提取器0自然0语言问题0答案组件0选择器0FRANKENSTEIN0NED0组件0RL0组件0CL0组件0QB0组件0流水线执行器0流水线生成器0QA流水线优化器0NED分类器 RL分类器 CL分类器 QB分类器0QA组件分类器0最佳QA流水线0QB RL NED0NLIWOD CLS NLIWOD QB0目标0图3：Frankenstein架构，包括用于问题特征提取、流水线生成和优化以及流水线执行的单独模块。0“由BillFinger绘制的漫画角色有哪些”，“漫画角色”需要映射到dbo:ComicsCharacter10。表2提供了Frankenstein中集成的QA组件列表。11个NER组件与AGDISTIS一起用于消除实体的歧义，因为AGDISTIS需要问题和实体的识别位置作为输入[32]。因此，对NER工具的任何引用都将指其与AGDISTIS的组合，并且我们已经排除了NER组件的个别性能分析。然而，其他7个NED组件直接从输入问题中识别和消除实体。因此，Frankenstein有18个NED、5个RL、2个CL、2个QB组件。QA组件分类器。对于每个QA组件，都训练了一个单独的分类器；它从问题的一组特征中学习，并预测所有相关组件的性能。QA流水线优化器。流水线优化由两个模块执行。组件选择器根据输入特征和QA组件分类器的结果选择最佳执行给定任务的组件；然后将所选的QA组件传递给流水线生成器，以动态生成相应的QA流水线。流水线执行器。该模块执行为输入问题生成的流水线，以从知识库（在我们的案例中是DBpedia）中提取答案。04.2实现细节Frankenstein的代码，包括所有29个集成组件和实证研究结果，可以在我们的开源GitHub存储库11中找到。QA组件在Frankenstein中的集成作为一种松耦合架构，基于以下指导原则：（a）可重用性（框架应作为开源软件提供），（b）QA组件之间的互操作性，（c）灵活性（在QA流程的任何步骤中轻松集成组件），以及（d）隔离性（组件是独立的）。010 http://dbpedia.org/ontology/ComicsCharacter11 https://github.com/WDAqua/Frankenstein0彼此之间的实现并提供可交换的接口）。我们研究了OKBQA[15]、openQA [17]、Qanary [4, 25]和QALL-ME[9]的实现；据我们所知，只有Qanary能够满足上述指导原则。与单体QA系统不同，组件的输出不直接传递给QA过程中的下一个组件，Qanary通过qa词汇定义的抽象级别在每个步骤之后增强知识库。因此，组件之间变得独立，并且可以通过配置轻松交换。29个新组件与Qanary方法在Frankenstein中的集成是使用Java8实现的。其余的Frankenstein模块是使用Python 3.4实现的。05 语料库创建0在本节中，我们描述了我们研究中使用的数据集以及我们如何为我们的分类实验准备训练数据集。所有实验都在10台虚拟服务器上执行，每台服务器有8个核心，32 GB RAM和Ubuntu16.04.3操作系统。我们花了22天的时间通过执行考虑数据集的问题来生成训练数据，对于所有28个组件，一些工具（例如ReMatch[20]和RelationMatcher[27]）分别需要大约120秒和30秒来处理每个问题。05.1 数据集描述在我们的实验中，我们使用了大规模复杂问答数据集12（LC-QuAD）[28]以及第五届链接数据问答挑战赛130(QALD-5)数据集[30]。LC-QuAD有5000个用自然语言表达的问题，以及它们的形式表示（即SPARQL查询），这些查询可以在DBpedia上执行。就目前的技术水平而言，这是QA社区在链接数据上可用的最大基准。我们0跟踪：Web内容分析，语义和知识 WWW 2018年4月23日至27日，法国里昂14https://dbpedia.org/sparql15http://nlp.stanford.edu:8080/parser/6Track: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France12520表2：Frankenstein集成的29个QA组件：8个QA组件不可用作开源软件，25个提供RESTful服务API，19个附带同行评审的出版物。0组件/ QA 任务年份开放 RESTful 发布- 工具来源服务文献0实体分类器 [7] NER 2013 � � � Stanford NLP [10] NER 2005 � � �Ambiverse [11] i NER/NED 2014 � � � Babelfy [19] ii NER/NED 2014 � � �AGDISTIS [32] NED 2014 � � � MeaningCloud iii NER/NED 2016 � � �DBpedia Spotlight [18] NER/NED 2011 � � � Tag Me API [8] NER/NED2012 � � � Aylien API iv NER/NED - � � � TextRazor v NER - � � � OntoText[16] vi NER/NED - � � � Dandelion vii NER/NED - � � � RelationMatcher[27] RL 2017 � � � ReMatch [20] RL 2017 � � � RelMatch [15] RL 2017 � � �RNLIWOD viii RL 2016 � � � Spot Property [15] ix RL 2017 � � � OKBQADM CLS ix CL 2017 � � � NLIWOD CLS viii CL 2016 � � � SINA [23] QB 2013� � � NLIWOD QB viii QB 2016 � � �0i https://developer.ambiverse.com/ iihttps://github.com/dbpedia-spotlight/dbpedia-spotlight iiihttps://www.meaningcloud.com/developer ivhttp://docs.aylien.com/docs/introduction vhttps://www.textrazor.com/docs/rest vihttp://docs.s4.ontotext.com/display/S4docs/REST+APIs viihttps://dandelion.eu/docs/api/datatxt/nex/getting-started/ viii组件类似于https://github.com/dice-group/ NLIWOD的Relation Linker. ix组件类似于http://repository.okbqa.org/ components/7的Class Linker.0我们在DBpedia端点14上运行了整套SPARQL查询（于2017-10-02），发现只有3252个查询返回了答案。因此，我们在整个实验过程中依赖这3252个问题。QALD-5。在QALD挑战系列中，我们选择了第五版（QALD-5），因为它提供了最多的问题（350个问题）。然而，在实验阶段，ReMatch组件的远程Web服务崩溃了，我们只能为350个问题中的204个问题获得正确的结果。因此，我们考虑了这204个问题，以提供一个公平和可比较的设置（尽管我们为所有其他组件的350个问题获得了所有350个问题的结果）。05.2 准备训练数据集0由于我们必须为每个组件构建一个单独的分类器，以预测该组件的性能，因此需要为每个组件准备一个单一的训练数据集。训练数据集中的整个样本集是通过使用先前描述的数据集中包含的NL问题形成的0（来自QALD和LC-QuAD）。为了获得NL问题的抽象和具体表示，我们提取了以下主要特征。（1）问题长度：Blunsom等人[3]在2006年引入了问题长度（即单词数）作为词汇特征。在我们的运行示例“加拿大的首都是什么？”中，该特征的数值为6。（2）问题词：Huang等人[13，14]将问题词（“wh-headword”）视为问题分类的单独词汇特征。如果问题中存在特定的问题词，我们将其赋值为1，其余问题词赋值为0。我们适应了7个Wh-words：“what”，“which”，“when”，“where”，“who”，“how”和“why”。在“加拿大的首都是什么？”中，“What”被赋值为1，其他所有词被赋值为0。（3）答案类型：此特征集有三个维度，即“布尔”，“列表/资源”和“数字”。这些维度确定了预期答案的类别[22]。在我们的运行示例中，我们为此维度分配了“列表/资源”，因为预期答案是资源dbr:Ottawa。（4）POS标签：词性标签被认为是一个独立的句法问题特征，可以影响QA系统的整体性能[3]。我们使用Stanford Parser15来识别POS标签，其中出现次数被视为问题特征提取中的一个独立维度。我们从LC-QuAD和QALD准备了两个单独的数据集。我们采用了[6]和[27]中提出的方法来创建QA流水线的后续步骤的基准。此外，准确性指标是微观F-Score（F-Score），它是微观精确度和微观召回率的调和平均值。因此，对于给定组件的训练数据集的标签集是通过测量每个给定问题的微观F-Score（F-Score）来设置的。06 评估组件性能0这个实验的目的是评估组件在微观和宏观层面上的性能，然后训练一个分类器来准确预测每个组件的性能。0度量标准。i）回答的问题：QA流水线返回答案的问题数量。ii）微精度（MP）：组件对特定问题检索到的正确答案与总答案数量的比率。iii）精度（P）：对于给定的组件，所有问题的微精度的平均值。iv）微召回（MR）：对于每个问题，组件检索到的正确答案与给定问题的标准答案数量。v）召回率（R）：对于给定的组件，所有问题的微召回的平均值。vi）微F-Score（F-Score）：对于每个问题，MP和MR的调和平均值。vii）宏F-Score（F）：对于每个组件，P和R的调和平均值。QB

下载后可阅读完整内容，剩余1页未读，立即下载