面向常识知识抽取的高级语义

92 浏览量更新于2023-11-30 收藏 948KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2636面向常识知识抽取的高级语义阮端丰马克斯·普朗克信息学研究所tuanphong@mpi-inf.mpg.de西蒙·拉兹涅夫斯基马克斯·普朗克信息学研究所srazniew@mpi-inf.mpg.de格哈德·魏库姆马克斯·普朗克信息学研究所weikum@mpi-inf.mpg.de摘要关于概念及其属性的常识知识（CSK）对于AI应用程序（例如健壮的聊天机器人）是有用的像ConceptNet、TupleKB和其他人这样的先前工作编译了大型CSK集合，但是在它们的表达性方面受限于具有用于S的简单概念的主语-谓语-宾语（SPO）三元组和用于P和O的单体字符串。此外，这些项目要么优先考虑精确度，要么优先考虑召回率，但很难调和这些互补的目标。本文提出了一种方法，称为上升，自动建立一个大规模的知识库（KB）的CSK断言，先进的表达能力和更好的精度和召回比以前的作品。Ascent通过捕获具有子组和方面的复合概念，并通过使用语义方面精炼断言，超越了三元组后者对于表示断言和进一步限定符的时间和空间有效性是重要的。 Ascent将开放信息提取与明智的清理使用语言模型相结合。内在评估显示了Ascent知识库的卓越规模和质量，而QA支持任务的外在评估强调了Ascent的好处可以在https://www.mpi-inf.mpg.de/ascent上找到Web界面、数据和代码。ACM参考格式：阮端丰，西蒙·拉兹涅夫斯基，格哈德·魏库姆。2021年面向常识知识抽取的高级语义在网络会议2021（WWW '21）的会议记录，2021年4月19日至23日，斯洛文尼亚卢布尔雅那。 ACM ，纽约州纽约市，美国， 12 页。https://doi.org/10.1145/3442381。 34498271介绍动机常识知识（CSK）是人工智能的一个长期目标[14，26，33]：为机器提供关于日常概念及其属性的结构化知识（例如，大象很大并且吃植物，公共汽车运载乘客并且在道路上行驶）以及关于典型的人类行为和情感（例如，孩子们喜欢参观动物园，孩子们坐公共汽车上学）。近年来，对CSK断言的自动获取的研究已经大大地推进，并且已经构建了几个相当大规模的常识知识库（CSKB）（参见，例如，[35、46、53、55]）。CSK的用例特别包括以语言为中心的任务，诸如问答和会话系统（参见例如，[27、28、59]）。例如：问答系统通常需要CSK作为背景知识，以获得可靠的答案。例如，当一个孩子问系统本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3449827应该指出的是，i）恐龙已经灭绝了，ii）可以在博物馆看到，而不是在动物园。对话系统不应该仅仅从语言模型中生成似是而非的话语，而应该是情景化的，理解隐喻和隐含的上下文，避免错误。例如，当用户说“老虎很快就会加入恐龙的行列”时，机器应该理解这是指一种濒危物种，而不是活着的老虎入侵博物馆。本文的目标是提高CSK断言的自动获取能力，使其具有更好的表达能力、更高的准确率和更广的覆盖范围。最新技术水平及其局限性。像DBpedia、Wikidata或Yago这样的大型知识库主要关注个人实体（如人、地点等）的百科知识，和和在一般概念上是非常稀疏的[24]。关注CSK的著名项目包括ConceptNet [53]、WebChild [55]、Mosaic TupleKB [35]和Quasimodo [46]。它们都基于SPO三元组作为知识表示，并且具有主要缺点：S的表达性：作为主题，先前的CSKB强烈关注由单个名词表达的简单概念（例如，大象、汽车、行李箱）。这错过了语义细化（例如，柴油车对电动车）导致不同的特性（例如，污染对绿色），并且还易于出现词义消歧问题（例如，象鼻与汽车行李箱）。即使CSK获取考虑了多词短语，它仍然缺乏对概念之间语义关系的像WordNet或Wiktionary这样的上位词词典在多词概念上也非常稀疏。有了这些限制，词义消歧并不能很好地工作;先前的尝试最多显示出混合的结果（例如，[35，55]）。P和O的表达性谓词和对象被视为单体字符串，例如o A1：公共汽车，[用于]，[运送人];o A2：公共汽车，[用于]，[送孩子上学];o A3：公共汽车，[运载]，[乘客];o A4：公共汽车，[drop]，[周末动物园的这错过了断言A1和A3的等价性，并且不能捕获A1和A2之间的语义关系即A2精制A1。最后，A2和A4的空间方面被混杂在不相关的字符串中，并且A4中的时间方面也不是显式的。将P限制为少量预先指定的谓词的替代方案（例如，[53，55]）和O到非常短的短语是以低得多的覆盖率为代价的CSK断言的质量一些主要的CSK B具有先验精度（即，断言的有效性）但是具有相当有限的覆盖范围（例如，[35、53]。其他的有更广泛的覆盖面，但包括许多嘈杂的，如果不是难以置信的断言（例如，[46，55]）。很少有人注意到断言的显著性，即，陈述是常识的程度，如···2637··⟩⟨ ⟩ ⟨而不是仅仅捕获许多断言。按照这些方针开展的项目（例如，[47，53]）在覆盖面上有所不足。Ascent旨在克服先前作品的这些局限性，同时保留其积极的特征。特别是，我们的目标是调和高精度与广泛的覆盖面和显着性。像[35，46]一样，我们的目标是获得开放断言（而不是仅预先指定的谓词），但通过精炼主题和捕获断言的语义方面来争取更具表达力的表示。Approach. 我们提出了上升的方法获取CSK断言与先进的语义，从Web内容。Ascent分三个阶段运作：（一）源发现，（二）开放信息提取（OIE），（三）自动合并。在第一阶段中，Ascent针对给定的目标概念（例如“star”）生成搜索查询以检索相关页面。查询包括来自诸如WordNet之类的词典的上位词，这种方式覆盖了“star”的不同含义，同时区分了“star（名人）”（上位词为“人类”）与“star（天体）”（上位词为“自然物体”）的结果。通过嵌入相似性，与相应的维基百科文章进行比较，进一步审查结果在第二阶段，Ascent通过精心设计的基于依赖性解析的规则来收集OIE风格的元组，考虑到目标主题的子组和方面的断言，并通过共指解析来增加召回。提取器使用介词短语的线索来检测语义方面，并使用监督分类的八个方面类型。最后，在整合阶段，断言被迭代地分组，并通过基于快速word2vec相似性的过滤和基于微调的RoBERTa语言模型的分类的有效组合进行语义组织。我们运行Ascent，以10，000个常用概念作为目标主题。由此产生的CSKB显着优于自动建立的国家的最先进的CSK集合的显着性和召回。此外，我们进行了一个外在的评估，其中常识知识被用来支持语言模型的问题回答。Ascent在没有上下文的情况下显著优于语言模型，并且在这次评估中一直是得分最高的知识库之一。捐款. 这项工作的突出贡献是：引入了一个表达模型的常识知识与先进的语义，与小组的主题和分面断言作为一等公民;开发一种完全自动化的方法，通过从Web内容中提取高质量的CSK断言来填充模型;为10，000个重要概念构建大型CSKBAscent KB 的 Web 界面以及可下载的数据和代码可在https://www.mpi-inf.mpg.de/ascent上获得。2相关工作常识知识库（Commonsense Knowledge Bases，CSKBs）。CSK获取在人工智能中有着悠久的传统（例如，[19、26、30、51]）。一些项目已经构建了公开可用的大规模集合。ConceptNet[53]是CSK收购方面最突出的项目。它主要依赖于人类众包，包含少量预先指定的谓词（isa/type，2部分-整体，用于，能够，位置，加上词汇关系，如同义，词源，派生术语等），并且该CSKB被最广泛地使用。然而，它对许多概念的覆盖范围有限，并且其基于众包输入的数量的断言排名非常稀疏，并且无法区分突出的属性与非典型或外来的属性（例如，列出树木，花园和圣经作为蛇的位置，得分相似）。ConceptNet不能正确地消除概念的歧义，导致不正确的断言链，如 elephant， hasPart ， trunk; trunk ， locationOf ， sparetire。WebChild [55]，TupleKB [35]和Quasimodo [46]设计了完全自动化的CSKB构建方法他们使用明智选择的文本语料库（包括。书籍n-gram、图像标签、QA论坛）来提取大量SPO三元组。 WebChild 建立在手工提取模式之上， TupleKB 和Quasimodo依赖于开放信息提取和后续清理。这三个都限于SPO三元组。最近，TransOMCS [60]利用关于偏好依恋的统计数据，将大量的语言模式集合转换为具有预定义谓词集的SPO三元组的CSKB。它使用基于transformer的神经学习进行可扩展性评分。我们采用了使用搜索引擎进行源发现和开放信息抽取（OIE）的思想。我们的新颖性源发现在于生成更好的集中查询和scrutiniz- ING候选文件对参考维基百科文章。对于提取，我们扩展OIE捕捉表达方面，也多字复合物作为主题。多词复合词能够更好地回忆突出的断言，并避免常见的消歧错误。分类学和部分分类学归纳。根据子类和部分-整体关系的概念组织，称为上位关系和部分关系，在NLP和Web挖掘中受到了极大的关注（例如，[13、17、22、40、41、44、52、58]）。手工制作的WordNet词典[34]根据这些关系组织了超过100k个同义词集，尽管部分同义词很少。最近从网络资源进行大规模分类归纳的方法包括WebIsADB[22，49]建立在赫斯特模式和其他技术基础上，以及基于用户操作日志和其他来源的神经学习[1，2，56]已经通过预先指定和自动学习的模式解决了大规模的部分关系归纳，用于细化关系，如物理部分，成员和物质。我们的方法包括这两种关系，通过提取知识的显着子群和方面的主题。与典型的分类法和部分-整体集合相反，我们的子组包括许多多词短语：复合名词短语（例如，方面涵盖了对不属于分类法或部分命名法的主题的额外细化(e.g.、“lion habitat” or “lion’s表达性知识表示与提取。诸如总是、经常、很少、从不等模态在人工智能研究中有着悠久的传统（例如，[16]），基于各种模态逻辑或语义框架表示，语义网形式主义可以·2638⟨⟩⟨⟩⟩⟨∈使用例如，RDF* 或具体化[23]。虽然这种表达性知识表示已经存在了几十年，但几乎没有任何工作用这种细化的模型填充知识库，值得注意的例外是小规模的Knext项目[48]和专注于情感效价注释的OntoSenticNet [ 11 ]。其他项目已经追求不同类型的CSK提取的语境化，特别是[61]，它在顺序尺度上对自然语言句子进行评分，涵盖了非常可能，可能，合理，技术上可能和不可能的范围，Chen等人。[6]和Dice项目[5]，该项目沿着可解释性，典型性和显着性的维度对服务进行排名。语义角色标记（SRL）是一种表示和方法，其中句子被映射到框架（通常用于某些类型的事件）和相应的槽（例如，代理，参与者，代理）填充从输入文本中提取的值[8，39，54]。最近，这种范例已经扩展到基于方面的开放信息提取，其中提取的元组被限定为语义方面，如位置和模式[4，45]。Ascent建立在这种一般方法的基础上，但以各种方式扩展了它，以适应CSK的情况：专注于具体相关的方面，通过子组和方面来细化主题，并旨在协调作为目标主题的概念的精确性和覆盖范围预先训练的语言模型。最近，在BERT和GPT等预训练语言模型（LM）方面取得了很大进展[3，10]。在Ascent中，我们使用这样的语言模型，利用它们来聚类语义相似的短语，以减少冗余和组相关的断言。我们还在问题回答的外部评估中使用LM，表明使用来自CSKBs的结构化知识启动LM可以大大提高性能（参见。（42）。3模型和体系结构3.1知识模型现有的CSKB通常遵循基于三重的数据模型，其中主题通过谓词短语链接到对象词或短语。来自ConceptNet的典型例子是bus，usedFor，travel和bus，usedFor，not taking the subway。很少有项目[35，55]试图通过词义消歧（WSD）[36]来强化这种断言，例如区分道路上的公共汽车和计算机公共汽车。同样，只有少数项目[5，20，46，61]试图识别突出的断言，而不是正确的断言，这些断言是不具体的，非典型的，甚至是误导性的（例如，避开地铁或欣赏风景的公交车）。我们在两个主要方面扩展了这种普遍的范式。很有表现力。 CSK的习得始于收集目标主语的断言，这些断言通常是单个名词。这有两个缺陷：1）它将同一个词的不同含义混为一谈， 2 ）它错过了词义的精炼和变体。虽然词义消歧（WSD）已经试图克服第一个问题[35，55]，但它本身就受到限制，因为基本的词义词典，如WordNet和Wiktionary，大多局限于单个名词。例如，像“城市巴士”或“旅游巴士”这样的短语根本不存在。我们纠正这一问题的方法是双重的：3首先，我们的源发现方法将目标主题与信息性上位词相结合（使用WordNet，应用于短语中的单个名词或中心词例如，我们生成查询“bus public transport”和“bus networktopology”，而不是使用语义过载的单词“bus”进行搜索，第二，当从检索到的网页中提取断言的候选时，我们还捕获多词短语作为细化主题的候选，例如“校车”、“城市公交车”、“旅游巴士”、“马戏团大象”、“大象牛”、“驯养大象”等。这样，我们可以获得类似ISA的细化，以创建更广泛主题的子组，以及与一般概念相关的其他种类的方面。后者的一个例子是“公共汽车司机”，或者，对于目标主语“大象”，则是“象牙”、“大象栖息地”或“大象饲养员”等短语。我们的子群概念可以被认为是一个逆的isa关系。它超越了传统的分类法，更好地覆盖了多词复合词（例如，这使我们能够更好地表示特殊的断言，如马戏团大象，捕捉，球。我们关于体的概念包括部分-整体关系（partOf，substanceOf，substanceOf）[2，17，50，56]，但也包括不属于上位关系或部分关系主题的其他体。例如请注意，与单个名词不同，这种复合短语很少有歧义，所以我们有清晰的概念，而不需要明确的WSD。语义方面。对于CSK，断言有效性通常取决于特定的时间和空间环境，例如，大象只在非洲吓跑狮子，或者只在白天在河里洗澡此外，断言经常由于在原因/结果和工具方面的语境化而变得至关重要（例如，孩子们坐公共汽车。. . 去上学，马戏团的大象接球。. . 他们的为了将这些信息纳入表达模型中，我们选择将具有语义方面的主谓宾三元组上下文化。为此，我们建立在语义角色标签（SRL）研究的基础上[8，39，54]。这一系列的研究最初是为了填充手工制作的框架（例如，购买）与帧特定角色的值（例如，买方、货物、价格等）。我们从[45]中提出的一组35个标签开始，这些标签结合了Illinois Curator SRL [8]中的标签和22个手工制作的标签，这些标签来自对Wik词典（https://en.wiktionary.org/）中介词语义角色的分析。由于其中许多是非常特殊的，我们将它们浓缩成八个广泛有用的角色，与CSK相关：4个限定断言的有效性（程度，位置，时间，其他质量），以及4个捕获上下文的其他维度（原因，方式，目的，传递对象）。这些设计考虑将我们引向以下知识模型。定义【常识断言】：设C0是一组感兴趣的主要概念，可以手动定义或从字典中获取断言的主题包括所有的s0C0以及明智地选择的包含一些s0的多词短语。主语通过子组和体关系相互关联：每个s··2639∈ ⟨⟩∪∪（）下一页（）下一页（）∈图1：AscenT传统的CSKB（如ConceptNet）的数据模型仅限于绿盒之外的断言。可以通过一组表示为s <$s0的子组主题和一组表示为asp s0的方面主题来细化。整个受试者集为C：=C0s<$C0aspC0.对于s C的常识断言是四元组s，p，o，F，单名词或名词短语主语s，谓语p和宾语o的短语以及语义方面的集合F 每个分面k，v F是具有八个可能键k之一和短语v的键值对。注意，单个断言可以具有多个具有相同键的键值对（例如，不同的空间短语）。□一个断言s0=elephant的例子如图所示1.一、3.2提取架构设计考虑。 CSK集合有三个主要的设计要点：（i）源的选择，（ii）提取技术的选择，以及（iii）选择清洗或合并提取的候选断言。作为来源，大多数先前的作品都仔细选择了高质量的输入来源，包括书籍n-gram [55]，非专业来源中的概念定义以及关于科学的学校文本语料库[7]。这些通常是知识库覆盖率的限制因素此外，即使是像book n-gram这样看似干净的文本，也带有令人惊讶的高水平噪音和偏见（参见。[18]）。[35]使用了用于检索合适网页的集中查询，但查询公式需要不可忽略的工作。Quasimodo利用了查询自动完成和问答论坛[46]。虽然这使人们能够获得非常突出的主张，但同时也受到严重偏见和耸人听闻的内容的不利影响（例如，搜索引擎自动完成的 “ 蛇吃”suggesting“。. . 自己. . 儿童”）。在Ascent，我们选择使用搜索引擎进行广泛的覆盖，并设计质量保证技术。对于提取技术，选择范围从基于同现和基于模式的方法（例如，[12]）和开放信息提取（OIE）（例如，[35，46]）到用于分类和序列标记的监督学习共现对于一些预先指定的、明确区分的谓词（使用遥远的种子）效果很好。监督4提取器需要每个谓词的训练数据，因此具有相同的限制。因此，最近的方法更喜欢OIE技术，Ascent萃取器也遵循这一趋势。对于知识整合，早期的方法简单地保留来自摄取过程的所有断言（例如，众包[53]），而最近的项目采用监督分类器或排名器进行清理[5，35，46]，并且还限制了聚类形式[35，46]用于规范化（驯服语义冗余）。在Ascent中，仔细的源选择已经消除了某些类型的噪声，使提取频率统计比早期作品更好的信号。因此，我们专注于加强这些信号的巩固，基于聚类与上下文语言模型的信息相似性措施。Approach. 上升法分三个阶段进行（如图所示）。（2）：1. 源发现：1a. 从搜索引擎检索具有特定生成的查询的网页;1b.根据与维基百科参考条目的相似性过滤结果页面。2. 提取具有子组、方面和方面的断言：2a. OIE用于使用依赖性解析的模式;2b. 基于监督分类器的语义面标注3. 基于上下文嵌入的断言聚类。下一节将详细阐述这些步骤。4方法4.1相关文档检索网络搜索。我们使用有针对性的网络搜索来获得特定于每个主题的文档，这种方式旨在减少来自上下文外概念提及的噪音，以及处理大部分不相关文档的大量集合，例如在一般的网络抓取中遇到的。这一点尤其重要，因为我们稍后将利用2640图2：我们的提取管道的架构。共指分辨率，其本身是额外噪声的来源具体来说，我们使用Bing Web Search API。给定一个概念s0，我们首先通过取词元名称最多的同义词集将其映射到相应的Word-Net同义词集，并使用其上位词来细化搜索查询。例如，如果s0具有上位词animal.n.01，则其搜索查询是 “s 0 animal facts” ，或者如果 s 0 具有上位词professional.n.01，则其搜索查询是“s 0 job descriptions”，等等。我们已经手动设计了35个常见的上位词模板这些涵盖了我们82.5%的主题。当没有模板可以应用时，我们默认为s 0的直接上位词，并形成以下搜索查询：“s0（上位词）"。下面我们提供了一个搜索查询动物lynx的例子，其WordNet同义词集是lynx.n.02，以及Bing返回的一些顶级结果。英文名：Lynx Animal Facts前5名结果：• Lynx|国家地理• 关于lynx的有趣事实|只是有趣的事实• Lynx事实|Softschools.com• 关于山猫&其他山猫的事实|Live Science• Lynx|维基百科文档过滤。商业搜索引擎给我们了（接近）复制的好处，例如，来自维基百科的副本，被很好地检测到，排名较低。与此同时，尽管我们努力对搜索查询进行细化，但搜索引擎这是加剧了我们的兴趣，以获得大量的文章。因此，我们提出了一个过滤器，以消除不相关的结果。给定主题s0，我们使用Bing API检索500个网站。对于每个网站，我们使用一个流行的文章抓取库1来抓取其主要内容。接下来，每个检索到的文档与维基百科的参考文章进行比较，通过两个页面的词袋的余弦相似度作为维基百科的参考，我们利用BabelNet的WordNet-Wikipedia配对[37]和resource by [15]作为第一个后备。如果两个资源都不包含所需的WordNet同义词集，我们只需选择搜索结果中出现的第一篇Wikipedia文章在此之后，仅保留相似度高于0.55的文档（基于对保留数据的调整而选择）。1https://github.com/codelucas/newspaper54.2知识提取为了能够提取不同的信息，我们的提取步骤依赖于开放信息提取[32，38]。同样，由于开放断言通常遵循一般的语法结构，我们利用基于依赖路径的规则来识别提取。我们还依靠规则来通过所有格结构识别方面，并通过复合名词识别子组。为了将小平面分配到语义组，我们使用监督模型，因为小平面的集合很小。基于规则的语句提取。我们的开放信息提取（OIE）方法建立在StuffIE方法[45]的基础上，这是一系列手工制作的基于依赖性解析的规则，用于提取三元组和方面。其核心思想是把每个动词看作一个断言的候选谓词，通过语法关系即依存路径来识别主语、宾语和方面。下面的详细说明使用 Clear 样式格式（http://www.clearnlp.com），就像spaCy依赖解析器所使用的那样：主题是根据主题类型（nsubj，nsubjpass和csubj）和形容词子句（acl）的依赖关系捕获的。如果没有发现主语，则通过状语从句修饰语（advcl）和开放从句补语（xcomp）边缘识别谓语的父动词来识别主语。用来寻找宾语的依存边有直接宾语（dobj）、间接宾语（iobj）、名词性修饰语（nmod）、小句补语（ccomp）和状语从句修饰语（advcl）。一旦形成三元组，其组成部分通过经由各种依赖边用相关词扩展它们的中心词来完成。对于复合谓词，这些谓词包括xcomp、auxpass、mwe、advmod。对于复合主语和宾语，它们是compound，nummod，det，advmod，amod。最后，动词的层面是通过对给定动词的以下补语来识别的介词和小句补语。我们以以下方式扩展StuffIE(1) 原始算法将中心词的所有连词都包含在一个断言中，因此通常会产生过于具体的断言。在我们的方法中，我们将连接对象（表1，第1行）和facet（表1，第2行）分解为单独的断言。····2641(1.1)等级：极端(2)狮子;狩猎;羚羊(1.1)等级：极端⟩→→⟨ ⟩⟨⟨ ⟩∈⟨⟩号[45]第四十五话1它们吃松鸡、田鼠和松鸡。（1）他们;吃;松鸡，田鼠，松鸡(1) 猞猁;活跃的AscenT OIE提取器(1) 他们;吃;松鸡(2) 他们;吃;田鼠(3) 他们;吃;松鸡(1)猞猁;活跃的2山猫在晚上和清晨活动3狮子在圈养环境中能活20年（1.1）时间：晚上和清晨(1) 狮子;活着;_(1.1)目的：20年（1.2）地点：囚禁（1.1）时间：晚上(1.2)时间：清晨(1) 狮子;生活; 20年（1.1）地点：圈养4狮子捕食许多动物，如羚羊和羚羊。（1）狮子;狩猎;许多动物，如gnus和羚羊。（1）狮子;狩猎; Gnus5狗非常聪明。（1）狗;是;非常聪明（1）狗;是;聪明6大象是非常好的游泳者。（1）Elephant; are; very good swimmers（1）Elephant; are; good swimmers（1）Elephant; are; goodswimmers（1）Elephant; are; good swimmers表1：OIE方法和StuffIE返回的输出比较注意连词应该用“or”(2) 原始算法经常返回带有空对象的断言。为了只返回完整的三元组，在这种情况下，我们在其谓词之后识别最近的介词facet，并将facet转换为断言的对象（表1，第3行）。(3) 我们对用于给出带有单词“like”、“such as”和“including”的例子的(4) 我们把所有的副词修饰语的对象（除了那些谓词在StuffIE）到方面。我们考虑了两种类型的表1给出了StuffIE和我们的提取结果的定性比较主语和谓语后处理。在OIE之后，我们在段落层面上执行共指消解2，以消解作为主语出现的主格代词。例如，如果“they”被解析为“the elephants”，则最初提取的断言they，have，long trunk将被替换为the elephants，have，long trunk。这一步有助于提高为每个概念提取的断言的数量然后，通过删除限定词和标点符号，并通过词形化中心名词，对所有主题进行规范化。此外，谓词被规范化，使得主要动词被转换为它们的无限形式（例如，“已在”“被找到”“正在执行”“执行”）。最后，所有提取的方面的话，谓语和宾语。刻面类型标记。到目前为止，提取算法提取方面值，但不知道它们的语义类型（例如，“空间”或“因果”）。为了分配语义类型，我们微调了RoBERTa [31]模型，将每个方面分类为上述八种类型之一。RoBERTa的输入序列采用以下形式：2https://huggingface.co/coref6subject[PRED] predicate [OBJ] object [FCT] facet [SEP]"，其中[PRED]、[OBJ]和[FCT]是用于标记不同元素之间的边界的特殊标记。然后，[CLS]令牌的输出向量被传递到与Transformer架构顶部的soft-max层堆叠的全连接层，以标记facet。分类器训练的详细信息见第5.5节。子组的提取。在动物的情况下，亚组可以是亚种，或者是指不同州的目标概念，如“狩猎猎豹”和“退休警察”。对于主题s0，我们收集以s0或其任何WordNet词元结尾的所有名词组块（如上文所述的三重主题那样标准化）作为潜在候选。语义相似的组块，如“Cana-dianlynx”和“Canadalynx”，然后使用层次凝聚聚类（HAC）对平均word2vec表示进行分组。此外，我们利用WordNet来区分反义词，向量空间嵌入通常与之斗争。注意，子组被限制为少于5个单词，并且语法上包含其他子组的子组被忽略（例如，此外，如果块是命名实体（例如，“威尔·史密斯”（Will Smith）是“史密斯”（Smith）的缩写。最后，我们使用WordNet下义词来删除虚假的子组，例如，提取相关方面。给定主题s0和它的WordNet词元Ls0，从两个来源收集的名词块中提取主题的相关方面：(i) 所有格名词组块，所有格指代Ls0中的任何词元，例如，(ii)s，p，名词组块三元组，其中s Ls0和p是以下动词短语之一： “have” ， “contain” ， “be assembled of” 或 “becomposedof”。为了防止过于具体的方面（例如，例如，如果我们观察lynx、have、black ear tuft，则忽略形容词“black”，并且提取“eartuft”，而不是仅提取中心名词“tuft”。2642⟩×⟩⟨⟨∈⟨⟩⟨⟩⟨⟩保留的断言。对于每个主主题，处理一组单独的文档，此阶段的输出是三组断言：主主题s0 的断言、其子组的断言和方面的断言。这些选择如下。作为主主题及其子主题的断言，我们简单地保留所有具有与主主题的WordNet词元匹配的主题的断言，或者它的一个子主题的名称。方面断言的情况稍微复杂一些，我们合并三种情况：(1) 有一个主题的断言是在以前确定的方面;(2) 在主主语的词元中有一个主语的断言，宾语是一个名词组块，由作为中心名词的体t asps0和t的形容词修饰语adj组成。例如，从断言elephant，have，a long very trunk，我们推断elephanttrunk，be，long，DEGREE：very。(3) 所有遵循“所有格+形容词+t”模式的名词组块（例如，“elephant's long trunks” ），其中possessi v e指L s 0中的任何引理， adj 是 t的形容词修饰语，并且t ∈ asp s 0。后两种情况下的结果被转换为t，be，adj，F断言，其中F方面是从adj的副词修饰语中提取的。4.3知识巩固自然语言中有丰富的释义，因此，到目前为止，提取管道经常产生具有相同或几乎相同含义的断言。识别和聚类这样的断言是必要的，以避免冗余，并获得更好的频率信号的个别断言。三重聚类。因为提取是针对每个概念单独进行的，所以我们只需要对谓词-对象对进行聚类。首先，我们训练一个RoBERTa模型来检测两个给定的三元组是否在语义上相似（有关设置细节，请参见第二节）。5.5）。然后使用模型给出的置信度分数来计算HAC算法将断言分组到集群中的距离。给定两个断言s，p1，o1和s，p2，o2，给予RoBERTa的输入语句是：SEP]是新推出的特殊代币，用于取代相同的主题并分别标记谓词和对象之间的边界。[CLS]标记的输出向量用于分类目的，其方式与上述用于面标记的模型中的方式相同理想情况下，可以计算所有断言之间的完整距离矩阵（n个三元组的n n矩阵），但是考虑到预训练语言模型（LM）非常资源密集，即使对于中等断言集，这种二次计算也是昂贵的。因此，我们通过预过滤要由预训练的LM进行比较的对的集合来减少计算工作量。(1) 断言按频率降序排序(2) 我们使用word 2 vec嵌入计算谓词-对象对的向量表示之间的余弦相似性。这可以通过并行矩阵乘法非常快地完成7(3) 对于每个断言ai，我们然后仅计算与排序列表中在ai之后的前k个最相似的断言（通过基于word2vec的相似性排名）的基于RoberTa的距离（排序列表帮助我们关注突出断言）。所有其他对的距离为1。0. 这为n个断言产生一个“稀疏”距离矩阵。(4) 对于聚类，我们使用具有单个链接的HAC算法，因为它只查看两个聚类之间最相似的对。这有助于减少丢失相似三元组的机会，这些三元组的相似性在第三步中没有被RoberTa计算出来。在聚类之后，每个聚类内最频繁的断言被用作代表。分面值聚类。分面值可以类似地表现出冗余性，例如，程度分面可以具有值“经常”、“频繁地”、“主要地”、“定期地”等。此外，源有时可能会提到奇数值。我们通过对每个facet类型的facet值进行聚类，并只保留支持最强的那一个来对抗这两种情况考虑到每个断言和facet类型的facet值数量很少（通常小于5），我们使用简单的方法进行聚类。具体来说，给定值列表，我们使用HAC算法来聚类副词值，其中两个值之间的距离由它们的word2vec表示的余弦距离来测量。如果其他值具有相同的头字（例如，类似地，使用集群内最频繁的值作为该集群的代表5次实验对Ascent的评价集中在三个研究问题上：RQ1：最终的CSKB是否比现有资源质量更高？• RQ2：（结构化的）CSK在外部用例中有帮助吗• RQ3：什么是方面的质量和外在价值我们首先介绍了Ascent的实现，然后在各自的小节中讨论这些研究问题5.1执行我们为ConceptNet中最受欢迎的10，000个主题执行了管道（按断言数量排名）。的执行总共花了10天，其中大约5天用于网站抓取，3天用于语句提取，2天用于聚类。对于每个主题，我们使用Bing搜索API检索500个网站。最终的CSKB包含这些主要主题的3，693，990个断言，280，970个子组的1，768，538个断言和92，038个方面的3，349，198个断言。平均而言，所有断言中有一半都有一个facet（参见表2）。在表3中，我们显示了我们的CSKB的统计数据与流行的现有资源的比较。为了便于比较，我们报告了[46]中介绍的50种流行动物和50种流行职业的样本统计数据，以及使用维基词典词频收集的工程领域的50个流行概念（例如，汽车、公共汽车、计算机、电话等）。对于统计，通过下位词（WordNet）和关系ISA（ConceptNet和TupleKB）收集子组方面是通过部分部分命名法（WordNet）收集的·2643→→→主体类型#s#spo#facets初级10,0003,693,9902,169,119亚组280,9701,768,538944,124方面92,0383,349,1981,467,159所有382,5558,562,5934,425,628表2：AscenT KB的统计。资源#s#spo#facets#子组#方面WordNet[34]150--1,472229WebChild[55]150178,073--47,171[53]第五十三话1507,313-7,239368TupleKB[35]13323,106-2312,302卡西莫多[46]150137,880--563通用知识库[1]150192,075---AscenTAscenTsд150132，07080，7178,251110，63110,026 5843- -AscenTasp5,6181 6 9 77074449- -表3：动物、职业、工程三个领域前50名学科的不同资源统计。relationPartOf （ ConceptNet ）、 hasPart （ TupleKB ）、hasPhysicalPart（WebChild）和hasBodyPart（Quasimodo）。我们将知识库的统计数据分为三类：一般断言（Ascent）、子组断言（Ascent sд）和方面断言（Ascent asp）。表3显示，在所有资源中，Ascent是唯一一个除了三元组之外还传达质量方面Ascent还为主要主题提取了相当数量的断言。此外，Ascent还能够将150个主要主题扩展到13，869个子组和相关方面，使提取的断言数量增加约两倍我们提取的子组比任何其他KB都多。关于方面，我们只被WebChild表现得更好，它包括许多没有信息的和相当“异国情调”的部分三元组（例如，老师有细胞，狮子有面静脉）。5.2内在评价为了研究RQ 1，我们用精确度和召回率的标准概念来实例化质量，将精确度进一步分解为典型性和显著性的维度，以这种方式测量真理的程度，以及断言的相关性程度（参见[46]）。典型性是指一个断言对一个概念的大多数实例都成立。例如，大象使用他们的鼻子是典型的，而大象喝牛奶只适用于小象。显著性是指大多数人在第一次思考时或多或少地从人类的角度来判断一个断言是否与一个概念相关联。例如，大象有鼻子是突出的，而大象杀死它们的驯象师则不是。断言精度。与传统知识不同（《狮子王》要么是迪斯尼制作的，要么不是），CSK的精确度通常不是一个二元概念，需要更精确的评估指标。我们遵循Quasimodo项目[46]，该项目评估了典型性和显著性。给定一个CSK三元组，要求AmazonMTurk上的注释者按照从1（最低）到5（最高）的等级评估这两个方面。我们用同样的抽样8如

下载后可阅读完整内容，剩余1页未读，立即下载