没有合适的资源?快使用搜索试试~ 我知道了~
嵌入和边信息:规范化开放知识库构建的方法
主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法1317CESI:使用嵌入和边信息印度科学研究所印度班加罗尔shikhar@iisc.ac.inPrinceJain*Microsoft印度班加罗尔prince. microsoft.comParthaTalukdarIndianInstitute of Science印度班加罗尔ppt@iisc.ac.in摘要开放式信息抽取(OpenIE)方法从文本中抽取(名词短语、关系短语、名词短语)三元组,从而构建大型开放式知识库(OpenKBs)。开放知识库中的名词短语和关系短语没有规范化,导致冗余和歧义事实的存储。最近的研究提出了规范化的开放知识库的聚类手动定义的特征空间。手动特征工程是昂贵的并且通常是次优的。为了克服这一挑战,我们提出了规范化使用嵌入和边信息(CESI)CESI扩展了知识库嵌入的最新进展,将相关的NP和关系短语侧信息的原则的方式。通过在多个真实世界数据集上的广泛实验,我们证明了CESICCS概念• 计算方法学→知识表示与推理;信息抽取;关键词规范化;知识图;知识图嵌入;开放式知识库ACM参考格式:Shikhar Vashishth , Prince Jain , and Partha Talukdar. 2018.CESI:规范化开放知识库使用嵌入和边信息。 在WWW2018:2018年网络会议,2018年4月23日至27日,里昂,法国 。 ACM , NewYork , NY , USA , 11 页 。https://doi.org/10.1145/3178876.31860301介绍最近的研究导致了几个大型本体知识库(KB)的发展,例如DBpedia [1],YAGO [36]和Freebase [4]。这些知识库被称为本体论知识库,因为它们所捕获的知识符合*在班加罗尔印度科学研究所进行的研究。本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW 2018,2018年4月23日©2018 IW3C2(国际万维网大会委员会),在知识共享CC BY4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186030固定的本体,即,预先指定的类别(例如,人、城市)和关系(例如,mayorOfCity(Person,City))。这种本体论知识库的构建需要大量的人的监督。此外,由于需要预先规范的本体,这样的知识库建设方法不能快速适应新的领域和语料库。虽然其他本体知识库构建方法(如NELL [23])从有限的人类监督中学习,但它们仍然受到快速适应瓶颈的影响。相比之下,开放信息提取(OpenIE)方法既不需要监督也不需要任何预先指定的本体。给定非结构化文本文档,OpenIE方法从它们中读取地提取形式的三元组(名词短语、关系短语、名词短语),从而导致大型开放知识库(Open KB)的开发Open KB的示例包括TextRunner [3]、ReVerb [12]和OLLIE [8,21,33]。虽然这使得OpenIE方法具有高度适应性,但它们存在以下缺点:与本体知识库不同,开放知识库中的名词短语和关系短语没有规范化。这导致存储冗余和模糊的事实。让我们通过一个具体的例子来解释规范化的必要性。请考虑下面的两个句子巴拉克·奥巴马是美国总统奥巴马出生在檀香山。给定上面的两个句子,OpenIE方法可以提取下面的两个三元组并将它们存储在Open KB中。奥巴马,生于檀香山不幸的是,这样的OpenIE方法和相关的OpenKB都不知道巴拉克·奥巴马和奥巴马指的是同一个人。这可能是一个 重 要 的 问 题 , 因 为 Open KB 在 查 询 时 不 会 返 回 与Barack Obama相关联的所有事实。这样的KB还将包含冗余事实,这是不期望的。因此,迫切需要规范化开放知识库中的名词短语(NP)和关系。尽管开放知识库的规范化很重要,是一个相对未被探索的问题。在[14]中,规范化的开放知识库提出了一个聚类问题,手动定义的功能表示。考虑到人工特征工程涉及的成本和次优性,并且受到知识库嵌入[5,25]的最新进展的启发,我们将Open KB的规范化作为自动学习嵌入的聚类。本文主要做了以下几个方面的工作。主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法1318● 我 们 提 出 了 规 范 化 使 用 嵌 入 和 边 信 息(CESI),一种新的方法,规范化开放知识库使用学习的嵌入。据我们所知,这是第一种使用学习的嵌入和辅助信息来规范化开放知识库的方法● CESI模型的问题,名词短语(NP)和关系短语规范化联合使用相关的边信息的原则性的方式。这是不像先前的方法,其中NP和关系短语规范化被顺序地执行。● 我们构建并实验了ReVerb45K,这是一个用于OpenKB规范化的新数据集。ReVerb45K包含的NP比之前用于此任务的最大数据集多20倍。通过对这个和其他现实世界的数据集进行广泛的实验,我们证明了CESI的有效性(第7节)。本文中使用的CESIhttps://github.com/malllabiisc/cesi。2相关工作实体链接:规范化名词短语的一种传统方法是将它们映射到现有的知识库,例如维基百科或自由基。这个问题被称为实体链接(EL)或命名实体消歧(NED)。大多数方法为每个NP生成候选实体的列表,并使用机器学习技术对它们进行重新排序。实体链接一直是NLP社区的一个活跃研究领域[19,32,39]。这些方法的主要问题是,许多NP可能指的是知识库中可能不存在的新的和新兴的实体。解决这些名词短语的一种方法是将它们映射到NIL或OOKB(Outof Knowledge Base)实体,但问题仍然存在关于如何将这些NIL提及进行聚类。虽然实体链接不是NP规范化的最佳方法,但我们仍然利用来自实体链接系统的信号来改进CESI中的规范化。本体知识库中的规范化:概念再求解器[17]用于对NELL [23]中提到的NP进行聚类。它提出了“每个类别一个意义”的假设,即一个名词短语最多可以指代NELL本 体 论 中 每 个 类 别 中 的 一 个 概 念 。 例 如 , 名 词 短 语“Apple”可以指公司或水果,但它只能指一家公司和一种水果。NP规范化的另一个相关问题是知识图识别[31],其中给定噪声提取图,任务是通过联合执行实体解析、实体分类和链接预测来产生一致的知识图(KG)。Pujara等人[31]结合来自多个提取源的信息,并使用本体信息来使用概率软逻辑(PSL)推断最可能的知识图[6]。然而,这两种方法都需要关系本体形式的附加信息,这在Open KB设置中不可用。关系分类归纳:SICTF [27]试图学习不同OpenIE关系的关系模式。它建立在RESCAL [26]上,并使用张量因子分解方法将名词短语聚类到类别中(如“人”,“疾病”等)。然而,我们感兴趣的是将名词短语聚类成实体。关系短语规范化的研究相对较少。一些早期的作品包括DIRT [18],它提出了一种无监督的方法,用于发现形式为“X是Y的作者”的推理规则≈X使用依赖树中的路径写Y“;和PATTY系统[24],它试图使用基于频繁项集挖掘的技术来学习关系之间的包含规则(例如son-of?child-of)。这些方法更侧重于寻找关系短语的分类,而我们正在寻找关系短语之间的等价关系。知识库嵌入:诸如TransE [5]、HolE[25]的KB嵌入技术尝试学习用于KB中存在的实体和关系的向量空间嵌入。TransE假设对于任意的>主语、关系、宾语>三元组,关系向量是从主语向量到宾语向量的转换。另一方面,HolE使用非线性算子来建模三元组。这些嵌入方法已成功地应用于知识库中的链接预测任务。在这项工作中,我们建立在洞,同时利用相关的边信息的任务,开放知识库规范化。我们注意到,即使像HolE这样的KB嵌入技术已经应用于本体论KB,CESI可能是第一次尝试在开放知识库的上下文中使用它们。规范化开放知识库:RESOLVER系统[42]使用基于字符串相似性的特征对TextRunner [3]三元组中的短语进行聚类。字符串相似性特征虽然有效,但不能处理具有完全不同表面形式的同义短语,例如近视和近视。KB-Unify [10]解决了将多个本体和开放知识库统一到一个知识库中的问题。但是,KB-Unify需要预先确定的感知库存,而这在CESI运行的设置中不可用。与我们最密切相关的工作是[14]。他们通过在手动定义的特征空间上执行分层聚合聚类(HAC)[38]来执行NP规范化,然后通过使用AMIE算法[15]来执行关系短语聚类。CESI显著优于该先前方法(第7节)。3拟定方法:CESICESI的整体架构和数据流如图1. CESI的输入是具有每个三元组的源信息的非规范化的开放知识库(KB)。输出是规范化的名词和关系短语的列表,其可用于标识等效实体和关系或规范化KB。CESI通过其三步程序实现这一点:主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法1319OpenKB(Terrelle Pryor,出生于…(比尔,(比尔·盖茨,生于源文件建设关系短语NP和关系嵌入边信息获取实体链接PPDBWordNet..Amie比尔·盖茨(Bill Gates)[001pdf1st-31files]出生于...图1:CESI概述。CESI首先获取Open的名词和关系短语的边信息KB三倍。在第二步中,它学习这些NP和关系短语的嵌入,同时利用 在前一步骤中获得的边信息。在第三步中,CESI对学习到的嵌入进行聚类,以规范化NP和关系短语。更多详情请参见第3(1) 边信息获取:该步骤的目标是通过在三元组的源文本上运行若干标准算法来收集输入中的每个三元组的各种NP和关系短语边信息。更多详情见第4节。(2) 嵌入NP和关系短语:在该步骤中,CESI通过原则性地使用从前一步骤可用的边信息来学习输入中的所有NP和关系短语的专用向量嵌入。(3) 聚类嵌入和规范化:该步骤的目标是基于NP和关系短语在嵌入空间中的距离对它们进行聚类。每个集群代表一个特定的实体或关系。基于某些相关的启发式,我们分配一个代表每个NP和关系短语集群。接下来描述CESI的不同步骤的细节4辅助信息获取开放知识库中的名词和关系短语通常在提取三元组的文档中具有有时,这样的信息也可以存在于其他相关KB中。先前的Open KB规范化方法[14]忽略了这种可用的辅助信息,并且孤立地执行规范化,仅关注Open KB三元组。CESI试图利用这样的边信息来进一步提高对该问题的性能。在CESI中,我们利用5种NP边信息得到���两个实体1和2之间1 ≡ 2形式的等价关系。类似地,关系短语侧信息被用于导出关系等价1 = 2。 所有等效性在CESI的后续步骤中用作软约束(详见第5节)。4.1名词短语旁信息在CESI的当前版本中,我们使用以下五种类型的NP边信息:(1) 实体链接:给定非结构化文本,实体链接算法识别实体提及并将它们链接到本体知识库,诸如维基 百 科 、 Freebase 等 。 我 们 使 用 基 于 [ 35 ] 的Stanford CoreNLP实体链接器来获得NP到维基百科的实体链接。粗略地说,在大约30%的情况下,我们得到了NP的这种信息。如果两个NP链接到同一个维基百科实体,我们假设它们根据此信息是等效的。例如,美国和美国可以链接到同一个维基百科实体美国。(2) PPDB信息:我们使用PPDB 2.0 [29],一个大量的英语释义集合,用于识别NP之间的等价关系。我们首先从数据集中提取高置信度的释义,同时删除重复。然后,使用union-find,我们对所有等价短语进行聚类,并随机分配每个集群的代表。使用在所获得的集群上创建的索引,我们发现集群代表每个NP。如果两个NP具有相同的聚类代表,则它们被认为是等同的。跳过数据集中不存在的NP。这些信息有助于我们确定NP之间的等效性,例如管理和行政。(3) WordNet with Word-sense Disambiguation :使用Wordnet [ 22 ]的词义消歧[2],我们识别给定NP的可能的同义词集。如果两个NP共享共同的同义词集,则它们根据该边信息被标记为相似。例如,picture 和 image 可 以 链 接 到 同 一 个synsetvisualize.v.01。(4) IDF令牌重叠:共享不常见术语的NP给出了它们指代相同实体的强烈指示。比如,对于沃伦·巴菲特来说,就很有可能出生在出生于特雷尔普赖尔普赖尔法案比尔·盖茨使用聚类的规范化主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法1320∑∈∑′,∑′′∈()∩()ent,reg对NP进行形态学分析,然后应用AMIE在NP规范化的KB上。我们选择了形态学-和巴菲特指的是同一个人。在[14]中,发现IDF标记重叠是规范化的最有效特征我们基于标准IDF公式为每对NP分配分数这将导致更好的整体规范化。 我们发现这是真的,如第8节所示。5嵌入NP与关系∑′ log(1+())−1短语������������(,)=∑︀∈()∪(′)log(1+())−1为了在给定的Open KB中学习NP和关系短语的嵌入,CESI优化了HolE这里,(·)对于给定NP返回其项的集合不包括停用词。���(·)返回令牌的文档频率。(5) 形态规范化:我们使用多个形态规范化操作,如时态去除,复数化,大写和其他[12]中使用的用于找出等效NP。我们在8.2节中展示了这些信息有助于提高性能。4.2关系短语边信息与名词短语类似,我们也利用PPDB和WordNet侧信息进行关系短语规范化。除此之外,我们还使用了以下两种涉及关系短语的附加信息。连同用于惩罚来自NP和关系短语侧信息的等价条件的违反的项由于来自辅助信息的条件可能是虚假的,因此因子(e_t/rel )与每个项相乘,其充当超参数并且在保持的验证集上被调谐。 我们还保持了一个常数()与HolE目标函数,使选择性地使用结构信息的知识库规范化。我们选择HolE是因为它是知识图中链接预测等任务的最佳KB嵌入技术之一由于KB仅存储真三元组,因此我们使用局部封闭世界启发式算法[11]生成否定示例为了保持真三元组的秩高于不存在的三元组,我们使用成对排序损失函数。下面描述最终目标函数(1) AMIE信息:AMIE算法[15]试图学习两个关系之间的蕴涵规则,并将其定义为“′ ′minΘ∈+∈∑−���max(0, +()−())的形式⇒。这些规则是基于统计规则挖掘来检测的,有关更多详细信息,请参阅[14]。′ ′∈∑ent,|e nt,|,′∑‖���−′‖⇒′和⇒′都满足支持度和置信度阈值。 AMIE接受半规范化的KB作为输入,即,其中NP已经规范化的KB∈∑,|rel,|∈rel,‖−′‖由于这不是开放知识库的情况,我们首先佳能-+���(∑‖��� ‖2+∑‖��� ‖2)。∈∈A对于该步骤的cal归一化,因为这样的归一化可用于所有NP,并且还因为我们发现该边信息在大的开放KB中非常有效。(2) KBP 信 息 : 给 定 非 结 构 化 文 本 , 知 识 库 群 体(KBP)系统检测实体之间的关系并将它们链接到标准知识库中的关系。例如,“Obama was born inHonolulu”包含“was born in”Obama和Honolulu之间的关系,其可以被链接到KB中的出生城市关系。在CESI中,我们使用Stanford KBP [37]对关系进行分类。如果两个关系属于同一类别,则根据该信息,它们被认为是等同的。可以基于其他辅助信息的可用性来进一步扩展给定列表。在本文的实验中,我们使用了上述NP和关系短语的辅助信息。从不同边信息导出的一些等价可能是错误的,因此,我们尝试将它们用作补充信息,而不是将它们用作硬约束,如下一节所述即使侧信息可能仅可用于一小部分NP和关系短语,该假设是目标函数由三个主要项和一个正则化项组成。优化参数Θ={���}∈∪ {}∈A 是所有NP(���)和关系短语()维嵌入的集合,其中,���和���表示输入中所有NP和关系短语的集合。在第一项中,+,−指定正例和反例的集合,���>0指的是边距的宽度[5]。此外,���(·)表示逻辑函数,并且对于三元组(,,),���=(),其中:������× ������→������是如下定义的循环相关算子。−1[������]=������(+)m od���。=0()的第一个索引������测量和之间的相似性���,而其他索引以特定顺序捕获来自和的特征的相互作用���。详情请参阅[25]。在第二项和第三项中,Ce nt和Crel是从先前步骤(第4节)可获得的所有类型的NP和关系侧信息的集合,即,Cent ={实体链接,PPDB,..}和Crel={ AMIE,KBP,.{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 此外,ent, 和rel, 表示与实体和关系侧信息相关联的常数它们的值被调整它声明了两个关系和等价,如果+2+2主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法1321数据集#黄金实体NP数量#关系三重数基地1502903K9K模棱两可44671711K37KReVerb45K7.5K15.5K22K45K表1:所用数据集的详细信息。ReVerb45K是本文提出的新数据集。详情请参见第7.1在保留的验证集上使用网格搜索。来自特定边信息的所有等价条件的集合由y_e_t 和rel_i表示 。放置这些术语之后的基本原理是允许在学习嵌入的同时包括边信息,通过在两个NP或关系根据可用边信息是等效的情况下将它们紧密地结合在一起来实现。由于边信息可用于输入中的一部分NP和关系短语,因此在目标中包括这些术语不会显著减慢嵌入的训练。最后一项在嵌入上添加L2正则化。所有嵌入通过对GloVe向量求平均来初始化[30]。 我们使用小批量梯度下降进行优化。6聚类嵌入与经典化CESI通过在前一步骤(第5节)中学习的嵌入上使用余弦相似性执行层次聚集聚类(HAC)来对NP和关系短语进行聚类。 HAC优于其他聚类方法,因为簇的数量事先不知道。完全连锁标准用于计算中间簇之间的相似性这对于规范化问题更合理,其中集群大小预计很小。HAC的阈值是基于保持的验证数据集选择的。完全连接准则下的HAC算法的时间复杂度为(2)[9]。为了将CESI扩展到大型知识图,可以以性能上的一些损失为代价来使用近似层次聚类算法的现代变体[16]。最后,我们为每个NP和关系短语簇决定一个代表。对于每个聚类,我们计算由输入中每个元素的出现频率加权的所有元素的嵌入的平均值选择最接近加权聚类均值的NP或关系短语作为聚类的代表。7实验装置7.1数据集本文实验中使用的三个数据集的统计总结在表1中。我们在下面简要总结了每个数据集。(1) 基础和模糊数据集:我们从[ 14 ]的作者那里获得了基础和模糊数据集。基本数据集是通过收集包含150个采样Freebase实体的三元组创建的,这些实体在ReVerb Open KB中至少有两个别名。相同的数据集进一步丰富了同音实体的提及,以创建模糊数据集。详情请参阅[14]。(2) ReVerb45K:这是我们在本文中提出的新的Open KBReVerb45K是Ambiguous数据集的显著扩展版本,包含超过20个NP。ReVerb45K通过来自以下三个来源的交叉信息构建:ReVerbOpen KB[12],来自[13]的Freebase实体链接信息和Clueweb09语料库[7]。首先,对于ReVerb中的 每 个 三 元 组 , 我 们 从 生 成 三 元 组 的Clueweb09语料库中提取源文本。在这个过程中,我们拒绝了无法找到任何源文本的三元组然后,基于[13]中的实体链接信息,我们将三元组的所有主语和宾语如果在三元组中找不到主体和客体的高置信度链接信息,则拒绝该三元此外,按照[14]采用的数据集构建过程,我们选择了与所有Freebase实体相关的三元组通过这些步骤,我们获得了45K高质量的三元组,我们用于评估。我们将这个数据集称为ReVerb45K。与Base和Ambiguous数据集相比,ReVerb45K中的实体、NP和关系短语的数量明显更大。详细比较请参见表1 这更好地模拟了现实世界的KB,其往往是稀疏的,每个实体的边缘非常少,如[5]所观察到的。为了得到每个数据集的测试集和验证集,我们随机抽取了20%的Freebase实体,并将与它们相关的所有三元组称为验证集,其余的用作测试集。7.2评估指标在[14]之后,我们使用宏观,微观和成对度量来评估Open KB规范化方法。为了完整性,我们在下面简要描述这些指标在所有情况下,表示由待评估的算法产生的聚类,在所有情况下,F1度量都是精确度和召回率的调和平均值宏:宏精度(macro)被定义为纯簇的分数,即,其中所有NP(或关系)链接到相同的黄金实体(或关系)的集群。宏查全率(宏)的计算方式与宏查准率类似,但主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法1322367∑| ∩|∑∑∑∑3交换和的角色。所以macro=2在这案子对于微观精度,我们可以看到,美国、新纽约和加利福尼亚是最常见的黄金实体集群因此,micro =6。同样地,在此情况下,micro =6七七八八案子对于成对分析,我们需要首先计算中的命中数。在1中, 我们有3个可能的对,其中只有1个(America,USA)是命中的,因为它们属于相同的黄金集群1。同样,我们在2中有3次命中,在3中有0次命中。因此,pair=4。为了计算pair,我们需要中的成对决策的总数,即1 + 6 + 0,因此pair =4。图2:顶部:不同评估度量的说明性示例。 表示实际聚类,而 表示预测聚类。底部:上述示例的指标结果。详情请参见第7.2节。其中和的角色互换。所有结果总结在表2中。为了评估NP规范化,我们使用宏观,微观和成对F1评分。然而,在关系的情况下,黄金标签不可用,我们使用基于人类法官给出的分数的宏观,微观和成对精度值7.3方法比较7.3.1名词短语规范化。 对于NP规范化,已将CESI与以下方法进行了比较:● 形态规范化:如[12]中所使用的,这涉及应用简单的规范化操作,如删除时态,复数化,大写等。而不是名词短语和关系短语。● 释义数据库(PPDB):使用PPDB 2.0[29],我们将两个NP聚类在一起,如果它们发生分享一个共同的释义。NP不能宏(���,)=|{���∈���:���∈������:���}|||将PPDB中找到的数据放入单例集群中● 实体链接:由于NP规范问题-macro(,)=macro(,)微:微精度(micro)被定义为集群的纯度[20],基于集群中最常见的黄金实体(或关系)是正确的假设。微召回(micro)的定义与宏召回类似。化与实体链接密切相关,我们将我们的方法与Stanford CoreNLP Entity Linker [35] 进 行 了 比较。连接到相同实体的两个NP聚簇在一起。●[14]:IDFTokenOverlapwasthe[14]中提出的NP canon的最佳执行方法微(,)=1最大值��� ∈∈化在该方法中,IDF标记相似性在两个NP之间定义,如在第4.1节中,并且HAC微(,)=微(,)成对:成对精度(对)以中的命中数与中的总可能对的比率来衡量。而成对召回率(pair)是中的命中数与中的所有可能对的比率。如果一个簇中的一对元素都引用同一个gold实体(或关系),则它们产生命中。用于对提及进行聚类。● Ga l'arraga-StrSim[14] : 这 种 方 法 类 似 于Galarraga-IDF,但相似性度量是Jaro-Winkler [41]字符串相似性度量。● Ga l´arraga-Attr[14]:同样,这种方法类似于Galarraga-IDF,除了属性重叠作为两个NP之间的相似性度量这个案子NP的属性,定义为集合对(���,)=∈ |{(,′)∈���,���∈���,(,′)∈���}|||的关系NP对,其与在输入三元组中共同出现属性重叠相似度∈pair(∈ |{(,′)∈���,���∈���,(,′)∈���}|||NPs,被定义为属性:∈���attr(,′)= |��� ∩���′|让我们通过图2所示的具体NP规范化示例来说明这些度量。 在这个图中,我们可以看到C中只有2和3个簇是纯的,因为它们只包含一个实体的提及,因此,macro=2。另一方面,我们有1和3作为纯簇,如果我们|��� ∪���′|其中,和’表示与和’相关联的属性集合。由于使用上述相似性度量的规范化方法在[14]中被发现是最有效的,即使主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法1323方法基础数据集不明确数据集ReVerb45K宏观微汇率宏观微汇率宏观微汇率行平均变形规范58.388.383.549.157.270.91.477.775.162.3PPDB42.446.932.237.360.269.346.045.464.249.3EntLinker54.965.175.249.783.268.862.881.880.469.1Gal'arrag a-StrSim88.296.597.766.685.382.269.951.70.570.9Gal'arraga-IDF94.897.998.367.982.979.371.650.80.571.5Gal'arraga-Attr76.151.418.182.927.78.475.120.10.240.0手套95.797.291.165.989.990.156.582.975.382.7孔E(随机)69.591.386.653.385.075.15.474.650.965.7孔(手套)75.293.689.353.985.476.733.575.851.070.4CESI98.299.899.966.292.491.962.784.481.986.3表2:NP规范化结果。CESI在数据集上的性能优于所有其他方法(在7个数据集中表现最佳9例第8.1.1节)优于基于机器学习的替代方案,我们认为这三个基线代表了Open KB规范化的最新水平。● GloVe:在该方案中,每个NP和关系短语由300维GloVe嵌入表示[30]在维基百科2014和Gigaword 5 [28]数据集上训练,词汇量为400k。将词向量平均在一起以获得多词短语的嵌入。然后将这些GloVE嵌入聚类用于最终的规范化。● HolE:在该方法中,通过应用HolE来获得NP和关系短语在OpenKB中的嵌入[25]在开放的KB上。然后对这些嵌入进行聚类以获得最终的规范化分组。基于嵌入的初始化,我们 区 分 了 HolE ( Random ) 和 HolE(GloVe)。● CESI:这是本文提出的方法,更多细节请参见第3超参数:在[14]之后,我们使用分层聚集聚类(HAC)作为所有方法的默认聚类方法(如有必要)。对于所有方法,在超参数空间上进行网格搜索,并报告最佳性能设置的结果。对每个数据集重复该过程7.3.2关系短语规范化。 AMIE [15]在[ 14 ]中被发现对关系短语规范化是有效的。因此,我们认为AMIE1作为关系短语规范化的最先进的基线,并与CESI进行比较。我们注意到,AMIE要求输入Open KB的NP已经规范化。在我们所有的评估数据集中,我们已经有了可用的黄金NP规范化。我们提供这个黄金NP规范化信息作为AMIE的输入。请注意,CESI不需要这样的预规范化的NP作为输入,因为它执行联合NP和关系短语规范化。此外,向AMIE提供金NP规范化信息使CESI处于不利地位。我们决定无论如何都要做出这个选择更严格的评价。然而,尽管从这个不利的位置开始,CESI在关系短语规范化方面明显优于AMIE,正如我们将在第8.1.2节中看到的。为了评估这两种算法的性能,我们对三个数据集中的每一个随机采样25个非单例关系集群,并将它们交给五个不同的人类评估者2,以向每个集群分配分数。设置保持盲,即,评估者不知道产生聚类的算法的身份根据评价评分的平均值,计算精密度值仅对非单例聚类进行采样,因为单例聚类将始终给出1的精度。8结果在本节中,我们评估以下问题。Q1. CESI在Open KB规范化中是否有效?(Sec-第8.1条)Q2.辅助信息对CESI性能的影响是什么?(第8.2节)Q3.实体连接侧信息的添加是否降低CESI规范化未连接的NP的能力(即,实体连接子遗漏的NP(第8.3节)最后,在第8.4节中,我们给出了定性的例子和讨论。8.1CESI在开放知识库规范化中的有效性评价8.1.1名词短语规范化。NP规范化的结果总结于表2中。总体而言,我们发现CESI在数据集上表现良好。形态规范化未能在存在同音异义的情况下给出有竞争力的性能。PPDB尽管是一个巨大的释义库,但缺乏关于诸如人、地点等的真实世界实体的信息。因此,其性能在所有数据集中仍然较弱。实体链接方法利用源文本1我们使用支持度和置信度值2和0.2进行所有实验。在本文中。2作者未参与本评价。主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法1324宏微观成对诱导精密度精度精密度关系集群Amie42.8基础数据集63.643.07CESI88.093.188.1210不明确的数据集Amie55.864.623.446CESI76.091.980.9952Amie69.3ReVerb45K84.266.251CESI77.387.872.62116表3:关系规范化结果。与AMIE相比,CESI规范化的关系短语数量更多,精度更高。详情请参见第8.1.2以将NP链接到KB实体。但由于受到知识库实体的限制,其性能受到限制。字符串相似性在大多数情况下也给出了不错的性能,但由于它们仅依赖于NP的表面形式,因此它们必然会在NP具有不同提及的情况下失败在 ReVerb45K 上 进 行 了 Gal′arraga-IDF 、Gal′arraga-S trSim和Gal′arraga-Attr等方法的研究。尽管如此,它们在其他两个数据集上的性能要好得多 。 这 是 因 为 与Base 和 Ambiguous 数 据 集 相 比 ,ReVerb45K具有相当大数量的实体和相对较少的三元组(表1)。 如果两个NP共享不常见的令牌,则Gal’arraga-IDF更有可能将它们放在一起,即,一是IDF值高。因此,该方法的准确性在很大程度上依赖于文档频率估计的质量,这可能是相当误导,当我们有较少的三元组。 类似的情况是Gala'rraga-At ttr,其基于共享属性的集合来决定NP的相似性。由于NP的属性被定义为在所有三元组中与它一起出现的关系NP对的集合,因此稀疏数据也导致该方法的性能较差GloVe捕获NP的语义,并且与字符串相似性不同,它不依赖于NP的表面形式。因此,它的性能在所有数据集上都很好。HolE从给定的三元组中捕获结构信息,并将其用于学习嵌入。通过我们的实验,我们可以看到,仅仅从知识库中提取结构信息对于NP规范化是非常有效的。CESI在9个设置中的7个设置中的数据集上表现最好,因为它结合了所有列出的方法的优势。CESI与HolE相比的优越性能清楚地表明,边信息确实有助于规范化任务。GloVe、HolE和CESI的结果表明,基于嵌入的方法对于Open KB规范化更加有效。图3:用于ReVerb45K数据集中NP规范化的CESI的各种辅助信息消除版本的性能比较。总的来说,侧面信息有助于CESI提高性能。详情请参见第8.28.1.2关系短语规范化。关系短语规范化的结果在表3中呈现。对于所有实验,尽管使用相当低的值用于最小支持度和置信度,AMIE不能诱导任何合理数量的非单例簇(例如,ReVerb45K数据集中的22K关系短语中仅有51个聚类)。对于关系规范化实验,在金NP规范化数据上评估AMIE,因为该算法要求NP已经规范化。另一方面,在所有数据集上测试CESI,而不使用金NP规范化信息。基于表3中的结果,很明显,AMIE引入的关系聚类太少,在实际设置中没有价值。另一方面,CESI在所有数据集上始终表现良好,并诱导出大量的聚类。8.2边信息在CESI中的作用在本节中,我们评估了CESI性能中各种副信息的影响。为此,我们评估了各种版本的CESI的性能,每个版本都是通过从完整的CESI模型中去除越来越多的边信息来获得的。在ReVerb45K上比较这些消融版本的实验结果如图3所示。从该图中,我们观察到,虽然宏观性能从不同形式的边信息中受益最多,但微观和成对性能在存在各种边信息的这验证了本文的中心论点之一:边信息与嵌入一起可以导致改进的Open KB规范化。主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法1325昂山素季昂山苏姬昂山萨拉费姆乔达摩乔达摩佛乔达摩佛佛释迦牟尼佛氟西汀百忧解葛兰素史克公司释迦牟尼胡安巴勃罗天使葛兰素帕布罗葛兰素史克葛兰素史望加锡苏拉威西<向…宣战<向……宣战<输给…<输给了>GmailGoogle Mail富兰克林·德拉诺·罗斯福西奥多·罗斯福惠普公司惠普公司<输给>惠普国家气象局气象局丰田日产宏F1Micro F1成对F1CESI81.787.681.5CESI(不含EL)81.387.380.7表4:在ReVerb45K数据集中,在具有和不具有实体链接(EL)侧信息的情况下,CESI在规范化未链接的NP方面的性能。我们观察到,CESI不过拟合EL侧信息,从而有助于防止性能下降,在unlinked NP规范化(事实上,它甚至帮助一点)。详情请参见第8.38.3实体链接边非关联NP规范化信息从8.2节的实验中,我们发现实体链接(EL)边信息(见4.1节)是CESI利用的最有用的边信息之一。然而,这样的边信息在未链接的NP的情况下是不可用的,即,未通过实体接头连接的NP。因此,这自然会引起以下问题:CESI是否过拟合EL侧信息并忽略未连接的NP,从而导致这种未连接的NP的不良规范化?为了评估这个问题,我们比较了CESI我们注意到,涉及未链接的NP的三元组构成整个数据集的约25%。结果见表4。从该表中,我们观察到CESI对于连接的NP)。由于这种稳健的性质,CESI中EL侧信息的存在8.4定性评价图4示出了由CESI在ReVerb45K数据集中检测到的一些NP和关系短语聚类。这些结果突出了算法在规范化非平凡NP和关系短语方面的功效。该图显示了几个示例的NP和关系短语(标记为“· · · >”)嵌入的t-SNE [40]可视化我们可以看到,学习的嵌入实际上能够捕获NP和关系短语的等价性。该算法能够正确地将百忧解、Sarafem和氟西汀嵌入在一起(相同药物的不同名称),尽管它们具有完全不同的表面形式。图4还突出显示了CESI的失败。例如,丰田和日产已经被嵌入在一起,尽管两者是不同的公司。另一个例子是Pablo和Juan Pablo Angel,它们指的是不同的实体。后一种用于消歧的每个NP的类型信息。在这个如果图4:CESI为ReVerb 45 K数据集学习的NP和关系短语(标记为“· ·· >”)嵌入的t-SNE可视化<我们观察到,CESI是能够诱导非平凡的典型集群。详情请参见第8.4我们可以避免把它们放在一起。我们尝试使用DMOZ[34]数据集,提供从URL域到其类别的映射,用于处理此类错误。但是,由于DMOZ数据集中URL的覆盖率很低,我们我们把它作为未来的工作。9结论规范化开放知识库(KBs)是一个重要但尚未深入研究的问题。在本文中,我们提出了CESI
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功