基于语言模型的Web关系数据注释

91 浏览量更新于2023-10-16 收藏 12.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13070使用语言模型在Web上注释关系数据0MatteoCannaviccio罗马第三大学意大利罗马cannaviccio@uniroma3.it0DenilsonBarbosa阿尔伯塔大学加拿大埃德蒙顿denilson@ualberta.ca0PaoloMerialdo罗马第三大学意大利罗马paolo.merialdo@uniroma3.it0摘要0Web页面上的表格和结构化列表是有价值的信息来源，已经提出了几种方法来用语义注释它们，以便进行搜索、问题回答和信息提取。本文关注的是从给定的知识图（KG）中找到和排名适用于表格或结构化列表中并列的实体对的关系的特定问题。这个任务的最新技术是尝试将表格单元格中提到的实体链接到KG中的对象，并对那些链接对象适用的关系进行排名。因此，即使在当今最好的知识图中，这些方法也受到了不完整和不均匀覆盖的限制。这里描述的替代方法不需要实体链接，而是依靠从Web规模语料库中得到的生成语言模型来对关系进行排名。因此，即使表格中的实体在KG中缺失，它也可以产生高质量的结果。实验验证旨在揭示KG不完整性带来的挑战，结果表明我们的方法在实践中是稳健和有效的。0ACM参考格式：Matteo Cannaviccio，Denilson Barbosa和PaoloMerialdo。2018年。使用语言模型在Web上注释关系数据。在WWW2018：2018年Web会议上，2018年4月23日至27日，法国里昂。ACM，美国纽约，纽约，10页。https://doi.org/10.1145/3178876.318602901 引言0Web是一个庞大的内在关系知识源，表达在数以亿计的文档中的数以亿计的表格和更多的结构化列表中。Web规模的表格语料库已经找到了许多应用，包括搜索和问题回答[5, 15, 28]，知识图构建[8, 19, 26,27]，模式理解和自动完成[5,31]等。然而，与信息编码在易于自然语言理解工具的文本中的文档不同，编码在表格中的事实和关系是隐含的，因此很难自动提取。理解Web表格的各种方法归结为两个主要任务：（1）识别表格中每一列的类型，以及（2）识别表格中的关系0本文发表在知识共享署名4.0国际（CC BY4.0）许可下。作者保留在其个人和公司网站上传播作品的权利，并附上适当的归属。WWW 2018，2018年4月23日至27日，法国里昂。© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可发布。ACMISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860290film.film.featured_film_locations0film.film.actor0图1：詹姆斯∙邦德电影的演员和拍摄地点的网页表格。0表格中的列对。作为一个激励性的例子，图1显示了一个典型表格的片段（在这种情况下来自维基百科），可以使用Google表格或从一组DOM树中诱导出的自动包装器等工具轻松提取和解析。对于人类来说，很明显看到表格的第二列是第一列中电影中扮演的演员。稍加努力（例如，在阅读带有该表格的文章之后），人类可以推断出第三列是第一列中电影的拍摄地点的国家。然而，提取这些类型和关系对于依赖于用于编码知识的语言模式的基于文本的信息提取工具来说是不可达到的。Web表格理解的第一种方法[28]是严格的词汇方法，使用频繁出现的关键词和短语作为注释，并且主要用于基于关键字的表格搜索。然而，主流方法是利用现有的Web规模知识图（KG）进行语义Web表格理解，其中一种方法是使用KG本体对列进行实体的类别注释，对列对进行KG本体中的关系注释[12, 15, 24, 25,37]。为此，这些方法尝试通过将表格中的实体链接到KG中的对象来消除表格中的实体的歧义。如果可以做到这一点，就可以立即使用覆盖表格中实体的本体类型注释每个表格列。接下来，可以推断出一对列之间的关系，通过对KG关系进行排名，基于它们对表格的行中的（实体对）的覆盖。尽管非常直观，上述方法受到现有KG的明显不完整性[18, 29,32]的阻碍，这些KG缺少许多实体（不仅仅是晦涩的尾实体）以及实体之间的许多关系。更准确地说，KG的不完整性引入了两个问题。首先，如果Web表格主要包含不在KG中或无法轻松链接的实体，那么无法进行表格注释。值得一提的是，最先进的实体链接方法依赖于在Web表格理解的上下文中几乎不可用的文本特征（例如关键短语）。其次，特定的KG覆盖范围0跟踪：Web内容分析、语义和知识WWW 2018年4月23日至27日，法国里昂。LM1LMnLM2NoisyORPLMoutputranked list of relationsr1, r2, …, rk1............213080网络搜索。0使用语言模型进行排名。0句子。0为知识图谱关系构建语言模型。0输入实体对... 。0图2：我们方法的概述。0关系往往存在偏见，即使实体可以正确链接，也可能导致意外结果，如下所示。图1的例子是系统地选择的，以说明由于知识图谱不完整性而引起的问题。我们选择了一个表格，其中的列单元格：（1）很难链接到Freebase对象，（2）参与部分填充的感兴趣关系。在我们的例子中，电影的名称很难与其各自的原声音乐专辑区分开，即使使用复杂的字符串匹配方法（例如，[30]）。此外，虽然我们可以轻松区分表格中的国家，而且Freebase有一个专门用于电影拍摄地点的关系，但该关系的覆盖范围严重偏向于最近的电影，缺乏大多数邦德电影的拍摄地点。然而，在音乐领域，Freebase并不那么不完整。事实上，它包含了邦德电影原声音乐发行的所有国家。因此，人们会倾向于使用与专辑发行地区相关的谓词来注释图1的第一列和第三列之间的关系，但在这种情况下是不正确的。（顺便说一句，在撰写本文时，YAGO和DBpedia也缺乏大多数邦德电影的拍摄地点。）01.1问题陈述。0为了方便起见，我们采用Freebase的符号和术语。按照惯例，我们将知识图谱建模为一个带标签的有向多图KG =(N，E，L)，其中N，E和L是节点、边和标签的集合。节点可以是实体，使用称为“m-id”的唯一标识符表示（例如m/03_gd），也可以是带引号的文本字面量（例如"JamesCameron"），或者是本体中的路径表示的类型（例如film/director）。L中的标签定义了关系名称（例如film/director/film）。E中的边是状态或三元组，可以用于为实体分配类型（例如�m/03_gd，type/object/type，film/director�）；描述实体（例如�m/03_gd，type/object/name，"JamesCameron"�）或者关联实体对（例如�m/03_gd，film/director/film，m/0dr_4�）。我们假设KG本体为每个关系的域和范围指定了类型。本文旨在描述和评估一种有原则和有效的方法，用于预测Web表格列之间存在的KG关系。（注意，这样做可以将列本身的域和范围类型与KG本体中的关系进行注释。）预测哪些关系适用于实体对等于对这些实体的所有KG关系进行排名，然后根据排名阈值或取排名前k个关系。因此，在本文中，我们关注并评估关系排名而不是预测。不失一般性，我们假设输入是一组实体对，因为可以始终进行转换。0短语频率。0发布于0.23。0在0.17的排行榜上名列前茅。0仅在0.14中可用。0拍摄于0.04。0（a）音乐/发行/地区。0短语频率。0拍摄于0.44。0设定为0.26。0拍摄于0.14。0发布于0.03。0（b）.../featured_film_locations。0图3：艺术作品和国家之间的生成语言模型。0句子频率。0Dr. No完全在牙买加拍摄的6。0Dr. No的拍摄地点是牙买加的Ocho Rios 3。0Dr. No是基于和拍摄于牙买加的2。0Dr. No在牙买加的金斯敦拍摄的1。0图4：�"Dr. No"，"Jamaica"�的Web搜索结果。0将多列表或嵌套列表转换为一个或多个成对集合。此外，我们假设集合中的所有成对关系相似；换句话说，输入不是随机的。更准确地说：0定义1.给定一个主-客体实体对集合I = {�s1, o1�, ..., �sn,on�}和一个来自KG的关系名称列表L，产生一个按照相关性递减排序的关系列表r1, ..., rk，这些关系在I中的实体对上成立。01.2我们方法的概述0图2说明了我们的方法，它受到已建立的用于信息检索的语言模型（LMs）的启发[36]，其中目标是单独建模每个文档，并根据对应模型生成查询的可能性对文档进行评分。在我们的设置中，知识图谱关系扮演“文档”的角色，实体对扮演“查询”的角色。0KG关系模型。我们使用用于表达关系的短语对KG关系进行分布建模。我们从ClueWeb09语料库中的大约5亿个英文文本中学习这样的模型，利用Google的FACC1注释语料库将Freebase实体的m-id分配给这些文本中出现的提及。根据开放关系抽取的最新技术[20]，我们收集在语料库中m-id之间出现的短语，并过滤掉描述本体关系（例如“是一个”和变体）和不符合已知词性标记模式定义的短语[7]。关于LM构建的详细信息请参见第3节。0关系排名。为了对实体对�si,oi�的知识图谱关系进行排名，我们使用这些实体进行Web搜索，并从Web搜索结果中提取连接实体的关系短语。然后，我们根据它们对应的模型生成从Web搜索中提取的短语集合的可能性来评分知识图谱关系。继续我们的运行示例，图3a显示了与将专辑与它们发行的国家相关联的LM的一些短语。0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France313090而图3b显示了电影拍摄地点关系的短语。图4显示了带有实体�"Dr.No"，"Jamaica"�的Web搜索中的一些句子。在这种情况下，关于电影地点的关系将比关于专辑发布的关系排名更高。这里考虑了两种知识图谱关系评分模型（见第4.2节）：（1）PLM，即“标准”的合取方法，最大化查询中所有术语的可能性；（2）NoisyOR，一种析取方法，排名可能会偏向少数高度相关的短语。最后，注意当输入包含多个实体对时，我们需要一种方法来找到相对于所有这些实体对的关系的聚合分数。同样，这里讨论和评估了两种做法（第4.3节）：（a）一种全局策略，将所有对的所有句子合并为一个单一的全局查询用于对LMs进行排名（一次）；（b）一种局部策略，我们为每个对产生一个排名，将它们合并以得出最终的预测。0评估。据我们所知，目前没有关于知识图谱不完整性及其如何影响表格理解的基准。因此，我们设计了两个实验来说明我们的方法如何克服这个问题。在第一个实验中，我们使用一个合成基准，其中包含了一些既是真实的又被Freebase、DBpedia和YAGO所缺失的事实（第5节），这是根据我们之前的工作[6]进行的。在第二个实验中，我们使用维基百科的表格，其中一个最先进的网络表格注释工具[24]无法产生任何输出（第5.7节）。0贡献。我们描述了一种有效的方法，用于对命名实体对进行排名，相对于当前最先进的方法，该方法对知识图谱的不完整性不太敏感。与以前的工作不同，我们的方法不要求实体链接，甚至不要求实体在知识图谱中存在。相反，我们的方法适用于网络搜索返回描述实体关系的短语的任何情况。我们的方法是通用的：它不特定于任何知识图谱、语料库或自然语言，而且网络搜索可以被任何大型语料库的搜索所替代。最后，也许我们方法的最大优势是它基于与知识图谱覆盖无关且不受其偏见的语料库统计数据来预测关系。我们的实验评估在公开可用的数据集上进行，表明我们的方法可以正确预测知识图谱内和知识图谱外实体的关系，而最先进的方法则失败，因此可以显著改进该领域的先前工作。02相关工作0语言模型在信息检索中的应用远不止文档排名[14, 22,36]。一种最先进的实体搜索方法[2]基于“实体语言模型”，利用实体类别（即语义类型）对答案进行排名和过滤，根据所需的类型（如电影、专辑等）。其他应用包括使用关键词和实体示例的查询在RDF结构化链接数据和知识图上进行搜索和排名[4]，或者在底层结构化数据[23]上解释所谓的电报式文本查询[13]。语言模型还可以用于对精确、放松和关键字增强的结果进行排名0RDF图上的图模式查询[10,34]在将自然语言问题转化为KG上的SPARQL查询[35]等方面具有应用。我们使用语言模型进行关系预测。我们的工作借鉴了利用文本中出现的短语与KG关系之间的二元性的关系预测方法（例如[1, 3, 9,17,33]），只是我们使用严格的过滤器来去除非关系和本体模式[7]。虽然我们使用语言模型进行预测并取得了良好的结果，但信息检索领域和/或信息抽取领域的其他排名模型和关系预测模型也可以用于相同的目的。我们将调查其他评分模型在我们的设置中的表现作为未来的工作。我们的动机是解决Web表格理解的问题，这被广泛认为是Web上的宝贵知识来源[5]。第一个解决方案[28]用于搜索，用“is-a”数据库的关键词注释列，并用与表中实体频繁出现的关键短语注释列之间的关系。另一方面，通过用在相应实体上成立的KG关系注释列对的方法，我们的方法用语义信息注释表格。使用我们的方法，列可以根据KG模式注释为预期的（语义）类型。最近的Web表格理解工作将表格单元中的实体链接到KG对象，并将列对与在它们上成立的KG关系链接起来[12, 15, 25,37]。这个领域的早期工作[15]学习了一个概率图模型，用实体标识符注释单元、用KG类型注释列和用KG关系注释列对，最大化分配的联合概率。另一个想法是将表的每一行建模为描述KG中单个实体的一组（可能是多值的）属性[25]；然后将表的每一行与DBpedia中的实体进行匹配，考虑表头以及它们与DBpedia本体中的类的匹配程度。与这些工作不同，我们的方法不需要将实体链接到KG对象，因此应该对KG的不完整性不太敏感。我们通过两种方式实验证实了这个假设。首先，我们使用一个合成基准，其中的事实既是真实的，又是已知缺失的Freebase、DBpedia和YAGO数据集（第5节），这些数据集来自[6]。其次，我们对维基百科的表格进行实验，一个最先进的Web表格注释工具[24]无法产生任何输出（第5.7节）。我们的评估证实了我们的假设，并表明我们的方法可以与先前的工作结合使用，以提高Web表格理解工具的效果。03 构建语言模型0在我们的设置中实现准确的结果需要从大量的短语中派生出的语言模型，这些短语是关系型、语法正确且频繁的（以便它们可能与在预测时收集的证据相匹配）。因此，我们使用ClueWeb09的英语子集和Google的FACC1语料库提供的50亿个注释。0指示哪些文本跨度包含已知于Freebase的实体的提及，通过它们的m-id进行识别。将文本中实际提及的命名实体替换为相应的m-id，我们得到以下内容：0/m/06mr6著名主演/m/06k5xq，此外还有/m/0clpml。01 http://lemurproject.org/clueweb090Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, FranceWe were able to find 19M distinct pairs of m-ids that are connectedby a (filtered) relational phrase in the ClueWeb09 corpus. Only1.4M of these pairs (8%) belong to one of the approximately 5KFreebase relations. In total, these 1.4M pairs are related through2.36M distinct phrases in the corpus. Although we found somefairly long phrases, the majority of them are relatively short (4.3tokens per phrase on average). As expected, we observed that the413100由于在Freebase中，实体/m/06mr6（演员肖恩∙康纳利）和/m/06k5xq（虚构人物罗宾汉）通过关系film/actor/.../character相关联，我们将短语“著名主演”添加到该关系的语言模型中（也添加到这些实体之间的所有其他关系的模型中）。简而言之，构建语言模型归结为：对于属于某个关系的每对m-id，从语料库中提取连接这些m-id的所有短语，过滤无信息的短语并相应地聚合计数。接下来，我们解释执行的过滤步骤，以提高语言模型的质量。03.1 过滤短语0我们的目标是预测实体对之间的关系，例如人与人之间的家庭和浪漫关系，人与组织之间的就业关系，以及组织之间的商业关系。为了保持我们的语言模型高度专注，我们利用轻量级自然语言处理工具丢弃了通用和无信息的短语。0过滤无信息的短语。并非所有连接实体的短语对于关系预测都有用。例如，在上面的句子中，“著名主演”描述了周围实体之间的实际关系，而“此外”连接/m/06k5xq（罗宾汉）和/m/0clpml（詹姆斯∙邦德）的短语则没有。为了过滤掉这种噪声，我们解析包含m-id对的句子，并检查连接实体的短语是否符合已知的描述二元关系的语法模式[7]，丢弃不符合条件的短语。这一步骤消除了绝大多数的短语，但确保了我们的语言模型是语法正确且具有预测性的。0占位符泛化。我们经常可以（也应该）泛化揭示相同关系但在某些细节上有所不同的短语。例如，“主演了第三部电影”和“主演了第一部电影”表达了相同的关系，并被泛化为“主演了ORD部电影”，其中“ORD”代表任意序数。我们对其他常见的通用类型的实例应用类似的泛化，如日期、距离和数字。图5总结了与相对频率（即短语数量）一起使用的占位符。0进一步过滤。我们对描述实体的类成员关系不感兴趣，例如肖恩∙康纳利是演员，詹姆斯∙邦德是虚构人物。其他重要的本体关系涉及人的种族、组织的业务领域等。因此，我们丢弃那些是这些情况下经常使用的“是一个”模式的变体的短语（例如，“是一位英国演员”或“曾是一位美国活动家”）。03.2 短语统计0全局统计0标注的m-id对（在KG中相关）19个，标注的关系（≥1个短语）1.4M个，不同的关系短语2739个，2.36M0占位符0AGE（3.2K），DATE（1K），LENGTH（3.4K），MONEY（5.5K），ORD（15K），SCORE（3.3K），TIME（2K），UNIT（1K），WEIGHT（100），YEAR（845）0过滤模型统计0关系（≥200个短语）500个，派生的语言模型1934个，27.7K0图5：过滤过程后的统计数据。0语料库中短语按频率分布遵循幂律。03.3 基于类型特化的语言模型0Freebase本体规定了可以参与任何给定关系的实体的预期类型。例如，关系/film/film/subject，描述电影的主题，具有域/film/film和范围/film/film_subject。尽管有些信息，但这些类型相当通用。例如，传记电影的主题是人（因此是/people/person的实例），而纪录片的主题可以是组织或地点。然而，请注意，这些不同类型的电影的语言模型可能非常不同：关系短语“是传记”的适用于主题是人的电影，而“描绘创立”的适用于关于组织的电影。为了考虑到这种细微差别，我们根据典型NER系统2可以自动推断的通用实体类型以及在Freebase中可用的/people/person，/organization/organization和/location/location将与每个关系相关的短语进行分区。一个通用的“misc”类型用于所有其他实体。这导致每个FB关系最多有16个不同的语言模型，每个类型组合一个。03.4 模型统计0最终，在Freebase的4819个关系中，我们能够为2739个构建模型。为了在这里报告的评估目的，我们仅对那些至少能找到200个不同短语的关系进行了实验。这对应于500个关系和1934个不同的模型（平均每个关系3.78个语言模型，基于NER类型的组合）。图5总结了我们从ClueWeb09中派生的语言模型数量以及我们在实验中使用的模型数量的统计数据。04 关系排序0本节详细介绍了关系排序的步骤。02 人物（PER），地点（LOC），组织（ORG）和其他（MISC），由斯坦福NER[11]定义。0跟踪：Web内容分析，语义和知识WWW 2018年4月23日至27日，法国里昂P(p|θD)c(p,Q)(1)P(p|D) =(3)P(D|p) =l L c p, Dl(6)5131104.1 从网络中收集证据0给定实体对�s1，o1�，我们进行Web搜索，寻找提及给定顺序中的两个实体的句子。为了本文的目的，我们从Google返回的片段中收集句子，以节省时间和带宽。实际的关系评分是在与用于构建语言模型的短语匹配的片段中进行的。也就是说，我们以与第3.1节中描述的相同方式处理片段。如果在同一个片段中找到多个关系短语，我们的系统会使用所有这些短语。此外，我们通过定期通过私人虚拟网络服务获得新的IP地址，以尽量减少Google搜索中地理定位和个性化的影响。当然，我们的系统不限于Google。实际上，可以使用大型Web爬行的本地索引（例如ClueWeb或Webcommons爬行）来代替Google进行此步骤。我们比较了两种短语匹配策略：精确匹配（相等）和浅层近似匹配，其工作原理如下。给定一个文本范围，我们使用字符级别的n-gram（3-gram）找到候选短语，然后使用模糊Jaccard相似度[30]对它们进行评分，该相似度考虑了单词之间的模糊匹配3。近似匹配具有明显的精确度和召回率权衡：它引入了噪声，但导致匹配的短语更多。例如，在Web搜索片段中，“filmed entirely in”可以匹配属于不同语言模型的短语“wasfilmed in”和“were filmedby”。我们研究了这种权衡，并在实验评估中确认近似匹配通常提高了排名的质量。04.2 单个实体对的排名0如第1.2节所述，我们采用IR方法根据与实体对相关性对KG关系进行排名。为了回顾符号并避免混淆，每个“文档”D对应于一个KG关系，每个“查询”Q对应于通过Web搜索获得的连接实体的关系短语。给定实体对�si, oi�，我们用a(�si,oi�)表示计算该对产生的查询的所有文档的排名，根据得分(∙,∙)函数计算（下面解释）。0查询似然得分。查询似然检索模型假设查询术语是从文档派生的语言模型中抽取的样本。形式上，给定查询Q和文档D，从中派生模型θD，我们按得分递减的顺序对文档进行排名，定义为：0得分(Q, D) = P(Q | θD)。0已经使用了许多方法来估计P ( Q | θ D)。我们从鲁棒的多项式语言模型开始，该模型假设术语是独立生成的，并通过插值（即Jelinek-Mercer平滑）避免过拟合[36]。更确切地说，令C为包含所有短语的文档，S为短语集合。那么：0得分(Q, D) = �0其中：03 我们使用Jaro-Winkler相似度，阈值为0.9。0P(p | θD) = λP(p | D) + (1 − λ)P(p | C) (2)0| D |和P(p | C) = c(p, C)0上述中，c(p,∙)表示查询Q、文档D或语料库C中短语p的频率。我们将此排名方法称为PLM，即短语语言模型，在实验评估中，我们将λ设置为0.9。0分离门得分。查询似然方法使用合取门来结合多个短语的证据，同时预测关系的可能性：一个模型如果不能生成查询中的大多数短语，那么它很可能排名靠后。在我们的设置中，这往往是过度的。例如，我们可以相当确定，通过短语“was filmedin”连接的一对实体之间存在关系/film/film/featured_film_locations。这里的一个隐含假设是用于构建语言模型和查询的短语的频率是它们可靠性的良好代理。虽然这在Web规模上似乎是合理的，但可以考虑到来源的可信度[8]，例如通过重新排序或先验过滤。为了允许更宽松的预测，我们计算每个关系的得分，通过插值其先验概率和后验概率，条件是查询中的每个单独短语。我们使用“噪声OR”门[21]来聚合每个短语的后验概率：0得分(Q, D) = βP(D | p1, ..., pQ) + (1 − β)P(D) (4)0其中：P ( D | p 1 , ..., p Q ) = 1 − �0p ∈ Q (1 − P(D | p)) (5)0“噪声OR”门与标准PLM以不同的方式结合证据：如果查询包含与该关系相关的任何高频短语，则该关系得分较高。在实验评估中，我们将此排名方法称为NoisyOR。与标准模型的λ一样，β是一个控制平滑程度的系数。我们将其实验性地设置为β = 0.8。04.3 多个实体对的排名0现在我们转向适用于一组实体对�s1, o1�，...，�sn,on�的问题的一般形式，例如来自同一张表的不同行，我们需要以某种聚合形式对KG关系进行排名。我们考虑两种生成聚合排名的方法。第一种是全局方法，我们将每个单独对的Web搜索结果合并为一个查询，用于对所有KG关系进行排名，而第二种是局部聚合方法，我们通过合并为每个对单独获得的排名来对KG关系进行评分。0全局聚合。在这种聚合方法中，我们构建一个查询Q'，其中包含从实体对�si，oi�派生的每个Qi中的所有短语，以及适当的短语计数，并使用公式1或公式4生成最终答案的单个排名，具体取决于所使用的评分模型。0局部聚合。在这种方法中，我们首先对每个实体对的所有关系进行排名，然后将这些排名组合起来对关系进行评分。设ai =a（�si，oi�）为实体对�si，oi�的排名，根据公式1或公式4计算得到。0Track：Web内容分析、语义和知识WWW 2018年4月23日至27日，法国里昂We now report on an experimental evaluation of the LM-basedrelation ranking approach to show it does not suffer from the KGincompleteness problem and, thus, can be a viable alternative toEntity Linking (EL) approaches. To do that, we experiment first ontwo corpora of facts involving pairs of in-KG entities, comprising9 relations from the person domain (Tab. 1 shows the relations).The first corpus, called LectorFacts, consists of facts known tobe missing from DBpedia and Freebase. The second corpus, calledKGFacts, comprises the same relations as LectorFacts, but withfacts that are present in both DBpedia and Freebase. With thesetwo corpora, we can simulate the scenarios where EL methodsshould work (KGFacts) and the scenario where they would not(LectorFacts). We thoroughly evaluate our system both with indi-vidual pairs of entities (Sec. 5.2) and also with sets of pairs (Sec. 5.3)as input, under a variety of scenarios. Then, to further illustratethe KG incompleteness issue, we evaluate our approach on pairs ofcolumns from Wikipedia tables mixing in-KG and out-of-KG enti-ties but for which a state-of-the-art EL method, T2K Match [24–26],fails to identify the correct relations (Sec. 5.7).For the experiments reported here, we trained our method wasto predict 500 different Freebase relations (recall Sec. 3.4) and usedGoogle for the Web search step.613120对于实体对�si，oi�，根据评分模型的不同，计算得到an = a（�sn，on�）=ran1，ran2，...，ranj。关系的局部聚合得分是其在所有个体排名中的平均（倒数）排名：0a1 = a（�s1，o1�）=ra11，ra12，...，ra1k...0n0聚合得分（r）= 10ai0�0排名（r，ai）（7）05 实验0关于LectorFacts和KGFacts的统计数据。据我们所知，以往的Web表格理解基准测试都没有考虑到知识图谱不完整的情况下，即使所有实体都在知识图谱中，实体链接方法也无法预测出一个好的关系。因此，我们依赖于唯一一个已知缺失于主流和公开可用的知识图谱中的事实语料库[6]4，并将其称为LectorFacts。我们将评估范围限定在原始语料库中的9个非本体关系上，并从每个关系中选择50个事实（即实体对）。为了进行比较，我们创建了一个类似的基准测试KGFacts，通过从LectorFacts中的每个关系中随机选择50个实体对，这些实体对在DBpedia和Freebase中都出现。从某种意义上说，这两个基准测试相互补充：KGFacts中的事实涉及突出的实体对，并在Web搜索中生成更多的命中。如表1所示，平均而言，我们能够获得两倍的04 可在以下网址下载：http://downloads.dbpedia.org/2016-04/ext/lector_facts/ 5people/person/nationality，people/person/religion和people/person/ethnicity是本体关系，因此被忽略。0关系 LectorFacts KGFacts0sent. phrase sent. phrase0ex. ap. ex. ap.0people/person/parents 39.5 2.8 4.9 93.5 8.6 16.6 people/person/education22.3 1.3 2.2 113.3 8.6 16.8 sports/pro_athlete/teams 61.4 3.5 6.3 131.4 17.329.9 people/person/place_of_death 55.1 1.5 3.3 126.3 10.9 21.5government/politician/party 37.7 1.6 2.5 102.8 11.0 21.9people/person/place_of_birth 54.2 2.5 4.4 119.9 9.7 18.5award/award_winner/awards_won 58.1 2.7 6.1 94.2 8.2 15.0people/person/spouse 49.0 2.7 5.5 84.2 8.5 15.4 people/person/children43.2 2.0 4.1 82.0 7.1 14.20平均46.7 2.3 4.4 105.3 10.0 18.90表1：从Web搜索中检索到的句子的平均数量及与精确和近似方法获得的匹配短语的相应数量。每个关系由50个实体对组成。0与LectorFacts相比，该语料库上的命中次数（表中的“sent.”列）较少。表中的“phrase”下的两列显示了与Web搜索返回的句子匹配的关系短语（平均数），这些短语用于构建语言模型并用于我们的方法中的关系预测。我们尝试使用句子和关系短语的精确匹配和近似匹配。为了清晰起见，除了第5.4节中的结果外，所有报告的结果都使用精确匹配。05.1度量0给定一个由主体-客体实体对组成的集合I = {�s1, o1�, ..., �sn,on�}，我们只有一个正确答案（这些对用单个关系标记）。为了评估系统产生的排名，我们使用倒数排名[16]，它对应于正确关系的排名的倒数。更具体地说，设a(I) = r1, ...,rk是对输入对I的预测的响应，其中关系按相关性递减的顺序给出，truth(I)是I的真实关系，则倒数排名(a, I)为：0倒数排名(a, I) =0k �0i = 101(真实(I0i (8)0其中1(∙)是指示函数（如果其参数中的条件成立，则返回1，否则返回0），a[i]是排名中位置i的关系。请注意，该度量隐含地考虑了召回率。实际上，如果系统没有预测任何排名或正确的关系不存在，则倒数排名为0。最后，我们使用均值倒数排名（MRR）[16]来评估多个输入集I = I1，...，In的结果：0MRR(I) = 1 |I|0�0Ij ∈I倒数排名(a, Ij) (9)05.2个体实体对的MRR0图6显示了在预测每个50个实体对的关系时，KGFacts上的MRR(I)相对于LectorFacts更容易，正如预期的那样。0Track: Web Content Analysis, Semantics and Knowledge WWW 2018, April 23-27, 2018, Lyon, France●●●●●●●●0.40.60.81.0●●●●●●●●0.40.60.81.0●●●●●●●●0.40.60.81.0●●●●●●●●0.40.60.81.0713130LECTORFACTS KGFACTS0获奖0子女0教育0父母0政党0出生地点0死亡地点0配偶0团队00.0 0.5 1.00.0 0.5 1.0 MRR0NoisyORPLM0图6：个体实体对的MRR0在排名模型中，从数量上来说，噪声OR比PLM在KGFacts语料库上更有效（分别为0.64和0.53的MRR），在LectorFacts上更有效（分别为0.46和0.35的MRR）。这可以通过在KGFacts中可以获得更多的关系短语对来解释（参见表1）。观察不同关系的MRR结果，可以看到有些关系比其他关系更难预测。这是由于一些语言模型中短语的歧义性所解释的。例如，“是...的女儿”几乎只在people/person/parents中使用。类似地，“赢得了”和“被授予了”这样的描述性短语与award/award_winner/awards_won强烈相关。其他关系则通过只能在上下文中解释的通用短语来表达，例如“...的领导者”、“领导了”或“离开了”，它们出现在.../person/employment、.../politic

下载后可阅读完整内容，剩余1页未读，立即下载