细粒度维基百科类别实体搜索

166 浏览量更新于2023-10-16 收藏 12.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Track: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France16230利用细粒度的维基百科类别进行实体搜索0DenghaoMa中国人民大学madenghao@ruc.edu.cn0Yueguo Chen �0中国人民大学chenyueguo@ruc.edu.cn0Kevin Chen-Chuan ChangUIUC kcchang@illinois.edu0XiaoyongDu中国人民大学duyong@ruc.edu.cn0ChuanfeiXu华为技术有限公司xuchuanfei@huawei.com0YiChang华为美国研究院Yi.Chang@huawei.com0摘要0临时实体搜索是指根据自然语言问题查询检索相关实体的排序列表，这一问题已经得到广泛研究。已经表明，实体的类别匹配，尤其是与细粒度实体类型/类别匹配，对于实体搜索的性能至关重要。然而，现有研究对细粒度维基百科实体类别的潜力尚未得到充分利用。基于对人们如何描述特定类型实体的观察，我们提出了一个头词和修饰词模型，深入解释查询和细粒度实体类型/类别。设计了概率生成模型，以有效估计头词和修饰词的相关性，作为基于模式匹配问题的输入，以解决查询中概念/实体的临时表示问题，其中维基百科类型分类是一个重要的输入。对三个广泛使用的测试集（INEX-XER2009、SemSearch-LS和TREC-Entity）进行了大量实验，结果表明我们的方法在实体搜索性能方面取得了显著的改进，超过了现有方法的水平。0CCS概念0• 信息系统 → 信息检索；检索模型和排序；0关键词0实体搜索；类别匹配；语言模型0ACM参考格式：Denghao Ma，Yueguo Chen，Kevin Chen-ChuanChang，Xiaoyong Du，Chuanfei Xu和YiChang。2018年。利用细粒度的维基百科类别进行实体搜索。在WWW2018：2018年网络会议上，2018年4月23日至27日，法国里昂。ACM，美国纽约，10页。https://doi.org/10.1145/3178876.318607401 引言0� 通讯作者0本论文发表在知识共享署名4.0国际许可证（CC BY4.0）下。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW2018，2018年4月23日至27日，法国里昂，© 2018IW3C2（国际万维网会议委员会），根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860740例如，对于查询“Major LeagueBaseball中的日本球员”，我们可以期望检索到一份包含曾经在Major League Baseball中打过球的日本棒球运动员（如HidekiMatsui，Kazuhiro Sasaki，IchiroSuzuki）的列表作为即时答案。这与主要返回相关文档作为搜索结果的通用网络搜索引擎有很大的不同。早期的实体搜索研究[13]假设查询中至少已经明确指定了一个目标类型（本文中也称为类别）。这一点很重要，因为许多研究[2, 8,16]表明，类别匹配在查找相关实体方面起着非常重要的作用。然而，在许多情况下，在查询中提供明确的目标实体类型会给用户带来认知负担，特别是当他们对要检索的实体的基础类型分类不熟悉时。这激发了一些研究[2, 15,16]，假设查询主题只是一个自然语言问题。他们通过检索与查询相关的前k个实体类型，并将它们视为缺失目标实体类型的替代品来解决缺少目标实体类型的问题。因此，即使在查询中没有明确的目标实体类型，现有的实体搜索方法仍然可以通过计算实体类型/类别与目标实体类型的相关性来实现类别匹配。找到自然语言问题的前k个相关实体类型因此成为类别匹配的关键组成部分。Balog等人[2]应用词袋模型使用语言模型评估实体类型与查询的相关性。然而，这种以术语为中心的方法效果不佳，因为基于词袋的语言模型通常无法有效估计短文本的相关性，其中常常存在词汇差距。Kaptein等人[16,17]提出了一种以实体为中心的方法，从查询检索到的前k个相关实体中投票选出相关实体类型。然而，这种方法效果不佳，因为一些流行和通用的类型/类别更有可能是相关的。Balog等人[4]还尝试根据每个实体类型的配置文件（以类型为中心的方法）对实体类型进行排名，但发现这种方法不如以实体为中心的方法好。还尝试了一种学习排序方法[15]，以应用更多特征来对实体类型进行排序。然而，该方法检索到的目标实体类型往往是通用实体类型。许多实体搜索方法的类别匹配框架存在一些缺点：1）类别匹配模型主要基于词汇表。重要的概念和实体对于解释查询意图以及类型语义至关重要，但在查询和实体类型中没有被识别出来。因此，纯基于术语的类别匹配方法导致召回率较低，因为用户可能使用替代方式来表达他们的意图。2RELATED WORKTrack: Web Search and MiningWWW 2018, April 23-27, 2018, Lyon, France16240概念/实体。2）由于现有类别匹配的排名模型的限制，查询的许多相关实体类型是查询意图的错误解释[15]，当它们被用作查询的目标实体类型时，它们对实体搜索性能的影响将进一步放大。维基百科收藏品已被许多实体搜索方法广泛使用[2，8，16]，作为支持实体搜索的基础语料库。维基百科中的实体（维基文档）被集体标记为许多细粒度的类型/类别，这为实体提供了很多语义。一些最近的研究[9，14，16]已经利用了它们，表明实体搜索的性能从使用细粒度的维基百科类别中受益匪浅。然而，我们认为现有的类别匹配方法[2，8，16]没有充分发挥细粒度维基百科类别的作用，因为存在上述缺点。我们观察到，在许多列表实体搜索的情况下，人们试图找到特定类型的实体，其意图通常可以用创建细粒度维基百科类别的类似方式来表示。他们倾向于使用一个通用概念来描述相关实体的基本类型，然后应用一些术语/实体来限制类型为更具体的类型。作为本文的关键思想，我们提出将查询和细粒度实体类别都建模为一个头词加上一些修饰词，其中头词表示一般的查询/类型意图，修饰词限制意图的范围。例如，在 Major League Baseball 中的 Japanese players的情况下，我们可以使用 players作为头词，其他术语/实体作为修饰词。通过使用头词-修饰词模式解释查询和类别，而不是词袋模型，我们能够设计一个全面的类别匹配模型，将模式化的查询与模式化的类别进行匹配，作为一种新颖的基于模式的文档（类别）检索模型。然而，要实现这样的头词-修饰词模式检索模型存在两个挑战。首先，给定查询和类别的分解头词和修饰词，如何从各个组件的匹配（即头词到头词，修饰词到修饰词，头词到修饰词）有效地构建匹配？我们将头词视为一等公民，并将相关模型有效地分解为四个独立的组件，这些组件进一步使用概率生成模型进行估计。其次，在匹配各个组件时，我们如何解决重要概念/实体的词汇/概念差距？词嵌入技术[18]并不可靠。例如，根据嵌入模型， Alan Moore 的小说与 Frank Miller的小说高度相关。我们利用细粒度维基百科类别的结构来发现维基百科类型分类中概念/实体的替代表示。据我们所知，这是第一篇将查询和类别都建模为头词-修饰词模型，并设计全面的基于模式的文档（类别）检索模型来量化模式化类别与模式化查询的相关性的工作。我们对三个广泛使用的实体搜索测试集（INEX-XER 2009[13]，SemSearch-LS [6]和TREC-Entity[3]）进行了大量实验。实验结果表明，我们的方法在实体搜索性能方面取得了显著的改进。0近年来，对列表实体搜索问题引起了广泛关注。专家查找任务（TREC企业赛道[10]）专注于检索与查询相关的人员列表。INEX实体排名任务[13]将专家查找任务扩展到维基百科中包括更多实体类型。该任务的主题包括查询术语和一个或多个目标实体类型[11]。TREC2009实体赛道[3]引入了相关实体查找任务，即识别满足与源实体具有指定关系并具有目标类型约束的目标实体的主页。这些任务使用文本语料库作为实体搜索的基础。一些最近的任务，如语义搜索挑战[6]，INEX链接数据赛道[28]和链接数据问答挑战[19]，应用结构化知识库（例如DBpedia）来支持实体搜索。然而，它们超出了本文的范围。实体搜索的解决方案主要集中在上下文匹配（评估与查询术语的相关性）和类别匹配（评估与目标实体类型的相关性）[8]。文档模型[1]已被证明是上下文匹配的有效模型[2，7，8]。类别匹配已被证实对实体搜索的性能至关重要[2，8，16]。为了充分利用实体类别，人们假设查询主题中明确提供了一些目标实体类型[2，8，13，16]。[16]中的作者评估了估计实体类别与目标实体类型之间相关性的三种方法：1）二进制距离：基于两个实体类型是否相同的简单二进制函数；2）标题距离，根据两个实体类型中术语的纯文本相似性评估相关性；3）内容距离，根据两个实体类型的概要估计相关性，这些概要是通过收集每个类型的实体的上下文生成的。他们表明，二进制距离仅在目标实体类型来自类型分类（即它们被明确定义）时有效，而标题距离在目标实体类型是特定类别时是更好的选择。查询中使用的目标实体类型直接影响类别匹配的有效性。然而，提供特定和准确的目标实体类型对用户来说是额外的负担，因为他们通常没有类型分类中的类别知识[2，15，16]。因此，[2，15，16]中的作者提出检索查询的前几个相关实体类型作为提供给实体搜索方法的目标实体类型。排名目标实体类型的策略主要可以分为：1）以术语为中心的策略[2]：提出了一个标准语言模型，用于根据术语估计实体类型与查询之间的相关性。然而，由于词汇差距问题，估计短文本的相关性非常具有挑战性，因此其性能不佳。[23]通过使用一些NLP特征来估计单个查询术语的不同权重，但它没有解决词汇差距问题；2）以类型为中心的策略[4]：为每个实体类型创建一个伪文档，通过连接属于该类型的所有实体的描述来创建。然后，使用标准语言模型来估计查询和伪文档之间的相关性；3）以实体为中心的策略[16，17]：首先找到查询的相关实体。然后，实体为它们的类别投票，然而，这通常会检索到一般的实体类型；p(e|q)=p(q|e)p(e)p(q)(1)∝p(q|e)p q e = pc q e 1−α0 pt q e α0(2)162504) 学习排序策略 [ 15 ]:它不仅考虑了以类型为中心和以实体为中心的策略，还考虑了其他相关信号，如基于分类法的特征和类型相似性。研究表明，学习排序策略比其他两种策略更好。然而，它面临的问题是经常检索到与查询意图不准确匹配的一般实体类型。维基百科收藏中的实体（每个实体都有一个维基文档）被集体标记为许多细粒度的维基百科类别。这些细粒度的实体类别被组织成一个重叠的“树”类型的分类法，其中只有很少的顶级实体类别。除了顶级类别之外的每个类别可能有多个父类别 [ 16]。维基百科实体类别是由许多不同的人类编辑创建和标记的。因此，它可能存在一些数据质量问题。然而，为了控制类别标记的质量，维基百科在编辑者将某些类别分配给维基文档时提供了一些准则。例如，类别标记的两个一般规则是：1）标记的类别应尽可能具体；2）应避免相似的类别。它还提供了一种同行评审机制来进一步控制类别标记的质量。研究 [ 29 ]表明，超过90%的带实体的网络查询包含头词和一些修饰词。一些实体搜索的研究 [ 8 , 24 ]尝试使用头词和修饰词来建模实体类别。他们表明，类别匹配受益于对基于术语的头词和修饰词的简单使用。尽管头词和修饰词在查询理解中被广泛使用 [ 29 ]，但它们在建模文档中很少使用。研究 [ 27 ]尝试从查询和文档中提取头词-修饰词对，并将它们作为术语进行索引。然后，应用语言模型根据术语以及头词-修饰词对对文档进行排序，设置为文档检索。然而，它仍然基于词袋模型，没有解决词汇/概念差距的挑战。03 问题定义0对于实体搜索，我们将候选实体 e 与查询 q的相关性形式化为生成概率 p ( e | q )。根据贝叶斯定理，这样的概率可以重写为：0其中 p ( q | e ) 是从实体 e 生成查询 q 的概率，p ( e ) 是实体 e的先验概率，p ( q ) 是查询的概率。我们假设 p ( e )在所有实体上均匀分布，因此它不影响排名。概率 p ( q )对于给定的查询 q 是一致的。因此，我们有 p ( e | q ) ∝ p ( q | e )，因此可以使用 p ( q | e ) 估计实体 e 与查询 q 的相关性。已经表明[ 8 ]上下文匹配和类别匹配是实体搜索的两个重要组成部分。因此，我们将 p ( q | e ) 分解为两个组成部分，p c ( q | e ) 和 p t ( q | e )，分别模拟上下文匹配和类别匹配的相关性。它们通过两个相关性得分的加权聚合统一起来：0其中参数 α 0用于调整上下文匹配组件和类别匹配组件之间的权重。当 α 0 = 0时，仅应用上下文匹配模型对实体进行排名。相应地，如果 α 0 = 1，则仅应用类别匹配模型。在本文中，我们的重点是设计类别匹配模型。[ 8 ]的上下文匹配模型直接应用于我们的研究中。类别匹配的相关性估计为：0pt(q|e)=maxt∈T(e)p(q|t)p(t|e)(3)0其中T(e)={t|e∈t}是实体e所属的类型集合，p(t|e)是从实体e生成类型t的概率。组件p(q|t)是生成查询q的类型/类别t的概率。它用于捕捉类型与查询的相关性。由于实体使用具有非常高置信度的细粒度维基百科类别进行标记，因此我们设置p(t|e)=1，对于t∈Te。其他研究[8,16]也使用最大函数进行类别匹配，使用类型t∈T(e)的最高相关性得分作为实体e的类别匹配相关性。然后，估计pt(q|e)是为了找到与查询q相关性得分p(q|t)最大的实体e的类别t。因此，我们将基本类别匹配问题定义为：问题定义：给定一个自然语言问题q和一个细粒度实体类别t∈T，其中T是类型分类法，估计相关性p(q|t)。这种方式的类别匹配支持在统一模型中对实体类型进行排序，而无需生成目标实体类型作为中间结果。在整个实体搜索解决方案中，我们不需要计算每个类型的类别相关性，而只需要计算从上下文匹配模型派生的候选实体的那些类别。04 类别匹配模型0在我们的方法中，查询和实体类别都使用头词和修饰词进行建模，以便它们被视为有效类别匹配的基本元素。如何有效地提取实体和概念，以及如何从短文本中检测头词已经被许多查询理解技术研究过（例如，[26,29]）。因此，这不是本文的重点。我们只需应用一个开源工具[25]来识别查询和实体类型中的实体/概念。对于检测头词，我们应用以下自然语言模式：0•模式1：如果查询/类型是一系列名词和形容词（例如，意大利诺贝尔奖得主），则提取最后一个名词作为头词（下划线标记）。•模式2：如果查询/类型包含一些用于连接两个组成部分的介词（例如“A for B”，“A of B”，“A withB”），那么A几乎包含头词[29]。例如，百年战争中的贵族英国人。然后，我们使用模式1处理组成部分A。•模式3：如果查询/类型是一个定语从句（通常包含“where”，“which”等“WH”术语），修饰词0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, Francep(q|t)=p(hq, Mq|t) = p(hq|t)p(Mq|t)=p(t|hq)p(hq)p(t)p(t|Mq)p(Mq)p(t)∝p(t|hq)p(t|Mq)=p(ht, Mt |hq)p(ht, Mt |Mq)=p ht hq p Mt hq p ht Mq p Mt Mqp q t = p ht hqp Mt hqp ht Mqp Mt Mqp(ht |hq) =(6)16260“WH”术语的“头词”被用作主题词。例如，出现在《布鲁斯兄弟》电影中的音乐家。修饰词由查询/类型中的所有其他非停用词以及从查询/类型中提取的实体/概念（除检测到的头词外）组成。在我们的类别匹配方法中，我们单独处理头词和修饰词，并更加强调头词部分。这是因为头词通常作为实体类别的根（一般类型）。因此，查询和实体类别之间头词的有效匹配是保证类别匹配性能的先决条件。另一方面，修饰词在查询和实体类别之间的有效匹配也很重要，因为它帮助我们利用细粒度实体类别的修饰词所隐含的语义约束。对于查询q，令hq为其头词，Mq={m1,...mk}为其修饰词集合。令ht和Mt为实体类型t的头词和修饰词。假设头词和修饰词之间是独立的，我们如下估计p(q|t)：0其中 p ( h q ) 是词头 h q 的概率，p ( M q ) 是修饰语 M q的概率，p ( t ) 是实体类别 t的概率，假设在所有实体类型上均匀分布。可以通过模式匹配估计概率 p ( q | t ) ，其中包括4个组成部分 p ( h t | h q ) 、p ( M t | h q) 、p ( h t | M q ) 和 p ( M t | M q ) 。概率 p ( h t | h q )称为词头相关性，p ( M t | M q ) 称为修饰语相关性。组成部分 p (M t | h q ) 和 p ( h t | M q )称为词头-修饰语相关性。为了避免在估计这些组成部分时受到不同尺度的影响，我们对它们进行了一些加权，使得概率 p ( q | t )实际上被估计为：0这些参数满足 α 1 + α 2 + α 3 + α 4 = 1 .0，并且它们的值可以从一些特定测试用例的验证集中学习得到。然后，我们引入概率生成模型分别估计这些组成部分的相关性。04.1 词头相关性0组成部分 p ( h t | h q ) 用于捕捉两个词头 h t 和 h q的相关性，以处理 h t 和 h q不同的概念间隔的情况。例如，对于查询 Works by CharlesRennie Mackintosh。具体的查询意图实际上是 buildings,structures，这些常常作为维基百科类型分类中相关实体类别的词头。如果我们简单地检索具有与查询相同的词头（即Works）的实体类别，我们肯定会得到较低的类别匹配召回率。为了有效地估计 p ( h t | h q )，我们使用细粒度维基百科实体类别的类型分类构建了一个词头上位词图。在这个有向图中，顶点是从维基百科实体类型/类别中提取出的词头。一条边0如果一个词头h t 是另一个词头h t ′ 的直接上位词，则会创建一个边h t → h t ′。为了构建词头上位词图，我们根据维基百科类别的上位词关系统计词头-词头上位词对。给定两个实体类别 t 和 t′（例如，美国人按职业和美国作家），满足 t 是 t ′的父类别，我们创建一条边 h t → h t ′（例如，people →writers），并计算具有此词头上位词关系的类别对的数量作为边的权重。通过这种方式，可以生成一个初步的词头上位词图。然后，我们过滤掉那些权重小于3的可能噪声边，部分避免了那些上位词类别对的影响。剩下的边构成了用于估计词头相关性的词头上位词图。请注意，这种构建词头上位词图的方式可能偶尔会生成循环。例如，works → books和books →works都存在于词头上位词图中。然而，它们不会影响词头相关性的估计。有了词头上位词图，我们可以估计词头相关性 p ( h t | h q )如下：0�0如果h t是h q的子节点或孙子节点，则为10| H ( h t )| 如果 h t 是 h q 的父节点，则为10| S(ht)| else if ht是hq的父节点 0otherwise0其中H(ht)是ht的子节点的头词集合，S(ht)是ht的孙节点的头词集合。显然，hq的这些下义词头词（通常出现在细粒度实体类别中）与上义词头词（一般头词，可能偏离查询意图）相比具有更大的相关性。根据上述方程，hq的相关头词仅限于与hq的图距离不超过两个的头词。这旨在减少上义词头词对的影响。04.2 修饰词相关性0为了估计修饰词相关性p(Mt |Mq)，我们提出应用一个利用类型分类法T的语言模型。修饰词相关性的估计值为:0p(Mt | Mq) = p(Mq | 0p(Mq) (7)0 Mt)0= �0m ∈ Mq p(m | Mt) n(m,Mq)0其中p(Mt)是修饰词Mt的概率，n(m,Mq)衡量修饰词m在修饰词Mq中出现的次数。组成部分p(Mq |Mt)是从修饰词Mt生成修饰词Mq的概率。假设概率p(Mt)在所有实体类型上均匀分布，我们可以将p(Mt | Mq)的估计转化为p(Mq |Mt)，从而可以应用标准语言模型来估计概率p(Mq |Mt)。因此，我们需要估计组成部分p(m |Mt)，即从Mt生成修饰词m的概率，作为估计修饰词相关性的基础。0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, Francep(ht |Mq)=p(Mq|ht )p(ht )p(Mq)(10)∝p(Mq|ht ) =�m∈Mqp(m|ht )n(m,Mq)=�m∈Mq(p(ht |m)p(m)p(ht ))n(m,Mq)∝�m∈Mqp(ht |m)n(m,Mq)where p(Mq|ht ) is the probability of generating the query modifiersMq from the headword ht . The component p(m|ht ) is the genera-tive probability of the modifier m from the headword ht , and thecomponent p(ht |m) is the generative probability of the headwordht from the modifier m. The component p(m) is the probability ofa modifier m, which is assumed to be uniformly distributed over allmodifiers. The component p(ht ) is also assumed to be uniformlydistributed over all headwords. According to the Bayes’ Theorem,as shown in the above equation, we are therefore able to modelthe relevance p(ht |Mq) using a language model. The estimation ofp(ht |m)is then the only component to be resolved.We propose to estimate p(ht |m) from the text contexts of m andht . It is then estimated as:p(ht |m)=p(ht |ctx(m))(11)=(1 − λ3)n(ht,ctx(m))�w n(w,ctx(m)) + λ3p(ht |D)where ctx(m) is the contexts of the modifier m, which is composedof the surrounding texts of m. The component n(w,ctx(m)) mea-sures the frequency of the word w appearing in the context ctx(m).Correspondingly, n(ht,ctx(m)) measures the frequency of entitieswhich have a category with the headword ht , presenting in thecontext ctx(m). The componentp(ht |D), as a smoothing factor witha weight λ3, represents the probability of generating ht from thedocument corpus D, which is also evaluated based on the frequencyof entities having a category of the headword ht over all possiblewords that can be extracted from D. Equation 11 is therefore anapplication of the language model for estimating the generativeprobability of ht in the contexts of modifierm. To estimate the prob-ability p(ht |m), we need build a context profile for each modifier inMq. We first retrieve top relevant documents of q as the documentset for building the context profile of its modifiers. The contextprofile ctx(m) is then the aggregation of contexts (sentences) wherem appears in the selected document set.Note that the headword relevance p(ht |hq) (in Equation 6) al-lows us to find some relevant headwords of the query headword hq.However, it is not enough to constrain the query intent without thesupport of the headword-modifier relevance p(ht |Mq). For exam-ple, for the query Works by Charles Rennie Mackintosh, candidateheadwords such as Films, Novels, Stories, Books, Buildings, Struc-tures, Architecture will be the relevant headwords of hq, in termsof p(ht |hq). The headword-modifier relevance p(ht |Mq) somehowmakes up the shortcoming of the headword relevance p(ht |hq) byalso considering the relevance of headwords in the contexts of Mq.The estimation of the other headword-modifier relevancep(Mt |hq)in the Equation 5 is quite similar to that of p(ht |Mq).p(Mt |hq)=�m∈Mtp(m|hq)n(m,Mt )n(Mt )(12)=�m∈Mt(p(hq|m)p(m)p(hq))n(m,Mt )n(Mt )∝�m∈Mtp(hq|m)n(m,Mt )n(Mt )16270为了使用语言模型估计概率p(m |Mt)，我们需要解决m不出现在Mt中的情况，通过使用一些平滑因子来处理。然后，组成部分p(m | Mt)可以估计为:0p(m | Mt) = (1 - λ1 - λ2) Mt)0n(Mt) + λ1 p(m | T) + λ2 p(m | D)0其中n(Mt)是Mt中修饰词的数量，p(m |T)是从类型分类法T生成修饰词m的背景概率，p(m |D)是从语料库D生成术语/实体m的背景概率。参数λ1和λ2用作两个平滑因子的权重。作为背景概率，组成部分p(m | T)可以估计为�tn(m, Mt) �tn(Mt)。考虑到修饰词m可能也不出现在类型分类法T中，因此我们应用第二个平滑因子p(m |D)。为了解决查询q和实体类别t之间那些实体/概念的词汇差距，我们将Mq中的实体/概念扩展为查询的一部分。扩展的方式如下：对于Mq中的每个实体/概念e（也是一个修饰词），我们提取e的实体类别作为T(e)。然后，通过合并每个实体类型t ∈T(e)的修饰词Mt，生成扩展的修饰词集合Me。对于Mq中的每个实体/概念的扩展修饰词集合Me，可以修正方程7中的修饰词相关性p(Mt| Mq)的估计值:0p(Mt | Mq) ∝ p(Mq | Mt) �0e ∈ Mq p(Me | Mt) (9)0= p(Mq | Mt) �0e ∈ Mq0�0m ∈ Me p(m| Mt)04.3 头词修饰词相关性0为了估计方程5中的头词修饰词相关性p(ht |Mq)，我们需要利用文档语料库中修饰词的上下文。不适用类型分类法来估计p(ht |Mq)的原因是，由于查询中可能使用临时查询词，Mq的修饰词可能不属于任何实体类型T。这将导致无法找到足够的证据来有效评估p(ht | Mq)。因此，头词修饰词相关性p(ht |Mq)是使用语言模型来估计的:0其中组件n(Mt)旨在归一化头词-修饰词相关性p(Mt|hq)，使其不受Mt中修饰词数量的影响。组件p(hq|m)使用与方程式11相同的方式估计，将ht切换为hq。计算p(Mt|hq)与计算p(ht|Mq)的主要区别在于，用于构建修饰词上下文概要文件的文档来自具有类型的维基百科实体的文档。0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, France116280在计算p(ht|Mq)时，使用Mq作为查询术语而不是使用Mq作为查询术语时的前几个相关结果。05实验设置5.1数据集0我们在三个实体搜索测试集的设置中评估了我们的方法和基线的性能：0• INEX-XER 2009（INEX）：INEX 2009 Entity Ranking track[13]推出了一个包含55个主题的实体搜索测试集，其答案是维基百科实体。我们忽略了INEX中为每个主题明确给出的目标实体类型。一个示例查询是Alan Moore的图形小说改编成电影。•SemSearch-LS（LS）：该测试集用于2011年语义搜索挑战赛的列表搜索任务[6]。与[5]一样，我们使用了43个有维基百科答案的50个主题。一个示例是登上月球的阿波罗宇航员。•TREC-Entity（TREC）：它是为TREC 2009 Entitytrack的相关实体查找任务而构建的。与[5]一样，我们使用了17个有维基百科答案的20个主题。一个示例查询是乐队JeffersonAirplane的成员。0根据这些测试集，我们在实验中使用了2008年版维基百科语料库的文档集合。它包含了267万个实体，每个实体都有一个维基百科文档，371,797个细粒度实体类别和8,074,151个实体-类别对。为了从纯文本中提取实体，我们使用了一个开源工具Wikipedia-Miner[22]，它将非结构化文本作为输入，并使用机器学习技术检测输入中的维基百科实体提及。尽管这些测试集的实验报告了实体搜索的整体性能，但是可以通过将实体搜索方法的类别匹配模型替换为其他替代方法来评估类别匹配模型的性能。05.2评估指标0我们采用以下指标来评估测试方法的性能：0• p@k：前k个结果中相关实体的百分比。•R-pre：前R个结果中相关实体的百分比，其中R是主题的正确答案的数量。•MRR：主题的倒数排名是第一个正确答案的排名的倒数。平均倒数排名（MRR）是所有主题的倒数排名的平均值。•MAP：测试集中所有主题的平均平均精度。它的估计如下[20]：0MAP =1/|Q|0|Q|是主题集合0j = 10|Mj|0i = 1 p@Rk (13)0其中Q是主题集合，Mj是查询j的答案集合，Rk是第k个答案在Mj中的排名。•xinfAP：通过采用分层随机抽样来结合非随机相关判断的扩展推断AP [30]。在INEX Entity Rankingtrack的评估中，它取代MAP成为官方评估指标。05.3基线0我们的方法与实体搜索的三个基线进行了比较：BBR[2]：它应用了一种以术语为中心的类别匹配方法。实体和查询都使用基于术语的表示和基于类别的表示进行建模。然后，应用KL散度来计算生成查询的基于术语/基于类别表示的概率，给定实体的基于术语/基于类别表示。为了构建查询的基于类别的表示，它应用了标准语言模型来估计实体类别与查询的相关性。使用与查询相关的前10个实体类别来构建查询的基于类别的表示。KK[16]：它应用了具有Jelinek-mercer平滑的语言模型来估计查询术语和实体上下文之间的相关性以进行上下文匹配。对于类别匹配，它显示在INEX测试集上，标题距离在估计实体类别和目标实体类型之间的相关性方面效果最好。它应用了一种以实体为中心的策略来获取目标实体类型。从上下文匹配模型中获取的前50个相关实体用于投票选择相关类别。从中得到的前2个相关类别被视为目标实体类型。CGS[8]：它结合了上下文匹配、类别匹配和结果排序，以实现良好的实体搜索性能。但是，它假设目标实体类型是明确给定的。为了与我们的方法进行比较，我们应用了[15]中提出的学习排序方法，为每个查询找到一些相关的实体类别。仍然，我们的实验中将前2个相关类别作为目标实体类型。PBM（代表基于模式的匹配）：这是我们提出的方法，也应用了CGS的上下文匹配模型。05.4 参数设置0为了估计我们的模型以及其他比较解决方案的参数，我们应用坐标上升（CA）算法，在总和归一化和非负约束下优化MAP/xinfAP指标。CA算法是一种常用的优化技术，它在保持所有其他参数固定的情况下迭代优化单个参数。我们在每个测试集上使用5折交叉验证进行参数调整。对于我们的方法，我们不调整参数λ1，λ2和λ3，将它们设置为λ1 =λ2 = 103，并且λ3 = 0.5。在估计p(ht |Mq)时，我们使用前20个相关文档来构建修饰符的配置文件。我们关注参数α0，α1，α2，α3和α4的设置。由于要求α1 + α2 + α3 +α4 = 1.0，我们将它们初始化为[0.5, 1, 0, 0,0]，并使用3次随机重启运行CA算法。为了测量统计显著性，应用双尾配对t检验。我们使用�表示0.01水平上的差异，使用†表示0.05水平上的差异。06 结果 6.1 研究问题0我们解决以下研究问题：0•RQ1：通过利用本文提出的模型，能否通过利用细粒度的维基百科实体类别来提高实体搜索性能？（§6.2）0Track: Web Search and Mining WWW 2018, April 23-27, 2018, Lyon, FranceBBR-0.1840.1770.1560.3120.1740.151BB

下载后可阅读完整内容，剩余1页未读，立即下载