没有合适的资源?快使用搜索试试~ 我知道了~
Tweet实体链接模型:灵活可扩展的因子图模型与注意力机制
主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法国里昂1135一种用于Tweet实体链接的注意力因子图模型冉晨伟计算机科学与技术清华大学rcw14@mails.tsinghua.edu.cn沈巍*计算机与控制工程学院南开大学shenwei@nankai.edu.cn王建勇†计算机科学与技术清华大学jianyong@tsinghua.edu.cn摘要Twitter的迅速扩张引起了全世界的关注。每天发布的推文超过5亿条,Twitter是一个非常宝贵的信息和知识来源。 许多Twit-ter相关的任务已经被研究,如事件提取,散列标签推荐,和主题检测。从Twitter理解和挖掘信息的关键步骤是消除推文中的实体的歧义,即,tweet实体链接这是一项具有挑战性的任务,因为推文很短,嘈杂,而且新鲜。已经发现了许多特定于推文的信号来解决推文实体链接问题,例如用户兴趣、时间流行度、位置信息等。然而,在以前的工作中存在两个共同的缺点。首先,大多数提出的模型是不灵活和可扩展的,以适应新的信号。其次,它们的可扩展性不足以处理像Twitter这样的大规模社交网络。在这项工作中,我们正式的鸣叫实体链接问题到一个因素图模型,在许多其他应用程序中显示出其有效性和效率。我们还提出了选择性注意实体,以增加我们的模型的可扩展性,这带来了线性的复杂性。为了采用因子图中的注意力机制,我们提出了一种新的节点类型--伪变量节点,以解决因子图无向特性所导致的注意力不对称问题我们在两个不同的手动注释的推文数据集上评估了我们的模型。实验结果表明,我们的模型实现了更好的性能在有效性和效率方面相比,国家的最先进的方法。CCS概念• 信息系统→信息提取;关键词知识图,实体链接,因素图模型,注意力模型*通讯作者†江苏师范大学本文在知识共享署名4.0国际(CC BY 4.0)许可下发布作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW 2018,2018年4月23日© 2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186012ACM参考格式:Chenwei Ran,Wei Shen,and Jianyong Wang. 2018.一种用于推文实体链接的注意力因子图模型 在WWW 2018:2018年网络会议,2018年4月23 日至27日,法国里昂。 ACM, New York , NY , USA , 10 页 。https://doi.org/10.1145/3178876.31860121引言在线社交网络和微博客服务Twitter1的迅速扩张引起了全世界的关注。虽然推文(在推特上发布的消息)被限制在140个字符以内,但推特上有超过3. 3亿的月活跃用户和每天5亿条关于从日常生活到突发新闻等话题的推文。研究人员也注意到这一宝贵的信息和知识来源。已经研究了许多Twitter相关的任务,例如事件提取[14,24],主题标签推荐[6,13]和主题检测[19]。从Twitter理解和挖掘信息的关键步骤是消除推文中的实体的歧义,即,将推文中的提及链接到它们在知识图中的对应实体Wikipedia)。这是一项具有挑战性的任务。推文的特点可以概括为三点[9]:1.简短,每条推文被限制在140个字符内;2.嘈杂的、非正式的首字母缩略词、口语写作风格和错别字在推文中很常见;3.推文中新出现的实体相关信息可能尚未被包括在知识图中。所有这些特征-这些特征使得难以计算提及周围的文本与描述该实体的文档之间的相似性,而这是在传统文档实体链接中链接实体时的重要特征这也意味着同一条推文中的实体更少(如[27]所示,每条推文平均只包含0.76个实体),而同一条推文中不同实体之间的主题一致性是以前工作中的另一个重要特征尽管在推文实体链接中似乎很难利用这些传统特征,但已经发现了各种新颖的推文特定信号。例如,用户兴趣被示出为推文实体链接中的强有力Shen等人[27]表明Twitter中的用户有自己的兴趣。因此,来自同一用户的推文具有有助于推文实体链接的主题一致性Hua等人[11]考虑了一些信息寻求用户(而不是内容生成者)很少发布推文的场景,并声称具有关注者-关注者关系的用户也具有类似的兴趣,即,他们的推文是主题连贯的。时间信号也有助于实现更好的性能,由于新鲜的字符的tweets。例如,Fang和Chang[5]和Hua et al.[11]两者都使用实体在特定时间段内的时间流行度,而不是一般的先验流行度。此外,位置1https://twitter.com主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法国里昂1136信息[5]、主题标签[20]和额外帖子[9]也被示出为对于推文实体链接任务是有帮助的信号。然而,在这些先前的工作中存在两个共同的缺点首先,大多数这些工作提出了特定的模型,这些模型经过精心设计,可以利用一些信号。因此,这些提出的模型是不灵活和可扩展的,以适应新的信号。也就是说,很难将上述各种有效信号组合成单个模型。第二,这些提出的模型中的大多数是不可扩展的。 由于每天发布的推文数以亿计,因此可扩展性对于推文实体链接系统是非常重要的。当考虑不同实体之间的主题连贯性时,模型学习和推理通常成为NP-难问题。一些工作提出了近似算法来找到最佳配置[17,27],但它们很容易陷入局部最优。为了克服这些缺点,本文利用因子图模型来解决推文实体链接问题。因子图模型已成功应用于许多应用中,例如知识库对齐[30],社会关系挖掘[29]和社会影响分析[28]。 因子图模型定义因子分解概率分布。它是一个无向图,包括变量和因子节点。每个因子节点表示一个函数,它连接到变量。由于因子函数可以在任意变量集上定义,因此我们可以使用上面提到的几乎所有信号作为特征。概率分布的因子分解形式使得因子图模型中的学习和推理有效且高效。因子图模型中最困难的学习和推理部分这是棘手的,因为图形结构可以是任意的,并且可能包含循环。循环置信传播[23]是解决该问题的常用近似算法经验证明,它可以得到一个很大的近似值,并具有多项式的复杂度成正比的变量节点的数量和平均度我们强调了可扩展性的推文实体链接系统的重要性在因子图模型中学习和推断时的多项式复杂度对于许多应用是有效的,但对于推文实体链接系统来说还不够好这里,我们解释在仅考虑一个用户的情况下的原因用户兴趣是对同一用户的实体进行歧义消除时最重要的信号之一,这意味着我们需要对同一用户的每两个实体之间的主题一致性进行当我们在推文实体链接问题中应用因子图模型时,每个提及在因子图中具有对应的实体变量节点如果我们考虑每两个实体之间的主题一致性,则存在连接每两个实体变量节点的因子节点它使得变量节点的平均度等于变量节点的个数换句话说,学习和推断时的复杂度将与从一个用户提取的平均提及次数的平方成比例,这对于像Twitter这样的大规模社交网络来说是不可接受为了实现更好的可扩展性,我们采用的因素图模型中我们认为,这是不必要的,以确保每两个实体之间的主题一致性,从同一用户。当我们消除一个实体的歧义时,我们只需要考虑它和它应该支付的实体之间的主题一致性注重剩下的问题是如何处理因子图模型中的不对称注意力,我们将使用伪变量节点来解决它。捐款. 本文的主要贡献是总结-具体如下。我们利用因子图模型来处理推文实体链接的任务。 它是有效的,高效的,灵活的,足以将许多不同的信号组合在一起。据我们所知,这是第一次在因素图模型中采用注意机制通过对实体的选择性注意,我们的注意力因子图模型可以达到线性复杂度。我们还提出了一种新型的节点称为伪变量节点,以解决不对称的注意力问题。为了验证我们的模型的有效性和效率,我们在两个不同的推文数据集上对其进行了 实验结果表明,该模型明显实现了更好的性能比其他国家的最先进的竞争对手。本文其余部分的组织结构如下。在下一节中,我们将介绍相关的工作。在第3节中,我们给出了实体链接问题的形式化定义,并介绍了本文中使用的一些符号在第4节中,我们提出了一个通用的因素图模型的鸣叫实体链接及其学习和推理过程。然后在第5节中,我们解释如何将注意力机制添加到因子图中。我们在第节中评估模型6. 最后在第7节中我们给出了本工作的结论。2相关工作2.1Tweet实体链接早期,人们对新闻文本进行了大量的实体链接研究[1,3,10,25,26]然而,当这些方法应用于推文数据时,它们不能很好地工作,因为推文是短的、嘈杂的和新鲜的。研究人员转向从丰富的推文元数据中发现新的信号。在各种推文特定信号中,用户兴趣可能是最有力的Shen等人。[27]发现来自同一用户的实体是主题一致的,因为用户根据他们的兴趣有自己的潜在主题分布Hua et al.[11]进一步调节用户之间的关注者-关注者关系,以避免从有限数量的推文建模用户兴趣的困难和不准确性时间戳是另一个有用的tweet实体链接信号Fang andChang [11]and Hua et al. [5]两人都发现,实体的时间流行度是比一般先验流行度更好的特征,因为它可以捕获推文的新近特征。 他们根据历史推文数据中实体的出现次数计算了时间流行度。由于提及的模糊性,推文中提到的实体是未知的,他们采用了EM算法的变体时间信号的计算中的另一个挑战是数据的稀疏性。它们分别在时间分箱和实体上平滑时间流行度。除此之外,还有许多其他有用的信号,如位置[5],附加的标签[20]和额外的帖子[9]。一些研究[5,8,31]还发现,将提及检测和实体消歧的任务合并为联合任务可以实现改进。这些工作中存在两个共同的弱点首先,这些模式大多缺乏灵活性和可扩展性···主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法国里昂1137∈⊆∈因子图y2=e3y4=?fь=e2(y1,y2)y2f7=e2(y3,y4)y4f8=e2(y4,y1=e1Y1y3=e1Y3y$y$=?推文fe=e2(y3,y$)M2f1=e1(x1,y1)f2=e1f3=1(x3,y3)f4=e1eM1M$u1M4f$=e1(x$,y$)X2X4u2M3X1X$X3图1:tweet实体链接的因子图模型新功能。其次,他们中的大多数人不能很好地扩展到Twitter这样的大型社交网络2.2因子图模型因子图模型已成功应用于大规模数据的许多应用中,例如知识库对齐[30],社会关系挖掘[29]和社会影响分析[28]。 Tang等人 [29]研究了出版物数据集上的社会关系分类问题。Wang等人 [30]研究了从维基百科构建的数据集上的跨语言知识链接问题。他们使用的数据集都是大规模的。本文将因子图模型应用于推文实体链接问题。2.3注意力模型选择性注意的概念是由Lin et al.[16]第10段。 他们使用句子级卷积神经网络研究了关系提取任务。他们提出了对实例的选择性注意,以克服远距离监控中的错误标注问题此外,深度神经网络中采用的基于注意力的模型已应用于语音识别[2]和图像分类[22]等各个领域。 据我们所知,这是第一次在因素图模型中采用注意机制。3先决条件和注释在本节中,我们首先简要介绍一些基本概念,并定义推文实体链接的任务然后,我们提出的符号在其余的文件。推特推文是推文实体链接任务的数据源。推文的集合由T表示,并且发布推文的用户的集合由U表示。tweets的主要特点是140个字符的限制尽管如此,推文具有丰富的元数据,包括用户信息、转推(re-tweet)、用户信息和用户信息。和相应的用户信息,而其他信号可以很容易地添加到我们的模型中,这将在下一节中详细讨论对于tweet集合T,我们使用其表示的小写来表示其中的元素(即,t T)和下标来索引其中的元素(即,ti表示T中的第i条推文)。本文还对其他集合的元素进行了同样的表示。提及。 提及是指从推文内容中提取的一些实体的文本短语。提及的集合由M表示。实体 实体是唯一的真实世界对象。实体的集合由E表示。虽然实体是唯一的,但它可以具有许多不同的表面形式。例如,纽约市也可以被称为“大苹果”。同时,相同的文本短语可以指代不同的实体。例如,“Jordan”可以指品牌Air Jordan、篮球运动员Michael Jordan或国家Jordan。因此,在提及和实体之间存在多对多的对应关系。然而,在一定的语境中,提及有其明确而独特的语义对应实体。要找到正确的目标实体,需要tweet实体链接。知识图谱。知识图是机器可读的知识集。这里的知识是指实体、它们的语义类别和属性以及实体之间的关系。本文采用的知识图谱是Wikipedia 2。Tweet实体链接。 给定从tweett∈T提取的提及m ∈ M,它可以指代不同的实体。我们称它们为提及m的可识别实体,并将它们表示为Em E. tweet实体链接的目标是识别语义上对应的目标实体e Em,用于提及m,具有m的上下文和tweet t的元数据。一个典型的实体链接系统由三个模块组成:注意检测,候选生成和候选排名。在这发布推文)关系、发布时间和位置,在-标签、图片和URL。我们利用推文的内容2https://en.wikipedia.org主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法国里昂1138∈⊆∪()下一页∪∈()||∈·||∈()→()→()下一页()ii()下一页()下一页在本文中,我们专注于候选排名任务,并将检测到的提及和每个提及的候选实体作为输入。已经通过几项工作研究了推文的提及检测(也称为实体识别)的任务[4,15,18]。提及的候选实体可以从维基百科文章中的实体页面、修订页面、消歧页面和锚短语中收集[26]。特别地,提及m可以是不可链接的,即,在知识图中不存在所述M的相应实体一些方法将这样的提及链接到一个特殊的指称NIL。在本文中,我们假设所有检测到的提及与维基百科可链接对不可链接提及的检测方法有待进一步研究。因子图 因子图可以表示为G = V,F,D,其中V是变量节点的集合,F是因子节点的集合,并且D是边的集合。在因子图中,变量节点表示随机变量,因子节点表示函数,其中,是变量节点的集合。在因子节点fj和每个变量节点vkSj之间存在无向边。因子图中的两种类型的节点形成二分图和不规则图。将推文实体链接问题形式化为因子图模型的图示在图1中示出。1.一、在推文实体链接的场景下,因子图G中的所有变量节点V被划分为两个子集X和Y(即,V=X Y),分别对应于观测变量和隐一提映射到观察变量xi和隐藏变量yi。因此,因子图G总共具有2M个变量节点。X1表示提及M1及其上下文。 它只有一个被观察到的状态。yi表示Mi的语义对应实体。它具有Ki=Emi个可能状态,每个可能状态表示mi个可能涉及的候选实体在本文中,我们也称x为提及变量,y对学习和通过推断,标记一些提及的正确的对应实体。因此,Y可以进一步被划分为两个子集Y_L和Y_U(即,Y=YLYU),分别对应于标记的和未标记的隐变量当使用因子图模型进行学习和推断时,一个重要的算法是循环置信传播算法。该算法涉及在因子图上传递消息我们将从变量节点v i到因子节点f j的消息记为µ ij v i.变量Vi可以采取的可能状态有Ki个,因此消息导致长度为Ki的向量。类似地,从因子节点f j到变量节点v i的消息表示为λ j这也导致长度为Ki的向量。我们提出了一种新的节点类型,称为伪变量节点表1:符号总结符号定义不一个推特收藏U用户集合M从tweets中提取的提及集合TMuM从发布的推文中提取的提及用户uE知识图谱中的实体集合EmE提及m的候选实体G=( V,F, D)的因子图V= X∪ Y变量节点F因子节点D边缘Sj V连接到因子fj的变量节点X观测变量Y= YL∪ YU隐变量Kiyi的可能状态数YL带标签YU无标号µi→j( vi)从变量vi到因子fj的信息λj→i( vi)从因子fj到变量vi的信息Θ加权参数Φ特征函数我的相应伪变量节点隐藏变量yiRi(yj)变量之间的潜在主题一致性yi和yj4.1特征因子图中的因子函数可以以不同的方式实例化。在本文中,我们使用指数线性函数。 具体地,我们将因子函数fj定义为:其中Θ=θ1,θ2,…是加权向量,并且Φ是特征函数的向量。正如我们之前提到的,观测变量xi对应于提及的mi,而隐藏变量yi对应于mi语义上所指的实体在下文中,为了简单起见,我们使用术语提及xi和实体yi在本文中,我们考虑两个特征函数:(1) 先前的声望。 我们利用维基百科中的锚链接来计算给定提及xi的实体yi的流行度,并将第一特征函数定义为:本文中的因子图在我们的模型中,每个隐藏变量都有一个对应的伪变量节点。我们称之为核心。1x,y=count(xi,yi)count(xi)(2)隐变量yi的响应伪变量节点为yi’。表1总结了本文中使用的所有符号。4因子图模型在本节中,我们首先描述我们使用的模型然后详细介绍了因子图模型的学习和推理算法。其中,countxi表示在维基百科中作为锚链接的表面形式出现的提及xi的数量,并且countxi,yi表示具有指向实体yi的表面形式xi的锚链接的数量。(2)基于用户兴趣的主题连贯性如前所示对于同一用户的作品,来自同一用户的提及具有主题连贯性。我们采用[21]中描述的维基百科基于链接的测量(WLM)主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法国里昂1139∏∈联系我们|∑|∏=|∑∑ ∑(一)| )()每个隐藏变量的标签(即,提到Seman的实体∑如果变量vi有一个标签vk,则它发送给任何实体. 给定yi和yj,其对应的提及是从同一用户的推文中提取的隐藏变量因子图的精确边缘概率难以计算,因为因子图的图形结构可以是任意的并且可以包含循环。愚蠢的信仰支柱-1 -2(1-2)(1-2)(|AYI|、|AYJ|)−loд我(三)agation(简称LBP)[23]是一种常用的算法。loд(|一|)−loд(min(|的y|、|的y|))图模型的近似边际概率我们简要这里介绍LBP算法。其中,A是所有维基百科条目的集合,Ay是包含指向实体y的链接的条目的集合。虽然我们只考虑两个功能在本文中,我们声称,我们的模型是灵活的,可扩展的新功能。例如,如果我们想利用时间流行度,我们LBP算法的主要思想是在因子图上传递消息有两种类型的消息:(1) 从变量节点vi到因子节点fj的消息,表示为:可以添加关于xi和yi的新特征函数以捕获该信号。如果我们想利用基于µi→j(vi)=fk:vi∈Sk,fk≠fjλk→i(vi)(7)在主题标签的情况下,我们可以添加关于yi和yj的新的特征函数,y i和y j的对应提及是从具有相同附加主题标签的推文中提取的。更一般地,特征函数可以在任意变量集上定义,同时学习和推理算法仍然可以工作。这意味着从Vi到Fj的消息是来自除Fj之外的Vi的相邻因子节点的消息的乘积。特别地,如果fj是vi的唯一相邻因子节点,则消息被设置为均匀分布。(2) 从因子节点fj到变量节点vi的消息4.2学习给定因子图G,隐变量上的联合分布Y定义为:表示为:λj→i( vi)=Sj:∑vi=xifj( Sj)VKSjviµk→j(vk)(8)p(Y |G)=1fj(Sj)=1exp{ΘTΣΦ(Sj)}=1exp{ΘTΨ}这意味着从fj到Vi的消息是因子fj与来自所有其它连接变量Vi的消息的乘积ZjZj∑零节点,Ψ=Z(四)able节点,在除vi之外的所有变量节点上边缘化(i.e.、Sj\{vi})。特别地,如果Sj={vi},则消息λj→i(vi)=其中Z=Yexp{ΘTΨ}是特殊的归一化因子,其中∑fj(vi).在所有因子节点上。学习因子图模型是为了估计最佳参数。参数配置Θ*,使得给定标记数据的对数似然性最大化。对数似然目标函数定义为:O(Θ)=l〇〇p(Yl )|G)=l〇degeleXp{ΘΤΨ}如果vi=vk,则因子节点为1,否则为0。因为这些信息定义递归,我们初始化所有消息的均匀分布,然后更新的消息根据方程。7、Eq.8迭代。对于最终消息,我们可以计算变量vi的边际概率为:p(vi)∝λk→i(vi)(9)=loдY∑YLY|YL Zexp{ΘTΨ}− loдYexp{ΘTΨ}(5)fk:vi∈Sk我们还可以计算因子fj中涉及的变量集Sj的边际概率为:其中Yl表示具有已知标签的隐变量,并且Yl是从Yl推断的Y的标签配置。梯度下降算法是一种常用的最大化p(Sj)∝fj(Sj)vi∈Sjµi→i(vi)(10)目标函数。参数Θ的梯度计算为:然后,我们使用LBP算法的两步变化来获得梯度,一个步骤用于计算期望EpΘ(Y |Y L,G)Ψ以及用于计算期望EpΘ(Y)Ψ的另一步骤。学习-O(Θ)Θ伊什洛德Y YLexp{ΘTΨ} −loдYexp{ΘTΨ}Θ学习算法也可以扩展到具有图分割算法的分布式学习版本,例如[12]。读者可以参考[29]了解学习算法的详细信息。∑Y |Y L exp{ΘT Ψ}·ΨΣYexp{ΘTΨ}·Ψ=Y|Y LΘexp{ΘTΨ}−Θ∑Yexp{ΘTΨ}4.3推理在我们学习了最佳参数*,我们可以推断出最好=Ep(Y|YL,G)Ψ−Ep(Y)Ψ(6)Θ其中EpΘ(Y |Y(L,G)Ψ和EpΘ(Y)Ψ分别是Ψ关于概率分布pθY(L,G)和pΘY的 两 个 期 望 。为了获得Ψ的期望,我们需要计算边际概率p(yi)和p(yi,yj),然后对所有的概率求和。tically指的是)。最佳标签可以是根据等式(1)具有最高边际概率的状态。9.第九条。或者,更好的方法是找到作为整体的最佳标签,即,找到最大化等式(1)中定义的联合概率的标签jΦ(Sj)是特征函数的聚合主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法国里昂1140第四章:主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法国里昂1141我∑||MuU= U MuK||R 2(yj)=yi,yjiJ我J|U|我们不能处理因素中的不对称注意问题两个实体变量是否局部一致。因此,我们转而衡量两个实体变量之间的潜在主题一致性。给定实体变量yi,我们提出三种方法来测量其与另一实体变量yj的潜在主题一致性:Sum:实体变量yi和yj之间的主题一致性的总和值:R1(yj)=∑2(yi,yj)(13)yi,yj平均值:实体变量yi和yj之间的主题一致性的平均值:图2:伪变量节点的示例∑2(y,y)iKi·KjY*=arдmaxY|YLp(Y|我们也可以使用LBP算法来解决这个问题,只需稍加修改。想法很简单:替换操作员Max:实体变量yi和yi之间的主题一致性的最大值:R3(yj)=Maxy2(yi,yj)(15)算法也被称为最大和算法。4.4复杂性分析我们分析了学习和推理算法的时间复杂度LBP算法的时间成本取决于消息传递过程。在我们的模型中,对应于用户u的提及的隐藏变量连接到Mu因子。因此,在一次迭代中,消息传递的总数为∑||2 ≥||(|二(十二) |||2(12)u然后我们选择关于Eq的顶实体变量。13,等式14 14或Eq.15作为应注意的实体变量5.2伪变量节点第二个挑战是不对称注意力问题,这意味着变量yi应该注意变量yj而yj不应该注意yi的情况显然,我们可以添加一个因子连接到yi和yj,如果它们应该相互注意的话。如果yi和yj不应相互注意,我们可以去掉与它们有关的因子然而,在这方面,其中,Mu表示从每个用户发布的推文中提取的平均提及次数因此,学习和推理算法的时间复杂度具有下限Ω( |U||2)的情况。|2).5对实体的在上一节中,我们讨论了如何在因素图模型中利用基于用户兴趣的主题一致性的直观想法,并且学习和推断算法的时间复杂度具有较低的界限Ω(|U||2)的情况。|2). 在本节中,我们因为因子中没有有向边graph.我们在这里进一步讨论“注意力”在因素图模型中的确切含义。当我们说yi应该关注yj时,我们期望存在一个因子,它的邻居是yi和yj,并且当yj的状态改变时,它的值也会改变当我们说yi不应该注意yj时,我们期望没有这样的因素。现在考虑不对称的情况-尝试注意力。要求存在一个因子,当yj的状态改变时,该因子的值也会改变而不存在这样的因子认为没有必要衡量主题的连贯性-同一用户对应的每两个实体变量之间的间距在这里,我们考虑这样的场景,即我们消除提及m的歧义,而来自同一用户的其他提及的标记实体是已知的。显然,如果标记实体不与m的任何候选实体局部相干,则我们不需要考虑该实体。在因子图模型中,也就是说,我们不需要用因子节点连接这两个实体变量。因此,我们在因子图模型中引入了对实体的选择性注意5.1注意力测量在因子图模型中引入对实体的选择性注意时,第一个挑战是因子图模型中的大多数实体变量是未标记的,这使得难以确定其值将在yi的状态同时改变时改变因此,我们提出了一种称为伪变量节点的新型节点在注意力因子图模型中,每个隐藏变量y具有对应的伪变量节点y’。伪变量节点y’是被观察节点,其状态被设置为:y′=arдmaxyP(y|Y L,G)(16)现在我们讲解一下如何利用伪变量节点来求解不对称注意力问题与图中所示的例子二、 在这个例子中,我们假设y4应该关注y3,而y3不应该关注y4。因此,我们添加了一个连接y4用y3′代替y3当y4的状态改变时,值这个因素会改变。 当y3的状态发生变化时,由于y3′的状态不变,该因子的值也不变。Y2Y4Y1y3'Y3y!(在消息的定义中使用max运算符修改后的主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法国里昂1142(一)|)()下一页∏KKKO(K ||||)K≤||O(K ||||)O(||)K剩下的问题是如何使y′的状态和边缘概率P y YL,G相互影响。我们提出了一个变种的LBP算法来解决这个问题。我们首先固定的状态的伪变量节点和近似的边缘概率,然后我们更新的状态的伪变量节点迭代。所提出的算法在Algo中描述1.一、算法1具有伪变量节点的循环置信传播输入:因子图表2:tweet数据集的统计数据集用户数 #tweets提及次数|Mu|公司简介2038182203110FENG14433458103625790万重定向页面和超过7830万锚链接根据维基媒体统计项目3。我们还利用开源工具包WikipediaMiner 4生成候选en-输出量:G=V、F、D边际概率提及的标题,并计算包括先前流行度的特征(等式2)。2)和主题连贯性(Eq. (3)第三章。1:初始化具有均匀分布的所有消息,所有带有随机标签的2:重复3:根据等式更新所有消息μ第七章:6.1.2推文数据集。我们使用的第一个tweet数据集由Shen等人共享。 [27]。 我们将这个数据集称为SHEN13。Shen等人从Twitter上随机抽取了20名用户,最多做了µi→j( vi)=fk:vi∈Sk,fk≠fjλk→i(vi)200条最近的推文最后,SHEN13包含3,818条推文和2,203条带注释的可链接提及。我们还使用了Feng等人收集的推文”[7]《说文》:“,也。4:根据等式4更新所有消息λ第八章:第二个黄金标准数据集。Feng等人3670万-λ( v)=∑f( S) µ(v)526万用户使用Twitter流媒体发布的狮子推文j→i iJSj:vi=xiJvk∈Sj\{vi}k→jk2014年10月至2014年12月的API我们将这个数据集称为FENG14。我们随机抽取了四分之一的推文5:根据等式2更新所有伪变量节点的状态。十六:y′=arдmaxyP(y|Y L,G)6:直到收敛7:根据等式(1)计算边际概率9、Eq.10个8:返回边际概率5.3复杂性分析我们分析了我们的注意力因子图模型的时间复杂度由于每个变量最多只应关注其他变量,因此每个变量最多只与因素相关。因此,我们的注意力因子图模型的时间复杂度有一个上限约束U 微米的. 当Mu时,我们的模型的时间成本在技术上小于一般的因子图模型。如可以被认为是恒定值,时间com的上界复杂度也可以表示为U 微米的=M这是相对于M中提及的数量的线性复杂度。6实验为了验证我们的注意力因子图模型的有效性和效率,我们在本节中提出了一个彻底的实验研究。我们首先在第6.1节中描述了实验设置。 然后,我们在第6.2节中评估了我们提出的模型的有效性,并在第6.3节中评估了两个不同推文数据集的效率和可扩展性。6.1实验环境6.1.1维基百科数据集。在我们的实验中,我们使用维基百科作为我们的知识图,并把维基百科中的一组文章作为实体集合。我们下载了2017年8月版本的英文维基百科转储,其中包含550万篇文章页面,随机选择了43个用户,每个用户都发布了不止一条推文。最后,我们从43个用户那里获得了3,458条推文我们手动注释了这些推文,并获得了1,036个带有注释的可链接提及。表2中示出了实验中使用的这两个推文数据集的统计。虽然两者都是由推文创建的,但有一些明显的区别。FENG14中关于每条推文和每个用户的平均提及次数均小于SHEN13。6.1.3评价方法。考虑到不同的注意力测量,我们的注意力因子图模型有几种变化:ATT-FULL:当我们设置最大关注数时到大的数目,则注意力因素图模型将回落到一般因素图模型(即,没有对实体的选择性关注的因素图模型我们使用这种变化来评估注意机制的必要性。ATT-SUM:其根据注意力测量值Sum(等式1)选择注意力目标第13段)。ATT-AVG:其根据注意力测量Avg(等式2)选择注意力目标第14段)。ATT-MAX:其根据注意力度量Max(等式2)选择注意力目标第15段)。我们将它们与以下基准方法在准确性和效率方面进行比较:POP:这是一种基线方法,仅利用先前的POP-消除实体歧义的能力 在该方法中,我们选择具有最大先验流行度的可识别实体作为最佳标签。KAURI:这是[27]中提出的最先进的方法。该模型从所有候选实体构建图。图中的每个节点表示候选实体,并且其具有通过先验概率、上下文相似性和主题一致性估计的初始兴趣得分。然后提出了一种类似PageRank的算法3 https://stats.wikimedia.org/EN/TablesWikipediaEN.htm4https://github.com/dnmilne/wikipediaminer主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法国里昂1143KK()下一页KKKKKKKKKKKK||表3:不同方法的有效性性能方法公司简介FENG14#正确应计(%)#正确Acc.(%)流行176079.981678.8Kauri189085.886883.7ATT-FULL201691.591588.3ATT-SUM200190.890387.2ATT-AVG202291.891288.0ATT-MAX201891.691788.5在候选实体之间传播兴趣得分最后,提及的最佳标签是具有最大最终兴趣分数的实体。为了定量评估所提出的模型,我们考虑两个方面:有效性和效率。对于有效性评价,我们考虑双重交叉验证。更具体地说,我们构造的因素图模型与所有提及。然后,我们隐藏一半节点的标签来学习参数并推断另一部分的最佳标签我们评估上述方法的准确性。对于效率评估,我们检查模型学习的执行时间。我们的注意因子图模型需要两个输入:学习率η和最大注意数. 两个加权参数的学习率η被设置为0。01 0 1.一、最大的注意数,ber被设置为110和25为SHEN13和FENG14分别。我们还将分析对模型性能的影响。所有的算法都是在Java中实现的JAMA5的快速矩阵运算的支持下,并进行了实验上的个人计算机与英特尔至强CPU E3-1230 v3(3.30GHz)和16 GB的内存。在本文中,我们不使用分布式学习,只考虑单机实现。6.2有效性在本小节中,我们研究了我们的注意力因素图模型在不同配置下的有效性,并将其与一些基线进行了比较。在两个tweet数据集上使用不同方法的有效性性能的实验结果在表3中示出。 我们提出了正确连接的门的数量和准确性。可以观察到,我们的模型的所有变化都显著优于基线可以看出,用户兴趣是一个非常强大的信号,因为它帮助我们的模型在两个数据集上的准确性与基线POP与最先进的方法KAURI相比,我们的模型在数据集SHEN13可以实现6%的改进,在数据集FENG14上可以实现4.8%的改进。由于它们都利用了用户兴趣信号,因此这种显著改进的原因是因子图模型可以更好地捕获不同变量之间的相关性并推断出更好的全局最优配置。此外,我们可以看到,我们的注意力因素图模型的不同变化略优于一般的因素图模型ATT-FULL。5http://math.nist.gov/javanumerics/jama其中,变体ATT-AVG在数据集SHEN 13实现了最佳性能,并且变体ATT-MAX在数据集FENG 14上实现了最佳性能然而,与一般因子图模型ATT-FULL相比,变异ATT-SUM导致两个数据集上的性能降低。我们进一步研究了不同的注意测量和不同的最大注意数的影响。实验结果示于图1。3.第三章。如前所述,当设置为较大的数字时,不同注意力测量的变化将回到一般因素图模型。从图中可以看出从图3可以看出,当最大注意力数量增加时,具有不同注意力测量的变化的准确度在两个数据集根据实验结果,我们可以得到三个主要的观察结果首先,当最大关注数增加时,我们的注意力因子图模型实现了更好的性能,因为更多的关注目标带来了更多有用的消歧信息第二,我们的注意力因子图模型在较小的情况下仍然可以取得相对较好的性能。当在数据集SHEN13上设置为30并且在数据集FENG 14上设置为10时,我们的模型表现出基线KAURI,因为这两个数字是两者分别小于两个数据集的数量Mu。第三,变量ATT-MAX优于其他两个变量,特别是当被设置为小的数字时。我们证明了在对一个提及m进行消歧时,发现我们应该注意的提及是一个有效的措施。6.3效率和可扩展性在本小节中,我们研究了我们的注意力因子图模型的效率和可扩展性。 由于注意力因子图模型的时间复杂度不依赖于注意力度量,我们只比较了变异因子图模型ATT-MAX与一般因子图模型ATT-FULL的时间复杂度。更具体地说,我们报告了在两个数据集上具有不同实验设置的学习算法中一次迭代的平均运行时间。我们首先在图4中展示了不同最大注意力数的运行时间。如前所述,当被设置为较大的数字时,注意力因子图模型将我们可以看到,我们的注意力因子图模型比一般的因子图模型更有效ATT-MAX与我们之前描述的最大注意数的设置的变化导致在两个数据集上与ATT-FULL相比,运行时间分别减少 我们还可以观察到,平均运行时间与最大注意数近似线性,这验证了第5.3节中的复杂性分析。因此,我们可以实现更好的效率,进一步减少最大的注意数,只是轻微的准确性下降。最后,我们研究了我们的注意力因子图模型我们比较了不同数据集大小的不同模型的平均运行时间实验结果如图所示五、 可以观察到,模型ATT-MAX的平均运行时间与数据集的大小近似线性,而模型ATT-FULL的曲线更像是二次函数。这一观察结果验证了我们在4.4节和5.3节中的复杂性分析。因此,可以说我们的注意力主题:Web内容分析,语义和知识WWW 2018,2018年4月23日至27日,法国里昂1144充分充分(a) 公司简介图4:不同最大吸光度K(b) FENG14图3:不同注意力指标和不同最大注意力数K的有效性表现在Twitter这样的大规模网络中,因子图模型比原因子图模型具有更好的可扩展性7结论在本文中,我们研究的问题,鸣叫实体链接。我们将推文实体链接问题形式化为因子图模型,该模型已成功应用于许多应用中。我们consider两个功能(事先流行和主题连贯性的基础上,用户的兴趣)在我们的模型。然而,我们声称,我们的模型是灵活的,可扩展的新功能的因素节点可以定义在任意的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功