没有合适的资源?快使用搜索试试~ 我知道了~
1908NetTaxo:基于文本丰富网络的自动主题分类构建JingboShang加州大学圣地亚哥jshang@ucsd.edu鲨力张欣阳伊利诺伊大学香槟分校xz43@illinois.eduJiaweiHanLiyuan Liu伊利诺伊大学香槟分校ll2@illinois.edu伊利诺伊大学香槟shal2@illinois.edu伊利诺伊大学香槟hanj@illinois.edu摘要主题分类法的自动构建可以为Web搜索、推荐、知识发现等应用提供有益的帮助。自动分类法构建的主要优点之一是能够捕获特定于语料库的信息并适应不同的场景。为了更好地反映语料库的特点,我们考虑了文档的元数据,并将语料库视为一个文本丰富的网络。在本文中,我们提出了NetTaxo,一个新的自动主题分类,文本数据类型的元数据(a) 大量科学论文的数字收集示例。(b) 示例数字集合的文本丰富的网络视图。结构框架,它超越了现有的范式,允许文本数据与网络结构协作具体来说,我们从文本和网络中学习术语嵌入作为上下文。采用网络模体来捕获适当的网络上下文。我们进行了一个实例级的选择图案,进一步细化根据每个分类节点的粒度和语义的术语嵌入。然后应用聚类来获得分类节点下的子主题。在两个真实数据集上的大量实验证明了该方法的优越性,进一步验证了实例级模体选择的有效性和重要性。ACM参考格式:Jingbo Shang,Xinyang Zhang,Liyuan Liu,Sha Li,and Jiawei Han.2020. NetTaxo:从文本丰富的网络自动主题分类结构 在网络会议2020(WWW '20)的会议记录,2020年4月20日至24日,台北,台湾。ACM,纽 约 州 纽 约 市 , 美 国 , 12 页 。https://doi.org/10 。1145/3366423.33802591引言构建高质量的文献主题分类法是图书馆的一项重要任务。 主题分类法是一个树形结构的层次结构,其中每个分类法节点包含一组语义相似的术语。高质量的主题分类有利于各种下游应用程序,例如搜索和索引[43],个性化内容推荐[46]和问答[42]。为这些作者对这项工作作出了相当大的贡献。本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2020 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-7023-3/20/04。https://doi.org/10.1145/3366423.3380259图1:包含元数据的文档集合可以被视为富文本网络。例如,将大量的科学论文组织成一个结构良好的分类法,使研究人员能够鸟瞰该领域,然后他们可以快速确定他们的兴趣,并轻松获取所Yelp1上的高质量商业评论分类可以促进更准确的推荐并改善用户的浏览体验。不同的应用通常需要不同的分类法,因此,自动构建分类法捕获特定语料库的信息变得非常有益。过去十年见证了数字文档收藏的爆炸性增长。通过将文档与其元数据链接,我们可以将任何文档集合视为一个文本丰富的网络。如图1所示,科学论文的集合可以被视为一个文本丰富的网络,具有相互连接的地点,作者,术语和论文节点,原始文本是与纸节点相关联类似地,来自Yelp和TripAdvisor2等在线平台的评论可以被视为一个包含企业、用户和评论节点的富文本网络虽然大多数现有方法仅依赖于文本数据[2,11,16,44],但结合网络结构可以为文本带来额外的有价值的信息。 让我们用计算机科学论文集来表达我们的直觉。“频繁模式“这个术语经常与“事务数据库“一起出现。仅从文本数据判断,人们可能会将此术语放入数据库社区。然而,嵌入在网络结构中的信息,诸如其相关联的场所(例如, “CharuC. Aggarwal“),表明术语“频繁模式“和数据挖掘社区之间的强相关性,使我们能够将其分配到正确的分类节点。1https://www.yelp.com/2https://www.tripadvisor.com/………………docs(raw(正文)场馆作者术语SIGKDDC. Aggarwalfreq. patternYan Liuncertaindata……WWWJ. Leskovec社交网络克莱因伯格info. 级联……WWWJingbo Shang,Xinyang Zhang,Liyuan Liu,Sha Li,andJiawei Han1909作者1雷神2会场作者会场年范围纸纸纸termtermterm(a) 一个例子主题模式。(b) 由一个基元实例连接的两个术语。(c) 一些其他的图案。元路径是模体模式的特殊情况。图2:示例Motif模式和Motif模板。(a)这种母题模式表明,当两个术语来自同一作者对发表的论文时,它们是相似的(b)这两个术语由(a)中的基序模式的基序实例连接,该基序实例有两个作者。阴影表示主题图案的两个完整实例(c)我们在DBLP-5数据集中使用的其他基序模式,包括元路径形状模式。网络为分类学建设提供了有用的信息,如何有效地整合网络和文本仍然是一个重大挑战。 我们利用我们的框架中的主题模式,以提取有用的功能,从异构的文本丰富的网络。元路径[31]和模体模式[5,18]已被广泛采用,以从网络中提取有用的结构信息。 如图2所示,基元是子图模式,它捕获高阶连接和这些连接所表示的语义。在我们的问题中,我们观察到两个应用主题模式的问题。首先,主题模式不是平等的一些模体模式在识别顶层概念时更有用,而另一些模体模式在区分更精细的概念时更有用其次,即使只看一个模体模式,它的模体实例也决不是同样的信息。其中一些甚至会干扰分类结构,导致更糟糕的结果。例如,使用图2(a)中捕获共同作者的基序模式,它的一些实例可能是偶然和巧合的合作,因此在构建科学分类时不会有太大帮助。为了解决这两个问题,我们提出了一种新的实例级模体选择机制,这是专门针对当前节点的粒度和语义。我们在实验中表明,这种选择机制是至关重要的,特别是当网络相对嘈杂。我们提出了NetTaxo,一个分层嵌入和聚类自动主题分类构造框架 一般工作流程如图3所示。 首先,我们要求用户提供一组主题模式作为指导。这一套从来没有被认为是干净和同样有效的。在每个分类节点上,我们提出从文本和网络数据中学习术语嵌入,然后应用软聚类方法来获得术语聚类。 我们首先根据在文本数据上学习的术语嵌入获得初始术语聚类。然后进行聚类间比较分析,从每个聚类中选择最具代表性的术语作为锚术语。我们假设一个有用的主题实例应该有能力将一个集群的锚项与其他集群的锚项分开。 基于这一假设,我们进一步提取模体实例,包括那些相关的聚类,从而避免从网络数据中引入噪声。之后,我们结合文本上下文和选定的motif实例来学习术语嵌入。 然后基于这种联合嵌入来决定最终的聚类。实验结果表明,我们的实例级模体选择是成功的例如,我们证明,对于一个集合,计算机科学论文,在分类法的最高级别,我们的“ 深入到分类学的较低层次,我们的目标是区分研究子领域。 我们提出的方法识别特定的作者群作为更有用的信号,如“吴成伟”和“菲利普S。 Yu“-他们所有的合作都集中在高效用项集发现的主题上。据我们所知,这是第一个工作,桥梁文本和网络数据的主题分类的自动构建我们的贡献可归纳如下。本文提出了一种新的主题分类构建框架NetTaxo,该框架有效、系统地集成了文本数据和网络结构我们设计了一个实例级模体选择方法,从网络数据中选择合适的信息此外,它是自适应的粒度和语义的每个分类节点。我们在真实世界的数据集上进行了大量的实验,以证明NetTaxo在许多基线上的优越性,并验证了实例级基序选择的重要性和有效性。复制:数据和代码包可以在GitHub:https://github.com/xinyangz/NetTaxo。2相关工作基于下位概念的方法。分类法的设计目的是将实体分组到层次结构中,其中每个节点是概念术语,并且每个父子对表示上下义关系(也称为上下义关系)。“is-a”)关系(例如,熊猫是哺乳动物)。为了自动构建这样的分类,研究人员已经开发了一些基于模式的方法。通常,这些方法首先使用词汇模式(例如, 词汇模式要么是手动设计的[14,21,23,25],要么是派生的从语料库使用一些监督或种子[1,6,15,20,28,47]。这些模式在发现上下义关系方面已经证明了它们的有效性,然而,它们不适合构建主题分类,因为(1)主题分类中的每个节点是术语的集群而不是单个概念术语,以及(2)基于模式的方法通常由于自然语言中上下义关系的表达变化很大而导致召回率低近年来,术语嵌入技术被广泛应用于自动主题分类系统的构建。一个普遍的做法是,au纸termJ. 克莱因伯格LeskovecP1P2社交网络info. 级联论文术语Y1-Y2···WWW1910S(≤≤)SH∈H T<$ TH缩小主题范围a)(选定)主题...场地纸年份范围termY1-Y2b)本地文本上下文......这是什么?term...…每个分类节点嵌入、聚类和锚定术语选择实例级基序选择文档和术语分配每个聚类图3:NetTaxo概述,它从文本和主题上下文中联合学习术语嵌入我们进行主题实例级选择,以挑选最具信息量的网络结构,以更好地构建主题分类。从文本数据中嵌入术语,然后根据它们的表示相似性[4]和聚类分离度量[7]将它们组织成一个结构 利用成对上下义关系标签,可以通过监督模型识别术语和聚类之间的分类关系,例如嵌入空间中的语义投影[11]和神经网络分类器[2]。在我们的设置中,没有上下义标签。基于术语翻译的方法。为了从文本语料库中自动构建主题分类系统,已经提出了许多聚类方法. 在先驱研究中,分层主题建模[10,12,19,37,38]和基于自底向上凝聚聚类[8]的方法可以说是最流行和有效的框架,在词嵌入技术成熟之前。在使用术语嵌入的无监督框架中,自上而下的分层聚类方法[16,44]达到了最先进的水平。例如,TaxoGen [44]从与分类节点相关联的文档中学习本地术语嵌入,然后在更深层次上对术语进行包括TaxoGen在内的大多数方法只利用了文本数据中的信息,而忽略了数字文档集合中的底层网络结构在我们的NetTaxo框架中,我们遵循自上而下的本地嵌入方法,但超越并利用网络结构来显着提高聚类质量基于网络的方法。CATHYHIN [38]可以说是完全基于网络结构的最先进的方法,用于自动主题分类结构。具体地说,使用单字作为其节点集的一部分,它试图挖掘术语(即,(2)同时进行聚类。它忽略了单词的上下文,从而牺牲了文本数据中嵌入的丰富信息,在我们的实验中产生了不令人满意的结果。另一个相关的线索是异构信息网络上的聚类算法(即,类型化节点和边的网络)[32,33]。例如,NetClus [33]从用户提供的种子节点开始,并将权限排名与节点聚类一起应用于集群节点。我们采用了类似的权威排名过程作为我们的实例级主题选择的一部分。网络图案。网络模体是高阶子图结构,在跨各种域的复杂网络中至关重要,如神经科学[30]、生物信息学[18]和信息网络[5]。在异构信息网络的上下文中,网络图案,有时也称为元图,可以提供更大的灵活性,并捕获比广泛使用的元路径模式更丰富的网络语义。最近的研究表明,与传统的基于路径的方法[ 9,27]相比,将基序用于节点嵌入会带来更好的性能[24,41,45]。在这项工作中,术语嵌入的质量是构建分类法的整体质量的关键在利用网络模体进行嵌入学习的同时,我们还根据当前的分类节点选择了一个模体实例子集这种新颖的方法使我们能够细化网络图案捕获的丰富语义,生成更适合分类法构建的嵌入。3初步报告在本节中,我们首先介绍初步概念,然后通过指定输入和输出来公式化问题3.1概念定义主题分类法是一个树形结构的层次结构,其中每个节点都包含一小组术语C,它们在语义上是一致的,并且表示概念主题。此外,中的父子节点应遵循主题-子主题关系。也就是说,假设节点c具有一组子节点c =c1,c2,. . . .请注意,一个术语可能属于多个概念主题因此出现在多个节点中。例如,“深度学习”可以是“机器学习中的深度学习理论”和“计算机视觉中的深度学习模型”的一部分;“数据流”可以属于“数据库中的流数据索引”和“数据挖掘中的如前所述,带有元数据的文档集合可以自然地被视为一个富文本网络,由文本数据和网络结构组成• 文本数据:语料库D和术语集T。 T包括D中的术语,这些术语可以由用户指定或从语料库中提取。在我们的实验中,我们通过使用AutoPhrase[26]从语料库D中提取高质量短语来形成术语集T。………………数据挖掘数据库计算机视觉机器学习Y1-Y2WWWJingbo Shang,Xinyang Zhang,Liyuan Liu,Sha Li,andJiawei Han1911∈[]DD()下一页t∈d t′∈C( t)• 网络结构:异构信息网络G=(V,E,N,N),其中V是节点集,E是边集。类型映射和将每个节点v映射到其类型(v),将每个边e映射到关系(e)。基序模式是指Meta级别的子图模式每个节点通过其类型来抽象在本文中,我们只研究至少有一个节点的术语类型的模体模式。模体实例m是通过用具体值替换节点类型的模体模式的实例化图2给出了一些例子。我们将“开”节点定义当且仅当两个术语出现在那些“开放”节点上共享相同值的因此,我们表示模体实例仅由“开放”节点的值例如,在图2(b)中,链接到术语“社交网络“和“信息级联“的主题实例是相同的。两个基序实例都可以由两个作者的组合来表示(即,“Jure Leskovec“和“JonKleinberg“)。值得注意的是,元路径[31]可以被视为模体模式退化为线条时的特殊情况例如,描述两个术语之间的共享场所关系的元路径相当于图2(c)中的第二个主题模式。这个主题模式中唯一的“开放”节点是地点节点。3.2问题公式化在本文中,我们的目标是构建一个主题分类与文本丰富的网络作为输入。此外,我们要求使用者提供一组主题模式作为整合网路资讯的指引。然而,用户提供的集合可能是嘈杂的,我们将在稍后进行主题实例级选择。我们的目标是构建一个树形结构的分类层次结构H,即,主题分类法。4我们的框架在本节中,我们描述我们提出的NetTaxo框架。4.1概述NetTaxo是一个自顶向下的递归框架。我们的主要目标是将术语分配到每个分类节点的子主题 分配模块依赖于从文本和主题上下文联合学习的术语嵌入。我们使用本地嵌入和模体实例选择,分别细化文本和模体上下文为了支持我们的本地嵌入和主题实例选择,模块中,我们将每个分类节点与一组加权文档相关联。具体来说,我们为分类节点c处的每个文档d维护一个权重wc,d 0,1。对于根节点中的所有文档,权重被初始化为1。除了术语分配,我们还将文档从分类节点分配到其子节点。在分配过程中,我们更新文件的wc,d根据我们的观察和以前的工作[44],仅使用从文本上下文学习的术语嵌入可以粗略地聚类因此,我们决定利用这样的聚类结果作为后续motif实例选择步骤的初始化。具体来说,我们首先遵循以前的工作[44]来学习局部项嵌入并获得初始项聚类。为了更准确,我们在聚类之间进行比较分析,从每个聚类中选择最具代表性的术语作为锚定术语。这样的锚项可以被视为合并的聚类信息。基于锚词,我们选择合适的模体实例。之后,我们从文本数据和选定的motif实例中联合学习术语嵌入,这反过来又会产生更好的聚类结果。在递归到下一级之前,从新聚类结果中选择的锚术语被设置为该分类法节点的最终术语集详情见本节其余部分第4.2节和第4.3节分别介绍了如何从文本和主题上下文中学习术语嵌入。第4.4节介绍了在我们的框架中多次使用的锚定术语选择方法。在4.5节介绍了我们的模体选择技术之后,4.6节讨论了联合项嵌入。最后,4.7节展示了如何将术语和文档分配到子分类节点中。4.2文本数据的局部嵌入在NetTaxo框架中,术语嵌入是发现每个分类节点上的子主题簇的关键.术语嵌入学习通常在整个文档集合上进行[17,22]。然而,这种学习范式在主题分类构建中面临着一个主要缺点:学习术语嵌入的区分能力在深层次上受到限制。例如,从所有计算机科学论文中学习的术语嵌入应该能够将“机器学习”相关术语与其他研究领域的术语区分开来然而,它可能难以进一步发现“机器学习”下的子主题随着我们进一步深入,这个问题只会变得更糟。因此,有必要将术语嵌入调整到当前分类法节点。为此,我们遵循以前的工作[44],并采用局部嵌入[13]的思想来学习文本数据中的术语嵌入局部嵌入的基本思想是根据每个节点自己的相关(加权)文档来微调每个节点上的术语嵌入。其有效性已在[44]中通过消融试验得到验证我们使用具有负采样的skip-gram(SGNS)[17]作为我们的基础嵌入模型。在每个分类节点,我们使用本地文档-C,而不是训练。与原始SGNS模型类似,目标是最大化文档中给定术语的要最小化的损失函数由下式给出:在子节点C1,C2,. . . ,cn.图3给出了NetTaxo的概述。在每个分类节点,Lt ext=EdPD(Dc).−P(t′|t)无菌(一)NetTaxo是我们设计的一种有效的方式,可以利用文本数据和网络结构。C t代表术语t的上下文窗口内的术语集合。我们根据多项分布对文件进行系统需要确定子主题,然后相应地将术语和文档分发到其子主题中。关键控制-WWW1912(D){}()下一页MM| |Jci=1i()下一页()下一页..Σ(∈).哪里不(c,t)=D∈D w c,d·|D|由当前分类节点下的文档权重wc,d参数化。因此,我们的损失函数与以前的工作[44]以及原始的局部嵌入工作[13]略有不同。4.3作为术语上下文的基元我们推广的分布假设,这是基本的词嵌入,网络使用模体实例。 在文本数据中,术语的滑动窗口内的每个词都被视为其上下文的一部分。类似地,术语的基序上下文由基序实例的集合来表征,其可以基于术语周围的网络结构和所提供的基序模式来匹配。因此,分布假设的网络版本变成了:具有相似基元背景的术语是相似的。现在,我们可以推广SGNS嵌入模型,以纳入motif上下文。具体来说,我们使用每个术语来预测其基序上下文,生成以下损失术语。分析人员非歧视性术语将出现在与许多节点相关联的文档中,并提供冗余和混乱的信息。例如,“扩展实验”可能在关于“数据挖掘”和“数据库”的两个节点上都很流行,因此是非歧视性的。信息性:锚定术语不应该是一个停止词-喜欢术语。随着分类法的构建越来越深入,一些术语的信息量越来越少例如,“数据挖掘“在代表“计算机科学“领域的节点处是信息性术语,但是在关注“频繁模式挖掘“的节点处具有少得多的信息。考虑到这些原则,我们相应地设计了以下评分函数。Popularity Score. 我们将项t在文档d中出现的次数表示为tf t,d。当文档被加权时,词频被文档的重要性加权给定文档权重wc,d,我们定义Lmotif=EdPD(Dc)。E-log P(m|t)重金属(二更)在节点c处的项t为t∈dmMc(t)流行.d∈Dwc,d·tf(t,d)(四)在第4.5节中描述如何选择CQC。概率近似为负采样[17]。logP(m |t)= log σ(rT ut)−Em<$Pneg(m)。logσ(−rT ut)。(三)其中d表示文档d中的术语的总数。这个公式捕捉了在节点c处的项t。区分度得分。在分类单元中的一个区别性术语t-其中r和u是基序实例和术语的嵌入向量omy节点c应该具有显著更大的相对加权和Pneg(m)是负抽样分布。在节点C处的词频比在其父节点PC处的词频或其他siblingn odesc1′,c2′,. . . ,cm′. 我们定义了以下比率:以这种方式,术语嵌入也可以从给定用户提供的基序模式的网络结构中导出4.4锚定术语选择来捕捉这种直觉。discriminative(c,t)=流行音乐max {popp,t,maxmpopc′,t}(五)为了给后一种情况提供更精确的初始化在模体级选择模块中,我们首先介绍了锚定词的选择方法。锚定术语选择的目标是从每个聚类中找到一个简明、有区别的术语子集。 由于我们的词汇量很大,而且有噪声,因此获得聚类的干净语义是关键的一步。正是由于这个原因,我们使用锚项(1)作为实例级基序选择模块的初始化,较大的区别性c,t应该意味着更好的锚项候选。当判别式c,t小于1时,t不太可能是分类节点c处的锚项的良好选择。信息性评分。 逆文档频率(IDF)已被广泛用于信息检索,以衡量给定语料库中术语的信息性[29]。在每个分类节点c,我们计算加权逆文档频率如下。它们提供更准确的初始聚类信息;(2)作为聚类算法的输入,以找到子主题idf(c,t)=log.Dd∈Dwc,dI(t∈d)·wcd(六)在当前分类节点下;以及(3)作为术语的最终列表∈D,在每个分类节点上显示。我们制定的锚长期选择作为一个无监督的长期排名问题。排名原则。 给定一个特定的分类节点,我们根据以下条件定义锚项。流行度:锚词应该在给定的节点上足够流行节点内的极低频术语对其语义没有实质性贡献,因此不被认为是代表性的。区别性:锚定术语应该能够区分-从其父节点和兄弟节点中猜测节点。反犯罪性在分类学场景中尤其重要,其中It d是关于术语t是否出现在文档d中的布尔指示符函数。组合锚钉评分。 作为一个无监督的排名问题,我们遵循之前的比较分析工作[36],并使用几何平均值来组合这三个信号。anchor_score(c,t)= pop(c,t) · discriminative(c,t)· idf(c,t)1/ 3(七)总之,在每个分类节点c,我们将根据锚点得分对术语进行排名,并选择前Kt个术语作为锚点术语。我们期望这些锚词能够在每个节点上表达主题的清晰···Mc(t)是术语的相关基序实例.我们将WWWJingbo Shang,Xinyang Zhang,Liyuan Liu,Sha Li,andJiawei Han1913CMC∈/∈∈()T(T M)TM.ΣDcM.(·)Rc浓度(m)=1−lognM T TMIM(m,i)logIM(m,i)不i=15.1数据集4.5实例级基序选择到目前为止,我们已经展示了如何使用本地语料库分别从文本和主题中学习术语嵌入。然而,根据我们的观测结果,将它们简单地放在一起会产生次优性能如前所述,在构建过程中,应该在每个分类节点具体来说,基于锚词从初始集群中选择,我们进一步缩小了一组有用的主题实例。这个实例级主题选择步骤旨在使文本和网络之间的协作更有效。我们确定了两个原则的实例级模体选择:重要性:模体实例应该与一组重要的术语,提供有用的信息,术语嵌入学习。集中度:motif实例应该集中在当前分类节点下的一个或少数几个子主题上,因此包含它将有助于我们更好地分离子主题。我们通过在主题上下文图上应用权威排名[ 32 ]来实现这两个原则。分类节点c处的基元上下文图是二分图GM=c,c,W,其中c是当前分类节点下的项,并且c是基元实例的集合。我们使用符号GM来避免将这个图与网络结构G.请注意,我们排除了在当前分类节点下不包含任何术语或文档的motif实例。二分图将每个术语连接到主题实例它进来了。矩阵WR |Tc|× |Mc|描述了每个基元实例m中项t的出现次数(即,Wt,m)。我们应用权威排名,以获得每个主题实例和每个集群之间的重要性分数。在排序过程中,我们维护两个矩阵ITR |Tc|×n和I MR |Mc|×n来统计术语和主题实例的重要性得分。矩阵的每一行表示所有n个聚类下特定术语(或基序实例)的重要性分数。作为初始化,我们为所有聚类中的所有锚项设置I(0)t,k=1Kt,为所有其他项设置0这是基于这样的假设,即所有锚定项首先都很重要。权威排名是一个迭代的重要性传播过程具体来说,在每次迭代中,I(t)<$W<$TI(t−1),I(t)<$W<$I(t)最后,我们将motif实例m的最终得分定义为motif_score(m)= importance(m)· concentration(m)1/ 2我们根据它们的最终得分对所有基序实例进行排名,并选择排名在前Km百分比中的实例的请注意,主题实例排名是跨所有主题模式的。因此,我们隐式地选择模体模式,通过修剪大多数实例从无信息的模体模式。4.6语篇与母题语境的联合嵌入在每个分类节点c处,给定本地语料库和本地选择的主题实例,我们通过文本和主题实例的联合嵌入训练来改进术语嵌入。具体来说,将文本和主题放在一起,我们最小化联合损失函数:L=λLtext+(1−λ)Lmotif(8)我们使用λ来平衡文本和主题的损失。在我们的实现中,我们使用随机梯度下降来优化损失函数,并使用采样来近似先前方程中的期望。4.7期限和文件分配通过在文本和主题实例上训练联合嵌入,我们准备将术语和文档分配到子节点中。原则上,我们的方法是灵活的聚类方法的选择。考虑到术语嵌入之间的余弦相似性已经证明了其在术语相似性搜索中的有效性[17],我们在NetTaxo中应用vMF混合聚类[3]。 它是单位超球面上一种经典的、有效的软聚类方法。 由于构建的主题分类很少改变,我们将主题数量k的选择留给人类专家。值得注意的是,我们只在当前分类法节点的锚项其基本原理是,自动提取的术语词汇往往是嘈杂的,而从比较分析中选择的锚术语要干净得多这使得聚类更准确。在拟合vMF混合模型之后,每个聚类由嵌入空间中的vMF分布表示。然后,我们使用这些分布来估计c中每个项的聚类概率。最后,我们将术语分配给子集群。对于Dc中的文档,我们通过下式估计其聚类概率:W=D1/21/ 2是具有行度的归一化权重矩阵从它们的连接项聚集聚类概率这W DDr和列度Dc矩阵迭代过程可以是重复到最大迭代次数或直到收敛。在实践中,我们发现5次迭代就足以达到良好的效果。对于每个主题实例m,我们将其在不同聚类中的重要性得分的平均值作为整体重要性。重要性m=平均IMm,此外,通过不同聚类上的重要性得分,我们可以基于熵来衡量motif实例m的集中度这个过程与[44]中的过程相同文档的聚合概率乘以其当前权重,将是下一级文档的权重。5次实验在本节中,我们首先介绍实验设置,包括数据集,比较方法和评估指标。然后,我们提出定量评估结果。最后,我们展示了所构造的主题分类法的case部分以及几个1.一、n˜˜有趣的发现我们使用normalizedentropy将其范围保持在0到1之间。我是表示行归一化后的IM我们在两个真实世界的文档集合上进行实验:DBLP中的计算机科学论文和··WWW1914[客户端]表1:数据集统计。DBLP-5和Yelp-5数据集中的基序模式分别在图2和图4中可视化#doc #term #node #edge #motifDBLP-579,896 26,684 182,290 1,897,226 51,308,37174,951一百七十六万零二十五6,809,152 4业务HPAM++是我们在 原有的HPAM(Hierarchical PachinkoAllocation Model)的基础上进行改进的方法[19]。HPAM是一种基于文本数据的Pachinko分配模型的最先进的分层主题模型。虽然它的目的是工作在所有的unigrams,使比较更公平,我们改进的HPAM只关注非常高质量的短语。此外,我们将不同级别的主题编号设置为相同,审查期限业务审查期限用户审查期限用户1用户2评论1评论2termNetTaxo中的集群数量。我们已经测试了我们的增强型分层潜在狄利克雷分配(HLDA)模型[12],其性能与HPAM++非常相似。因此,我们在此仅介绍HPAM++的结果• TaxoGen[44]是最先进的主题分类法,图4:Yelp-5数据集中使用的所有基序模式最复杂的模式表示同一业务下两个用户提到的术语。Yelp。两个数据集的统计数据见表1。有关这两个数据集的详细信息如下。DBLP-5。第一个文档集来自于AMiner数据集,是关于计算机科学论文的。我们选择了五个密切相关的研究领域:(1)数据挖掘,(2)数据库,(3)机器学习,(4)计算机视觉;(5)自然语言处理。从这五个领域中,79,896篇论文被选中,包含26,684个不同的术语。 该网络包含作者、地点、年份、论文和术语的节点类型(在此DBLP数据集中可用)。 我们通过添加“年份范围”节点来增强网络,每个节点代表连续五年(例如,(2010-2014年)。文本数据,即,标题和摘要与每个论文节点相关联边缘描述了作者-论文、地点-论文、年份-论文、年份范围-论文和学期-论文的关系。请注意,以前的方法[38,44]也从这个数据集中选择了五个领域,例如[44],信息检索,计算机视觉,机器人技术,安全&网络和机器学习。相比之下,我们选择的五个领域彼此之间的关系更密切,因此更具挑战性。Yelp-5. 第二个文档集合来自Yelp数据集挑战4。 由于如果我们使用完整的数据集,有些基线太慢,我们必须选择这些评论的子集。特别地,我们选择最受欢迎的状态(即,亚利桑那州)和前5名流行的业务类别(即,(1) 汽车,(2)美容&水疗,(3)酒店&旅行,(4)餐馆,和(5)购物)。 我们还删除了评论少于50条的罕见企业。结果,我们总共获得了1,308,371条评论,并从中提取了74,951 我们使用业务、用户、评论和术语的节点以及业务评论、用户评论和术语评论的边来构建网络,因为它们在元数据中可用。 文本数据,即,审阅注释与每个审阅节点相关联我们分别在图2和图4中展示了DBLP-5和Yelp-5数据集中使用的所有基序模式5.2比较方法我们将我们提出的方法与不同类型的主题分类构建方法进行了比较:(1)使用文本数据,(2)使用网络数据,以及(3)同时使用文本和网络数据。详情如下。3https://aminer.org/citation4https://www.yelp.com/dataset/challenge使用文本数据的方法。正如其论文所示,它击败了许多强大的基线,例如分层主题模型[10,12,19,37,38]。它利用了与我们的模型相同的局部嵌入思想,但忽略了网络结构。CATHYHIN++是我们从原始CATHYHIN [38]方法中增强的方法CATHYHIN [38]是一种使用网络数据的主题分类构建方法。它将unigrams视为节点,并试图挖掘术语(即,(2)同时进行其性能受到限制,原因是(1)与最先进的方法相比,短语质量较差(2)与使用术语嵌入技术的方法相比,术语聚类结果较差为了使比较更公平,我们通过只添加非常高质量的短语来改进CATHYHIN阻碍嵌入是一个基线方法,我们建议使用这两个文本和网络数据。将项嵌入技术与网络结构相结合是一种简单的解决方案。具体来说,我们首先分别使用word2vec [17]和LINE [34]从文本和网络中学习术语嵌入向量,其中每个嵌入向量的维数为300。然后,将每一项的两个向量连接起来,应用分层球形k-Means算法. 我们将这种方法称为基于词和节点嵌入的层次主题聚类,因此将其表示为Humble Embed。我们将我们提出的方法称为NetTaxo。为了证明我们提出的主题实例选择的必要性和有效性,我们介绍了一个消融版本的NetTaxo没有这一步骤,表示为NetTaxo w/o选择。请注意,为了进行公平的比较,在不同的方法中使用相同的术语集。 它们是通过最先进的远程监督短语挖掘方法从原始文本中提取的[26]。5.3参数设置用于vMF混合聚类的混合物的数量k通过在3、 6的范围内将k递增1直到观察到相干聚类来在DBLP和Yelp数据集中,我们为分类的顶层设置k=5,为第二层设置k=在TaxoGen [44]中,所有水平的这个数字都设置为5,这与我们的观察结果相差不远请注意,对于给定的数据集,此参数只需要设置一次,因此此过程不会给人类带来很大的负担对于锚项选择,我们对每个聚类使用Kt=50对于基序选择,我们保持顶部Km=10%的基序实例。·····WWWJingbo Shang,Xinyang Zhang,Liyuan Liu,Sha Li,andJiawei Han1915P()P().表2:定量评价。分数是10个注释者的平均值Yelp-5亲子关系的连贯性测量排他性精度召回F1测量排他性精度召回F1HPAM++0.7960.6800.3480.4510.3930.8320.7400.1710.2470.202TaxoGen0.8400.7400.7800.7130.7450.9200.8000.6500.6180.633公司简介0.8800.5330.8500.7440.7930.7420.4200.7050.6380.670嵌入式系统0.6240.4200.5250.4090.4600.7440.5600.6550.6100.632NetTaxo w/o Selection0.9080.6800.8950.8080.8490.8160.5400.6680.6810.674NetTaxo0.9120.8800.8980.8100.8520.9280.8540.7900.8250.8075.4评估任务对构建的主题分类法的系统评价由来已久,F1被用来评估通过将所有样品一起处理来避免。形式上,我们有是一项非常具有挑战性的任务。灵感来自于.|.P (t)P(t)|.|P(t)P(t)|关于主题分类法的构建[38,44]和最近关于主题的精确度=t<$召回率=t<$建模[39,40],我们设计了一组任务,用于人类评估。对于每个数据集,我们招募了10名领域内的人类专家。在他们的注释过程中,他们被鼓励使用搜索引擎不|P(t)|F1定义为它们的调和平均值。不|P(t)|(e.g.、Google),以更好地理解不熟悉的术语。我们确定了以下方面来判断分类质量,然后相应地设计了三个评估任务连贯性。在分类法的每个节点中,术语应该能够形成一个语义连贯的主题。 与之前的主题模型评估类似[39,40],我们从相同的分类节点向人类注释者呈现前5个术语。注释者被要求首先判断这些术语是否构成一个可解释的主题。如果不是,则该节点处的所有五个术语都被自动标记为不相关。否则,将要求注释者识别与此主题相关的特定术语我们定义共同-相关性度量,作为相关项的数量的比率在所呈现的项的总数上。独家Sixteen。 除了一致性之外,每个分类法节点应该与它的兄弟节点区分开来。 遵循先前的分类构建方法[38,44],我们执行术语入侵测试。具体来说,对于每个节点,我们收集其前5个术语,然后从其兄弟节点的前5个术语中随机混合一个入侵者术语。 我们以随机顺序呈现这6个术语,并要求人类注释者识别唯一的入侵者术语。主题越是连贯和独特,人类就越容易发现入侵者的术语。我们将同胞排他性定义为该测试中的成功识别率优质的亲子关系。每个分类法节点都应该是其父节点的一个适当的子主题。由于词汇量巨大,很难列举出给定主题的所有子术语,并进一步评估关系质量。相反,我们使用基于抽样的方法进行评估。具体来说,在分类法中的两个相邻级别之间,我们首先从较低级别节点采样子项t,并将t与所有较高级别(即,父级)节点。每个上层节点都使用其前10个术语进行可视化我们要求人类注释者标记子项t的所有合理的父节点,表示为P(t)。 我们将模型所标识的项t的部分结点归并到一个集合P_n(t)中。决策,电话,和一个高质量的主题分类法应该在这三个方面都有高分评价任务。注释详细信息。首先,值得一提的是,我们将来自不同方法的结果混合在一起,并在将它们发送给注释器之前随机打乱它们。注释器将不知道产生结果的方法。第二,为了避免标注过程中的偏见,我们首先要求标注者完成排它性任务,然后是亲子关系任务,最后是连贯性任务。 因此注释者将不具有关于哪些术语在在前两个任务中使用相同的分类节点在所有的任务中,我们观察到注释者之间的一致性超过90%。因此,实验中呈现的分数都是不同注释者的平均值。5.5定量评价在本节中,我们将讨论不同方法在两个数据集上的定量评估结果。 结果总结于表2中。总的来说,NetTaxo构建的主题分类法在所有三个评估方面都显示出了比其他方法构建的分
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功