没有合适的资源?快使用搜索试试~ 我知道了~
Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com基于评分的社交网络中面向主题的社区发现Ali Reihaniana,*,Behrouz Minaei-Bidgolib,Hosein Alizadehba伊朗大不里士大不里士大学电子和计算机工程系b伊朗德黑兰伊朗科技大学计算机工程系接收日期:2015年4月30日;修订日期:2015年6月12日;接受日期:2015年2015年11月2日在线发布摘要当今,现实世界的社交网络包含了大量的信息,包括共享对象、评论、关注信息等。在这类网络中寻找有意义的社区是一个有趣的研究领域,吸引了许多研究者的注意复杂网络的社团结构揭示了复杂网络的组织结构及其成员之间的隐藏关系。社区发现领域的研究大多集中在网络的拓扑结构上,而没有进行任何内容分析。近年来,许多研究提出了既考虑网络中交换的内容,又考虑网络的拓扑结构的方法,以找到更有意义的社区。在本研究中,主题分析的效果,发现更有意义的社区在社交网站中,用户表达他们的感情对不同的对象(如电影)通过评级的方式进行了广泛的实验证明©2015作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。 这是CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着信息技术的进步,人们之间的在线交流显著增加随着社交网络的出现,这种通信变得更加有组织。例如,大众分类法是一种社交标签网站,*通讯作者。电子邮件地址:areihanian@ustmb.ac.ir(A.Reihanian)。沙特国王大学负责同行审查制作和主办:Elsevier通过描述性关键字(标签)协作地表达他们对像电影或音乐这样的特殊资源的感觉和情绪(Chakraborty等人,2012年)或评级。在这类网络中寻找有意义的社区是一个有趣的研究领域,吸引了许多研究者的注意。复杂网络的社区结构揭示了它们的组织及其组成部分之间的隐藏关系(Lancichinetti和Ravinato,2012)。社区(有时也 称 为 模 块 或 集 群 ( Leskovec 等 人 , ( Newman ,2010))是一个更大的网络中的密集子网络,例如社交网络中的一组紧密联系的朋友或万维网上的一组互联网页(Newman,2011)。由于同一社区的人通常有共同的爱好,和社会功能,所识别的社区可用于http://dx.doi.org/10.1016/j.jksuci.2015.07.0011319-1578© 2015作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。关键词内容分析;主题社区;社区发现;模块化;纯度304 A. Reihanian等人协作推荐、信息传播、知识共享和其他对我们有益的应用(Zhao等人, 2012年)。社区发现领域的研究主要集中在网络的拓扑结构上。他们只是建立一个个人网络,而不进行任何内容分析。这些网络中的大多数都是基于个人之间的通信数量而实际上,这些研究只是考虑了网络的图结构来寻找社区,并且在他们提出的方法的过程中没有使用内容分析尽管网络的原始定义,现在,现实世界的网络包含了大量的信息,包括共享对象,评论,以下信息等,这是不合理的,一个社区是由一个单一的实体来解释,因为社区成员通常是通过大量的可区分的方式在各个领域相互作用。一种可能的解决方案是找到其中节点具有相同感兴趣主题的主题集群。每个主题聚类代表网络中感兴趣的主题之一。然后,可以将社区检测算法应用于这些主题聚类以找到最终的社区(Zhao等人, 2012年)。通过这种方式,我们可以分析和评估社区发现中主题考虑的效果。在本文中,主题分析在发现更有意义的社区在社交网站中,用户表达他们的感情对不同的对象(如电影)通过评级的效果,证明了进行广泛的实验。因此,网络被划分为不同的主题集群,其中节点具有相同的兴趣主题。然后,社区检测算法应用于主题聚类,以发现更多的有意义的社区。这将引导我们到节点紧密连接并且具有相同兴趣主题的社区。 这个过程被称为面向主题的社区检测(Zhao et al., 2012年)。最后,将考虑话题的社区检测结果与不考虑兴趣话题的社区检测结果进行了比较定量分析表明,在网络中加入感兴趣的话题后,社区发现的效果会得到改善本文其余部分概述如下。第二部分说明了本研究的动机。在第三节中,我们回顾了相关的工作。第四节介绍了面向主题的社区发现。为了评估主题考虑在基于评级的社交网络社区识别中的作用,在真实数据集上进行了广泛的实验。这些数据集的描述、实验结果及其分析在第5节中给出。最后,在第6节中给出了结论。2. 动机在这一部分中,我们的研究动机解释了一个例子。看看图中所示的例子。1.一、 图图1(a)是一个由8个节点和11条边组成的网络。我们称之为基本网络。每个节点是网络中的一个个体,每条边是交互或通信的社会关系每条边的权重表示相关节点之间例如如果节点i完成与节点j的五次通信,则它们的相关边的分配权重将为5。假设每个节点的感兴趣主题都是手动分配的这些主题代表了网络中每个人感兴趣的领域。在这个特定的网络中,每个节点都可以对与宗教、非宗教或两者有关的讨论感兴趣。图图1(b)示出了在基本网络上应用社区检测算法之后所识别的社区。在这种情况下,没有执行内容分析。每个社区的成员都是相互联系的,但正如您所看到的,位于图1(b)顶部的社区包含不同的主题。这个社区的两个成员对宗教感兴趣,而三个成员对非宗教感兴趣。Zhao等人(2012)从基本网络中提取主题集群,以检测具有独特兴趣主题和连接成员的社区。每个主题簇包含具有相同兴趣主题的基本网络的节点。图1(c)显示了具有两个主题集群的网络的分区。例如,在位于图底部的主题集群中,所有成员都对与宗教有关的讨论感兴趣。然后,社区检测算法将应用于每个主题聚类。图1(d)显示了在这种情况下确定的社区。每个社区都有相互联系并具有相同兴趣主题的成员。这就是我们在基于评级的社交网络中分析的条件。3. 相关作品在社区检测领域已经做了很多研究。这些研究大多集中在网络的拓扑结构或连接模式他们仅仅考虑网络的图结构来寻找社区,而在他们提出的方法的过程中没有使用内容分析根据所采用的社区发现策略,这些研究所提出的方法可以分为基于优化的方法和渐进式方法。 一些基于优化的方法集中于优化目标函数(Zhao等人, 2012年)。Newman和Girvan的研究是文献中最重要的工作之 一 , 他 们 在 其 中 引 入 了 模 块 化 作 为 目 标 函 数(Newman和Girvan,2004)。已经做了大量的工作来优 化 模 块 化 , 例 如 由 Arenas 等 人 开 发 的 方 法 。( 2007 ) , Leicht and Newman ( 2008 ) , Newman(2004). 该函数在社区检测的文献中有很大的影响力,并在许多应用中取得了成功。模块性用于评估网络到社区的特定划分的质量(Zhao等人,2012年)。另一方面,诸如GN算法(Girvan和Newman,2002)和CPM算法(Palla等人,2005)设计了一种基于直观聚类的图聚类算法(Zhao et al., 2012年)。尽管这些研究在某些应用中取得了成功,但由于它们主要关注网络的拓扑因此,基于评级的社交网络的社区检测305(a):基础网络(b) :在基本网络中识别的社区(无内容分析)(c)(d):在专题组中确定的社区(有议题审议)图1一个例子说明了我们的研究动机。这些研究主要是基于通信的总数。另一组研究倾向于将网络划分为不同的节点组,其中每个节点具有相同的兴趣主题。换句话说,这些研究主要是通过分析社会对象的内容来建立话题模型。应当认为,社会对象是指像电子邮件这样的东西,人们通过它们互相交流。已经提出了若干主题模型,诸如LSA(Deerwester等人,1990)、pLSA(Hofmann,1999)、LDA(Blei等人,潜在语义分析(LSA)是一种广泛采用的方法,用于将高维共现矩阵映射到作为潜在语义空间 的 低 维 表 示 中 , 以 揭 示 实 体 之 间 的 语 义 关 系 。Hofmann(1999)对LSA进行了重大的飞跃,并提出了概率LSA(pLSA),其中检测到的聚类更面向主题。Blei等人(2003)提出了潜在狄利克雷分配(LDA),这是一种三级分层贝叶斯模型,它在一组底层主题上对单词和文档进行建模,以避免pLSA如前所述,这些研究的目标是找到所有成员都有相同兴趣的社区,而他们忽略了成员之间的关系。因此,这些研究发现的社区往往包含每个社区内的拓扑多样的子社区(丁,2011)。近年来,许多研究提出了既考虑网络中交换的内容又考虑网络拓扑结构的方法,以发现更有意义的社区。Zhao et al.(2012)提出了一种基于社会对象聚类和链接分析的面向主题的社区检测方法他们提出的方法可以识别出同时反映主题和联系优势的主题社区。Zhu et al.(2013)将主题建模中的经典思想与统计物理界最近开发的混合隶属度块模型的变体相结合。在他们的研究中,朱等人将主题建模与链接结构相结合。 Zhao和Ma(2012)提出了一个框架,将语义结构化方法应用于Web服务社区建模和发现。4. 社会网络如前所述,本文的目的是展示主题考虑在社交网站中发现更多有意义的社区的效果,在这些社区中,用户通过评级的方式为此,Zhao等人(2012)提出的框架的一些组成部分进行了更改,以便适用于上述社交网络。该框架检测具有独特兴趣主题和连接成员的社区。每个我Pm¼A。伊吉JIJ联系我们ij2 miJ306 A. Reihanian等人社区包含网络中具有相同兴趣主题的节点。该框架分为四个步骤:预处理和标注主题标签、聚类社会对象、创建主题聚类和对主题聚类应用社区检测算法。4.1. 预处理和注释主题标签在这一步中,数据集被预处理并准备好使用。在这个过程中,社会对象被识别。一般来说,人们通过社交对象相互交流。这些对象往往暗示着人们感兴趣的话题。社会对 象可以分 为两种情 况(Zhao et al.,2012年) :(1)社会对象,这是附着到多个成员,(2)社会对象,这是附着到一个成员。在第一种情况下,成员之间的边缘是因为社会对象而建立的这种情况的一个例子可能发生在电影评级网络中。在这个网络中,成员之间的边缘是在他们对同一部电影进行评级时建立的事实上,在这个网络中,每部电影(社会对象)都附着在多个成员身上。电影评级网络的成员由于同一电影的评级而彼此连接。在第二种情况下,每一个社会对象只依附于一个成员。因此,社会对象被认为是网络成员的属性。这种情况的一个例子可以在论文引用网络中找到。在这个网络中,论文(成员)相互引用。此外,每一篇论文都包含一个文本内容(论文的标题),它是一个社会对象,可以被认为是相应论文的属性。图2显示了网络成员和社会对象之间的两种不同类型的关系。位于图2左侧的网络是电影分级网络。很明显,成员之间的边缘是因为社会对象而建立的。此外,位于图右侧的网络。 2是论文引文网-工作在这个网络中,每个社会对象都是包含带有标记主题的社交对象,我们手动将这些社交对象划分为不同的集群。4.3. 创建主题集群使用上一步生成的结果,我们将网络的成员划分为不同的主题集群。在第一步中,每个社交对象都被标注了一个主题标签。在这一步中,成员被划分到不同的主题集群考虑他们所涉及的社会对象的主题标签。因此,在这一步中,我们找到每个成员都有相同兴趣主题的集群。因此,主题聚类的总数等于网络中感兴趣的主题的数量。一个用户可以是多个主题集群的成员,因为用户对多个主题感兴趣是很常见的。4.4. 社区发现算法在主题聚类中的应用这一步的目的是在前一步创建的每个主题聚类中找到社区。每个专题组中的成员以不同的优势相互联系。基于对相同社交对象的评级的数量,一些成员可能具有较强的联系,而一些其他成员可能具有较弱的联系或没有联系。这是根据框架中的主题分析得出的结论.由于框架的结果为了检测具有唯一感兴趣的主题和连接成员的社区,我们应该将社区检测算法应用于先前创建的主题聚类,以识别紧密连接的成员。为了执行该过程,可以采用许多社区Newman提出了一个重要的算法来划分网络图的链接和节点到子图。他还引入了一个概念,称为模块化。在加权网络的情况下,模块化定义如下(Newman,2004):相应的纸。由于在本文中,社交网络网站,其中用户表达他们的感情,以不同的-分析对象时,遇到第一种情况。Q1A2个月i;j-kikjdc;c1其中Aij表示i和j之间的边的权重,因此,在这一步中,数据集被预处理并准备使用。在这个过程中,社会对象被识别。后来,k¼PA是连接到检索数据集中每个社交对象的主题其次,每个社会对象都被其相应的主题所标记。在某些情况下,每个社交对象的主题可以容易地手动检索,或者存在表示每个社交对象的主题 但是,在社会对象由文本表示并且其标签不容易检索的情况下,Zhao等人引入了一种方法。(2012),其可以将主题标签注释到每个社交对象。4.2.聚类社会对象在该步骤中,网络中的社交对象被划分为不同的聚类。每个集群代表一个由其成员共享的独特主题换句话说,根据他们的标签主题,社会对象被划分成不同的集群的方式,每个集群包括具有相同主题的成员。由于本文使用的数据集顶点i,ci是顶点i被分配到的社区如果u=v,则d函数d(u,v)为1,否则为0,并且还12由于Newman的算法非常耗时,Blondel等人(2008)建议修改算法版本以使其更快,从而产生所谓的“Louvain方法”。该算法是模块化最大化算法,其以局部方式迭代地优化模块化并聚合相同社区的节点(Wang等人,2014年)。在本文中,“鲁汶方法”已被应用,以找到主题社区。4.5.面向主题的社区发现框架在不同类型社交网络如前所述,本文中使用的数据集与社交网站有关,22基于评级的社交网络的社区检测307图2网络成员与社会对象之间的两种不同关系用户通过评级来表达他们对不同对象的感受。因此,本节中解释的当前格式的面向主题的框架可以应用于这种社交网络。但是,考虑到我们想要将面向主题的框架应用于典型的电子邮件网络或其他类型的社交网络,其中没有感兴趣的主题为了将面向主题的框架应用于这些类型的社交网络,框架的一个步骤应该适用于这些网络:聚类社交对象。根据社交对象的类型,可以使用不同的方法来执行社交对象聚类例如,Zhao等人(2012)提出了一种新颖的方法来聚类文本社交对象,如电子邮件。该方法将向量空间模型与熵加权K均值(EWKM)Jing et al.(2007)相结合,对文本社会对象进行聚类。另一方面,可以执行通信内容的情感分析,上述方法适用于文本形式的内容但在当今社会,社交网络中还包含着许多不同性质的内容,如图像、声音等,这些内容是个体之间相互交换的。在我们未来的工作中,我们计划引入一个框架,可以在这些类型的网络中检测有意义的社区。5. 试验与分析在本节中,介绍了我们的研究结果首先,五个现实生活中的数据集,以及在实验中使用的性能指标进行了描述。然后处理从Movielens网站(http://movielens.org)收集的评级数据集。该数据集由Groupens研究小组(http://grouplens.org)发布,由943名用户对1682部电影的100,000(100k)评分Book-Crossing数据集(Ziegler等人,2005)是从Book-Crossing社区(http://www.example.com)收集的评级数据集www.bookcrossing.com。它包含278,858个用户,为271,379本书提供1,149,780个评分。 CIAO数据集(Tang等人,2013 a,b; Tang等人,2012 a,b)是从产品 评 论 网站 ( www.example.com ) 收 集 的评 级 数 据 集http://ciao.com,在该网站中,用户通过以下方式分享他们关于产品的意见:评价或评论。该数据集中有35,773个评级,由2248名用户附加到16,850个产品。MovieTweetings(Dooms等人,2013年)是一个数据集,由包含在Twitter上结构良好的推文中的电影评级组成。在我们的实验中,我们使用了这个数据集的最新版本,其中包含37,048名用户对21,179部电影的389,735个评 分 。 在 我 们 的 实 验 中 使 用 的 最 后 一 个 数 据 集 是Movielens数据集的最新版本,称为Movielens最新版本。该数据集于2015年收集,由706名用户组成,为8552部电影提供了100,023个评级。如本文前面所述,面向主题的社区检测框架考虑主题分析的结果因此,评价这一框架的优劣,需要从主题和链接结构两个方面来考虑.这意味着预期的结果应该让每个社区Zhao et al.(2012)引入了一个性能评估指标,该指标同时考虑了主题和链接结构。该指标定义如下:讨论了在上述数据集中检测主题社区的方法最后,将面向主题的社区检测(执行内容分析)的结果与不执行任何内容分析的社区检测的结果进行比较。5.1. 真实生活数据集和性能指标我们在实验中使用了Movielens 100 k、Book-Crossing、CIAO 、 MovieTweetings 和 Movielens Latest 等 公 开 数 据集。Movielens 100K是一款PurQb<$1b纯度·Q= b·纯度Q 2如在上述等式中清楚的,PurQb具有三个参数,即Q、纯度和b。Q表示模数。该参数从链接结构的角度测量社区。Q值越大,从拓扑结构的角度看,群落划分越好。在我们的实验中,对于每个主题聚类,模块化度通过等式计算(一). 由于面向主题的框架可以为每个数据集生成一个以上的主题聚类,因此该框架中的模块化总值计算如下:X不X308 A. Reihanian等人nQ¼1/1重量TCi重量·QTCIð3Þ第二步是对社交对象进行至于Movielens 100k数据集,电影被划分为纪录片和西部片两个集群纪录片俱乐部-其中n是生成的主题聚类的数量。QTCi 是主题集群TCi的模块化值。权重TCi是主题聚类TCi中的边的权重之和。权重T是主题聚类中的边的权重之和,其直接从基本网络创建(当没有执行主题聚类时)。应该考虑的是,由于在该框架中不执行通信(2),纯度表示检测到的社区中主题的纯度,并计算如下(Zhao等人, 2012年):Ncm纯度1/4 =Ncm·最大值1 6j6kfn ij=n ig41/1其中,Ncm表示检测到的社区的数量,nij是指属于主题j的节点的数量,并且社区i,nij是指社区i中的节点的数量。k是网络中的主题数。纯度越高,社区从主题的角度划分得越好。b是调整纯度和Q的权重的参数,并且b2½0; 1]。如果我们认为主题的纯度和网络的拓扑结构同样重要,则b的值应设置为1。 如果我们想更多地关注纯度而不是Q,那么b的值应该设置为1到1之间的一个数字。 另一方面,如果我们想与纯度相比更关注Q,则应将b的值设置为0和1之间的数字。实际上,B在Eq中使用。(2)调整主题和链接结构的重点(Zhao et al., 2012年)。5.2. 实验为了通过将面向主题的社区发现框架应用于五个引入的数据集来识别社区,采取了四个步骤(根据第4节)。第一步是对数据集进行预处理。对于Movielens 100 k、Book-Crossing 、 MovieTweetings 和 Movie- lens 最 新 数 据集 , 电 影 和 书 籍 被 认 为 是 社 会 对 象 。 因 此 , 对 于Movielens 100k 、 MovieTweetings 和 Movielens Latest 数 据集 , 提 取 了 电 影 的 类 型 。 这 些 提 取 的 类 型 与 IMDB(http://www.imdb.com)附加到每个电影的类型相同。然后,对于Movielens 100k数据集,检索了纪录片或西部片类型的所有电影。如你所知,电影的类型代表了电影制作的一般主题。对于MovieTweetings数据集,检索短片或纪录片类型的所有电影。对于Movielens Latest数据集,检索动画或音乐剧类型的所有电影。对于图书交叉数据集,我们从亚马逊(http://www. amazon.com)上提供。在CIAO数据集中,产品被认为是社会对象。每个产品的类别都被附加到数据集中。因此,对于图书交叉数据集和CIAO数据集,类别表示每个产品或书籍的主题。其中,西部片有50部,西部片有27部。至于图书交叉数据集,书籍被划分为小说和非小说两个集群。 小说类包含80本书,而非小说类包含13本书。CIAO数据集中的产品被划分为DVD、书籍、美容、音乐、旅游和食品饮料六个集群。DVD集群包含2057种产品,书籍集群包含2803种产品,美容集群包含2333种产品,音乐集群包含1801种产品,旅游集群包含3922种产品,最后食品和饮料集群包含3937种产品。MovieTweetings数据集中的电影被划分为短片和纪录片两个集群。Short集群包含718部电影,而Documentary集群包含1334部电影。最后,对于Movielens Latest数据集,电影被划分为动画和音乐剧两个集群。动画集群包含339部电影,而音乐集群包含315部电影。第三步是建立专题组。因此,在每个数据集中,用户谁在每个集群中的社会对象的评级划分为主题集群。例如,所有在“纪录片”集群中对电影进行评级的用户都被划分到“纪录片”的主题集群中。每个主题聚类的成员对具有相同主题的社会对象进行评分。因此,根据主题的数量,我们实现了Movielens 100 k,Book-Crossing,MovieTweetings和Movielens Latest数据集的两个主题聚类和CIAO数据集的6个主题聚类。如前所述,由于在该框架中不执行通信内容分析,所以两个成员之间的每个关系的权重是这两个成员对相同社交对象(例如,纪录片类型的两部最后一步是发现主题社区。因此,我们将“Louvain方法”应用于上一步中创建的每个主题聚类。为了准确地计算模块度,我们将Louvain方法应用于每个主题聚类10次,并计算模块度的平均值。表1给出了通过将面向主题的社区检测框架应用于Movielens 100 k、Book-Crossing、CIAO、MovieTweetings和Movielens Latest数据集所实现的结果。 在该表中,列“主题聚类”、"边数“和”节点数“分别表示在将面向主题的框架应用于所述五个数据集的过程中创建的主题聚类、存在于这些主题聚类中的每个主题聚类中的边数和节点数。此外,列“总模块度“和”纯度“表示所有主题社区的总模块度值(Q)和纯度值。如表1所示,纯度在5个数据集中均具有最大值。原因在于,在每个数据集中创建的主题聚类合并了对相同的独特主题感兴趣的成员因此,根据等式(1),每个主题聚类中的主题的纯度(四)、应该考虑的是,由于人们对几个不同主题的兴趣是共同的,所以某个用户可能处于几个主题集群因此,每个数据集中的主题聚类的一些成员可能是相同的比如说,基于评级的社交网络的社区检测309表1将面向主题的社区检测框架应用于Movielens 100 k,Book-Crossing,CIAO,MovieTweetings和Movielens Latest数据集的结果。数据集局部群集边缘数量节点数总模块化纯度Movielens 100k纪录片15,8333520.12441西方69,369491图书穿越小说853110210.84691非小说1587191Ciao的dvd53,91613560.30861书8999904美容5267811音乐2076569旅行12,905867食品饮料29,7631193电影推特短16673520.51111纪录片116,8802640Movielens最新动画80,1496010.17321音乐61,515573表2通过将面向主题的框架与经典社区检测框架一起应用于上述五个数据集中的每一个,实现了模块性、纯度和纯度Qb的比较数据集框架总模块化总纯度PurQbb=0.5b=0.75b=1b=1.5b=2Movielens 100k古典0.10860.97770.37600.25190.19550.14950.1321面向主题0.124410.41540.28300.22130.17030.1509图书交叉古典0.83750.90500.89060.87950.86990.85720.8502面向主题0.846910.96510.93890.91710.88880.8737Ciao古典0.28990.82790.60380.49630.42940.36240.3332面向主题0.308610.69060.55350.47160.39200.3581电影推特古典0.50670.99120.83210.73740.67060.59640.5616面向主题0.511110.83940.74380.67650.60160.5665Movielens最新古典0.1220.95320.40340.27610.21630.16670.1478面向主题0.173210.51160.36780.29530.23230.2075考虑用户对几部不同的电影进行评级的情况。这些电影中有一些是纪录片类型的,其他的是西部片类型的。因此,该用户属于Movielens 100k数据集中的两个主题聚类。5.3. 比较为了证明考虑主题的社区检测结果的优越性,在本节中,我们将第5.2节中实现的面向主题的社区检测结果与不执行内容分析的经典社区检测结果进行比较。在经典的社团检测方法中,社团检测算法应用于一个网络,其中边的权值代表相关节点之间的通信在这种情况下,不进行内容分析我们首先将“Louvain方法“应用于Movielens 100k 、 Book-Crossing 、 CIAO 、 MovieTweetings 和Movielens Latest数据集的基本网络(实现经典的社区检测框架)。然后我们将上述五个数据集的基本网络每个主题集群包括具有相同主题的成员。然后,将Louvain方法应用于这些主题聚类(实现第5.2节中讨论的面向主题的社区检测框架然后,我们使用PurQb来评估实验评估中的性能。相应的结果在表2中给出。因此,如表2所示,b分别设置为0.5、0.75、1、1.5、2,这表示主题和链接的不同强度计算了两种骨架的纯度、Q和PurQb根据表2,模块性和纯度在面向主题的框架中具有更高的值,因为基本网络被划分为主题集群,并且每个识别的社区包括具有相同兴趣主题的成员。因此,面向主题的社区检测框架对于所有五个b值都具有更高的PurQb值。6. 结论本文评估了主题考虑在社交网站中发现更有意义的社区的效果,310 A. Reihanian等人用户通过评级来表达他们对不同对象(如电影)的感受因此,网络被划分为不同的主题集群,其中节点具有相同的兴趣主题。然后,社区检测算法应用于主题聚类,以检测社区。然后,将面向主题的社区检测结果与不进行内容分析的经典社区检测结果进行了比较。实验结果表明,将面向主题的社区发现与主题分析相结合,可以提高社区发现的效果在包含大量不同性质信息的复杂网络中,社区发现问题有着很大的研究空间因此,在未来的工作中,我们有一个计划,在网络中的其他类型的内容的影响,如通信引用Arenas,A.,Duch,J.,Ferna'ndez,A., 戈麦斯,2007年保持模块性的复杂网络规模缩减。New J. Phys. 9,176.Blei,D.M.,Ng,A.Y.,乔丹,MI,2003年。潜在Dirichlet分配。J. 机器学习。Res. 3,993-1022。Blondel,V.D.,Guillaume,J. L.,兰比奥特河,Lefebvre,E.,2008. 在大型网络中快速展开社区。J.统计机甲理论实验2008年,P10008。Chakraborty,A.,戈什,S.,Ganguly,N.,2012.在大众分类法中检测重叠社区。第23届ACM超文本和社交媒体会议论文集。出版,pp。213- 218南卡罗来纳州迪尔韦斯特,Dumais,S.T.,Landauer,T.K.,Furnas,G.W.,Harshman,R.A.,1990.潜在语义分析索引。JASIS41,391-407.丁,Y.,2011.社区检测:拓扑与局部。J. 信息技术5,498-514.杜 姆 斯 , S. , De Pessemier , T. , 马 滕 斯 湖 2013.MovieTweetings:从Twitter收集的电影评级数据集。在:推荐系统的众包和人工计算研讨会,CrowdRec在RecSysGirvan,M.,纽曼,法医,2002年。 社会和生物网络中的社区结构。Proc. Natl. Acad. Sci. 99,7821-7826。霍夫曼,T.,1999.概率潜在语义索引。第22届国际ACM SIGIR信息检索研究与发展会议论文集。出版,pp。50比57京湖,越-地,Ng,M.,黄,J.,2007.高维稀疏数据子空间聚类的熵权k-means算法。IEEE Trans. Knowl. Data Eng. 19,1026-1041。Lancichinetti,A.,Escherato,S.,2012.复杂网络中的共识聚类。Sci.众议员 二、Leicht,E.A.,纽曼,法医,2008.有向网络中的社区结构。物理修订信函100,118703。Leskovec,J.,Lang,K.J.,马奥尼,M.,2010.网络社区发现算法的实证比较在:第19届万维网国际会议的会议记录Publishing,pp. 631-640纽曼,法医,2004.加权网络分析。物理修订版E70,056131。纽曼,M.,2011.网络中的社区、模块和大规模结构。Nat.Phys.8,25-31。纽曼,法医,Girvan,M.,2004年 发现和评估网络中的社区结构。Phys. Rev. E 69,026113。帕拉湾, 德埃尼岛, 法卡斯岛,Vicsek,T.,2005年 揭示自然界和社会中复杂网络的重叠社区结构。Nature 435,814-818.唐,J.,高,H.,刘洪,2012. mTrust:在互联世界中识别多方面的信任。第五届ACM Web搜索和数据挖掘国际会议论文集。出版,pp。93比102唐,J.,高,H.,刘洪,Das Sarma,A.,2012. eTrust:了解在线世界中的信任演变第18届ACM SIGKDD知识发现和数据挖掘国际会议论文集出版,pp。253-261。唐,J.,高,H.,Hu,X.,刘洪,2013.利用同质性效应进行信任预测。第六届ACM国际网络搜索和数据挖掘会议论文集。出版,pp。53比62唐,J.,Hu,X.,高,H.,刘洪,2013.利用本地和全球社会背景进行推荐。第23届国际人工智能联合会议论文集。Publishing,pp. 2712-2718Wang,D.,中国科学院, Kwon,K., Sohn,J., Joo,B.-G., 钟岛J.,2014年。基于社会语义网络的社区话题在:先进的技术,嵌入式和多媒体以人为中心的计算。出版,pp。83比91赵,A.,妈妈,Y.,2012.服务社区发现、语义、知识和网格(SKG)的语义结构化方法。 在:2012年第八届国际会议上。出版,pp. 136-142. 赵志,Feng,S.,(1991),中国农业科学院农业科学研究所,王建奎,Huang,J.Z.,威廉姆斯,G.J.,范杰2012年。社交网络中通过社交对象和链接分析的面向主题的社区发现。知道。基于系统26,164-173.Zhu,Y.,中国科学院,Yan,X.,杰图尔湖摩尔角2013.使用混合主题链接模型进行可扩展的文本和链接分析ACMSIGKDD International Conference on Knowledge Discovery andData Mining(KDD).出版,pp。473-481.Ziegler,C.- N.,McNee,S.M.,Konstan,J.A.,Lausen,G.,2005.通过主题多样化改进推荐列表。在:第14届万维网国际会议的会议记录。出版,pp。22比32
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功