没有合适的资源?快使用搜索试试~ 我知道了~
重叠聚类的重复删除:一项使用社交媒体数据的研究Amit Paul和Animesh Dutta计算机科学与工程系,NIT Durgapur,India,amitpaul06@gmail.com计算机科学与工程系,NIT Durgapur,India,animeshnit@gmail.com摘要社交媒体是一个信息迷宫,当它被揭开时,它提供了对现实世界发生的事情的深刻洞察在这项研究中,我们使用社交媒体Twitter创建用户组或集群使用转发和回复定向链接。创建组背后的主要思想是找出用户最适合的位置并生成清晰的集群。每个用户形成一个组,因此创建了许多重叠的组或集群。为了得到清晰的集群,我们提出了一种算法,用于删除重复的集群配置,具有大量的重叠。在本文中提出的想法是,我们认为许多重叠的集群在一个集群集,并继续进行的方式,每个集群与一组用户进行比较。用户集是从这些集群中创建的。所提出的算法删除所有重复,并比较一个天真的算法。此外,还提出了一种修改的算法,其中选择的duplicates保持基于最重要的位置的用户之间的所有集群的配置。这不能保证删除所有重复项。但是,如研究所示,大多数重复被删除。提出的算法和改进的算法都比原始算法快得多之所以选择这个域,是因为它是我们希望识别独特用户社区(集群)的域,并且通常存在大量重叠。重复消除后,我们只剩下几个簇,它们的大小比簇集中的其他簇大得多。介绍社交网站产生大量的数据。人们普遍认为,在这些数据 中 嵌 入 了 许 多 有 用 的 、 依 赖 于 领 域 的 知 识(Adedoyin-Olowe、Gaber和Stahl 2014)。挑战是以一种可以有意义地利用的方式识别和提取这些知识。尝试这样做的一种流行机制是使用数据min-ing技术(Srivastava 2008; Jensen和Neville 2003; Barbier和Liu2011)。将数据挖掘技术应用于社交网络数据的示例包括:内容分析(Naaman,Boase和Lai 2010; Wu版权归作者所有。以. Martin,K. Hinkelmann,A. Gerber,D.Lenat,F.van Harmelen,P.Clark(Eds.),学报等人,2011)、影响者的识别(Cha等人,2011)、影响者的识别(Cha等人,2011)、影响者的识别(Cha等人,2011)、影响者的识别(Cha等人,2011)。2010; Kiss和Bichler 2008),社区识别(Lee et al. 2010;Mishra等人2007; Zhang and Yu 2015; Duan 等人2014;Gregory 2008; Whang,Gleich和Dhillon 2016),用户地理位置的确定(通过消息内容)(Cheng,Caverlee和Lee 2010; Chandra,Khan和Muhaya 2011)和在简档中使用用户位置(Hecht et al. 2011)、情感分析和观点挖掘(Kouloumpis、Wilson和Moore 2011)、确定谁在“关注”/“与谁交朋友”/“与谁有联系”(Brzozowski和Romero 2011; Kwak等人2010)、趋势识别(Gloor et al.2009)和“热点”检测(Li和Wu 2010)(指示一些自然灾害)(Kryvasheyeu et al. 2016)。Twitter数据的分析方法主要有三种:社交网络分析、内容分析和上下文分析。许多工作都是使用消息内容进行的,而有价值的转发信息被忽视了(Bild et al.2015)。在本文中,我们正在考虑转推和重定向链接,以确定用户分组或集群。reweet是从用户转发给他的追随者的消息。这很有趣,因为它告诉我们谁和谁有联系,或者用推特的行话说,谁在此外,Twitter网络中的用户可以转发任何其他用户的推文,并且这示出了转发另一用户的推文的用户的主题兴趣。这允许我们根据用户“关注”谁来对用户进行分组(聚类),这进而对于各种社会经济应用(诸如推荐关注者、推荐用于推文的馈送等)是感兴趣的。然而,与传统聚类算法的情况不同,以这种方式对用户进行分组通常会导致许多重叠的聚类(用户组)。个人Twitter用户通常关注许多其他人,并且通常被许多其他人关注平均而言,一个Twitter用户有208个追随者,尽管差异相当大。由于用户可能跟随许多其他用户,因此他可能属于不同的社区,并且因此重叠。此外,Twitter不要求用户是某人的追随者来转发他们的内容,因此这也增加了重叠的机会,因为单个用户可以转发其他用户的许多推文。AAAI 2019春季研讨会结合机器学习-与知识工程(AAAI-MAKE 2019)。斯坦福大学,帕洛阿尔托,加利福尼亚州,美国,2019年3月25日至27日。1Twitter统计数据和事实(2016年8月),expandedramblings.com/index.php/。用户,反之亦然。重叠的集群(用户分组)可能并不总是一件坏事;但是对于许多应用(例如社会媒体用户分割),我们希望识别“清晰”的簇,即具有唯一成员的簇。更一般地,重叠聚类是不期望的,因为它们“淡化”聚类之间的相异性(独特性)。聚类重叠越大,聚类变得越相似,并且聚类之间的差异决定。当我们有,不是两个或三个重叠的集群,而是数百个不同程度的重叠(相似性),如Twitter社区的情况下,问题会加剧。为了从其中一个或多个簇重叠的一组簇中导出“清晰”簇,必须使用某些规则从各个簇中去除重复的成员,使得每个簇变得唯一;这一过程被称为重复删除。在本文中,我们提出了一个算法,m从集群中删除所有重复。但是,这样做可能会丢失重要信息。理想情况下,重复删除应该以不丢失信息的方式进行,或者至少将损失降至最低。在我们有许多重叠的集群的情况下,也涉及计算开销,因此我们希望我们的重复删除以这样的方式进行,即需要进行的比较的数量最小化。因此,在本文中,我们提出了一个简单的,另一种算法的有效推导出清晰的集群重叠,平集群来自Twitter的数据 ,使用媒 体的转 发。在这 样做时 ,我们 使用retweet/reply链接将用户放置在最适合层次结构的组相对于本文中提出的工作,我们conceptualize Twitter的数据在一个有向图的顶点表示用户和边缘转发或从一个用户到另一个用户的答复。通常,假设如果在接收到的推文中存在感兴趣的(话题),则用户然后,可以生成表示社区的集群,从个体“目标”用户、图中的顶点开始在每个级别,顶点被添加到表示目标用户的聚类。以这种方式,可以产生一组集群,即集群配置;一个集群用于给定推文组中的每个目标用户然而,得到的聚类集合将以显著重叠为特征,这使得解释困难(如上所述)。请注意,使用转推和回复对用户进行聚类与使用Follow链接是不同的;关注链接本质上是历史性的,而转发和回复链接是当前的。因此,使用retweet和reply链接生成的集群往往比使用Follow链接生成的集群更流行(主题)。相关工作由于聚类之间的许多相似性,区分重叠聚类是困难的。我们在重叠集群上的工作是基于转发或回复网络( Paul , Dutta , and Coenen 2016; Lussier 和 Chawla2011)的社交媒体,Twitter。在我们的例子中,大多数重复项被删除以得到重叠最小化的独特组或社区。我们的问题是精确的重复删除。在社交媒体中,用户有追随者和朋友。推文一般从用户流向关注者和朋友。社交关注者图和其他使用关注者和朋友的社区得到了很好的研究。 但是,其中在两个用户之间存在从源到目的地的有向边缘的转发网络没有受到太多关注(Bild et al.2015)。规模,噪音和动态是社交媒体的主要研究问题用户可以存在于不同的社交群组或社区中,这使得聚类重叠。已经进行了许多工作来检测社交媒体中的社区集群(Lee et al.2010; Mishra等人2007; Zhang and Yu 2015;Duan 等 人 2014; Gregory 2008; Whang , Gleich , andDhillon 2016; Goldberg等人2010; Arora等人2012; Hou等人 2015; Dreier 等 人 2014; Lancichinetti 和 Fortunato2009)。社交网络社区高度重叠,因为节点存在于多于一个社区中。当重叠最小化时,检测社区的基准算法工作得更好(Lee et al. 2010)。在论文(Zhang和Yu2015)中,作者使用亲密度度量“亲密度”检测新兴网络的社区。在我们的例子中,我们有通过retweet或reply链接的clus- ter节点。重复去除后,我们得到一些独特的集群社区。独特的意义是,它不遵循完整的社区定义(Arora et al. 2012年,在社交网络。在该论文中(Duan et al. 2014),作者使用相关性分析连接到基于模块化的方法(Shiokawa,Fujiwara和Onizuka 2013;Clauset,Newman,and Moore 2004)用于社区检测。尽管存在许多使用种子扩展的工作(Lee et al. 2010;Whang,Gleich和Dhillon 2016)用于检测重叠社区,但是 没 有 清 楚 地 了 解 哪 种 技 术 最 适 合 于 特 定 领 域(Kloumann和Kleinberg 2014)和社区分配算法的性能(Lee et al. 2010)。该论文(Lee et al. 2010)引入了贪婪集团扩展算法,其使用不同集团作为种子来移除接近重复的社区。在(Conover et al. 2011)作者使用了转推网络和mentionnetwork来寻找政治联盟。这些网络的 聚类分析 显示出明 显的隔 离。我们 的方法,focuses在重叠的集群中精确的重复删除,以获得工作范围在本文中提出的工作是针对从重叠的集群,找到一个用户的最适合的位置派生一些或多个集群取决于层级的级别而重叠。重叠聚类的数量以及聚类之间的相似性随着级别的上升而增加。在每个层次上,通过一定的阈值选择不同的聚类大小。在这里处理的问题是在重叠的集群之间的重复的去除或消除。第一个算法删除集群中的所有算法会逐渐创建一个我的天→我的天联系我们{→→→我的天我的天我的天∩我的天我的天联系我们{}联系我们通过将一组唯一用户中的一个用户与群集中的另一个用户进行比较,并同时从群集中删除该用户,来删除该组唯一用户。第二算法是第一算法的修改,其中不移除具有某些标准的所选择的重复,因为移除所有重复将最终意味着信息的丢失。与Naive算法相比,该算法的时间复杂度有了很大的提高。问题公式化如上所述,关于本文中呈现的工作,感兴趣的重叠集群是Twitter用户的集群使用用户之间的转发和回复链接形成集群。以广度优先搜索方式遍历链接。不采用同层或同级别的横向连接给定一个转发图G=V,E,其中V是顶点或用户节点,并且E是有向边。一如果Uj已经转发或回复用户Ui,则用户Ui连接到另一用户Uj。注意,该关系是单向的(与双向相反)。因此,在Uj到Ui之间存在边E。因此,从给定用户开始,我们可以将该用户及其所有直接邻居放置到单个集群中(其中,邻居用户是通过转发或回复直接连接如果两个用户“连接”,则它们在同一个集群中。然后,我们可以进行到种子用户的紧邻加一,等等,直到某个预定义的最大如果我们假设m个Twitter用户的集合U=U1,U2,U3,…,Um=1、2、3、4、5、6、7、8、9、10、11、12以及以下连 接集合111、81、82、92、211、311、6 8、12 8、10 9、2 5、5 10(其中Uj(Ui)指示从用户Uj到用户Ui的转发/回复;然后我们将得到图1中所示的形式的集群,假设l = 2(根在级别0,“基本级别”)。该图示出了关于用户1、2和3的三个集群十个 在这种情况下的簇是Cl= 1,2,3,6,8,11,12,C2=2,6,8,9,10,12和C10=2,5,10。用户在群集中仅出现一次;集群每个用户被允许形成一个集群,并被称为我们可以预期会有很大的重叠为了所提出的算法的目的,使用聚类集中的所有聚类形成。此外,还通过选择使用阈值τ定义的最大集群(就成员数量而言)来执行实验。对于给定的最大水平l,τ值被调整为使得其给出顶部0。25%,0. 5%、1. 0%,2. 0%,4. 簇总数的0%等簇。的因此,τ的选定值指示最小簇大小为低,不考虑重复去除的簇集群是“用户”或“成员”的集合我们将交替使用这些词。问题:给定一组n个重叠的聚类C=C1,C2,C3,. 我的天我的天 ,Cn,具有最大级别l,删除簇中的所有重复。在本文中,我们建议使用一个最初“空桶”是空的。从集合中的第一集群开始,将成员与“空桶”进行比较从集群中删除公共或重复用户,并将非重复成员添加到“空桶”中The ”empty bucket” will contain only unique给定C = C1,C2,C3,C4,. 我的天我的天 ,Cn和E=其中Ci = U1,U2,U3,U4,. 我的天我的天 ,Um.如果C iE = C s. 从簇中删除C中的重复序列 若C_i-E= C_u. 不常见成员Cu被添加到如果C iE = φ. 集群成员被添加到空桶中。问题:给定一组n个重叠的聚类C=C1,C2,C3,C4,.我的天我的天 ,Cn,具有最大级别l,删除最不重要的重复用户。选择水平l和τ以调整顶部聚类的数量。 给定空桶E=和C=C1,C2,C3,C4,. 我的天我的天 、Cn. 第一步是填充具有最大有效用户Uk的桶。通过这样做,算法读取所有簇一次。假设簇中的用户由Ui给定,空桶中的用户为Ue。空桶按以下方式填充。1. 如果Ui=Ue并且Ui(level) Ue(level)且Ui(level)0。从群集中删除Ui2. 如果Ui=Ue并且Ui(level)=Ue(level)。设置Ue(电平)=−1。(a) 丙烯酸c1(b) 长2储(c) 碳三以确保具有此条件的所有重复项都是图1:用户从上面的简单示例中,我们可以看到实质性的重叠。请注意,每个集群中的每个用户都标有其在用户具有与其相关联的若干级别的情况下,选择最接近根的级别(越接近根,用户被认为越因此,给定一个真实的Twitter数据集,删除,除了一个该算法在本节中,提出的重复删除算法 给出回想一下,关于伪造,使用某个最大级别l,我们生成描述社交媒体(Twitter)用户的聚类集合C。集合C将包括每个用户一个集群,并且因此以许多重叠集群为特征。只有那些用户谁甚至有一个单一的转推或111823612289612 101052我的天选择应答消息来创建集群。其他人则被忽视了。每个集群成员(用户)与一个外观级别相关联如果一个用户有多个关联的级别,则将使用最接近root(目标用户)的级别。我们已经对形成集群的所有选定用户进行了实验。然而,我们已经示出了阈值τ的使用。如果我们有更大的数据,可以使用τ在这种情况下,仅选择由阈值τ定义的大小(就成员数量而言)的集群大部分星团都是重叠的。在算法1中给出了第一算法的伪输入是使用某个最大级别1生成并且使用阈值τ修剪的聚类C的集合。输出是删除了所有重复项的聚类集C’。算法1无条件INPUT:使用最大级别1生成并且使用τ和空桶集修剪的聚类集COUTPUT:删除所有重复项的群集集C′1:对于集群Ci中的每个用户Ui,进行2:对于桶中的每个用户Ue,进行3:如果桶为空,则4:将Ui放入桶中5:其他6:如果Ui==Ue,则7:删除群集Ci中的用户Ui8:其他9:将Ui放入桶中10:如果结束11:如果结束12:结束13:结束14:返回C′算法1中给出的上述算法通过填充空桶并将集群中的用户与桶用户进行比较来删除集群中的所有重复。存储桶大小是集群集中不同用户的总数在这里,存储桶只使用用户而不使用算法2具有最重要用户INPUT:使用最大级别1生成并且使用τ和空桶集E修剪的聚类集COUTPUT:具有最重要用户Ue的桶集合E’1:对于集群Ci中的每个用户Ui,进行2:对于桶中的每个用户Ue,进行3:如果桶为空,则4:将Ui放入E5:其他6:如果Ui==Ue且Ui7:用Ui替换Ue8:其他9:将Ui放入E10:如果结束11:如果结束12:结束13:结束14:返回E’看起来更远离根部。E′是具有最重要位置的不同用户的集合。用户的级别被考虑用于比较显著性。簇只遍历一次。最初,桶集合E是空的。当算法读取第一集群中的第一用户时,填充桶。之后,逐个读取所有集群中的所有用户。将集群中的用户Ui与桶集合E的具有其级别(位置)的Ue进行比较 从根的外观)。最近的用户是更接近根的用户。在算法2中,行6:9示出了比较。具有较小值的用户Ui,即最接近根的用户Ui替换来自桶的用户Ue。该算法继续进行,直到读取了所有簇。带条件的来自算法2的输出是第三算法的输入。将集群集合中的每个用户Ui与桶集合E’用户Ue进行比较。所有最不重要的用户它的外观。在该算法中,初始生成的聚类铁路超高和标高 0将从簇中删除如果用户因为最初桶是空的,所以在大小上将比后面的桶大尽管如此,所有的重复都从集群集合中移除,但这是有代价的。不使用用户的外观级别,因此聚类中的信息将更少。下一个算法是上述算法1的修改,其具有两个部分:以下两个小节(小节和小节)将进一步详细讨论这些问题。生成最重要的用户存储桶该子部分生成一组最高有效用户桶E’。如果用户U1出现在根附近,则它比远离根的用户上述算法2生成本质上最重要的用户集合E’。E′包含用户最多的存在于具有相同级别的集群和桶集合两者中,则用户被保持在至少一个集群中。删除所有其他重复项评价对于本节中呈现的评估,使用了可从华盛顿大学持有的ARK数据储存库获得的地理标记的微博数据集2该数据集拥有覆盖美国所有州和哥伦比亚特区的377616条推文(Eisenstein et al. 2010)。该数据集的特点是9477用户。从该数据集,使用l的值的范围生成四个簇集,l是距根的最大距离, 六七八九未获得来自任何其他用户的任何转发或回复消息,或由级别给出重要位置。一个看起来很接近的sure到根被认为比用户2 http://www.ark.cs.cmu.edu/GeoTwitter。⟨ ⟩ ⟨⟩⟨ ⟩−我的天我的天| |我的天算法3重复删除INPUT:使用最大级别1生成并且使用τ和桶集合E’修剪的聚类集合COUTPUT::删除重复项最多的集合C′1:对于集群Ci中的每个用户Ui,do2:对于Bucket中的每个用户Ue,do3:如果Ui==Ue并且Ui水平>Ue水平,则4:从群集中删除Ui5:如果Ui==Ue且Ui==Ue6:设置Ue水平==17:如果结束8:如果结束9:结束10:结束11:返回更新C’这产生了由7123个簇组成的簇集 (C=7123)。由于总共有9477个用户,并且集群的生成量约为7123,因此剩余的2354个是没有来自任何人或自己的转发或回复消息的单个用户7123个集群还包含单用户集群,如转发自己的用户。这些是7123个集群中的2262个单用户集群此外,在7123个集群中,总的不同用户的数量为7576因此,1901个用户既没有收到任何转发或回复消息,也没有在同一时间段内向其他用户发送任何转发或随着l的增加,四个不同聚类集合中每个聚类的平均成员数也增加,并且因此聚类变得更加多样化,但具有更大数量的重复。为了分析所提出的算法的操作,我们生成了具有不同值的聚类集,l=6,7,8,9。生成的集群总数为7123,所有级别的不同用户总数为7576。结果见表1、表2、表3和表4。在表中,“簇的数量这里,τ被设置为100%以生成具有一个用户的最小大小的集群。“数字。of Distinct Users”设置。这也是生成的桶集。以下两列给出了应用所提出的重复去除过程之前和之后的重复数量,并且最后一列比较了朴素算法与所提出的和修改的算法的运行时间。从表中可以看出,在所有情况下,所提出的算法消除了每个聚类集中的所有重复特征。为了突出使用所提出的方法可以获得的优点,将其操作与简单方法进行比较,其中我们将聚类集合C中的每个聚类与C中的每个其他聚类进行比较,并删除所有重复项。此外,改进算法保留了一定的重复项,并对算法的运行时间进行了比较.表中显示了修改后算法图2示出所提出的和修改的算法与朴素算法的运行时间的比较。进一步添加到评估过程,τ用于不同的水平6、7、8、9。为了探索阈值τ如何影响该过程,我们考虑将τ设置为在要保留的顶部集群的百分比方面的值的范围0。25%,0. 5%、0. 75%,1. 0%,2. 0%在集群集中。表5仅显示了水平9的不同τ值的结果图3示出了通过设置不同τ值的原始、建议和修改算法的运行时间在等级9中,总共有7123个集群。τ被设置为使得我们得到顶部集群的特定百分比年龄。因此,在列“簇的数量”中图2:针对不同级别=6、7、8、9的朴素算法与所提出的和修改的算法的运行时间的比较。τ设为100%图3:在不同τ值的情况下,在第9级,朴素算法与建议算法和修改算法的运行时间比较分析和观察在以大量重叠为特征的大型集群配置中,如在从社交媒体网络(诸如Twitter)提取的用户社区的情况下,重复移除的挑战此外,如果由于其属性而要保留所选择的副本,则会变得更加复杂。在所提出的算法中,簇集只读取一次并且算法民数记集群数量不同用户民数记重复内部销售对冲前民数记重复消除后百分比保留重复样本运行时间以秒天真7123757616518500.0308.593提出7123757616518500.097.593修改7123757616518586385.22150.766表1:原始算法、提议算法和修改算法之间的运行时间比较,其中l=6并且每个聚类的最小大小为1,τ=100%算法民数记集群数量不同用户民数记重复内部销售对冲前民数记重复消除后百分比保留重复样本运行时间以秒天真7123757624652400.0451.328提出7123757624652400.0139.297修改7123757624652491523.71217.938表2:原始算法、提议算法和修改算法之间的运行时间比较,其中1=7并且每个聚类的最小大小为1,τ=100%算法民数记集群数量不同用户民数记重复内部销售对冲前民数记重复消除后百分比保留重复样本运行时间以秒天真7123757635938300.0672.281提出7123757635938300.0202.313修改7123757635938395882.66310.383表3:原始算法、提议算法和修改算法之间的运行时间比较,其中l=8并且每个聚类的最小大小为1,τ=100%算法民数记集群数量不同用户民数记重复内部销售对冲前民数记重复消除后百分比保留重复样本运行时间以秒天真7123757651076800.01019.141提出7123757651076800.0302.985修改7123757651076898981.93453.328表4:原始算法、提议算法和修改算法之间的运行时间比较,其中l=9并且每个集群的最小大小为1,τ=100%数量集群最小簇大小τ数量不同用户数量消除前重复数量消除后重复,未处理,拟定数量消除后的重复项(修改)运行时在几秒钟内天真运行时建议数(秒运行时秒修改18750百分之零点二五1687128470,07192.9382.0152.57836700百分之零点五1846257510,013596.5944.4845.172716611.0%1900494340,0150415.0638.28110.1091425602.0%2006922650,0379033.017.29720.1402834454.0%21961622890,0349675.56334.00035.8283554005.0%22631925060,0384997.42238.67246.5474273716.0%23362201160,03967119.32845.26549.8594993427.0%24222457180,04186144.79749.87559.3905713128.0%24722691150,04292171.8956.90767.34471426810.0%25623104200,04203203.56367.40678.719表5:原始算法、提议算法和修改算法之间的运行时间比较,其中l=9并且使用τ设置每个聚类的最小大小水平簇大小小于50簇大小在50到100簇大小在100到200簇大小200以上6710811040771031306018709815070397094190703表6:消除删除所有副本所提出的算法不照顾用户或成员的外观的水平。由于从根开始为每个用户生成集群,因此最好保留集群的根此外,我们的直觉告诉我们,某些重复会丰富集群。为了实现这一点,我们修改了所提出的算法,以保持选定的重复。更接近根用户的用户与它更相似。修改后的算法读取两次聚类集。该算法首先读取聚类集,按级别生成用户集,第二次读取所有聚类,并根据选择条件与用户集进行比较。此集合由最重要的不同用户组成那些不满足条件的成员将被删除。从表1、表2、表3和表4观察到,随着水平1增加,重复的数量也增加,但删除的重复的百分比急剧下降,如列“保留的重复的百分比”中所示对于级别6,保留的重复项百分比为5。22%在哪里对于等级9,数字是1。百分之九十三在表5中,前10%的集群为我们提供了集群集中总用户的33%,约为7576。此外,在重复移除之后,留下的大多数簇的大小小于50。例如,在级别6,在7123个集群中,只有15个集群的大小大于50。如果我们进一步分叉,那么在这只有4个集群在大小上超过100表6中列出了其他水平。因此,大集群中的根用户是那些直接或通过其他用户链从最多其他用户获得转发和回复消息的用户。我们可以将这些用户视为集群集中最突出的用户。一般来说,一个影响者能把信息传播给最多的成员.但在我们的例子中,root用户是那些获得最大转发或回复消息的用户。因此,结论在这里,我们展示了使用Twitter数据在用户之间使用转发和回复消息链接形成的众多重叠集群用户之间的转发和回复网络高度重叠。重叠的聚类淡化相异性。为了得到一些好的聚类或不相似的聚类以减少相似性,消除重复是必要的。我们的方法比单纯的算法好得多。此外,使用这种方法,我们可以更快地选择性地删除重复项该研究还显示了“脆”簇的生成,转发/回复网络clus-如果我们不考虑只有一个成员的集群,则TER表示集群配置中的活动用户。在未来,这项研究很少有进展。桶集可以被转换成个体不同用户的知识集因此,用户的属性将被增强,并且集群也将被增强τ的使用可用于更大的数据集以进行紧密近似。该研究的另一个未来工作是调查物理距离如何影响用户之间的关系,即用户转发另一个用户的帖子。此外,对聚类集中最突出的聚类进行更详细的研究将开辟新的途径。确认这项研究工作的部分支持Visves-varaya博士计划,电子和信息技术部,印度政府。引用Adedoyin-Olowe,M.; Gaber,M. M.;和Stahl,F. 2014.用于社会媒体分析的数据挖掘技术综述。2014年数据挖掘数字人文。Arora,S.; Ge,R.; Sachdeva,S.;和Schoenebeck,G.2012年。在社交网络中寻找重叠的社区:采取严格的方法。第13届ACM电子商务会议论文集,EC'12,37-54。New York,NY,USA:ACM.Barbier,G.,和Liu,H. 2011.社交媒体中的数据挖掘。社交网络数据分析。斯普林格327-352Bild,D. R.; Liu,Y.;迪克河P.; Mao、毛花Z. M.;还有瓦拉赫学位美国 2015. twitter用户行为的聚合表征与转推图分析。ACM Trans. Internet Technol. 15(1):4:1-4:24。Brzozowski,M. J.和Romero,D.先生2011. 我该跟着谁?在定向社交网络中推荐人ICWSM。Cha,M.; Haddadi,H.; Benevenuto,F.;和Gummadi,K.2010.在Twitter中衡量用户影响力:百万追随者谬误。第 四 届 国 际 AAAI 会 议 - 我 们 的 博 客 和 社 交 媒 体(ICWSM)。Chandra,S.; Khan,L.;和Muhaya,F.芽孢2011.使用社会互动估计推特用户位置-一种基于内容的方法。2011年IEEE第三届国际隐私、安全、风险和信任会议和2011年IEEE第三届国际社会计算会议,838- 843。Cheng,Z.; Caverlee,J.;和Lee,K. 2010.你在你发推文的地方:基于内容的地理定位Twitter用户的方法在Proceedings of the 19th ACM International Conference onInformation and Knowledge Management , number- ber10 in CIKMNew York,NY,USA:ACM.Clauset,A.; Newman,M. E.;和Moore,C. 2004.在大型网络中寻找社区结构物理评论E70(6):066111。Conover , M.;Ratkiewicz , J.;Francisco , M.;Goncalves , B.; Menczer , F.; 和 Flammini , A. 2011.Twitter上的政治两极分化。AAAI。Dreier , J.;Kuinke , P.;Przybylski , R.;Reidl ,F.;Rossmanith,P.;和Sikdar,S. 2014.社交网络中的重叠社区。CoRRabs/1412.4973。Duan,L.;街,W. N.; Liu,Y.;和Lu,H. 2014.通过相关性在图中进行社区检测。第20届ACM SIGKDD知识发现 和 数 据 挖 掘 国 际 会 议 论 文 集 , KDD'14 , 1376-1385。New York,NY,USA:ACM.Eisenstein,J.; O'Connor,B.; Smith,N. A.;和Xing,E.P. 2010.地理词汇变异的潜变量模型。2010年EMNLP会议论文集,1277-1287。计算语言学协会。Gloor,P. A.; Krauss,J.; Nann,S.; Fischbach,K.;和Schoder,D. 2009.网络科学2.0:通过语义社交网络分析识别趋势。2009年国际计算科学与工程会议,第4卷,215Goldberg , M.; Kelley , S.; Magdon-Ismail , M.;Mertsalov,K.;和Wallace,A. 2010.在社交网络中寻找重叠的社区。2010年IEEE第二届社会计算国际会议,104Gregory,S.2008年一种快速查找网络中重叠社区的算法数据库中的机器学习和知识发现。斯普林格408-423Hecht,B.; Hong,L.; Suh,B.;和Chi,E.小时2011.来自贾斯汀比伯在SIGCHI计算机系统中人为因素中,CHI246. New York,NY,USA:ACM.Hou,Y.; Whang,J. J.; Gleich,D. F.;和Dhillon,I.美国2015.基于低秩半定规划的非穷举重叠聚类。第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDDNew York,NY,USA:ACM.Jensen,D.,和Neville,J. 2003.社交网络中的数据挖掘。287-302.动态社会网络建模与分析:研讨会总结和论文。亲亲C和Bichler,M. 2008.识别影响者- 测量客户网络中的影响 Decis 支持系统46(1):233-253。克卢曼岛M.和Kleinberg,J.先生2014.从小种子集鉴定群落成员第20届ACM SIGKDD国际会议论文集知识发现和数据挖掘,KDD '14,1366- 1375。NewYork,NY,USA:ACM.Kouloumpis,E.; Wilson,T.;和Moore,J. 2011. Twit-ter情绪分析:好的,坏的,还有OMG!在ICWSM。Kryvasheyeu,Y.; Chen,H.; Obradovich,N.; Moro,E.;Van Hentenryck,P.;Fowler,J.;和Cebrian,M.2016年。利用社交媒体活动快速评估灾害损失。科学进展2(3).Kwak,H.; Lee,C.; Park,H.;和Moon,S. 2010. twitter是什么,社交网络还是新闻媒体?第19届万维网国际会议论文集,WWW'10,591-600。New York,NY,USA:ACM.Lancichinetti,A.和Fortunato,S. 2009. 在有向和加权图上测试社区检测算法的基准。E80(1):016118。Lee,C.; Reid,F.; McDaid,A.;和Hurley,N. 2010.通过贪婪集团扩张检测高度重叠的社区结构。ArXiv电子打印。Li,N.,和Wu,D.学位2010年。基于文本挖掘和情感分析的在线论坛热点检测与预测。Decis支持系统48(2):354-368。卢西尔,J.T.和Chawla,N.五. 2011年。网络对推文的影 响 。 在 Proceedingsofthe14thInternationalConference on Discovery Science,DS'11,209-220中。Berlin,Heidelberg:Springer-Verlag.Mishra,N.;Schreiber,R.;斯坦顿岛和Tarjan,R.大肠2007年群集社交网络。在第五届网络图算法和模型国际会议论文集,WAWBerlin,Heidelberg:Springer-Verlag.Naaman,M.; Boase,J.;和Lai,C.-小时2010.真的是因为我吗:社交意识流中的消息内容。2010年ACM计算机支持的协同工作会议论文集,CSCW'10,189-192。New York,NY,USA:ACM.Paul,A.; Dutta,A.;和Coenen,F. 2016.基于最优集的推文用户聚类。在2016年IEEE Region 10 Conference(TENCON),286Shiokawa,H.; Fujiwara,Y.;和Onizuka,M. 2013.基于模块度的图聚类快速算法。在AAAI,1170-1176。Srivastava,J.2008年社会网络分析的数据挖掘在2008年IEEE智能和安全信息学国际会议上,Whang,J.J.; Gleich,D.F.; 和Dhillon,I.美国2016.使用邻 域 膨 胀 种 子 扩 展 的 重 叠 - 平 社 区 检 测 IEEETransactions on Knowledge and Data Engineering28(5):1272-1284.Wu,S.;Hofman,J.M.; Mason,W.A.; 和Watts,D.大通2011年。谁在Twitter上对谁说了什么。WWW’11,705-714中。New York,NY,USA:ACM.Zhang,J.,和Yu,P. S. 2015.新兴网络的社区检测。2015年SIAM国际数据挖掘会议论文集,127暹罗
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功