社交媒体中的重叠聚类删除算法

18 浏览量更新于2023-12-04 收藏 649KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

重叠聚类的重复删除：一项使用社交媒体数据的研究Amit Paul和Animesh Dutta计算机科学与工程系，NIT Durgapur，India，amitpaul06@gmail.com计算机科学与工程系，NIT Durgapur，India，animeshnit@gmail.com摘要社交媒体是一个信息迷宫，当它被揭开时，它提供了对现实世界发生的事情的深刻见解在这项研究中，我们使用社交媒体Twitter创建用户组或集群使用转发和回复导向链接。创建组背后的主要思想是找出用户最适合的位置并生成清晰的集群。每个用户形成一个组，因此创建了许多重叠的组或集群。为了得到清晰的集群，我们提出了一个算法，用于删除重复的集群配置，具有显着的重叠量本文提出的思想是，我们认为许多重叠的集群在一个集群集和进行的方式，每个集群是一组用户进行比较。用户集是从这些集群中创建的。所提出的算法删除所有重复，并比较一个天真的算法。此外，还提出了一种改进的算法，其中选择的重复，保持基于最重要的位置的用户之间的所有集群的配置。这并不能保证删除所有重复项。但是，如研究所示，大多数重复被删除。提出的算法和修改后的算法都比原始算法快得多之所以选择这个域，是因为它是我们希望识别独特用户社区（集群）的域，并且通常存在大量重叠。重复消除后，我们只剩下几个簇，它们的大小比簇集中的其他簇大得多。介绍社交网站产生大量的数据。人们普遍认为，在这些数据中嵌入了许多有用的、依赖于领域的知识（Adedoyin-Olowe，Gaber和Stahl 2014）。挑战是以一种可以有意义地利用的方式识别和提取这些知识。尝试这样做的一种流行机制是使用数据min-ing技术（Srivastava 2008; Jensen and Neville 2003; Barbier andLiu 2011）。数据挖掘技术应用于社交网络数据的示例包括：内容分析（Naaman、Boase和Lai 2010; Wu版权归作者所有。以.马丁，K. Hinkelmann，A. Gerber，D.Lenat，F.van Harmelen，P.Clark（Eds.），院刊等人，2011年），识别影响者（Cha等人，2010年;Kiss和Bichler，2008年），社区识别（Lee等人，2010年; Mishra等人，2007年; Zhang和Yu，2015年; Duan等人， 2014 年 ; Gregory ， 2008 年 ; Whang ， Gleich 和Dhillon 2016），确定用户的地理位置（按留言内容）（Cheng，Caverlee和Lee，2010年; Chandra，Khan和Muhaya 2011 ）以及在配置文件中使用用户位置（ Hecht 等人， 2011 年），情感分析和观点挖掘（Kouloumpis，Wilson和Moore，2011年），确定谁在“ 关注 ”/“ 与谁交朋友 ”/“ 与谁联系 ” （ Brzozowski 和Romero，2011年; Kwak等人，2010年）、趋势识别（Gloor等人，2009年）和“热点”检测（Li和Wu，2010年）（表明发生了一些自然灾害）（Kryvasheyeu等人，2010年）。2016年）。Twitter数据的分析方法主要有三种：社会网络分析、内容分析和上下文分析。许多工作都是使用消息内容进行的，而有价值的转发信息却被忽视了（Bild etal. 2015）。在本文中，我们正在考虑转推和重定向链接，以确定用户分组或集群。reweet是从用户转发给他的追随者的消息。这很有趣，因为它告诉我们谁与谁有联系，或者用Twitter的行话说，谁在此外，Twitter网络中的用户可以转发任何其他用户的推文，并且这示出了转发另一用户的推文的用户的主题兴趣。这允许我们根据用户“关注”谁来对用户进行分组（聚类）个人Twitter用户通常会关注许多其他人，并且通常会被许多其他人关注平均而言，Twitter用户有208个追随者，尽管差异相当大。由于用户可能正在跟随许多其他用户，因此他可能属于不同的社区，因此重叠。此外，Twitter不要求用户成为某人的追随者才能转发他们的内容，因此这也增加了重叠的机会，因为单个用户可以转发其他用户的许多推文。AAAI 2019春季研讨会结合机器学习-与知识工程（AAAI-MAKE 2019）。斯坦福大学，帕洛阿尔托，加利福尼亚州，美国，2019年3月25日至27日。1Twitter统计数据和事实（2016年8月），expandedramblings.com/index.php/。用户，反之亦然。重叠集群（用户分组）可能并不总是一件坏事;但是对于许多应用，例如社会媒体用户细分，我们希望识别“清晰”集群，即具有唯一成员资格的集群。更一般地，重叠聚类是不期望的，因为它们“淡化”聚类之间的相异性（独特性）。聚类重叠越大，聚类越相似，聚类之间的差异也就越大。当我们有，不是两个或三个重叠的集群，而是数百个不同程度的重叠（相似性）时，问题就变得更加严重了，就像Twitter社区一样。为了从一个或多个集群重叠的集群集合中导出在本文中，我们提出了一种算法，以消除所有重复的集群。但是，这样做可能会丢失重要信息。理想情况下，重复删除应该以这样一种方式进行，即信息不会丢失，或者至少将损失降到最低。在我们有许多重叠聚类的情况下，也会涉及到计算开销，因此我们希望我们的重复删除以这样一种方式进行，即需要进行的比较数量最小化。因此，在本文中，我们提出了一个简单的，另一种算法的有效推导出清晰的集群从重叠-平集群来自Twitter的数据使用媒体的转发。在这样做的时候，我们使用retweet/reply链接将用户放置在最适合层次结构的组相对于本文中提出的工作，我们conceptualize Twitter的数据在一个有向图的顶点表示用户和边缘转推或从一个用户到另一个用户的答复。通常，假设如果在接收到的推文中存在感兴趣的（话题），则用户然后可以生成表示社区的集群，从单个“目标”用户、图中的顶点开始，并且以广度优先的方式逐级地进行，直到某个预先指定的最大级别（从开始的在每一层，顶点被添加到表示目标用户的聚类中。以这种方式，可以产生一组集群，即集群配置;一个集群用于给定推文组中的每个目标用户然而，所得到的聚类集将以显著重叠为特征，这使得解释困难（如上所述）。请注意，使用转推和回复来聚类用户因此，使用retweet和reply链接生成的聚类往往比使用Follow链接生成的聚类更流行（主题）。相关工作由于聚类之间存在很大的相似性，因此很难区分重叠的聚类。我们对重叠集群的研究是基于社交媒体Twitter的转发或回复网络（Paul，Dutta和Coenen 2016;Lussier和Chawla 2011）。在我们的例子中，大多数重复项被删除以获得重叠最小化的独特组或社区。我们的问题是精确的重复删除。在社交媒体中，用户有追随者和朋友。推文一般从用户流向关注者和朋友。社交追随者图和其他使用追随者和朋友的社区得到了很好的研究。但是，从源到目的地的两个用户之间存在定向边缘的转发网络规模，噪音和动态是社交媒体的主要研究问题用户可以存在于不同的社交群组或社区中，这使得聚类重叠。已经进行了许多工作来检测社交媒体中的社区集群（Lee et al.2010; Mishra等人二○ ○七年; Zhang and Yu2015; Duan et al. 2014; Gregory 2008; Whang，Gleich，and Dhillon 2016; Goldberg et al. 2010; Arora et al. 2012;Hou et al. 2015; Dreier et al. 2014; Lancichinetti andDillato 2009）。社交网络社区高度重叠，因为节点存在于多于一个社区中。当重叠最小化时，检测社区的基准算法工作得更好（ Lee et al. 2010 ）。在论文（Zhang和Yu 2015）中，作者使用亲密度测量“亲密度”来检测新兴网络的社区。在我们的例子中，我们有通过retweet或reply链接的clus- ter节点。重复去除后，我们得到一些独特的集群社区.独特之处在于它不遵循社交网络中的完整社区定义（Arora et al. 2012）。在论文（Duan et al. 2014）中，作者使用相关性分析来连接基于模块化的方法（ Shiokawa ， Fujiwara 和 Onizuka2013; Clauset ， Newman 和 Moore 2004 ）进行社区检测。尽管有许多工作使用种子扩展（ Lee et al. 2010;Whang，Gleich，and Dhillon 2016）来检测重叠社区，但尚不清楚哪种技术最适合特定领域（Kloumann andKleinberg 2014）和社区分配算法的性能（Lee et al.2010）。该论文（Lee et al. 2010）介绍了一种贪婪集团扩展算法，该算法使用不同的集团作为种子来移除接近重复的社区。在（Conover et al. 2011）中，作者使用了转发网络和提及网络来寻找政治联盟。这些网络的聚类分析显示出明显的隔离。我们的方法，重点是在重叠集群中精确删除重复，以获得工作范围在本文中提出的工作是针对从重叠的集群，找到一个用户的最适合的位置派生一些或多个集群是重叠的，这取决于层次结构的级别。随着级别的上升，重叠聚类的数量以及聚类之间的相似性也会增加。在每个层次上，通过一定的阈值选择不同的聚类大小。这里要解决的问题是在重叠的簇中删除或消除重复项.第一个算法删除集群中的所有算法逐渐创建一个--→--关于我们{→ →→→ →→------∩----{}{}关于我们通过将一组唯一用户中的一个用户与群集中的另一个用户进行比较，并同时从群集中删除用户，第二种算法是第一种算法的修改，其中不删除具有某些标准的选定重复项，因为删除所有重复项最终将意味着信息丢失。与Naive算法相比，该算法的时间复杂度有了很大的提高.问题公式化如上所述，关于本文中提出的工作，感兴趣的重叠集群是Twit- ter用户的集群这些集群是通过用户之间的转发和回复链接形成的。以广度优先搜索方式遍历链接。同一层或级别内的横向连接给定一个转推图G=V，E，其中V是顶点或用户节点，E是有向边。一如果Uj已经转发或回复用户Ui，则用户Ui连接到另一个用户Uj。注意，该关系是单向的（与双向相反）。所以在Uj和Ui之间有一条边E。因此，从一个给定的用户开始，我们可以将该用户及其所有近邻放入一个单一的集群中（其中相邻用户是通过转发或回复直接连接到当前用户的用户如果两个用户“连接”，则它们位于同一个集群中。然后，我们可以继续到种子用户的直接邻居加一，等等，直到某个预定义的最大如果我们假设一组 m 个 Twitter 用户 U=U1 ， U2 ， U3 ， ... ， Um=1，2，3，4，5，6，7，8，9，10，11，12和以下连接集合111，8 1，8 2，9 2，2 11，311、6 8、12 8、10 9、2 5、5 10（其中U jU i指示从用户U j到用户U i的转推/回复）;然后我们将得到图1中所示的形式的集群，假设l = 2（根在级别0，“基本级别”）。该图示出了关于用户1、2和3的三个集群10. 在这种情况下，簇是C1= 1，2，3，6，8，11，12，C2=2，6，8，9，10，12和C10=2，5，10。用户在群集中仅出现一次;集群每个用户都可以组成一个集群，称为我们可以预期会有很大的重叠该算法利用了聚类集中的所有聚类形式此外，还通过选择使用阈值τ定义的最大聚类（就成员数量而言）来执行实验。对于给定的最大水平l，调整τ值，使其给出顶部0。25%，0. 5%，1.0%，二、0%，4. 0%等集群的集群总数。的因此，τ的选定值指示最小簇大小为-低，不考虑重复删除的簇集群是“用户”或“成员”的集合我们将交替使用这些词。问题：给定一组 n 个重叠的聚类 C=C1 ， C2 ，C3，. . . ，Cn，具有最大级别l，删除簇中的所有重复。在本文中，我们建议使用一个最初，“空桶”是空的。从集合中的第一个集群开始，将这些成员与由来自集群的成员逐渐填充的“空桶”进行比较从集群中删除共同或重复的用户，并将非重复的成员添加到“空桶”中The ”empty bucket” will contain only unique给定C = C1，C2，C3，C4，. . . ，Cn和E=，其中Ci =U1，U2，U3，U4，. . . ，嗯。如果C iE = C s. C中的重复序列将从簇中删除如果C i-E = C u. 不常见的成员Cu被添加到如果C iE = φ. 集群成员被添加到空桶中。问题：给定一组n个重叠的聚类C=C1， C2， C3，C4，. . . ，Cn，具有最大级别l，删除最不重要的重复用户。选择水平l和τ以调整顶部聚类的数量。给定空桶E=和C=C1，C2，C3，C4，. . . ，C n. 第一步是填充最重要用户为Uk的桶。通过这样做，算法读取所有的集群一次。假设簇中的用户由Ui给定，空桶中的用户为Ue。空桶按以下方式填充。1. 如果Ui=Ue且Ui（水平） U e（level）且U i（level）0.从群集中删除Ui2. 如果Ui=Ue且Ui（level）=Ue（level）。设Ue（level）=−1。(a) C1(b) C2(c) C3要确保所有具有此条件的重复项都图1：用户从上面的简单例子中，我们可以看到一个实质性的重叠。请注意，每个聚类中的每个用户都标有其当一个用户有多个级别与之相关联时，选择最接近根的级别（越接近根，用户被认为越因此，给定一个真实的Twitter数据集，删除除了一个。该算法在本节中，建议的重复删除算法给出回想一下，关于伪造，使用某个最大级别l，我们生成描述社交媒体（Twitter）用户的聚类集C。集合C将包括每个用户的一个集群，因此具有许多重叠的集群。只有那些用户谁甚至有一个单一的转推或111823612289612 101052--选择应答消息来创建集群。其他人则被忽视了。每个集群成员（用户）都与一个外观级别相关联如果一个用户有多个级别与之关联，则将使用最接近root（目标用户）的级别。我们已经对形成集群的所有选定用户进行了实验。然而，我们已经展示了阈值τ的使用。如果我们有更大的数据，可以使用τ在这种情况下，仅选择由阈值τ定义的大小（就成员数量而言）的集群大部分星系团都是重叠的.第一个算法的pseudo在算法1中给出输入是一组聚类C，使用某个最大级别l生成并使用阈值τ修剪。输出是删除了所有重复项的聚类集C′算法1无条件INPUT：聚类集合C，使用max levell生成，并使用τ和空桶集合修剪OUTPUT：删除所有重复项后的聚类集C′1：对于集群Ci中的每个用户Ui，执行2：对于桶中的每个用户Ue，执行3：如果桶为空，则4：将Ui放入桶中5：其他6：如果Ui==Ue，则7：删除群集Ci中的用户Ui8：其他第9章：把你放进桶里10：如果结束11：如果结束12：结束13：结束14：返回C′算法1中给出的上述算法通过填充空桶并将集群中的用户与桶用户进行比较来删除集群中的所有重复。存储桶大小是集群集中不同用户的总数在这里，存储桶仅使用用户，而不使用算法2最重要用户INPUT：使用max levell生成的聚类集C，并使用τ和空桶集E进行OUTPUT：具有最重要用户Ue的桶集合E′1：对于集群Ci中的每个用户Ui，执行2：对于桶中的每个用户Ue，执行3：如果桶为空，则4：把Ui放在E5：其他6：则如果Ui==Ue且Ui=level Ue level，则4：从群集中删除Ui5：则如果U i == U e且U i level == U e level6：设置Ue level==17：如果结束8：如果结束9：结束10：结束11：返回更新C′在该时间段内的自我不被考虑用于聚类。这产生了由7123个聚类组成的聚类集（C=7123）。由于总共有9477个用户，并且集群的生成量大约为7123个，因此剩余的2354个是没有来自任何人或自己的转发或回复消息的单个用户7123数量的集群也包含单用户集群，如转发自己的用户。这些是7123集群中的2262个单用户集群此外，在7123个集群中，总的不同用户数量为7576因此，1901个用户既没有收到任何转推或回复消息，也没有在同一时间段内向其他用户发送任何消息随着l的增加，四个不同聚类集中每个聚类的平均成员数也增加，因此聚类变得更加多样化，但具有更大数量的重复。为了分析所提出的算法的操作，我们生成了具有不同值的聚类集，l=6，7，8，9。生成的集群总数为7123，所有级别的不同用户总数为7576。结果见表1、表2、表3和表4。在表中的“簇的数目这里，τ被设置为100%以生成具有一个用户的最小大小的集群。是“大。of Distinct Users设置。这也是生成的桶集。以下两列给出了应用所提出的重复删除过程之前和之后的重复数，最后一列比较了Naive算法与所提出的算法和修改后的算法的运行时间。从表中可以看出，在所有情况下，所提出的算法消除了每个聚类集中的所有重复。为了突出使用所提出的方法可以获得的优点，将其操作与朴素方法进行了比较，在朴素方法中，我们将聚类集合C中的每个聚类与C中的每个其他聚类进行比较，并删除所有重复项。此外，本文还比较了改进算法的运行时间和保留了一定的重复项表中显示了修改后算法图2示出所提出的算法和修改后的算法的运行时间与朴素算法的比较。进一步添加到评估过程中，τ用于不同的水平6、7、8、9。为了探索阈值τ如何影响该过程，我们考虑将τ设置为要保留的顶部集群的百分比的值范围0。25%，0.5%，0. 75%，1. 0%，2. 0%在集群中。表5仅显示了水平9的不同τ值的结果图3显示了通过设置不同的τ值的原始、建议和修改算法的运行时间在第9级中，共有7123个集群。τ是这样设定的，我们得到了顶部集群的特定百分比年龄。因此，在列“簇的数量”中图2：对于不同级别=6，7，8，9，朴素算法与建议和修改算法的运行时间比较。τ设为100%图3：在不同τ值的情况下，朴素算法与第9级的建议算法和修改算法的运行时间比较分析和观察在以大量重叠为特征的大型集群集群中，如在从社交媒体网络（诸如Twitter）提取的用户社区的情况下，重复移除的挑战此外，如果由于其属性而要保留选定的副本，则会变得更加复杂。在所提出的算法中，簇集只被读取一次，算法Num.个集群Num of不同用户Num. 重复项内部销售对冲前Num. 重复项消除后百分比保留重复件运行时间以秒天真7123757616518500.0308.593提出7123757616518500.097.593改性7123757616518586385.22150.766表1：初始算法、建议算法和修改算法之间的比较，其中l=6，每个聚类的最小大小为1，τ=100%算法Num.个集群Num of不同用户Num. 重复项内部销售对冲前Num. 重复项消除后百分比保留重复件运行时间以秒天真7123757624652400.0451.328提出7123757624652400.0139.297改性7123757624652491523.71217.938表2：初始算法、建议算法和修改算法之间的比较，其中l=7，每个聚类的最小大小为1，τ=100%算法Num.个集群Num of不同用户Num. 重复项内部销售对冲前Num. 重复项消除后百分比保留重复件运行时间以秒天真7123757635938300.0672.281提出7123757635938300.0202.313改性7123757635938395882.66310.383表3：初始算法、建议算法和修改算法之间的比较，其中l=8，每个聚类的最小大小为1，τ=100%算法Num.个集群Num of不同用户Num. 重复项内部销售对冲前Num. 重复项消除后百分比保留重复件运行时间以秒天真7123757651076800.01019.141提出7123757651076800.0302.985改性7123757651076898981.93453.328表4：初始算法、建议算法和修改算法之间的比较，其中l=9，每个聚类的最小大小为1，τ=100%Number个集群最小集群规模τNum of不同用户数量消除前的重复数量消除后重复初始，拟定数量删除后的重复项（修改）运行时在第二天真运行时拟议数运行时秒修改18750百分之零点二五1687128470,07192.9382.0152.57836700百分之零点五1846257510,013596.5944.4845.172716611.0%1900494340,0150415.0638.28110.1091425602.0%2006922650,0379033.017.29720.1402834454.0%21961622890,0349675.56334.00035.828355400百分之五点零22631925060,0384997.42238.67246.547427371百分之六点零23362201160,03967119.32845.26549.8594993427.0%24222457180,04186144.79749.87559.390571312百分之八点零24722691150,04292171.8956.90767.34471426810.0%25623104200,04203203.56367.40678.719表5：初始算法、建议算法和修改算法之间的比较，其中l=9，并且使用τ设置每个聚类的最小大小水平簇大小小于50簇大小50至100簇大小100至200簇大小高于2006710811040771031306018709815070397094190703表6：消除删除所有副本所提出的算法不照顾用户或成员的外观级别。由于从根开始为每个用户生成集群，因此最好保留集群的根此外，我们的直觉告诉我们，某些重复将丰富集群。为了实现这一点，我们修改了所提出的算法，以保持选定的重复。接近根用户的用户与根用户更相似，改进后的算法读取聚类集两次。该算法首先读取聚类集，生成按级别划分的用户集，然后读取所有聚类，并根据选择条件与用户集进行比较。此集合由最重要的不同用户组成这些成员不符合条件将被删除。从表1、表2、表3和表4可以观察到，随着级别1的增加，重复的数量也增加，但是删除的重复的百分比急剧下降，如列“保留的重复的百分比”中所示对于第6级，保留的重复百分比为5。22%，其中至于9级，数字是1。百分之九十三在表5中，前10%的集群为我们提供了集群集中总用户的33%，约为7576。此外，在重复删除后，留下的大多数聚类的大小小于50。例如，在级别6，在7123个集群中，只有15个集群的大小超过50。如果我们进一步分叉，那么只有4个集群的大小超过100表6中列出了其他水平。因此，在本发明中，大集群中的根用户是那些直接或通过其他用户链从最多的其他用户获得转发和回复消息的用户。我们可以将这些用户视为集群集中最突出的用户。一般来说，一个影响者能把信息传播给最多的成员.但在我们的例子中，根用户是那些获得最大转发或回复消息的用户。因此，结论在这里，我们展示了使用Twitter数据在用户之间使用转发和回复消息链接形成的众多重叠集群用户之间的转发和回复网络高度重叠。重叠的聚类会淡化相异性。为了得到一些好的聚类或不相似的聚类，以减少相似性，消除重复是必要的。我们的方法比单纯的算法好用多了。此外，使用这种方法，我们可以更快地选择性地删除重复本研究还显示了“脆”簇的产生，转发/回复网络俱乐部-如果我们不考虑只有一个成员的集群，则TER表示集群配置中的活动用户。在未来，这项研究很少有进展。桶集可以转换为不同用户的知识集因此，用户的属性将得到增强，集群也将得到增强τ的使用可用于更大的数据集的密切近似。这项研究的另一个未来工作是调查用户之间的物理距离是如何此外，对聚类集中最突出的聚类进行更详细的研究将开辟新的途径。确认这项研究工作得到了印度政府电子和信息技术部Visves- varaya博士计划的部分支持。引用Adedoyin-Olowe，M.; Gaber，M. M.; Stahl，F. 2014.社会媒体分析的数据挖掘技术综述。2014年数据挖掘数字人文。Arora，S.; Ge，R.; Sachdeva，S.;和Schoenebeck，G.2012年。在社交网络中寻找重叠社区：一种严谨的方法. 第13届ACM电子商务会议论文集，EC'12，37-54。New York，NY，USA：ACM.Barbier，G.，和Liu，H. 2011.社交媒体中的数据挖掘。社交网络数据分析。斯普林格。327-352.Bild，D.的R.;刘玉;迪克河P的;毛氏Z. M.;还有瓦拉赫D. S. 2015. twitter用户行为的聚合表征与转推图分析。ACM Trans. Internet Technol. 15（1）：4：1-4：24。Brzozowski，M. J.，和Romero，D. M. 2011. 我该跟着谁？在定向社交网络中推荐人ICWSM。Cha，M.; Haddadi，H.; Benevenuto，F.;和Gummadi，K.2010.衡量Twitter的用户影响力：百万追随者谬误.第四届国际AAAI博客和社交媒体会议（ICWSM）Chandra，S.; Khan，L.;和Muhaya，F. B. 2011.使用社会互动估计推特用户位置-一种基于内容的方法。2011年IEEE第三届国际隐私、安全、风险和信任会议和2011年IEEE第三届国际社会计算会议，838- 843。程志; Caverlee，J.;和Lee，K. 2010.你在你发推的地方：一种基于内容的地理定位Twitter用户的方法在Proceedings of the 19th ACM International Conference onInformation and Knowledge Management ， number- ber10 in CIKMNew York，NY，USA：ACM.Clauset，A.; Newman，M. E.的;和Moore，C. 2004.在大型网络中寻找社区结构物理评论E70（6）：066111。Conover ， M.;Ratkiewicz ， J.;Francisco ， M.;Goncalves ， B.; Menczer ， F.; 和 Flammini ， A. 2011.Twitter上的政治两极分化。AAAI。Dreier ， J.;Kuinke ， P.;Przybylski ， R.;Reidl ，F.;Rossmanith，P.;和Sikdar，S. 2014.社交网络中的重叠社区。CoRRabs/1412.4973。Duan，L.;街，W。N.的;刘玉;和Lu，H. 2014.通过相关性进行图中的社区检测。第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集， KDD'14 ， 1376-1385。New York，NY，USA：ACM.Eisenstein ， J.; O'Connor ， B.; 史密斯， N 。一、和Xing，E. P. 2010.地理词汇变异的潜变量模型。2010年EMNLP会议论文集，1277-1287。计算语言学协会。Gloor，P. A.; Krauss，J.; Nann，S.; Fischbach，K.;和Schoder，D. 2009. Web科学2.0：通过语义社会网络分析识别趋势。2009年国际计算科学与工程会议，第4卷，215Goldberg ， M.; Kelley ， S.; Magdon-Ismail ， M.;Mertsalov，K.;和Wallace，A. 2010.在社交网络中寻找重叠社区。2010年IEEE第二届社会计算国际会议，104Gregory，S.2008年网络中重叠社区的快速查找算法数据库中的机器学习和知识发现。斯普林格。408-423Hecht，B.;洪湖; Suh，B.;和Chi，E. H. 2011.来自贾斯汀比伯在SIGCHI计算机系统中人为因素中，CHI246. New York，NY，USA：ACM.侯，Y.; Whang，J. J.; Gleich，D. F.地;和Dhillon，I. S.2015.基于低秩半定规划的非穷举重叠聚类。第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集，KDDNew York，NY，USA：ACM.Jensen，D.，Neville，J. 2003.社交网络中的数据挖掘。287-302.在动态社会网络建模和分析：研讨会摘要和论文。亲亲C和Bichler，M. 2008.识别影响者- 衡量在客户网络中的影响力戴西斯支持系统 46（1）：233-253。克卢曼岛M.，和Kleinberg，J. M. 2014.从小种子集鉴定群落成员在第20届ACM SIGKDD国际会议上，知识发现和数据挖掘，KDD '14，1366- 1375。NewYork，NY，USA：ACM.Kouloumpis，E.; Wilson，T.; and Moore，J. 2011. Twit-ter情绪分析：好的，坏的和OMG！在ICWSM。Kryvasheyeu，Y.;陈，H.; Obradovich，N.; Moro，E.;Van Hentenryck，P.;Fowler，J.;和Cebrian，M.2016年。利用社交媒体活动快速评估灾害损失。科学进展2（3）.Kwak，H.;李，C.; Park，H.; Moon，S. 2010.什么是Twitter，社交网络还是新闻媒体？第19届万维网国际会议论文集，WWW'10，591-600。New York，NY，USA：ACM.Lancichinetti，A.，和Chaanato，S. 2009. 在有向和加权图上测试社区检测算法的基准。物理修订版E80（1）：016118。李，C.; Reid，F.; McDaid，A.;和Hurley，N. 2010.通过贪婪集团扩张检测高度重叠的社区结构。ArXiv电子打印。Li，N.，和Wu，D.D. 2010年。基于文本挖掘和情感分析的在线论坛热点检测与预测。戴西斯支持系统48（2）：354-368。卢西尔，J.T.，和Chawla，N.五. 2011年。网络对推特的影响。在第14届国际发现科学会议论文集，DS'11，209-220。Berlin，Heidelberg：Springer-Verlag.Mishra，N.;Schreiber，R.;斯坦顿岛和Tarjan，R.E. 2007年聚类社交网络。第五届国际网络图算法与模型会议论文集，WAWBerlin，Heidelberg：Springer-Verlag.Naaman，M.; Boase，J.;和Lai，C.- H. 2010.真的是关于我的吗？：社会意识流中的消息内容。2010年ACM计算机支持的协同工作会议论文集，CSCW'10，189-192。New York，NY，USA：ACM.保罗，A.; Dutta，A.;和Coenen，F. 2016.基于最优集的tweet 用户聚类。在 2016 年 IEEE 区域 10 会议（TENCON），286Shiokawa，H.;藤原，Y.;和Onizuka，M. 2013.基于模块度的图聚类快速算法。在AAAI，1170-1176。Srivastava，J.2008年社会网络分析的数据挖掘在2008年IEEE智能和安全信息学国际会议上，XXXIII-XXXIVWhang，J.J.道：Gleich，D.F.地; 和Dhillon，I.S. 2016.使用邻域膨胀种子扩展的重叠平社区检测 IEEETransactions on Knowledge and Data Engines28（5）：1272-1284.Wu ， S.;Hofman ， J.M.; Mason ， W. 一、 Watts ， D.J.2011年。谁在Twitter上对谁说了什么。WWW '11，705-714。New York，NY，USA：ACM.张杰，和Yu，P.S. 2015.新兴网络的社区检测。2015年SIAM国际数据挖掘会议论文集，127暹罗。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

社交媒体中的重叠聚类删除算法

基于随机_i_k__i_NN图的批量边删除聚类算法.pdf

手动实现kmeans聚类算法和sklearn中的聚类算法的区别

聚类算法和空间聚类算法的区别

java 聚类分析算法

DPC聚类算法与CDP聚类算法

Scikit-learn库中的聚类算法有哪些，请全部列举

cspa 聚类集成算法

Python聚类分析算法常用库

kmeans聚类算法跟层次聚类算法有什么区别

对比，深度嵌入图像聚类算法，深度无监督图像聚类算法，深度子空间图像聚类算法的效率，复杂度，图像聚类程度，准确率

中文文本聚类算法分析

讨论聚类分析算法和关联分析算法的应用

聚类算法中谱聚类算法跟哪个算法比较好

谱聚类算法和聚类算法有什么区别

综述常用的聚类算法（包括：单聚类算法和双聚类算法）

层次聚类算法 和EM聚类算法的详细介绍

改进后的小波网格聚类竞争算法效果

在驾驶行为分析中使用的聚类算法

数据挖掘中的聚类算法综述

机器学习实验 聚类步骤 1.选择一种聚类算法对鸢尾花做聚类; 2.读入要分类的数据; 3.设置初始聚类中心; 4.根据不同的聚类算法实现聚类。 5.显示聚类结果。 6.按照同样步骤实现学过的所有聚类算法。

最新资源

层次聚类算法和EM聚类算法的详细介绍

机器学习实验聚类步骤 1.选择一种聚类算法对鸢尾花做聚类; 2.读入要分类的数据; 3.设置初始聚类中心; 4.根据不同的聚类算法实现聚类。 5.显示聚类结果。 6.按照同样步骤实现学过的所有聚类算法。