社交媒体重叠聚类的去重算法：深度洞察与效率提升

PDF格式 | 650KB | 更新于2025-01-16 | 87 浏览量 | 举报

本文主要探讨了在社交媒体数据分析中，特别是在处理重叠聚类问题时，如何有效地去除重复的集群配置。研究由Amit Paul和Animesh Dutta两位作者进行，他们隶属于印度国立杜尔加布尔理工学院的计算机科学与工程系。社交媒体数据，如Twitter，因其丰富的信息量和实时性，被广泛用于挖掘有价值的知识和见解。然而，由于用户交互和兴趣的复杂性，常常会出现大量的重叠用户群体或集群。在传统的聚类方法中，可能会生成许多重叠的群组，这可能掩盖了真实社区的结构和独特性。为了解决这个问题，研究人员提出了一个专门的算法，旨在消除这些冗余的集群。该算法通过比较和合并相似的用户集合，以形成清晰、不重复的群组。它不仅对比了一个基本的去除重复的算法，还引入了一个改进版本，这个改进算法更侧重于保留关键位置用户的集群配置，尽管不能保证完全消除所有重复，但实验证明它能显著减少大部分重复。选择这个领域的原因在于社交网络中重叠的用户社区是研究的重点，通过有效的重复删除，可以得到更少但更大规模的核心群组，这有助于更好地理解用户的行为模式和兴趣趋势。这项工作利用了数据挖掘技术，如内容分析和影响力识别，来解析社交媒体数据，并展示了其在挖掘有价值信息方面的潜力。总结来说，本文的核心贡献在于提供了一种针对社交媒体数据的重叠聚类重复删除策略，通过高效算法优化了社区发现过程，这对于理解和应用社交网络数据具有重要的实践价值。

重叠聚类的重复删除：一项使用社交媒体数据的研究

Amit Paul和Animesh Dutta

计算机科学与工程系，NIT Durgapur，India，amitpaul06@gmail.com计算机科学与工程

系，NIT Durgapur，India，animeshnit@gmail.com

摘要

社交媒体是一个信息迷宫，当它被揭开时，它提供了对

现实世界发生的事情的深刻洞察在这项研究中，我们使

用社交媒体Twitter创建用户组或集群使用转发和回复定

向链接。创建组背后的主要思想是找出用户最适合的位

置并生成清晰的集群。每个用户形成一个组，因此创建

了许多重叠的组或集群。为了得到清晰的集群，我们提

出了一种算法，用于删除重复的集群配置，具有大量的

重叠。在本文中提出的想法是，我们认为许多重叠的集

群在一个集群集，并继续进行的方式，每个集群与一组

用户进行比较。用户集是从这些集群中创建的。所提出

的算法删除所有重复，并比较一个天真的算法。此外，

还提出了一种修改的算法，其中选择的duplicates保持基

于最重要的位置的用户之间的所有集群的配置。这不能

保证删除所有重复项。但是，如研究所示，大多数重复

被删除。提出的算法和改进的算法都比原始算法快得多

之所以选择这个域，是因为它是我们希望识别独特用户

社区（集群）的域，并且通常存在大量重叠。重复消除

后，我们只剩下几个簇，它们的大小比簇集中的其他簇

大得多。

介绍

社交网站产生大量的数据。人们普遍认为，在这些数

据中嵌入了许多有用的、依赖于领域的知识

（Adedoyin-Olowe、Gaber和Stahl 2014）。挑战是以一

种可以有意义地利用的方式识别和提取这些知识。尝

试这样做的一种流行机制是使用数据min- ing技术

（ Srivastava 2008; Jensen 和 Neville 2003; Barbier 和 Liu

2011）。将数据挖掘技术应用于社交网络数据的示例

包括：内容分析（Naaman，Boase和Lai 2010; Wu

版权归作者所有。以. Martin，K. Hinkelmann，A. Gerber，

D.Lenat

，

F.van Harmelen

，

P.Clark

（

Eds.

），学报

等人，2011）、影响者的识别（Cha等人，2011）、影

响者的识别（Cha等人，2011）、影响者的识别（Cha

等人，2011）、影响者的识别（Cha等人，2011）。

2010; Kiss和Bichler 2008），社区识别（Lee et al. 2010;

Mishra 等人 2007; Zhang and Yu 2015; Duan 等人 2014;

Gregory 2008; Whang，Gleich和Dhillon 2016），用户

地理位置的确定（通过消息内容）（Cheng，Caverlee

和Lee 2010; Chandra，Khan和Muhaya 2011）和在简档

中使用用户位置（Hecht et al. 2011）、情感分析和观点

挖掘（Kouloumpis、Wilson和Moore 2011）、确定谁在

“ 关注 ”/“ 与谁交朋友 ”/“ 与谁有联系 ” （ Brzozowski和

Romero 2011; Kwak等人2010）、趋势识别（Gloor et al.

2009）和“热点”检测（Li和Wu 2010）（指示一些自然

灾害）（Kryvasheyeu et al. 2016）。

Twitter 数据的分析方法主要有三种：社交网络分

析、内容分析和上下文分析。许多工作都是使用消息

内容进行的，而有价值的转发信息被忽视了（Bild et al.

2015）。在本文中，我们正在考虑转推和重定向链

接，以确定用户分组或集群。reweet是从用户转发给他

的追随者的消息。这很有趣，因为它告诉我们谁和谁

有联系，或者用推特的行话说，谁在此外，Twitter网

络中的用户可以转发任何其他用户的推文，并且这示

出了转发另一用户的推文的用户的主题兴趣。这允许

我们根据用户“关注”谁来对用户进行分组（聚类），这

进而对于各种社会经济应用（诸如推荐关注者、推荐用于

推文的馈送等）是感兴趣的。然而，与传统聚类算法的

情况不同，以这种方式对用户进行分组通常会导致许

多重叠的聚类（用户组）。个人Twitter用户通常关注

许多其他人，并且通常被许多其他人关注平均而言，

一个Twitter用户有208个追随者，尽管差异相当

大

。由

于用户可能跟随许多其他用户，因此他可能属于不同

的社区，并且因此重叠。此外，Twitter不要求用户是

某人的追随者来转发他们的内容，因此这也增加了重

叠的机会，因为单个用户可以转发其他用户的许多推

文。

AAAI 2019春季研讨会结合机器学习-

与知识工程（AAAI-MAKE 2019）。斯坦福大学，帕洛阿尔

托，加利福尼亚州，美国，2019年3月25日至27日。

Twitter

统计数据和事实（

2016

年

月），

expandedramblings.com/index.php/。

下载后可阅读完整内容，剩余7页未读，立即下载

cpongm

粉丝: 6

社交媒体重叠聚类的去重算法：深度洞察与效率提升

去除重复数据

统计学习聚类分析：ESLII_print12《统计学习的元素》探索指南

R中数据挖掘初探：聚类与关联规则挖掘

使用词法分析与句法分析进行文本聚类分析

聚类算法在文本挖掘与聚类中的应用

【Kmeans算法扩展】：Fuzzy C-means聚类算法的深度应用

ArcMap栅格矢量化秘籍：解决常见问题，提升数据处理效率

【社交网络分析】：R语言在数据处理与可视化中的应用

数据挖掘算法在社交网络分析中的应用：关系挖掘，舆情监测

数据预处理中的数据融合：多源数据整合的黄金规则

最新资源