DC-DTM算法:基于动态主题模型的微博社区发现

5 下载量 163 浏览量 更新于2024-07-15 收藏 811KB PDF 举报
"基于动态主题模型融合多维数据的微博社区发现算法" 这篇研究论文探讨了在微博社交网络中发现社区的挑战以及一种新的解决方案——DC-DTM算法(Discovery Community by Dynamic Topic Model)。随着微博用户的迅速增长,这个平台成为了信息交流的重要场所。然而,由于微博的特性,如内容长度限制,传统的社区发现算法往往难以应对由此产生的网络稀疏性问题。 论文提出了一种创新方法,首先将微博网络转化为有向加权网络,其中边的方向代表了用户之间的关注关系。接着,利用动态主题模型(DTM)来计算节点间的语义相似度,这些相似度被用作网络中边的权重。DTM模型是一种专门针对微博的扩展,不仅能挖掘出微博的主题分布,还能评估用户在特定主题中的影响力。 接下来,论文介绍了一种名为WLPA(Weighted Label Propagation)的标签传播算法,其复杂度较低。在初始化阶段,该算法选择具有高影响力的用户作为种子节点,并根据影响力大小自上而下传播标签,以此克服传统标签传播算法可能出现的逆流现象,增强了算法的稳定性。 实验部分展示了DTM模型在微博主题挖掘上的优秀性能,同时证明了DC-DTM算法能有效地识别出微博网络中的社区结构。这一工作对于理解和分析大规模社交媒体数据,尤其是微博社区的形成和演化,提供了有价值的工具和理论支持。 关键词包括新浪微博、文本挖掘、DC-DTM、吉布斯采样、LDA(Latent Dirichlet Allocation)和主题模型。此研究在信息技术领域,特别是社交媒体数据分析和社区发现方面具有重要贡献,为后续的相关研究提供了新的思路和技术手段。