微博炒作群体发现:基于最大频繁项集挖掘的方法

需积分: 9 0 下载量 21 浏览量 更新于2024-09-05 收藏 1.1MB PDF 举报
"这篇论文研究了一种基于最大频繁项集挖掘的微博炒作群体发现方法,旨在解决传统特征分析方法难以发现隐蔽炒作账户的问题。论文指出,由于微博炒作账户通常具有组织性和策划性,因此将其群体特性转化为数据挖掘问题,通过挖掘最大频繁项集来找出共同参与炒作的账户群体。为了提高挖掘效率,论文提出了一种迭代交集的最大频繁项集发现算法,该算法结合事务数据库特点,采用二分查找策略筛选最大频繁候选项集并减少事务间的交集计算次数。实验结果显示,该方法在真实新浪微博数据集上的准确率超过90%,且能发现传统方法无法识别的隐蔽炒作账户。该研究受到国家自然科学基金和国家高技术研究发展计划的支持,由刘琰等多位研究人员共同完成。" 本文重点讨论了微博炒作账户的检测问题,这些账户通过不正当手段干扰网络环境。传统的特征分析方法在应对高度组织和策划的炒作活动时存在局限性。论文引入数据挖掘技术,特别是最大频繁项集挖掘,来揭示这些账户之间的关联模式。最大频繁项集是数据挖掘中的一个重要概念,它指的是在数据集中频繁出现的项的集合。在这里,项代表微博账户,频繁表示这些账户共同参与炒作活动的次数。 为了高效地挖掘最大频繁项集,研究者提出了一个基于迭代交集的算法。这个算法首先通过二分查找优化了最大频繁候选项集的筛选过程,减少了数据库扫描的次数。此外,通过减少事务间的交集计算,进一步提升了算法的执行效率。这在处理大规模微博数据时显得尤为重要,因为大量的交互操作可能导致计算时间过长。 实验部分展示了该方法在实际微博数据集上的效果,其准确率超过90%,证明了方法的有效性。同时,该方法还能识别出传统特征分析方法可能遗漏的隐蔽炒作账户,这显示了数据挖掘方法在应对复杂网络行为分析中的优势。 这篇论文的研究成果不仅对微博平台的健康发展有积极意义,也为社交媒体监控和网络信息安全提供了新的思路。通过深入理解和应用最大频繁项集挖掘技术,可以更有效地识别和防范类似的网络炒作行为,维护网络环境的公正和透明。