ICIT算法:提升网络话题发现准确性的增量文本聚类

需积分: 9 0 下载量 3 浏览量 更新于2024-08-13 收藏 767KB PDF 举报
"一种面向网络话题发现的增量文本聚类算法 (2011年)",殷风景等人提出了一种名为ICIT(Incremental Clustering for Internet-oriented Topic Detection)的算法,旨在解决网络舆情监控系统的话题发现问题。该算法旨在克服传统single-pass算法处理网络文本聚类时存在的输入顺序影响和精度低的问题。 ICIT算法的特点和核心组成部分包括: 1. 实时性:算法设计基于single-pass思想,确保在网络文本流中快速响应,满足实时聚类的需求。 2. 正文向量化:在分词过程中,只选取名词和动词进行标注,用以构建正文向量,提高了文本特征的代表性。 3. 文本标题向量:结合文本标题建立独立的向量,与正文向量一同用于表示文本,增强聚类的准确性。 4. 平均链接策略(average-link):采用平均距离作为连接文本的依据,有助于形成更稳定的聚类结构。 5. 代的概念:将文本分批进行聚类,引入“代”的概念,以减少单次处理的数据量,提高处理效率。 6. 报道重新选择和调整:每批聚类后,对新加入的报道进行所属群组的重新评估和调整,以提升聚类质量。 实验证明,ICIT算法在提高话题发现的准确度和实用性方面表现优秀,特别是在网络舆情监控场景下,能有效地捕捉和组织相关文本,帮助识别和跟踪网络上的热点话题。 此外,该研究由国防科学技术大学C4ISR技术国防科技重点实验室的研究团队完成,涉及到的领域包括信息管理、智能决策技术、对等网络、信息集成和知识管理。论文发表于2011年,得到了国家自然科学基金的支持,显示出该研究在学术界具有一定影响力。 关键词:话题发现、文本聚类、增量聚类、准确度、ICIT算法。 此研究对于理解和改进网络文本聚类方法,特别是对于实时监控和分析大规模网络数据中的热点话题具有重要价值,为后续的舆情分析、信息挖掘和智能决策提供了理论和技术支持。