ICIT算法:提升网络话题发现准确性的增量文本聚类

需积分: 0 1 下载量 97 浏览量 更新于2024-09-07 收藏 767KB PDF 举报
"一种面向网络话题发现的增量文本聚类算法.pdf" 本文介绍了一种名为ICIT(Incremental Clustering for Internet Texts)的算法,旨在解决网络舆情监控系统中的话题发现问题,特别是针对经典single-pass算法在处理网络文本聚类时存在的输入顺序敏感和精度不高的问题。ICIT算法在设计上兼顾了实时性和准确性。 首先,ICIT算法基于single-pass算法的原理,确保了在网络环境中对文本的快速聚类,满足了实时性的需求。在处理文本时,它采用了特定的正文向量化方法,只选取分词后的名词和动词作为特征,这样可以更有效地捕捉文本的核心信息。同时,通过建立文本标题的向量并结合正文向量,使得文本的表征更为全面,有助于提升聚类的准确性。 接着,ICIT算法应用了average-link策略,这是一种聚类方法,它通过计算所有对之间距离的平均值来确定簇间距离,有利于形成更为紧密和稳定的聚类结构。此外,算法引入了“代”的概念,将文本分批进行聚类,每一代处理一部分文本,然后在每批聚类结束后,对新增的报道进行重新选择和所属聚类的调整,这种增量式的方法可以逐步优化聚类结果。 实验结果证实,ICIT算法在提高话题发现的准确度方面表现优秀,具有较高的实用价值。该算法适用于实时监控网络舆情,能够有效发现和追踪网络上的热点话题,对于信息管理和智能决策等领域具有重要意义。 关键词:话题发现,文本聚类,增量聚类,准确度,ICIT算法 论文的作者包括殷风景、肖卫东、葛斌和李芳芳,他们分别在国防科学技术大学的C4ISR技术国防科技重点实验室从事不同的研究方向,如指挥信息系统、信息资源管理、信息管理、智能决策技术、对等网、信息集成和知识管理。该论文是在2010年发表,得到了国家自然科学基金的资助。通过这篇论文,读者可以了解到ICIT算法在解决网络文本聚类问题上的创新和优势。