ICIT算法:提升网络话题发现准确性的增量文本聚类
需积分: 9 3 浏览量
更新于2024-08-13
收藏 767KB PDF 举报
"一种面向网络话题发现的增量文本聚类算法 (2011年)",殷风景等人提出了一种名为ICIT(Incremental Clustering for Internet-oriented Topic Detection)的算法,旨在解决网络舆情监控系统的话题发现问题。该算法旨在克服传统single-pass算法处理网络文本聚类时存在的输入顺序影响和精度低的问题。
ICIT算法的特点和核心组成部分包括:
1. 实时性:算法设计基于single-pass思想,确保在网络文本流中快速响应,满足实时聚类的需求。
2. 正文向量化:在分词过程中,只选取名词和动词进行标注,用以构建正文向量,提高了文本特征的代表性。
3. 文本标题向量:结合文本标题建立独立的向量,与正文向量一同用于表示文本,增强聚类的准确性。
4. 平均链接策略(average-link):采用平均距离作为连接文本的依据,有助于形成更稳定的聚类结构。
5. 代的概念:将文本分批进行聚类,引入“代”的概念,以减少单次处理的数据量,提高处理效率。
6. 报道重新选择和调整:每批聚类后,对新加入的报道进行所属群组的重新评估和调整,以提升聚类质量。
实验证明,ICIT算法在提高话题发现的准确度和实用性方面表现优秀,特别是在网络舆情监控场景下,能有效地捕捉和组织相关文本,帮助识别和跟踪网络上的热点话题。
此外,该研究由国防科学技术大学C4ISR技术国防科技重点实验室的研究团队完成,涉及到的领域包括信息管理、智能决策技术、对等网络、信息集成和知识管理。论文发表于2011年,得到了国家自然科学基金的支持,显示出该研究在学术界具有一定影响力。
关键词:话题发现、文本聚类、增量聚类、准确度、ICIT算法。
此研究对于理解和改进网络文本聚类方法,特别是对于实时监控和分析大规模网络数据中的热点话题具有重要价值,为后续的舆情分析、信息挖掘和智能决策提供了理论和技术支持。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2013-12-24 上传
2021-05-18 上传
2021-05-18 上传
2021-03-07 上传
weixin_38706045
- 粉丝: 4
- 资源: 950
最新资源
- 俄罗斯RTSD数据集实现交通标志实时检测
- 易语言开发的文件批量改名工具使用Ex_Dui美化界面
- 爱心援助动态网页教程:前端开发实战指南
- 复旦微电子数字电路课件4章同步时序电路详解
- Dylan Manley的编程投资组合登录页面设计介绍
- Python实现H3K4me3与H3K27ac表观遗传标记域长度分析
- 易语言开源播放器项目:简易界面与强大的音频支持
- 介绍rxtx2.2全系统环境下的Java版本使用
- ZStack-CC2530 半开源协议栈使用与安装指南
- 易语言实现的八斗平台与淘宝评论采集软件开发
- Christiano响应式网站项目设计与技术特点
- QT图形框架中QGraphicRectItem的插入与缩放技术
- 组合逻辑电路深入解析与习题教程
- Vue+ECharts实现中国地图3D展示与交互功能
- MiSTer_MAME_SCRIPTS:自动下载MAME与HBMAME脚本指南
- 前端技术精髓:构建响应式盆栽展示网站