ICIT算法:提升网络话题发现准确性的增量文本聚类
需积分: 0 97 浏览量
更新于2024-09-07
收藏 767KB PDF 举报
"一种面向网络话题发现的增量文本聚类算法.pdf"
本文介绍了一种名为ICIT(Incremental Clustering for Internet Texts)的算法,旨在解决网络舆情监控系统中的话题发现问题,特别是针对经典single-pass算法在处理网络文本聚类时存在的输入顺序敏感和精度不高的问题。ICIT算法在设计上兼顾了实时性和准确性。
首先,ICIT算法基于single-pass算法的原理,确保了在网络环境中对文本的快速聚类,满足了实时性的需求。在处理文本时,它采用了特定的正文向量化方法,只选取分词后的名词和动词作为特征,这样可以更有效地捕捉文本的核心信息。同时,通过建立文本标题的向量并结合正文向量,使得文本的表征更为全面,有助于提升聚类的准确性。
接着,ICIT算法应用了average-link策略,这是一种聚类方法,它通过计算所有对之间距离的平均值来确定簇间距离,有利于形成更为紧密和稳定的聚类结构。此外,算法引入了“代”的概念,将文本分批进行聚类,每一代处理一部分文本,然后在每批聚类结束后,对新增的报道进行重新选择和所属聚类的调整,这种增量式的方法可以逐步优化聚类结果。
实验结果证实,ICIT算法在提高话题发现的准确度方面表现优秀,具有较高的实用价值。该算法适用于实时监控网络舆情,能够有效发现和追踪网络上的热点话题,对于信息管理和智能决策等领域具有重要意义。
关键词:话题发现,文本聚类,增量聚类,准确度,ICIT算法
论文的作者包括殷风景、肖卫东、葛斌和李芳芳,他们分别在国防科学技术大学的C4ISR技术国防科技重点实验室从事不同的研究方向,如指挥信息系统、信息资源管理、信息管理、智能决策技术、对等网、信息集成和知识管理。该论文是在2010年发表,得到了国家自然科学基金的资助。通过这篇论文,读者可以了解到ICIT算法在解决网络文本聚类问题上的创新和优势。
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
2019-07-22 上传
weixin_39840588
- 粉丝: 451
- 资源: 1万+
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜