"这篇论文是2009年发表在《厦门大学学报(自然科学版)》第48卷第2期的一篇自然科学类论文,由吴海华、李绍滋、林达具、柯迫和曹冬林共同撰写。论文主要探讨了一种新的聚类算法——IncreaseK-Means,旨在解决传统K-均值算法预先设定聚类数量以及仿射传播(Affinity Propagation)计算复杂度过高的问题。IncreaseK-Means算法被应用于Blog内容的相似度聚类分析,以支持社区发现和话题跟踪。通过对比实验,该算法在时间效率上接近K-均值,而在精度上可与仿射传播媲美,适合于大规模网络文本的分析。" 这篇论文针对Blog的社区发现需求,提出了一个改进的聚类算法IncreaseK-Means。传统的K-均值算法需要预先设定类别的数量,这在面对动态变化的网络文本数据时可能不适应。同时,仿射传播虽然在聚类效果上表现出色,但其计算复杂度较高,对于处理大量Blog文本来说,效率较低。为了克服这些问题,作者设计了IncreaseK-Means算法,它在保持相对高效运行的同时,能够自动调整聚类的数量,从而更灵活地适应数据的特性。 博客(Blog)作为一种基于RSS技术的信息平台,促进了用户之间的互动交流。通过社区发现,可以挖掘出具有相同兴趣的群体,便于话题追踪和市场推广。然而,随着Blog数量的急剧增加,手动划分社区变得不切实际,因此自动化的社区发现技术显得至关重要。论文重点研究了基于内容的社区分析,尤其是文本聚类阶段。 论文中提到的文本聚类方法主要包括基于划分、基于层次和仿射传播三种。鉴于Blog文档数量庞大,基于层次的方法由于计算复杂度高而被排除。因此,研究主要集中在基于划分的方法(如K-均值)和仿射传播。IncreaseK-Means算法在实验中表现出了良好的时间和精度平衡,这表明它在处理大规模网络文本聚类时,既保留了K-均值的效率,又在一定程度上达到了仿射传播的准确性。 这篇论文为网络文本分析提供了一个有效工具,即IncreaseK-Means算法,该算法有望在社区发现和话题跟踪领域得到广泛应用,特别是在处理大量Blog数据时,能以较高的效率和准确度完成聚类任务。
下载后可阅读完整内容,剩余3页未读,立即下载
- 粉丝: 1
- 资源: 913
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦