改进的中文短信聚类算法:CMAS与重标度优化
需积分: 0 125 浏览量
更新于2024-09-05
收藏 581KB PDF 举报
本文研究主要探讨了一种新颖的中文短信文本聚类方法——CMAS(Clustering Methods of A New Scaling),它旨在解决传统聚类算法在处理短信这种特定文本类型时所面临的挑战。短信文本因其本身的特性,如词汇稀疏性、高维度和非正态分布等,使得传统的聚类方法,如K-means和谱聚类(K-Harmonic Means,KHM)难以达到理想效果。K-means假设簇内数据分布均匀且独立,而谱聚类对初始聚类中心敏感,这些假设在短信文本中并不适用。
CMAS算法首先通过构建CMAS坐标系,选择一组具有良好区分度的方向,这些方向能够更好地反映短信文本的内在结构。然后,针对初始簇的分布特性,设计了特殊的重新标度函数,这个函数旨在调整各个坐标轴的重要性,以便在新尺度下更好地反映数据的分布特征。重新标度过程实际上是对原始特征空间进行了一种隐式映射,使得数据在新空间中的分布更加理想,从而提高了聚类决策的准确性。
相比于传统的K-means,CMAS算法的时间复杂度保持在相同水平,这意味着在效率上没有显著增加负担。实验结果表明,CMAS算法在保持较低时间复杂度的同时,能提供更高质量的聚类结果,显示出对中文短信文本的较好适应性。
论文作者刘金岭、冯万利和张亚红来自淮阴工学院计算机工程学院,他们共同提出了这个创新的聚类方法,旨在克服现有技术在处理短信文本上的局限,为实际应用中的短信分类、情感分析等任务提供了有力的工具。这项研究不仅提升了文本聚类的精度,也为未来针对特定领域文本数据的高效聚类算法开发奠定了基础。
2021-05-29 上传
2019-07-22 上传
2019-07-22 上传
2019-09-20 上传
2019-09-20 上传
2019-07-22 上传
2019-09-20 上传
2019-09-20 上传
2019-09-13 上传
weixin_38743481
- 粉丝: 696
- 资源: 4万+
最新资源
- 正整数数组验证库:确保值符合正整数规则
- 系统移植工具集:镜像、工具链及其他必备软件包
- 掌握JavaScript加密技术:客户端加密核心要点
- AWS环境下Java应用的构建与优化指南
- Grav插件动态调整上传图像大小提高性能
- InversifyJS示例应用:演示OOP与依赖注入
- Laravel与Workerman构建PHP WebSocket即时通讯解决方案
- 前端开发利器:SPRjs快速粘合JavaScript文件脚本
- Windows平台RNNoise演示及编译方法说明
- GitHub Action实现站点自动化部署到网格环境
- Delphi实现磁盘容量检测与柱状图展示
- 亲测可用的简易微信抽奖小程序源码分享
- 如何利用JD抢单助手提升秒杀成功率
- 快速部署WordPress:使用Docker和generator-docker-wordpress
- 探索多功能计算器:日志记录与数据转换能力
- WearableSensing: 使用Java连接Zephyr Bioharness数据到服务器