基于支持向量机的文本分类方法评测与应用
需积分: 34 156 浏览量
更新于2024-08-10
收藏 1.15MB PDF 举报
本篇硕士学位论文主要探讨了基于支持向量机的文本分类方法的研究,由崔彩霞撰写,专业领域为模式识别与智能系统,指导教师为王素格。随着计算机技术和互联网的快速发展,文本分类在信息过滤、检索、搜索引擎等领域扮演着关键角色,因此成为了学术研究的热门话题。
论文首先阐述了文本表示的过程,包括分词、停用词处理、特征选择和权重计算,构建向量空间模型。作者特别关注停用词对分类的影响,并提出了一种基于类内频率的特征选择函数,旨在优化向量维数,提高分类效率。
接着,论文对比了朴素贝叶斯、KNN(K-最近邻)和支持向量机三种文本分类方法,结果显示支持向量机在稳定性、精度和性能方面表现优秀,成为论文的重点研究对象。
进一步,作者结合粗糙集和支持向量机的优势,提出了一种融合方法,通过粗糙集的约简技术减少向量维度,有效降低了支持向量机的训练时间,提高了算法的实用性。
论文的核心部分是实现了一个文本分类实验系统,该系统不仅可用于特征选择和权重计算的研究,还能用于实际的文本分类任务,对不同语料库进行训练和测试。
最后,论文对未来文本分类的研究方向进行了展望,着重于技术创新和性能优化,强调了在海量信息时代,如何提升文本分类的准确性和速度,以满足用户对于高效获取信息的需求。
关键词:文本分类、特征选择、粗糙集、支持向量机。整个研究深入细致,展示了作者对文本分类技术的深入理解和实践应用能力。
2013-11-26 上传
2018-11-29 上传
2014-04-12 上传
123 浏览量
点击了解资源详情
2022-12-31 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
潮流有货
- 粉丝: 35
- 资源: 3887
最新资源
- JavaScript实现的高效pomodoro时钟教程
- CMake 3.25.3版本发布:程序员必备构建工具
- 直流无刷电机控制技术项目源码集合
- Ak Kamal电子安全客户端加载器-CRX插件介绍
- 揭露流氓软件:月息背后的秘密
- 京东自动抢购茅台脚本指南:如何设置eid与fp参数
- 动态格式化Matlab轴刻度标签 - ticklabelformat实用教程
- DSTUHack2021后端接口与Go语言实现解析
- CMake 3.25.2版本Linux软件包发布
- Node.js网络数据抓取技术深入解析
- QRSorteios-crx扩展:优化税务文件扫描流程
- 掌握JavaScript中的算法技巧
- Rails+React打造MF员工租房解决方案
- Utsanjan:自学成才的UI/UX设计师与技术博客作者
- CMake 3.25.2版本发布,支持Windows x86_64架构
- AR_RENTAL平台:HTML技术在增强现实领域的应用