基于支持向量机的文本分类方法评测与应用

需积分: 34 6 下载量 156 浏览量 更新于2024-08-10 收藏 1.15MB PDF 举报
本篇硕士学位论文主要探讨了基于支持向量机的文本分类方法的研究,由崔彩霞撰写,专业领域为模式识别与智能系统,指导教师为王素格。随着计算机技术和互联网的快速发展,文本分类在信息过滤、检索、搜索引擎等领域扮演着关键角色,因此成为了学术研究的热门话题。 论文首先阐述了文本表示的过程,包括分词、停用词处理、特征选择和权重计算,构建向量空间模型。作者特别关注停用词对分类的影响,并提出了一种基于类内频率的特征选择函数,旨在优化向量维数,提高分类效率。 接着,论文对比了朴素贝叶斯、KNN(K-最近邻)和支持向量机三种文本分类方法,结果显示支持向量机在稳定性、精度和性能方面表现优秀,成为论文的重点研究对象。 进一步,作者结合粗糙集和支持向量机的优势,提出了一种融合方法,通过粗糙集的约简技术减少向量维度,有效降低了支持向量机的训练时间,提高了算法的实用性。 论文的核心部分是实现了一个文本分类实验系统,该系统不仅可用于特征选择和权重计算的研究,还能用于实际的文本分类任务,对不同语料库进行训练和测试。 最后,论文对未来文本分类的研究方向进行了展望,着重于技术创新和性能优化,强调了在海量信息时代,如何提升文本分类的准确性和速度,以满足用户对于高效获取信息的需求。 关键词:文本分类、特征选择、粗糙集、支持向量机。整个研究深入细致,展示了作者对文本分类技术的深入理解和实践应用能力。