支持向量机与粗糙集在文本分类中的应用研究

需积分: 34 6 下载量 74 浏览量 更新于2024-08-10 收藏 1.15MB PDF 举报
"基于支持向量机的文本分类方法研究" 这篇硕士学位论文主要探讨了在VMware环境下安装MacOS 10.9和Mac OS X Server 10.6版本的技术细节,但其主要内容并不涉及VMware安装过程,而是专注于文本分类领域的研究,特别是支持向量机(SVM)在文本分类中的应用。作者崔彩霞在模式识别与智能系统专业中进行了深入研究,并由导师王素格指导。 论文的核心知识点包括: 1. 文本预处理:研究了停用词的选择对文本分类的影响。在不降低分类准确性的前提下,扩大了特征词集,初步实现了特征向量的降维。 2. 特征选择函数:对比了现有的特征选择方法,并提出了一种基于类内词频的新函数。此函数在支持向量机文本分类中表现出高效性,特别适用于减少特征维度。 3. 文本分类方法对比:对朴素贝叶斯、KNN和SVM三种常见文本分类方法进行了实验比较。实验结果显示,SVM在稳定性、精度和性能上表现最优。 4. 粗糙集与SVM的结合:引入粗糙集理论,结合支持向量机,提出了基于粗糙集的支持向量机文本分类方法。这种方法利用粗糙集的约简原理解决SVM的维数灾难问题,减少了向量维度,提高了训练效率。 5. 系统实现:开发了一个基于SVM和RSVM的文本分类系统,该系统能够对不同语料进行分类实验,为后续研究提供了平台。 6. 未来展望:计划在概念空间模型下研究文本分类,并探索更适合文本分类的约简算法。同时,计划扩大实验的语料规模以进一步验证和优化方法。 关键词:文本分类、特征选择、粗糙集、支持向量机。 这篇论文的研究工作不仅限于理论分析,还包括了实际系统的开发和实验验证,为文本分类领域的研究提供了新的视角和实用工具。通过结合粗糙集理论,改善了SVM在高维文本数据中的性能,为后续研究开辟了新方向。