支持向量机在文本分类中的应用:基于类内频率的特征选择

需积分: 34 6 下载量 4 浏览量 更新于2024-08-10 收藏 1.15MB PDF 举报
"在平衡语料和非平衡语料上-vmware下安装macos 10.9最新版的方法mac os x server 10.6版本" 这篇硕士论文主要研究了基于支持向量机(SVM)的文本分类方法。文本分类是信息处理领域中的核心任务,随着互联网信息的爆炸性增长,快速准确地对文本进行分类显得尤为重要。作者崔彩霞在山西大学攻读模式识别与智能系统硕士学位时,对文本分类进行了系统的研究。 首先,论文讨论了文本表示的全过程,包括分词、停用词表的构建、特征选择、权重计算以及向量空间的生成。停用词表的定制有助于减少无关信息,降低向量维度。特征选择是关键步骤,作者提出了一种基于类内频率的特征选择函数,以适应SVM的需求。 其次,论文比较了三种主流的文本分类方法:朴素贝叶斯、K近邻(KNN)和SVM。通过实验,SVM显示出更稳定、准确的分类效果,成为首选方法。 第三,论文结合粗糙集理论,提出了一种粗糙集与SVM融合的文本分类方法。粗糙集的约简功能可以进一步降低向量的维度,从而提高SVM的训练效率。 第四,作者实现了一个文本分类实验系统,该系统不仅支持特征选择和权重计算的研究,还能直接对不同语料进行训练和测试,具有较强的实用性。 最后,论文对未来文本分类的研究方向进行了展望,指出可能的发展趋势和挑战。 关键词涉及文本分类、特征选择、粗糙集和支持向量机,这些是研究的核心概念。通过深入研究和实验,论文揭示了SVM在文本分类中的优势,以及如何通过融合其他理论如粗糙集来优化分类过程。