支持向量机在文本分类中的应用研究

需积分: 34 6 下载量 85 浏览量 更新于2024-08-10 收藏 1.15MB PDF 举报
"这篇硕士论文详细探讨了基于支持向量机的文本分类方法,包括文本的向量模型表示、特征选择和分类器训练。作者崔彩霞在导师王素格的指导下,研究了文本表示的全过程,如分词、停用词表的构建、特征选择和权重计算,以及向量空间的生成。论文还对比了朴素贝叶斯、KNN和SVM三种文本分类方法,指出SVM在分类稳定性、精度和性能上的优势。此外,提出了一种结合粗糙集和支持向量机的融合分类方法,以降低向量维度并优化训练时间。最后,实现了一个文本分类实验系统,可用于特征选择和权重计算的研究,并能对不同语料进行训练和测试。" 在文本分类中,向量空间模型(VSM)是一种常用的方法,它将文档表示为向量,其中文档间的相似度通过向量距离来衡量。VSM的关键概念包括文档、项、项的权重和向量空间模型。文档是文章的统称,项通常是文档中的词或短语,项的权重则反映了其在文档中的重要性。通过计算项的权重,文档被转化为向量形式,便于计算文档间的相似性。 特征选择是文本分类中的关键步骤,因为原始词汇集合可能非常大,需要压缩为有意义的特征子集。论文中提到了停用词表的构建,停用词对分类影响的分析,以及一种基于类内频率的特征选择函数,这有助于减少向量维度并提高分类效率。 在分类器训练部分,论文比较了朴素贝叶斯、KNN和支持向量机(SVM)三种算法。SVM因其稳定性和高精度被选为最佳方法。同时,论文还提出了一种融合粗糙集和支持向量机的新方法,利用粗糙集的约简特性来进一步减少向量维度,加快SVM的训练速度。 此外,作者实现的文本分类实验系统不仅用于研究,还可直接应用于实际的文本分类任务,包括特征选择和权重计算。对于文本分类的未来研究,论文给出了展望,强调了在数据预处理、特征提取和模型优化等方面的重要性和潜力。