"这篇硕士论文主要探讨了基于支持向量机(SVM)的文本分类方法,涉及文本表示、特征选择和分类器训练等关键步骤。作者通过建立停用词表来减少向量维数,提出了一种基于类内频率的特征选择函数,并对比了朴素贝叶斯、KNN和SVM的分类效果,证明了SVM在分类精度和稳定性方面的优势。此外,论文还提出了将粗糙集理论与SVM结合的文本分类新方法,以优化向量维数并加速训练过程。最后,作者实现了一个实验系统,用于特征选择和分类研究。"
在文本分类领域,特征词的权重是一个重要的概念。不同的特征词对文本分类的贡献度不同,某些词汇可能是通用的,对分类的贡献较小,而有些词在特定类别中出现频繁,有助于提高分类准确性。因此,对每个类别进行特征选择时,需要去除那些对分类影响不大的词,即停用词,例如“的”、“在”等。停用词的选择需满足两个条件:一是删除后分类准确率不应下降,二是能实现维度的粗略降低。
在论文中,作者首先计算词频,人工挑选高频且对分类无大贡献的词作为停用词,然后结合代词、连词等词表进一步完善停用词库。实验结果显示,停用词的去除能有效减少特征集的维数,同时略微提升分类准确率。然而,过度去除停用词可能导致分类精度下降,因此需要找到一个平衡点。
接着,论文介绍了特征词的权重计算,这是评估特征词重要性的手段。不同的特征项对文档的重要性差异显著,合理的权重分配可以增强分类器的区分能力。论文提出了一种基于类内频率的特征选择函数,旨在挑选出对SVM分类最有帮助的特征。
在分类方法的比较中,朴素贝叶斯、KNN和SVM被纳入研究范围。SVM在实验中显示出了较高的分类精度和稳定性,被认为是一种高效的方法。此外,论文还尝试将粗糙集理论与SVM相结合,利用粗糙集的约简功能降低向量维数,缩短了SVM的训练时间,提升了分类效率。
论文的最终成果是一个实用的文本分类实验系统,用户可以在这个系统中进行特征选择和权重计算的研究,也可以直接对不同语料进行训练和测试,为文本分类的研究提供了工具支持。
该硕士论文深入研究了文本分类的关键技术,特别是基于SVM的分类方法,为文本处理和信息检索等领域提供了有价值的理论和技术支持。