中文文本分类研究:从表示到算法优化

需积分: 10 2 下载量 110 浏览量 更新于2024-07-30 1 收藏 1.62MB PDF 举报
"中文文本分类,文本表示,机器学习,特征选择,AdaBoost" 这篇硕士学位论文《中文文本分类中文本表示及分类算法研究》由浙江师范大学的蒋红撰写,专业为计算机软件与理论,导师为梁久祯和贾泂。论文探讨了在信息技术飞速发展的背景下,尤其是互联网的普及,中文文本分类的重要性及其技术挑战。文本分类技术能够自动化地对网页内容进行组织和管理,以满足高效的信息检索和处理需求,同时在信息过滤、搜索引擎优化、数字化图书馆等领域有广泛应用。 论文重点研究了两个核心方面:文本表示和分类算法。作者首先对文本分类的基本概念进行了概述,然后深入分析了向量空间模型作为常用文本表示方法的优缺点,以及其对分类效果的影响。为解决词作为文本特征表达能力有限的问题,论文提出利用自然语言处理技术构建句子级关联特征,并应用于改进朴素贝叶斯分类器,实验结果显示这种方法能提升分类性能。 其次,论文关注特征降维这一关键问题,采用了AdaBoost算法进行特征选择和分类器增强,提出了一种两步式特征选择的文本分类方法,实验表明这种方法在文本分类中具有可行性。 此外,鉴于特征子集的分类器集成方法在降维、性能提升等方面的优势,论文提出利用词性来构建不同的特征子集,以克服向量空间模型仅依赖词形的局限性。为此,提出了名为POSAdaBoost的基于词性特征子集的分类器集成算法,并与随机子空间集成分类算法进行了对比分析。 该研究不仅深化了对中文文本表示的理解,还创新性地探索了多种改进文本分类性能的策略,这些方法对于提升文本分类系统的准确性和效率具有重要意义,对实际应用具有广泛的价值。关键词涵盖了文本分类、文本表示、机器学习、特征选择和AdaBoost算法,反映了研究的主要焦点。