分块PCA提升文本特征抽取精度与效率:实证88.7% Fβ值

需积分: 9 2 下载量 21 浏览量 更新于2024-08-12 1 收藏 757KB PDF 举报
本文档探讨了"分块主成分分析在文本特征抽取中的应用"这一主题,发表于2015年的《河南科技大学学报:自然科学版》。研究背景是随着互联网的快速发展,海量文本数据的处理需求日益增长,自动文本分类技术成为了关键。传统的文本特征抽取方法,如卡方、互信息、信息增益和主成分分析(PCA)在精度和执行效率方面存在局限性。 作者们针对这些不足,提出了基于分块主成分分析的文本特征提取算法。该算法首先通过K-均值词聚类技术将特征词划分为多个子集,然后针对每个子集进行主成分分析,筛选出更具代表性的特征项。这样做的目的是降低原始文本特征空间的维数,减少存储和计算的复杂性,同时提高分类的准确性。实验结果显示,使用分块主成分分析后,文本分类的Fβ指标达到了88.7%,执行时间显著缩短至353秒,证明了这种方法的有效性和优越性。 论文的研究对象和方法涉及自然科学领域,特别是计算机科学中的文本处理和数据挖掘。作者洪军建和珠杰来自西藏大学计算机科学系,他们的工作得到了国家自然科学基金项目的资助。文章的关键词包括主成分分析、分块、特征抽取和词聚类,强调了降维技术在构建高效文本分类系统中的核心作用。 这篇论文为解决高维文本特征空间的问题提供了创新的方法,对于提高文本分类任务的性能具有重要意义,并为后续的研究者提供了一个有价值的参考框架。