基于投影寻踪回归的文本自动分类模型提升精度研究

需积分: 9 1 下载量 115 浏览量 更新于2024-08-11 收藏 185KB PDF 举报
本文主要探讨了"基于投影寻踪回归的文本自动分类模型"这一主题,发表于2005年的《清华大学学报(自然科学版)》。论文针对文本数据在表示为向量空间模型后所面临的高维问题,强调了维数约简的必要性。投影寻踪,作为一种稳健且非参数化的降维技术,被引入到文本分类的模型构建中。 作者们提出的模型利用了投影寻踪回归方法,这种模型能够有效地捕捉和描述高维数据中的内在规律,从而提升文本分类的精确度。关键点在于选择合适的岭函数拟合函数,这是提高分类性能的关键环节,因此,他们对此进行了深入研究。为了验证模型的有效性,研究人员采用了标准文档集Reuters-21578进行实验,并在统一的预处理步骤下,与当时常用的文本分类方法进行了对比。 实验结果显示,基于投影寻踪回归的文本自动分类模型在召回率和准确率上表现出较高的性能,这表明其在处理高维文本数据时具有显著的优势。论文的关键词包括文本分类、维数约简以及投影寻踪回归,对应的专业领域分类为TP391,文献类型标识为A,文章编号为1000-0054(2005)S1-1823-05。 这篇论文为文本分类问题提供了一种新颖且有效的解决方案,特别是在面对大数据背景下,通过降低维度并利用投影寻踪回归技术,能够在保持信息完整性的同时,提升分类的效率和准确性。这对于现代信息检索、自然语言处理和机器学习等领域具有重要的理论价值和实际应用潜力。