基于TGSOM的词条聚合文本分类特征提升方法

需积分: 9 1 下载量 98 浏览量 更新于2024-08-07 收藏 218KB PDF 举报
文本分类是自然语言处理中的核心任务之一,其目标是根据文本内容自动将其归类到预定义的类别中。在实际应用中,文本数据通常具有高维度和稀疏性的特点,这使得传统的特征表示方法在面对大规模数据时面临“维数灾难”,即维度过多导致的计算复杂性和效率降低。因此,特征抽取作为解决这一问题的关键技术,其目的是从原始文本中提取最有代表性的特征,以减少维度并保留关键信息。 本论文于2008年发表在《哈尔滨工程大学学报》上,作者蒋宗礼、徐学可和李帅探讨了一种基于词条聚合的特征抽取方法。他们针对文本分类问题,提出了一个新颖的解决方案。首先,通过改进的树型动态自组织映射(TGSOM)算法对文本中的词语进行聚合,这是一种自组织神经网络模型,能够有效地将相似的词语聚类在一起,形成更高层次的抽象特征。 在特征抽取过程中,他们考虑了两个关键因素:一是词语在文档中的出现频率,因为高频词可能更具代表性;二是词语区分不同类别文档的能力,即词语对于分类任务的区分度。为此,他们设计了一种新的权重计算方法,综合考虑这两个因素来赋予每个聚合特征不同的权重。 随后,他们利用SPRINT决策树算法进行文本分类。SPRINT是一种基于规则的学习方法,它能够在特征权重的指导下,找到最优的决策路径来进行分类。实验结果表明,与传统方法相比,他们的方法显著提高了分类精度,具体提升了4.32%,这证明了基于词条聚合的特征抽取策略的有效性。 总结来说,这篇论文深入研究了文本分类中的特征抽取问题,并通过结合改进的TGSOM和权重计算策略,有效解决了高维稀疏性带来的挑战。这种基于词语聚合的方法不仅减少了特征数量,提高了分类效率,还提升了分类的准确性,为文本分类领域的研究提供了有价值的新思路。