基于TGSOM的词条聚合文本分类特征提升方法

需积分: 9 100 浏览量更新于2024-08-07 收藏 218KB PDF 举报

文本分类是自然语言处理中的核心任务之一，其目标是根据文本内容自动将其归类到预定义的类别中。在实际应用中，文本数据通常具有高维度和稀疏性的特点，这使得传统的特征表示方法在面对大规模数据时面临“维数灾难”，即维度过多导致的计算复杂性和效率降低。因此，特征抽取作为解决这一问题的关键技术，其目的是从原始文本中提取最有代表性的特征，以减少维度并保留关键信息。本论文于2008年发表在《哈尔滨工程大学学报》上，作者蒋宗礼、徐学可和李帅探讨了一种基于词条聚合的特征抽取方法。他们针对文本分类问题，提出了一个新颖的解决方案。首先，通过改进的树型动态自组织映射（TGSOM）算法对文本中的词语进行聚合，这是一种自组织神经网络模型，能够有效地将相似的词语聚类在一起，形成更高层次的抽象特征。在特征抽取过程中，他们考虑了两个关键因素：一是词语在文档中的出现频率，因为高频词可能更具代表性；二是词语区分不同类别文档的能力，即词语对于分类任务的区分度。为此，他们设计了一种新的权重计算方法，综合考虑这两个因素来赋予每个聚合特征不同的权重。随后，他们利用SPRINT决策树算法进行文本分类。SPRINT是一种基于规则的学习方法，它能够在特征权重的指导下，找到最优的决策路径来进行分类。实验结果表明，与传统方法相比，他们的方法显著提高了分类精度，具体提升了4.32%，这证明了基于词条聚合的特征抽取策略的有效性。总结来说，这篇论文深入研究了文本分类中的特征抽取问题，并通过结合改进的TGSOM和权重计算策略，有效解决了高维稀疏性带来的挑战。这种基于词语聚合的方法不仅减少了特征数量，提高了分类效率，还提升了分类的准确性，为文本分类领域的研究提供了有价值的新思路。



             

        

            

            

    

            

文本分类中基于词条聚合的特征抽取

蒋宗礼



,徐学可



,李 帅



( 北京工业大学计算机学院,北京 ; 清华大学电子工程系,北京 )

摘 要:



 



  



  

关键词:

中图分类号:   文献标识码: 文章编号:

        

 



 



 



            

  

               

              

           

 

                   

               

              

      

   

收稿日期:

作者简介:    

  





 







  







 

 





 

  



  

























 





下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38666527

粉丝: 9

基于TGSOM的词条聚合文本分类特征提升方法

中文文本分类中特征抽取方法的比较研究

中文文本分类中特征抽取方法的比较研究.pdf

文本分类新法：词条聚合与决策树结合

基于模式聚合理论的文本特征降维方法及其在文本分类中的应用 (2005年)

文本分类中的特征提取

使用基于bert的微调和特征提取方法来进行知识图谱百度百科人物词条属性抽取。.zip

BERT-AttributeExtraction：在KnowledgeGraph中使用BERT进行属性提取。 微调和特征提取。使用基于伯伯的微调和特征提取方法来进行知识图谱百度百科人物词条属性抽取

文本分类中的特征提取和分类算法综述.doc

文本分类特征选择方法

基于词条频率的特征选择与文本分类算法优化

最新资源

BERT-AttributeExtraction：在KnowledgeGraph中使用BERT进行属性提取。微调和特征提取。使用基于伯伯的微调和特征提取方法来进行知识图谱百度百科人物词条属性抽取