短文本分类新方法:融合BTM主题特征提升效果

需积分: 45 8 下载量 78 浏览量 更新于2024-09-05 2 收藏 618KB PDF 举报
"这篇论文研究了一种融合BTM(Biterm Topic Model)主题特征的短文本分类方法,旨在解决由于短文本特征不足导致的传统文本分类算法效率低下的问题。研究者提出了一种新的特征提取策略,即在TF-IWF(Term Frequency-Inverse Weighted Frequency)基础上改进词频权重计算,引入词分布熵,从而生成更丰富的特征表示。同时,利用BTM主题模型来补充短文本中的主题信息,将每篇文档在不同主题下的概率分布作为额外的特征。通过KNN(K-Nearest Neighbor)分类算法进行实验,结果显示该方法相比传统TF-IWF方法,F1值提高了约10%,验证了新方法的有效性。" 本文的研究背景是短文本的广泛应用,如社交媒体的微博、网页评论和论坛发言等,这些文本具有长度短、信息密度高、涵盖广泛观点的特点。短文本的分类对于舆情分析、话题挖掘、新词发现等领域至关重要,因此,如何有效处理短文本的分类问题成为了一个研究热点。现有的研究包括基于聚类的反例提取和主动学习构建分类器、使用概念描述扩展文本等方法。 论文作者针对短文本的特性,提出了一种综合特征提取方法。首先,他们在TF-IWF的基础上进行调整,降低了词频权重,以减少常见词汇的影响,并引入词分布熵,这有助于捕捉词汇的上下文信息。其次,他们利用BTM主题模型,该模型能从短文本中发现隐藏的主题结构,为词数有限的文档提供额外的语义特征。每个文档的主题概率分布可以反映其在不同主题下的归属程度,这些概率作为分类的另一层特征输入。 实验部分,研究者采用KNN分类器进行多组对比实验,与传统的TF-IDF和TF-IWF方法进行对比。结果显示,新方法在F1值上提高了约10%,表明这种方法在短文本分类中具有更高的准确性和鲁棒性。这一成果对于提升短文本处理的效率和精度具有积极意义,为后续的相关研究提供了新的思路和方法。