短文本分类:词向量与LDA融合策略提升性能

需积分: 9 5 下载量 147 浏览量 更新于2024-09-03 2 收藏 569KB PDF 举报
本文主要探讨了"词向量与LDA相融合的短文本分类方法"。在快速发展的移动互联网时代,短文本内容如微博和即时推送新闻日益增多,对这些海量文本进行自动化分类成为研究的重要课题。传统的文本分类方法,如基于向量空间模型、词向量模型(如Word2Vec)和LDA主题模型,虽然取得了一定效果,但它们在处理短文本时存在主题聚焦性差和特征稀疏的问题。 作者张群、王红军和王伦针对这些问题,提出了一个创新的方法。他们从"词"和"文本"两个层次进行语义建模,首先利用Word2Vec训练词向量,并通过相加平均法将词级信息转化为短文本向量。接着,采用吉布斯采样法训练LDA主题模型,通过主题概率最大化原则扩展短文本特征,增加了主题信息。在这个过程中,他们还利用词向量的相似度来计算扩展特征的权重,形成了文本级别的向量表示。 这种融合方法通过向量拼接,构建出词向量和LDA主题模型相结合的短文本表示模型。作者采用最近邻分类算法对短文本进行分类,并对比实验结果显示,与单一模型方法相比,融合方法在准确率、召回率和F1值上均有显著提升,提升了至少3.7%,4.1%和3.9%。然而,该方法目前仅限于最近邻分类器,尚未推广到其他分类器如朴素贝叶斯或支持向量机。 研究的局限性在于,这种方法并未全面覆盖所有类型的分类器,未来有进一步拓展应用到更多分类器的需求。尽管如此,该研究结论是,基于词向量与LDA融合的短文本表示模型可以有效改善短文本的分类性能,尤其在处理主题分散和特征稀疏问题上,为移动互联网内容的自动分类提供了新的思路和技术支持。关键词包括短文本分类、词向量、LDA主题模型和最近邻分类器。该研究得到了国家自然科学基金项目的资助,具有一定的理论价值和实践意义。