基于LDA与类别关键词的弱监督文本分类研究

需积分: 0 0 下载量 11 浏览量 更新于2024-06-30 收藏 255KB DOCX 举报
"基于LDA模型和类别关键词的弱监督文本分类方法的研究" 本文是一篇本科毕业论文,由熊倩撰写,研究方向属于计算机科学与技术,由朱山风副教授指导,于2019年在复旦大学完成。论文探讨的主题是利用LDA主题模型(Latent Dirichlet Allocation)和类别关键词的弱监督文本分类方法,名为KWC-LDA。该方法旨在解决传统监督学习在处理大规模、无标签或标签稀疏文本数据时面临的挑战。 在文本分类领域,监督学习是一种广泛应用的方法,它依赖大量有标注的训练数据来构建模型。然而,这种依赖性限制了其在互联网上大量无标签数据的应用,以及在数据不平衡或数据量不足情况下的表现。为了解决这些问题,论文提出了KWC-LDA,该方法由两个子分类器组成:一个经过类别关键词优化的LDA模型子分类器,以及一个基于类别关键词直接聚类的子分类器。 在LDA模型子分类器中,KWC-LDA利用无标注的文档集生成LDA主题模型,通过对文档主题分布的分析进行分类。而在类别关键词直接聚类子分类器中,论文利用预先定义的类别关键词直接对文档进行聚类,进一步加强分类效果。通过这两个子分类器的协同工作,KWC-LDA能够更好地利用类别信息,而不是仅仅依赖文档的语义结构,从而提高了分类的准确性和鲁棒性。 论文的主要贡献包括: 1) 引入弱监督学习,降低了对训练数据标签、数据平衡度和数据量的依赖,扩大了适用范围; 2) 对文本预处理和LDA主题生成过程进行了优化,提升了模型的性能; 3) 使用类别关键词对LDA模型进行多层次的优化和补充,使得分类过程更加紧密地与类别信息相结合。 关键词:文本分类,LDA主题模型,类别关键词,弱监督学习 这篇论文的创新点在于将LDA模型与弱监督学习相结合,以应对大规模无标签文本分类的挑战,这在当前大数据时代具有重要的实践价值。同时,它还提出了一种新的优化策略,利用类别关键词增强LDA模型的分类能力,对于后续的研究和应用具有一定的启发作用。