LDA与pLSA：主题模型的深度解析与比较

145 浏览量更新于2024-08-28 收藏 816KB PDF 举报

在自然语言处理(NLP)中，主题模型是一种用于发现文档集合中潜在主题的技术，其中最知名的两种是pLSA (Probabilistic Latent Semantic Analysis) 和 LDA (Latent Dirichlet Allocation)。pLSA是一个生成模型，它假设文章由K个主题构成，每个主题关联着一组词的概率分布。在pLSA中，文章中的每个词生成过程分为两个步骤：首先随机选择一个主题，然后根据该主题生成具体词汇。pLSA的模型参数，如主题分布和词分布，被视为确定性常数，通过EM算法求解。然而，LDA作为pLSA的贝叶斯版本，引入了狄利克雷分布作为先验概率分布，使得主题分布和词分布不再是固定的，而是随机变量。这种贝叶斯框架允许我们考虑先验知识，如主题出现的概率，从而增强了模型的灵活性。狄利克雷分布的选择基于其与多项式分布的共轭性，便于后验概率的计算。 LDA的概率图模型中，超参数α和β控制着狄利克雷分布的浓度，通常由用户手动设定。相较于pLSA，LDA的一个关键优势是可以处理非训练数据，因为它考虑了主题概率的先验信息。例如，体育主题的出现概率通常高于哲学主题，这种常识性的先验知识在LDA中得到了体现。在数学基础上，LDA涉及到的概率概念包括二项分布和多项分布，这些是统计学中的基本工具。例如，二项分布用于计数成功次数，多项分布则是二项分布的推广，适用于多个独立事件的组合。此外，Gamma函数在概率论中有重要作用，它是阶乘函数的扩展，具有重要的积分性质。LDA中的Dirichlet分布是Beta分布的一维推广，用于表示多维概率分布，它的应用在计算主题和词的混合系数时尤为显著。总结来说，LDA和pLSA是NLP主题模型的两个核心代表，它们通过不同的概率模型和先验假设，提供了文本主题发现的强大工具。理解和掌握这些模型不仅有助于文本分析，也对信息检索、推荐系统等领域有着深远的影响。

nlp中的主题模型中的主题模型

1、LDA的宏观理解

谈起LDA，自然需要引入pLSA。pLSA是用一个生成模型来建模文章的生成过程。假设有K个主题，M篇文章；对语料库中的

任意文章d，假设该文章有N个词，则对于其中的每一个词，我们首先选择一个主题z，然后在当前主题的基础上生成一个词

w。

生成主题z和词w的过程遵照一个确定的概率分布。设在文章d中生成主题z的概率为 [公式] ，在选定主题的条件下生成词w的

概率为 [公式] ，则给定文章d，生成词w的概率可以写成：

pLSA概率图模型

LDA可以看作是pLSA的贝叶斯版本，其文本生成过程与pLSA基本相同，不同的是为主题分布和词分布分别加了两个狄利克雷

（Dirichlet）先验。为什么要加入狄利克雷先验呢？这就要从频率学派和贝叶斯学派的区别说起。pLSA采用的是频率派思

想，将每篇文章对应的主题分布[公式]和每个主题对应的词分布[公式]看成确定的未知常数，并可以利用EM算法求解出来；

而LDA采用的是贝叶斯学派的思想，认为待估计的参数（主题分布和词分布）不再是一个固定的常数，而是服从一定分布的随

机变量。这个分布符合一定的先验概率分布（即狄利克雷分布），并且在观察到样本信息之后，可以对先验分布进行修正，从

而得到后验分布。LDA之所以选择狄利克雷分布作为先验分布，是因为它为多项式分布的共轭先验概率分布，后验概率依然服

从狄利克雷分布，这样做可以为计算带来便利。——《百面机器学习》

LDA概率图模型

在LDA概率图模型中，α，β分别为两个狄利克雷分布的超参数，为人工设定。

补充：pLSA虽然可以从概率的角度解释了主题模型，却都只能对训练样本中的文本进行主题识别，而对不在样本中的文本是

无法识别其主题的。根本原因在于NMF与pLSA这类主题模型方法没有考虑主题概率分布的先验知识，比如文本中出现体育主

题的概率肯定比哲学主题的概率要高，这点来源于我们的先验知识，但是无法告诉NMF主题模型。而LDA主题模型则考虑到

了这一问题，目前来说，绝大多数的文本主题模型都是使用LDA以及其变体。

2、LDA的数学基础

2.1 概率基础

（1）二项分布与多项分布

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38600696

粉丝: 6
资源: 967

LDA与pLSA：主题模型的深度解析与比较

自然语言处理中主题模型的发展

NLP 自然语言处理论文主题模型程序源代码词向量文本分类实体识别相似性计算文本生成机器翻译 NLP 相关的一些文档、论文及代码

Python LDA主题模型 NLP自然语言处理 jieba分词停用词标点符号中文预处理

NLP预训练模型：自然语言处理预训练模型的集合

自然语言处理中的主题模型：从LSA到LDA及其变种

百度开源其NLP主题模型工具包

北大语言学 自然语言处理课程 NLP系列课程 14_自然语言处理中的话题模型 共48页.pptx

主题模型相关(NLP)

BERTopic：NLP主题模型的未来！.pdf

BERTopic：NLP主题模型的未来！.rar

最新资源

北大语言学自然语言处理课程 NLP系列课程 14_自然语言处理中的话题模型共48页.pptx