PLSA 模型和 LSA 模型调研
引言?
一.LSA 概念
潜 在 语 义 分 析 ( Latent Semantic Analysis ) 或 者 潜 在 语 义 索 引
(Latent Semantic Index),是 1988 年 S.T. Dumais 等人提出了一种新
的信息检索代数模型,是用于知识获取和展示的计算理论和方法,它使用统计
计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,
并用这种潜在的语义结构,来表示词和文本,达到到达消除词之间的相关性和
简化文本向量并实现降维的目的。
LSA 通过对大量出自原有的语料库或高维度的“语义空间”的机读语言样本进
行处理,LSA 能对所使用词汇、词串做出表征。通过收集包含或不包含所给词
汇的词汇语境,得出一套共同的约束原则,从而可以在很大程度上确定词汇间
和词串间的相似度。
从 LSA 中得到的相似度依赖于数学分析,这种分析能够正确推断深层关系
(所以叫做潜在语义),同时还可以对于基于意义的判断和表征做出深层次预
测,与长期以来语言学家所使用的分析语言现象的表层临近原则相比,潜在语
言分析显示出明显优势。
潜在语义分析的基本思路观点是:把高维的向量空间模型(VSM)表示中的文
档映射到低维的潜在语义空间中。这个映射是通过对文档矩阵的奇异值分解
(SVD)来实现的。
LSA 的应用领域有:信息滤波、文档索引、视频检索、文本分类与聚类、
图像检索、信息抽取等。
二.LSA 的特点及原理
潜在语义分析通过奇异值分解,将文档在高维向量空间模型中的表示,投影
到低维的潜在语义空间中,有效地缩小了问题的规模。它生成的高维向量矩阵
适于对象间的匹配比较。它不仅是知识表述的工具,而且也是机器学习的一种
模型。
对 于 LSDA 原 理 可 以 描 述 如 下 : 首 先 对 给 定 文 档 (documents) 集 合
和词汇(words)集合 ,忽略词汇在文
档中出现的次序(bag of word 模型) 统计出词汇在文档中出现次数的矩阵,词-
文档矩阵 , 是词在文档中出现的次
数。其次对N做SVD分解 其中U,V是正交矩阵 ,
是由N的奇异z值组成的对角阵。然后再次将 中除最大的K个值以外的
全部值置为0,得到 ,再重构出矩阵N,即有 ,最
后对 进行分析(如何分析,如何得到低维语义特征,原理是什么?),得到