python gensim lda
时间: 2023-06-30 09:20:25 浏览: 111
LDA是一种基于概率的主题模型,可以用于文本数据的分析和主题挖掘。在Python中,可以使用gensim库中的LdaModel类来实现LDA模型的训练和应用。
下面是一个简单的示例代码,用于训练一个LDA模型并使用它来推断一些文本的主题:
```
from gensim import corpora
from gensim.models import LdaModel
# 准备文本数据
texts = [
"this is some text about computer science",
"here we have some more text about data science",
"and here is yet another piece of text about machine learning"
]
# 把文本转换为词袋表示
dictionary = corpora.Dictionary([text.split() for text in texts])
corpus = [dictionary.doc2bow(text.split()) for text in texts]
# 训练LDA模型
lda_model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=2)
# 推断文本的主题
new_text = "some new text about computer vision"
new_bow = dictionary.doc2bow(new_text.split())
new_topics = lda_model[new_bow]
print(new_topics)
```
这个示例代码中,首先把文本数据转换为词袋表示,然后使用LdaModel类训练一个包含两个主题的LDA模型。最后,使用模型推断一个新的文本的主题,输出结果为这个文本属于两个主题的概率分布。
阅读全文