corpora.Dictionary
时间: 2024-06-07 08:09:32 浏览: 154
NLTP 3 python 3
`corpora.Dictionary`是Gensim中的一个类,用于从文本集合中创建词汇表。它可以根据输入的文本集合创建一个包含所有出现过的单词的字典,并赋予每个单词一个唯一的ID。可以使用该字典将文本表示为向量或者通过删除停用词、过滤极低频词等方式对文本进行预处理。该类还提供了一些实用的方法,如`filter_extremes`、`filter_n_most_frequent`、`filter_tokens`等,用于对字典进行过滤和修改。
阅读全文