首页CountVectorizer

CountVectorizer

时间: 2023-03-30 20:04:21 浏览: 71

CountVectorizer参数学习

指定vocabulary，此时tokenizer/token_pattern/stop_words/max_df等都无效，即和分词有关的参数都无效。可以看到最终生成的词典只有我们参数中指定的a/他/喜欢为什么会这样呢？我们去研究一下源代码(sklearn/feature_extraction/text.py)：其中CountVectorizer中的fit_transform的源代码如下所示，需要重点关注的是 self._validate_vocabulary()和self.count_vocab(raw_documents,self.fixed_vocabulary) def fi

CountVectorizer 是一个常用的文本特征提取工具。它可以将文本中的词语转换为词频矩阵。每行表示一个文档，每列表示一个词语，每个元素表示一个文档中的词语在该词语中出现的次数。通过这种方式，我们就可以对文本进行统计分析，例如找出最常用的词语、计算词语的相似度等。

阅读全文