countvectorizer参数详解
时间: 2023-06-05 09:47:24 浏览: 100
CountVectorizer是一种文本特征提取器,主要用于将文本转换为词频矩阵。常用参数如下:
- input: 输入的文本数据,可以是文件路径、文本字符串或文本列表。
- encoding: 输入文本的编码方式,默认为‘utf-8’。
- decode_error: 处理编码错误的方式,默认为‘strict’。
- strip_accents: 去除重音符号,默认为 None。
- lowercase: 是否将文本转换为小写,默认为 True。
- preprocessor: 预处理文本的函数,默认为 None。
- tokenizer: 分词函数,默认为 None。
- stop_words: 停用词,可以是自定义的停用词列表或预定义的停用词。
- vocabulary: 字典,若设置此参数,则仅考虑该字典中的词。
- binary: 是否使用二值词频矩阵,默认为 False。
- dtype: 返回的词频矩阵的数据类型,默认为 numpy.int64。
以上是CountVectorizer常用参数的简单说明,详细使用可以参考sklearn文档。
阅读全文