Countvectorizer怎么读取多个文件
时间: 2023-05-15 18:07:12 浏览: 191
vc 读取多个txt文件
5星 · 资源好评率100%
CountVectorizer是一个用于文本特征提取的工具,可以将文本转换为向量表示。如果要读取多个文件,可以使用Python的文件操作函数,例如:
```python
import os
from sklearn.feature_extraction.text import CountVectorizer
# 定义一个文件夹路径
folder_path = '/path/to/folder'
# 获取文件夹中的所有文件名
file_names = os.listdir(folder_path)
# 读取所有文件的内容
corpus = []
for file_name in file_names:
file_path = os.path.join(folder_path, file_name)
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
corpus.append(content)
# 使用CountVectorizer进行特征提取
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
```
这段代码可以读取指定文件夹中的所有文件,并将它们的内容存储在一个列表中。然后使用CountVectorizer对这些文本进行特征提取,得到一个稀疏矩阵X,每一行表示一个文本的向量表示。
阅读全文