读取文本数据转化为TF-IDF模型 的代码
时间: 2024-02-17 11:02:27 浏览: 23
下面是使用Python的sklearn库读取文本数据并将其转化为TF-IDF模型的示例代码:
```python
import os
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
# 读取文本数据
data_dir = 'path/to/your/data'
file_names = os.listdir(data_dir)
texts = []
for file_name in file_names:
with open(os.path.join(data_dir, file_name), 'r') as f:
text = f.read()
texts.append(text)
# 构建TF-IDF模型
tfidf_vectorizer = TfidfVectorizer()
# 对文本数据进行特征提取
tfidf_data = tfidf_vectorizer.fit_transform(texts)
# 输出特征矩阵
print(tfidf_data.toarray())
# 输出特征词典
print(tfidf_vectorizer.vocabulary_)
```
在上述代码中,我们首先定义了一个数据目录,并使用os.listdir()函数读取该目录下的所有文件名。然后,我们使用一个循环遍历所有文件,并使用with open()语句读取每个文件的内容,将其存储在一个列表中。接着,我们使用sklearn库中的TfidfVectorizer类构建了一个TF-IDF模型。使用fit_transform()方法对文本数据进行特征提取,得到了特征矩阵tfidf_data。最后,我们输出了特征矩阵和特征词典。