首页读取文本数据转化为TF-IDF模型的代码

读取文本数据转化为TF-IDF模型的代码

时间: 2024-02-17 11:02:27 浏览: 23

下面是使用Python的sklearn库读取文本数据并将其转化为TF-IDF模型的示例代码： ```python import os import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer # 读取文本数据 data_dir = 'path/to/your/data' file_names = os.listdir(data_dir) texts = [] for file_name in file_names: with open(os.path.join(data_dir, file_name), 'r') as f: text = f.read() texts.append(text) # 构建TF-IDF模型 tfidf_vectorizer = TfidfVectorizer() # 对文本数据进行特征提取 tfidf_data = tfidf_vectorizer.fit_transform(texts) # 输出特征矩阵 print(tfidf_data.toarray()) # 输出特征词典 print(tfidf_vectorizer.vocabulary_) ``` 在上述代码中，我们首先定义了一个数据目录，并使用os.listdir()函数读取该目录下的所有文件名。然后，我们使用一个循环遍历所有文件，并使用with open()语句读取每个文件的内容，将其存储在一个列表中。接着，我们使用sklearn库中的TfidfVectorizer类构建了一个TF-IDF模型。使用fit_transform()方法对文本数据进行特征提取，得到了特征矩阵tfidf_data。最后，我们输出了特征矩阵和特征词典。