构建TFIDF模型代码
时间: 2023-09-02 18:14:54 浏览: 72
好的,以下是使用Python中的sklearn库构建TF-IDF模型的示例代码:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
# 假设有3篇文档
doc1 = "This is a sample document."
doc2 = "This is another example document."
doc3 = "No more documents, this is the last one."
# 构建TF-IDF向量化器
vectorizer = TfidfVectorizer()
# 将文档列表转换为TF-IDF向量表示
tfidf_matrix = vectorizer.fit_transform([doc1, doc2, doc3])
# 输出每个词的特征值
print(vectorizer.get_feature_names())
# 输出每个文档的TF-IDF向量表示
print(tfidf_matrix.toarray())
```
以上代码中,首先定义了三篇文档,然后使用sklearn库中的TfidfVectorizer构建了一个TF-IDF向量化器。接着,将文档列表传入向量化器中,使用fit_transform()方法将文档转换为TF-IDF向量表示。最后,使用get_feature_names()方法输出每个词的特征值,使用toarray()方法输出每个文档的TF-IDF向量表示。
需要注意的是,这只是一个简单的示例,实际应用中可能需要根据具体情况进行参数调整和预处理。
阅读全文