用python的TF/IDF为文本词向量返回关键词权重程序
时间: 2024-05-11 18:19:23 浏览: 7
以下是使用Python的TF-IDF算法为文本生成关键词权重的示例程序:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
# 一些示例文本
text = ["Hello world", "Python is awesome", "Data science is cool", "Machine learning is the future"]
# 创建TfidfVectorizer对象
vectorizer = TfidfVectorizer()
# 用文本拟合模型并生成TF-IDF权重
tfidf = vectorizer.fit_transform(text)
# 获取特征名和关键词权重
feature_names = vectorizer.get_feature_names()
for i in range(len(text)):
print("Document ", i+1 , ":")
for j in range(len(feature_names)):
print(feature_names[j], tfidf[i,j])
```
在这个示例程序中,我们使用了scikit-learn库中的TfidfVectorizer类来生成TF-IDF权重。首先,我们定义了一些示例文本。然后,我们创建了一个TfidfVectorizer对象,并使用fit_transform函数来训练模型和生成权重。
最后,我们使用get_feature_names函数获取特征名,用于打印每篇文档的关键词权重。对于每篇文档,我们遍历每个特征名,并打印相应的TF-IDF权重。
希望这个示例程序可以帮助你生成关键词权重。