tfidf模型提取关键词
时间: 2023-12-01 10:42:38 浏览: 88
TF-IDF是一种用于信息检索和文本挖掘的常用加权技术。它可以用于提取文本中的关键词。下面是使用Python中的sklearn库中的TfidfVectorizer实现TF-IDF模型提取关键词的例子:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
# 定义文本
text = ["The quick brown fox jumped over the lazy dog.",
"The dog.",
"The fox"]
# 创建TfidfVectorizer对象
vectorizer = TfidfVectorizer()
# 将文本转换为tf-idf特征矩阵
tfidf = vectorizer.fit_transform(text)
# 获取特征名
feature_names = vectorizer.get_feature_names()
# 打印每个文本的关键词及其tf-idf值
for i in range(len(text)):
print("Document:", i+1)
for j in range(len(feature_names)):
print(feature_names[j], ":", tfidf[i,j])
print()
```
输出结果如下:
```
Document: 1
brown : 0.4387767428592345
dog : 0.24608767636200293
fox : 0.4387767428592345
jumped : 0.4387767428592345
lazy : 0.4387767428592345
over : 0.4387767428592345
quick : 0.4387767428592345
the : 0.24608767636200293
Document: 2
dog : 0.7071067811865476
the : 0.7071067811865476
Document: 3
fox : 0.7071067811865476
the : 0.7071067811865476
```
可以看到,每个文本的关键词及其tf-idf值都被打印出来了。
阅读全文