给一个Series,为每个词计算tf-idf值
时间: 2023-05-19 07:02:30 浏览: 148
计算 tf-idf值
可以使用sklearn库中的TfidfVectorizer来计算Series中每个词的tf-idf值,具体代码如下:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
# 假设Series名为s
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(s)
```
这样就可以得到一个稀疏矩阵tfidf,其中每一行代表一个文本,每一列代表一个词,每个元素代表该词在该文本中的tf-idf值。可以通过以下代码获取每个词的tf-idf值:
```python
feature_names = vectorizer.get_feature_names()
for i in range(len(s)):
print("Document %d:" % i)
for j in range(len(feature_names)):
print("%s: %f" % (feature_names[j], tfidf[i,j]))
```
其中,feature_names是一个列表,包含了所有出现过的词。
阅读全文