首页给一个Series，为每个词计算tf-idf值

给一个Series，为每个词计算tf-idf值

时间: 2023-05-19 07:02:30 浏览: 148

计算 tf-idf值

文本分类中计算文档中每一个词的tf-idf的值

可以使用sklearn库中的TfidfVectorizer来计算Series中每个词的tf-idf值，具体代码如下： ```python from sklearn.feature_extraction.text import TfidfVectorizer # 假设Series名为s vectorizer = TfidfVectorizer() tfidf = vectorizer.fit_transform(s) ``` 这样就可以得到一个稀疏矩阵tfidf，其中每一行代表一个文本，每一列代表一个词，每个元素代表该词在该文本中的tf-idf值。可以通过以下代码获取每个词的tf-idf值： ```python feature_names = vectorizer.get_feature_names() for i in range(len(s)): print("Document %d:" % i) for j in range(len(feature_names)): print("%s: %f" % (feature_names[j], tfidf[i,j])) ``` 其中，feature_names是一个列表，包含了所有出现过的词。

阅读全文