python如何实现tfidf
时间: 2023-06-29 22:05:48 浏览: 170
tfidf的python实现
在Python中,可以使用scikit-learn库来实现tf-idf。以下是一个简单的示例:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
# 创建文本集合
corpus = [
'This is the first document.',
'This document is the second document.',
'And this is the third one.',
'Is this the first document?',
]
# 创建tf-idf向量化器
vectorizer = TfidfVectorizer()
# 对文本集合进行向量化
tfidf = vectorizer.fit_transform(corpus)
# 输出tf-idf矩阵
print(tfidf.toarray())
# 输出特征词列表
print(vectorizer.get_feature_names())
```
在此示例中,我们首先创建了一个包含4个文本的集合。然后,我们使用TfidfVectorizer类创建了一个tf-idf向量化器,并对文本集合进行向量化。最后,我们输出了tf-idf矩阵和特征词列表。
这里需要注意的是,TfidfVectorizer类提供了许多参数,例如停用词列表、词汇表、n-gram范围等。可以根据具体需求调整这些参数。
阅读全文