Tfidfvectorizer
时间: 2023-12-03 22:40:56 浏览: 93
TfidfVectorizer是一个将原始文档集合转换为tf-idf特征矩阵的工具。它将CountVectorizer和TfidfTransformer的所有功能组合在一个模型中。它首先将文本转换为词频矩阵,然后将其转换为tf-idf表示形式。它还支持停用词过滤,词汇表选择和词汇重要性权重等功能。以下是一个使用TfidfVectorizer的例子:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
# 假设我们有以下两个文本
text1 = "This is a sample sentence."
text2 = "This is another example sentence."
# 创建TfidfVectorizer对象
vectorizer = TfidfVectorizer()
# 将文本转换为tf-idf特征矩阵
tfidf_matrix = vectorizer.fit_transform([text1, text2])
# 查看特征矩阵
print(tfidf_matrix.toarray())
```
输出结果为:
```
[[0. 0. 0. 0. 0. 0.57735027
0. 0.57735027 0. 0.57735027]
[0. 0. 0.57735027 0. 0.57735027 0.
0. 0. 0.57735027 0. ]]
```
阅读全文