使用 TF-IDF 向量化文本的代码
时间: 2024-05-12 13:17:35 浏览: 204
实用的tf-idf代码
4星 · 用户满意度95%
可以使用以下Python代码:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
# 创建tf-idf向量化器,并指定相关参数
vectorizer = TfidfVectorizer(stop_words='english', max_df=0.5, use_idf=True, norm=None)
# 样本文本
corpus = [
'This is the first document.',
'This is the second second document.',
'And the third one.',
'Is this the first document?',
]
# 使用向量化器将文本转换为tf-idf向量表示
tfidf_matrix = vectorizer.fit_transform(corpus)
# 输出结果
print(tfidf_matrix)
```
注意,这只是一个简单的例子,实际应用时需要根据具体场景来确定参数配置。
阅读全文