基于TF- IDF的文本特征提取方法代码
时间: 2023-08-07 08:06:40 浏览: 100
python TF-IDF算法实现文本关键词提取
以下是基于TF-IDF的文本特征提取方法的Python代码示例:
``` python
from sklearn.feature_extraction.text import TfidfVectorizer
# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()
# 训练向量化器并将文本转换为TF-IDF特征矩阵
texts = ['This is the first document.', 'This is the second document.', 'And this is the third one.', 'Is this the first document?']
tfidf_matrix = vectorizer.fit_transform(texts)
# 输出文本特征矩阵
print(tfidf_matrix.toarray())
```
运行上述代码可以得到一个4行7列的特征矩阵,每行表示一个文本,每列表示一个词语的TF-IDF权重。可以通过以下代码查看向量化器提取出的所有词语:
``` python
# 输出向量化器提取出的所有词语
print(vectorizer.get_feature_names())
```
输出结果为:
```
['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this']
```
其中,每个词语对应特征矩阵的一列。
阅读全文