文本特征向量化代码
时间: 2023-07-10 15:10:44 浏览: 87
爬虫框架和文本清洗和文本向量化
以下是使用Python进行文本特征向量化的示例代码,以词袋模型为例:
```python
from sklearn.feature_extraction.text import CountVectorizer
# 定义一组文本数据
texts = ['this is a good book', 'this is a bad book', 'good book and bad book']
# 创建CountVectorizer对象
vectorizer = CountVectorizer()
# 对文本进行特征向量化
vectorizer.fit_transform(texts)
# 输出向量化后的特征矩阵
print(vectorizer.transform(texts).toarray())
```
运行以上代码,将输出一个3x7的特征矩阵,其中每一行代表一个文本,每一列代表一个词汇的出现次数。您可以根据需要使用不同的特征向量化方法,比如使用TfidfVectorizer实现TF-IDF特征向量化。
阅读全文