对tag_list = ['青年 吃货 唱歌 少年 游戏 叛逆 少年 吃货 足球']进行CountVectorizer和TfidfVectorizer操作。
时间: 2024-10-06 18:06:13 浏览: 23
wordpress标签常用函数:get_the_tag_list()
在Python的scikit-learn库中,我们可以使用`CountVectorizer`和`TfidfVectorizer`对文本数据进行向量化,这两个类都是用于将非结构化文本数据转化为数值特征矩阵。假设`tag_list`是一个包含多个主题标签的列表,我们可以按照以下步骤操作:
1. **CountVectorizer**:
- 首先导入所需的库:
```python
from sklearn.feature_extraction.text import CountVectorizer
```
- 创建并应用CountVectorizer:
```python
vectorizer_count = CountVectorizer()
count_matrix = vectorizer_count.fit_transform(tag_list)
print(count_matrix.toarray())
```
- `count_matrix`会是一个稀疏矩阵,其中行表示文档,列表示词汇(在这个例子中是标签),每个元素的值表示该词汇在文档中出现的次数。
2. **TfidfVectorizer**:
- 导入`TfidfVectorizer`:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
```
- 创建并应用TfidfVectorizer:
```python
vectorizer_tfidf = TfidfVectorizer()
tfidf_matrix = vectorizer_tfidf.fit_transform(tag_list)
print(tfidf_matrix.toarray())
```
- TfidfVectorizer会计算词频-逆文档频率(TF-IDF),这个方法考虑了单词在整个文集中的重要性以及在当前文档中的频率,降低了常见词的影响。
注意:这两个向量化器在处理大规模数据时效率更高,因为它们使用稀疏矩阵存储,只记录非零元素。
阅读全文