python sklearn词频统计
时间: 2023-08-22 13:10:02 浏览: 149
您好!要使用Python的scikit-learn库进行词频统计,您可以按照以下步骤进行操作:
1. 导入必要的库:
```python
from sklearn.feature_extraction.text import CountVectorizer
```
2. 准备文本数据:
```python
texts = ['I love Python.', 'Python is a great programming language.', 'Python is easy to learn.']
```
3. 创建CountVectorizer对象,并进行拟合和转换:
```python
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)
```
4. 获取所有词汇的列表:
```python
vocab = vectorizer.get_feature_names()
```
5. 获取词频统计结果:
```python
word_counts = X.toarray()
```
现在,您可以通过访问`vocab`和`word_counts`来获取词频统计结果。例如,要获取第一个文本中每个词的词频,可以使用以下代码:
```python
for word, count in zip(vocab, word_counts[0]):
print(f'{word}: {count}')
```
这是一个简单的使用scikit-learn库进行词频统计的示例。您可以根据自己的需求进行进一步的定制和扩展。希望对您有所帮助!
阅读全文