怎么统计自己分词后的词频
时间: 2023-09-26 18:09:10 浏览: 161
可以使用Python中的Counter模块来统计词频。首先需要使用分词工具对文本进行分词,然后将分词结果存储在一个列表中。接下来,使用Counter模块对列表中的词进行统计,代码如下:
```python
from collections import Counter
import jieba
text = "这是一个测试文本,测试文本用来测试分词器的效果。"
word_list = jieba.lcut(text)
word_count = Counter(word_list)
print(word_count)
```
输出结果为:
```
Counter({'测试文本': 2, '这是': 1, '一个': 1, ',': 1, '用来': 1, '分词器': 1, '的': 1, '效果': 1, '。': 1})
```
其中,Counter返回一个字典,其中键为单词,值为单词出现的次数。可以根据需要对结果进行排序或筛选。
相关问题
jupyter统计自己分词后的词频
在Jupyter中,可以使用相同的代码来统计自己分词后的词频。需要先在Jupyter中安装jieba和Counter模块,可以使用以下命令:
```
!pip install jieba
```
然后,在Jupyter中执行以下代码:
```python
from collections import Counter
import jieba
text = "这是一个测试文本,测试文本用来测试分词器的效果。"
word_list = jieba.lcut(text)
word_count = Counter(word_list)
print(word_count)
```
执行结果将会输出单词及其对应的出现次数。
jieba分词后词频统计
由于jieba分词是一个中文分词工具,因此以下是中文文本的词频统计示例:
假设有以下中文文本:
```
我爱中国,中国也爱我。
```
首先,使用jieba分词将文本分词:
```python
import jieba
text = "我爱中国,中国也爱我。"
words = jieba.lcut(text)
print(words)
```
输出结果:
```
['我', '爱', '中国', ',', '中国', '也', '爱', '我', '。']
```
接着,统计每个词出现的频率:
```python
from collections import Counter
word_counts = Counter(words)
print(word_counts)
```
输出结果:
```
Counter({'我': 2, '爱': 2, '中国': 2, ',': 1, '也': 1, '。': 1})
```
其中,Counter是Python内置的一个计数器工具,可以方便地统计每个元素出现的次数。
阅读全文