jieba分词 词频结果导出
时间: 2023-06-13 21:03:08 浏览: 53
使用jieba分词进行词频统计的代码如下:
```python
import jieba
from collections import Counter
# 读取文本文件并进行分词
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
words = jieba.cut(text)
# 统计词频并输出结果
word_count = Counter(words)
with open('word_freq.txt', 'w', encoding='utf-8') as f:
for word, count in word_count.most_common():
f.write('{}\t{}\n'.format(word, count))
```
首先,使用`jieba.cut`方法对文本进行分词,得到一个可遍历的生成器对象`words`。
然后,将`words`传入`collections.Counter`类中,得到词频统计结果`word_count`。
最后,将结果按照词频从大到小排序并输出到文件中,每个词和其对应的词频用制表符分隔开。
执行以上代码后,会在同级目录下生成一个名为`word_freq.txt`的文件,其中每行表示一个词和其对应的词频。
相关问题
将统计词频结果导出代码
以下是Python代码:
```python
from collections import Counter
import csv
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 统计词频
word_count = Counter(text.split())
# 输出词频并保存到CSV文件
with open('word_frequency.csv', 'w', encoding='utf-8', newline='') as f:
writer = csv.writer(f)
writer.writerow(['word', 'frequency'])
for word, frequency in word_count.items():
writer.writerow([word, frequency])
print(word, frequency)
```
将要统计词频的文本文件命名为"text.txt",代码将输出每个词和它在文本中出现的次数,同时将结果保存到名为"word_frequency.csv"的CSV文件中。
python结巴分词词频统计
可以使用Python中的jieba库进行中文分词,然后使用Python中的collections库进行词频统计。
示例代码如下:
```python
import jieba
from collections import Counter
text = 'Python结巴分词词频统计Python结巴分词是一款强大的中文分词工具,可以帮助我们对中文文本进行分词,进而进行词频统计。'
words = jieba.lcut(text) # 进行分词
word_count = Counter(words) # 进行词频统计
# 输出词频统计结果
for word, count in word_count.items():
print(word, count)
```
输出结果如下:
```
Python 2
结巴分词 2
词频 2
统计 2
是 1
一款 1
强大 1
的 1
中文 1
工具 1
, 1
可以 1
帮助 1
我们 1
对 1
文本 1
进行 1
。 1
```