用Python编写代码,练习jieba分词包的使用,对.txt进行分词,并将词频数与词语保存到文件中
时间: 2023-06-20 17:07:14 浏览: 115
好的,我可以帮您写一个示例代码来练习jieba分词包的使用,以下是代码:
```python
import jieba
# 打开文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 对文本进行分词
words = jieba.cut(text)
# 统计词频
word_dict = {}
for word in words:
if len(word) > 1: # 只统计长度大于1的词语
if word not in word_dict:
word_dict[word] = 1
else:
word_dict[word] += 1
# 将词频数与词语保存到文件中
with open('word_count.txt', 'w', encoding='utf-8') as f:
for word, count in word_dict.items():
f.write(word + ' ' + str(count) + '\n')
```
在这个示例代码中,我们首先打开一个文本文件,并读取其中的文本内容。然后,我们使用jieba分词包对文本进行分词,得到一个词语列表。接着,我们遍历这个词语列表,统计每个词语出现的次数,并将统计结果保存到一个字典word_dict中。最后,我们将这个字典中的词频数与词语保存到一个文本文件word_count.txt中。
需要注意的是,为了避免统计过多的无意义词语,我们在统计过程中只统计了长度大于1的词语。当然,这个条件可以根据实际情况进行修改。
阅读全文