一个txt文件,每行是一句中文,用jieba按行进行分词并保存为词典
时间: 2024-03-26 19:39:43 浏览: 78
Jieba分词工具的使用
可以使用Python中的jieba库和文件读取操作,按行读取txt文件并逐行分词,将分好的词语保存到一个列表中,最后将列表中的词语写入到一个txt文件中,作为词典。示例代码如下:
```python
import jieba
# 打开文件并按行读取
with open('input.txt', 'r', encoding='utf-8') as f:
lines = f.readlines()
# 逐行分词并保存词语到列表中
words_list = []
for line in lines:
words = jieba.lcut(line.strip()) # strip函数用于去除行末的换行符
words_list.extend(words)
# 去重并按照出现次数排序
words_dict = {}
for word in words_list:
if word in words_dict:
words_dict[word] += 1
else:
words_dict[word] = 1
sorted_words = sorted(words_dict.items(), key=lambda x: x[1], reverse=True)
# 将词典写入到文件中
with open('output.txt', 'w', encoding='utf-8') as f:
for word, count in sorted_words:
f.write(word + ' ' + str(count) + '\n')
```
这样就可以将txt文件按行分词并保存为词典了。其中,`lcut`函数是jieba库中的分词函数,返回一个列表,包含分好的词语。需要注意的是,jieba默认使用精确模式分词,如果需要使用其他模式,可以在分词函数中指定。保存词典时,可以按照出现次数排序,这样可以让出现次数多的词语排在前面,方便后续的处理。
阅读全文