用python jieba分词并统计词频一个本地文本文件,并且要将结果导出为如果要分词并统计词频的是一个本地文本文件csv格式
时间: 2024-04-14 10:28:33 浏览: 152
python使用jieba进行分词统计
5星 · 资源好评率100%
要在Python中使用jieba分词并统计词频,然后将结果导出为CSV格式,你可以结合使用jieba库进行分词,collections库进行词频统计,以及csv库进行CSV文件的写入。以下是一个示例:
```python
import jieba
from collections import Counter
import csv
# 打开本地文本文件
with open('input.txt', 'r', encoding='utf-8') as file:
# 读取文件内容
text = file.read()
# 执行分词
seg_list = jieba.cut(text)
# 统计词频
word_freq = Counter(seg_list)
# 创建一个CSV文件,并写入词频统计结果
with open('output.csv', 'w', newline='', encoding='utf-8') as csvfile:
writer = csv.writer(csvfile)
writer.writerow(['词语', '词频'])
for word, freq in word_freq.items():
writer.writerow([word, freq])
```
在这个示例中,我们使用`open()`函数打开名为`input.txt`的本地文本文件,并使用`read()`方法读取文件内容到变量`text`中。然后,我们使用jieba库的`cut()`函数对文本进行分词,并使用collections库的Counter类对分词结果进行词频统计。
接下来,我们创建了一个CSV文件,并使用csv.writer对象将词语和词频写入文件中。请注意,代码中的`'input.txt'`是要读取的本地文本文件的路径和名称,而`'output.csv'`是要生成的CSV文件的路径和名称。
运行代码后,将生成一个名为`output.csv`的CSV文件,其中包含词语和对应的词频统计结果。CSV文件中的第一行是列标题,分别为`'词语'`和`'词频'`。每个词语及其对应的词频将占据一行。你可以根据需要修改列名和文件路径。
请确保已经安装了jieba库(可以使用 `pip install jieba` 进行安装),以及collections库和csv库,并导入了所需的模块。同时,确保指定的文件路径是正确的,并且你有权限读取和写入文件。
阅读全文