如果要分词并统计词频的是一个本地文本文件怎么办
时间: 2024-04-14 10:28:32 浏览: 86
使用spark 对文本分词统计
如果要对一个本地文本文件进行分词并统计词频,你可以使用Python的文件操作来读取文本文件的内容,并结合使用分词库和字典来实现词频统计。以下是一个示例:
```python
import jieba
from collections import defaultdict
# 打开本地文本文件
with open('input.txt', 'r', encoding='utf-8') as file:
# 读取文件内容
text = file.read()
# 执行分词
seg_list = jieba.cut(text)
# 统计词频
word_freq = defaultdict(int)
for word in seg_list:
word_freq[word] += 1
# 输出词频结果
for word, freq in word_freq.items():
print(word, freq)
```
在这个示例中,我们使用`open()`函数打开名为`input.txt`的本地文本文件,并使用`read()`方法读取文件内容到变量`text`中。然后,我们使用jieba库的`cut()`函数对文本进行分词。接下来,我们使用defaultdict(int)创建了一个字典对象`word_freq`,用于存储词频统计结果。
通过遍历分词结果,我们将每个词作为字典的键,并在遇到相同词时增加对应的值(词频)。最后,我们遍历词频字典,并输出每个词及其对应的词频。
确保将代码中的`'input.txt'`替换为你要读取的本地文本文件的路径和名称。运行代码后,将输出每个词及其对应的词频结果。
请确保已经安装了jieba库(可以使用 `pip install jieba` 进行安装)及collections模块,并导入了所需的模块。同时,确保指定的文件路径是正确的,并且你有权限读取文件。
阅读全文