第六步:定义函数,进行词频统计 – 调用第三步创建的函数,读取文件,得到句子组成的 列表 – 调用第五步定义的函数,对句子进行分词 – 利用计数神器Counter()统计词频 – 返回Counter()的结果
时间: 2024-03-13 09:46:21 浏览: 48
NXopen二次开发将读取xml文件函数封装为dll方便调用
好的,你的问题是如何进行词频统计,我理解了。对于你提出的问题,我可以给出以下Python代码实现:
```python
from collections import Counter
import jieba
# 第三步定义的函数
def read_file(file_path):
with open(file_path, "r", encoding="utf-8") as f:
sentences = f.readlines()
return sentences
# 第五步定义的函数
def cut_words(sentences):
words_list = []
for sentence in sentences:
words = jieba.lcut(sentence)
words_list.append(words)
return words_list
# 定义函数,进行词频统计
def word_count(file_path):
sentences = read_file(file_path)
words_list = cut_words(sentences)
all_words = []
for words in words_list:
all_words.extend(words)
counter = Counter(all_words)
return counter
```
你可以将上述代码保存为一个.py文件,然后调用word_count函数,传入你要统计词频的文件路径,即可得到Counter()的结果,其中每个词的出现次数都会被记录下来。注意,你需要安装jieba库,才能进行分词。
阅读全文