用python编程:统计词频的事例代码,并解读
时间: 2024-02-12 09:02:44 浏览: 64
下面是一个统计文本文件中单词出现频率的 Python 代码:
```python
def word_count(file_path):
with open(file_path, 'r') as f:
words = f.read().split()
word_count = {}
for word in words:
if word not in word_count:
word_count[word] = 1
else:
word_count[word] += 1
return word_count
file_path = 'example.txt'
word_count_dict = word_count(file_path)
print(word_count_dict)
```
这个代码实现了以下功能:
1. 定义了一个函数 `word_count`,它接收一个文件路径作为参数。
2. 打开文件,并将文件内容读入字符串变量 `words` 中。
3. 定义一个空字典 `word_count`,用于存储单词及其出现的次数。
4. 遍历 `words`,对于每个单词,如果它不在 `word_count` 中,就将它加入字典并将值设为 1;否则就将它对应的值加 1。
5. 返回 `word_count` 字典。
6. 调用 `word_count` 函数,并将返回值存储在 `word_count_dict` 变量中。
7. 打印 `word_count_dict`。
这个代码的主要思路是将文件中的所有单词存储到一个字典中,字典的键是单词,值是该单词出现的次数。在遍历文件中的单词时,对于每个单词,如果它已经在字典中出现过,就将对应的值加 1,否则就将它加入字典并将值设为 1。最终,字典中存储的就是文件中每个单词出现的次数了。
需要注意的是,这个例子只是一个简单的统计单词出现频率的示例,它并没有考虑到单词的大小写、标点符号等问题。如果需要更精确地统计单词出现频率,还需要对单词进行一些预处理(比如将所有单词转换为小写),以及去除标点符号等干扰因素。
阅读全文