统计词频python
时间: 2024-09-15 11:15:39 浏览: 51
在Python中,统计词频可以使用内置的数据结构如字典(dict),结合循环和条件判断,也可以使用专门用于文本处理的库如NLTK (Natural Language Toolkit) 或者 `collections` 中的 `Counter` 类。这里是一个简单的例子,使用Python和`collections.Counter` 来统计一个字符串或文件中单词的频率:
```python
from collections import Counter
def count_words(text):
# 删除标点符号并将所有字母转为小写
text = ''.join(e for e in text if e.isalnum() or e.isspace()).lower()
# 分割文本成单词
words = text.split()
# 使用Counter计算词频
word_counts = Counter(words)
return word_counts
# 示例,统计字符串中的词频
text = "这是一段测试文本,它包含了一些重复的词语。"
word_freqs = count_words(text)
print(word_freqs)
# 或者统计文件中的词频
with open('yourfile.txt', 'r', encoding='utf-8') as file:
text = file.read()
word_freqs = count_words(text)
print(word_freqs)
```
运行这段代码后,你会得到一个字典,其中键是单词,值是该单词在文本中出现的次数。
阅读全文