首页统计词频python

统计词频python

时间: 2024-09-15 09:15:39 浏览: 62

在Python中，统计词频可以使用内置的数据结构如字典（dict），结合循环和条件判断，也可以使用专门用于文本处理的库如NLTK (Natural Language Toolkit) 或者 `collections` 中的 `Counter` 类。这里是一个简单的例子，使用Python和`collections.Counter` 来统计一个字符串或文件中单词的频率： ```python from collections import Counter def count_words(text): # 删除标点符号并将所有字母转为小写 text = ''.join(e for e in text if e.isalnum() or e.isspace()).lower() # 分割文本成单词 words = text.split() # 使用Counter计算词频 word_counts = Counter(words) return word_counts # 示例，统计字符串中的词频 text = "这是一段测试文本，它包含了一些重复的词语。" word_freqs = count_words(text) print(word_freqs) # 或者统计文件中的词频 with open('yourfile.txt', 'r', encoding='utf-8') as file: text = file.read() word_freqs = count_words(text) print(word_freqs) ``` 运行这段代码后，你会得到一个字典，其中键是单词，值是该单词在文本中出现的次数。

阅读全文