python计算词频的例子
时间: 2025-01-03 20:39:06 浏览: 5
### Python 计算词频 示例代码
对于计算词频的任务,Python 提供了多种方法来处理不同场景下的需求。下面是一个简单的例子,用于统计一段文本中的单词频率,并按照频率降序排列输出结果[^1]。
```python
from collections import Counter
import re
def count_word_frequencies(text):
words = re.findall(r'\b\w+\b', text.lower())
word_counts = Counter(words)
# 去除常见的英语停用词(stopwords),如 'the'、'is' 等
stopwords = set(['a', 'an', 'and', 'are', 'as', 'at', 'be', 'by', 'for',
'from', 'has', 'he', 'in', 'is', 'it', 'its', 'of', 'on',
'that', 'the', 'to', 'was', 'were', 'will', 'with'])
filtered_words = {word: count for word, count in word_counts.items() if word not in stopwords}
sorted_word_counts = dict(sorted(filtered_words.items(), key=lambda item: item[1], reverse=True))
return sorted_word_counts
text = "This is a sample sentence to demonstrate the frequency of each unique word appearing."
result = count_word_frequencies(text)
print(result)
```
上述代码首先利用正则表达式提取所有的单词并将它们转换成小写形式以确保大小写的统一性。接着通过 `Counter` 类创建一个字典来记录各个单词出现次数。为了提高准确性,在此之前还移除了某些常用的无意义词汇(即所谓的“停用词”)。最后一步是对得到的结果进行了排序操作以便于观察最常使用的那些词汇[^4]。
阅读全文