使用python计算每个文档中单词的频率代码
时间: 2024-10-24 15:04:21 浏览: 31
python统计文本字符串里单词出现频率的方法
5星 · 资源好评率100%
在Python中,你可以使用collections模dule下的Counter类来方便地计算文档中每个单词的频率。这是一个简单的例子:
```python
from collections import Counter
def word_frequency(documents):
# 假设documents是一个列表,每个元素是字符串形式的文档
all_words = ' '.join(documents).split() # 先合并所有文档成一个大串,再分割成单词列表
# 使用Counter计算每个单词的频率
word_counts = Counter(all_words)
# 分割回原来的文档结构,如果每个文档是一个单独的list
freq_list = [word_counts[word] for doc in documents for word in doc.split()]
return freq_list
# 示例文档
example_docs = ["hello world", "world is beautiful"]
print(word_frequency(example_docs))
```
这段代码首先将所有文档连接成一个大的字符串,然后使用`split()`函数分解为单词列表。接着,`Counter`对象会对这个列表进行计数,返回一个字典,其中键是单词,值是对应的频率。最后,我们将结果按照原始文档结构返回。
阅读全文