Python中使用term frequency计算每个文档中单词的出现频率
时间: 2024-10-24 10:04:07 浏览: 39
使用python编写的基于逻辑回归的文本分类
在Python中,我们可以使用`collections`模块下的`Counter`类来方便地计算每个文档中单词的词频(Term Frequency)。`Counter`是一个无序的、可变的容器,它用于计数可哈希对象的出现次数。
下面是一个简单的例子,假设我们有一个包含文本的列表,表示多个文档:
```python
from collections import Counter
# 假设docs是一个包含文档字符串的列表
docs = ['这是一个文档', '这是第二个文档,包含一些相同的词语', '第三个文档只有少量词汇']
# 将所有文档连接成一个大字符串,然后按空格分割得到单词列表
all_words = ' '.join(docs).split()
# 使用Counter计算每个单词的词频
word_counts = Counter(all_words)
# 输出结果
for word, count in word_counts.items():
print(f"'{word}': {count}")
```
在这个例子中,`word_counts`字典将存储每个单词及其对应的出现次数。如果你想对每个文档分别计算词频,可以先处理每个文档,然后再合并结果。
阅读全文