文本词频统计python
时间: 2023-10-12 21:13:59 浏览: 85
你好,关于文本词频统计的Python代码,以下是一个简单的示例:
```
# 导入模块
import re
from collections import Counter
# 读取文件
with open('sample.txt', 'r') as f:
contents = f.read()
# 取出单词
words = re.findall(r'\b\w+\b', contents.lower())
# 统计词频
word_counts = Counter(words)
# 输出前十个词频最高的单词
for word, count in word_counts.most_common(10):
print(f'{word}: {count}')
```
希望对您有所帮助!如果您有任何其他问题,请继续提出。
相关问题
文本词频统计python代码
在Python中,我们可以使用内置的collections模块中的Counter类来轻松地进行文本词频统计。以下是一个简单的例子:
```python
from collections import Counter
# 假设我们有一个字符串或文本列表
text = "这是一个简单的例子,我们将演示如何使用Python进行文本词频统计。这个例子会重复一些单词,比如Python和统计。"
# 首先,我们需要将文本分割成单词列表
words = text.split()
# 使用Counter计算每个单词出现的频率
word_counts = Counter(words)
# 打印出单词及其频率
for word, count in word_counts.items():
print(f"{word}: {count}")
对哈姆雷特英文文本词频统计python代码
对《哈姆雷特》这本英文原著进行词频统计,你可以使用Python的自然语言处理库如NLTK(Natural Language Toolkit)和collections模块。以下是一个简单的示例代码:
```python
import nltk
from nltk.corpus import gutenberg
from collections import Counter
# 下载《哈姆雷特》文本
nltk.download('gutenberg')
hamlet_text = gutenberg.raw('shakespeare-hamlet.txt')
# 将文本转换为小写并分割单词
words = hamlet_text.lower().split()
# 使用Counter计算每个单词出现的频率
word_freq = Counter(words)
# 打印前10个最常见的单词及其频率
for word, freq in word_freq.most_common(10):
print(f'{word}: {freq}')
# 如果你想获取所有单词及其频率,可以省略most_common部分
阅读全文