利用python识别txt文件,并产生这些文件的词频
时间: 2023-06-14 18:04:58 浏览: 109
基于Python实现分析文本数据的词频
可以使用Python中的Counter和re模块来实现词频统计。下面是一个简单的例子:
```python
import re
from collections import Counter
# 读取txt文件
with open('file.txt', 'r') as f:
text = f.read()
# 利用正则表达式进行分词
words = re.findall(r'\w+', text.lower())
# 统计词频
word_counts = Counter(words)
# 输出前10个出现频率最高的单词
for word, count in word_counts.most_common(10):
print(word, count)
```
在上面的例子中,我们首先打开一个txt文件并读取其中的文本,然后使用正则表达式对文本进行分词,再利用Counter对分词后的单词进行统计,最后输出出现频率最高的前10个单词和它们的出现次数。
阅读全文