批量读txt文件并分别进行文本分词,输出相应的分词结果并进行词频统计
时间: 2024-03-12 17:47:24 浏览: 122
好的,我可以帮你解决这个问题。你可以使用Python来批量读取txt文件并分别进行文本分词,同时输出相应的分词结果并进行词频统计。以下是一个示例代码:
```python
import jieba
import os
from collections import Counter
# 设置停用词路径
stopwords_path = 'stopwords.txt'
# 加载停用词
stopwords = [line.strip() for line in open(stopwords_path, 'r', encoding='utf-8').readlines()]
# 遍历txt文件
folder_path = '/path/to/folder'
for file_name in os.listdir(folder_path):
if file_name.endswith('.txt'):
# 读取文件内容
file_path = os.path.join(folder_path, file_name)
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
# 分词
words = jieba.lcut(content)
# 去除停用词
words = [word for word in words if word not in stopwords]
# 统计词频
word_count = Counter(words)
# 输出分词结果和词频
print('文件名:', file_name)
for word, count in word_count.most_common():
print(word, count)
```
这个示例代码与之前的代码相似,只是在分词后增加了一个词频统计的步骤。使用Counter函数可以很方便地统计出每个词语出现的次数,然后通过most_common方法按照词频从高到低排序输出。
希望这个示例代码可以帮到你。如果有其他问题,欢迎继续提问。
阅读全文