批量读txt文件并进行文本分词
时间: 2023-07-26 16:35:37 浏览: 90
批量读取txt文件
好的,我可以帮你解决这个问题。首先,你需要一个文本分词的工具,比如jieba。
然后,你可以使用Python来批量读取txt文件并进行文本分词。以下是一个简单的示例代码:
```python
import jieba
import os
# 设置停用词路径
stopwords_path = 'stopwords.txt'
# 加载停用词
stopwords = [line.strip() for line in open(stopwords_path, 'r', encoding='utf-8').readlines()]
# 遍历txt文件
folder_path = '/path/to/folder'
for file_name in os.listdir(folder_path):
if file_name.endswith('.txt'):
# 读取文件内容
file_path = os.path.join(folder_path, file_name)
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
# 分词
words = jieba.lcut(content)
# 去除停用词
words = [word for word in words if word not in stopwords]
# 输出结果
print(file_name, words)
```
其中,stopwords.txt是一个文本文件,里面包含了需要过滤掉的停用词。folder_path是txt文件所在的文件夹路径。代码中使用jieba进行分词,并使用停用词过滤掉无意义的词语。最后输出每个文件的分词结果。
希望这个示例代码可以帮到你。如果有其他问题,欢迎继续提问。
阅读全文