python怎么读取指定文件夹的所有txt文件并对其内容进行分词
时间: 2024-01-19 14:04:05 浏览: 150
Python 合并多个TXT文件并统计词频的实现
可以使用Python中的os和nltk模块来读取指定文件夹中的所有txt文件并对其进行分词。下面是一个基本的实现步骤:
1.导入模块:导入os和nltk模块。
2.指定文件夹:使用os模块指定要读取的文件夹。
3.读取文件:使用os模块读取文件夹中的所有txt文件。
4.分词:对每个txt文件的内容进行分词。
5.输出:将分词结果保存到一个文件中。
下面是一个基本的代码示例:
```python
import os
import nltk
# 指定文件夹
folder_path = 'path/to/folder'
# 读取文件
files = [f for f in os.listdir(folder_path) if f.endswith('.txt')]
# 分词
for file in files:
with open(os.path.join(folder_path, file), 'r') as f:
content = f.read()
tokens = nltk.word_tokenize(content)
with open(os.path.join(folder_path, file.split('.')[0] + '_tokens.txt'), 'w') as f:
f.write(' '.join(tokens))
```
在这个示例中,我们指定了要读取的文件夹的路径,并使用os模块读取了所有的txt文件。然后,对于每个txt文件,我们使用nltk模块的word_tokenize函数对其内容进行分词,并将结果保存到一个新的txt文件中。新的文件名是原文件名加上'_tokens'后缀。
阅读全文