利用分词工具如jieba对train文件夹下的数据进行分词,每个类别一个文档,保存在原文件名+token.txt。
时间: 2023-06-09 19:03:25 浏览: 137
好的,您的要求我明白了。关于您的问题,我可以提供以下的Python代码来实现:
```python
import os
import jieba
# 需要分词的类别
categories = ['category1', 'category2', 'category3']
# 分词
for category in categories:
files = os.listdir(os.path.join('train', category))
for file in files:
with open(os.path.join('train', category, file), 'r', encoding='utf-8') as f:
content = f.read()
# 分词
words = jieba.cut(content)
# 保存到token.txt
with open(os.path.join('train', category, file.replace('.txt', '_token.txt')), 'w', encoding='utf-8') as f:
f.write(' '.join(words))
```
这段代码会读取指定类别下的每个文档,使用jieba分词工具将文档内容进行分词,然后将结果保存在同一目录下的token.txt文件中。注意,每个文档的结果应该单独保存,因此程序中将原文件名的.txt后缀替换为_token.txt作为保存文件名。
希望这个答案对您有所帮助,如果您有其他问题请继续提问。
阅读全文