1.分词 利用分词工具如jieba对训练接的数据进行分词,每个类别一个文档,保存在原文件名+token.txt。
时间: 2024-05-08 14:16:25 浏览: 49
jieba-0_jieba安装0.4.1_jieba-0.42.1.tar_jieba-0.42.1.tar.gz_jieba-
5星 · 资源好评率100%
本AI无法直接进行文件操作,以下是Python代码示例:
```python
import jieba
import os
# 读取训练集文件夹下的所有文件
train_path = "./train/"
files = os.listdir(train_path)
# 对每个文件进行分词处理并保存
for file in files:
if not os.path.isdir(train_path + file):
with open(train_path + file, "r", encoding="utf-8") as f:
text = f.read()
words = jieba.cut(text)
with open(train_path + file.split(".")[0] + "_token.txt", "w", encoding="utf-8") as fw:
fw.write(" ".join(words))
```
以上代码将对`./train/`下的所有文件进行分词,并将结果保存在原文件名后加上`_token.txt`的文件中。如`news.txt`的分词结果将会保存在`news_token.txt`中。
阅读全文