批量文本分词jieba
时间: 2023-11-10 22:05:17 浏览: 105
如果你想要批量对多个文本文件进行分词,可以在循环中使用jieba库来处理每个文件。
以下是一个示例代码,它可以批量读取指定目录下的文本文件,并对每个文件进行分词:
```python
import os
import jieba
# 文本文件所在目录
txts_dir = "./path/to/text/files/"
# 分词结果保存目录
seg_dir = "./path/to/save/segmented/files/"
# 遍历文本文件目录
for filename in os.listdir(txts_dir):
if filename.endswith(".txt"):
file_path = os.path.join(txts_dir, filename)
with open(file_path, "r", encoding="utf-8") as file:
text = file.read()
# 对文本进行分词
seg_list = jieba.cut(text)
# 将分词结果转换为字符串形式,用空格隔开
segmented_text = " ".join(seg_list)
# 保存分词结果到指定目录
save_path = os.path.join(seg_dir, filename)
with open(save_path, "w", encoding="utf-8") as file:
file.write(segmented_text)
```
请将代码中的 `./path/to/text/files/` 替换为实际的文本文件目录路径,将 `./path/to/save/segmented/files/` 替换为你希望保存分词结果的目录路径。
在代码中,我们使用 `os.listdir()` 函数遍历文本文件目录中的每个文件。对于每个以 `.txt` 结尾的文件,我们打开文件并读取其中的文本内容。然后,使用 `jieba.cut()` 函数对文本进行分词,并将分词结果转换为字符串形式,并用空格隔开。最后,我们将分词结果保存到指定目录下的文件中。
请注意,你需要在代码中导入 `os` 和 `jieba` 库,并确保你已经安装了jieba库。
希望这可以帮助到你。如果你有任何进一步的问题,请随时提问。
阅读全文