python建设语料库代码
时间: 2023-07-09 15:32:51 浏览: 139
webis-tldr-17-corpus:从Reddit数据集构建TLDR语料库的代码
建设语料库的代码会因具体的需求而有所不同,以下是一个简单的示例,展示如何将一个txt文件中的文本分词并保存为新的txt文件:
```python
import jieba
# 读取原始文本文件
with open('input.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词
words = jieba.cut(text)
# 将分词结果保存为新的文本文件
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(' '.join(words))
```
这段代码使用了jieba库进行中文分词,将读取到的原始文本文件(文件名为input.txt)进行分词,并将分词结果保存为新的文本文件(文件名为output.txt)。需要注意的是,在使用时需要先安装jieba库。如果是处理英文文本,可以使用nltk库进行分词。
阅读全文