用python将人工标注后的暴雨洪涝灾情文本整合为语料库的代码
时间: 2024-02-20 10:56:15 浏览: 90
以下是一个简单的示例代码,可以将多个文本文件中的文本整合为一个语料库,并进行一些简单的预处理(如分词、去除停用词):
```python
import os
import jieba
from collections import Counter
# 定义停用词列表
stopwords = ['的', '了', '在', '是', '我', '有', '和', '就', '不', '人', '都', '一', '一个', '上', '也', '很', '到', '说', '要', '去', '你', '会', '着', '没有', '看', '好', '自己', '这']
# 遍历所有文本文件,将文本合并为一个字符串
corpus = ''
for file in os.listdir('data'):
with open(os.path.join('data', file), 'r', encoding='utf-8') as f:
text = f.read().strip()
corpus += text + '\n'
# 利用jieba进行分词,并去除停用词
words = [w for w in jieba.cut(corpus) if w not in stopwords]
# 统计词频
word_count = Counter(words)
# 输出前20个高频词
for k, v in word_count.most_common(20):
print(k, v)
```
以上代码假设所有的文本文件都存放在一个名为"data"的目录下。在实际应用中,你可能需要根据自己的需求对代码进行一些修改。
阅读全文