自主编写根据语料文件建立词典的代码
时间: 2024-04-05 20:33:39 浏览: 123
情感分析语料库+情感词典.zip
当根据语料文件建立词典,你可以使用Python中的一些常用库来实现。下面是一个示例代码,用于建立词典:
```python
from collections import Counter
import os
def build_vocab(corpus_file, min_freq=5):
vocab_counter = Counter()
with open(corpus_file, 'r', encoding='utf-8') as f:
for line in f:
words = line.strip().split()
vocab_counter.update(words)
# 过滤掉低频词
vocab = {word for word, freq in vocab_counter.items() if freq >= min_freq}
return vocab
# 语料文件路径
corpus_file = 'corpus.txt'
# 建立词典
vocab = build_vocab(corpus_file)
# 输出词典大小
print('Vocabulary size:', len(vocab))
```
以上代码使用了`Counter`对象来统计词频,然后根据设定的最小词频阈值过滤掉低频词,最后返回建立好的词典。你可以根据自己的需求修改代码,例如设定不同的最小词频阈值、处理多个语料文件等。
阅读全文