计算词汇表大小并创建一个将每个字符映射到唯一整数的字典
时间: 2024-04-08 17:33:27 浏览: 118
计算机英语学习常用词汇
要计算词汇表的大小并创建一个将每个字符映射到唯一整数的字典,可以使用Python的set数据结构和字典。下面是示例代码:
```python
import codecs
import jieba
# 读取txt文件
with codecs.open('input.txt', 'r', 'utf-8') as file:
text = file.read()
# 分词
seg_list = jieba.cut(text)
# 创建词汇表(set)
vocab = set(seg_list)
# 计算词汇表的大小
vocab_size = len(vocab)
# 创建字符到整数的映射字典
char_to_int = {}
for i, char in enumerate(vocab):
char_to_int[char] = i
# 打印词汇表的大小
print("词汇表大小: ", vocab_size)
# 打印字符到整数的映射字典
print("字符到整数的映射字典: ", char_to_int)
```
运行上述代码,它将读取文本文件并输出词汇表的大小以及字符到整数的映射字典。注意,这里使用了分词结果作为词汇表,你也可以根据需要调整分词方法或使用其他方式构建词汇表。
阅读全文