from keras.preprocessing.text import Tokenizer from keras.preprocessing.sequence import pad_sequences tokenizer = Tokenizer() tokenizer.fit_on_texts(poems) poems_digit = tokenizer.texts_to_sequences(poems) vocab_size = len(tokenizer.word_index) + 1 #加上停止词0 vocab_size #有多少个不同的字
时间: 2024-04-05 12:34:43 浏览: 89
浅谈cv2.imread()和keras.preprocessing中的image.load_img()区别
5星 · 资源好评率100%
您的第一个问题是:有多少个不同的字。
根据您提供的代码,vocab_size 的值是诗歌中不同字的数量加上停止词 0 的数量。其中,tokenizer.word_index 是一个字典,记录了每个字对应的数字编码,而 len(tokenizer.word_index) 则表示不同字的数量。因此,vocab_size 的计算公式为:
vocab_size = len(tokenizer.word_index) + 1
其中的 +1 是为了加上停止词 0 的数量。
阅读全文