def load_pre_trained(): # load pre-trained embedding model embeddings_index = {} with open('D:\Desktop\深度学习\Embedding\sgns.sogou.word',encoding='utf-8') as f: _, embedding_dim = f.readline().split() for line in f: values = line.split() word = values[0] coefs = np.asarray(values[1:], dtype='float32') embeddings_index[word] = coefs print('Found %s 单词数量, 向量的维度信息 %s' % (len(embeddings_index), embedding_dim)) return embeddings_index
时间: 2024-04-02 11:32:15 浏览: 81
Chinese-Word-Vectors:100+ Chinese Word Vectors 上百种预训练中文词向量
这段代码是用于加载预训练的词向量模型,其中使用的是搜狗新闻词向量数据集sgns.sogou.word。该数据集是一个预训练的中文词向量模型,包含了超过1.8亿个中文词汇及其对应的向量表示。代码中使用的是Python中的字典数据结构(embeddings_index),将每个单词和其对应的词向量存储在该字典中。最后,该函数返回了加载后的词向量模型。
阅读全文