首页glove训练中文词向量python代码

glove训练中文词向量python代码

时间: 2023-09-03 15:13:07 浏览: 102

glove中文词向量

3星 · 编辑精心推荐

使用glove预训练词向量（1.6GB维基百科语料），维度为300，词汇量约13000，文件大小为41.2MB

以下是使用Python实现训练中文词向量的示例代码，其中使用了gensim库和jieba库： ```python import jieba from gensim.models import Word2Vec # 准备中文语料库，这里用的是一个文本文件 sentences = [] with open('corpus.txt', 'r', encoding='utf-8') as f: for line in f: # 对每一行进行分词，得到一个列表 words = list(jieba.cut(line.strip())) sentences.append(words) # 使用Word2Vec算法训练词向量 model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4) # 保存训练好的模型 model.save('word2vec.model') # 加载训练好的模型 model = Word2Vec.load('word2vec.model') # 使用模型查找相似词 similar_words = model.wv.most_similar('中国', topn=10) print(similar_words) ``` 在上述代码中，我们使用`jieba`对语料库进行分词，然后使用`gensim`中的`Word2Vec`算法训练词向量，并保存到文件中。最后，我们加载训练好的模型，并使用模型查找相似词。需要注意的是，这里的示例中只是简单地使用了一个文本文件作为语料库，实际应用中需要使用更大的语料库进行训练。

阅读全文