glove训练中文词向量python代码
时间: 2023-09-03 20:13:07 浏览: 106
以下是使用Python实现训练中文词向量的示例代码,其中使用了gensim库和jieba库:
```python
import jieba
from gensim.models import Word2Vec
# 准备中文语料库,这里用的是一个文本文件
sentences = []
with open('corpus.txt', 'r', encoding='utf-8') as f:
for line in f:
# 对每一行进行分词,得到一个列表
words = list(jieba.cut(line.strip()))
sentences.append(words)
# 使用Word2Vec算法训练词向量
model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4)
# 保存训练好的模型
model.save('word2vec.model')
# 加载训练好的模型
model = Word2Vec.load('word2vec.model')
# 使用模型查找相似词
similar_words = model.wv.most_similar('中国', topn=10)
print(similar_words)
```
在上述代码中,我们使用`jieba`对语料库进行分词,然后使用`gensim`中的`Word2Vec`算法训练词向量,并保存到文件中。最后,我们加载训练好的模型,并使用模型查找相似词。需要注意的是,这里的示例中只是简单地使用了一个文本文件作为语料库,实际应用中需要使用更大的语料库进行训练。
阅读全文