Word2Vec词向量,python代码
时间: 2024-02-18 21:32:30 浏览: 88
Word2Vec是一种将文本中的词转换成数字向量的技术。它通过在大型文本语料库上训练来学习每个词与其他词的关系,并将这些词映射到数字向量空间中。
下面是使用 Python 实现 Word2Vec 的示例代码(需要安装 gensim 库):
```python
import gensim
# 加载语料库,这里使用了一个预处理过的新闻数据集
sentences = gensim.models.word2vec.LineSentence('news.txt')
# 训练模型,设置词向量维度为 100
model = gensim.models.Word2Vec(sentences, size=100)
# 保存模型
model.save('word2vec.model')
# 加载模型
model = gensim.models.Word2Vec.load('word2vec.model')
# 获取 "猫" 词的词向量
vector = model['猫']
# 计算 "狗" 和 "猫" 的相似度
similarity = model.similarity('狗', '猫')
# 计算 "狗"、"猫" 和 "人" 之间的相似度
similarity = model.similarity('狗', '猫', '人')
# 计算 "狗" 与其他词的相似度,返回前 10 个最相似的词
similar_words = model.most_similar('狗', topn=10)
```
注意,这只是一个简单的示例代码,实际应用中可能需要进行更多的参数调整和数据预处理。
阅读全文