python实现word2vec训练词向量
时间: 2023-09-05 20:13:23 浏览: 112
使用Python实现Word2Vec算法可以使用gensim库。以下是一个简单的例子:
首先,你需要安装gensim库:
```python
pip install gensim
```
然后,你需要导入所需的库:
```python
import gensim
from gensim.models import Word2Vec
from gensim.test.utils import common_texts
```
接下来,你需要准备训练数据。这里我们使用gensim库自带的一些数据:
```python
sentences = common_texts
```
现在,你可以开始训练词向量了:
```python
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)
```
在这个例子中,我们使用了常见文本(common_texts)作为训练数据。vector_size参数指定了生成的词向量的维度,window参数指定了上下文窗口的大小,min_count参数指定了在训练中保留的最小词频,workers参数指定了训练时使用的CPU数量。
训练完成后,你可以使用以下代码来获取某个词的词向量:
```python
vector = model.wv['word']
```
这里,'word'是你想获取词向量的词。
你也可以使用以下代码来找到与某个词最相似的词:
```python
similar_words = model.wv.most_similar('word')
```
在这个例子中,'word'是你想找到最相似词的词。
最后,你可以使用以下代码保存训练好的模型:
```python
model.save('model.bin')
```
这里,'model.bin'是要保存模型的文件名。
阅读全文