中文word2vec模型算法python简单使用
时间: 2023-08-11 11:06:28 浏览: 123
中文Word2Vec模型可以使用Python中的gensim库进行训练和使用。下面是一个简单的使用示例:
1. 安装gensim库
```
pip install gensim
```
2. 准备中文语料
将中文语料保存到一个文本文件中,每行为一个句子,例如:
```
我 喜欢 吃 苹果
他 喜欢 吃 香蕉
```
3. 训练Word2Vec模型
使用gensim库的Word2Vec类进行模型训练,示例代码如下:
```python
from gensim.models import Word2Vec
# 加载语料
sentences = []
with open("corpus.txt", "r", encoding="utf-8") as f:
for line in f:
sentences.append(line.strip().split())
# 训练Word2Vec模型
model = Word2Vec(sentences, size=100, window=5, min_count=1)
# 保存模型
model.save("word2vec.model")
```
其中,size表示词向量的维度,window表示上下文窗口大小,min_count表示最小词频,可以根据实际情况进行调整。
4. 使用Word2Vec模型
使用训练好的Word2Vec模型可以进行词向量查询、相似词查询等操作,示例代码如下:
```python
# 加载模型
model = Word2Vec.load("word2vec.model")
# 获取词向量
vector = model.wv["苹果"]
# 查询相似词
similar_words = model.wv.most_similar("苹果")
print(similar_words)
```
其中,most_similar函数可以查询与指定词最相似的词汇。
阅读全文