python实现word2vec,用中文测试
时间: 2023-06-26 16:06:49 浏览: 127
基于python的svm与word2vec文本情感分析设计与实现
5星 · 资源好评率100%
要实现Word2Vec,可以使用Python中的gensim库。下面是一个简单的例子:
```python
from gensim.models import word2vec
import jieba
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 使用结巴分词
sentences = [list(jieba.cut(sentence)) for sentence in text.split('\n')]
# 训练模型
model = word2vec.Word2Vec(sentences, size=100, min_count=5)
# 测试
print(model.wv['中国'])
```
在上面的例子中,我们首先读取了一个文本文件,并使用结巴分词将其分成若干个句子。然后,我们使用这些句子来训练Word2Vec模型。最后,我们测试了一下模型,看看它能否正确地找到“中国”这个词的向量表示。
需要注意的是,由于中文的特殊性,需要首先对文本进行分词处理。在上面的例子中,我们使用了结巴分词库来进行分词。
阅读全文