gensim word2vec 训练英文词向量
时间: 2023-07-06 22:26:21 浏览: 211
word2vec_词向量_
5星 · 资源好评率100%
好的,我可以为您讲解如何用gensim训练英文词向量。首先,您需要准备一份包含英文文本的语料库,可以是一个文本文件或者是一个文件夹中包含多个文本文件。然后,您需要安装gensim库以及其他相关依赖库。
接下来,您可以使用以下代码进行训练:
```python
from gensim.models import Word2Vec
import logging
# 设置日志等级
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
# 读取语料库
with open('corpus.txt', 'r') as f:
corpus = f.readlines()
# 对文本进行预处理,例如分词、去除停用词等
processed_corpus = [[word for word in document.lower().split() if word.isalpha()] for document in corpus]
# 训练模型
model = Word2Vec(processed_corpus, size=100, window=5, min_count=5, workers=4)
# 保存模型
model.save('word2vec.model')
```
在上述代码中,`size`参数表示词向量的维度,`window`参数表示窗口大小,`min_count`参数表示词频阈值,`workers`参数表示训练时使用的线程数。您可以根据需要调整这些参数。
训练完成后,您可以使用以下代码加载模型并进行相关操作:
```python
# 加载模型
model = Word2Vec.load('word2vec.model')
# 获取某个词的向量
vector = model.wv['word']
# 查找与某个词最相似的词
similar_words = model.wv.most_similar('word')
```
以上就是使用gensim训练英文词向量的基本流程和操作,希望对您有帮助。
阅读全文