训练Word2vec词向量模型代码
时间: 2024-10-17 09:14:41 浏览: 32
word2vec词向量训练及中文文本相似度计算
训练Word2Vec词向量模型通常使用Python语言中的Gensim库。以下是一个简单的示例,展示如何使用Gensim训练Word2Vec模型:
```python
from gensim.models import Word2Vec
import gensim.downloader as api
# 下载或者加载预训练的Google News词汇模型
model = api.load('word2vec-google-news-300')
# 如果你想自建数据集训练,首先准备文本数据
# text_data = ... # 例如从文件、网络爬虫获取的文本列表
# 定义训练参数
sentences = [text_data] # 使用list of sentences作为输入
vector_size = 300 # 词向量维度,这里是300维
window_size = 5 # 指定单词窗口大小
min_count = 1 # 忽略词频低于该值的单词
epochs = 10 # 迭代次数
# 训练模型
model = Word2Vec(sentences, vector_size=vector_size, window=window_size, min_count=min_count, workers=4) # workers表示并行处理的数量
# 训练完成后,你可以通过.wv属性访问词向量矩阵
for word in ['apple', 'banana', 'orange']:
print(model.wv[word])
```
注意,这只是一个基础示例,实际应用中可能需要对数据进行预处理,如分词、去除停用词等,并调整参数以达到最佳效果。
阅读全文