Python实现word2vec词向量训练与加载实战

PDF格式 | 60KB | 更新于2023-03-16 | 111 浏览量 | 举报

2 收藏

在Python环境下实现Word2Vec词向量训练与加载是数据处理和自然语言处理任务中常见的步骤。Word2Vec是Google开发的一种流行工具，它能将词语转换成数值向量，从而使得机器学习算法能够理解单词之间的语义关系。Word2Vec主要基于两种模型：连续词袋（CBOW）和Skip-gram，这里以CBOW为例进行讲解。首先，对于Word2Vec的训练，Python可以通过调用预编译的word2vec命令行工具来完成。你需要从GitHub下载word2vec的安装包，然后进行make编译。训练过程通常包含以下关键参数： 1. `-train`：指定训练语料库文件，如`text8`，这是用于训练的文本数据源。 2. `-output`：定义输出词向量文件，如`vectors.bin`，为二进制格式便于存储和加载。如果希望以文本格式查看，需要设置`-binary`参数为0。 3. `-cbow`：指示是否使用连续词袋模型，1表示启用，0表示禁用。CBOW是通过上下文预测中心词，而Skip-gram则是中心词预测上下文。 4. `-size`：词向量维度，默认为200维，可以根据实际需求调整。 5. `-window`：上下文窗口大小，即考虑每个词前后多少个词作为特征，这里设为8。 6. `-negative`：负采样参数，非零值表示使用负采样技术，减少计算复杂度。默认为25个负样本。 7. `-hs`：是否使用HierarchicalSoftmax，0表示禁用，1表示启用，通常负采样比HS模型更高效。 8. `-sample`：词频阈值，频率低于此阈值的词可能被抽样，设置为e^-4。 9. `-threads`：并发线程数量，一般设置较高的值以加速训练，这里默认为20。 10. `-binary`：表示词向量的输出格式，1表示二进制，0表示文本格式。执行命令可能如下： ``` ./word2vec-train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15 ``` 训练完成后，你可以使用Python的gensim库或者其他相关的工具（如GloVe或FastText）加载保存的词向量模型。例如，使用gensim： ```python from gensim.models import KeyedVectors model = KeyedVectors.load_word2vec_format('vectors.bin', binary=True) ``` 加载模型后，你就可以利用其中的`model.similarity(word1, word2)`函数来计算两个词的相似度，这对于文本分类、聚类和推荐系统等任务非常有用。 Word2Vec在Python中的应用涉及从原始文本数据生成高质量词向量，以及通过编程接口进行模型加载和相似度计算。熟练掌握这些步骤，能够帮助你在实际项目中提高文本处理和分析的精度。

在在python下实现下实现word2vec词向量训练与加载实例词向量训练与加载实例

项目中要对短文本进行相似度估计，word2vec是一个很火的工具。本文就word2vec的训练以及加载进行了总结。

word2vec的原理就不描述了，word2vec词向量工具是由google开发的，输入为文本文档，输出为基于这个文本文档的语料库

训练得到的词向量模型。

通过该模型可以对单词的相似度进行量化分析。

word2vec的训练方法有2种，一种是通过word2vec的官方手段，在linux环境下编译并执行。

在github上下载word2vec的安装包，然后make编译。查看demo-word.sh脚本，得到word2vec的执行命令：

./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads

20 -binary 1 -iter 15

参数解释：参数解释：

1）-train：需要训练的语料库，text8为语料库文件名

2）-output：输出的词向量文件，vectors.bin为输出词向量文件名，.bin后缀为二进制文件。若要以文档的形式查看词向量文

件，需要将-binary参数的值由1改为0

3）-cbow：是否使用cbow模型进行训练。参数为1表示使用cbow，为0表示不使用cbow

4）-size：词向量的维数，默认为200维。

5）-window：训练过程中截取上下文的窗口大小，默认为8，即考虑一个词前8个和后8个词

6）-negative：若参数非0，表明采样随机负采样的方法，负样本子集的规模默认为25。若参数值为0,表示不使用随机负采样

模型。使用随机负采样比Hierarchical Softmax模型效率更高。

7）-hs：是否采用基于Hierarchical Softmax的模型。参数为1表示使用，0表示不使用

8）-sample：语料库中的词频阈值参数，词频大于该阈值的词，越容易被采样。默认为e^-4.

9）-threads：开启的线程数目，默认为20.

10）-binary：词向量文件的输出形式。1表示输出二进制文件，0表示输出文本文件

11）-iter：训练的迭代次数。一定范围内，次数越高，训练得到的参数会更准确。默认值为15次.

./word2vec -train mytext.txt -output vectors.txt -cbow 1 -size 200 -window 5 -negative 25 -hs 0 -sample 1e-4 -

threads 20 -binary 0 -iter 30

示例为训练一个名mytext.txt的文档。设置输出词向量的格式为.txt文本文档，所以还需要将-binary参数设置为0.

训练模型采用基于随机负采样的cbow模型。由于短文本字数极为有限，所以-window参数设置为5，设置词向量的维数

为200，为了使得到的参数更准确，将迭代次数增加至30.其他参数使用默认值。

训练以后得到一个txt文本，该文本的内容为：每行一个单词，单词后面是对应的词向量。

gensim加载词向量：加载词向量：

保存词向量模型到pkl中（注意：这里是对词向量模型进行构建）

from gensim.models import KeyedVectors

if not os.path.exists(pkl_path): # 如果pickle模型不存在，则构建一个

print '词向量模型不存在，开始构建词向量模型...'

Word2Vec = KeyedVectors.load_word2vec_format(vecs_path, binary=False) # 加载词向量模型

f = file(pkl_path, 'wb')

pickle.dump(Word2Vec, f, True)

f.close()

print '词向量模型构建完毕...'

f= file(pkl_path, 'rb')# 打开pkl文件

word2vec=pickle.load(f)# 载入pkl

第二种方法是使用gensim模块训练词向量：

下载后可阅读完整内容，剩余1页未读，立即下载

weixin_38701725

粉丝: 7

Python实现word2vec词向量训练与加载实战

Word2Vec Python源代码

word2vec情感分析实例

通过wiki生成word2vec模型的例子

使用Python实现Word2Vec模型

word2vec (四) 动手训练一个词向量空间

Python-gensimfast2vec改造灵活使用大规模外部词向量具备OOV查询能力

Word2Vec java版实现

word2vec测试数据及训练代码.zip

Python-ParagraphVectorsdoc2vec的PyTorch实现

word2vec在PyTorch中的实现代码及其数据

最新资源