Word2Vec深度解析：从NNLM到高效训练策略

需积分: 0 191 浏览量更新于2024-08-05 1 收藏 618KB PDF 举报

"本文主要介绍了Word2Vec模型，它是Google在2013年提出的一种自然语言处理（NLP）工具，旨在将大量单词高效、高质量地转化为向量表示。Word2Vec受到Bengio在2003年提出的NNLM（Neural Network Language Model）模型的启发，但通过简化和优化提高了训练效率。文章详细阐述了Word2Vec的模型结构、训练策略以及与NNLM的关系。" Word2Vec模型的核心在于通过神经网络将单词转换为低维向量，使得语义相似的词在向量空间中的距离更近，同时能够保持一些线性关系，如“国王 - 男人 + 女人 = 国王”。这种向量表示方法对于许多NLP任务非常有用，如词性标注、情感分析、机器翻译等。模型的构建基于两个关键思想：一是分布式假设，即上下文相似的词具有相近的语义；二是简化NNLM模型以提高训练效率。Word2Vec有两种训练策略：Continuous Bag of Words (CBOW) 和 Skip-Gram。在CBOW中，模型尝试使用上下文词来预测中心词，而Skip-Gram则是反过来，用中心词预测其上下文词。这两种方法都旨在捕捉词汇之间的上下文关联。在NNLM模型中，有三个主要层次：映射层、隐藏层和Softmax输出层。映射层通过一个共享权重矩阵将One-Hot编码的词转化为词向量，隐藏层使用tanh激活函数，Softmax层则将向量映射到概率分布。然而，由于庞大的参数空间，训练速度较慢。Mikolov的改进包括： 1. 舍弃隐藏层，这大大减少了计算量。 2. 将上下文词向量求和代替NNLM的拼接操作，降低了模型复杂度。 3. 引入Hierarchical Softmax和Negative Sampling策略，以减少Sigmoid函数的计算成本。Hierarchical Softmax使用二叉树结构来快速计算概率，Negative Sampling则是在训练时随机选择一些负样本，简化了优化过程。通过这些优化，Word2Vec能够在大规模数据集上快速训练出高质量的词向量，为后续的NLP任务提供了强大的基础。

1 模型介绍

1.1 模型概述

Word2Vec是Google在2013年提出的一个NLP工具，它通过一个浅层的双层神经网络，高效率、高质量

地将海量单词向量化。训练得到的词向量满足：

相似单词的词向量彼此接近。例如

保留单词间的线性规则性。例如

Word2Vec模型的灵感来源于Bengio在2003年提出的NNLM模型（Nerual Network Language

Model），该模型使用一个三层前馈神经网络来拟合一个词序列的条

件概率。第一层是映射层，通过一个共享矩阵，将One-Hot向量转化为词向

量，第二层是一个激活函数为tanh的隐含层，第三层是Softmax输出层，将向量映射到概率空间

中。根据条件概率公式与大数定律，使用词频来近似地估计真实的条件概率。

Bengio发现，我们可以使用映射层的权值作为词向量表征。但是，由于参数空间非常庞大，NNLM模型

的训练速度非常慢，在百万级的数据集上需要耗时数周才能得到相对不错的结果，而在千万级甚至更大

的数据集上，几乎无法得到结果。

Mikolov发现，NNLM模型可以被拆分成两个步骤：

用一个简单的模型训练出一个连续的词向量（映射层）

基于词向量表征，训练出一个N-Gram神经网络模型（隐含层+输出层）

而模型的计算瓶颈主要在第二步，特别是输出层的Sigmoid归一化部分。如果我们只是想得到词向量，

可以对第二步的神经网络模型进行简化，从而提高模型的训练效率。因此，Mikolov对NNLM模型进行了

以下几个部分的修改：

舍弃了隐含层。

NNLM在利用上文词预测目标词时，对上文词的词向量进行了拼接，Word2Vec模型对其直接进行

了求和，从而降低了隐含元的维度。

NNLM在进行Sigmoid归一化时需要遍历整个词汇表，Word2Vec模型提出了Hierarchical Softmax

与Negative Sampling两种策略进行优化。

依据分布式假设（上下文环境相似的两个词有着相近的语义），将下文单词也纳入训练环境，并提

出了两种训练策略，一种是用上下文预测中心词，称为CBOW，另一种是用中心词预测上下文，称

为Skip-Gram。

下载后可阅读完整内容，剩余4页未读，立即下载

咖啡碎冰冰

粉丝: 18
资源: 292

Word2Vec深度解析：从NNLM到高效训练策略

word2vec情感分析实例

python+Word2Vec实现情感分析完整项目

深度学习word2vec学习笔记pdf版.pdf

word2vec详解_word2vec_源码

Word2vec算法详解

词嵌入技术：Word2Vec详解与应用

TensorFlow自然语言处理：词向量模型Word2vec详解

Word2vec详解及其在词汇消歧中的应用

Word2vec详解：从传统NLP到词向量表示

深度学习word2vec详解：语言模型与词向量应用

最新资源