word2vec实战：深度学习中的神奇词向量技术

需积分: 9 201 浏览量更新于2024-07-15 收藏 2.09MB PDF 举报

"《Deep Learning实战之word2vec》是由邓澍军、陆光明和夏龙在2014年2月27日通过网易有道发布的一份深度学习实践文档，专注于介绍word2vec这一重要技术。word2vec是Google于2013年开源的，用于将词汇表中的单词转化为高维实数向量的工具，它主要包含两种模型：CBOW（Continuous Bag-of-Words）和Skip-Gram，这两种模型分别从上下文和单个词的角度捕捉词的语义信息。该文档首先解释了word2vec的基本概念，强调其独特之处在于能将词与词之间的关系映射到向量空间中，使得语义相近的词在向量上距离较近，这对于自然语言处理（NLP）任务如文本分类、语义分析等具有重要意义。它提到，尽管最初word2vec在图像识别和语音领域之外的应用较少，但其潜在价值在于能够作为特征表示，为其他模型提供丰富的语义信息。文档接着深入探讨了word2vec的两种核心模型，CBOW利用上下文信息预测目标词，而Skip-Gram则反之，目标词预测上下文。文档还介绍了为何选择HierarchicalSoftmax或Negative Sampling等技巧，以及如何优化模型性能，如使用指数运算、随机抽样、哈希编码等方法来减少计算复杂性。此外，文中涉及了word2vec的分布式实现，以适应大规模数据处理，确保模型在实际应用中的效率。最后，作者分享了他们的学习过程和研究心得，并鼓励读者参与讨论和反馈，以共同进步。这篇文档对于理解word2vec的基本原理、模型细节以及其实战应用具有很高的价值，适合对深度学习和NLP感兴趣的读者深入学习和实践。"

Bengio 实验室呆过一段时间，也一起发表过 paper。而且相关的语言模型也被这

几个大牛翻江倒海搞了好多年。

还有一个 Deep Learning 相关开源工具 SENNA 的作者 Ronan Collobert 则是

Samy Bengio（也是张栋的博士生导师）的博士生，而 Samy Bengio 则是 Yoshua

Bengio 的亲弟弟。

四、背景知识

4.1 词向量

1. One-hot Representation

NLP 相关任务中最常见的第一步是创建一个词表库并把每个词顺序编号。这

实际就是词表示方法中的 One-hot Representation，这种方法把每个词顺序编号，

每个词就是一个很长的向量，向量的维度等于词表大小，只有对应位置上的数字

为 1，其他都为 0。当然在实际应用中，一般采用稀疏编码存储，主要采用词的

编号。

这种表示方法一个最大的问题是无法捕捉词与词之间的相似度，就算是近义

词也无法从词向量中看出任何关系。此外这种表示方法还容易发生维数灾难，尤

其是在 Deep Learning 相关的一些应用中。

2. Distributed Representation

Distributed representation 最早由 Hinton 在 1986 年提出

[8]

。其基本思想是

通过训练将每个词映射成 K 维实数向量（K 一般为模型中的超参数），通过词之

间的距离（比如 cosine 相似度、欧氏距离等）来判断它们之间的语义相似度。而

word2vec 使用的就是这种 Distributed representation 的词向量表示方式。

4.2 统计语言模型

传统的统计语言模型是表示语言基本单位（一般为句子）的概率分布函数，

这个概率分布也就是该语言的生成模型。一般语言模型可以使用各个词语条件概

率的形式表示：

(s) = (





󰇜 (



,



,





󰇛









Context)

其中 Context 即为上下文，根据对 Context 不同的划分方法，可以分为五大类：

（1）上下文无关模型（Context=NULL）

该模型仅仅考虑当前词本身的概率，不考虑该词所对应的上下文环境。这是

一种最简单，易于实现，但没有多大实际应用价值的统计语言模型。

󰇛



Context)=󰇛



󰇜=









这个模型不考虑任何上下文信息，仅仅依赖于训练文本中的词频统计。它是

n-gram 模型中当 n=1 的特殊情形，所以有时也称作 Unigram Model（一元文法统

计模型）。实际应用中，常被应用到一些商用语音识别系统中。

剩余22页未读，继续阅读

sun89

粉丝: 0

word2vec实战：深度学习中的神奇词向量技术

计算机视觉与DeepLearning实战之word2vec技术解析

深度学习实践：word2vec模型解析

深度学习实战：word2vec模型详解

Deep Learning实战之word2vec.pdf

word2vec源码与原理

NLP specialization Deeplearning.AI jupyter notebook 练习以及ppt

黄文坚-TensorFlow 实战中文版 完整版 pdf

深度解析word2vec源码与实战原理

利用Python进行数据挖掘：从理论到实践，实战家的视角

深度学习框架实现中文Word2Vec：deeplearning4j与ansj应用

最新资源

黄文坚-TensorFlow 实战中文版完整版 pdf