word2vec深度解析：将词汇映射到向量空间的实战指南

5星 · 超过95%的资源需积分: 31 103 浏览量更新于2024-07-20 1 收藏 2.48MB PDF 举报

"word2vec词向量入门"是一篇由邓澍军、陆光明、夏龙撰写的文章，发表于2014年2月27日，通过网易有道平台分享。文章旨在深入介绍Google开源的word2vec技术，这是一种将自然语言中的词汇转换为数值向量表示的工具，对于深度学习在自然语言处理(NLP)领域的应用具有重要意义。文章首先定义了word2vec的基本概念，它是一种高效的模型，主要包括连续词袋模型(CBOW)和跳过窗口模型(Skip-Gram)。CBOW通过上下文单词预测中心词，而Skip-Gram则是用中心词预测其周围的上下文单词，这两种模型都是为了捕捉词汇之间的语义和上下文关系。在背景知识部分，文章解释了词向量的重要性，它们是NLP中用于理解词语含义和语法角色的关键元素。统计语言模型，如NNLM(神经网络语言模型)，以及Log-Linear、Log-Bilinear和层次化Log-Bilinear模型，都为word2vec提供了理论基础。这些模型通过不同的方式学习词汇的潜在结构。文章详细介绍了word2vec模型的实现技巧，包括指数运算优化、随机抽样处理高频词以避免过拟合、哈希编码来加速计算、以及处理特殊字符如回车符等。分布式实现则关注如何在大规模数据上有效运行word2vec，确保模型的效率。总结部分强调了word2vec的实际价值，特别是在提升广告点击率预测等NLP任务中的特征表示能力。文章最后提供了参考代码和文献，鼓励读者参与讨论和反馈，以不断完善这一技术的理解和应用。这篇指南为初学者提供了全面的word2vec入门教程，涵盖了理论背景、模型原理、实践技巧和应用案例，对于想要深入了解和使用词向量技术的人来说，是一份不可多得的资源。"

Bengio 实验室呆过一段时间，也一起发表过 paper。而且相关的语言模型也被这

几个大牛翻江倒海搞了好多年。

还有一个 Deep Learning 相关开源工具 SENNA 的作者 Ronan Collobert 则是

Samy Bengio（也是张栋的博士生导师）的博士生，而 Samy Bengio 则是 Yoshua

Bengio 的亲弟弟。

四、背景知识

4.1 词向量

1. One-hot Representation

NLP 相关任务中最常见的第一步是创建一个词表库并把每个词顺序编号。这

实际就是词表示方法中的 One-hot Representation，这种方法把每个词顺序编号，

每个词就是一个很长的向量，向量的维度等于词表大小，只有对应位置上的数字

为 1，其他都为 0。当然在实际应用中，一般采用稀疏编码存储，主要采用词的

编号。

这种表示方法一个最大的问题是无法捕捉词与词之间的相似度，就算是近义

词也无法从词向量中看出任何关系。此外这种表示方法还容易发生维数灾难，尤

其是在 Deep Learning 相关的一些应用中。

2. Distributed Representation

Distributed representation 最早由 Hinton 在 1986 年提出

[8]

。其基本思想是

通过训练将每个词映射成 K 维实数向量（K 一般为模型中的超参数），通过词之

间的距离（比如 cosine 相似度、欧氏距离等）来判断它们之间的语义相似度。而

word2vec 使用的就是这种 Distributed representation 的词向量表示方式。

4.2 统计语言模型

传统的统计语言模型是表示语言基本单位（一般为句子）的概率分布函数，

这个概率分布也就是该语言的生成模型。一般语言模型可以使用各个词语条件概

率的形式表示：

(s) = (





󰇜 (



,



,





󰇛









Context)

其中 Context 即为上下文，根据对 Context 不同的划分方法，可以分为五大类：

（1）上下文无关模型（Context=NULL）

该模型仅仅考虑当前词本身的概率，不考虑该词所对应的上下文环境。这是

一种最简单，易于实现，但没有多大实际应用价值的统计语言模型。

󰇛



Context)=󰇛



󰇜=









这个模型不考虑任何上下文信息，仅仅依赖于训练文本中的词频统计。它是

n-gram 模型中当 n=1 的特殊情形，所以有时也称作 Unigram Model（一元文法统

计模型）。实际应用中，常被应用到一些商用语音识别系统中。

剩余22页未读，继续阅读

zhzhzhi

粉丝: 31

word2vec深度解析：将词汇映射到向量空间的实战指南

python+Word2Vec实现情感分析完整项目

Word2vec谷歌词向量

词向量word2vec

基于python实现金庸小说的word2vec词向量分析源码+数据.zip

基于word2vec词向量模型预训练的文本分类项目Python源码+项目说明+数据集.zip

NLP自然语言处理-零基础入门NLP-文本分类实验（word2vec、词袋模型、scikit-learn构造词向量、TFIDF）

基于word2vec预训练词向量； textCNN charCNN；Bi-LSTM；BERT 预训练模型的文本分类项目

基于Python的中文本关键词抽取源码(分别使用TF-IDF、TextRank、Word2Vec词聚类三种方法).zip

Deep Learning word2vec

深度学习word2vec入门详解：三层神经网络与词向量

最新资源