word2vec原理解析：Hierarchical Softmax 模型深入

需积分: 24 119 浏览量更新于2024-09-09 收藏 631KB PDF 举报

"这篇博客文章主要探讨了word2vec模型中的Hierarchical Softmax改进方法，这是word2vec的两种优化策略之一，另一种是Negative Sampling。文章作者是刘建平Pinard，他是一位有着丰富经验的码农，对数学、统计学、数据挖掘、机器学习以及大数据相关领域有深厚的兴趣和实践经验。在word2vec的基础模型中，通常包含输入层（词向量）、隐藏层和输出层（Softmax层）。传统模型的问题在于输出层的计算复杂度高，需要计算所有词汇的概率并找出最大概率的词。为了解决这个问题，word2vec提出了Hierarchical Softmax的策略。 Hierarchical Softmax是一种二叉树结构，它将词汇表的每个词映射到二叉树的不同叶子节点。在训练过程中，预测目标词不再是通过计算所有词汇的概率，而是沿着二叉树路径进行一系列的二分类决策，直到到达目标词的叶子节点。这种方法显著减少了计算量，特别是对于词汇表很大的情况。具体来说，word2vec在输入层到隐藏层的转换上做了简化，不再使用神经网络的线性变换和激活函数，而是取输入词向量的平均值作为新的词向量表示。例如，如果有三个4维词向量，它们的平均值就是新词向量。这种做法减少了计算复杂度，并保持了词向量的语义信息。从隐藏层到输出层的改进，word2vec采用了Hierarchical Softmax结构，使得每次预测只需要处理与目标词相关的部分，而非所有词汇。这样极大地提高了计算效率，尤其是在大规模词汇表的场景下。 Hierarchical Softmax是word2vec提高训练速度和效率的重要手段，它通过构建树形结构来近似计算概率，降低了全词汇表的计算复杂度。这使得word2vec能够在处理大量词汇的情况下，快速有效地学习到高质量的词向量，为后续的自然语言处理任务提供了强大的预训练特征。在下一篇文章中，作者将继续介绍word2vec的另一种改进策略——Negative Sampling，这是另一种降低计算复杂度的有效方法。"

2018/12/18 word2vec原理(二) 基于Hierarchical Softmax的模型 - 刘建平Pinard - 博客园

http://www.cnblogs.com/pinard/p/7243513.html 1/10

刘建平Pinard刘建平Pinard

刘建平Pinard

十年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用十年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用

十年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用

开发，大数据可视化感兴趣。开发，大数据可视化感兴趣。

开发，大数据可视化感兴趣。

word2vec原理(二) 基于Hierarchical Softmax的模型

word2vec原理(一) CBOW与Skip-Gram模型基础

word2vec原理(二) 基于Hierarchical Softmax的模型

word2vec原理(三) 基于Negative Sampling的模型

在word2vec原理(一) CBOW与Skip-Gram模型基础中，我们讲到了使用神经网络的方法来得到词向量语言模型的原

理和一些问题，现在我们开始关注word2vec的语言模型如何改进传统的神经网络的方法。由于word2vec有两种改进方法，一

种是基于Hierarchical Softmax的，另一种是基于Negative Sampling的。本文关注于基于Hierarchical Softmax的改进方

法，在下一篇讨论基于Negative Sampling的改进方法。

1. 基于Hierarchical Softmax的模型概述

我们先回顾下传统的神经网络词向量语言模型，里面一般有三层，输入层（词向量），隐藏层和输出层（softmax

层）。里面最大的问题在于从隐藏层到输出的softmax层的计算量很大，因为要计算所有词的softmax概率，再去找概率最大

的值。这个模型如下图所示。其中是词汇表的大小，

word2vec对这个模型做了改进，首先，对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的

方法，而是采用简单的对所有输入词向量求和并取平均的方法。比如输入的是三个4维词向量：

,那么我们word2vec映射后的词向量就是。由于这里是从多个词向量变

成了一个词向量。

第二个改进就是从隐藏层到输出的softmax层这里的计算量个改进。为了避免要计算所有词的softmax概率，

word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射。我们在上一节已经介绍了霍夫曼树的原理。如何映射

呢？这里就是理解word2vec的关键所在了。

由于我们把之前所有都要计算的从输出softmax层的概率计算变成了一颗二叉霍夫曼树，那么我们的softmax概率计

算只需要沿着树形结构进行就可以了。如下图所示，我们可以沿着霍夫曼树从根节点一直走到我们的叶子节点的词。

和之前的神经网络语言模型相比，我们的霍夫曼树的所有内部节点就类似之前神经网络隐藏层的神经元,其中，根节点

的词向量对应我们的投影后的词向量，而所有叶子节点就类似于之前神经网络softmax输出层的神经元，叶子节点的个数就是

词汇表的大小。在霍夫曼树中，隐藏层到输出层的softmax映射不是一下子完成的，而是沿着霍夫曼树一步步完成的，因此这

种softmax取名为"Hierarchical Softmax"。

公告

★珠江追梦，饮岭南茶，恋鄂北家★

昵称：刘建平Pinard

园龄：2年2个月

粉丝：2818

关注：15

+加关注

随笔分类(121)

0040. 数学统计学(4)

0081. 机器学习(69)

0082. 深度学习(11)

0083. 自然语言处理(23)

0084. 强化学习(12)

0121. 大数据挖掘(1)

0122. 大数据平台(1)

随笔档案(121)

2018年11月 (1)

2018年10月 (3)

2018年9月 (3)

2018年8月 (4)

2018年7月 (3)

2018年6月 (3)

2018年5月 (3)

2017年8月 (1)

2017年7月 (3)

2017年6月 (8)

2017年5月 (7)

2017年4月 (5)

2017年3月 (10)

2017年2月 (7)

2017年1月 (13)

2016年12月 (17)

2016年11月 (22)

2016年10月 (8)

常去的机器学习网站

52 NLP

Analytics Vidhya

机器学习库

机器学习路线图

强化学习入门书

深度学习进阶书

深度学习入门书

积分与排名

积分 - 368322

排名 - 537

博客园博客园

博客园

首页首页

首页

新随笔新随笔

新随笔

联系联系

联系

订阅订阅

管理管理

管理

(1, 2, 3, 4), (9, 6, 11, 8), (5, 10, 7, 12) (5, 6, 7, 8)

下载后可阅读完整内容，剩余3页未读，立即下载

Gavin_xxx

粉丝: 1
资源: 4

word2vec原理解析：Hierarchical Softmax 模型深入

word2vec 中的数学原理详解PDF版.pdf

word2vec中的数学原理详解

Google word2vec算法 数学原理

Word2Vec原理与实践

word2vec原理(三)

word2vec原理(一)

word2vec原理

lecture5_1-word2vec原理1

word2vec数学原理

word2vec 数学原理

最新资源

Google word2vec算法数学原理