Word2vec Skip-Gram模型高效训练策略详解

需积分: 0 142 浏览量更新于2024-08-05 收藏 903KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Word2vec是一种流行的词嵌入技术，它通过神经网络学习单词的分布式表示，使得计算机能够理解单词之间的语义关系。在这个系列教程的第二部分——训练篇，我们将重点讨论Skip-Gram模型的训练策略，这是Word2vec的核心组成部分。首先，Skip-Gram模型不同于传统的词袋模型，它关注的是在一个上下文窗口内的中心词（target word）与周围的所有其他词（context words）之间的关系。这要求模型能够捕捉到单词组合的意义，如“Boston Globe”作为一个整体词组，而不是简单地将其拆分成两个独立的单词。为了应对大规模词汇表带来的挑战，Word2vec的作者提出了两个关键改进措施： 1. 单词组合处理：作者将频繁出现的词对或短语视为一个独立的“word”，这样可以减少训练样本的数量。这样做有助于减少模型参数的数目，提高训练效率。例如，“New York”和“United States”这样的词组被看作单个词处理，这样可以更好地捕捉它们的联合意义。 2. 负采样（Negative Sampling）：传统的梯度下降需要计算所有训练样本的影响，这对于大规模数据集来说代价极高。负采样则通过随机选择一部分负样本（那些与目标词不相关的词），仅更新与这些负样本相关的权重，显著降低了计算负担。这种方法在保持模型性能的同时，大大加快了训练速度。通过对常用词抽样和采用负采样，Word2Vec的训练过程变得更加高效，同时还能保证词向量的质量。这种优化不仅在理论上简化了计算，还在实践中证明了其在实际应用中的有效性，使得在处理大规模文本数据时，模型的训练变得可行且高效。总结来说，Skip-Gram模型的训练篇深入探讨了如何处理复杂的词对组合和如何通过负采样技术优化大规模神经网络的训练。这一系列教程旨在帮助读者理解并掌握Word2vec模型的训练技巧，从而在自然语言处理任务中更好地利用词向量表示。后续部分将继续关注模型的实现细节，敬请关注。

资源详情

资源推荐

2018/11/21 一文详解 Word2vec 之 Skip-Gram 模型（训练篇） | 雷锋网
https://www.leiphone.com/news/201706/eV8j3Nu8SMqGBnQB.html 1/6
读懂智能&未来
AI开发 正文
雷锋网按：这是一个关于 Skip-Gram 模型的系列教程，依次分为结构、训练和实现三个部分，本文为第
二部分：训练篇，最后一部分我们将随后发布，敬请期待。原文作者天雨粟，原载于作者知乎专栏，雷锋
网已获授权。
第一部分我们了解skip-gram的输入层、隐层、输出层。在第二部分，会继续深入讲如何在skip-gram模
型上进行高效的训练。
在第一部分讲解完成后，我们会发现Word2Vec模型是一个超级大的神经网络（权重矩阵规模非常大）。
举个栗子，我们拥有10000个单词的词汇表，我们如果想嵌入300维的词向量，那么我们的输入-隐层权重
矩阵和隐层-输出层的权重矩阵都会有 10000 x 300 = 300万个权重，在如此庞大的神经网络中进行梯度
下降是相当慢的。更糟糕的是，你需要大量的训练数据来调整这些权重并且避免过拟合。百万数量级的权
重矩阵和亿万数量级的训练样本意味着训练这个模型将会是个灾难（太凶残了）。
Word2Vec 的作者在它的第二篇论文中强调了这些问题，下面是作者在第二篇论文中的三个创新：
1. 将常见的单词组合（word pairs）或者词组作为单个“words”来处理。
2. 对高频次单词进行抽样来减少训练样本的个数。
3. 对优化目标采用“negative sampling”方法，这样每个训练样本的训练只会更新一小部分的
模型权重，从而降低计算负担。
事实证明，对常用词抽样并且对优化目标采用“negative sampling”不仅降低了训练过程中的计算负
担，还提高了训练的词向量的质量。
Word pairs and "phases"
论文的作者指出，一些单词组合（或者词组）的含义和拆开以后具有完全不同的意义。比如“Boston
Globe”是一种报刊的名字，而单独的“Boston”和“Globe”这样单个的单词却表达不出这样的含义。
因此，在文章中只要出现“Boston Globe”，我们就应该把它作为一个单独的词来生成其词向量，而不
是将其拆开。同样的例子还有“New York”，“United Stated”等。
申请专栏作者
AI研习社
编辑
聚焦数据科学，连接AI开发
者。
发私信
当月热门文章
猿桌会 | 人机交互技术探索
职播间 | 自然语言处理中的多任
学习 & 复旦大学NLP实验室介绍
大讲堂 | 深度强化学习在电商推
中的应用
猿桌会 | 阅读理解进阶三部曲—
关键知识、模型性能提升、产品
落地
20:00大讲堂 | 机器学习在百度
人岗匹配中的应用
最新文章
清华大学韩旭：神经关系抽取
型 | AI研习社71期大讲堂
吸引 7198 支队伍参赛，看
Kaggle 信用预估比赛冠军方
首页 AI研习社 AI影响因子 活动 专题 精选 爱搞机
业界 人工智能 智能驾驶 AI+ Fintech&区块链 未来医疗 网络安全 AR/VR
机器人 开发者 智能硬件 物联网 GAI
一文详解 Word2vec 之 Skip-Gram 模型（训练篇）
本文作者：AI研习社 2017-06-23 10:34
导语：这可能是关于 Skip-Gram 模型最详细的讲解。
0