TensorFlow实现Word2vec Skip-Gram模型实战教程

需积分: 0 91 浏览量更新于2024-08-05 收藏 2.5MB PDF 举报

Word2vec是一种流行的词嵌入技术，它通过将单词映射到低维向量空间来捕捉词汇之间的语义和语法关系。在这个系列教程的实现篇中，我们将深入理解Skip-Gram模型，这是一种Word2Vec的变体，其核心思想是预测一个中心词周围的上下文词。首先，让我们回顾一下Skip-Gram模型的基本概念。在Skip-Gram模型中，给定一个中心词（target word），模型的目标是学习到能够准确预测这个词周围上下文词的概率分布。这个过程是双向的，既可以是正向预测（中心词->上下文词），也可以是反向预测（上下文词->中心词）。这使得模型能够捕获词汇之间的复杂关系，例如近义词和反义词。 TensorFlow是一个强大的开源机器学习库，被广泛用于深度学习项目，包括Word2Vec模型的实现。作者天雨粟利用Python 3和TensorFlow 1.0版本，结合其他数据处理工具，来构建一个基础的Skip-Gram模型。他们选择使用经过预处理的英文维基百科文章作为训练数据，这确保了数据的质量和规模，尽管相比gensim这样的专门库，这个自定义实现可能在训练效率和结果准确性上有所不足，但它非常适合新手用来实践和理解模型的工作原理。文章分为四个主要部分： 1. 数据预处理：这是任何机器学习项目的基础，包括文本清洗、分词、去除停用词等步骤，目的是将文本转化为模型可以处理的数值表示。 2. 训练样本构建：根据预处理后的数据，构建输入和输出样本对，这些样本用于训练模型。在Skip-Gram模型中，样本可能包括中心词及其前后固定数量的上下文词。 3. 模型构建与训练：使用TensorFlow构建神经网络架构，通常包括一个词嵌入层（如密集矩阵）和一个或多个全连接层，然后通过负采样或其他技术优化损失函数，以最小化预测上下文词概率的负对数似然。 4. 结果分析与验证：训练完成后，评估模型的效果，如计算相似度分数来检查模型是否成功捕捉到了词汇间的语义关系，或者通过实际应用（如文本分类）来验证模型的实际性能。通过这个实践过程，读者不仅可以掌握Skip-Gram模型的实现细节，还能深入了解如何调整超参数、优化策略和模型性能评估。对于想要深入了解Word2Vec和深度学习入门者来说，这是一个非常有价值的学习资源。

2018/11/21 一文详解 Word2vec 之 Skip-Gram 模型（实现篇） | 雷锋网

https://www.leiphone.com/news/201706/QprrvzsrZCl4S2lw.html 3/11

整个文本中单词大约为1660万的规模，词典大小为6万左右，这个规模对于训练好的词向量其实是不够

的，但可以训练出一个稍微还可以的模型。

2 训练样本构建

我们知道skip-gram中，训练样本的形式是(input word, output word)，其中output word是input

word的上下文。为了减少模型噪音并加速训练速度，我们在构造batch之前要对样本进行采样，剔除停用

词等噪音因素。

采样

在建模过程中，训练文本中会出现很多“the”、“a”之类的常用词（也叫停用词），这些词对于我们的

训练会带来很多噪音。在上一篇Word2Vec中提过对样本进行抽样，剔除高频的停用词来减少模型的噪

音，并加速训练。

我们采用以下公式来计算每个单词被删除的概率大小：

其中 f(w

) 代表单词 w

的出现频次。t为一个阈值，一般介于1e-3到1e-5之间。

上面的代码计算了样本中每个单词被删除的概率，并基于概率进行了采样，现在我们手里就拿到了采样过

的单词列表。

构造batch

我们先来分析一下skip-gram的样本格式。skip-gram不同于CBOW，CBOW是基于上下文预测当前

input word。而skip-gram则是基于一个input word来预测上下文，因此一个input word会对应多个上

下文。我们来举个栗子“The quick brown fox jumps over lazy dog”，如果我们固定skip_window=2

的话，那么fox的上下文就是[quick, brown, jumps, over]，如果我们的batch_size=1的话，那么实际上

一个batch中有四个训练样本。

上面的分析转换为代码就是两个步骤，第一个是找到每个input word的上下文，第二个就是基于上下文

构建batch。

首先是找到input word的上下文单词列表：

我们定义了一个get_targets函数，接收一个单词索引号，基于这个索引号去查找单词表中对应的上下文

（默认window_size=5）。请注意这里有一个小trick，我在实际选择input word上下文时，使用的窗口

剩余10页未读，继续阅读

MurcielagoS

粉丝: 20
资源: 319

TensorFlow实现Word2vec Skip-Gram模型实战教程

一文详解 Word2vec 之 Skip-Gram 模型（训练篇） _ 雷锋网1

一文详解 Word2vec 之 Skip-Gram 模型

深入浅出Word2Vec之Skip-Gram模型原理

深入理解Word2Vec：skip-gram模型详解

解决词相似度问题：深入理解Word2Vec与Skip-Gram模型

word2vec 训练skip-gram模型

word2vec Skip-Gram模型的简单实现

Pytorch实现实现word2vec中的CBOW和Skip-gram模型

Word2vec Skip-Gram模型高效训练策略详解

Python实现Word2Vec Skip-Gram模型及神经网络应用

最新资源