EfficientEstimationofWordRepresentationsin_中文版.pdf

需积分: 50 49 浏览量更新于2023-03-03 评论收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

jianshu.com

NLP系列：Word2Vec原始论

文：Efficient Estimation of Word

Representations in Vector Space

55-69 分钟

2019.06.30 18:35:40字数 8897阅读 245

译者按：

2013年，Google开源了一款用于词向量计算的工具——word2vec，

引起了工业界和学术界的关注。首先，word2vec可以在百万数量级

的词典和上亿的数据集上进行高效地训练；其次，该工具得到的训练

结果——词向量（word embedding），可以很好地度量词与词之间

的相似性。随着深度学习（Deep Learning）在自然语言处理中应用

的普及，很多人误以为word2vec是一种深度学习算法。其实

word2vec算法的背后是一个浅层神经网络。另外需要强调的一点

是，word2vec是一个计算word vector的开源工具。当我们在说

word2vec算法或模型的时候，其实指的是其背后用于计算word

vector的CBoW模型和Skip-gram模型。很多人以为word2vec指的是

一个算法或模型，这也是一种谬误。

word2vec词向量是NLP自然语言处理领域当前的主力方法，本文

是 word2vec 原始论文，由google的 Mikolov 在2013年发

表， Mikolov于2013,2014,2015 连续发表了3篇Word2vec 的文章，

本文是第1篇，作者Mikolov 是

NLP系列：Word2Vec原始论文：Efficient Estimation of Word Re... about:reader?url=https://www.jianshu.com/p/4517181ca9c3

第1页共22页 2019/10/24/周四 23:26

的用于统计语言建模的n-gram模型——今天，可以对几乎所有可用的

数据（万亿字[3]）培训n-gram。然而，在许多任务中，简单的技术

都是有限的。例如，用于自动语音识别的相关域内数据的数量是有限

的——性能通常由高质量的转录语音数据（通常只有数百万个字）的

大小决定。在机器翻译中，许多语言的现有语料库只包含几十亿个单

词或更少的单词。因此，在某些情况下，简单地扩展基本技术不会导

致任何显著的进步，我们必须关注更先进的技术。随着近年来机器学

习技术的进步，在更大的数据集上训练更复杂的模型已经成为可能，

而且它们通常优于简单模型。可能最成功的概念是使用分布式的单词

表示[10]。例如，基于神经网络的语言模型明显优于N-gram模型

[1，27，17]。

1.1 论文的目标

本论文的主要目的是介绍从海量的数亿字和数亿字的数据集中学习高

质量的词汇向量的技术。据我们所知，之前提出的架构中没有一个在

2013年9月7日的1301.3781v3[cs.cl]7上成功地训练了数亿个单词，单

词向量的适度维数在50-100之间。我们使用最近提出的技术来测量

产生的向量表示的质量，期望不仅相似的词彼此接近，而且这些词可

以具有多个相似度[20]。这一点在之前的屈折语言中已经被观察到

了，例如，名词可以有多个词尾，如果我们在原始向量空间的子空间

中搜索相似的词，就可以找到具有相似词尾的词[13，14]。令人惊讶

的是，人们发现词语表达的相似性超出了简单的句法规则。使用字偏

移技术，在字向量上执行简单的代数运算，例如，矢量（“king”）-

矢量（“man”）+矢量（“woman”）产生的矢量最接近于单词queen

的矢量表示[20]。

在本文中，我们试图通过开发新的模型体系结构来最大限度地提高这

些向量运算的准确性，这种模型体系结构可以保持单词之间的线性规

律。我们设计了一个新的综合测试集来测量句法规则和语义规则1，

并表明许多这样的规则都可以被高精度地学习。此外，我们还讨论了

训练时间和准确性如何取决于单词向量的维数和训练数据的数量。

NLP系列：Word2Vec原始论文：Efficient Estimation of Word Re... about:reader?url=https://www.jianshu.com/p/4517181ca9c3

第3页共22页 2019/10/24/周四 23:26

1.2 前期工作

将单词表示为连续向量有很长的历史[10，26，8]。在[1]中，提出了

一种非常流行的神经网络语言模型（NNLM）估计模型体系结构，

该模型采用线性投影层和非线性隐层的前馈神经网络共同学习字向量

表示和统计语言模型。这项工作已被许多其他人跟踪。NNLM的另

一个有趣的体系结构出现在[13，14]中，在这里，首先使用具有单个

隐藏层的神经网络学习单词vectors。然后使用vectors这个词来训练

nnlm。因此，即使不构建完整的nnlm，也可以学习单词向量。在这

项工作中，我们直接扩展了这个体系结构，并且只关注使用简单模型

学习向量这个词的第一步。后来发现，vectors一词可用于显著改进

和简化许多NLP应用程序[4、5、29]。单词向量本身的估计是使用不

同的模型结构进行的，并在不同的语料库[4、29、23、19、9]上进

行训练，得到的一些单词向量可用于未来的研究和比较2。然而，据

我们所知，这些体系结构在训练方面的计算成本明显高于[13]中提出

的体系结构，但使用对角权重矩阵的对数双线性模型的某些版本除外

[23]。

2 模型体系结构

提出了多种不同类型的词汇连续表示模型，包括众所周知的潜在语义

分析（LSA）和潜在dirichlet分配（LDA）。在本文中，我们重点研

究了神经网络学习的单词的分布式表示，如前所述，在保持单词之间

的线性规律方面，它们的性能明显优于LSA[20，31]；此外，在大型

数据集上，LDA在计算上变得非常昂贵。与[18]类似，为了比较不同

的模型架构，我们首先将模型的计算复杂性定义为需要访问的参数数

量，以完全训练模型。接下来，我们将尝试最大化精度，同时最小化

计算复杂性。

对于以下所有模型，训练复杂度为

o=e×t×q （1）

NLP系列：Word2Vec原始论文：Efficient Estimation of Word Re... about:reader?url=https://www.jianshu.com/p/4517181ca9c3

第4页共22页 2019/10/24/周四 23:26

其中e是训练周期的个数，t是训练集中的单词个数，q是为每个模型

体系结构进一步定义的。常见的选择是E=3-50，T高达10亿。所有

模型都使用随机梯度下降和反向传播进行训练[26]。

2.1 前馈神经网络语言模型（NNLM）

在[1]中提出了概率前馈神经网络语言模型。它由输入层、投影层、

隐藏层和输出层组成。在输入层，前n个单词使用1/v编码（即 one

hot ：译者按），其中v是词汇表的大小。然后使用共享投影矩阵将

输入层投影到尺寸为N×D的投影层P上。由于只有n个输入是每个给

定时间的活动，因此项目部分的组合是相对的堆操作。由于投影层中

的值很密集，NNLM结构在投影层和隐藏层之间的计算变得复杂。

对于n=10的常见选择，投影层（p）的大小可能为500到2000，而

隐藏层大小h通常为500到1000个单位。此外，隐藏层用于计算词汇

表中所有单词的概率分布，从而生成具有维数V的输出层。因此，每

个训练示例的计算复杂性是

Q = N × D + N × D × H + H × V (2)

其中主项为h×v。但是，为了避免出现这种情况，我们提出了几种实

用的解决方案：要么使用SoftMax的分层版本[25、23、18]，要么使

用培训期间未标准化的模型完全避免标准化模型[4、9]。使用词汇表

的二叉树表示，需要评估的输出单元的数量可以下降到大约

log2（v）。因此，大多数复杂性是由术语n×d×h引起的。在我们的

模型中，我们使用层次结构的SoftMax，其中词汇表表示为一个哈夫

曼二叉树。这是根据之前的观察得出的，单词的频率对于在神经网络

语言模型中获取类很有效[16]。哈夫曼树将短二进制代码分配给频繁

使用的字，这进一步减少了需要评估的输出单元的数量：虽然平衡二

进制树需要评估log2（v）输出，但是基于哈夫曼树的分层Softmax

只需要大约log2（unigram困惑y（v））。例如，当词汇大小为一百

万个单词时，这会导致评估速度加快两倍。虽然这对于神经网络

LMS来说不是关键的加速，因为计算瓶颈在n×d×h项中，我们稍后

NLP系列：Word2Vec原始论文：Efficient Estimation of Word Re... about:reader?url=https://www.jianshu.com/p/4517181ca9c3

第5页共22页 2019/10/24/周四 23:26

剩余21页未读，继续阅读

小城三三

粉丝: 2
资源: 12

会员权益专享

Efficient Estimation of Word Representations in_中文版.pdf

评论0

会员权益专享

最新资源

Efficient Estimation of Word Representations in_中文版.pdf

评论0

词向量-开山之作1-Efficient estimation of word representations in vector space.pdf

Mikolov 等。 - 2013 - Efficient Estimation of Word Representations

Content-Aware_Unsupervised_Deep_Homography_Estimation_and_Its_Extensions.pdf

A_micro_Lie_theory_for_state_estimation_in_robotics.pdf

帮我总结一下iDAR_Data_for_the_Estimation_of_Canopy_Heights_and_Wood_Vol

使用C++写一个pcl1.8.1可以运行的三维最小生成树算法，要求输入的点云数据为“D：\DIANYUNWENJIANJIA\\test2_ply.ply”输出为“D：\\DIANYUNWENJIANJIA\\test3_ply.ply”

Word2Vec 论文名称

mediapipe识别3 种不同的人体静态姿态（站、坐、躺）python

iDAR_Data_for_the_Estimation_of_Canopy_Heights_and_Wood_Vol论文在讲什么

ts.policy.DQNPolicy(net, optim, discount_factor=0.9, estimation_step=estimation_step, target_update_freq=320)的DQN执行过程是怎样的

policy = ts.policy.DQNPolicy(net, optim, discount_factor=0.9, estimation_step=estimation_step, target_update_freq=320)的各个参数是什么意思

qt 点云包围盒处理之后得到包围盒中心点的坐标的c

帮我写一个pcl1.8.1可以运行的3维霍夫变换拟合直线的代码，输入的是"D:\\DIANYUNWENJIANJIA\\test4_ply.ply"输出的是"D:\\DIANYUNWENJIANJIA\\test5_ply.ply"

请使用PCL1.7.0和Eigen3.0算法库，并使用用PPF方法在简单的装捡环境中估计无纹理工件位姿，请提供详细的c++代码

会员权益专享

最新资源