词嵌入技术：从Word2Vec到Glove

需积分: 0 74 浏览量更新于2024-08-05 收藏 9.59MB PDF 举报

"本文介绍了词嵌入技术，特别是Word2Vec和GloVe两种方法，以及相关的相似性计算和学习过程。" 在自然语言处理中，词嵌入（Word Embeddings）是一种将词汇转换为实数值向量的方法，使得词汇间的语义关系能够被数学化地表达。传统的词表示方法如独热编码（One-hot Encoding）虽然可以唯一标识每个词，但忽略了词与词之间的关联性。词嵌入则通过学习词的分布式表示，将每个词映射到一个低维向量空间，使得语义相近的词在空间中距离较近。其中，Word2Vec是一种广泛应用的词嵌入模型，由两种主要的训练方法组成：CBOW（Continuous Bag of Words）和Skip-gram。CBOW模型通过预测上下文词来学习词的嵌入，而Skip-gram则是反过来，预测目标词给定其上下文。在Skip-gram中，有几种上下文的选择策略，例如取目标词前面或后面的4个词，或者只使用最后一个词，或者采用N-gram模型选择更广泛的上下文。 GloVe（Global Vectors for Word Representation）是另一种词嵌入技术，它结合了统计共现矩阵的线性代数特性与神经网络的学习能力。GloVe的目标是最大化词汇共现矩阵的对数似然，从而捕捉词与词之间的全局统计信息。相比于Word2Vec，GloVe更注重词汇的全局共现统计，适合大规模语料库的训练。在评估词嵌入的效果时，常常会使用相似性函数，比如余弦相似度和欧氏距离。余弦相似度衡量两个向量在高维空间中的夹角，而欧氏距离则计算它们的直线距离。这些相似性度量常用于寻找词与词之间的语义关系，例如找出“man”到“king”的关系与“woman”到“queen”的关系。学习词嵌入的过程通常涉及构建嵌入矩阵（Embedding Matrix），矩阵的每一列代表一个词的向量表示。例如，如果字典长度为10000，而“Orange”的索引是6257，那么矩阵的第6257列就是“Orange”的词嵌入向量。训练过程中，可以通过梯度下降等优化方法更新这个矩阵，以提升预测输出词的能力。在实际应用中，预训练的词嵌入可以迁移到较小的数据集上进行微调（fine-tuning），以适应特定任务的需求。同时，词嵌入的性质使其能够捕获词义的细微差异，这对于自然语言理解和生成等任务非常有价值。

⼀

词

表示

Word

representation

字典

独

热

码

表示法

缺点

没有

包括

词

与

词

的

关系

独

热

码

词

与

词

间

相互

正交

特征

化

表示

饲

嵌⼊

⽤

⼀

个

词

的

各项

特征

来

表示

⼀

个

词

Embedding

可

使

迁移

学

习

更

易

进⾏

使⽤

⼤量

语料

来

学习

Embeddings

将

Embedding

迁移

到

较

⼩

的

训练

集

可

选

使⽤

新

的

训练

集

来

fine

tune

Embedding

的

性质

①

可

进⾏

来

些

Man

woman

King

寻找

eman

ewoman

算法

寻找

词

wig

similarity

eking_em

ante

woman

义

相似性

函数

相似性

函数

余弦

相似度

simcu

以

⼆

品

个

以

实际

⼻

野

量

的

是

两

向量

的

余弦

值

②

欧⼏⾥德

距离

平⽅

距离

⽐

以

衡量

的

是

不

相似性

学习

Embedding

学习

嵌⼊

矩阵

Embedding

Matrix

特

aaron

Zulu

对于

单个

词

Orange

06257

独

㦖

码

数

字典

⻓度

10000

则

06257

叫

提取

出

了

Orange

的

Embedding

⼆

9257

下载后可阅读完整内容，剩余3页未读，立即下载

焦虑肇事者

粉丝: 1154

词嵌入技术：从Word2Vec到Glove

Analogies Explained_Towards Understanding Word Embeddings 词嵌入1

Visually_Grounded_Word_Embeddings

Intro_to_Word_Embeddings：在这个项目中，我使用词嵌入来揭示词的词法语义。 我还使用LSTM来预测电影评论的情绪

topical_word_embeddings, 主题词嵌入的演示代码.zip

蔡氏电路matlab仿真代码-topical_word_embeddings:主题词嵌入

pretrained_word_embeddings.py例子

social_network_diffusion_embeddings:学习社交网络嵌入以预测信息扩散-WSDM 2014

词嵌入（Word Embeddings）在机器翻译中的优化与选择

翻译以下代码。。embedding_layer = bert_model.get_layer('embeddings') encoder_layer = bert_model.get_layer('encoder')

最新资源

Intro_to_Word_Embeddings：在这个项目中，我使用词嵌入来揭示词的词法语义。我还使用LSTM来预测电影评论的情绪