预训练模型解析：ELMO的作用与原理

需积分: 0 87 浏览量更新于2024-08-05 收藏 1.18MB PDF 举报

"初识预训练模型：elmo1 - 关于自然语言处理中的ELMO模型介绍" 在自然语言处理（NLP）领域，预训练模型已经成为理解和处理文本的关键技术。ELMo（Embeddings from Language Models）是这些模型中的一种，它由LSTM（长短期记忆网络）为基础构建，主要解决的是词的多义性问题，这是NLP中的一个核心挑战。 ELMo这个名字的全称是“来自语言模型的嵌入”。在预训练阶段，ELMo通过训练一个前向和后向的语言模型，最大化句子中每个词的上下文依赖概率，从而获得丰富的语义表示。这个过程是在大量无监督数据上进行的，目的是从大规模文本中提取通用的语义信息，用作下游任务的初始参数，帮助模型更快地收敛，减少过拟合的风险。与传统的词嵌入模型如word2vec相比，ELMo的一大优势在于它考虑了词的上下文信息。在word2vec中，每个词的向量是静态的，不随上下文变化。然而，ELMo为每个词在不同的上下文中生成不同的向量表示，这是因为ELMo利用了LSTM的特性，LSTM能够捕获序列数据中的长期依赖关系，从而更好地理解词语在句子中的实际含义。具体来说，ELMo使用两层双向LSTM，前向LSTM从左向右处理文本，而后向LSTM从右向左处理。这样，每个词的表示不仅包含了左侧的上下文信息，也包含了右侧的信息。在预训练过程中，每个词的表示是通过结合这两部分上下文信息动态生成的。这种动态的表示使得ELMo在处理诸如“包袱”或“Apple”这类具有多义性的词时，可以根据上下文提供不同的解释，比如“包袱”可以指喜剧中的笑料，也可以指实物包裹。预训练完成后，ELMo的模型参数会被用于各种下游任务，如情感分析、命名实体识别、机器翻译等。用户可以根据任务需求，将ELMo的输出作为额外的特征加入到模型中，而不是直接微调整个ELMo模型，这也是为什么ELMo被分类为“基于特征的Pre-Training”。总结来说，ELMo的引入是为了解决NLP中的关键问题——词的多义性，通过上下文感知的词嵌入，它提高了模型理解文本的能力，尤其在处理复杂的语义场景时表现优秀。与word2vec等传统方法相比，ELMo的上下文敏感性使其在许多NLP任务中表现出色，为自然语言理解和生成带来了显著的提升。

初识预训练模型：elmo

Ⅰ. 什么是ELMO

ELMo(Embeddingsfrom Language Models) 是语义表示模型之⼀。以LSTM为基本单元，

在预训练阶段通过最⼤化前后向语⾔模型的对数似然，得到通⽤的语义表示；在下游任务中，将

通⽤的语义表示作为Feature使⽤。

Ⅱ. 为什么需要ELMO

NLP的作⽤，就是帮助计算机理解并处理⾃然语⾔。但计算机并不能直接处理⾃然语⾔，这

就需要我们把⾃然语⾔转为计算机可以“理解”的表示；如第⼀章节第⼀课所讲，词典ID映射、

one-hot、word2vec，包括这节的ELMO等都是这样的作⽤。

有同学会问了，为什么有了word2vec还需要ELMO呢？我们思考⼀个问题，word2vec可以

解决⼀词多义的问题吗？答案是NO，因为同⼀个词经过训练后的word2vec得到的词向量是固定

的，不管它的上下⽂是什么。⽽NLP的⼀个核⼼问题就是如何学习不同语境下的语义表示，所以

ELMO就应运⽽⽣了。

Ⅲ. ELMO的原理

Ⅲ.Ⅰ LSTM

详⻅前置课程

Ⅲ.Ⅱ 预训练阶段

预训练是为了从⼤量的⽆监督数据中获取通⽤的语义信息，为下游任务(模型)提供了⼀个效

果更好的初始化参数并加速收敛，以避免在⼩数据集上过拟合。

和⼤家熟知的bert⼀样，elmo也属于预训练模型家族的⼀员，只不过根据使⽤⽅式⼀般把

elmo归为“基于特征的Pre-Training”，⽽把bert归为“基于Fine-tuning的Pre-Training”。

图2展示了预训练过程，elmo采⽤双层双向LSTM，其中E1采⽤的是token embedding或者

char-base的卷积，在Ⅳ⼩节中我们会同时实现这两种表示并进⾏融合；图中左侧的前向双层

#包袱

脱口秀大赛里处处都是包袱，太逗了

她手里抱着一个小红包袱，步履轻易的朝我走来

#Apple

OneAppleADayKeep Doctor Away.

Mr.LeisaidXiaomiwenttothesamecompaniesthatmadethemetallic-fram

edAppleiPhonetoseewhattheycoulddoforhim.

下载后可阅读完整内容，剩余3页未读，立即下载

KateZeng

粉丝: 24
资源: 330

预训练模型解析：ELMO的作用与原理

NLP进入预训练模型时代：从word2vec,ELMo到BERT.pdf

自然语言处理-基于预训练模型的方法-笔记

预训练语言模型对比：ELMO、GPT与BERT解析

NLP进入预训练模型时代：从word2vec,ELMo到BERT.rar

腾讯TEGNLP中文预训练模型：探索与应用实践

多语言预训练模型：MLQA项目实战与游戏出海挑战

预训练语言模型探索：从ELMo到BERT

深度学习面试必备：语言预训练模型解析（ELMO、GPT）

预训练技术：语言模型与自然语言处理的革命

NLP预训练模型解析：Bert与上下文语义

最新资源