深入理解RNN与LSTM：解决长期依赖问题

需积分: 0 67 浏览量更新于2024-08-04 收藏 1.2MB DOCX 举报

"2017-7-26周报-王旭1" 这篇周报主要探讨了两种类型的循环神经网络（RNN）模型，即基本的RNN和长短期记忆网络（LSTM），以及它们在处理序列数据时的能力。 RNN（Recurrent Neural Networks）是一种具有循环结构的神经网络，这种结构允许信息在时间步骤之间传递。每个时间步的RNN单元接收当前时刻的输入和上一时刻的状态，从而能够考虑先前的上下文信息。在处理如语言、音频或时间序列数据的任务时，RNN非常有用。然而，RNN存在一个问题，即当需要捕捉远距离的依赖关系时，它们可能会遭遇梯度消失或梯度爆炸问题，导致学习效率降低。为了解决这个问题，LSTM（Long Short-Term Memory Network）应运而生。LSTM的核心创新在于引入了单元状态（cell state），它是一个贯穿整个序列的“记忆通道”，允许信息无损地从序列的开始传递到结束。LSTM通过门控机制（gates）来控制单元状态中的信息流。门控包括遗忘门、输入门和输出门，它们都是基于sigmoid激活函数的层，能够输出介于0和1之间的值，用于控制信息的添加、移除和输出。遗忘门负责决定保留或丢弃单元状态中的哪些信息。输入门则控制新信息如何进入单元状态，通常先通过一个sigmoid层决定哪些新信息应该被考虑，然后通过一个tanh层生成一个新的候选状态向量。输出门则决定了根据单元状态应当输出的内容，它同样先通过sigmoid层决定输出的量，然后将经过tanh激活的单元状态与sigmoid门的输出相乘，得到最终的输出。除了标准的LSTM结构，还有对其的改进，例如窥视孔连接（peephole connections），这种连接方式允许门控层直接看到单元状态，从而更精确地控制信息流动。另一种变体是门控循环单元（Gated Recurrent Unit, GRU），它将输入门和遗忘门合并为一个单一的更新门，简化了LSTM的结构，同时在某些情况下可以达到类似的性能。 LSTM和GRU等变种通过增强RNN的能力，有效解决了长距离依赖的学习问题，提高了在序列数据建模任务中的表现，尤其在自然语言处理、语音识别和时间序列预测等领域有着广泛的应用。

一、初识 RNN(Recurrent Neural Networks)和

LSTM(Long Short-Term Memory Network)

模块 A 的循环结构使得信息从网络的上一步传到了下一步，因此 RNN 可

以被认为是相同网络的多重复制结构，每一个网络把消息传给其继承者。遇到

处理当前任务仅需要查看当前信息，目标预测的点与其相关信息的点之间的间

隔较小时，RNNs 可以学习利用过去的信息；而当需要预测的点与其相关点之

间的间隔变得很大时，由于随着间隔增长，RNNs 变得难以学习连接之间的关

系。长短时间记忆网络 LSTM 是一种特殊的 RNN，它能够学习长时间依赖。记

忆长期信息是 LSTMs 的默认行为，专门设计用来避免长期依赖问题。

LSTMs 核心思想

LSTMs 的关键在于单元（cell）状态，它就像一个传送带，顺着整个链条

从头到尾运行，中间只有少许线性的交互。信息很容易顺着它流动而保持不变

（可以当作是主线）。

下载后可阅读完整内容，剩余9页未读，立即下载

Unique先森

粉丝: 32
资源: 327

深入理解RNN与LSTM：解决长期依赖问题

麦冬多糖MDG-1对肥胖动物脂质代谢的改善作用

麦冬多糖MDG-1改善肥胖小鼠脂质代谢的代谢组学研究

山与城一期消防整改工程施工组织与安全管理策略

2017-8-27周报-王旭1

2017-8-10周报-王旭1

2017-9-24周报-王旭1

2017-9-10周报-王旭1

2017-8-20周报-王旭1

2017-8-3周报-王旭1

王旭-1190200328-HIT-ICS2021大作业报告.docx

最新资源