改进的激活函数优化循环神经网络性能

需积分: 0 114 浏览量更新于2024-08-05 收藏 974KB PDF 举报

循环神经网络（Recurrent Neural Networks, RNN）作为一种深度学习模型，因其能处理序列数据并学习长期依赖关系而备受关注。然而，RNN在实际应用中面临着梯度消失和梯度爆炸的问题，这限制了网络在长序列任务中的性能，特别是在学习长时依赖知识时，可能导致学习结果出现偏差。传统的RNN结构中，激活函数的选择和设计对其性能至关重要。本文主要针对这一挑战，分析了两种类型的激活函数对经典RNN和引入门控机制的RNN（如Long Short-Term Memory, LSTM和Gated Recurrent Unit, GRU）的影响。传统的激活函数如sigmoid和tanh在长序列中容易导致梯度消失或梯度爆炸，因为它们的导数在输入远离原点时急剧减小或增大。这使得在网络反向传播过程中，早期的信息几乎无法影响后续时间步的权重更新，从而影响了长期依赖的学习。针对这些问题，文章提出了在传统RNN基础上的改进模型，可能包括对激活函数的形式、参数调整，或者结合门机制进行优化。LSTM和GRU通过引入遗忘门、输入门和输出门等机制，分别控制信息的遗忘、输入和输出，有效地解决了梯度消失问题，提高了网络的长期记忆能力。实验部分，作者使用了经典的PTB（Penn Treebank）文本数据集和LMRD（Linguistic Moodle Repository for Sentiment Analysis）情感分类数据集来验证改进后的模型。实验结果表明，经过优化的模型在处理长序列和情感分析这类需要考虑上下文依赖的任务上，相比于传统模型有着显著的优势，其学习能力得到了明显提升。关键词：深度学习、循环神经网络、激活函数、LSTM模型、GRU模型。这些关键词总结了论文的核心研究内容，强调了改进激活函数在RNN架构中的关键作用，以及所取得的实际效果。该研究对于优化循环神经网络性能，尤其是在处理长序列问题时，提供了有价值的方法和理论支持。

计算机与现代化

2016

年第

期

JISUANJI YU XIANDAIHUA

总第

256

期

文章编号

：1006-2475（ 2016） 12-0029-05

收稿日期

：2016-09-09

基金项目

：

国家科技支撑计划项目

（ 2013BAB06B04； HNKJ13-H17-04）；

国家自然科学基金面上资助项目

（ 61272543）；

水利

部公益性行业科研专项重点项目

（ 201501007）； NSFC －

广东联合基金重点项目

（ U1301252）

作者简介

：

叶小舟

（ 1992-），

男

，

江苏南京人

，

河海大学计算机与信息学院硕士研究生

，

研究方向

：

数据挖掘

；

陶飞飞

（ 1980-），

男

，

硕士生导师

，

博士

，

研究方向

：

大数据技术

。

循环神经网络结构中激活函数的改进

叶小舟

，

陶飞飞

，

戚荣志

，

张云飞

，

周思琪

，

刘璇

（

河海大学计算机与信息学院

，

江苏南京

210098）

摘要

：

循环神经网络相比于其他深度学习网络

，

优势在于可以学习到长时依赖知识

，

但学习过程中的梯度消失和爆炸问

题严重阻碍了知识的按序传播

，

导致长时依赖知识的学习结果出现偏差

。

为此

，

已有研究主要对经典循环神经网络的结

构进行改进以解决此类问题

。

本文分析

种类型的激活函数对传统

ＲNN

和包含门机制

ＲNN

的影响

，

在传统

ＲNN

结构

的基础上提出改进后的模型

，

同时对

LSTM

和

GＲU

模型的门机制进行改进

。

以

PTB

经典文本数据集和

LMＲD

情感分类

数据集进行实验

，

结果表明改进后的模型优于传统模型

，

能够有效提升模型的学习能力

。

关键词

：

深度学习

；

循环神经网络

；

激活函数

； LSTM

模型

； GＲU

模型

中图分类号

：TP311

文献标识码

：A doi： 10． 3969 /j． issn． 1006-2475． 2016． 12． 006

Improvement on Activation Functions of Ｒecurrent Neural Network Architectures

YE Xiao-zhou，TAO Fei-fei ，QI Ｒong-zhi，ZHANG Yun-fei，ZHOU Si-qi，LIU Xuan

（ College of Computer and Information，Hohai University，Nanjing 210098，China）

Abstract：Ｒecurrent neural network has the advantage of learning long term dependencies，in contrast with other deep learning

network architectures． However，the problems of vanishing and exploding gradients seriously obstruct the transmission of informa-

tion over time，resulting in the deviation of learning long term dependencies． Hence，a great deal of studies focus on the adaption

of classical recurrent neural network architectures． In this paper，we analyse the effect of two types of activation function for basic

ＲNN and ＲNNs with gating mechanism． An improved model based on the basic ＲNN structure is proposed． The improved gating

mechanisms of LSTM model and GＲU model are proposed． Experiments on PTB classical dataset LMＲD feeling classified dataset

show that the improved models are advanced than traditional models and greatly improve the learning ability of the models．

Key words： deep learning； recurrent neural network； activation function； LSTM model； GＲU model

引言

人工神经网络是机器学习领域的一个分支

。

深

度学习源于人工神经网路

，

能更好地模拟大脑结构

，

实现认知过程逐层抽象

，

解决深度不足出现的问

题

［1］

。

深度学习分支较多

，

目前的研究热点是卷积

神经网络和循环神经网络

（Ｒecurrent Neural Net-

works，ＲNN）

［2］

。ＲNN

是一种学习能力很强的网络

系统

，

能够处理前后关联的信息

，

适用于处理时间序

列数据

，

例如语音识别

、

文本生成

、

机器翻译

、

序列预

测等

。

为了计算每层网络的误差值

，ＲNN

通常使用

时间进化反传算法

（ Back-Propagation Through Time，

BPTT）

［3］

。

但是

BPTT

无法解决长时依赖问题

，

因此

该算法会带来梯度消失和梯度爆炸问题

。

为解决梯度消失和梯度爆炸这

个问题

，

在优化

学习算法和配置网络的技巧方面

，

研究人员提出了很

多改进方法

。

在设计和构建新的网络结构方面

，Ho-

chreiter

等

［4］

在

1997

年提出了改进结构

Long Short

Term Memory（ LSTM）

来解决梯度消失的问题

。

此后

，

研究人员基于

LSTM

结构进行了大量的探索

，

比较经

典的是

Gers

等

［5-6］

在

2000

年提出了增加窥视孔连接

（ peephole connection）

和遗忘门的

LSTM

结构

。LSTM

的核心思想是门机制

，

即每个神经元内部由输入门来

决定允许有多少信息进入细胞

；

输出门用来控制输出

的信息量

；

遗忘门控制信息衰减的速率

；

记忆细胞内

存储的神经元信息可以随着时间进行传递

。

受到

下载后可阅读完整内容，剩余4页未读，立即下载

Msura

粉丝: 834
资源: 323

改进的激活函数优化循环神经网络性能

激活函数_ancientzyb_神经网络激活函数代码_

利用神经网络拟合函数_函数拟合_matlab函数拟合_神经网络拟合_利用神经网络拟合函数_matlab神经_

ann_神经网络算例_s函数_

Visio画的卷积神经网络结构图模板

MATLAB函数plane_line_intersect实现线段与平面交点计算

LSTM时序循环神经网络的Matlab实现教程

PyTorch入门：掌握RNN与LSTM循环神经网络

CNN卷积神经网络详解：流程、激活与层级结构

神经网络在函数拟合中的应用及Matlab实现

加速收敛的改进卷积神经网络：植物叶片病害高效识别

最新资源