李晓 等/神经网络自编码器算法在癌症信息学研究中的应用
☏:010-64807509 :cjb@im.ac.cn
2395
图 1 自编码器基本结构
Fig. 1 The structure of autoencoder.
自编码器的应用流程如图 2 所示,可以概括
为以下几个步骤:(1) 数据集的构建,既可以选
择序列数据,也可以选择图像数据,还可以整合
不同形式的数据;(2) 数据预处理,主要是脏数
据清洗和缺失值填补;(3) 根据构造的数据集及
对训练结果的要求,选择相应的自编码器模型;
(4) 训练模型,通过调节网络参数来达到预期的
性能;(5) 提取特征空间 Z,进 行 后 续 的 研 究 ,如
分类、聚类、生存分析、通路识别、基因富集分析
等。研究人员针对自编码器不同的应用方向、数据
特点及优化目标,发展了不同的自编码器模型。
1.1 栈式自编码器
为了避免自编码器层数加深而带来的“梯度消
失”、“梯度爆炸”等问题,2007 年 Bengio 等
[8]
根据
“逐层初始化” (Layer-wise pre-training) 的思想,
提出了栈式自编码器 (Stacked autoencoder,SAE)。
其方法是通过逐层非监督的预训练来初始化深度
网络的参数,预训练完毕后,最后再对整个网络
进行微调。
栈式自编码器具有强大的表达能力及深度神
经网络的所有优点。在科研实践中,它最多的应
用是与其他自编码器结合,构成栈式降噪自编码
器或栈式稀疏自编码器等,在加深网络结构的同
时又能获得很好的特征表示。
1.2 正则自编码器
衡量一个自编码器性能的很重要的一个标准
是模型对输入数据在一定程度下的扰动是否具有
鲁棒性,这导致了正则自编码器 (Regularized
autoencoder) 的出现,并产生了两种不同但都有
效的正则化方法
[9]
:一种办法是在输入中引入随
机噪声,基于这种思想,Vincent 等
[10]
提出了降噪
自编码器 (Denoising autoencoder,DAE);另一种
图 2 自编码器的基本应用流程
Fig. 2 Overview of the workflow of autoencoder.