深度学习迁移知识：卷积神经网络预训练策略

80 浏览量更新于2024-08-31 收藏 354KB PDF 举报

卷积神经网络（CNN）是深度学习领域的重要组成部分，尤其在图像识别、计算机视觉任务中表现出色。然而，当面临有限的标记样本时，深层CNN容易出现过拟合和梯度弥散问题，这限制了模型的泛化能力和学习效率。过拟合是指模型在训练数据上表现良好，但在未见过的数据上性能下降的现象，通常由于模型过于复杂或训练数据不足导致。而梯度弥散则是深度网络中常见的问题，随着网络层次加深，梯度信息逐渐减弱，导致网络的权重更新变得极其缓慢，影响学习过程。针对这些问题，本文提出了利用知识迁移的训练策略。知识迁移，也称为迁移学习，是一种利用已在一个任务（源任务）中学习到的知识来改进另一个任务（目标任务）的学习效率的方法。在此策略中，知识包括两部分：源模型的样本类别分布和低层特征。样本类别分布的迁移可以提供类间的相关信息，这些信息有助于扩大训练集的监督范围，弥补标记样本不足带来的问题。通过引入类别分布，模型可以更好地理解不同类别之间的关系，从而降低过拟合的风险。源模型的低层特征，如边缘、纹理等局部信息，在相关任务中具有通用性。在目标模型中预训练时使用这些特征，可以帮助模型跳过局部最小值，更有效地探索权重空间，减少陷入次优解的概率。预训练阶段的目的是使目标模型初始权重更加合理，为其后续的微调阶段打下坚实基础。微调是指在预训练模型的基础上，使用真实标记的样本对模型进行进一步的训练，以适应特定任务的需求。通过微调，模型可以针对目标任务进行精细化调整，提高在目标数据集上的性能。实验结果显示，该知识迁移策略能有效增强模型的抗过拟合能力，并提高预测精度。这种方法不仅有助于解决小样本问题，还能提升深层CNN的训练效率，对于实际应用具有重要意义。特别是在资源有限的环境中，这种训练策略能够发挥出更大的优势。总结来说，本文提出的卷积神经网络训练策略通过知识迁移，结合样本类别分布和低层特征，优化了模型的预训练和微调过程，从而减少了过拟合和梯度弥散的影响，提高了模型的泛化能力和预测准确性。这一策略对于深度学习研究和实践具有重要的参考价值。

第 34卷第 3期控制与决策 Vol.34 No.3

2019年 3月 Control and Decision Mar. 2019

文章编号: 1001-0920(2019)03-0511-08 DOI: 10.13195/j.kzyjc.2017.1183

一种利用知识迁移的卷积神经网络训练策略

罗可, 周安众

†

, 罗潇

(长沙理工大学计算机与通信工程学院，长沙 410114)

摘要: 针对深层卷积神经网络在有限标记样本下训练时存在的过拟合和梯度弥散问题, 提出一种从源模型中

迁移知识训练一个深层目标模型的策略. 迁移的知识包括样本的类别分布和源模型的低层特征, 类别分布提供了

样本的类间相关信息, 扩展了训练集的监督信息, 可以缓解样本不足的问题; 低层特征包含样本的局部特征, 在相

关任务的迁移过程中具有一般性, 可以使目标模型跳出局部最小值区域. 利用这两部分知识对目标模型进行预训

练, 能够使模型收敛到较好的位置, 之后再用真实标记样本进行微调. 实验结果表明, 所提方法能够增强模型的抗

过拟合能力,并提升预测精度.

关键词: 卷积神经网络；知识迁移；过拟合；梯度弥散；预训练；微调

中图分类号: TP181 文献标志码: A

Convolutional neural network training strategy using knowledge transfer

LUO Ke, ZHOU An-zhong

†

, LUO Xiao

(College of Computer and Communication Engineering，Changsha University of Science and Technology，Changsha

410114，China)

Abstract: To overcome the overﬁtting and gradient vanishing of deep convolutional neural networks trained under limited

labeled samples, a strategy is proposed to transfer knowledge from a source model to a deep target model. The transferred

knowledge includes class distribution of the samples and low-level features of the source model. The class distribution

provides class-related information about the samples, which extends the supervised informations of the training set to

alleviate the problem of inadequate samples. The low-level feature contains the local characteristics of the samples, which

is general in the process of transfer knowledge, and can make the target model jump out of the local minimum value area.

Then, the two parts of knowledge are applied to the pre-training target model to make the model converge to a better

position, and real labeled samples are used for ﬁne-tuning. The experimental results show that the proposed method can

both improve the anti overﬁtting ability of the model and prediction accuracy.

Keywords: convolutional neural network；knowledge transfer；overﬁtting；gradient vanishing；pre-training；ﬁne-tuning

0 引 󲿑

深度神经网络提供了一个由低层到高层的逐层

特征提取框架, 在计算机视觉领域取得了极大的成

功. 尤其在图像分类任务中, 采用深层结构的卷积神

经网络 (Convolutional neural network, CNN)

[1]

的效果

大大超越了传统方法. 然而, CNN训练时对大量标记

样本的过度依赖一直是它的一个缺陷. 因为 CNN 拥

有大量待优化的参数, 训练时若样本不足, 极易产生

过拟合现象. 为此, 研究者们提出了众多正则化方法,

如L2正则化

[2]

、Dropout

[3]

等,试图通过对参数加以限

制达到优化网络的目的, 虽然取得了一定成效, 但是

不能从根本上解决样本数量缺少的问题. 为了得到

更多样本, Bucila等

[4]

通过筛选标记样本的特征来合

成具有同类特征分布的训练样本,但此方法在大数据

集中的代价过大. 在特定领域中, CNN的卷积层提取

了样本相似的特征,这些特征在不同的任务中具有一

般性, 只要改变用于分类的全连接层, 并保留特征提

取模块的参数, 最后使用少量样本微调 (Fine-tuning)

即可用于其他相关任务

[5]

. 该方法虽然降低了对样本

的需求, 但限制了模型结构, 不同的任务只能更改作

为分类器的全连接层,作为特征提取部分的卷积层无

法修改.

收稿日期: 2017-09-10；修回日期: 2017-12-18.

基金项目: 国家自然科学基金项目 (11671125, 71371065, 51707013).

责任编委: 柴利.

作者简介: 罗可 (1961−), 男, 教授, 博士, 从事数据挖掘、计算机应用等研究；周安众 (1986−), 男, 硕士生, 从事数据

挖掘、人工智能的研究.

†

通讯作者. E-mail: sprite4@163.com.

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38526612

粉丝: 7
资源: 892

深度学习迁移知识：卷积神经网络预训练策略

面向人脸表情识别的迁移卷积神经网络研究.pdf

使用迁移学习加速卷积神经网络的训练过程

卷积神经网络,卷积神经网络原理,Python源码.zip

tensorflow迁移学习,将一个数据集上训练好的卷积神经网络模型快速迁移到另外一个数据集上达到93%正确率

基于迁移学习和卷积神经网络的控制图识别.pdf

基于迁移学习深度卷积神经网络的配电网故障区域定位.pdf

基于卷积神经网络和迁移学习的癫痫状态识别.pdf

提升人脸姿态分类准确率：基于迁移学习的卷积神经网络方法

卷积神经网络的迁移学习实践

卷积神经网络中的迁移学习

最新资源