小样本深度学习策略：预训练模型与少样本学习

需积分: 10 121 浏览量更新于2024-09-01 收藏 619KB PDF 举报

第十三章探讨了在深度学习模型面临小样本数据挑战时的策略和局限性。首先，面对数据集规模有限的情况，一种常见的方法是迁移学习中的微调（fine-tuning）。预训练模型如ImageNet上的模型在视觉任务中表现出强大的特征表示能力，只需在新的小数据集上调整少量参数，即可获得良好的性能。自然语言处理领域也广泛应用预训练模型，如BERT，它们在小规模文本理解中展现出高效性。单样本或少样本学习（one-shot, few-shot learning）则是针对类别众多但样本稀缺的极端情况设计的，它强调学习样本间的相似性和差异性，如孪生神经网络（Siamese Neural Networks）用于判断图片是否同类。这种方法需要对样本间的关系有深入理解，而不是简单地迁移预训练的类别知识。尽管深度学习在某些特定领域如视觉和自然语言处理取得了显著成就，但它并非适用于所有数据集。深度学习的成功很大程度上依赖于大数据集和高性能计算硬件，当数据集太小或数据缺乏局部相关性时，它可能不如传统机器学习算法有效。然而，寻找比现有算法更好的算法是一个持续的研究议题。在最优化理论中，“没有免费午餐”的定律指出，没有一种通用的算法能够优于其他所有算法，因为算法的效果往往取决于问题的具体特性。这意味着对于不同的问题，可能需要针对性的算法设计，或者对现有算法进行改进。第十三章讨论了在小样本深度学习应用中所采取的方法、深度学习的适用范围限制，以及对更好算法探索的挑战。这为我们理解如何在实际场景中有效利用深度学习提供了宝贵的指导。

第十三章_优化算法.md

2020/7/27

3 / 12

在GD算法中，每次的梯度都是从所有样本中累计获取的，这种情况最容易导致梯度⽅向过于稳定⼀致，且更

新次数过少，容易陷⼊局部最优。⽽stochastic GD是GD的另⼀种极端更新⽅式，其每次都只使⽤⼀个样本进⾏

参数更新，这样更新次数⼤⼤增加也就不容易陷⼊局部最优。但引出的⼀个问题的在于其更新⽅向过多，导致

不易于进⼀步优化。Mini-Batch GD便是两种极端的折中，即每次更新使⽤⼀⼩批样本进⾏参数更新。Mini-

Batch GD是⽬前最常⽤的优化算法，严格意义上Mini-Batch GD也叫做stochastic GD，所以很多深度学习框架

上都叫做SGD。 **（2）动量 ** 动量也是GD中常⽤的⽅式之⼀，SGD的更新⽅式虽然有效，但每次只依赖于当

前批样本的梯度⽅向，这样的梯度⽅向依然很可能很随机。动量就是⽤来减少随机，增加稳定性。其思想是模

仿物理学的动量⽅式，每次更新前加⼊部分上⼀次的梯度量，这样整个梯度⽅向就不容易过于随机。⼀些常见

情况时，如上次梯度过⼤，导致进⼊局部最⼩点时，下⼀次更新能很容易借助上次的⼤梯度跳出局部最⼩点。

**（3）⾃适应学习率 **

⽆论是GD还是动量重点优化⾓度是梯度⽅向。⽽学习率则是⽤来直接控制梯度更新幅度的超参数。⾃适应学

习率的优化⽅法有很多，例如Adagrad和RMSprop。两种⾃适应学习率的⽅式稍有差异，但主要思想都是基于

历史的累计梯度去计算⼀个当前较优的学习率。

13.7 为什么需要激活函数？

（1）⾮线性：即导数不是常数。这个条件是多层神经⽹络的基础，保证多层⽹络不退化成单层线性⽹络。这也

是激活函数的意义所在。

（2）⼏乎处处可微：可微性保证了在优化中梯度的可计算性。传统的激活函数如sigmoid等满⾜处处可微。对

于分段线性函数⽐如ReLU，只满⾜⼏乎处处可微（即仅在有限个点处不可微）。对于SGD算法来说，由于⼏乎

不可能收敛到梯度接近零的位置，有限的不可微点对于优化结果不会有很⼤影响[1]。

（3）计算简单：⾮线性函数有很多。极端的说，⼀个多层神经⽹络也可以作为⼀个⾮线性函数，类似于

Network In Network[2]中把它当做卷积操作的做法。但激活函数在神经⽹络前向的计算次数与神经元的个数成

正⽐，因此简单的⾮线性函数⾃然更适合⽤作激活函数。这也是ReLU之流⽐其它使⽤Exp等操作的激活函数更

受欢迎的其中⼀个原因。

（4）⾮饱和性（saturation）：饱和指的是在某些区间梯度接近于零（即梯度消失），使得参数⽆法继续更新

的问题。最经典的例⼦是Sigmoid，它的导数在x为⽐较⼤的正值和⽐较⼩的负值时都会接近于0。更极端的例

⼦是阶跃函数，由于它在⼏乎所有位置的梯度都为0，因此处处饱和，⽆法作为激活函数。ReLU在x>0时导数恒

为1，因此对于再⼤的正值也不会饱和。但同时对于x<0，其梯度恒为0，这时候它也会出现饱和的现象（在这

种情况下通常称为dying ReLU）。Leaky ReLU[3]和PReLU[4]的提出正是为了解决这⼀问题。

（5）单调性（monotonic）：即导数符号不变。这个性质⼤部分激活函数都有，除了诸如sin、cos等。个⼈理

解，单调性使得在激活函数处的梯度⽅向不会经常改变，从⽽让训练更容易收敛。

（6）输出范围有限：有限的输出范围使得⽹络对于⼀些⽐较⼤的输⼊也会⽐较稳定，这也是为什么早期的激活

函数都以此类函数为主，如Sigmoid、TanH。但这导致了前⾯提到的梯度消失问题，⽽且强⾏让每⼀层的输出

限制到固定范围会限制其表达能⼒。因此现在这类函数仅⽤于某些需要特定输出范围的场合，⽐如概率输出

（此时loss函数中的log操作能够抵消其梯度消失的影响[1]）、LSTM⾥的gate函数。

（7）接近恒等变换（identity）：即约等于x。这样的好处是使得输出的幅值不会随着深度的增加⽽发⽣显著的

增加，从⽽使⽹络更为稳定，同时梯度也能够更容易地回传。这个与⾮线性是有点⽭盾的，因此激活函数基本

只是部分满⾜这个条件，⽐如TanH只在原点附近有线性区（在原点为0且在原点的导数为1），⽽ReLU只在x>0

时为线性。这个性质也让初始化参数范围的推导更为简单[5][4]。额外提⼀句，这种恒等变换的性质也被其他⼀

些⽹络结构设计所借鉴，⽐如CNN中的ResNet[6]和RNN中的LSTM。

剩余11页未读，继续阅读

hkd_ywg

粉丝: 5
资源: 93

小样本深度学习策略：预训练模型与少样本学习

现代优化算法pdf资料

凸优化算法英文影印版

Matlab优化算法PDF

chapter7 多种群遗传算法的函数优化算法.zip_ga_优化 遗传算法_多种群_遗传算法优

gdc2019/erincatto_dynamicbvh_full.pdf

geatpy-2.7.0-cp37-cp37m-win_amd64.whl

图 网络与算法.pdf

如何利用Matlab实现OFDM系统的信道估计以及峰均功率比(PAPR)降低？请结合《新加坡南洋理工OFDM教程：Chapter_6_OFDM_Notes.pdf概要》进行说明。

智能微电网粒子群优化算法.zip

最新资源

chapter7 多种群遗传算法的函数优化算法.zip_ga_优化遗传算法_多种群_遗传算法优

图网络与算法.pdf