深度学习模型压缩：Optimal Brain Damage (OBD) 方法 - CSDN文库

深度学习模型

需积分: 19 134 浏览量更新于2024-09-06 收藏 1.08MB PDF 举报

"Optimal Brain Damage (OBD) 是一种由 Yann LeCun 在1989年提出的神经网络压缩方法，旨在通过删除不重要的权重来减小深度学习模型的规模，从而提高泛化能力、减少训练样本需求、加速学习和分类速度。这种方法基于二阶导数信息，在网络复杂度和训练集误差之间进行权衡，以找到最佳的模型简化策略。OBD技术可以作为自动网络最小化工具，也可以用于指导更优网络架构的设计。它适用于处理复杂问题且训练数据有限的场景。在深度学习模型中，过大的网络容易导致过拟合，对泛化性能造成负面影响，而权重过少的网络则可能导致无法准确表达数据。OBD通过平衡训练误差和网络复杂性，寻找最佳的泛化性能。这通常涉及最小化由训练错误和网络复杂性度量组成的联合成本函数。尽管统计推断领域提出多种复杂性度量，如Vapnik-Chervonenkis维度和描述长度，但OBD简单地采用了非零自由参数的数量作为复杂性度量标准。 OBD的基本步骤包括首先训练一个充分的网络，然后利用二阶导数（如Hessian矩阵）的信息来识别并删除对网络性能影响较小的权重。实验结果证实了OBD在实际应用中的有效性，展示了其在减少网络规模的同时保持或提高性能的能力。这种技术为深度学习模型的压缩和优化提供了理论基础，对后来的深度学习模型压缩方法如剪枝、量化和知识蒸馏等产生了深远影响。"

Optimal Brain Damage

摘要

我们利用信息理论的思想，推导出了一类实用的、近似最优的神经网络尺寸自适应方

案。通过从网络中删除不重要的权重，可以预期会有几个改进:更好的泛化、更少的训练示

例、更快的学习和/或分类速度。其基本思想是利用二阶导数信息在网络复杂度和训练集误

差之间进行权衡。实验证实了该方法在实际应用中的有效性。

1. 介绍

神经网络学习在现实问题中的大多数成功应用都是通过使用相当大的高度结构化网络

实现的[例如，Waibel, 1989;LeCun 等，1990)]。随着应用程序变得越来越复杂，网络可能会

变得更大、更结构化。需要设计工具和技术来比较不同的体系结构和最小化网络大小。更重

要的是，随着系统参数数量的增加，可能会出现过拟合问题，对泛化性能产生毁灭性的影响。

我们介绍了一种新技术，称为最佳脑损伤(OBD)，通过选择性地删除权重来减小学习网络的

大小。我们证明 OBD 既可以作为一个自动网络最小化过程，也可以作为一个交互工具来建

议更好的架构。

OBD 的基本思想是，取一个完全合理的网络，删除一半(或更多)权重，最终得到一个工

作得和 OBD 一样好或更好的网络是可能的。它可以应用于必须解决复杂问题，并且系统必

须优化利用有限数量的训练数据的情况。从理论可知(Denker et al.， 1987;鲍姆和豪斯勒，

1989;Solla 等人(1990)和经验(Le Cun, 1989)认为，对于固定数量的训练数据，权重过大的网络

不能很好地推广。另一方面。权重太少的网络将没有足够的能力准确地表示数据。通过对训

练误差和网络复杂度的权衡，得到了最佳的泛化效果。

达到这一折衷的一种技术是最小化由两项组成的成本函数:普通的训练错误，加上网络

复杂性的某种度量。统计推断文献[参见(Akaike, 1986;Rissanen 1989;以及 NN 文献(Rumelhart,

1988;Chauvin, 1989;汉森和普拉特，1989 年;莫泽和斯莫伦斯基，1989)

已经提出了各种复杂性度量，包括 Vapnik-Chervonenkis维度(Vapnik和 Chervonenkis, 1971)

和描述长度(Rissanen, 1989)。一个历史悠久(虽然不精确)的复杂性度量方法就是简单地使用

非零自由参数的数量，这是我们在本文中选择使用的度量方法(但是参见(Denker, Le Cun and

Solla, 1990))。使用自由参数而不是连接，因为在受约束的网络中，几个连接可以由一个参数

控制。

在大多数情况下，在统计推理文献中，有一些先验或启发式信息规定了应该删除参数的

顺序;例如，在多项式族中，平滑性启发式可能要求首先删除高阶项。然而，在神经网络中，

参数删除的顺序并不明显。

一个简单的策略是删除“显著性”较小的参数，即删除对训练误差影响最小的参数。在

其他条件相同的情况下，小幅度参数的显著性最小，因此合理的初始策略是训练网络，按顺

序删除小幅度参数。删除后，对网络进行再培训。当然，这个过程可以迭代;在极限情况下，

它减少到训练中持续的重量衰减(使用小幅度参数不成比例的快速衰减)。事实上，一些网络

最小化方案已经使用非比例权重衰减实现(Rumelhart, 1988;Chauvin, 1989;或者“门系数”

(Mozer and Smolensky, 1989)。据报道，泛化性能在研究了一些小问题后显著提高。这些技术

的两个缺点是，它们需要对“剪枝”系数进行微调，以避免灾难性的影响，而且学习过程显

下载后可阅读完整内容，剩余4页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

IT0524

粉丝: 0

大学生入口

最新资源

服务超时,请刷新页面重试

服务超时,请刷新页面重试