混合梯度下降与MILP的深度神经网络高效训练策略

PDF格式 | 577KB | 更新于2025-01-16 | 124 浏览量 | 举报

本文主要探讨了一种创新的深度神经网络训练算法，结合了先进的梯度下降（GD）技术和混合线性规划（MILP）求解器，命名为GDSolver。GDSolver旨在解决深度学习训练中的两个关键问题：局部最优性和资源效率。首先，作者们注意到传统的梯度下降方法，尽管在处理各种DNN架构和大规模模型上表现出色，但在寻找全局最优解时存在局限性。GD缺乏明确区分局部最小值和全局最小值的能力，可能导致模型陷入局部最优区域，从而影响性能和泛化能力。为了解决这个问题，GDSolver采用了混合策略：在GD的基础上，当模型接近局部最小值时，会引入MILP求解器进行全局优化。 GDSolver的工作流程是这样的：首先使用GD对深度神经网络进行部分训练，一旦遇到局部最优，就切换到MILP求解器进行细致搜索，然后回到GD进行迭代，直至达到预设的精度标准。这种方法的优势在于，不仅能够处理更大规模的数据集和模型，而且在提升模型准确性的同时，显示出更高的数据效率和更快的收敛速度。在实验部分，研究者对比了GDSolver与其他GD变体和经典方法在回归任务（如MNIST和CIFAR10）上的表现。结果显示，GDSolver在回归任务中平均降低了48%的时间内31.5%的均方误差（MSE），而在分类任务上，它在相同的训练数据下，能够实现最高精度，相比于GD基线，只需要50%的数据就能达到相同效果。这表明GDSolver在保持高性能的同时，显著提高了训练效率。总结来说，GDSolver通过巧妙融合梯度下降和混合线性规划，为深度神经网络的训练提供了一种有效且高效的新方法，特别是在面对大规模数据和复杂模型时，其表现超越了常规的梯度下降技术，有望推动深度学习领域的进一步发展。

+v：mala2277获取更多论

文

一种求解器+梯度下降的深度神经网络训练算法

Dhananjay Ashok

，Vineel Nagisetty

，Christopher Srinivasa

和Vijay Ganesh

1加拿大

多伦多大学2加拿大滑铁

卢大学3加拿大Borealis AI

dhananjay. mail.utoronto.ca

，

vijay. uwaterloo.ca

， {

vineel.nagisetty

，

christopher.srinivasa

}

@ borealis.ai

摘要

我们提出了一种用于训练深度神经网络的新型混合算

法，该算法将最先进的梯度下降（

）方法与混合线

性规划（

MILP

）求解器相结合，在准确性以及回归和

分类任务的资源和数据效率方面优于GD和变体我们的

GD+Solver混合算法（称为GDSolver ）的工作原理如

下：给定DNND作为输入，GDSolver调用GD来部分训

练

，

直到它陷入局部最小值，此时

GDSolver

调用

MILP求解器来彻底搜索D重复该过程，直到达到所需的

精度。在我们的实验中，我们发现GD-Solver不仅可以

很好地扩展到额外的数据和非常大的模型大小，而且在

收敛速度和数据效率方面优于所有其他竞争方法。对于

回归任务，GDSolver生成的模型平均在48%的时间内具

有

31.5%

的

MSE

降低，对于

MNIST

和

CIFAR10

上的分类

任务，GDSolver能够在所有竞争方法中实现最高的准确

性，仅使用

基线所需的

50%

的训练数据

介绍

在过去的几年里，大量的研究已经进入了训练深度神

经网络（DNN）的算法，然而，梯度下降（GD）及其

变体仍然是DNN训练的主要方法（Ruder2016）。这种

情况的主要原因是基于GD的训练方法可以轻松处理各

种DNN架构，并且在训练非常大的DNN时具有高度可

扩展性，从而以相对较小的计算工作量实现高精度

话虽如此，尽管它们取得了令人难以置信的成功，

但基于GD的方法

确实存在一些明显的弱点。首先，

GD和变体从根本上缺乏区分局部和全局最小值的能

力，因此可能陷入局部最小值，导致次优的性能、泛

化。第二，有些情况下，

[1]

虽然目前有各种

方法，但我们专注于提供最佳准确

性的方法，最具可扩展性，以及截至本文撰写时使用最广泛

的方法。

GD和变体遭受差的数据效率，即，获得合理精度所需

的数据量可能非常高。最后，近年来，研究人员已经

能够证明DNN存在安全性，信任和鲁棒性问题，例

如，对抗性攻击（ P apernot et al.2016），并且训练

DNN 遵守某些约束是非常可取的（ Verma et

al.2019）。不幸的是，GD及其变体既不能提供任何担

保，也不能直接处理通常在安全和再责任规范的上下

文中出现的高度不可微的

所有这些弱点都表明有相当大的改进空间，迫切需

要重新搜索新的DNN训练算法。考虑到GD及其变体的

上述问题，研究人员提出了基于混合线性规划

（MILP）求解器的训练方法（ Icarte et al. 2019 年）

等。这些方法的优点在于，它们可以保证最优性，可

以提醒用户注意不可微的问题，并处理高度不可微的

约束，例如安全规范中出现的约束，这些约束可能会

添加到优化约束集（Gupte等人，2013）。不幸的是，

基于求解器的方法存在过度拟合训练数据和相对于正

在训练的网络的大小的非常差的可扩展性的显著问

题。

虽然已经尝试用优化器来增强基于GD的方法（例

如，Adam）和学习速率调度技术来克服经常重复的陷

入局部最小值的问题，但它们在本质上确实具有启发

性，即，它们不提供它们已经达到全局最小值的任何

从实际的角度来看，也许更重要的是，这种额外的优

化器也会遭受相对较差的数据效率。

为了解决这些问题，我们为DNN提供了一种新的混

合训练算法，称为GDSolver，基于GD和MILP求解器

的组合（特别是我们使用最先进的Guidelines MILP求

解器（Pedroso2011））。给定DNN D和训练数据集S

作为输入，GDSolver最初调用GD使用S训练D

，

直到

它陷入局部最小值（这可以使用各种方法检测到），

此时GDSolver然后调用MILP优化求解器来彻底搜索当

前权重分配周围的损失景观区域，以

隧道

arXiv

：

2207.03264v1 [cs.LG] 2022

年

下载后可阅读完整内容，剩余6页未读，立即下载

cpongm

粉丝: 6

混合梯度下降与MILP的深度神经网络高效训练策略

matlab_MLP采用梯度下降算法进行训练

训练BP神经网络：采用动量梯度下降算法训练BP网络，训练样本,matlab源码.zip

一种基于混合梯度下降算法的模糊神经网络设计及应用

神经网络进行分类，分别使用梯度下降法和遗传算法.zip

蚁群算法训练神经网络

基于混合深度神经网络的基因遗传变体致病性注释.pdf

涵盖线性回归, 逻辑回归, 神经网络, 核方法, 贝叶斯判别器, EM算法, 集成方法, 聚类方法, 降维方法等.zip

【深度探索优化算法】：损失函数与梯度下降的黄金搭配

非线性规划计算方法：优化算法与问题求解技巧

深度学习中的优化算法：Python实现梯度下降的多种变体

最新资源