统一随机梯度与拟牛顿方法:大规模优化的高效之路

需积分: 0 0 下载量 16 浏览量 更新于2024-08-26 收藏 894KB PDF 举报
本文档探讨了一种结合随机梯度法(Stochastic Gradient Descent, SGD)与拟牛顿方法优势的新型大型规模优化算法。作者Jascha Sohl-Dickstein、Ben Poole和Surya Ganguli提出了一种创新方法,旨在提升大规模机器学习中的模型训练效率。他们提出的算法主要目标是整合SGD的计算效率,特别是其在处理大量数据时的并行性和在线更新能力,同时引入拟牛顿方法中对二阶导数信息的利用,以实现更精确的局部曲率估计。 传统上,SGD通过迭代地评估单个样本或小批量数据来更新模型参数,这使得它在大规模数据集上非常适用,但可能牺牲了全局优化的准确性。另一方面,拟牛顿方法如BFGS(Broyden-Fletcher-Goldfarb-Shanno)利用Hessian矩阵的近似,能够在每次迭代中提供更精细的局部调整,但计算成本较高且可能不适用于大规模数据。 该新算法的核心在于为每个构成目标函数的部分(如损失函数的加权和)独立维护一个Hessian矩阵的近似。这些近似被存储在一个共享、随时间演化且维度较低的子空间中,这有助于保持算法的计算效率,并降低内存需求,即使在高维优化问题中也是如此。每次更新步骤仅需评估一个贡献函数或一小批数据,类似于SGD。此外,该算法利用一个近似的逆Hessian进行权重更新,减少了通常拟牛顿方法中对超参数调整的需求,从而简化了整个优化过程。 与早期的随机二阶优化方法相比,这个新算法在兼顾速度和精度的同时,提供了更好的灵活性和扩展性。它能够在大型深度学习任务中展现出强大的性能,特别是在训练深度神经网络时,能够减少训练时间和内存开销,提高模型收敛速度和最终性能。这项工作为解决现代大规模机器学习中的优化挑战提供了一种有效的解决方案。