数值计算：梯度下降法与上溢下溢处理

需积分: 0 128 浏览量更新于2024-08-05 收藏 111KB PDF 举报

数值计算在现代IT领域中占据重要地位，特别是在机器学习和深度学习中，它涉及到数据处理、算法优化以及数值稳定性问题。本文主要关注两个关键概念：上溢和下溢，以及优化方法中的梯度下降法。首先，上溢和下溢是数值计算中常见的问题。下溢（Underflow）发生在计算机对非常接近零的数进行运算时，由于有限精度的表示可能会将其错误地四舍五入为零，导致数值过小而无法正确表示。例如，当我们用Python的`numpy`库计算softmax函数时，如果输入数值过大（如`x=np.array([1e7,1e8,2e5,2e7])`），会因为指数函数的快速膨胀引发上溢，输出结果全为`nan`。解决上溢问题的一种常见策略是将输入减去最大值，然后重新归一化。另一方面，下溢则是由于负数值的指数运算可能导致的结果过小，同样可能导致数值表示错误。如`x=np.array([-1e10,-1e9,-2e10,-1e10])`时，原始softmax计算会得到全是`nan`的结果。通过减去最大值并进行指数运算后，虽然解决了下溢问题，但仍然需要对softmax函数进行修正，引入logsoftmax函数来避免这种问题，如定义`def logsoftmax(x)`，它将输入减去最大值并取对数，从而得到稳定的概率估计。接着，文章重点讨论了梯度下降法（Gradient Descent），这是一种常用的优化算法，用于寻找函数最小值。梯度下降法针对的是具有多个输入变量的函数`f: R^n → R`，其目标是沿着函数梯度的反方向更新输入，逐步接近局部最优解。具体步骤是，每次迭代更新点`x'`为当前点`x`减去学习率乘以梯度，即`x' = x - learning_rate * ∇f(x)`。这个过程反复进行直到达到预设的停止条件，如达到一定的迭代次数或者梯度变得足够小。在实际应用中，梯度下降法有多种变体，如批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）和小批量梯度下降（Mini-batch Gradient Descent），每种方法根据计算效率和准确性权衡。此外，还有更先进的优化算法如牛顿法、拟牛顿法等，它们通过考虑二阶导数信息，能更快收敛到局部最优解。数值计算在机器学习中的核心作用不容忽视，尤其是在处理大规模数据和复杂模型时，理解和掌握上溢、下溢的处理技巧以及优化方法至关重要。梯度下降法作为基础优化手段，为许多现代算法提供了基石，而理解其背后的数学原理和调整参数的方法，是提升算法性能的关键。

数值计算

朱明超

Email: deityrayleigh@gmail.com

Github: github.com/MingchaoZhu/DeepLearning

1 上溢和下溢

下溢（Underflow）：当接近零的数被四舍五⼊为零时发⽣下溢。

上溢（Overflow）：当⼤量级的数被近似为 ∞ 或 −∞ 时发⽣上溢。

必须对上溢和下溢进⾏数值稳定的⼀个例⼦是 softmax 函数。softmax 函数经常⽤于预测与范畴分布相关联的概率，定义为:

softmax(x)

exp(x

)

∑

j=1

exp(x

)

(1)

[1]: import numpy as np

import numpy.linalg as la

[2]: x = np.array([1e7, 1e8, 2e5, 2e7])

y = np.exp(x)/sum(np.exp(x))

print("上溢：", y)

x = x - np.max(x) # 减去最大值

y = np.exp(x)/sum(np.exp(x))

print("上溢处理：", y)

上溢： [nan nan nan nan]

上溢处理： [0. 1. 0. 0.]

[3]: x = np.array([-1e10, -1e9, -2e10, -1e10])

y = np.exp(x)/sum(np.exp(x))

print("下溢：", y)

x = x - np.max(x) # 减去最大值

y = np.exp(x)/sum(np.exp(x))

print("下溢处理：", y)

print("log softmax(x):", np.log(y))

# 对 log softmax 下溢的处理：

def logsoftmax(x):

y = x - np.log(sum(np.exp(x)))

return y

print("logsoftmax(x):", logsoftmax(x))

下溢： [nan nan nan nan]

下溢处理： [0. 1. 0. 0.]

log softmax(x): [-inf 0. -inf -inf]

logsoftmax(x): [-9.0e+09 0.0e+00 -1.9e+10 -9.0e+09]

2 优化方法

2.1 梯度下降法

梯度下降法 (Gradient Descent) 或最速下降法 (Method of Steepest Descent) 的⽬标函数是最⼩化具有多维输⼊的函数：f : R

→ R。梯度下

降法建议新的点为：

′

= x − ϵ∇

f(x)

(2)

其中 ϵ 为学习率 (learning rate)，是⼀个确定步长⼤⼩的正标量。

下载后可阅读完整内容，剩余3页未读，立即下载

大禹倒杯茶

粉丝: 23
资源: 331

数值计算：梯度下降法与上溢下溢处理

张军-数值计算

数值计算方法答案 1-7章

现代数值计算方法 现代数值计算方法

数值计算大作业报告_数值计算报告_

数值计算方法

数值计算方法 英文

数值计算方法MATLAB

实用数值计算方法-4-曲线拟合方法-1.ppt

数值积分 数值计算方法实验 数值方法实验

CHAP4.zip_matlab计算_数值计算方法_计算方法_计算方法 matlab_计算方法_matlab

最新资源

现代数值计算方法现代数值计算方法

数值计算方法英文

数值积分数值计算方法实验数值方法实验