深度学习正则化：L2与L1范数惩罚

需积分: 0 89 浏览量更新于2024-07-01 收藏 905KB PDF 举报

"这篇内容主要讨论了深度学习中的正则化技术，特别是L2和L1正则化。正则化的主要目标是降低模型的泛化误差，防止过拟合。文章介绍了如何在目标函数中添加参数范数惩罚，并详细阐述了L2正则化（权重衰减）和L1正则化的概念、计算方法以及它们在反向传播过程中的应用。" 深度学习中的正则化是提高模型性能的关键技术之一，其主要目的是通过约束模型的复杂度来降低泛化误差，避免过拟合现象。正则化通常通过在原始代价函数上添加一个参数惩罚项来实现，使得模型在学习数据时不会过于复杂。在给定的例子中，介绍了添加L2正则化的代价函数形式。L2正则化，也称为权重衰减，通过在损失函数上加上权重矩阵的 Frobenius 范数平方的1/2倍来实现，常数λ作为正则化系数。这会导致权重向量在每次梯度下降迭代时向原点收缩，从而限制了模型的复杂度。在神经网络的交叉熵代价函数基础上加入L2正则化，会得到一个额外的项，这个项是所有权重矩阵元素平方和的1/2倍再除以样本数量m。在反向传播过程中，L2正则化的梯度是正则化项的λ倍权重矩阵，这意味着权重更新不仅受到原始损失函数梯度的影响，还会受到权重矩阵自身的值影响，导致权重向更小的值移动。除了L2正则化，还提到了L1正则化。与L2正则化不同，L1正则化惩罚项是权重的绝对值之和，这通常会导致模型的某些权重变为0，从而实现特征选择的效果，即稀疏解。L1正则化在处理高维数据时特别有用，因为它可以自动去除不重要的特征，降低模型复杂度。正则化是通过调整模型参数的约束来平衡训练误差和泛化误差之间的关系。L2正则化倾向于产生较小但非零的权重，而L1正则化可能会产生许多为零的权重。选择哪种正则化取决于具体任务的需求，例如，如果希望模型具有解释性，L1正则化可能更为合适；如果关注的是整体性能，L2正则化可能更常见。在实际应用中，还可以结合L1和L2正则化，形成Elastic Net正则化，以同时获得稀疏性和模型稳定性。

深度学习：深度学习中的正则化朱明超

N = 20000 # 取 20000 条数据用以训练

indices = np.random.permutation(range(X_train.shape[0]))[:N]

X_train, y_train = X_train[indices], y_train[indices]

print(X_train.shape, y_train.shape)

X_train /= 255

X_train = (X_train - 0.5) * 2

X_test /= 255

X_test = (X_test - 0.5) * 2

(60000, 784) (60000, 10)

(20000, 784) (20000, 10)

[7]: """

不引入正则化

"""

model = DFN(hidden_dims_1=200, hidden_dims_2=10)

model.fit(X_train, y_train, n_epochs=20, batch_size=64)

[Epoch 1] Avg. loss: 2.286 Delta: inf (0.01m/epoch)

[Epoch 2] Avg. loss: 2.209 Delta: 0.078 (0.01m/epoch)

[Epoch 3] Avg. loss: 1.993 Delta: 0.215 (0.01m/epoch)

[Epoch 4] Avg. loss: 1.640 Delta: 0.353 (0.01m/epoch)

[Epoch 5] Avg. loss: 1.305 Delta: 0.335 (0.01m/epoch)

[Epoch 6] Avg. loss: 1.063 Delta: 0.242 (0.01m/epoch)

[Epoch 7] Avg. loss: 0.898 Delta: 0.166 (0.01m/epoch)

[Epoch 8] Avg. loss: 0.781 Delta: 0.117 (0.01m/epoch)

[Epoch 9] Avg. loss: 0.696 Delta: 0.085 (0.01m/epoch)

[Epoch 10] Avg. loss: 0.634 Delta: 0.062 (0.01m/epoch)

[Epoch 11] Avg. loss: 0.586 Delta: 0.048 (0.01m/epoch)

[Epoch 12] Avg. loss: 0.549 Delta: 0.037 (0.01m/epoch)

[Epoch 13] Avg. loss: 0.518 Delta: 0.031 (0.02m/epoch)

[Epoch 14] Avg. loss: 0.493 Delta: 0.025 (0.02m/epoch)

[Epoch 15] Avg. loss: 0.473 Delta: 0.021 (0.01m/epoch)

[Epoch 16] Avg. loss: 0.454 Delta: 0.018 (0.01m/epoch)

[Epoch 17] Avg. loss: 0.439 Delta: 0.015 (0.01m/epoch)

[Epoch 18] Avg. loss: 0.425 Delta: 0.014 (0.01m/epoch)

[Epoch 19] Avg. loss: 0.414 Delta: 0.012 (0.01m/epoch)

[Epoch 20] Avg. loss: 0.404 Delta: 0.010 (0.01m/epoch)

[8]: print("without regularization -- accuracy:{}".format(model.evaluate(X_test, y_test)))

###### if show params ######

# print("regular", model.hyperparams["regular"], "\nparams:", model.hyperparams["components"])

without regularization -- accuracy:0.8961

[9]: """

引入 l2 正则化

"""

model_re = DFN(hidden_dims_1=200, hidden_dims_2=10, regular_act="l2(lambd=0.01)")

model_re.fit(X_train, y_train, n_epochs=20)

[Epoch 1] Avg. loss: 2.363 Delta: inf (0.02m/epoch)

[Epoch 2] Avg. loss: 2.284 Delta: 0.079 (0.02m/epoch)

[Epoch 3] Avg. loss: 2.068 Delta: 0.216 (0.02m/epoch)

[Epoch 4] Avg. loss: 1.729 Delta: 0.339 (0.02m/epoch)

[Epoch 5] Avg. loss: 1.428 Delta: 0.301 (0.02m/epoch)

[Epoch 6] Avg. loss: 1.226 Delta: 0.202 (0.02m/epoch)

[Epoch 7] Avg. loss: 1.096 Delta: 0.130 (0.02m/epoch)

[Epoch 8] Avg. loss: 1.013 Delta: 0.083 (0.02m/epoch)

[Epoch 9] Avg. loss: 0.958 Delta: 0.055 (0.02m/epoch)

深度学习：深度学习中的正则化朱明超

[Epoch 10] Avg. loss: 0.923 Delta: 0.035 (0.01m/epoch)

[Epoch 11] Avg. loss: 0.899 Delta: 0.024 (0.01m/epoch)

[Epoch 12] Avg. loss: 0.883 Delta: 0.016 (0.01m/epoch)

[Epoch 13] Avg. loss: 0.872 Delta: 0.011 (0.01m/epoch)

[Epoch 14] Avg. loss: 0.865 Delta: 0.007 (0.01m/epoch)

[Epoch 15] Avg. loss: 0.860 Delta: 0.004 (0.01m/epoch)

[Epoch 16] Avg. loss: 0.858 Delta: 0.002 (0.01m/epoch)

[Epoch 17] Avg. loss: 0.858 Delta: 0.001 (0.01m/epoch)

[Epoch 18] Avg. loss: 0.858 Delta: -0.000 (0.02m/epoch)

[Epoch 19] Avg. loss: 0.859 Delta: -0.001 (0.01m/epoch)

[Epoch 20] Avg. loss: 0.860 Delta: -0.001 (0.01m/epoch)

[10]: print("with L2 regularization -- accuracy:{}".format(model_re.evaluate(X_test, y_test)))

###### if show params ######

# print("regular", model_re.hyperparams["regular"], "\nparams:", model_re.hyperparams["components"])

with L2 regularization -- accuracy:0.8958

1.3 总结

相比 L

正则化，L

正则化会产生更稀疏的解。

假设 w

∗

为未正则化的⽬标函数取得最优时的权重向量，并假设原⽬标函数有⼆阶导，将 J(w) 在 w

∗

处⼆阶泰勒展开 (最优值点⼀阶导数为 0)：

J(w) ≈ J(w

∗

) +

(w −w

∗

)

⊤

H(w −w

∗

) (13)

其中 H 是 J(w) 在 w

∗

处的海森矩阵。J(w) 最⼩时满⾜上式导数为 0，于是：

∇J(w) = H(w − w

∗

) = 0 (14)

我们再考虑 L

正则化条件下，Ω(θ) = α

∥w∥

，则可以得到：

∇J(w) = H(w − w

∗

) + αw = 0 (15)

于是，我们可以得到新的最优解

w 满⾜：

w = (H + αI)

−1

∗

(16)

如果考 Hessian 矩阵是对⾓正定矩阵，我们得到 L

正则化的最优解是 ˜w

i,i

+α

∗

。如果 w

∗

= 0，则 ˜w

= 0，这说明 L

正则化不会使参数变

得稀疏。

我们再看 L

正则化的最优解，同样，我们得到考虑 L

正则化条件下的最优解，此时需要满⾜：

∇J(

w) = H(

w −w

∗

) + αsgn(

w) = 0 (17)

为了简化讨论，我们假设 H 为对⾓阵，即 H = diag[H

1,1

, H

2,2

, ...H

n,n

], H

i,i

> 0 ( 可以⽤ PCA 预处理输⼊特征得到)，此时

˜w

= w

∗

−

i,i

sgn( ˜w

) (18)

从这个式⼦也可以明显看出

和

∗

是同号的。所以有：

˜w

= w

∗

−

i,i

sgn(w

∗

) = sgn(w

∗

)



∗

| −

i,i



(19)

同样，既然

w 和 w

∗

是同号的，两边同乘 sgn(

w)，得到：

∗

| −

i,i

= | ˜w

| ≥ 0 (20)

于是刚才的式⼦可以进⼀步写为：

˜w

= sgn(w

∗

) max



∗

| −

i,i

, 0



(21)

可以看出，L

正则化有可能通过⾜够⼤的 α 实现稀疏。

• 正则化策略可以被解释为最⼤后验 (MAP) 贝叶斯推断。(详细内容见第五章)

– L

正则化相当于权重是高斯先验的 MAP 贝叶斯推断；

– L

正则化相当于权重是 Laplace 先验的 MAP 贝叶斯推断。

剩余40页未读，继续阅读

扈涧盛

粉丝: 32
资源: 319

深度学习正则化：L2与L1范数惩罚

深度学习500问-Tan-15第十五章 正则化1

3.正则化1

3-机器学习系列（3）：提高深度学习性能之 --正则化及python实现1

深度学习中正则化的代码

深度学习的正则化探索：L2正则化应用与效果评估

深度学习的正则化 Regularization for Deep Learning

深度学习模型L1正则化跟L2正则化

基于深度学习的正则化矩阵分解推荐系统.pdf

深度学习中的正则化技术：Dropout与L1_L2正则化

深度学习中的正则化技术

最新资源

深度学习500问-Tan-15第十五章正则化1