深度学习实战：过拟合、欠拟合与正则化（Datawhale Day3）

131 浏览量更新于2024-08-30 收藏 1.1MB PDF 举报

在Datawhale《动手学深度学习》(二)的第三天，课程重点讨论了深度学习中的关键概念和实践问题，即过拟合与欠拟合及其解决方案。这部分内容首先介绍了训练误差（training error）和泛化误差（generalization error），这两个指标分别是模型在训练数据和未知数据上的表现评估。训练误差是衡量模型在训练集上的性能，而泛化误差则是预测新样本的能力，通常通过测试集误差来估算。课程中通过实例演示了如何计算这两者，如使用平方损失函数（如线性回归）或交叉熵损失函数（如softmax回归）。此外，还讲解了K折交叉验证方法，这种方法将数据集划分为K个互不重叠的部分，每次用其中一部分作为验证集，其余作为训练集，以此来评估模型的一致性和泛化能力。过拟合和欠拟合是深度学习中常见的问题。欠拟合表现为模型无法在训练数据上达到低误差，可能由于数据不足或模型复杂度过低；过拟合则指模型在训练集上表现优秀但泛化能力差，常发生在数据量较少且模型过于复杂的情况下。解决这些问题的方法之一是正则化，比如L2范数正则化，它通过在损失函数中引入惩罚项来限制模型参数的大小，防止过拟合。高维线性回归实验作为实际操作部分，通过PyTorch库从零开始构建，展示了如何在实践中应用这些理论。参与者将学习如何设置和优化模型，以及如何处理常见的深度学习问题，如梯度消失和梯度爆炸。课程还深入探讨了循环神经网络（RNN）进阶内容，包括机器翻译相关的技术，如注意力机制和Seq2seq模型的实现，以及Transformer结构的代码实现。随后，课程转向卷积神经网络（CNN）的基础，涵盖了二维卷积层、填充和步幅、多输入通道和输出通道的概念，以及池化操作的实现。IeNet是一个例子，用于简化复杂网络的设计。进一步地，课程介绍了深度卷积神经网络（如AlexNet）、重复元素网络（如VGG）和NiN等高级结构的代码实现，让学生逐步掌握深度学习模型的不同层次和架构。 Day 3的内容涵盖了理论与实践相结合，帮助学习者理解和解决深度学习中的核心问题，以及如何在实际项目中应用这些技术。

dropout(X, 0)

dropout(X, 0.5)

dropout(X, 1.0)

# 参数的初始化

num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256

W1 = torch.tensor(np.random.normal(0, 0.01, size=(num_inputs, num_hiddens1)), dtype=torch.float, requires_grad=True)

b1 = torch.zeros(num_hiddens1, requires_grad=True)

W2 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens1, num_hiddens2)), dtype=torch.float, requires_grad=True)

b2 = torch.zeros(num_hiddens2, requires_grad=True)

W3 = torch.tensor(np.random.normal(0, 0.01, size=(num_hiddens2, num_outputs)), dtype=torch.float, requires_grad=True)

b3 = torch.zeros(num_outputs, requires_grad=True)

params = [W1, b1, W2, b2, W3, b3]

drop_prob1, drop_prob2 = 0.2, 0.5

def net(X, is_training=True):

X = X.view(-1, num_inputs)

H1 = (torch.matmul(X, W1) + b1).relu()

if is_training: # 只在训练模型时使用丢弃法

H1 = dropout(H1, drop_prob1) # 在第一层全连接后添加丢弃层

H2 = (torch.matmul(H1, W2) + b2).relu()

if is_training:

H2 = dropout(H2, drop_prob2) # 在第二层全连接后添加丢弃层

return torch.matmul(H2, W3) + b3

def evaluate_accuracy(data_iter, net):

acc_sum, n = 0.0, 0

for X, y in data_iter:

if isinstance(net, torch.nn.Module):

net.eval() # 评估模式, 这会关闭dropout

acc_sum += (net(X).argmax(dim=1) == y).float().sum().item()

net.train() # 改回训练模式

else: # 自定义的模型

if('is_training' in net.__code__.co_varnames): # 如果有is_training这个参数

# 将is_training设置成False

acc_sum += (net(X, is_training=False).argmax(dim=1) == y).float().sum().item()

else:

acc_sum += (net(X).argmax(dim=1) == y).float().sum().item()

n += y.shape[0] return acc_sum / n

num_epochs, lr, batch_size = 5, 100.0, 256 # 这里的学习率设置的很大，原因与之前相同。

loss = torch.nn.CrossEntropyLoss()

train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, root='/home/kesci/input/FashionMNIST2065')

d2l.train_ch3(

net,

train_iter,

test_iter,

loss,

num_epochs,

batch_size,

params,

lr)

简洁实现

net = nn.Sequential(

d2l.FlattenLayer(),

nn.Linear(num_inputs, num_hiddens1),

nn.ReLU(),

nn.Dropout(drop_prob1),

nn.Linear(num_hiddens1, num_hiddens2),

nn.ReLU(),

nn.Dropout(drop_prob2),

nn.Linear(num_hiddens2, 10)

)

for param in net.parameters():

nn.init.normal_(param, mean=0, std=0.01)

optimizer = torch.optim.SGD(net.parameters(), lr=0.5)

d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, batch_size, None, None, optimizer)

梯度消失梯度消失&梯度爆炸梯度爆炸

一些理论一些理论

Kaggle房价预测实战房价预测实战

matplotlib inline

import torch

import torch.nn as nn

import numpy as np

import pandas as pd

import sys

sys.path.append("/home/kesci/input")

import d2lzh1981 as d2l

print(torch.__version__)

torch.set_default_tensor_type(torch.FloatTensor)

获取数据集

剩余10页未读，继续阅读

weixin_38693506

粉丝: 5
资源: 966

深度学习实战：过拟合、欠拟合与正则化（Datawhale Day3）

树叶分类竞赛数据集classify-leaves_kaggle

动手学深度学习之机器翻译和数据集

DATAWHALE-动手学深度学习PyTorch 笔记记录2 attention mask

Datawhale：动手深度学习第一次打卡！

Learn_Dive-into-DL-PyTorch:Datawhale第10期组队学习活动：《动手学深度学习》 Pytorch版的练习代码

动手学深度学习pytorch版本

动手深度学习：Datawhale循环神经网络基础实践

动手学深度学习之从批量归一化和残差网络、凸优化、梯度下降

ElitesAI·动手学深度学习PyTorch版学习笔记-卷积神经网络基础；leNet；卷积神经网络进阶

《动手学深度学习PyTorch版》打卡_Task3，过拟合，欠拟合，梯度消失，梯度爆炸

最新资源