grad1_reg = grad1 + (Lambda/m) * np.hstack((np.zeros((Theta1.shape[0],1)),Theta1[:,1:]))

这行代码是正则化梯度下降算法中的一步，用于计算第一层权重矩阵的正则化梯度。其中，grad1是第一层权重矩阵的梯度，Lambda是正则化参数，m是训练集的样本数。这行代码的作用是将原始的梯度grad1与正则化项相加，其中正则化项是一个长度为Theta1.shape[1]的向量，其中第一个元素为0，其余元素为Theta1的第2到最后一列，即去掉了第一列的Theta1矩阵。这样做的目的是为了让正则化项只作用于模型的权重参数，而不作用于偏置项。最后，将得到的正则化梯度赋值给grad1_reg。

grad2_reg =grad2 +(Lambda/m) *np.hstack((np.zeros((Theta2.shape[0],1)),Theta2[:,1:]))为什么还要加上np.hstack((np.zeros((Theta2.shape[0],1))

这个操作是为了实现L2正则化（也叫岭回归），目的是防止模型过拟合。np.hstack((np.zeros((Theta2.shape[0],1)),Theta2[:,1:])) 是用来将 Theta2 的第一列全部置零，然后将其余列与 grad2 相加。这样做是因为在正则化时，我们不希望惩罚常数项（也就是偏置项），因为偏置项通常对模型的预测结果影响较小，而且惩罚偏置项可能会导致模型的拟合能力下降。因此，我们将 Theta2 的第一列（即偏置项）置零，再与 grad2 相加即可实现对 Theta2 中除了偏置项以外的所有参数进行 L2 正则化。

def nnCostFunction(nn_params,input_layer_size, hidden_layer_size, num_labels,X, y,Lambda): # Reshape nn_params back into the parameters Theta1 and Theta2 Theta1 = nn_params[:((input_layer_size+1) * hidden_layer_size)].reshape(hidden_layer_size,input_layer_size+1) Theta2 = nn_params[((input_layer_size +1)* hidden_layer_size ):].reshape(num_labels,hidden_layer_size+1) m = X.shape[0] J=0 X = np.hstack((np.ones((m,1)),X)) y10 = np.zeros((m,num_labels)) a1 = sigmoid(X @ Theta1.T) a1 = np.hstack((np.ones((m,1)), a1)) # hidden layer a2 = sigmoid(a1 @ Theta2.T) # output layer for i in range(1,num_labels+1): y10[:,i-1][:,np.newaxis] = np.where(y==i,1,0) for j in range(num_labels): J = J + sum(-y10[:,j] * np.log(a2[:,j]) - (1-y10[:,j])np.log(1-a2[:,j])) cost = 1/m J reg_J = cost + Lambda/(2m) (np.sum(Theta1[:,1:]2) + np.sum(Theta2[:,1:]2)) # Implement the backpropagation algorithm to compute the gradients grad1 = np.zeros((Theta1.shape)) grad2 = np.zeros((Theta2.shape)) for i in range(m): xi= X[i,:] # 1 X 401 a1i = a1[i,:] # 1 X 26 a2i =a2[i,:] # 1 X 10 d2 = a2i - y10[i,:] d1 = Theta2.T @ d2.T * sigmoidGradient(np.hstack((1,xi @ Theta1.T))) grad1= grad1 + d1[1:][:,np.newaxis] @ xi[:,np.newaxis].T grad2 = grad2 + d2.T[:,np.newaxis] @ a1i[:,np.newaxis].T grad1 = 1/m * grad1 grad2 = 1/mgrad2 grad1_reg = grad1 + (Lambda/m) np.hstack((np.zeros((Theta1.shape[0],1)),Theta1[:,1:])) grad2_reg = grad2 + (Lambda/m) * np.hstack((np.zeros((Theta2.shape[0],1)),Theta2[:,1:])) return cost, grad1, grad2,reg_J, grad1_reg,grad2_reg

这是一个实现神经网络的代码，主要包括两个部分：前向传播和反向传播。其中，前向传播部分计算每个样本的预测值和损失函数，反向传播部分计算每个参数的梯度。具体来说，该函数接收神经网络的参数、输入层大小、隐藏层大小、输出层大小、训练数据、训练数据的标签、正则化参数Lambda。该函数首先将参数Theta1和Theta2恢复成原来的矩阵形式，然后计算每个样本的预测值和损失函数，再计算每个参数的梯度。最后，该函数返回损失函数和梯度，包括未经过正则化和经过正则化的梯度。

阅读全文

grad1_reg = grad1 + (Lambda/m) * np.hstack((np.zeros((Theta1.shape[0],1)),Theta1[:,1:]))

grad2_reg =grad2 +(Lambda/m) *np.hstack((np.zeros((Theta2.shape[0],1)),Theta2[:,1:]))为什么还要加上np.hstack((np.zeros((Theta2.shape[0],1))

相关推荐

PyTorch中model.zero_grad()和optimizer.zero_grad()用法

conjugate_grad_2d.rar_grad matl_grad matl_约束 条件 线性 规划_约束条件代码

基于Pytorch框架的TPLinker_plus中文命名实体识别python源码+使用说明+模型+数据集.zip

matlab实现成本函数的代码，代码格式为function [J grad] = nnCostFunction(nn_params, input_layer_size,hidden_layer_size,num_labels, X, y, lambda)

def gradientDescent(X,y,theta,alpha,num_iters,Lambda):

分别用梯度下降算法实现Logistic回归的L1正则化和L2正则化

用梯度下降算法实现Logistic回归的L1正则化和L2正则化python代码

中位数回归的优化算法选择原内点对偶算法用pytho语言 编程实现中位数回归的参数估计，在（0，0，0，0.。。。0）附近（不用min函数）x是p元函数

请生成一个输入层4个节点，第一个隐藏层5个节点，第二个隐藏层4个节点，输出层1个节点，激活函数为tanh,全连接的BP神经网络matlab训练代码

求信赖域算法加局部二次近似求解 关于b级数i从1到nxi[yi-(e∧bxi/1+e∧bxi)])的最大值（b是P元向量）的不用然后优化包Python代码

神经网络cg参数优化

读取iris数据集并进行共轭梯度

用matlab代码写一个BP神经网络模型的优化算法

最新推荐

MATLAB实现基于SVM-RFE-BP多输入单输出回归预测（含完整的程序和代码详解）

rhino grasshoper 景观椅（附视频）.gh

磁性吸附笔筒设计创新，行业文档精选

管理建模和仿真的文件

深入LINQ：泛型在查询表达式中的强大应用

在Java中，当人数 为M ，我们需要按照给定的比例来分配人数到不同的等级（M*10%为A，M*20%为B，M*50%为C，M*10%为D，M*10%为E）

Java Swing实现的俄罗斯方块游戏代码分享

"互动学习：行动中的多样性与论文攻读经历"

C#泛型工具类设计：创建通用且高效的代码库的艺术

Requests库常用的方法：get，post，13个控制参数

conjugate_grad_2d.rar_grad matl_grad matl_约束条件线性规划_约束条件代码

中位数回归的优化算法选择原内点对偶算法用pytho语言编程实现中位数回归的参数估计，在（0，0，0，0.。。。0）附近（不用min函数）x是p元函数

求信赖域算法加局部二次近似求解关于b级数i从1到nxi[yi-(e∧bxi/1+e∧bxi)])的最大值（b是P元向量）的不用然后优化包Python代码

在Java中，当人数为M ，我们需要按照给定的比例来分配人数到不同的等级（M10%为A，M20%为B，M50%为C，M10%为D，M*10%为E）