神经网络与深度学习：艾伯特的在线教程

需积分: 10 25 浏览量更新于2024-07-17 收藏 6.53MB PDF 举报

"《艾伯特神经网络和统计学习》是一本关于神经网络和深度学习的英文电子书，由Michael Nielsen撰写。这本书介绍了神经网络的基本原理，深度学习的技术，并特别强调了它们在图像识别、语音识别和自然语言处理等领域的应用。书中包含多个章节，如手写数字识别、反向传播算法、深度学习的挑战以及深度学习的概念。目前，该书的部分章节已完成翻译，读者可以通过邮件与译者交流或参与翻译工作。" 在《艾伯特神经网络和统计学习》中，作者首先引入了神经网络的概念，这是一个受到生物神经元结构启发的计算模型，它能够通过学习观测数据来进行模式识别和复杂任务的解决。第一章以手写数字识别为例，展示了神经网络如何被用来处理实际问题。这一部分可能涵盖了多层感知机（MLP）的构建，以及如何利用训练数据调整网络参数以达到高精度的分类。第二章深入探讨了反向传播算法，这是神经网络学习的核心。反向传播是一种高效的优化方法，用于计算代价函数关于网络权重的梯度，以便于使用梯度下降法更新权重。在1986年的一篇关键论文中，反向传播被证明可以显著加速神经网络的训练，从而打开了解决更复杂问题的大门。这一章将详细解释反向传播的工作原理，包括链式法则的应用和误差反向传播的过程。第三章则关注如何改进神经网络的学习方式，可能涉及正则化、早停策略、学习率调整等技术，这些都旨在防止过拟合并提高泛化能力。第五章讨论了深度神经网络（DNN）的训练难题，如梯度消失和梯度爆炸，这些问题在深层网络中尤为突出，影响了模型的训练效率和性能。作者可能会介绍一些应对策略，如残差网络（ResNets）、批量归一化（Batch Normalization）或使用权重初始化技术。第六章全面介绍了深度学习，涵盖卷积神经网络（CNN）和循环神经网络（RNN），这两种架构在图像和序列数据处理中非常有效。此外，可能还会提及深度学习的其他重要主题，如强化学习和生成对抗网络（GANs）。虽然书中尚未完成所有章节的翻译，但已有的内容提供了丰富的神经网络和深度学习知识，对于初学者和有经验的研究者来说都是宝贵的资源。读者可以期待后续章节的翻译更新，并通过联系译者参与到这个项目的完善中。

主要工作其实是在delta_nabla_b,delta_nabla_w=self.backprop(x,y)这里完成的，调用了

backprop方法计算出了偏导数， 和 。反向传播方法跟上一节的算法基

本一致。这里只有个小小的差异——我们使用一个略微不同的方式来索引神经网络的层。这

个改变其实是为了Python的特性——负值索引的使用能够让我们从列表的最后往前遍历，如

l[-3]其实是列表中的倒数第三个元素。下面backprop的代码，使用了一些用来计算 、导

数

及代价函数的导数帮助函数。所以理解了这些，我们就完全可以掌握所有的代码了。如

果某些东西让你困惑，你可能需要参考代码的原始描述

classNetwork(object):

...

defbackprop(self,x,y):

"""Returnatuple"(nabla_b,nabla_w)"representingthe

gradientforthecostfunctionC_x."nabla_b"and

"nabla_w"arelayer-by-layerlistsofnumpyarrays,similar

to"self.biases"and"self.weights"."""

nabla_b=[np.zeros(b.shape)forbinself.biases]

nabla_w=[np.zeros(w.shape)forwinself.weights]

#feedforward

activation=x

activations=[x]#listtostorealltheactivations,layerbylayer

zs=[]#listtostoreallthezvectors,layerbylayer

forb,winzip(self.biases,self.weights):

z=np.dot(w,activation)+b

zs.append(z)

activation=sigmoid(z)

activations.append(activation)

#backwardpass

delta=self.cost_derivative(activations[-1],y)*\

sigmoid_prime(zs[-1])

nabla_b[-1]=delta

nabla_w[-1]=np.dot(delta,activations[-2].transpose())

#Notethatthevariablelintheloopbelowisusedalittle

#differentlytothenotationinChapter2ofthebook.Here,

#l=1meansthelastlayerofneurons,l=2isthe

#second-lastlayer,andsoon.It'sarenumberingofthe

#schemeinthebook,usedheretotakeadvantageofthefact

#thatPythoncanusenegativeindicesinlists.

forlinxrange(2,self.num_layers):

z=zs[-l]

sp=sigmoid_prime(z)

delta=np.dot(self.weights[-l+1].transpose(),delta)*sp

nabla_b[-l]=delta

nabla_w[-l]=np.dot(delta,activations[-l-1].transpose())

return(nabla_b,nabla_w)

...

defcost_derivative(self,output_activations,y):

"""Returnthevectorofpartialderivatives\partialC_x/

\partialafortheoutputactivations."""

return(output_activations-y)

defsigmoid(z):

"""Thesigmoidfunction."""

return1.0/(1.0+np.exp(-z))

null

www.aibbt.com 让未来触手可及

defsigmoid_prime(z):

"""Derivativeofthesigmoidfunction."""

returnsigmoid(z)*(1-sigmoid(z))

在minibatch上的反向传播的全矩阵方法我们对于随机梯度下降的实现是对一个

minibatch中的训练样本进行遍历。所以也可以更改反向传播算法使得它同时对一个

minibatch中的所有样本进行梯度计算。这个想法其实就是我们可以用一个矩阵

，其中每列就是在minibatch中的向量，而不是单个的输入向量，

。我们通过乘权重矩阵，加上对应的偏差进行前向传播，在所有地方应用sigmoid函

数。然后按照类似的过程进行反向传播。请显式写出这种方法下的伪代码。更改

network.py来实现这个方案。这样做的好处其实利用到了现代的线性代数库。所以，这

会比在minibatch上进行遍历要运行得更快（在我的笔记本电脑上，在MNIST分类问题

上，我相较于上一章的实现获得了2倍的速度提升）。在实际应用中，所有靠谱的反向

传播的库都是用了类似的基于矩阵或者变体的方式来实现的。

为了回答这个问题，首先考虑另一个计算梯度的方法。就当我们回到上世界50、60年代的神

经网络研究。假设你是世界上首个考虑使用梯度下降方法学习的那位！为了让自己的想法可

行，就必须找出计算代价函数梯度的方法。想想自己学到的微积分，决定试试看链式法则来

计算梯度。但玩了一会后，就发现代数式看起来非常复杂，然后就退缩了。所以就试着找另

外的方式。你决定仅仅把代价看做权重

的函数。你给这些权重 进行编号，期

望计算关于某个权值

关于 的导数。而一种近似的方法就是下面这种：

其中 是一个很小的正数，而 是在第j个方向上的单位向量。换句话说，我们可以通过

计算

的两个接近相同的点的值来估计 ，然后应用公式（46）。同样方法也可以

用来计算

。

这个观点看起来非常有希望。概念上易懂，容易实现，使用几行代码就可以搞定。看起来，

这样的方法要比使用链式法则还要有效。

然后，遗憾的是，当你实现了之后，运行起来这样的方法非常缓慢。为了理解原因，假设我

们有

权重。对每个不同的权重 我们需要计算 来计算

。这意味着为了计算梯度，我们需要计算代价函数 次，需要

前向传播（对每个样本）。我们同样需要计算 ，总共是 次。

问题

在哪种层面上，反向传播是快速的算法？

null

www.aibbt.com 让未来触手可及

反向传播聪明的地方就是它确保我们可以同时计算所有的偏导数 使用一次前向传

播，加上一次后向传播。粗略地说，后向传播的计算代价和前向的一样。*

这个说法是合理的，但需要额外的说明来澄清这一事实。在前向传播过程中主要的计算

代价消耗在权重矩阵的乘法上，而反向传播则是计算权重矩阵的转置矩阵。这些操作显

然有着类似的计算代价。

所以最终的计算代价大概是两倍的前向传播计算大家。比起直接计算导数，显然反向传播有

着更大的优势。所以即使反向传播看起来要比(46)更加复杂，但实际上要更快。

这个加速在1986年首次被众人接受，并直接导致神经网络可以处理的问题的扩展。这也导致

了大量的研究者涌向了神经网络方向。当然，反向传播并不是万能钥匙。在1980年代后

期，人们尝试挑战极限，尤其是尝试使用反向传播来训练深度神经网络。本书后面，我们将

看到现代计算机和一些聪明的新想法已经让反向传播成功地训练这样的深度神经网络。

正如我所讲解的，反向传播提出了两个神秘的问题。首先，这个算法真正在干什么？我们已

经感受到从输出处的错误被反向传回的图景。但是我们能够更深入一些，构造出一种更加深

刻的直觉来解释所有这些矩阵和向量乘法么？第二神秘点就是，某人为什么能发现这个反向

传播？跟着一个算法跑一遍甚至能够理解证明算法可以运行这是一回事。这并不真的意味着

你理解了这个问题到一定程度，能够发现这个算法。是否有一个推理的思路可以指引我们发

现反向传播算法？本节，我们来探讨一下这两个谜题。为了提升我们关于算法究竟做了什么

的直觉，假设我们已经对

做一点小小的变动 ：

这个改变会导致在输出激活值上的相应改变：

反向传播：大视野

null

www.aibbt.com 让未来触手可及

剩余109页未读，继续阅读

csiloveu

粉丝: 2
资源: 6

神经网络与深度学习：艾伯特的在线教程

神经网络和统计学习（Neural networks and statistical learning） by K.-L. Du and M.N.s. Swamy

Neural Networks and Deep Learning - 神经网络与深度学习 中英双版本

neural networks and deep learning 这本书怎么样？

neural networks and deep learning 电子书

neural networks and deep learning michael nielsen pdf

ieee transactions on neural networks and learning systems

编写程序统计英文句子“A strong foundation on neural networks and deep learning with Python libraries.”中各字符出现的次数，不区分大小写"

神经网络与深度学习书

深度学习中有多少种神经网络

matlab deep learning:with machine learning,neural networks and artificial in

最新资源

Neural Networks and Deep Learning - 神经网络与深度学习中英双版本