零基础深度学习教程：从感知器到深度神经网络

需积分: 48 172 浏览量更新于2024-07-18 收藏 2.72MB PDF 举报

"零基础入门深度学习系列教程旨在帮助没有深度学习基础的程序员从零开始了解和掌握这一技术。教程内容包括感知器、线性单元、梯度下降、神经网络、反向传播算法、卷积神经网络、循环神经网络以及长短时记忆网络(LSTM)和递归神经网络等。深度学习是机器学习中使用深层架构，如深度神经网络，进行学习的方法。相比于浅层网络，深层网络具有更强的表达能力，但也更难训练。感知器作为神经网络的基本单元，是理解整个深度学习概念的基础。" 深度学习是当前人工智能领域的热门技术，它基于机器学习中的神经网络算法。神经网络由多个神经元构成，这些神经元通过连接形成层次结构，包括输入层、隐藏层和输出层。隐藏层是网络的核心，其中的神经元负责对输入数据进行复杂特征的学习和提取。当隐藏层数量较多时，这样的网络被称为深度神经网络，其优势在于可以使用较少的神经元来表示复杂的函数关系，提高模型的效率。感知器是神经网络的基本构建模块，它模拟生物神经元的工作原理，将输入信号加权求和并通过激活函数转化为输出。在深度学习的入门阶段，理解感知器的工作机制至关重要，因为它是构建更复杂神经网络的基础。感知器的训练通常涉及到梯度下降法，这是一种优化算法，用于调整权重以最小化损失函数，从而使得网络的预测结果更接近实际数据。系列教程还将涉及线性单元，如Sigmoid或ReLU，它们在神经网络中扮演着激活函数的角色，引入非线性，使得网络能处理更广泛的函数关系。反向传播算法则是深度学习中用于更新权重的关键步骤，它利用梯度信息来反向传播误差，从而进行参数优化。卷积神经网络(CNN)和循环神经网络(RNN)是深度学习的两个重要分支。CNN主要用于图像处理，通过卷积操作提取图像特征；RNN和其变种LSTM则适用于处理序列数据，如自然语言，通过记忆单元保持对过去信息的记忆。递归神经网络(RNN)是一种能够处理任意长度序列的网络，尤其适合于自然语言处理任务。而LSTM作为一种特殊的RNN变体，通过门控机制解决了RNN中长期依赖问题，提高了模型在处理长序列时的效果。这个零基础深度学习教程提供了一个逐步深入的路径，让初学者能够从最基础的感知器概念出发，逐步掌握深度学习的核心原理和应用。通过阅读和实践这个教程，程序员可以逐渐具备使用深度学习解决实际问题的能力。

能力。我们还将介绍这种网络的训练算法：反向传播算法。最后，我们依然用代码实现一个神经网络。如果您能坚持到本文的结尾，将会看到我

们用自己实现的神经网络去识别手写数字。现在请做好准备，您即将双手触及到深度学习的大门。

神经元

神经元和感知器本质上是一样的，只不过我们说感知器的时候，它的激活函数是阶跃函数；而当我们说神经元时，激活函数往往选择为sigmoid函

数或tanh函数。如下图所示：

计算一个神经元的输出的方法和计算一个感知器的输出是一样的。假设神经元的输入是向量，权重向量是 (偏置项是 )，激活函数是sigmoid

函数，则其输出：

sigmoid函数的定义如下：

将其带入前面的式子，得到

sigmoid函数是一个非线性函数，值域是(0,1)。函数图像如下图所示

sigmoid函数的导数是：

可以看到，sigmoid函数的导数非常有趣，它可以用sigmoid函数自身来表示。这样，一旦计算出sigmoid函数的值，计算它的导数的值就非常方

便。

神经网络是啥



sigmoid

(

⋅

) (

式



sigmoid

(

) =

1 +

−

1 +

−

⋅



令

sigmoid

(

)

则

(1 −

)

′

神经网络其实就是按照一定规则连接起来的多个神经元。上图展示了一个全连接(full connected, FC) 神经网络，通过观察上面的图，我们可以发

现它的规则包括：

神经元按照层来布局。最左边的层叫做输入层，负责接收输入数据；最右边的层叫输出层，我们可以从这层获取神经网络输出数据。输入层

和输出层之间的层叫做隐藏层，因为它们对于外部来说是不可见的。

同一层的神经元之间没有连接。

第N层的每个神经元和第N-1层的所有神经元相连(这就是full connected的含义)，第N-1层神经元的输出就是第N层神经元的输入。

每个连接都有一个权值。

上面这些规则定义了全连接神经网络的结构。事实上还存在很多其它结构的神经网络，比如卷积神经网络(CNN)、循环神经网络(RNN)，他们都具

有不同的连接规则。

计算神经网络的输出

神经网络实际上就是一个输入向量到输出向量的函数，即：

根据输入计算神经网络的输出，需要首先将输入向量的每个元素的值赋给神经网络的输入层的对应神经元，然后根据式1依次向前计算每一层

的每个神经元的值，直到最后一层输出层的所有神经元的值计算完毕。最后，将输出层每个神经元的值串在一起就得到了输出向量。

接下来举一个例子来说明这个过程，我们先给神经网络的每个单元写上编号。

如上图，输入层有三个节点，我们将其依次编号为1、2、3；隐藏层的4个节点，编号依次为4、5、6、7；最后输出层的两个节点编号为8、9。因

为我们这个神经网络是全连接网络，所以可以看到每个节点都和上一层的所有节点有连接。比如，我们可以看到隐藏层的节点4，它和输入层的三

个节点1、2、3之间都有连接，其连接上的权重分别为。那么，我们怎样计算节点4的输出值呢？

为了计算节点4的输出值，我们必须先得到其所有上游节点（也就是节点1、2、3）的输出值。节点1、2、3是输入层的节点，所以，他们的输出

值就是输入向量本身。按照上图画出的对应关系，可以看到节点1、2、3的输出值分别是。我们要求输入向量的维度和输入层神经元

个数相同，而输入向量的某个元素对应到哪个输入节点是可以自由决定的，你偏非要把赋值给节点2也是完全没有问题的，但这样除了把自己弄

晕之外，并没有什么价值。

一旦我们有了节点1、2、3的输出值，我们就可以根据式1计算节点4的输出值：



= ( )



network



, ,



, ,

上式的是节点4的偏置项，图中没有画出来。而分别为节点1、2、3到节点4连接的权重，在给权重编号时，我们把目标节点

的编号放在前面，把源节点的编号放在后面。

同样，我们可以继续计算出节点5、6、7的输出值。这样，隐藏层的4个节点的输出值就计算完成了，我们就可以接着计算输出层的节点

8的输出值：

同理，我们还可以计算出的值。这样输出层所有节点的输出值计算完毕，我们就得到了在输入向量时，神经网络的输出向量

。这里我们也看到，输出向量的维度和输出层神经元个数相同。

神经网络的矩阵表示

神经网络的计算如果用矩阵来表示会很方便（当然逼格也更高），我们先来看看隐藏层的矩阵表示。

首先我们把隐藏层4个节点的计算依次排列出来：

接着，定义网络的输入向量和隐藏层每个节点的权重向量。令

代入到前面的一组式子，得到：

现在，我们把上述计算的四个式子写到一个矩阵里面，每个式子作为矩阵的一行，就可以利用矩阵来表示它们的计算了。令

带入前面的一组式子，得到

在式2中，是激活函数，在本例中是函数；是某一层的权重矩阵；是某层的输入向量；是某层的输出向量。式2说明神经网络的每

一层的作用实际上就是先将输入向量左乘一个数组进行线性变换，得到一个新的向量，然后再对这个向量逐元素应用一个激活函数。

sigmoid

(

⋅

)



sigmoid

( + + + )

, ,

sigmoid

(

⋅

)



sigmoid

( + + + + )



⎡

⎣

⎢

⎤

⎦

⎥

[ ]



sigmoid

( + + + )

sigmoid

( + + + )

sigmoid

( + + + )

sigmoid

( + + + )



→



⎡

⎣

⎢

⎤

⎦

⎥

= [ , , , ]

sigmoid

(

⋅

)

→



(

⋅

)

→



(

⋅

)

→



(

⋅

)

→



, , ,

= ,

= = ,

( ) =



⎡

⎣

⎢

⎤

⎦

⎥

⎡

⎣

⎢



⎤

⎦

⎥

⎡

⎣

⎢

, , ,

⎤

⎦

⎥

⎡

⎣

⎢

⎤

⎦

⎥

⎡

⎣

⎢

( )

⎤

⎦

⎥

(

⋅

) (

式



f sigmoid



每一层的算法都是一样的。比如，对于包含一个输入层，一个输出层和三个隐藏层的神经网络，我们假设其权重矩阵分别为，

每个隐藏层的输出分别是，神经网络的输入为，神经网络的输入为，如下图所示：

则每一层的输出向量的计算可以表示为：

这就是神经网络输出值的计算方法。

神经网络的训练

现在，我们需要知道一个神经网络的每个连接上的权值是如何得到的。我们可以说神经网络是一个模型，那么这些权值就是模型的参数，也就是

模型要学习的东西。然而，一个神经网络的连接方式、网络的层数、每层的节点数这些参数，则不是学习出来的，而是人为事先设置的。对于这

些人为设置的参数，我们称之为超参数(Hyper-Parameters) 。

接下来，我们将要介绍神经网络的训练算法：反向传播算法。

反向传播算法(Back Propagation)

我们首先直观的介绍反向传播算法，最后再来介绍这个算法的推导。当然读者也可以完全跳过推导部分，因为即使不知道如何推导，也不影响你

写出来一个神经网络的训练代码。事实上，现在神经网络成熟的开源实现多如牛毛，除了练手之外，你可能都没有机会需要去写一个神经网络。

我们以监督学习为例来解释反向传播算法。在零基础入门深度学习(2) - 线性单元和梯度下降一文中我们介绍了什么是监督学习，如果忘记了可以

再看一下。另外，我们设神经元的激活函数为函数(不同激活函数的计算公式不同，详情见反向传播算法的推导一节)。

我们假设每个训练样本为，其中向量是训练样本的特征，而是样本的目标值。

首先，我们根据上一节介绍的算法，用样本的特征，计算出神经网络中每个隐藏层节点的输出，以及输出层每个节点的输出。

然后，我们按照下面的方法计算出每个节点的误差项：

对于输出层节点，

其中，是节点的误差项，是节点的输出值，是样本对应于节点的目标值。举个例子，根据上图，对于输出层节点8来说，它的输出值是

，而样本的目标值是，带入上面的公式得到节点8的误差项应该是：

, , ,

, ,



(

⋅

)



(

⋅

)



(

⋅

)



(

⋅

)



f sigmoid

( , )



= (1 − )( − ) (

式

i t

对于隐藏层节点，

其中，是节点的输出值，是节点到它的下一层节点的连接的权重，是节点的下一层节点的误差项。例如，对于隐藏层节点4来说，

计算方法如下：

最后，更新每个连接上的权值：

其中，是节点到节点的权重，是一个成为学习速率的常数，是节点的误差项，是节点传递给节点的输入。例如，权重的更新

方法如下：

类似的，权重的更新方法如下：

偏置项的输入值永远为1。例如，节点4的偏置项应该按照下面的方法计算：

我们已经介绍了神经网络每个节点误差项的计算和权重更新方法。显然，计算一个节点的误差项，需要先计算每个与其相连的下一层节点的误差

项。这就要求误差项的计算顺序必须是从输出层开始，然后反向依次计算每个隐藏层的误差项，直到与输入层相连的那个隐藏层。这就是反向传

播算法的名字的含义。当所有节点的误差项计算完毕后，我们就可以根据式5来更新所有的权重。

以上就是基本的反向传播算法，并不是很复杂，您弄清楚了么？

反向传播算法的推导

反向传播算法其实就是链式求导法则的应用。然而，这个如此简单且显而易见的方法，却是在Roseblatt提出感知器算法将近30年之后才被发明和

普及的。对此，Bengio这样回应道：

很多看似显而易见的想法只有在事后才变得显而易见。

接下来，我们用链式求导法则来推导反向传播算法，也就是上一小节的式3、式4、式5。

前

方

高

能

预

警

——

接

下

来是数

学

公

式

重

灾

区

，

读

者

可

以

酌

情

阅

读

，

不

必强

求

。

按照机器学习的通用套路，我们先确定神经网络的目标函数，然后用随机梯度下降优化算法去求目标函数最小值时的参数值。

我们取网络所有输出层节点的误差平方和作为目标函数：

其中，表示是样本的误差。

然后，我们用文章零基础入门深度学习(2) - 线性单元和梯度下降中介绍的随机梯度下降算法对目标函数进行优化：

随机梯度下降算法也就是需要求出误差对于每个权重的偏导数（也就是梯度），怎么求呢？

= (1 − )( − )

= (1 − ) (

式

∑

∈

outputs

k δ

= (1 − )( + )

← +

(

式

← +

≡ ( −

∑

∈

outputs

)

← −

∂

剩余104页未读，继续阅读

无形的风（知乎）

粉丝: 2720

零基础深度学习教程：从感知器到深度神经网络

零基础入门：深度学习教程+历史与应用详解

零基础入门：MATLAB深度学习在遥感影像分类的应用

零基础学习深度学习，韩炳涛系列教程pdf版

零基础入门深度学习

韩炳涛 零基础入门深度学习系列博客pdf

Pytorch入门深度学习PPT教程

C语言零基础入门全套视频教程下载

零基础入门若依SpringCloud微服务教程

Python零基础入门到精通教程详览

入门深度学习：Google Colab免费GPU服务器教程

最新资源

韩炳涛零基础入门深度学习系列博客pdf