深度学习教程中文版1：神经网络及逻辑回归

需积分: 0 93 浏览量更新于2024-01-15 收藏 6.56MB PDF 举报

Deep Learning是一种机器学习领域的技术，目前在人工智能领域取得了显著的进展。本文将对Deep Learning进行介绍，并详细讨论其在神经网络中的应用。在Deep Learning教程中，我们首先引入了一些符号和术语的定义。我们用“L”表示神经网络中的层数，其中偏置单元不计在内。而“a”表示第L层第i个单元的激活值，即输出结果。通过引入这些符号，我们可以方便地描述和计算神经网络的运算过程。下面举一个监督学习的例子来说明神经网络的应用。假设我们有一个训练样本集D，神经网络算法可以提供一种复杂且非线性的假设模型h(x)，其中参数theta用于拟合我们的数据。通过调整参数theta，我们可以使得假设模型h(x)与训练样本集D的输出结果尽可能地接近。为了更好地描述神经网络，我们首先介绍最简单的神经网络，它仅由一个“神经元”构成。下图是这个“神经元”的示意图： [插入图片] 这个“神经元”是一个以x和偏置b为输入值的运算单元，输出结果为a，其中函数g(z)被称为“激活函数”。在本教程中，我们选择了sigmoid函数作为激活函数。sigmoid函数的形状类似于一个“S”型曲线，它将输入值映射到0和1之间。通过使用sigmoid函数作为激活函数，可以很容易地对这个单一“神经元”的输入-输出映射关系进行建模。实际上，这个映射关系相当于一个逻辑回归（logistic regression）的模型。值得注意的是，虽然在本系列教程中我们采用了sigmoid函数作为激活函数，但也可以选择其他的激活函数，比如双曲正切函数（tanh）。下面分别是sigmoid和tanh函数的图像： [插入sigmoid函数图像] [插入tanh函数图像] 另外，还有一种称为ReLU（Rectified Linear Unit）的激活函数，它在实际应用中更加广泛。ReLU函数定义为f(x) = max(0, x)，它将负数映射为0，而保留正数的值不变。ReLU函数的特点是计算速度快，且能够有效地避免梯度消失的问题。除了上述的最简单神经网络模型外，实际中还有更复杂的神经网络结构，比如多层神经网络和卷积神经网络等。这些复杂的神经网络结构通过连接多个“神经元”来实现更复杂的输入-输出映射关系，并能够处理更复杂的任务，比如图像识别、自然语言处理等。综上所述，Deep Learning是一种强大的机器学习技术，通过构建神经网络模型，并运用适当的激活函数和参数调整算法，可以实现复杂的非线性映射关系，从而提高机器学习任务的性能。随着研究的深入和硬件技术的不断进步，Deep Learning在人工智能领域的应用前景将更加广阔。

13-3-22  - U fldl

5/7deeplearning.stanford.edu/w iki/index.php/

【原文】

We see that the KL-divergence reaches its minimum of 0 at , and blows up (it actually approaches ) as approaches 0 or

1. Thus, minimizing this penalty term has the effect of causing to be close to .

Our overall cost function is now

where is as defined previously, and controls the weight of the sparsity penalty term. The term (implicitly) depends

on also, because it is the average activation of hidden unit , and the activation of a hidden unit depends on the parameters

【初译】

我们可以看出，相对熵在时达到它的最小值0，而当靠近0或者1的时候，相对熵则变得非常大（其实是趋向于）。所以，最小化这一

惩罚因子具有使得靠近的效果。总体来说，我们的代价函数可以表示为

其中如之前所定义，而控制稀疏性惩罚因子的权重。项则间接地取决于，因为它是隐藏神经元的平均激活度，而隐层神

经元的激活度取决于。

【一审】

我们看到，KL距离在处达到了最小值0，而当接近于0或1时，KL距离逐渐增大（最终达到）。因此，要最小化这个惩罚项就等同于

让接近于。最后，整体代价函数如下：

其中，在之前课程中已有定义，控制稀疏性惩罚项的权重，（间接）依赖于，因为它是隐藏单元的平均激活值，而隐藏

单元的激活值依赖于参数。

【二审】

我们可以看出，相对熵在时达到它的最小值0，而当靠近0或者1的时候，相对熵则变得非常大（其实是趋向于）。所以，最小化这一

惩罚因子具有使得靠近的效果。现在，我们的总体代价函数可以表示为

其中如之前所定义，而控制稀疏性惩罚因子的权重。项则也（间接地）取决于，因为它是隐藏神经元的平均激活度，而

隐藏层神经元的激活度取决于。

【原文】

To incorporate the KL-divergence term into your derivative calculation, there is a simple-to-implement trick involving only a small

change to your code. Specifically, where previously for the second layer ( ), during backpropagation you would have computed

now instead compute

13-3-22  - U fldl

6/7deeplearning.stanford.edu/w iki/index.php/

【初译】

为了将相对熵引入导数的计算，我们可以使用一个易于实现的技巧，这只需要在你的程序中稍作改动。具体来说，前面在后向传播算法中计算第二层

（）更新的时候我们已经计算了

现在我们将其换成

就可以了。

【一审】

为了将KL距离项整合进导数的计算中，这里有个易于实现的小技巧，只需对你的代码稍作改动。就比如说，在之前介绍反向传播算法的课程中，对于

第二层（），你应该计算得到：

现在我们将其换成：

【二审】

为了对相对熵进行导数计算，我们可以使用一个易于实现的技巧，这只需要在你的程序中稍作改动即可。具体来说，前面在后向传播算法中计算第二

层（）更新的时候我们已经计算了

现在我们将其换成

就可以了。

【原文】

One subtlety is that you'll need to know to compute this term. Thus, you'll need to compute a forward pass on all the training

examples first to compute the average activations on the training set, before computing backpropagation on any example. If your

training set is small enough to fit comfortably in computer memory (this will be the case for the programming assignment), you can

compute forward passes on all your examples and keep the resulting activations in memory and compute the s. Then you can use your

precomputed activations to perform backpropagation on all your examples. If your data is too large to fit in memory, you may have

to scan through your examples computing a forward pass on each to accumulate (sum up) the activations and compute (discarding

the result of each forward pass after you have taken its activations into account for computing ). Then after having

computed , you'd have to redo the forward pass for each example so that you can do backpropagation on that example. In this

latter case, you would end up computing a forward pass twice on each example in your training set, making it computationally less

efficient.

The full derivation showing that the algorithm above results in gradient descent is beyond the scope of these notes. But if you

implement the autoencoder using backpropagation modified this way, you will be performing gradient descent exactly on the objective

. Using the derivative checking method, you will be able to verify this for yourself as well.

【初译】

有一个需要注意的地方就是我们需要知道来计算这一项更新。所以在计算任何神经元的后向传播之前，你需要对所有的训练样本计算一遍前向传

播，从而获取平均激活度。如果你的训练样本可以小到被整个存到内存之中（对于编程作业来说，通常如此），你可以方便地在你所有的样本上计算

前向传播并将得到的激活度存入内存并且计算平均激活度。然后你就可以使用事先计算好的激活度来对所有的训练样本进行后向传播的计算。如果你

的数据量太大，无法全部存入内存，你就可以扫过你的训练样本并计算一次前向传播，然后将获得的结果累积起来并计算平均激活度（当你将某

一个前向传播的结果激活度用于计算平均激活度之后就可以将其删除）。然后当你完成平均激活度的计算之后，你需要重新对每一个

训练样本做一次前向传播从而可以对其进行后向传播的计算。对于后一种情况，你对每一个训练样本需要计算两次前向传播，所以在计算上的效率会

稍低一些。

13-3-22  - U fldl

7/7deeplearning.stanford.edu/w iki/index.php/

如何从上面算法得出梯度下降表达式的具体推导过程不再本教程的范围之内。不过如果你想要使用经过以上修改的后向传播来实现自编码神经网络，

那么你就需要做以为目标函数的梯度下降。使用梯度验证方法，你可以自己确认自己的推导是否正确。

【一审】

其中细微的变化就是你要先知道的值再来计算这个等式。因此，在对样本进行反向传播运算之前，你就要对所有的样本先进行前向传播计算，从

而计算得到样本的平均激活值。如果你的样本很小从而可以存储在计算机内存中（编程中的内存分配通常如此），你就可以对所有的样本进行前向传

播运算，并把所有激活值放在内存中并计算得出所有的。然后，你就可以用你预先计算好的激活值来对所有的样本进行反向传播运算。如果你的样本

数据太过庞大而不能全部放入内存，那么你就必须从头到尾对你的样本数据逐个进行向前传播运算，逐项累积激活值（相加）再计算（在将激活

值计算进之后，即将这个激活值删除）。在计算出之后，你必须对每个样本再次进行前向运算，这样你才可以对这个样本作反向传播

运算。对于后一种情况，你对每一个样本需要计算两次前向传播，所以在计算上的效率会稍低一些。

以上整个求导等式可以看出，本算法的梯度下降算法超出了本教程的范围，但是，如果你使用按以上方式调整过的反向传播算法运算自编码算法，你

就需要以为目标函数执行梯度下降算法。使用梯度检验法，你可以自己来验证梯度下降算法是否正确。

【二审】

有一个需要注意的地方就是我们需要知道来计算这一项更新。所以在计算任何神经元的后向传播之前，你需要对所有的训练样本计算一遍前向传

播，从而获取平均激活度。如果你的训练样本可以小到被整个存到内存之中（对于编程作业来说，通常如此），你可以方便地在你所有的样本上计算

前向传播并将得到的激活度存入内存并且计算平均激活度。然后你就可以使用事先计算好的激活度来对所有的训练样本进行后向传播的计算。如果你

的数据量太大，无法全部存入内存，你就可以扫过你的训练样本并计算一次前向传播，然后将获得的结果累积起来并计算平均激活度（当某一个

前向传播的结果中的激活度被用于计算平均激活度之后就可以将此结果删除）。然后当你完成平均激活度的计算之后，你需要重新对

每一个训练样本做一次前向传播从而可以对其进行后向传播的计算。对于后一种情况，你对每一个训练样本需要计算两次前向传播，所以在计算上的

效率会稍低一些。

证明上面算法能达到梯度下降效果的完整推导过程不再本教程的范围之内。不过如果你想要使用经过以上修改的后向传播来实现自编码神经网络，那

么你就会对目标函数做梯度下降。使用导数验证方法，你可以自己确认此说法。

Neural Networks | Backpropagation Algorithm | Gradient checking and advanced optimization | Autoencoders and Sparsity | Visualizing a Trained

Autoencoder | Sparse Autoencoder Notation Summary | Exercise:Sparse Autoencoder

Retrieved from

"http://deeplearning.stanford.edu/wiki/index.php/%E8%87%AA%E7%BC%96%E7%A0%81%E7%AE%97%E6%B3%95%E4%B8%8E%E7%A8%80%E7%96%8F%E6%80%A7"

This page was last modified on 12 March 2013, at 14:20.

可视化自编码器训练结果

From Ufldl

【原文】：

Having trained a (sparse) autoencoder, we would now like to visualize the function learned by the algorithm, to try to understand

what it has learned. Consider the case of training an autoencoder on images, so that . Each hidden unit

computes a function of the input:

【初译】：

得到了训练好的（稀疏）自编码器，我们就可以将通过算法习得的函数进行可视化，以便于了解学习的结果。我们以使用10×10的图像来训练自编码器为

例，此时n=100。针对每个隐藏单元i，将输入值代入以下方程：

【一校】：

在得到了已经训练好的（稀疏）自编码器之后，我们希望可以将通过学习算法得到的函数进行可视化处理，以便于了解学习的结果。对于可视化过程，我

们以一个通过对10×10的图像进行训练而得到的自编码器为例来进行说明，此例中n=100。在该自编码器中，每个隐藏单元i将输入代入到以下函数进行计

算：

【二校】：

我们得到训练好的（稀疏）自编码器后，希望通过可视化学习算法习得的函数，理解学习结果。考虑在10×10的图像上训练自编码器的例子，n=100。在

该自编码器中，每个隐藏单元i将输入代入到以下函数进行计算：

【三校】：

训练完（稀疏）自编码器，我们还想把这自编码器学到的函数可视化出来，好弄明白它到底学到了什么。我们以在10×10图像（即n=100）上训练自编码

器为例。在该自编码器中，每个隐藏单元i对如下关于输入的函数进行计算：

【原文】：

We will visualize the function computed by hidden unit ---which depends on the parameters (ignoring the bias term for now)-

--using a 2D image. In particular, we think of as some non-linear feature of the input . We ask: What input image would

cause to be maximally activated? (Less formally, what is the feature that hidden unit is looking for?) For this question to

have a non-trivial answer, we must impose some constraints on . If we suppose that the input is norm constrained by

, then one can show (try doing this yourself) that the input which maximally activates hidden unit is given

by setting pixel (for all 100 pixels, ) to

【初译】：

我们将用2D图像对这个由隐藏单元i计算出的函数进行可视化，这个函数依赖于参数（忽略掉偏置项b

）。此时，如果我们将理解为输入向量的

某个非线性特征值，我们需要思考：什么样的输入图像会使得激励取得最大值？（也就是说，隐藏单元找到的是一个什么样的特征值？）。因为这

个问题需要有一个有实际意义的解，所以我们必须对加以限制。我们采用输入向量长度的平方进行归一化限制，于是可以得到

（请读者尝试自行推导。），当输入对隐藏单元产生最大的激励时，其输入像素（对所有100个输入像素，j=1,…,100）所取的值应为：

【一校】：

接着我们将使用一个2D图像对这个由隐藏单元i负责计算的函数进行可视化，注意该函数依赖于参数集（暂时忽略偏差项b

）。如果再具体一些，我

们可以将理解为输入向量的某个非线性特征。然后我们便想问：什么样的输入图像会最大程度上激励？（通俗一点的说法是隐藏单元需要找到

的是一个什么样的特征？）。为了使这个问题有一个有实际意义的解释，我们必须对加以限制。如果假设输入向量符合的范式限

制，那么我们可以知道（请读者尝试自行推导。），当输入向量对隐藏单元产生最大程度的激励时，在2D图像中所对应的像素（对应的像素总共有

100个，j=1,…,100）所取的值应为：

【二校】：

接着我们使用一个2D图像对这个由隐藏单元i负责计算的函数进行可视化，该函数依赖于参数集（暂时忽略偏差项b

）。更具体些，我们可以将

理解为输入向量的某个非线性特征。然后我们便想问：什么样的输入图像会使得到最大程度的激励？（说通俗点，隐藏单元需要找到的是一个

什么样的特征？）。为了使这个问题有一个有实际意义的解释，我们必须对加以限制。如果假设输入向量符合的范式限制，那么

我们可以知道（请读者尝试自行推导。），当输入向量对隐藏单元产生最大程度的激励时，在2D图像中所对应的像素（对应的像素总共有100个，

j=1,…,100）所取的值应为：

【三校】：

我们将要可视化的函数，就是上面这个以2D图像为输入、并由隐藏单元i计算出来的函数。它是依赖于参数的（暂时忽略偏置项b

）。需要注意的

是，可看作输入的非线性特征。不过还有个问题：什么样的输入图像可让得到最大程度的激励？（通俗一点说，隐藏单元要找个什么样的特

征？）。这里我们必须给加约束，否则会得到平凡解。若假设输入有范数约束，则可证（请读者自行推导）令隐藏单元得到最

大激励的输入应由下面公式计算的像素给出（共需计算100个像素，j=1,…,100）：

【三校说明】：

原文第一句有“using a 2D image”，我这里译为“以2D图像为输入”，一则表达意思相同，二则与上一段最后一句呼应。原文中的“in

particular”，应为强调之意。原文“as some non-linear feature”中的“some”，似不译为好。非线性特征当然可以有很多，而这里计算出来的当

13-3-22  - U fldl

2/4deeplearning.stanford.edu/w iki/index.php/

然也只是其中一种，其意不言自明。

【原文】：

By displaying the image formed by these pixel intensity values, we can begin to understand what feature hidden unit is looking for.

【初译】：

用求得的输入像素的值作为图像的亮度进行显示，我们就可以了解到隐藏单元要寻找的特征值是什么样子了。

【一校】：

当我们用上式所得到的像素值构成我们所需要的2D图像，就可以了解到隐藏单元要寻找的特征是什么样子了。

【二校】：

当我们用上式所得到的像素值构成我们所需要的2D图像，就可以了解到隐藏单元要寻找的特征是什么样子了。

【三校】：

当我们用上式算出各像素的值、把它们组成一幅图像、并将图像呈现在我们面前之时，隐藏单元所追寻特征的真正含义也渐渐明朗起来。

【原文】：

If we have an autoencoder with 100 hidden units (say), then we our visualization will have 100 such images---one per hidden unit. By

examining these 100 images, we can try to understand what the ensemble of hidden units is learning.

【初译】：

假设我们训练了一个拥有100个隐藏单元的自编码器，那么我们的可视化结果应该包含100幅这样的图像——每个隐藏单元对应一幅。通过观察这100幅图

像，我们可以了解到隐藏单元学习的总体效果。

【一校】：

假设我们训练了一个拥有100个隐藏单元的自编码器，那么我们的可视化结果应该包含100幅这样的图像——每个隐藏单元对应一幅图像。通过观察这100

幅图像，我们可以了解到隐藏单元学习的总体效果。

【二校】：

假设我们训练了一个拥有100个隐藏单元的自编码器，那么我们的可视化结果应该包含100幅这样的图像——每个隐藏单元对应一幅。通过观察这100幅图

像，我们可以了解到隐藏单元学习的总体效果。

【三校】：

假如我们训练的自编码器有100个隐藏单元，可视化结果就会包含100幅这样的图像——每个隐藏单元都对应一幅图像。审视这100幅图像，我们可以试着

体会这些隐藏单元学出来的整体效果是什么样的。

【原文】：

When we do this for a sparse autoencoder (trained with 100 hidden units on 10x10 pixel inputs

we get the following result:

【初译】：

当我们对一个稀疏自编码器（使用10×10的像素输入对100个隐藏单元进行训练，注1）进行以上的可视化处理后，得到了如下的结果：

【一校】：

当我们对一个稀疏自编码器（使用100个隐藏单元对像素分辨率为10X10的输入进行训练，注1）进行以上的可视化处理后，得到了如下的结果：

【二校】：

当我们对一个稀疏自编码器（使用100个隐藏单元对像素分辨率为10X10的输入进行训练，注1）进行以上的可视化处理后，得到了如下的结果：

【三校】：

当我们对稀疏自编码器（100个隐藏单元，在10X10像素的输入上训练）进行上述可视化处理之后，结果如下所示：

【三校说明】：

“一个稀疏自编码器”中的“一个”不必译出来。当然是一个，还能是几个？

剩余96页未读，继续阅读

方2郭

粉丝: 32
资源: 324

深度学习教程中文版1：神经网络及逻辑回归

Deep Learning教程中文版

Deep Learning 教程中文版

deep learning中文教程

deep learning 高清中文版

Deep Learning（中文版）

Deep Learning (中文版)

Deep Learning 中文版

DeepLearning中文版

deep learning中文版

Deep Learning中文版

最新资源