非监督特征学习与深度学习中文教程：UFLDL

需积分: 16 22 浏览量更新于2023-05-28 1 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"非监督特征学习与深度学习中文教程（UFLDL）是针对机器学习领域的一个教程，旨在介绍非监督特征学习和深度学习的基本概念和技术。教程的翻译者是Shuai Yuan，他建议初学者转向斯坦福的CS231n课程，该课程在网易云课堂有中文字幕版本。此教程的最新中文版本可以在GitHub上找到，同时提供了使用Haroopad阅读的建议，因为Haroopad支持Markdown和TeX公式编辑。教程涵盖了非监督特征学习和深度学习的主要思想，要求读者具备基本的机器学习知识，特别是对监督学习和梯度下降的理解。" 非监督特征学习是机器学习中的一种方法，它在没有明确的标签或分类信息的情况下，从原始数据中自动发现有意义的表示或特征。这种方法对于处理大量未标记数据特别有用，如在图像识别、自然语言处理和推荐系统等领域。深度学习则是一种基于神经网络的非监督学习方法，它通过构建多层的抽象层次来学习复杂的数据表示。深度学习在许多任务中表现出卓越的性能，如图像分类、语音识别和自然语言理解。本教程的目标是教授读者如何实现特征学习和深度学习的算法，并了解如何将这些技术应用于新的问题。它假设读者已经熟悉监督学习的基本概念，如逻辑斯特回归和梯度下降算法。如果读者对这些基础概念不熟悉，教程推荐先学习相关的机器学习课程。教程的材料由一系列研究人员提供，包括Andrew Ng等，他们都是深度学习领域的知名专家。教程中可能包含一些英文原文的错误，读者可以通过创建GitHub issue或发送邮件来指出和纠正。此外，教程还提供了其他相关领域的学习资源，如计算机科学、人工智能、机器学习、强化学习和深度强化学习，以及公开数据集的信息，以供进一步探索和实践。非监督特征学习与深度学习中文教程（UFLDL）是一个为希望深入理解和应用这些技术的学者和从业者提供的宝贵资源。通过阅读和实践，读者将能够掌握这些强大的工具，并将它们应用到实际的项目中。

资源详情

资源推荐

案例：梯度计算的矩阵乘法（Example: matrix multiplication in gradient computations ）

在线性回归的梯度计算中，其形式可概括为：

当有通过单个索引（公式中的）与其它几个固定索引（公式中的）的求和操作时，经常将这个计算改写成矩阵乘法 $[A B]{jk} = \sum_i A{ji} B_{ik}

y \hat{y} y_i \equiv y^{(i)}$），那么可将上面这样的求和模式重新写成下面这样：

因此，由于矩阵的整体计算思想，不需要逐个索引依次计算，实际只需计算就可以了。在 MATLAB 中的实现如下：

% X(j,i) = j'th coordinate of i'th example.

% y(i) = i'th value to be predicted; y is a column vector.

% theta = vector of parameters

y_hat = theta'*X; % so y_hat(i) = theta' * X(:,i). Note that y_hat is a *row-vector*.

g = X*(y_hat' - y);

进一步优化练习 1A 和 1B（Exercise 1A and 1B Redux ）

返回您练习的 1A 和 1B 代码中，在

ex1a_linreg.m 和 ex1b_logreg.m 文件中，您将发现调用 minFunc 时分别使用的是文件 linear_regression_vec.m 和

logistic_regression_vec.m ，但却是被注释掉的，而不是用 linear_regression.m 和 logistic_regression.m 文件。在本次练习中，请您将

linear_regression_vec.m 和 logistic_regression_vec.m 里的代码以（前文所讲过的）向量化的方式实现并补充完整。将 ex1a_linreg.m 和 ex1b_logreg.m 文

件中的注释取消掉，并比较二者代码的运行时间，检验（现在的代码）是否和先前原本的代码得到的结果是一样的。

调试：梯度检查（Debugging: Gradient Checking）

迄今为止，在 MATLAB 中已经实现了通过计算目标函数的导数来计算梯度的算法（这种求梯度的方法叫做解析解）。在后续章节中，将看到更复杂的模型

（例如神经网络的反向传播算法）。对于这些模型，梯度的计算会变得难以调试，并难以得到正确结果。有时，代码中的微小错误也可以使模型学习到东

西，尽管表现稍稍不如完全正确的代码。因此，即使代码中微小的错误，也难说对最终结果有不好的影响。在本节中，将描述一种在数值层面（这种求梯度

的方法叫做数值解）上检查你的代码在导数计算部分的正确性。通过用数值解来验证导数求得的梯度结果，可以增加您在代码正确性上的信心。

译者注：

解析解指能够根据题意，得出在一定条件下的能够以数学表达式直接表达出来的的解。而数值解指在题中所给出的条件下难以用数学表达式表

达出来，或者能够表达出来但需要每个给定自变量值下的数字结果，而通过计算（手算或计算机计算）的出来的以表格或图形表示的结果。

数值解一般

是近似结果，它与微分方程的真实结果有偏差（参考：百度知道）。

假设想要最小化带有参数的函数。在这个例子中，假设有，。如果使用

minFunc 或其它优化算法，在此之前已实现了某个

函数的代码，函数是计算的导数，即（解析解）。

怎样检查的代码实现是正确的呢？

再来回顾一下导数的数学定义：

因此，对任何特定的参数值，可以用下面这个方法（数值解）检查与导数值（解析解）是否接近:

在实践中，设置为一小常量，通常设置为。（的值域范围尽管很大，但不设置 “非常”小，比如，因为

这会产生计算机的舍入误差。）

译者注：

舍入误差，由于计算机的字长有限，进行数值计算的过程中，对计算得到的中间结果数据要使用“四舍五入”或其他规则取近似值，因而使计算

过程有误差。这种误差称为舍入误差（参考：百度百科）。

因此，对给定目标函数的导数，它计算的是（即解析解），可以通过下面这个式子从数值角度（即数值解）来验证导数求得的解（即解析

解）的正确性

以这两个值彼此的接近程度将取决于。假设。通常，你会发现的上面这个约等式中的左手边和右手边两个计算出的结果，一致的位

数至少4位（但也经常更多）。

现在，考虑一下参数是一个向量，而非单个实数的情况（为了想要学到的个参数），并且有。现在，概括了导数检查过程，其中参数

可能是一个向量（如在线性回归和逻辑回归的例子中的）。如果正在通过几个向量或者矩阵来做优化，可以将这些参数“打包”进一个“长”的向量中去。在这

里，可以用同样的方法来检查导数。（这也可以使用现成的优化包来完成）。

假设有目标函数的导数的计算并化简出的结果：；想要检查通过导数算出的梯度是否输出了正确的导数值（即梯度值）。有

，其中

= ( − ).

∂

(

;

)

∂

∑

(

)

(

)

(

)

的形式。即，如果和是列向量（有

= ( − ) = [

( −

) .

∂

(

;

)

∂

∑

]

( −

)

(

)

↦

∈

(

)

(

)

(

)

(

)

dθ

(

) = .

dθ

lim

→0

(

) −

(

−

)

(

+ EPSILON) −

(

− EPSILON)

2 × EPSILON

EPSILON

−4

EPSILON EPSILON

−20

(

)

(

)

dθ

(

) ≈ .

(

+ EPSILON) −

(

− EPSILON)

2 × EPSILON

EPSILON =

−4

: ↦

(

)

(

)

∂

(

)

+ EPSILON ×

(



[ ]



00⋮1⋮0

是第个基向量（是与参数同维度的向量，在向量中第个位置的元素值为，其余全部为）。所以，除了其第个元素被

增加外，参数与是相同的。同理，是参数向量在第个位置的元素被相减得到的向量。

现在，可以从数值上（数值解的角度），对第个参数的梯度进行检查（译者注：检查的是模型参数向量中每一个参数的梯度，从数值解的角度来验

证解析解），以验证解析解的正确性：

梯度检查代码（Gradient checker code ）

本次练习，将尝试实现上述方法来检查您的线性回归（Linear Regression）和逻辑斯特回归（Logistic Regression）函数的梯度。另外，您也可以使用提供

的

ex1/ grad_check.m 文件（其中带有的参数与 minFunc 类似），对众多随机选择的做导数值的检查。

Softmax 回归（Softmax Regression）

介绍（Introduction ）

Softmax 回归（或称为多元逻辑斯特回归），是逻辑斯特回归用来处理多类分类问题的更一般化形式。在逻辑斯特回归中，假定类别标签都是二元的：即

。之前曾用这样的一个分类器来做两类的（数字 1 和 0 的）手写数字分类。然而， Softmax 回归可处理 K 个类别的分类问题，其中类别标签

。

不妨再回顾一下逻辑斯特回归，有个已标记类别的训练集，其中（每个样本的）输入特征是。在先前的逻辑

斯特回归中，分类设定是两类，所以类标签，假设采取的形式为：

其中，模型参数在最小化代价函数时求得：

在 Softmax 回归的设定中，（与前文中两类分类不同）因为重点关注在多类分类，即类别标签可以取个不同的值，而不仅限于（两类分类中的）两个

值。因此，训练集样本的类别标签值有。（注意：通常类别标签起始于，而不是）。举个例子，

在数字识别任务（译者注： MNIST 是一个手写数字识别库，由 NYU 的 Yann LeCun 等人维护。http://yann.lecun.com/exdb/mnist/ ）中，

，即类别总数是个。

给出测试输入，希望假设可以针对同一样本在不同的（其中，）值下估计概率的值。也就是说，想要估计类标签取个

不同的值时的概率。由此，假设将会输出维向量（该向量元素值和为），它给出的是个类别对应的估计概率值。更具体地说，假设会采取

形式为：

$$ \begin{align} h_\theta(x) = \begin{bmatrix} P(y = 1 | x; \theta) \ P(y = 2 | x; \theta) \ \vdots \ P(y = K | x; \theta) \end{bmatrix}

\frac{1}{ \sum_{j=1}^{K}{\exp(\theta^{(j)\top} x) }}

\end{align} $$

这里，是模型的参数。需要注意的是，这一项对分布进行了标准化（），所以其（最终）会加和为

一项。

为方便起见，也写来表示模型的所有参数。当你实现 Softmax 回归时，行列的矩阵其实也是一列列所组成的，即

代价函数（Cost Function ）

现在来描述 Softmax 回归的代价函数。在下面的方程中，被称为“指示器函数”（ indicator function ，译者注：老版教程中译为“示性函数”），即

，。例如，求出的数值为；而求出的数值为。代价函数将会是：

值得注意的是，逻辑斯特回归的代价函数也可等价地写成如下形式：

除了需要将个不同的类标签的概率值相加外，逻辑斯特回归的代价函数与 Softmax 的代价函数是相似的。需要注意的是，在 Softmax 回归中有：

对于的最小化（最优化）问题，目前还没有闭式解法（译者注：闭式解法，，即计算解析解的方法，指无需通过迭代计算而得

到结果的解法）。因此，如往常一样，使用优化算法通过迭代的方式求解。对目标函数求导数（即梯度），其梯度为：



“1” “0”

EPSILON

(

− EPSILON ×

(

−)



EPSILON

(

)

(

) ≈ .

( ) −

( )

(

−)

2 × EPSILON

∂

(

)

∂

∈ 0, 1

(

)

∈ 1,

(

)

( , ), … , ( , )

(1)

(

)

(

)

∈

(

)

∈ 0, 1

(

)

(

) = ,

1 + exp(−

)

⊤

(

) = −

[

log ( ) + (1 − ) log(1 − ( ))

]

∑

(

)

(

)

(

)

(

)

( , ), … , ( , )

(1)

(

)

(

)

∈ 1, 2, … ,

(

)

1 0

MNIST

= 10 10

= 1, . . . ,

(

)

(

)

[ ]

exp(

) exp(

)⋮ exp(

)

(1)⊤

(2)⊤

(

)⊤

, , … , ∈

(1)

(2)

(

)

exp(

)

∑

(

)⊤

normalize

θ θ

(

)

[ ]

| | |

|

(1)

(2)

⋯

|

(

)

| | |

1⋅

值为真的表达式

= 1 1

值为假的表达式

= 0

12 + 2 = 4

11 + 1 = 5

Missing or unrecognized delimiter for \left

( =

| ;

) =

(

)

(

)

exp( )

(

)⊤

(

)

exp( )

∑

(

)⊤

(

)

(

)

closed

−

formway

(

) = −

[ (

1 =

−

( =

| ;

)

)]

∇

(

)

∑

(

)

(

)

(

)

(

)

剩余40页未读，继续阅读

绝不原创的飞龙

粉丝: 2w+
资源: 1091

会员权益专享

非监督特征学习与深度学习中文教程：UFLDL

斯坦福大学-深度学习基础教程_深度学习_UFLDL教程_comingl2g_sklearn_

深度学习基础教程UFLDL1

深度学习（Deep Learning - UFLDL教程中文版）

学习优化非刚性跟踪的深度特征集成与条件网络实验

综合监督特征学习的场景文本识别方法

基于旋转特征解耦的自监督特征学习方法

室内无监督视频深度学习的挑战及新方法

无参考自监督特征学习方法用于真实失真图像质量评估

ufldl tutorial机器学习联系答案

无监督图学习和深度学习区别与联系

有监督深度学习变化检测和无监督深度学习变化检测方法区别

监督学习和深度学习有什么区别

无监督学习的深度学习评价方法

深度学习是有监督型的机器学习吗

半监督算法与深度学习算法的结合在建立预测模型的作用

监督学习深度学习模型

半监督算法与深度学习算法的结合有什么作用

陆家嘴学堂邹博 python机器学习与深度学习课件

深度学习与非深度学习的区别

机械学习与深度学习的主要内容

会员权益专享

最新资源