深度学习入门：多层感知机与实践策略

需积分: 0 181 浏览量更新于2024-07-01 收藏 12.46MB PDF 举报

《动手学深度学习》是一本介绍深度学习基础知识和技术的教材，由A. Zhang、M. Li、Z. C. Lipton和A. J. Smola共同编著，于2019年1月16日发布测试版。本书主要涵盖深度学习的基本概念、模型构建、优化方法以及常见的网络结构，如多层感知机（MLP）、卷积神经网络（CNN）和循环神经网络（RNN）。章节3.10涉及多层感知机的简洁实现，这是在理解深度学习中常用的一种前馈神经网络，它包含多个隐藏层，每个隐藏层与下一层的所有节点相连。简洁实现部分可能讲解了如何利用高级库（如TensorFlow或PyTorch）快速构建多层神经网络模型，包括权重初始化、激活函数等关键步骤，旨在简化实际编程过程，让学生更快上手。 3.11部分深入讨论模型选择、拟合和过拟合问题。模型选择涉及根据任务需求和数据特性选择合适的网络架构；拟合是指训练模型使其适应训练数据，而过拟合则指模型在训练数据上表现很好，但在新数据上的泛化能力较差。这部分内容会介绍正则化技术，如权重衰减（L2正则化），来防止过拟合的发生。 3.12讲解了丢弃法，一种常用的正则化策略，通过在训练过程中随机关闭一部分神经元，以减少神经元之间的依赖关系，从而提高模型的泛化性能。 3.13至3.14部分介绍了正向传播和反向传播算法，这是深度学习中优化模型参数的关键步骤。正向传播是预测模型输出的过程，而反向传播则是根据预测误差调整参数以最小化损失函数，两者结合形成梯度下降等优化算法的基础。此外，书中还涵盖了深度学习计算实践，如模型构造、参数管理、自定义层设计、GPU加速等实用技巧。对于视觉任务，卷积神经网络的详细介绍从基本的二维卷积层开始，逐步介绍了各种复杂结构，如LeNet、AlexNet、VGG、NiN、GoogLeNet、ResNet和DenseNet。循环神经网络章节讲解了语言模型和RNN的基本原理，这对于处理序列数据，如自然语言理解和语音识别，至关重要。这本书提供了从入门到进阶的深度学习教学，适合想要系统学习深度学习技术的读者，无论是初学者还是有一定经验的开发者，都能在其中找到适用的内容。通过阅读这些章节，读者可以掌握深度学习的核心概念，学会如何构建、优化和应用深度学习模型。

图 1.1: 在中世纪，16名男⼦的平均脚⻓被⽤来估计男⼦的平均脚⻓

如图1.1所⽰，在这个研究中，16位成年男⼦被要求在离开教堂时站成⼀排并把脚贴在⼀起，而后

他们脚的总⻓度除以16得到了⼀个估计：这个数字⼤约相当于今⽇的⼀英尺。这个算法之后⼜被

改进，以应对特异形状的脚：最⻓和最短的脚不计⼊，只对剩余的脚⻓取平均值，即裁剪平均值

的雏形。

现代统计学在20世纪的真正起⻜要归功于数据的收集和发布。统计学巨匠之⼀罗纳德·费雪（1890–

1962）对统计学理论和统计学在基因学中的应⽤功不可没。他发明的许多算法和公式，例如线性

判别分析和费雪信息，仍经常被使⽤。即使是他在1936年发布的Iris数据集，仍然偶尔被⽤于演

⽰机器学习算法。

克劳德·⾹农（1916–2001）的信息论以及阿兰·图灵（1912–1954）的计算理论也对机器学习有深远

8 1. 引⾔

影响。图灵在他著名的论⽂《计算机器与智能》中提出了“机器可以思考吗？”这样⼀个问题[1]。

在他描述的“图灵测试”中，如果⼀个⼈在使⽤⽂本交互时不能区分他的对话对象到底是⼈类还

是机器的话，那么即可认为这台机器是有智能的。时⾄今⽇，智能机器的发展可谓⽇新⽉异。

另⼀个对深度学习有重⼤影响的领域是神经科学与⼼理学。既然⼈类显然能够展现出智能，那么

对于解释并逆向⼯程⼈类智能机理的探究也在情理之中。最早的算法之⼀是由唐纳德·赫布（1904–

1985）正式提出的。在他开创性的著作《⾏为的组织》中，他提出神经是通过正向强化来学习的，

即赫布理论 [2]。赫布理论是感知机学习算法的原型，并成为⽀撑今⽇深度学习的随机梯度下降

算法的基⽯：强化合意的⾏为、惩罚不合意的⾏为，最终获得优良的神经⽹络参数。

来源于⽣物学的灵感是神经⽹络名字的由来。这类研究者可以追溯到⼀个多世纪前的亚历⼭⼤·

⻉恩（1818–1903）和查尔斯·斯科特·谢灵顿（1857–1952）。研究者们尝试组建模仿神经元互动的

计算电路。随着时间发展，神经⽹络的⽣物学解释被稀释，但仍保留了这个名字。时⾄今⽇，绝

⼤多数神经⽹络都包含以下的核⼼原则。

• 交替使⽤线性处理单元与⾮线性处理单元，它们经常被称为“层”。

• 使⽤链式法则（即反向传播）来更新⽹络的参数。

在最初的快速发展之后，⾃约1995年起⾄2005年，⼤部分机器学习研究者的视线从神经⽹络上移

开了。这是由于多种原因。⾸先，训练神经⽹络需要极强的计算⼒。尽管20世纪末内存已经⾜够，

计算⼒却不够充⾜。其次，当时使⽤的数据集也相对小得多。费雪在1936年发布的的Iris数据集

仅有150个样本，并被⼴泛⽤于测试算法的性能。具有6万个样本的MNIST数据集在当时已经被认

为是⾮常庞⼤了，尽管它如今已被认为是典型的简单数据集。由于数据和计算⼒的稀缺，从经验

上来说，如核⽅法、决策树和概率图模型等统计⼯具更优。它们不像神经⽹络⼀样需要⻓时间的

训练，并且在强⼤的理论保证下提供可以预测的结果。

1.2.2 发展

互联⽹的崛起、价廉物美的传感器和低价的存储器令我们越来越容易获取⼤量数据。加之便宜的

计算⼒，尤其是原本为电脑游戏设计的GPU的出现，上⽂描述的情况改变了许多。⼀瞬间，原本

被认为不可能的算法和模型变得触⼿可及。这样的发展趋势从如下表格中可⻅⼀斑。

1.2. 深度学习简介 9

年代数据样本个数内存每秒浮点计算数

1970 100（Iris） 1 KB 100 K（Intel 8080）

1980 1 K（波⼠顿房价） 100 KB 1 M（Intel 80186）

1990 10 K（⼿写字符识别） 10 MB 10 M（Intel 80486）

2000 10 M（⽹⻚） 100 MB 1 G（Intel Core）

2010 10 G（⼴告） 1 GB 1 T（NVIDIA C2050）

2020 1 T（社交⽹络） 100 GB 1 P（NVIDIA DGX-2）

很显然，存储容量没能跟上数据量增⻓的步伐。与此同时，计算⼒的增⻓⼜盖过了数据量的增⻓。

这样的趋势使得统计模型可以在优化参数上投⼊更多的计算⼒，但同时需要提⾼存储的利⽤效

率，例如使⽤⾮线性处理单元。这也相应导致了机器学习和统计学的最优选择从⼴义线性模型及

核⽅法变化为深度多层神经⽹络。这样的变化正是诸如多层感知机、卷积神经⽹络、⻓短期记忆

循环神经⽹络和Q学习等深度学习的⽀柱模型在过去10年从坐了数⼗年的冷板凳上站起来被“重

新发现”的原因。

近年来在统计模型、应⽤和算法上的进展常被拿来与寒武纪⼤爆发（历史上物种数量⼤爆发的⼀

个时期）做⽐较。但这些进展不仅仅是因为可⽤资源变多了而让我们得以⽤新瓶装旧酒。下⾯的

列表仅仅涵盖了近⼗年来深度学习⻓⾜发展的部分原因。

• 优秀的容量控制⽅法，如丢弃法，使⼤型⽹络的训练不再受制于过拟合（⼤型神经⽹络学

会记忆⼤部分训练数据的⾏为）[3]。这是靠在整个⽹络中注⼊噪声而达到的，如训练时随

机将权重替换为随机的数字 [4]。

• 注意⼒机制解决了另⼀个困扰统计学超过⼀个世纪的问题：如何在不增加参数的情况下扩

展⼀个系统的记忆容量和复杂度。注意⼒机制使⽤了⼀个可学习的指针结构来构建出⼀个

精妙的解决⽅法 [5]。也就是说，与其在像机器翻译这样的任务中记忆整个句⼦，不如记忆

指向翻译的中间状态的指针。由于⽣成译⽂前不需要再存储整句原⽂的信息，这样的结构

使准确翻译⻓句变得可能。

• 记忆⽹络 [6]和神经编码器—解释器 [7]这样的多阶设计使得针对推理过程的迭代建模⽅法

变得可能。这些模型允许重复修改深度⽹络的内部状态，这样就能模拟出推理链条上的各

个步骤，就好像处理器在计算过程中修改内存⼀样。

• 另⼀个重⼤发展是⽣成对抗⽹络的发明 [8]。传统上，⽤在概率分布估计和⽣成模型上的统

计⽅法更多地关注于找寻正确的概率分布，以及正确的采样算法。⽣成对抗⽹络的关键创

新在于将采样部分替换成了任意的含有可微分参数的算法。这些参数将被训练到使辨别器

不能再分辨真实的和⽣成的样本。⽣成对抗⽹络可使⽤任意算法来⽣成输出的这⼀特性为

10 1. 引⾔

许多技巧打开了新的⼤⻔。例如⽣成奔跑的斑⻢ [9]和⽣成名流的照⽚ [10] 都是⽣成对抗⽹

络发展的⻅证。

• 许多情况下单个GPU已经不能满⾜在⼤型数据集上进⾏训练的需要。过去10年内我们构建

分布式并⾏训练算法的能⼒已经有了极⼤的提升。设计可扩展算法的最⼤瓶颈在于深度

学习优化算法的核⼼：随机梯度下降需要相对更小的批量。与此同时，更小的批量也会降

低GPU的效率。如果使⽤1,024个GPU，每个GPU的批量⼤小为32个样本，那么单步训练的批

量⼤小将是32,000个以上。近年来李沐 [11]、Yang You等⼈ [12]以及Xianyan Jia等⼈ [13]的

⼯作将批量⼤小增⾄多达64,000个样例，并把在ImageNet数据集上训练ResNet-50模型的时

间降到了7分钟。与之对⽐，最初的训练时间需要以天来计算。

• 并⾏计算的能⼒也为⾄少在可以采⽤模拟情况下的强化学习的发展贡献了⼒量。并⾏计算

帮助计算机在围棋、雅达利游戏、星际争霸和物理模拟上达到了超过⼈类的⽔准。

• 深度学习框架也在传播深度学习思想的过程中扮演了重要⻆⾊。Cae、Torch和Theano这

样的第⼀代框架使建模变得更简单。许多开创性的论⽂都⽤到了这些框架。如今它们已经

被TensorFlow（经常是以⾼层API Keras的形式被使⽤）、CNTK、Cae 2 和Apache MXNet所

取代。第三代，即命令式深度学习框架，是由⽤类似NumPy的语法来定义模型的 Chainer所

开创的。这样的思想后来被 PyTorch和MXNet的Gluon API 采⽤，后者也正是本书⽤来教学

深度学习的⼯具。

系统研究者负责构建更好的⼯具，统计学家建⽴更好的模型。这样的分⼯使⼯作⼤⼤简化。举例

来说，在2014年时，训练⼀个逻辑回归模型曾是卡内基梅隆⼤学布置给机器学习⽅向的新⼊学博

⼠⽣的作业问题。时⾄今⽇，这个问题只需要少于10⾏的代码便可以完成，普通的程序员都可以

做到。

1.2.3 成功案例

⻓期以来机器学习总能完成其他⽅法难以完成的⽬标。例如，⾃20世纪90年代起，邮件的分拣就

开始使⽤光学字符识别。实际上这正是知名的MNIST和USPS⼿写数字数据集的来源。机器学习

也是电⼦⽀付系统的⽀柱，可以⽤于读取银⾏⽀票、进⾏授信评分以及防⽌⾦融欺诈。机器学习

算法在⽹络上被⽤来提供搜索结果、个性化推荐和⽹⻚排序。虽然⻓期处于公众视野之外，但是

机器学习已经渗透到了我们⼯作和⽣活的⽅⽅⾯⾯。直到近年来，在此前认为⽆法被解决的问题

以及直接关系到消费者的问题上取得突破性进展后，机器学习才逐渐变成公众的焦点。这些进展

基本归功于深度学习。

• 苹果公司的Siri、亚⻢逊的Alexa和⾕歌助⼿⼀类的智能助⼿能以可观的准确率回答口头提

1.2. 深度学习简介 11

出的问题，甚⾄包括从简单的开关灯具（对残疾群体帮助很⼤）到提供语⾳对话帮助。智

能助⼿的出现或许可以作为⼈⼯智能开始影响我们⽣活的标志。

• 智能助⼿的关键是需要能够精确识别语⾳，而这类系统在某些应⽤上的精确度已经渐渐增

⻓到可以与⼈类⽐肩 [14]。

• 物体识别也经历了漫⻓的发展过程。在2010年从图像中识别出物体的类别仍是⼀个相当有

挑战性的任务。当年⽇本电⽓、伊利诺伊⼤学⾹槟分校和罗格斯⼤学团队在ImageNet基准

测试上取得了28%的前五错误率 [15]。到2017年，这个数字降低到了2.25% [16]。研究⼈员

在⻦类识别和⽪肤癌诊断上，也取得了同样惊世骇俗的成绩。

• 游戏曾被认为是⼈类智能最后的堡垒。⾃使⽤时间差分强化学习玩双陆棋的TD-Gammon开

始，算法和算⼒的发展催⽣了⼀系列在游戏上使⽤的新算法。与双陆棋不同，国际象棋

有更复杂的状态空间和更多的可选动作。“深蓝”⽤⼤量的并⾏、专⽤硬件和游戏树的⾼

效搜索打败了加⾥·卡斯帕罗夫 [17]。围棋因其庞⼤的状态空间被认为是更难的游戏，Al-

phaGo在2016年⽤结合深度学习与蒙特卡洛树采样的⽅法达到了⼈类⽔准 [18]。对德州扑

克游戏而⾔，除了巨⼤的状态空间之外，更⼤的挑战是游戏的信息并不完全可⻅，例如看

不到对⼿的牌。而“冷扑⼤师”⽤⾼效的策略体系超越了⼈类玩家的表现 [19]。以上的例⼦

都体现出了先进的算法是⼈⼯智能在游戏上的表现提升的重要原因。

• 机器学习进步的另⼀个标志是⾃动驾驶汽⻋的发展。尽管距离完全的⾃主驾驶还有很⻓的

路要走，但诸如Momenta、Tesla、NVIDIA、MobilEye和Waymo这样的公司发布的具有部

分⾃主驾驶功能的产品展⽰出了这个领域巨⼤的进步。完全⾃主驾驶的难点在于它需要将

感知、思考和规则整合在同⼀个系统中。⽬前，深度学习主要被应⽤在计算机视觉的部分，

剩余的部分还是需要⼯程师们的⼤量调试。

以上列出的仅仅是近年来深度学习所取得的成果的冰⼭⼀⻆。机器⼈学、物流管理、计算⽣物学、

粒⼦物理学和天⽂学近年来的发展也有⼀部分要归功于深度学习。可以看到，深度学习已经逐渐

演变成⼀个⼯程师和科学家皆可使⽤的普适⼯具。

1.2.4 特点

在描述深度学习的特点之前，我们先回顾并概括⼀下机器学习和深度学习的关系。机器学习研究

如何使计算机系统利⽤经验改善性能。它是⼈⼯智能领域的分⽀，也是实现⼈⼯智能的⼀种⼿段。

在机器学习的众多研究⽅向中，表征学习关注如何⾃动找出表⽰数据的合适⽅式，以便更好地将

输⼊变换为正确的输出，而本书要重点探讨的深度学习是具有多级表⽰的表征学习⽅法。在每⼀

级（从原始数据开始），深度学习通过简单的函数将该级的表⽰变换为更⾼级的表⽰。因此，深

12 1. 引⾔

剩余532页未读，继续阅读

八位数花园

粉丝: 746
资源: 281

深度学习入门：多层感知机与实践策略

动手深度学习1

动手学深度学习 by 阿斯顿·张（Aston Zhang） 李沐（Mu Li） [美] 扎卡里·C1

动手学深度学习1-自己敲的码

动手学深度学习1：数据操作入门

动手学深度学习

动手学深度学习之深度学习基础

动手学深度学习 Task5 学习

动手学深度学习学习代码.zip

DAY 2 动手学习深度学习

Al:动手学习深度学习

最新资源

动手学深度学习 by 阿斯顿·张（Aston Zhang）李沐（Mu Li） [美] 扎卡里·C1