没有合适的资源?快使用搜索试试~ 我知道了~
首页deep learning book(Ian Goodfellow Yoshua Bengio Aaron Courville)
deep learning book(Ian Goodfellow Yoshua Bengio Aaron Courville)
3星 · 超过75%的资源 需积分: 11 18 下载量 113 浏览量
更新于2023-06-01
评论 1
收藏 22.29MB PDF 举报
deep learning book from basic to advanced topics, best book for you to start learning deep learning
资源详情
资源评论
资源推荐
Deep
Learning
Ian
Go
o
dfello
w
Y
osh
ua
Bengio
Aaron
Courville
Con
ten
ts
W
ebsite
vii
A
c
kno
wledgmen
ts
viii
Notation
xi
1
In
tro
duction
1
1.1
Who
Should
Read
This
Bo
ok?
. . . . . .
. . . . . . . . .
. . . . .
8
1.2
Historical
T
rends
in
Deep
Learning
. . . . . . . . .
. . . . . . . .
11
I
Applied
Math
and
Mac
hine
Learning
Basics
29
2
Linear
Algebra
31
2.1
Scalars,
V
ectors,
Matrices
and
T
ensors
. . . . . . . . .
. . . . . .
31
2.2
Multiplying
Matrices
and
V
ectors
. . . . . . . . .
. . . . . . . .
.
34
2.3
Iden
tit
y
and
In
verse
Matrices
. . . . . . . . .
. . . . . . . .
. . .
36
2.4
Linear
Dep
endence
and
Span
. . . . . . . . .
. . . . . . . .
. . .
37
2.5
Norms
. . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
39
2.6
Sp
ecial
Kinds
of
Matrices
and
V
ectors
. . . . . . . . . . . . . . .
40
2.7
Eigendecomp
osition
. . . . . . . . . .
. . . . . . . .
. . . . . . . .
42
2.8
Singular
V
alue
Decomp
osition
. . . . . . . .
. . . . . . . .
. . . .
44
2.9
The
Mo
ore-P
enrose
Pseudoinv
erse
. . . . . . . . .
. . . . . . . .
.
45
2.10
The
T
race
Op
erator
. . . . . . . . .
. . . . . . . .
. . . . . . . .
46
2.11
The
Determinan
t
. .
. . . . . . . .
. . . . . . . .
. . . . . . . . .
47
2.12
Example:
Principal
Comp
onents
Analysis
. . . . . . . . .
. . . .
48
3
Probabilit
y
and
Information
Theory
53
3.1
Wh
y
Probabilit
y?
. . . . .
. . . . . . . . .
. . . . . . . .
. . . . .
54
i
CONTENTS
3.2
Random
V
ariables
. . . . .
. . . . . . . .
. . . . . . . . .
. . . .
56
3.3
Probabilit
y
Distributions
. . . . . . . . .
. . . . . . . .
. . . . . .
56
3.4
Marginal
Probabilit
y
. . . . . . . . .
. . . . . . . . .
. . . . . . .
58
3.5
Conditional
Probabilit
y
. .
. . . . . . . .
. . . . . . . .
. . . . .
59
3.6
The
Chain
Rule
of
Conditional
Probabilities
. . . . . . . . .
. . .
59
3.7
Indep
endence
and
Conditional
Indep
endence
. . . . . . . . .
. . .
60
3.8
Exp
ectation,
V
ariance
and
Co
v
ariance
. . . . . . . . . .
. . . . .
60
3.9
Common
Probabilit
y
Distributions
. . . . . . . . . . . . . . .
. .
62
3.10
Useful
Prop
erties
of
Common
F
unctions
. . .
. . . . . . . . .
. .
67
3.11
Ba
y
es’
Rule
. . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . .
70
3.12
T
echnical
Details
of
Con
tin
uous
V
ariables
. . . . . .
. . . . . . .
71
3.13
Information
Theory
. . . . . . . . . .
. . . . . . . .
. . . . . . . .
72
3.14
Structured
Probabilistic
Mo
dels
. . . .
. . . . . . . .
. . . . . . .
75
4
Numerical
Computation
80
4.1
Ov
erflo
w
and
Underflo
w
. . . . . . . . .
. . . . . . . .
. . . . . .
80
4.2
P
o
or
Conditioning
. . . . . . . . .
. . . . . . . .
. . . . . . . . .
82
4.3
Gradien
t-Based
Optimization
. . . . . . .
. . . . . . . .
. . . . .
82
4.4
Constrained
Optimization
. . . . . . . . . . . . .
. . . . . . . .
.
93
4.5
Example:
Linear
Least
Squares
. . . . . . .
. . . . . . . . .
. . .
96
5
Mac
hine
Learning
Basics
98
5.1
Learning
Algorithms
. . . . . . . . . . .
. . . . . . . .
. . . . . .
99
5.2
Capacit
y
,
Overfitting
and
Underfitting
. .
. . . . . . . .
. . . . .
110
5.3
Hyp
erparameters
and
V
alidation
Sets
.
. . . . . . . .
. . . . . . .
120
5.4
Estimators,
Bias
and
V
ariance
. . . . . .
. . . . . . . .
. . . . . .
122
5.5
Maxim
um
Lik
eliho
o
d
Estimation
. . . . . .
. . . . . . . . .
. . .
131
5.6
Ba
y
esian
Statistics
. . . . . . . . . . .
. . . . . . . .
. . . . . . .
135
5.7
Sup
ervised
Learning
Algorithms
. . .
. . . . . . . .
. . . . . . . .
139
5.8
Unsup
ervised
Learning
Algorithms
. . . . . . . . . . . . . . .
. .
145
5.9
Sto
c
hastic
Gradien
t
Descen
t
. . . .
. . . . . . . . .
. . . . . . . .
150
5.10
Building
a
Machine
Learning
Algorithm
. . . . . . . . . . . . .
.
152
5.11
Challenges
Motiv
ating
Deep
Learning
. . . . .
. . . . . . . . .
. .
154
I
I
Deep
Net
w
orks:
Mo
dern
Practices
165
6
Deep
F
eedforw
ard
Netw
orks
167
6.1
Example:
Learning
XOR
.
. . . . . . . . .
. . . . . . . .
. . . . .
170
6.2
Gradien
t-Based
Learning
.
. . . . . . . .
. . . . . . . .
. . . . . .
176
ii
CONTENTS
6.3
Hidden
Units
. . . . . .
. . . . . . . .
. . . . . . . . .
. . . . . .
190
6.4
Arc
hitecture
Design
. . . . . . . . .
. . . . . . . .
. . . . . . . .
.
196
6.5
Bac
k-Propagation
and
Other
Differen
tiation
Algorithms
. . . . .
203
6.6
Historical
Notes
. . . . . . .
. . . . . . . .
. . . . . . . . .
. . . .
224
7
Regularization
for
Deep
Learning
228
7.1
P
arameter
Norm
P
enalties
. . . . .
. . . . . . . . .
. . . . . . . .
230
7.2
Norm
P
enalties
as
Constrained
Optimization
. . . . . . . .
. . . .
237
7.3
Regularization
and
Under-Constrained
Problems
. .
. . . . . . .
239
7.4
Dataset
Augmen
tation
. . . . . . . . . .
. . . . . . . . .
. . . . .
240
7.5
Noise
Robustness
. . . . . . . . .
. . . . . . . .
. . . . . . . .
. .
242
7.6
Semi-Sup
ervised
Learning
. . . . . . . . . . . . . . . .
. . . . . .
243
7.7
Multi-T
ask
Learning
. . . . . . . . . . . . . .
. . . . . . . . .
. .
244
7.8
Early
Stopping
. . . . . . . . .
. . . . . . . .
. . . . . . . .
. . .
246
7.9
P
arameter
T
ying
and
P
arameter
Sharing
. . . . . . . . . . . . . .
253
7.10
Sparse
Represen
tations
. . . . . . . . .
. . . . . . . .
. . . . . . .
254
7.11
Bagging
and
Other
Ensemble
Metho
ds
.
. . . . . . . . .
. . . . .
256
7.12
Drop
out
. . . . . . . .
. . . . . . . . .
. . . . . . . .
. . . . . . .
258
7.13
A
dv
ersarial
T
raining
. . . . . . . .
. . . . . . . . .
. . . . . . . .
268
7.14
T
angent
Distance,
T
angent
Prop,
and
Manifold
T
angent
Classifier
270
8
Optimization
for
T
raining
Deep
Mo
dels
274
8.1
Ho
w
Learning
Differs
from
P
ure
Optimization
. . . . . . . . . . .
275
8.2
Challenges
in
Neural
Netw
ork
Optimization
. . . . .
. . . . . . .
282
8.3
Basic
Algorithms
. . . . . . . . . . . . .
. . . . . . . .
. . . . . .
294
8.4
P
arameter
Initialization
Strategies
.
. . . . . . . . .
. . . . . . .
301
8.5
Algorithms
with
Adaptiv
e
Learning
Rates
. . . . . . .
. . . . . .
306
8.6
Appro
ximate
Second-Order
Metho
ds
. . . .
. . . . . . . . .
. . .
310
8.7
Optimization
Strategies
and
Meta-Algorithms
. . . . .
. . . . . .
317
9
Con
v
olutional
Netw
orks
330
9.1
The
Con
v
olution
Op
eration
. . . . . . . . . . . . . . . .
. . . . .
331
9.2
Motiv
ation
. .
. . . . . . . .
. . . . . . . . .
. . . . . . . .
. . . .
335
9.3
P
o
oling
. . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . .
. . .
339
9.4
Con
v
olution
and
P
o
oling
as
an
Infinitely
Strong
Prior
. .
. . . . .
345
9.5
V
ariants
of
the
Basic
Con
v
olution
F
unction
. . . . . . . . . . . .
347
9.6
Structured
Outputs
.
. . . . . . . .
. . . . . . . . .
. . . . . . . .
358
9.7
Data
T
yp
es
. . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
360
9.8
Efficien
t
Con
v
olution
Algorithms
. . . . . . . .
. . . . . . . .
. .
362
9.9
Random
or
Unsup
ervised
F
eatures
. . . . . . . .
. . . . . . . .
.
363
iii
CONTENTS
9.10
The
Neuroscien
tific
Basis
for
Conv
olutional
Netw
orks
. . . . . .
.
364
9.11
Con
v
olutional
Net
works
and
the
History
of
Deep
Learning
. . . .
371
10 Sequence
Mo
deling:
Recurrent
and
Recursiv
e
Nets
373
10.1
Unfolding
Computational
Graphs
. . . . . . . . . . . . .
. . . . .
375
10.2
Recurren
t
Neural
Net
w
orks
. . .
. . . . . . . . .
. . . . . . . .
.
378
10.3
Bidirectional
RNNs
. . . . . . . . . . . . . .
. . . . . . . . .
. . .
395
10.4
Enco
der-Deco
der
Sequence-to-Sequence
Architectures
. . . . . .
.
396
10.5
Deep
Recurren
t
Net
w
orks
. . . . . . . .
. . . . . . . . .
. . . . .
398
10.6
Recursiv
e
Neural
Net
w
orks
. . . . .
. . . . . . . . .
. . . . . . . .
400
10.7
The
Challenge
of
Long-T
erm
Dep
endencies
. . . . . . . . . .
. . .
402
10.8
Ec
ho
State
Net
w
orks
. . . . . . . . . .
. . . . . . . . .
. . . . . .
405
10.9
Leaky
Units
and
Other
Strategies
for
Multiple
Time
Scales
. . .
.
408
10.10 The
Long
Short-T
erm
Memory
and
Other
Gated
RNNs
. .
. . . .
410
10.11 Optimization
for
Long-T
erm
Dep
endencies
. . . . . . . .
. . . . .
414
10.12 Explicit
Memory
. . . . . . . . . .
. . . . . . . . .
. . . . . . . .
418
11 Practical
Metho
dology
423
11.1
P
erformance
Metrics
. . . . . . . . . .
. . . . . . . .
. . . . . . .
424
11.2
Default
Baseline
Mo
dels
. . . . . . . .
. . . . . . . .
. . . . . . .
427
11.3
Determining
Whether
to
Gather
More
Data
. . . . . . . . . . . .
428
11.4
Selecting
Hyp
erparameters
. . . . . . . . .
. . . . . . . .
. . . . .
429
11.5
Debugging
Strategies
. . . . .
. . . . . . . .
. . . . . . . . .
. . .
438
11.6
Example:
Multi-Digit
Number
Recognition
. . . . .
. . . . . . . .
442
12 Applications
445
12.1
Large
Scale
Deep
Learning
.
. . . . . . . .
. . . . . . . . .
. . . .
445
12.2
Computer
Vision
. . . . . . . . .
. . . . . . . .
. . . . . . . .
. .
454
12.3
Sp
eec
h
Recognition
. . . . . .
. . . . . . . .
. . . . . . . . .
. . .
460
12.4
Natural
Language
Pro
cessing
. . .
. . . . . . . .
. . . . . . . .
.
463
12.5
Other
Applications
. . . . . . . . .
. . . . . . . .
. . . . . . . .
.
479
I
I
I
Deep
Learning
Researc
h
488
13 Linear
F
actor
Mo
dels
491
13.1
Probabilistic
PCA
and
F
actor
Analysis
. . . . . . .
. . . . . . . .
492
13.2
Indep
enden
t
Comp
onent
Analysis
(ICA)
. . . . . . . . . . . .
. .
493
13.3
Slo
w
F
eature
Analysis
. . . . . .
. . . . . . . . .
. . . . . . . .
.
495
13.4
Sparse
Co
ding
. . . . . .
. . . . . . . .
. . . . . . . . .
. . . . . .
498
iv
剩余801页未读,继续阅读
haiqinjack
- 粉丝: 0
- 资源: 5
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论1