CS 229 – Machine Learning https://stanford.edu/~shervine
VIP Refresher: Probabilities and Statistics
Afshine Amidi and Shervine Amidi
October 27, 2018
翻译: 朱小虎
概概概率率率和和和组组组合合合导导导引引引
r 样样样本本本空空空间间间 – 一个实验的所有可能结果的集合称为实验的样本空间,记作S。
r 事事事件件件 – 样本空间的任何子集E 被称为一个事件。即,一个事件是一 个包含可能结果 的集合。 如果
该实验的结果包含在E 内,那么我们称E 发生。
r 概概概率率率论论论公公公理理理 – 对每个事件E,我们记P (E) 为事件E 出现的概率。
(1) 0 6 P (E) 6 1 (2) P (S) = 1 (3) P
n
[
i=1
E
i
!
=
n
X
i=1
P (E
i
)
r 置置置换换换 – 一个置换是从n 个对 象的池子中按照给定次序安置r 个对象。这样的安置的数目由P (n,r)
表示,定义为:
P (n, r) =
n!
(n − r)!
r 组组组合合合 – 一个组合是从n 个对象的池子中无序安置r 个对象。这样的安置的数目由C(n,r) 表示,定
义为:
C(n, r) =
P (n, r)
r!
=
n!
r!(n − r)!
注:对0 6 r 6 n,我们有P (n,r) > C(n,r)
条条条件件件概概概率率率
r 贝贝贝叶叶叶斯斯斯规规规则则则 – 对事件A 和B 满足P (B) > 0,我们有:
P (A|B) =
P (B|A)P (A)
P (B)
注:我们有P (A ∩ B) = P (A)P (B|A) = P (A|B)P (B)
r 分分分划划划 – 令{A
i
, i ∈ [[1,n]]} 对所有i,A
i
6= ∅。我们称{A
i
} 为一个分划,当有:
∀i 6= j, A
i
∩ A
j
= ∅ 和
n
[
i=1
A
i
= S
注:对任意在样本空间中的事件B 我们有P (B) =
n
X
i=1
P (B|A
i
)P (A
i
)。
r 贝贝贝叶叶叶斯斯斯规规规则则则的的的扩扩扩展展展形形形式式式 – 令{A
i
, i ∈ [[1,n]]} 为样本空间的一个分划,我们有:
P (A
k
|B) =
P (B|A
k
)P (A
k
)
n
X
i=1
P (B|A
i
)P (A
i
)
r 独独独立立立 – 两个事件A 和B 是独立的当且仅当我们有:
P (A ∩ B) = P (A)P (B)
随随随机机机变变变量量量
r 随随随机机机变变变量量量 – 一个随机变量,通常记作X,是一个将在一个样本空间中的每个元素映射到一个实值
的函数。
r 累累累积积积分分分布布布函函函数数数(((CDF))) – 累积分布函数F ,是单调不减的,其
lim
x→−∞
F (x) = 0 和 lim
x→+∞
F (x) = 1
定义为:
F (x) = P (X 6 x)
注:我们有P (a < X 6 B) = F (b) − F (a)。
r 概概概率率率密密密度度度函函函数数数(((PDF))) – 概率密度函数f 是X 取值在两个相邻随机变量的实现间的概率。
r PDF 和和和CDF 的的的关关关系系系 – 这里是离散和连续场景下的重要性质。
类类类型型型 CDF F PDF f PDF 的的的性性性质质质
(D) F (x) =
X
x
i
6x
P (X = x
i
) f(x
j
) = P (X = x
j
) 0 6 f(x
j
) 6 1 and
X
j
f(x
j
) = 1
(C) F (x) =
ˆ
x
−∞
f(y)dy f(x) =
dF
dx
f(x) > 0 and
ˆ
+∞
−∞
f(x)dx = 1
r 方方方差差差 – 随机变量的方差通常记作Var(X) 或者σ
2
,是分布函数的扩散性的一个度量函数。 定义如
下:
Var(X) = E[(X − E[X])
2
] = E[X
2
] − E[X]
2
r 标标标准准准差差差 – 随机变量的标准差,通常记作σ,是分布函数扩散性的一个和实际随 机变量值单位相当的
度量函数。定义如下:
σ =
p
Var(X)
Stanford University 1 Fall 2018