【基础】基础统计学:假设检验入门
发布时间: 2024-06-26 12:21:48 阅读量: 115 订阅数: 130
假设检验基础知识
![【基础】基础统计学:假设检验入门](https://pic1.zhimg.com/v2-dd96432256fbaedb3b04701278c4c740_b.jpg)
# 1. 假设检验的基础**
假设检验是统计学中的一种推论方法,用于根据样本数据对总体参数做出推断。其基本原理是,首先提出一个关于总体参数的假设(原假设),然后收集样本数据并计算样本统计量,最后根据样本统计量与原假设进行比较,决定是否拒绝原假设。
假设检验的步骤包括:
1. **提出原假设和备择假设:**原假设表示总体参数等于某个特定值,备择假设表示总体参数不等于该值。
2. **确定显著性水平:**显著性水平表示拒绝原假设的概率,通常设为 0.05。
3. **计算样本统计量:**根据样本数据计算样本统计量,如样本均值、样本方差等。
4. **确定临界值:**根据显著性水平和样本统计量的分布,确定临界值。
5. **做出决策:**如果样本统计量落在临界值之外,则拒绝原假设;否则,接受原假设。
# 2. 参数检验
参数检验是假设检验的一种类型,用于检验有关总体参数(例如均值或方差)的假设。与非参数检验不同,参数检验假设总体数据服从已知的概率分布,例如正态分布或 t 分布。
### 2.1 单样本检验
单样本检验用于检验有关单个总体参数的假设。例如,我们可以检验某个产品的平均重量是否等于 100 克。
#### 2.1.1 正态分布的假设检验
如果我们假设总体数据服从正态分布,我们可以使用 z 检验或 t 检验来检验有关均值的假设。
**z 检验**
z 检验用于检验总体均值是否等于某个已知值。其检验统计量为:
```
z = (x̄ - μ) / (σ / √n)
```
其中:
* x̄ 是样本均值
* μ 是总体均值
* σ 是总体标准差
* n 是样本大小
**t 检验**
t 检验用于检验总体均值是否等于某个已知值,当总体标准差未知时使用。其检验统计量为:
```
t = (x̄ - μ) / (s / √n)
```
其中:
* s 是样本标准差
**参数说明**
| 参数 | 说明 |
|---|---|
| x̄ | 样本均值 |
| μ | 总体均值 |
| σ | 总体标准差 |
| s | 样本标准差 |
| n | 样本大小 |
**逻辑分析**
z 检验和 t 检验的逻辑分析如下:
1. 提出原假设 (H0) 和备择假设 (H1)。
2. 计算检验统计量。
3. 确定 p 值,即在原假设为真时观察到检验统计量或更极端值出现的概率。
4. 与显著性水平 (α) 进行比较。
5. 如果 p 值小于 α,则拒绝原假设;否则,接受原假设。
#### 2.1.2 非正态分布的假设检验
如果我们假设总体数据不符合正态分布,我们可以使用非参数检验,例如 Wilcoxon 符号秩检验或 Mann-Whitney U 检验。
**Wilcoxon 符号秩检验**
Wilcoxon 符号秩检验用于检验总体中位数是否等于某个已知值。其检验统计量为:
```
W = Σ(R+ - R-)
```
其中:
* R+ 是正秩和
* R- 是负秩和
**Mann-Whitney U 检验**
Mann-Whitney U 检验用于检验两个独立样本的中位数是否相等。其检验统计量为:
```
U = n1n2 - Σ(R1)
```
其中:
* n1 和 n2 是两个样本的大小
* R1 是第一个样本的秩和
**参数说明**
| 参数 | 说明 |
|---|---|
| W | Wilcoxon 符号秩检验统计量 |
| R+ | 正秩和 |
| R- | 负秩和 |
| U | Mann-Whitney U 检验统计量 |
| n1 | 第一个样本的大小 |
| n2 | 第二个样本的大小 |
| R1 | 第一个样本的秩和 |
**逻辑分析**
非参数检验的逻辑分析与参数检验类似,但不需要假设总体数据服从特定的概率分布。
# 3. 非参数检验
### 3.1 单样本检验
#### 3.1.1 正态分布的假设检验
当样本数据服从正态分布时,可以使用正态分布的非参数检验方法,如:
- **符号秩检验:**将样本数据从小到大排列,并给每个数据分配一个秩值。然后计算正秩和负秩的差值,并将其与正态分布的期望值和标准差进行比较。
```python
import scipy.stats as stats
# 样本数据
data = [10, 12, 15, 18, 20]
# 计算符号秩
ranks = stats.rankdata(data)
# 计算正秩和负秩的差值
test_statistic = abs(sum(ranks[data > 0]) - sum(ranks[data < 0]))
# 正态分布的期望值和标准差
mu = len(data) * (len(data) + 1) / 4
sigma = np.sqrt(len(data) * (len(data) + 1) * (2 * len(data) + 1) / 24)
# 计算p值
pvalue = 2 * stats.norm.cdf(-abs(test_statistic - mu) / sigma)
# 判断显著性
if pvalue < 0.05:
print("样本数据与正态分布存在显著差异")
else:
print("样本数据与正态分布无显著差异")
```
#### 3.1.2 非正态分布的假设检验
当样本数据不满足正态分布时,可以使用非正态分布的非参数检验方法,如:
- **秩和检验:**将样本数据从小到大排列,并给每个数据分配一个秩值。然后计算正秩和负秩的和,并将其与非正态分布的期望值和标准差进行比较。
```python
import scipy.stats as stats
# 样本数据
data = [10, 12, 15, 18, 20, 25, 30]
# 计算秩和
ranks = stats.rankdata(data)
pos_ranks = ranks[data > 0]
ne
```
0
0