【基础】基础统计学：假设检验入门

![【基础】基础统计学：假设检验入门](https://pic1.zhimg.com/v2-dd96432256fbaedb3b04701278c4c740_b.jpg) # 1. 假设检验的基础** 假设检验是统计学中的一种推论方法，用于根据样本数据对总体参数做出推断。其基本原理是，首先提出一个关于总体参数的假设（原假设），然后收集样本数据并计算样本统计量，最后根据样本统计量与原假设进行比较，决定是否拒绝原假设。假设检验的步骤包括： 1. **提出原假设和备择假设：**原假设表示总体参数等于某个特定值，备择假设表示总体参数不等于该值。 2. **确定显著性水平：**显著性水平表示拒绝原假设的概率，通常设为 0.05。 3. **计算样本统计量：**根据样本数据计算样本统计量，如样本均值、样本方差等。 4. **确定临界值：**根据显著性水平和样本统计量的分布，确定临界值。 5. **做出决策：**如果样本统计量落在临界值之外，则拒绝原假设；否则，接受原假设。 # 2. 参数检验参数检验是假设检验的一种类型，用于检验有关总体参数（例如均值或方差）的假设。与非参数检验不同，参数检验假设总体数据服从已知的概率分布，例如正态分布或 t 分布。 ### 2.1 单样本检验单样本检验用于检验有关单个总体参数的假设。例如，我们可以检验某个产品的平均重量是否等于 100 克。 #### 2.1.1 正态分布的假设检验如果我们假设总体数据服从正态分布，我们可以使用 z 检验或 t 检验来检验有关均值的假设。 **z 检验** z 检验用于检验总体均值是否等于某个已知值。其检验统计量为： ``` z = (x̄ - μ) / (σ / √n) ``` 其中： * x̄ 是样本均值 * μ 是总体均值 * σ 是总体标准差 * n 是样本大小 **t 检验** t 检验用于检验总体均值是否等于某个已知值，当总体标准差未知时使用。其检验统计量为： ``` t = (x̄ - μ) / (s / √n) ``` 其中： * s 是样本标准差 **参数说明** | 参数 | 说明 | |---|---| | x̄ | 样本均值 | | μ | 总体均值 | | σ | 总体标准差 | | s | 样本标准差 | | n | 样本大小 | **逻辑分析** z 检验和 t 检验的逻辑分析如下： 1. 提出原假设 (H0) 和备择假设 (H1)。 2. 计算检验统计量。 3. 确定 p 值，即在原假设为真时观察到检验统计量或更极端值出现的概率。 4. 与显著性水平 (α) 进行比较。 5. 如果 p 值小于 α，则拒绝原假设；否则，接受原假设。 #### 2.1.2 非正态分布的假设检验如果我们假设总体数据不符合正态分布，我们可以使用非参数检验，例如 Wilcoxon 符号秩检验或 Mann-Whitney U 检验。 **Wilcoxon 符号秩检验** Wilcoxon 符号秩检验用于检验总体中位数是否等于某个已知值。其检验统计量为： ``` W = Σ(R+ - R-) ``` 其中： * R+ 是正秩和 * R- 是负秩和 **Mann-Whitney U 检验** Mann-Whitney U 检验用于检验两个独立样本的中位数是否相等。其检验统计量为： ``` U = n1n2 - Σ(R1) ``` 其中： * n1 和 n2 是两个样本的大小 * R1 是第一个样本的秩和 **参数说明** | 参数 | 说明 | |---|---| | W | Wilcoxon 符号秩检验统计量 | | R+ | 正秩和 | | R- | 负秩和 | | U | Mann-Whitney U 检验统计量 | | n1 | 第一个样本的大小 | | n2 | 第二个样本的大小 | | R1 | 第一个样本的秩和 | **逻辑分析** 非参数检验的逻辑分析与参数检验类似，但不需要假设总体数据服从特定的概率分布。 # 3. 非参数检验 ### 3.1 单样本检验 #### 3.1.1 正态分布的假设检验当样本数据服从正态分布时，可以使用正态分布的非参数检验方法，如： - **符号秩检验：**将样本数据从小到大排列，并给每个数据分配一个秩值。然后计算正秩和负秩的差值，并将其与正态分布的期望值和标准差进行比较。 ```python import scipy.stats as stats # 样本数据 data = [10, 12, 15, 18, 20] # 计算符号秩 ranks = stats.rankdata(data) # 计算正秩和负秩的差值 test_statistic = abs(sum(ranks[data > 0]) - sum(ranks[data < 0])) # 正态分布的期望值和标准差 mu = len(data) * (len(data) + 1) / 4 sigma = np.sqrt(len(data) * (len(data) + 1) * (2 * len(data) + 1) / 24) # 计算p值 pvalue = 2 * stats.norm.cdf(-abs(test_statistic - mu) / sigma) # 判断显著性 if pvalue < 0.05: print("样本数据与正态分布存在显著差异") else: print("样本数据与正态分布无显著差异") ``` #### 3.1.2 非正态分布的假设检验当样本数据不满足正态分布时，可以使用非正态分布的非参数检验方法，如： - **秩和检验：**将样本数据从小到大排列，并给每个数据分配一个秩值。然后计算正秩和负秩的和，并将其与非正态分布的期望值和标准差进行比较。 ```python import scipy.stats as stats # 样本数据 data = [10, 12, 15, 18, 20, 25, 30] # 计算秩和 ranks = stats.rankdata(data) pos_ranks = ranks[data > 0] ne ```

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

相关推荐

李_涛

知名公司架构师

拥有多年在大型科技公司的工作经验，曾在多个大厂担任技术主管和架构师一职。擅长设计和开发高效稳定的后端系统，熟练掌握多种后端开发语言和框架，包括Java、Python、Spring、Django等。精通关系型数据库和NoSQL数据库的设计和优化，能够有效地处理海量数据和复杂查询。

专栏简介

欢迎来到 Python 机器学习合集，这是一个涵盖机器学习基础知识的全面指南。本专栏从 Python 基础语法开始，包括数据类型、变量、控制流语句、函数和模块。接下来，深入了解 NumPy，一个用于数组操作和运算的强大库。您将学习如何创建和操作数组，以及使用各种常用函数。通过这些基础知识，您将为探索更高级的机器学习概念做好准备，例如数据预处理、模型训练和评估。本专栏适合初学者和希望提升 Python 和机器学习技能的任何人。通过循序渐进的教程和清晰易懂的解释，您将获得在机器学习领域取得成功的必要基础。

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

专栏目录

最低0.47元/天解锁专栏

买1年送3月

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

【基础】基础统计学：假设检验入门

相关推荐

统计假设检验

假设检验

统计学入门：假设检验与数据分析

SPSS统计学入门：假设检验与t检验解析

4-4推断统计学：概率分布和假设检验.html

零基础入门大数据统计学：从概率到预测分析

统计分析入门：假设检验与数据分析基础

R语言入门统计学：《统计入门与R语言》书籍介绍

统计学新手必备：假设检验的终极入门指南

专栏目录

最新推荐

Python内存管理速成课：5大技巧助你成为内存管理高手

D700高级应用技巧：挖掘隐藏功能，效率倍增

DeGroot的统计宇宙：精通概率论与数理统计的不二法门

性能优化秘籍：Vue项目在HBuilderX打包后的性能分析与调优术

MFC socket服务器稳定性关键：专家教你如何实现

Swat_Cup系统设计智慧：打造可扩展解决方案的关键要素

【鼠标消息剖析】：VC++中实现精确光标控制的高级技巧

【车辆网络通信整合术】：CANoe中的Fast Data Exchange（FDX）应用

专栏目录