统计推断与总体比例估计

0 下载量 88 浏览量 更新于2024-06-27 收藏 934KB PDF 举报
"大数据的统计学08.pdf" 本文档主要介绍了大数据的统计学基础知识,由讲师何翠仪在DATAGURU专业数据分析社区进行讲解。文档内容涉及统计学的两个核心领域:描述统计学和推断统计学,以及如何通过样本数据来推断总体数据的特性。 首先,统计学分为描述统计学和推断统计学。描述统计学侧重于总结和展示数据的特征,如均值、方差和比例等;而推断统计学则利用样本数据去推测总体的未知特性,如总体均值、总体方差和总体比例。 在进行总体比例的推断时,有几个关键的要求需要满足:1) 样本必须是简单随机样本,确保每个个体被选中的概率相等;2) 二项分布的条件需成立,即事件的成功或失败独立且有固定的概率;3) 至少有5个成功和5个失败的观测,即np >= 5 和 nq >= 5,以确保估计的稳定性。样本比例被视为总体比例p的无偏且最有效的点估计。 文档中给出了一个实际例子,美国的“全国艾滋行为调查”。该调查随机抽取了2673位成人异性恋者,发现6.36%的人在过去一年有超过一个性伴侣。基于这个样本比例,可以估计总体比例约为6.36%。然而,如果进行多次调查,样本比例可能会有所不同。这就引出了点估计的另一个概念——置信区间。 置信区间是估计总体参数真实值的一个区间,它表达了估计的不确定性。例如,如果总体比例p=0.06,样本大小n=2673,根据中心极限定理,样本比例的分布接近正态分布,且95%的置信区间可以通过公式 (p-2*标准误差, p+2*标准误差) 来计算。在这个例子中,95%的置信区间为 (0.0508, 0.0692),这意味着有95%的把握认为总体比例在0.0508到0.0692之间。 置信度(confidence level)是1-α,表示置信区间的可靠性程度,而误差界限(margin of error)是可能的误差范围。在实际应用中,由于总体比例的真实值未知,通常用标准误差来代替,构建总体比例p的1-α置信区间。对于95%的置信水平,通常使用的标准误差公式是 sqrt(p(1-p)/n)。 大数据的统计学不仅关注数据的描述,更注重通过样本推断总体的特性,如总体比例的估计,这在实际数据分析和决策中具有重要意义。置信区间的概念提供了一种评估估计精度的方法,有助于我们在不确定性和概率框架内理解数据的潜在趋势。
2022-12-24 上传
大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 大数据的统计学基础 第1课 大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 概率论与统计学 概率论是统计学的基础,统计学冲锋在应用第一线,概 率论提供武器 古典概率论 柯尔莫戈洛夫创建现代概率论 学会和运用概率,会使人变得更聪明,决策更准确 大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 参考书 大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 俄罗斯数学教材选译 http://search.dangdang.com/?key=%B6%ED%C2%DE%CB%B9%CA%FD%D1% A7%BD%CC%B2%C4%D1%A1%D2%EB&act=click 大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 统计学 统计学可以分为:描述统计学与推断统计学 描述统计学:使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考 试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围。 推断统计学:根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检, 根据所抽样本的质量合格率作为总体的质量合格率的一个估计。 应用:统计学的应用十分广泛,可以说,只要有数据,就有统计学的用武之地。目前 比较热门的应用:经济学,医学,心理学等。 大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 集中趋势 例:对于1 2 3 4 5这组数据,你会使用哪个数字作为代表??——3 对于一组数据,如果只容许使用一个数字去代表这组数据,那么这个数字应该如何选 择??——选择数据的中心,即反映数据集中趋势的统计量 均值——算术平均数,描述平均水平 中位数——将数据按大小排列后位于正中间的数描述,描述中等水平 众数——数据中出现最多的数,描述一般水平 大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 均值 均值: = 1 =1 = 1 ( 1 + 2 + … + ) 例:某次数学考试中,小组A与小组B的成员的成绩分别如下: A:70,85,62,98,92 B:82,87,95,80,83 分别求出两组的平均分,并比较两组的成绩。 组A:(70+85+62+98+92)/5=81.4 组B:(82+87+95+80+83)/5=85.4 组B的平均分比组A的高,就是组B的总体成绩比组A高 大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 中位数 顾名思义,中位数就是将数据按大小顺序(从大到小或是从小到大都可以)排列后处 于中间位置的数。 例: 58,32,46,92,73,88,23 1. 先排序:23,32,46,58,73,88,92 2. 找出处于中间位置的数:23,32,46,58,73,88,92。三个数字比58小,三个数字比58 大 例:58,32,46,92,73,88,23,63——多加了一个数字,情况有何改变? 1. 先排序:23,32,46,58,63,73,88,92 2.找出处于中间位置的数:23,32,46,58,63,73,88,92 3. 若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两 个数的算术平均数:(58+63)/2=60.5——原数据中,四个数字比60.5小,四个数 字比60.5大。 大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 众数 众数——数据中出现次数最多的数(所占比例最大的数) 一组数据中,可能会存在多个众数,也可能不存在众数 1 2 2 3 3 中的众数是2和3 1 2 3 4 5 中没有众数 众数不仅适用于数值型数据,对于非数值型数据也同样适用 {苹果,苹果,香蕉,橙,橙,橙,桃}这一组数据,没有什么均值中位数可言,但是存 在着众数——橙 大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 均值、中位数、众数 优点 缺点 均值 充分利用所有数据,适用 性强 容易受到极端值影响 中位数 不受极端值影响 缺乏敏感性 众数 当数据具有明显的集中趋 势时,代表性好;不受极 端值影响 缺乏唯一性:可能有一个, 可能有两个,可能一个都 没有 大数据的统计学基础 讲师 黄志洪 何翠仪 DATAGURU专业数据分析社区 例子 两个公司的员工及薪资构成如下: A:经理1名,月薪100000;高级员工,15名,月薪10000;普通员工20名,月薪 7500 B:经理1名,月薪20000;高级员工,20名,月薪11000;普通员工15名,月薪9000 请比较两家公司的薪资水平。
2022-11-29 上传