数据统计分析详解:参数估计与假设检验

版权申诉
0 下载量 89 浏览量 更新于2024-06-13 收藏 627KB PPTX 举报
"该资源主要涵盖了数据的统计描述和分析,特别是数学模型算法在统计学中的应用。内容包括统计的基本概念,参数估计与假设检验,以及统计软件包的使用。此外,还详细讲解了常用统计量、概率分布以及各种检验方法,如正态分布、F分布等,并介绍了非参数检验的概念。资源还提到了如何在实际操作中进行数据录入、保存和调用,以及如何使用统计工具进行分析。" 在这个文件中,我们首先接触到的是统计学的基本概念,这包括了数据的统计描述,如计算平均值、方差等常用统计量,这些是理解数据集特性的基础。统计量能够帮助我们量化数据的集中趋势和离散程度,以便于更好地理解和解释数据。 接着,文件深入到参数估计与假设检验的领域。参数估计是根据样本数据来推断总体参数的过程,其中点估计法和极大似然估计法是常见的方法。假设检验则是基于统计学的理论,通过样本数据对总体的某个特性(如均值、方差)提出假设,并决定接受或拒绝这个假设。文件中提到了针对正态总体的均值和方差的检验,以及非参数检验,后者不依赖于特定的分布形式,适用于分布未知的情况。 在统计软件包的应用部分,虽然没有具体说明是哪些软件,但通常统计分析会使用R、Python、SPSS、SAS等工具,这些软件提供了方便的数据处理和统计分析功能,包括数据录入、保存、调用,以及生成统计报告和图形。 文件还介绍了概率分布,特别是正态分布和F分布。正态分布是统计学中最重要的一类分布,其密度函数和分布函数有明确的形式,而在实际中,许多自然现象的数据都近似服从正态分布。F分布常用于方差分析,其形状取决于两个自由度参数。 最后,文件提到了概率纸作为判断总体分布类型的一种工具,它可以帮助我们直观地识别数据可能遵循的分布类型。此外,非参数检验中的统计工具箱涵盖了数据管理、基本统计量计算、频数直方图绘制、参数估计和假设检验等一系列操作,这些都是进行统计分析时必不可少的步骤。 这份资源是学习统计学和应用数学模型算法的理想材料,它不仅覆盖了理论知识,还强调了实际操作技能,对于数据分析和研究工作具有很高的参考价值。
2022-12-24 上传
统计数据分析 本次培训要解决的问题 我们公司大部分设备验收时,客户都要求Cpk>1.33 什么是 Cpk? Cpk如何计算?为什么要>1.33? 有复检功能的设备,客户一般都要求要做GRR和相关性 为 什么要做GRR/相关性,如何做?怎么样才是好的GRR/相关性? Cpk, GRR/相关性都是通过对测量数据的统计分析,来判定工艺、测量系统的能力 本次培训要解决的问题 分析数据 , 我们要分析数据的什么? 数据的分布状态 和同类数据的比较, 如:同比, 环比 数据(data)就是数值,是通过观察、实验或计算得出的结果 数据的分类: 连续型数据(Continous data)--可以用测量仪器测量出的可以连续取值的数据,也叫计量数据, 如:时间,压力,高度,长度等; 也称作Variable data 离散数据(Discrete data )--颜色, 班别,合格/不合格,缺陷类别,产品种类等, 也称作计数数据或属性 Attribute data 连续性数据能够比较敏感的反映过程的变化,可以用较少样本量获得统计分析结论 什么是数据? 数据分析 表征数据的常用统计量 平均值(Mean) EXCEL 计算公式 =average(x1,x2,....xn) 中位数(Median) ---一组数据中位置在中间的那个数 EXCEL 计算公式 =median(x1,x2,....xn) 平均值和中位数都是用以表征一组数据的中间值,平均数更为准确 数据分析 表征数据的常用统计量 最大值(Maximum) EXCEL 计算公式 =max(x1,x2,....xn) 最小值(Minimum) EXCEL 计算公式 =min(x1,x2,....xn) 极差(Range) EXCEL 计算公式 =max(x1,x2,....xn) -min(x1,x2,....xn) 最大值、最小值和极差用以表征一组数据的分布范围 数据分析 标准偏差(Standard Deviation) 表征数据的常用统计量 极差法 当样本数量<10时, 极差法比较准 样本 总体 贝塞尔法 EXCEL 计算公式 =STDEV(x1,x2,....xn) =STDEVP(x1,x2,....xn) 数据分析 方差(Variance) 表征数据的常用统计量 方差(Variance) Var(x)=s2 或 Var(x)= s2 标准偏差和方差是用以表征数据离散程 度的 假设尺寸链 c=a+b, a, b, c 的标准偏差分别是 sa, sb, sc, 则有: , 数据分析 通过数据判定过程能力 如何判定一组数据是好还是不好呢(过程能力的强弱)? 准确 精密 精准 Cp (Capability of Precision) 过程精密度 Ca (Capability of Accuracy) 过程准确度 Cpk (Process capability index) 过程能力指数 数据分析 通过数据判定过程能力 过程能力分析的假设前提是输出服从正态分布。因此过程是稳定的或统计受控的。 正态分布(Normal distribution),又名高斯分布(Gaussian distribution),正态分布的概率密度为: 记作X~N(μ,s2). μ是正态分布的均值,s2是正态分布的方差 数据分析 通过数据判定过程能力 μ+/-3s 之外的概率只有0.27%,是小概率事件,因此我们将6s 范围视为过程的自然波动范围。为了把过程的自然输出能力和要求的公差进行比较,质量专家朱兰引入了能力比的概念, 即Cp 对于只有规格上限 对于只有规格下限 对于有双边规格 Cp衡量的是"规格公差宽度"与"与制程变异宽度"之比例; 数据分析 通过数据判定过程能力 对于只有规格上限或规格下限的, 因为没有中心值,所以也没有Ca Ca衡量的是"实际平均值"与"规格中心"之一致性; 是数据的平均值, SL(Size Line)是规格中心,T 是公差宽度=USL-LSL 对于有双边规格 数据分析 通过数据判定过程能力 Cpk=Cp(1- Ca ) 对于单边规格的 Cpk=Cpu 或 Cpk=Cpl Cpk=Cp(1- Ca )= = = =Cpu 或者= =Cpl 所以 Cpk= min(Cpu, Cpl) 从公式可以看出, Cpk与平均值,标准偏差,以及产品的规格相关联 数据分析 通过数据判定过程能力 Cpk要多少才算好? 等级 Cpk值 处理原则 A+ 1.67 能力过剩考虑降低成本 A 1.33 Cpk<1.67 状态良好维持现状 B 1.00 Cpk<1.33 改进为 A 级 C 0.67 Cpk<1.00 制程不良较多,必须提升其能力 D Cpk <0.67 制程能力太差,应考虑重新整改设计制程 Cpk 每一百万件