SPSS统计分析实践:从数据预处理到报告撰写

1 下载量 64 浏览量 更新于2024-06-19 收藏 1.55MB PPT 举报
"统计分析综合实验.ppt" 是一份关于统计学应用的实验教程,主要讲解如何使用SPSS软件进行各种统计分析。课程由四川大学工商管理学院的刘馨副教授讲授,涵盖了从数据集建立到统计分析报告的完整流程。 在统计学中,SPSS(Statistical Package of the Social Sciences)和SAS(Statistical Analysis System)是常见的计算软件,而Excel也常用于基础统计分析。SPSS具备多种统计功能,包括样本数据的描述性分析、假设检验、方差分析、相关分析、回归分析、聚类分析、判别分析、因子分析以及时间序列分析等。 实验的主要内容包括以下几个部分: 1. 建立数据集:这是所有统计分析的基础,可以是自己收集的数据,也可以是从网络上获取的已有数据。 2. 数据的描述性分析:通过计算平均值、中位数、标准差等统计量,对数据进行初步理解。 3. 参数估计:估计总体参数,如均值、比例等,提供对总体特征的推断。 4. 假设检验:包括参数和非参数检验,用于判断数据是否符合特定的统计假设,如t检验、卡方检验等。 5. 方差分析:用于比较多个组间的差异,如单因素方差分析或多因素方差分析。 6. 相关与回归分析:研究变量之间的关系,如皮尔逊相关系数和线性回归模型。 7. 统计分析报告:撰写包含背景、方法、结果和结论的报告,这是实验成果的呈现形式。 此外,课程还强调了小组合作完成项目,尤其是期末考试形式,要求学生基于实际问题用SPSS进行数据分析并撰写报告。报告应包含研究背景、数据来源、分析过程、结论和建议等内容。 在使用SPSS时,了解其界面布局至关重要,主要包括主菜单栏、工具栏、数据编辑栏和系统状态栏。变量定义是数据输入的关键,包括变量名称、类型(字符型、日期型或数值型)等属性的设定。 参考书目包括刘馨编著的《统计学》和冯力主编的《统计学实验》,这些书籍可以为学习者提供更深入的理论支持和实践指导。实验一将带领学生从创建数据集开始,逐步掌握SPSS的基本操作和统计分析方法。
2022-12-24 上传
统计数据分析 本次培训要解决的问题 我们公司大部分设备验收时,客户都要求Cpk>1.33 什么是 Cpk? Cpk如何计算?为什么要>1.33? 有复检功能的设备,客户一般都要求要做GRR和相关性 为 什么要做GRR/相关性,如何做?怎么样才是好的GRR/相关性? Cpk, GRR/相关性都是通过对测量数据的统计分析,来判定工艺、测量系统的能力 本次培训要解决的问题 分析数据 , 我们要分析数据的什么? 数据的分布状态 和同类数据的比较, 如:同比, 环比 数据(data)就是数值,是通过观察、实验或计算得出的结果 数据的分类: 连续型数据(Continous data)--可以用测量仪器测量出的可以连续取值的数据,也叫计量数据, 如:时间,压力,高度,长度等; 也称作Variable data 离散数据(Discrete data )--颜色, 班别,合格/不合格,缺陷类别,产品种类等, 也称作计数数据或属性 Attribute data 连续性数据能够比较敏感的反映过程的变化,可以用较少样本量获得统计分析结论 什么是数据? 数据分析 表征数据的常用统计量 平均值(Mean) EXCEL 计算公式 =average(x1,x2,....xn) 中位数(Median) ---一组数据中位置在中间的那个数 EXCEL 计算公式 =median(x1,x2,....xn) 平均值和中位数都是用以表征一组数据的中间值,平均数更为准确 数据分析 表征数据的常用统计量 最大值(Maximum) EXCEL 计算公式 =max(x1,x2,....xn) 最小值(Minimum) EXCEL 计算公式 =min(x1,x2,....xn) 极差(Range) EXCEL 计算公式 =max(x1,x2,....xn) -min(x1,x2,....xn) 最大值、最小值和极差用以表征一组数据的分布范围 数据分析 标准偏差(Standard Deviation) 表征数据的常用统计量 极差法 当样本数量<10时, 极差法比较准 样本 总体 贝塞尔法 EXCEL 计算公式 =STDEV(x1,x2,....xn) =STDEVP(x1,x2,....xn) 数据分析 方差(Variance) 表征数据的常用统计量 方差(Variance) Var(x)=s2 或 Var(x)= s2 标准偏差和方差是用以表征数据离散程 度的 假设尺寸链 c=a+b, a, b, c 的标准偏差分别是 sa, sb, sc, 则有: , 数据分析 通过数据判定过程能力 如何判定一组数据是好还是不好呢(过程能力的强弱)? 准确 精密 精准 Cp (Capability of Precision) 过程精密度 Ca (Capability of Accuracy) 过程准确度 Cpk (Process capability index) 过程能力指数 数据分析 通过数据判定过程能力 过程能力分析的假设前提是输出服从正态分布。因此过程是稳定的或统计受控的。 正态分布(Normal distribution),又名高斯分布(Gaussian distribution),正态分布的概率密度为: 记作X~N(μ,s2). μ是正态分布的均值,s2是正态分布的方差 数据分析 通过数据判定过程能力 μ+/-3s 之外的概率只有0.27%,是小概率事件,因此我们将6s 范围视为过程的自然波动范围。为了把过程的自然输出能力和要求的公差进行比较,质量专家朱兰引入了能力比的概念, 即Cp 对于只有规格上限 对于只有规格下限 对于有双边规格 Cp衡量的是"规格公差宽度"与"与制程变异宽度"之比例; 数据分析 通过数据判定过程能力 对于只有规格上限或规格下限的, 因为没有中心值,所以也没有Ca Ca衡量的是"实际平均值"与"规格中心"之一致性; 是数据的平均值, SL(Size Line)是规格中心,T 是公差宽度=USL-LSL 对于有双边规格 数据分析 通过数据判定过程能力 Cpk=Cp(1- Ca ) 对于单边规格的 Cpk=Cpu 或 Cpk=Cpl Cpk=Cp(1- Ca )= = = =Cpu 或者= =Cpl 所以 Cpk= min(Cpu, Cpl) 从公式可以看出, Cpk与平均值,标准偏差,以及产品的规格相关联 数据分析 通过数据判定过程能力 Cpk要多少才算好? 等级 Cpk值 处理原则 A+ 1.67 能力过剩考虑降低成本 A 1.33 Cpk<1.67 状态良好维持现状 B 1.00 Cpk<1.33 改进为 A 级 C 0.67 Cpk<1.00 制程不良较多,必须提升其能力 D Cpk <0.67 制程能力太差,应考虑重新整改设计制程 Cpk 每一百万件