成对数据统计分析:相关性与一元线性回归

0 下载量 28 浏览量 更新于2024-06-28 收藏 1.28MB PPTX 举报
"第八章成对数据的统计分析章末复习课公开课.pptx" 本节复习内容聚焦于成对数据的统计分析,主要涵盖两个关键知识点:变量的相关性和一元线性回归模型及其应用。 一、变量的相关性 1. 相关关系与样本相关系数:在统计学中,相关关系指的是两个或多个变量之间存在某种趋势或关联,但并不意味着因果关系。样本相关系数(通常表示为'r')是用来量化这种关系的度量,取值范围在-1到1之间。1表示完全正相关,-1表示完全负相关,0表示没有线性相关。 2. 散点图与公式法:通过散点图可以直观地判断变量间是否存在相关性,而样本相关系数的计算则提供了更精确的度量。例如,当所有数据点都位于一条直线上时,r的绝对值为1,表示线性关系非常强。 例题解析展示了如何判断两个变量是否具有相关关系以及相关系数的计算。比如,庄稼的产量与施肥量可能存在正相关,而人的身高与视力通常没有明显的相关性。 二、一元线性回归模型及其应用 1. 一元线性回归:当两个变量之间呈现线性关系时,可以通过一元线性回归模型来描述这种关系,模型通常表示为y = a + bx + ε,其中y是因变量,x是自变量,a是截距,b是斜率,ε是误差项。 2. 回归分析的应用:一元线性回归模型可以用于预测和解释。例如,通过已知的x值预测y值,或者理解x变化对y的影响程度。在选择模型时,需要注意相关系数的大小,大的相关系数意味着模型的拟合效果更好。 跟踪训练进一步巩固了这些概念,例如,如果变量y与z正相关,那么与y负相关的x也会与z负相关,因为相关性会传递。同时,通过比较两组样本数据的相关系数大小,可以评估它们之间的线性关系的紧密程度。 总结,第八章的复习内容强调了统计分析中成对数据的相关性分析和一元线性回归模型的使用。理解和掌握这些知识对于进行数据分析、预测建模以及科学决策至关重要。在实际应用中,应结合直观的散点图和精确的计算来评估变量间的关系,并利用一元线性回归模型对数据进行建模和预测。
2022-12-24 上传
统计数据分析 本次培训要解决的问题 我们公司大部分设备验收时,客户都要求Cpk>1.33 什么是 Cpk? Cpk如何计算?为什么要>1.33? 有复检功能的设备,客户一般都要求要做GRR和相关性 为 什么要做GRR/相关性,如何做?怎么样才是好的GRR/相关性? Cpk, GRR/相关性都是通过对测量数据的统计分析,来判定工艺、测量系统的能力 本次培训要解决的问题 分析数据 , 我们要分析数据的什么? 数据的分布状态 和同类数据的比较, 如:同比, 环比 数据(data)就是数值,是通过观察、实验或计算得出的结果 数据的分类: 连续型数据(Continous data)--可以用测量仪器测量出的可以连续取值的数据,也叫计量数据, 如:时间,压力,高度,长度等; 也称作Variable data 离散数据(Discrete data )--颜色, 班别,合格/不合格,缺陷类别,产品种类等, 也称作计数数据或属性 Attribute data 连续性数据能够比较敏感的反映过程的变化,可以用较少样本量获得统计分析结论 什么是数据? 数据分析 表征数据的常用统计量 平均值(Mean) EXCEL 计算公式 =average(x1,x2,....xn) 中位数(Median) ---一组数据中位置在中间的那个数 EXCEL 计算公式 =median(x1,x2,....xn) 平均值和中位数都是用以表征一组数据的中间值,平均数更为准确 数据分析 表征数据的常用统计量 最大值(Maximum) EXCEL 计算公式 =max(x1,x2,....xn) 最小值(Minimum) EXCEL 计算公式 =min(x1,x2,....xn) 极差(Range) EXCEL 计算公式 =max(x1,x2,....xn) -min(x1,x2,....xn) 最大值、最小值和极差用以表征一组数据的分布范围 数据分析 标准偏差(Standard Deviation) 表征数据的常用统计量 极差法 当样本数量<10时, 极差法比较准 样本 总体 贝塞尔法 EXCEL 计算公式 =STDEV(x1,x2,....xn) =STDEVP(x1,x2,....xn) 数据分析 方差(Variance) 表征数据的常用统计量 方差(Variance) Var(x)=s2 或 Var(x)= s2 标准偏差和方差是用以表征数据离散程 度的 假设尺寸链 c=a+b, a, b, c 的标准偏差分别是 sa, sb, sc, 则有: , 数据分析 通过数据判定过程能力 如何判定一组数据是好还是不好呢(过程能力的强弱)? 准确 精密 精准 Cp (Capability of Precision) 过程精密度 Ca (Capability of Accuracy) 过程准确度 Cpk (Process capability index) 过程能力指数 数据分析 通过数据判定过程能力 过程能力分析的假设前提是输出服从正态分布。因此过程是稳定的或统计受控的。 正态分布(Normal distribution),又名高斯分布(Gaussian distribution),正态分布的概率密度为: 记作X~N(μ,s2). μ是正态分布的均值,s2是正态分布的方差 数据分析 通过数据判定过程能力 μ+/-3s 之外的概率只有0.27%,是小概率事件,因此我们将6s 范围视为过程的自然波动范围。为了把过程的自然输出能力和要求的公差进行比较,质量专家朱兰引入了能力比的概念, 即Cp 对于只有规格上限 对于只有规格下限 对于有双边规格 Cp衡量的是"规格公差宽度"与"与制程变异宽度"之比例; 数据分析 通过数据判定过程能力 对于只有规格上限或规格下限的, 因为没有中心值,所以也没有Ca Ca衡量的是"实际平均值"与"规格中心"之一致性; 是数据的平均值, SL(Size Line)是规格中心,T 是公差宽度=USL-LSL 对于有双边规格 数据分析 通过数据判定过程能力 Cpk=Cp(1- Ca ) 对于单边规格的 Cpk=Cpu 或 Cpk=Cpl Cpk=Cp(1- Ca )= = = =Cpu 或者= =Cpl 所以 Cpk= min(Cpu, Cpl) 从公式可以看出, Cpk与平均值,标准偏差,以及产品的规格相关联 数据分析 通过数据判定过程能力 Cpk要多少才算好? 等级 Cpk值 处理原则 A+ 1.67 能力过剩考虑降低成本 A 1.33 Cpk<1.67 状态良好维持现状 B 1.00 Cpk<1.33 改进为 A 级 C 0.67 Cpk<1.00 制程不良较多,必须提升其能力 D Cpk <0.67 制程能力太差,应考虑重新整改设计制程 Cpk 每一百万件