成对数据统计分析:相关性、样本系数与回归模型详解

0 下载量 35 浏览量 更新于2024-06-27 收藏 1.27MB PPTX 举报
第八章成对数据的统计分析是统计学中的核心内容,主要探讨变量之间的关系以及如何通过数学模型进行量化评估。本章重点在于理解变量的相关性及其度量方法,包括样本相关系数。样本相关系数是衡量两个变量之间线性关系强度的指标,它可以帮助我们从直观上分析散点图,判断变量间的关系是正相关、负相关还是无明显关联。 首先,章节开始部分强调了理解相关关系和样本相关系数的重要性,它们是后续一元线性回归模型的基础。散点图是直观理解变量间关系的工具,通过观察数据点的分布,可以初步判断两个变量是否存在相关性,而样本相关系数则提供了更为精确的数值刻画,其取值范围通常在-1到1之间,绝对值越大表示相关性越强,1或-1分别对应完全正相关和完全负相关,0则表示没有线性相关。 例1中,通过具体情境考察了不同选项中的变量关系,例如圆的半径与面积、匀速行驶的距离与时间等,这些是确定的函数关系,而非相关关系。而庄稼的产量与施肥量在一定范围内存在相关性,人的身高与视力则无明显相关。散点图法和公式法是两种常用的判断变量相关性的方法,其中散点图直观易懂,公式法则更精确但需要注意特殊情况下的计算规则。 接着,章节深入讲解了一元线性回归模型,这是一种用来预测一个变量(因变量)如何随另一个或多个自变量变化的统计模型。在这个模型中,变量之间的关系被假设为线性,通过最小二乘法求解最佳拟合直线,从而预测未知数据点。例如,例2中的问题涉及到变量之间的关系判断和样本相关系数的应用,如y与x的关系式y=-2x+1,表明x与y负相关,结合变量y与z的正相关,可以推断出x与z的负相关。 最后,章节讨论了通过散点图比较两个样本数据集的样本相关系数,例3中通过图形分析,A样本的散点图更集中在一条直线上,相关系数更接近1,而B样本的散点更分散,相关系数小于A样本,这反映了r1>r2的关系。 第八章成对数据的统计分析涵盖变量相关性的概念、度量方法、一元线性回归模型的建立以及如何通过实例来理解和应用这些理论。理解和掌握这部分内容对于数据分析和预测具有重要意义。
2022-12-24 上传
统计数据分析 本次培训要解决的问题 我们公司大部分设备验收时,客户都要求Cpk>1.33 什么是 Cpk? Cpk如何计算?为什么要>1.33? 有复检功能的设备,客户一般都要求要做GRR和相关性 为 什么要做GRR/相关性,如何做?怎么样才是好的GRR/相关性? Cpk, GRR/相关性都是通过对测量数据的统计分析,来判定工艺、测量系统的能力 本次培训要解决的问题 分析数据 , 我们要分析数据的什么? 数据的分布状态 和同类数据的比较, 如:同比, 环比 数据(data)就是数值,是通过观察、实验或计算得出的结果 数据的分类: 连续型数据(Continous data)--可以用测量仪器测量出的可以连续取值的数据,也叫计量数据, 如:时间,压力,高度,长度等; 也称作Variable data 离散数据(Discrete data )--颜色, 班别,合格/不合格,缺陷类别,产品种类等, 也称作计数数据或属性 Attribute data 连续性数据能够比较敏感的反映过程的变化,可以用较少样本量获得统计分析结论 什么是数据? 数据分析 表征数据的常用统计量 平均值(Mean) EXCEL 计算公式 =average(x1,x2,....xn) 中位数(Median) ---一组数据中位置在中间的那个数 EXCEL 计算公式 =median(x1,x2,....xn) 平均值和中位数都是用以表征一组数据的中间值,平均数更为准确 数据分析 表征数据的常用统计量 最大值(Maximum) EXCEL 计算公式 =max(x1,x2,....xn) 最小值(Minimum) EXCEL 计算公式 =min(x1,x2,....xn) 极差(Range) EXCEL 计算公式 =max(x1,x2,....xn) -min(x1,x2,....xn) 最大值、最小值和极差用以表征一组数据的分布范围 数据分析 标准偏差(Standard Deviation) 表征数据的常用统计量 极差法 当样本数量<10时, 极差法比较准 样本 总体 贝塞尔法 EXCEL 计算公式 =STDEV(x1,x2,....xn) =STDEVP(x1,x2,....xn) 数据分析 方差(Variance) 表征数据的常用统计量 方差(Variance) Var(x)=s2 或 Var(x)= s2 标准偏差和方差是用以表征数据离散程 度的 假设尺寸链 c=a+b, a, b, c 的标准偏差分别是 sa, sb, sc, 则有: , 数据分析 通过数据判定过程能力 如何判定一组数据是好还是不好呢(过程能力的强弱)? 准确 精密 精准 Cp (Capability of Precision) 过程精密度 Ca (Capability of Accuracy) 过程准确度 Cpk (Process capability index) 过程能力指数 数据分析 通过数据判定过程能力 过程能力分析的假设前提是输出服从正态分布。因此过程是稳定的或统计受控的。 正态分布(Normal distribution),又名高斯分布(Gaussian distribution),正态分布的概率密度为: 记作X~N(μ,s2). μ是正态分布的均值,s2是正态分布的方差 数据分析 通过数据判定过程能力 μ+/-3s 之外的概率只有0.27%,是小概率事件,因此我们将6s 范围视为过程的自然波动范围。为了把过程的自然输出能力和要求的公差进行比较,质量专家朱兰引入了能力比的概念, 即Cp 对于只有规格上限 对于只有规格下限 对于有双边规格 Cp衡量的是"规格公差宽度"与"与制程变异宽度"之比例; 数据分析 通过数据判定过程能力 对于只有规格上限或规格下限的, 因为没有中心值,所以也没有Ca Ca衡量的是"实际平均值"与"规格中心"之一致性; 是数据的平均值, SL(Size Line)是规格中心,T 是公差宽度=USL-LSL 对于有双边规格 数据分析 通过数据判定过程能力 Cpk=Cp(1- Ca ) 对于单边规格的 Cpk=Cpu 或 Cpk=Cpl Cpk=Cp(1- Ca )= = = =Cpu 或者= =Cpl 所以 Cpk= min(Cpu, Cpl) 从公式可以看出, Cpk与平均值,标准偏差,以及产品的规格相关联 数据分析 通过数据判定过程能力 Cpk要多少才算好? 等级 Cpk值 处理原则 A+ 1.67 能力过剩考虑降低成本 A 1.33 Cpk<1.67 状态良好维持现状 B 1.00 Cpk<1.33 改进为 A 级 C 0.67 Cpk<1.00 制程不良较多,必须提升其能力 D Cpk <0.67 制程能力太差,应考虑重新整改设计制程 Cpk 每一百万件