多元统计分析复习笔记:随机向量与协方差阵解析

5星 · 超过95%的资源 需积分: 40 46 下载量 16 浏览量 更新于2024-08-05 15 收藏 32KB DOCX 举报
"这是一份关于多元统计分析的期末复习笔记,主要涵盖了多元正态分布、随机向量、分布函数、密度函数、随机向量的数字特征(如均值、协方差阵、相关阵)以及统计距离的概念,特别是马氏距离与欧氏距离的对比。这份笔记由个人根据期末考纲整理,适用于学习和复习多元统计分析课程。" 在多元统计分析中,多元正态分布是核心概念之一,它涉及多个随机变量的联合分布。随机向量是包含多个随机变量的整体,例如,设X1, X2, ..., Xp为p个随机变量,它们构成的p维向量就被称为随机向量。理解随机向量的关键在于掌握其分布函数和密度函数。分布函数定义了随机向量落在某一区域内的概率,而密度函数则用于描述连续型随机变量的概率分布,当满足特定条件时,随机向量具有分布函数且密度函数存在。 随机向量的数字特征包括均值向量、协方差阵和相关阵。均值向量是所有随机变量均值的集合,它代表了随机向量的期望位置。协方差阵衡量的是各随机变量之间的线性关系强度,其行列式的值称为广义方差。相关阵则描述了各变量之间的相关性,元素是两个变量的协方差与它们各自标准差的乘积。 统计距离是衡量数据点之间差异的度量,其中马氏距离和欧氏距离是常见的两种。马氏距离考虑了数据的协方差结构,可以消除变量之间的共线性影响,而欧氏距离则是最简单的距离度量,基于各维度上的差值平方和。值得注意的是,当协方差矩阵为单位矩阵时,马氏距离退化为欧氏距离。然而,马氏距离的计算需要足够的样本以确定协方差矩阵的逆,否则可能需要转而使用欧氏距离。 在实际应用中,马氏距离更适用于处理变量之间存在相关性的数据,而欧氏距离则适用于独立或正交的变量。对于特殊情况,如样本点共线或样本数少于维数时,欧氏距离可能是更可行的选择。理解和掌握这些概念及其区别对于进行多元统计分析至关重要,尤其是在数据分析、机器学习和预测模型等领域。