解析数据:深入剖析数据特征及趋势(描述性数据分析1)

需积分: 0 0 下载量 40 浏览量 更新于2023-12-31 收藏 908KB PDF 举报
数据分析是一种通过收集、处理和解释数据来提取有用信息和知识的过程。在今天的信息时代,数据已经成为了一种宝贵的资源,企业、组织和个人都面临着大量的数据。而描述性的数据分析则是数据分析中的一种重要方法,它关注于对数据进行描述和总结,揭示出数据中的趋势、模式和结构等信息。本文将对描述性的数据分析进行深入的探讨。 描述性的数据分析主要包括对数据的描述统计和数据可视化两个方面。描述统计是对数据进行统计分析的一种方法,它通过对数据的集中趋势、离散程度和分布形态进行描述,揭示出数据的基本特征。数据可视化则是将数据以图形、图表等可视化的形式展示出来,帮助人们更直观地理解和分析数据。 在描述统计方面,常用的统计指标包括平均值、中位数、众数、标准差、方差等。平均值是一组数据的总和除以数据个数的结果,它反映了数据的集中趋势;中位数是一组数据排序后位于中间位置的值,它反映了数据的中间位置;众数是一组数据中频率最高的值,它反映了数据的最大频数;标准差是一组数据与其平均值的偏离程度的平均值,它反映了数据的离散程度;方差是标准差的平方,它反映了数据的离散程度的平方。 通过这些统计指标,我们可以对数据进行详细的描述。例如,如果我们想了解一组数据的平均水平,我们可以计算出平均值,并将其与其他相关数据进行比较。如果我们想了解一组数据的离散程度,我们可以计算出标准差和方差,并根据它们的大小来判断数据的离散程度。 除了描述统计指标,描述性的数据分析还可以通过数据可视化的方式展示数据的特征。常用的数据可视化方法包括直方图、散点图、饼图、折线图等。直方图可以将数据按照一定的区间进行分组,并以柱状图的形式展示出来,帮助人们直观地了解数据的分布情况;散点图可以将数据的每个观测值绘制为图上的一个点,帮助人们观察数据之间的关系;饼图可以将数据的每个类别按照百分比进行划分,并以饼状图的形式展示出来,帮助人们了解数据的分布比例;折线图可以将数据按照时间或者其他顺序进行排序,并以折线的形式展示出来,帮助人们观察数据的趋势变化。 通过数据的描述统计和数据可视化,我们可以全面了解数据的特征。描述性的数据分析可以帮助我们发现数据中的规律和模式,为后续的数据挖掘和预测分析提供基础。同时,描述性的数据分析还可以用于数据的质量控制,帮助我们检查数据是否存在异常值或者缺失值,并对数据进行清洗和修复。 总而言之,描述性的数据分析是数据分析的重要方法之一。它通过对数据进行描述统计和数据可视化,揭示出数据的特征和结构,帮助我们了解数据的基本情况。同时,描述性的数据分析还可以为后续的数据挖掘和预测分析提供基础,为决策提供依据。因此,在进行数据分析的时候,我们应该充分利用描述性的数据分析方法,挖掘出数据中的潜在价值。
2022-08-08 上传
2022-12-23 上传
描述性数据分析 ⼀、什么是描述统计分析(Descriptive Analysis) 概念:使⽤⼏个关键数据来描述整体的情况 描述性数据分析属于⽐较初级的数据分析,常见的分析⽅法包括对⽐分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所 有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及⼀些基本的统计 图形。 Excel⾥的分析⼯具库⾥的数据分析可以实现描述性统计分析的功能。 描述性统计分析即是对数据源最初的认知,其次才能去做⼀些其他的分析。 ⼆、常⽤指标 均值、中位数、众数体现了数据的集中趋势。 极差、⽅差、标准差体现了数据的离散程度。 偏度、峰度体现了数据的分布形状。 1、均值。均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较⼤的偏差。 2、中位数:数据按照从⼩到⼤的顺序排列时,最中间的数据即为中位数。当数据个数为奇数时,中位数即最中间的数,如果有N个数,则 中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。中位数不受极值影响,因此 对极值缺乏敏感性。 3、众数:数据中出现次数最多的数字,即频数最⼤的数值。众数可能不⽌⼀个,众数不能能⽤于数值型数据,还可⽤于⾮数值型数据,不 受极值影响。 4、极差:=最⼤值-最⼩值,是描述数据分散程度的量,极差描述了数据的范围,但⽆法描述其分布状态。且对异常值敏感,异常值的出现 使得数据集的极差有很强的误导性。 5、四分位数:数据从⼩到⼤排列并分成四等份,处于三个分割点位置的数值,即为四分位数,四分位数分为上四分位数(数据从⼩到⼤排 列排在第75%的数字,即最⼤的四分位数)、下四分位数(数据从⼩到⼤排列排在第25%位置的数字,即最⼩的四分位数)、中间的四分 位数即为中位数。四分位数可以很容易地识别异常值。箱线图就是根据四分位数做的图。 四分位数的计算: 下四分位数的位置: 计算n/4 如果结果为整数,则下四分位数位于n/4这个位置和下⼀个位置的中间,取这两个位置上数值的平均值 如果结果不为整数,则向上取整,所得结果为下四分位数的位置 上四分位数的位置: 计算3n/4, 如果结果为整数,则上四分位数位于3n/4这个位置和下⼀个位置的中间,取这两个位置上数值的平均值 如果结果不为整数,则向上取整,所得结果为上四分位数的位置 eg、3 3 6 7 7 10 10 11 13 30 n=11, 11/4=2.75,不为整,向上取整3,则下四分位数是第3个数,即6; 3*11/4=8.25,也不为整,向上取整9,则上四分位是第9个数,即11 箱线图可以⽤来⽐较不同组别的数据。箱线图除了上下四分位数,还有上界(除异常点以外的最⼤值)、下界(除异常点以外的最⼩值) 6、⽅差和标准差。⽅差是每个数据值与全体数据的平均数差的平⽅的平均数。标准差是⽅差开⽅。⽅差与标准差表⽰数据集波动的⼤⼩, ⽅差⼩,表⽰数据集⽐较集中,波动性⼩,⽅差⼤,表⽰数据集⽐较分散,波动性⼤。由于标准差只能⽤于统⼀体系内的数据⽐较,如果要 对不同体系的数据⽐较,就要引⼊标准分的概念。 σ2=1Ni=1N(Xi-μ)2 σ=σ2 7、标准分z:对数据进⾏标准化处理,⼜叫Z标准化,经过Z标准化处理后的数据符合正态分布(即均值为0,标准差为1)。标准分是对不 同数据集的数据进⾏⽐较的量,可⽤来表⽰数据值在所在数据集内的相对排名 。标准分的意义是每个数值距离平均值有多少个标准差。 有数据集x1,x2,x3,其平均值为μ,标准差为σ,则其标准分z为: z=x2-μσ 8、峰度:描述正态分布中曲线峰顶尖哨程度的指标。峰度系数>0,则两侧极端数据较少,⽐正太分布更⾼更瘦,呈尖哨峰分布;峰度系数 <0,则两侧极端数据较多,⽐正太分布更矮更胖,呈平阔峰分布。 9、偏度:以正态分布为标准描述数据对称性的指标。偏度系数=0,则分布对称;偏度系数>0,则频数分布的⾼峰向左偏移,长尾向右延 伸,呈正偏态分布;偏度系数<0,则频数分布的⾼峰向右偏移,长尾向左延伸,呈负偏态分布。 还有⼀些其他的量,不仅在描述性统计分析中常见,在数据报告中也很常见,如 10、绝对数 11、相对数:倍数、成数、百分数 12、百分⽐ 13、百分点:1个百分点=1%,是指变动的幅度 14、频数:绝对数,是⼀组数据中个别数据重复出现的次数 15、频率:相对数,次数与总次数的⽐。 16、⽐例:相对数,总体中各部分占全部的⽐,如:男⽣的⽐例是30:50 17、⽐率:相对数,不同类别的⽐,如男⼥⽐率俄⽇3:2 18、倍数:相对数,⼀个数除以另⼀个数所得的商,如A/B=C,那么A是B的C倍。 19、番数:相对数,指原来数量的2的N次⽅,如翻⼀番,意