Python3数据分析:CSV读取与基础统计操作详解

1 下载量 132 浏览量 更新于2024-09-01 收藏 342KB PDF 举报
本篇博客主要介绍如何在Python 3环境下进行数据的读取与基本计算,特别关注于数据分析与挖掘建模实战中的常用统计方法。作者首先强调了数据处理的第一步——使用pandas库的`pd.read_csv()`函数来读取CSV文件,例如通过`df = pd.read_csv('./data/HR.csv')`命令加载名为"HR.csv"的数据集,将数据存储到DataFrame对象df中。 文章详细探讨了数据预览和类型检查,如通过`print(df)`和`print(type(df))`展示数据的结构和类型,以及特定列(如`satisfaction_level`)的数据性质。对于数值型数据,博主重点讲解了以下几类基本统计计算: 1. **平均值**:`mean()`函数用于计算整体数据的平均值,如`df.mean()`或针对单列的平均值`df["satisfaction_level"].mean()`。 2. **中位数**:`median()`函数用来找出中间值,表示数据集的50%数据小于这个值,如`df.median()`获取所有列的中位数,`df["satisfaction_level"].median()`获取指定列的中位数。 3. **四分位数**:`quantile()`函数计算数据的分位数,如`df.quantile(q=0.25)`获取四分之一分位数,也就是Q1,有助于了解数据的分布情况。 此外,博主还提到了计算偏态(skewness)和峰态(kurtosis),这些是衡量数据分布形态的指标,通过`skew()`和`kurt()`函数实现。对于正态分布的分析,博主介绍了`ss.norm.stats()`函数,它能够计算均值、方差、偏态和峰态等参数,而`ss.norm.pdf()`则是概率密度函数,`ss.norm.cdf()`则提供了累积分布函数,用于计算给定值的累计概率。 最后,博主演示了如何使用`ss.norm.rvs()`生成符合正态分布的随机数,并提及了其他分布,如卡方分布(`ss.chi2`)、t分布(`ss.t`)、F分布(`ss.f`),以及如何从样本中抽取特定数量的样本来创建分布(如`ss.fsample(num)`)。 这篇博客深入浅出地展示了Python 3中数据处理的基本操作,包括数据读取、探索性分析和统计描述,适合对数据分析感兴趣的初学者和进阶者参考和实践。