Python3数据分析:CSV读取与基础统计操作详解
132 浏览量
更新于2024-09-01
收藏 342KB PDF 举报
本篇博客主要介绍如何在Python 3环境下进行数据的读取与基本计算,特别关注于数据分析与挖掘建模实战中的常用统计方法。作者首先强调了数据处理的第一步——使用pandas库的`pd.read_csv()`函数来读取CSV文件,例如通过`df = pd.read_csv('./data/HR.csv')`命令加载名为"HR.csv"的数据集,将数据存储到DataFrame对象df中。
文章详细探讨了数据预览和类型检查,如通过`print(df)`和`print(type(df))`展示数据的结构和类型,以及特定列(如`satisfaction_level`)的数据性质。对于数值型数据,博主重点讲解了以下几类基本统计计算:
1. **平均值**:`mean()`函数用于计算整体数据的平均值,如`df.mean()`或针对单列的平均值`df["satisfaction_level"].mean()`。
2. **中位数**:`median()`函数用来找出中间值,表示数据集的50%数据小于这个值,如`df.median()`获取所有列的中位数,`df["satisfaction_level"].median()`获取指定列的中位数。
3. **四分位数**:`quantile()`函数计算数据的分位数,如`df.quantile(q=0.25)`获取四分之一分位数,也就是Q1,有助于了解数据的分布情况。
此外,博主还提到了计算偏态(skewness)和峰态(kurtosis),这些是衡量数据分布形态的指标,通过`skew()`和`kurt()`函数实现。对于正态分布的分析,博主介绍了`ss.norm.stats()`函数,它能够计算均值、方差、偏态和峰态等参数,而`ss.norm.pdf()`则是概率密度函数,`ss.norm.cdf()`则提供了累积分布函数,用于计算给定值的累计概率。
最后,博主演示了如何使用`ss.norm.rvs()`生成符合正态分布的随机数,并提及了其他分布,如卡方分布(`ss.chi2`)、t分布(`ss.t`)、F分布(`ss.f`),以及如何从样本中抽取特定数量的样本来创建分布(如`ss.fsample(num)`)。
这篇博客深入浅出地展示了Python 3中数据处理的基本操作,包括数据读取、探索性分析和统计描述,适合对数据分析感兴趣的初学者和进阶者参考和实践。
2017-01-09 上传
2010-10-02 上传
2023-05-26 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
2021-08-19 上传
2024-05-27 上传
395 浏览量
weixin_38537541
- 粉丝: 6
- 资源: 892
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章