"Python数据预处理与Pandas统计分析实验报告"
版权申诉
5星 · 超过95%的资源 89 浏览量
更新于2024-03-03
1
收藏 2.71MB DOCX 举报
本次实验主要包括以下内容:首先是创建随机数组 x 和 y,x为二维数组样本数据,y为样本标签,分别有10000个数据。之后使用Python内置函数打乱样本及标签原始排序,并确保一一对应关系。接着从两个数组中分别随机抽取1000个样本数据和标签。此过程可利用数组下标作为标记,首先随机生成1000个指定范围内下标,然后根据下标取数据。然后根据数据属性,结合任务目标,使用文字方式分析不同属性与任务的关联性分析,并给出属性重要性排序结果。接着练习Python中基本数据存取函数的使用,包括read_table、read_csv、to_csv、read_excel、to_excel。然后练习DataFrame的常用属性查看及操作命令,包括ndim、shape、memory_usage等,查看维度、大小、内存占用等信息。最后练习pandas中时间数据处理命令。
实验过程中,我们首先创建了随机数组x和y,其中x为二维数组样本数据,y为样本标签,数量均为10000。然后使用Python内置函数打乱了样本及标签原始排序,确保了一一对应关系。接着从两个数组中分别随机抽取了1000个样本数据和标签,这一过程中运用了数组下标作为标记,并且通过随机生成1000个指定范围内的下标,再根据下标取得了数据。接下来,我们根据数据属性,结合任务目标,使用文字方式进行了分析,得出了不同属性与任务的关联性分析,同时给出了了属性重要性排序。然后我们练习了Python中基本数据存取函数的使用,包括read_table、read_csv、to_csv、read_excel、to_excel。紧接着进行了DataFrame的常用属性查看及操作命令练习,包括ndim、shape、memory_usage等,从而查看了维度、大小、内存占用等信息。最后,我们练习了pandas中时间数据处理命令。
在实验过程中,我们对各项操作进行了仔细的实操,并将实验过程中的源码和截图都整理整了,是了更好地展现实验的每个步骤,确保每一步的操作都能清晰准确地呈现。通过这次实验,我们不仅掌握了随机抽取数据及其标签,还学会了用Python来对数据进行存取,并进行DataFrame的属性查看及操作,最后也学会了pandas中时间数据处理命令。同时,通过实验的小结部分,我们对整个实验过程有了更加清晰的认识,同时也明确了自己在实验中存在的问题。通过本次实验,我们对Pandas统计分析基础与数据预处理有了更深入的了解。
2022-06-23 上传
2018-08-05 上传
2023-12-01 上传
2023-08-28 上传
2024-11-11 上传
2023-08-02 上传
2020-07-15 上传
2020-12-22 上传
我慢慢地也过来了
- 粉丝: 1w+
- 资源: 4083
最新资源
- JavaScript实现的高效pomodoro时钟教程
- CMake 3.25.3版本发布:程序员必备构建工具
- 直流无刷电机控制技术项目源码集合
- Ak Kamal电子安全客户端加载器-CRX插件介绍
- 揭露流氓软件:月息背后的秘密
- 京东自动抢购茅台脚本指南:如何设置eid与fp参数
- 动态格式化Matlab轴刻度标签 - ticklabelformat实用教程
- DSTUHack2021后端接口与Go语言实现解析
- CMake 3.25.2版本Linux软件包发布
- Node.js网络数据抓取技术深入解析
- QRSorteios-crx扩展:优化税务文件扫描流程
- 掌握JavaScript中的算法技巧
- Rails+React打造MF员工租房解决方案
- Utsanjan:自学成才的UI/UX设计师与技术博客作者
- CMake 3.25.2版本发布,支持Windows x86_64架构
- AR_RENTAL平台:HTML技术在增强现实领域的应用