Pandas数据运算与统计分析实验报告-张栩杰

需积分: 0 0 下载量 29 浏览量 更新于2024-08-04 收藏 118KB DOC 举报
该实验报告是关于Pandas在数据运算与统计分析的应用,由重庆移通学院大数据与计算机科学学院的学生张栩杰完成。实验涵盖了Pandas的下载、安装、导入,以及数据结构、数据运算、数据分析等多个方面,旨在通过实际操作提升学生对Pandas库的掌握。 实验涉及的知识点主要包括: 1. **Pandas数据结构**:Pandas提供了两种核心的数据结构,Series(一维数据结构)和DataFrame(二维表格型数据结构)。Series类似于带标签的一维数组,可以存储各种数据类型;DataFrame则像表格,包含多列,每列可以是不同的值类型。 2. **数据运算**: - **算术运算**:在DataFrame中,可以对相同索引的元素进行加、减、乘、除等算术运算。 - **比较运算**:同样支持比较运算,如等于、不等于、大于、小于等,用于生成布尔掩码。 - **函数应用和映射**:可以使用apply()函数对数据进行自定义函数运算,map()函数用于映射操作,将函数应用到Series或DataFrame的每一项。 3. **数据分析**: - **排序**:可以按照行或列进行排序,可以是升序或降序。 - **基本统计分析**:使用describe()函数可以快速得到数据的基本统计信息,包括计数、均值、标准差、最小值、25%分位数、50%分位数(中位数)、75%分位数和最大值。 - **分组分析**:通过groupby()函数进行分组,可以对每个组进行聚合操作。 - **分布分析**:分析数据的分布情况,例如通过binning将数据划分为不同的区间进行计数。 - **相关分析**:使用corr()函数计算变量间的相关系数,评估它们之间的线性关系。 - **交叉分析**:通过交叉表(crosstab()函数)进行两个分类变量的联合分布分析。 4. **实验操作实例**: - 实验中,学生创建了Series和DataFrame对象,进行了不同索引的运算。 - 对于"成绩表.xlsx"文件,增加了总评成绩列,并计算了统计值。 - 使用describe()函数对成绩进行统计分析。 - 按性别分组,计算总评成绩的平均值。 - 将总评成绩划分为分数等级,统计各等级人数。 - 计算了加分与课堂表现、加分与总评成绩的相关系数。 - 进行了性别与分数等级、性别与缺勤次数的交叉分析。 实验报告还包括了主要操作的代码和结果截图,以便教师对学生的工作进行评估和反馈。通过这样的实验,学生能深入理解Pandas库在实际数据处理和分析中的应用。