将“大数据1年级数据.xlsx”、“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”导入到python中。去除各个表格中的重复数据。将所有成绩数据中的nan替换为这门成绩的平均成绩，如果成绩有效数据少于1门的学生直接删除。 “大数据1年级专业成绩数据.xlsx”表增加列“专业成绩总分”，“专业成绩平均分”分别记录每名同学专业成绩的总分和平均分。根据“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”填充完整“大数据1年级数据.xlsx”中的所有数据并将这些数据导入到“大数据1年级数据（完整数据）.xlsx”中。按班级拆分表格，按班号分为一到四班计算本班每一门成绩的平均值，将成绩导出到”学号+姓名统计大数据21N班成绩信息.xlsx”文件中。本班不及格数量，统计本班不及格成绩最多的一门课程是什么课程，将结果导出到一个名称为”学号+姓名统计本班信息.txt”文本文件中。统计自己的寝室的平均成绩，不及格门数，将信息导出到一个名称为”学号+姓名统计寝室信息.csv”文件中。统计自己的平均成绩，不及格门数，将信息导出到一个名称为”学号+姓名统计本人信息.csv”文件中。

时间: 2024-03-14 12:44:32 浏览: 171

好的，我明白了您的问题。这是一个数据处理的任务，需要使用Python中的pandas和openpyxl模块进行操作。以下是大致的代码实现： ``` import pandas as pd from openpyxl import load_workbook # 读取excel文件 df1 = pd.read_excel('大数据1年级数据.xlsx') df2 = pd.read_excel('大数据1年级朋友数据.xlsx') df3 = pd.read_excel('大数据1年级爱好数据.xlsx') df4 = pd.read_excel('大数据1年级专业成绩数据.xlsx') # 去除重复数据 df1.drop_duplicates(inplace=True) df2.drop_duplicates(inplace=True) df3.drop_duplicates(inplace=True) df4.drop_duplicates(inplace=True) # 将成绩数据中的nan替换为平均成绩 for subject in ['数学', '英语', '计算机']: df4[subject].fillna(df4[subject].mean(), inplace=True) # 删除成绩有效数据少于1门的学生 df4 = df4[df4[['数学', '英语', '计算机']].count(axis=1) >= 1] # 增加列“专业成绩总分”和“专业成绩平均分” df4['专业成绩总分'] = df4[['数学', '英语', '计算机']].sum(axis=1) df4['专业成绩平均分'] = df4[['数学', '英语', '计算机']].mean(axis=1) # 填充完整数据并导出到新文件 df1 = df1.merge(df2, on='学号', how='outer') df1 = df1.merge(df3, on='学号', how='outer') df1 = df1.merge(df4, on='学号', how='outer') df1.to_excel('大数据1年级数据（完整数据）.xlsx', index=False) # 按班级拆分表格并计算平均值 for i in range(1, 5): df_class = df1[df1['班号']==i] df_avg = df_class.groupby('姓名')[['数学', '英语', '计算机']].mean() df_avg.to_excel(f'学号+姓名统计大数据21N{i}班成绩信息.xlsx') # 统计本班不及格成绩最多的一门课程 df_fail = df_class[['数学', '英语', '计算机']].apply(lambda x: x<60) df_fail_count = df_fail.sum() max_fail = df_fail_count.idxmax() with open(f'学号+姓名统计本班信息.txt', 'w') as f: f.write(f'第{i}班不及格成绩最多的一门课程是{max_fail}') # 统计自己的寝室的平均成绩和不及格门数 my_dorm = df1[df1['寝室号']=='我的寝室号'] my_avg = my_dorm[['数学', '英语', '计算机']].mean() my_fail_count = (my_dorm[['数学', '英语', '计算机']] < 60).sum() my_info = pd.concat([my_avg, my_fail_count], axis=0, keys=['平均成绩', '不及格门数']) my_info.to_csv('学号+姓名统计寝室信息.csv') # 统计自己的平均成绩和不及格门数 my_avg = df1[df1['学号']=='我的学号'][['数学', '英语', '计算机']].mean() my_fail_count = (df1[df1['学号']=='我的学号'][['数学', '英语', '计算机']] < 60).sum() my_info = pd.concat([my_avg, my_fail_count], axis=0, keys=['平均成绩', '不及格门数']) my_info.to_csv('学号+姓名统计本人信息.csv') ``` 请注意，代码中的文件名和数据列名应根据实际情况进行修改。

阅读全文

相关推荐

大数据python

用Python编程实现学生成绩管理，能按学期、按班级对学生成绩进行录入、修改、统计、查询和输出

大数据1班分组汇总.xlsm

将“大数据1年级数据.xlsx”、“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”导入到python中

[Errno 2] No such file or directory: '大数据1年级爱好数据.xlsx，大数据1年级朋友数据.xlsx，大数据1年级数据.xlsx，大数据1年级专业成绩数据.xlsx'

根据D盘下的“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”填充完整“大数据1年级数据.xlsx”中的所有数据并将这些数据导入到“大数据1年级数据（完整数据）.xlsx”中。

任务一：将“大数据1年级数据.xlsx”、“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”导入到python中。

去除大数据1年级数据.xlsx”、“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsxexcel各个表格中的重复数据。

python根据D盘下的“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”填充完整“大数据1年级数据.xlsx”中的所有数据并将这些数据导入到“大数据1年级数据（完整数据）.xlsx”中。

Python根据D盘下的“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”填充完整“大数据1年级数据.xlsx”中的所有数据并将这些数据导入到“大数据1年级数据（完整数据）.xlsx”中。

python去除大数据1年级数据.xlsx”、“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsxexcel各个表格中的重复数据。

将C盘中的“大数据1年级数据.xlsx”、“大数据1年级朋友数据.xlsx”、“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”导入到python中。并去除各个表格中的重复数据

j将“大数据1年级爱好数据.xlsx”、“大数据1年级专业成绩数据.xlsx”数据中的nan替换为这门成绩的平均成绩，如果成绩有效数据少于1门的学生直接删除。

将“大数据1年级专业成绩数据.xlsx”中的nan替换为这门成绩的平均成绩，如果成绩有效数据少于1门的学生直接删除。

将“大数据1年级专业成绩数据.xlsx”表增加列“专业成绩总分”，“专业成绩平均分”分别记录每名同学线性代数成绩，高数成绩，和英语成绩三门专业成绩的总分和平均分。

将“大数据1年级专业成绩数据.xlsx”中的线性代数成绩，高数成绩，和英语成绩的空白部分替换为该门成绩的平均成绩，如果表中的线性代数成绩，高数成绩，和英语成绩全为空白的学生直接删除。

汇编 在数据段定义 10 个学生成绩。统计不及格、及格、中等，良好，优秀，满分的学生人数。统计结果分别存于自己定义各内存单元。

python 零基础学习篇-01.大数据基本概念--课程内容介绍.mp4

最新推荐

ta-lib-0.5.1-cp312-cp312-win32.whl

在线实时的斗兽棋游戏，时间赶，粗暴的使用jQuery + websoket 实现实时H5对战游戏 + java.zip课程设计

全国江河水系图层shp文件包下载

管理建模和仿真的文件

Keras模型压缩与优化：减小模型尺寸与提升推理速度

MTK 6229 BB芯片在手机中有哪些核心功能，OTG支持、Wi-Fi支持和RTC晶振是如何实现的？

点云二值化测试数据集的详细解读

"互动学习：行动中的多样性与论文攻读经历"

Keras正则化技术应用：L1_L2与Dropout的深入理解

在Python中使用xarray和cfgrib库处理GRIB数据时，如何有效解决遇到的DatasetBuildError错误？

汇编在数据段定义 10 个学生成绩。统计不及格、及格、中等，良好，优秀，满分的学生人数。统计结果分别存于自己定义各内存单元。