1.现有一个职业人群体检数据testdata.xls文件，请完成以下数据分析任务。（1）用read_excel()方法读取testdata.xls文件到变量df中。（2）用df.dtypes查看每列的数据类型。（3）用df.info()查看表结构。（4）用isnull().sum()统计各字段空缺值。（5）用dropna()方法删除全为空的列。（6）用dropna()方法删除“身份证号”为空的行，并用isnull().sum()再次统计空值。（7）将“开始从事某工作年份：2009年”中的“年”去掉，并用rename()将列名改为“参加工作时间”。将“体检年份：2009年”中的“年”去掉。（8）用dropna()方法删除“参加工作时间”、“体检年份”为空的行. （9）用astype()方法将“参加工作时间”、“体检年份”数据类型改为int64. （10）增加一列“工龄”，工龄=体检年份-参加工作时间；新增一列“年龄” （11）用groupby()统计不同性别的白细胞计数均值，并用plot()方法绘制柱状图（12）统计不同年龄段的白细胞计数，并绘制柱状图。年龄划分：小于等于30岁，31~40岁，41~50岁，大于50岁

时间: 2023-12-14 08:39:50 浏览: 185

以下是对应的Python代码： ```python # （1）读取testdata.xls文件到变量df中 import pandas as pd df = pd.read_excel('testdata.xls') # （2）查看每列的数据类型 print(df.dtypes) # （3）查看表结构 print(df.info()) # （4）统计各字段空缺值 print(df.isnull().sum()) # （5）删除全为空的列 df.dropna(axis=1, how='all', inplace=True) # （6）删除“身份证号”为空的行，并再次统计空值 df.dropna(subset=['身份证号'], inplace=True) print(df.isnull().sum()) # （7）将“开始从事某工作年份：2009年”中的“年”去掉，并将列名改为“参加工作时间”； # 将“体检年份：2009年”中的“年”去掉 df.rename(columns={'开始从事某工作年份：2009年': '参加工作时间', '体检年份：2009年': '体检年份'}, inplace=True) df['参加工作时间'] = df['参加工作时间'].str.replace('年', '') df['体检年份'] = df['体检年份'].str.replace('年', '') # （8）删除“参加工作时间”、“体检年份”为空的行 df.dropna(subset=['参加工作时间', '体检年份'], inplace=True) # （9）将“参加工作时间”、“体检年份”数据类型改为int64 df['参加工作时间'] = df['参加工作时间'].astype('int64') df['体检年份'] = df['体检年份'].astype('int64') # （10）增加一列“工龄”，工龄=体检年份-参加工作时间；新增一列“年龄” df['工龄'] = df['体检年份'] - df['参加工作时间'] df['年龄'] = df['出生年'].apply(lambda x: 2021 - x) # （11）统计不同性别的白细胞计数均值，并用plot()方法绘制柱状图 df.groupby('性别')['白细胞计数'].mean().plot(kind='bar') # （12）统计不同年龄段的白细胞计数，并绘制柱状图。年龄划分：小于等于30岁，31~40岁，41~50岁，大于50岁 bins = [0, 30, 40, 50, 100] labels = ['<=30', '31~40', '41~50', '>50'] df['年龄段'] = pd.cut(df['年龄'], bins=bins, labels=labels) df.groupby('年龄段')['白细胞计数'].mean().plot(kind='bar') ```

阅读全文

相关推荐

实训1 职业人群体检数据分析.ipynb

体检数据，可用于进行文章中的数据分析

Excel 数据分析方法

vol = o3d.visualization.read_selection_polygon_volume("../../TestData/Crop/cropped.json") chair = vol.crop_point_cloud(pcd) o3d.visualization.draw_geometries([chair])

TestData.images_only.tar.gz_Only_lens_多 镜头 matlab_多镜头

vip_testdata.csv

oli8_12340_20190817_testdata00.rar

elasticsearch_testdata.rar

noip95-04.rar_NOI testdata_noip1995_noip95_noip95-04_信息学竞赛

testdata/megadepth_test_1500.tar

TestData数据集：深入分析model_sample.csv样本

testdata.xls下载

if __name__ == "__TestData_Get__":

testData = pd.read_csv(r'data\test.csv') print('训练数据集:', trainData.shape,', 测试数据集:', testData.shape)

pandas读取testdata.xlsx文件中A列数据并插入到testdata.xlsx文件N列中

对Excel进行数据分析

如何用excel进行数据分析.docx

大家在看

silvaco中文学习资料

AES128（CBC或者ECB）源码

EMC VNX 5300使用安装

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

视频转换芯片 TP9950 iic 驱动代码

最新推荐

sqlserver中重复数据值只取一条的sql语句

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

掌握Android RecyclerView拖拽与滑动删除功能

【IBM HttpServer入门全攻略】：一步到位的安装与基础配置教程

[root@localhost~]#mount-tcifs-0username=administrator,password=hrb.123456//192.168.100.1/ygptData/home/win mount：/home/win：挂载点不存在

惠普8594E与IT8500系列电子负载使用教程

MATLAB与Python在SAR点目标仿真中的对决：哪种工具更胜一筹？

前端代理配置config.js配置proxyTable多个代理不生效

最小二乘法程序深入解析与应用案例

TestData.images_only.tar.gz_Only_lens_多镜头 matlab_多镜头

if name == "__TestData_Get__":

华为MA5671光猫使用华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集