df['年龄段'] = pd.cut(df.年龄,bins = [0,30,40,50,100]) mean1 = df.groupby('年龄段')['白细胞计数'].mean() mean1什么意思

这段代码是针对一个数据框(df)的操作，首先将数据框中的'年龄'这一列按照给定的分割点(0, 30, 40, 50, 100)进行切分(分为四个区间)，并在数据框中新增一列'年龄段'，表示每个样本所在的年龄段。接着，对'年龄段'这一列进行分组(groupby)操作，统计每个年龄段中'白细胞计数'这一列的平均值(mean)。其中，mean1是一个Series对象，索引为不同的年龄段，值为对应年龄段内'白细胞计数'的平均值。这个操作的目的是探究不同年龄段中白细胞计数的差异。

1.现有一个职业人群体检数据testdata.xls文件，请完成以下数据分析任务。（1）用read_excel()方法读取testdata.xls文件到变量df中。（2）用df.dtypes查看每列的数据类型。（3）用df.info()查看表结构。（4）用isnull().sum()统计各字段空缺值。（5）用dropna()方法删除全为空的列。（6）用dropna()方法删除“身份证号”为空的行，并用isnull().sum()再次统计空值。（7）将“开始从事某工作年份：2009年”中的“年”去掉，并用rename()将列名改为“参加工作时间”。将“体检年份：2009年”中的“年”去掉。（8）用dropna()方法删除“参加工作时间”、“体检年份”为空的行. （9）用astype()方法将“参加工作时间”、“体检年份”数据类型改为int64. （10）增加一列“工龄”，工龄=体检年份-参加工作时间；新增一列“年龄” （11）用groupby()统计不同性别的白细胞计数均值，并用plot()方法绘制柱状图（12）统计不同年龄段的白细胞计数，并绘制柱状图。年龄划分：小于等于30岁，31~40岁，41~50岁，大于50岁

以下是对应的Python代码： ```python # （1）读取testdata.xls文件到变量df中 import pandas as pd df = pd.read_excel('testdata.xls') # （2）查看每列的数据类型 print(df.dtypes) # （3）查看表结构 print(df.info()) # （4）统计各字段空缺值 print(df.isnull().sum()) # （5）删除全为空的列 df.dropna(axis=1, how='all', inplace=True) # （6）删除“身份证号”为空的行，并再次统计空值 df.dropna(subset=['身份证号'], inplace=True) print(df.isnull().sum()) # （7）将“开始从事某工作年份：2009年”中的“年”去掉，并将列名改为“参加工作时间”； # 将“体检年份：2009年”中的“年”去掉 df.rename(columns={'开始从事某工作年份：2009年': '参加工作时间', '体检年份：2009年': '体检年份'}, inplace=True) df['参加工作时间'] = df['参加工作时间'].str.replace('年', '') df['体检年份'] = df['体检年份'].str.replace('年', '') # （8）删除“参加工作时间”、“体检年份”为空的行 df.dropna(subset=['参加工作时间', '体检年份'], inplace=True) # （9）将“参加工作时间”、“体检年份”数据类型改为int64 df['参加工作时间'] = df['参加工作时间'].astype('int64') df['体检年份'] = df['体检年份'].astype('int64') # （10）增加一列“工龄”，工龄=体检年份-参加工作时间；新增一列“年龄” df['工龄'] = df['体检年份'] - df['参加工作时间'] df['年龄'] = df['出生年'].apply(lambda x: 2021 - x) # （11）统计不同性别的白细胞计数均值，并用plot()方法绘制柱状图 df.groupby('性别')['白细胞计数'].mean().plot(kind='bar') # （12）统计不同年龄段的白细胞计数，并绘制柱状图。年龄划分：小于等于30岁，31~40岁，41~50岁，大于50岁 bins = [0, 30, 40, 50, 100] labels = ['<=30', '31~40', '41~50', '>50'] df['年龄段'] = pd.cut(df['年龄'], bins=bins, labels=labels) df.groupby('年龄段')['白细胞计数'].mean().plot(kind='bar') ```

1.现有一个职业人群体检数据testdata.xls文件，请完成以下数据分析任务。（1）用read_excel()方法读取testdata.xls文件到变量df中。（2）用df.dtypes查看每列的数据类型。（3）用df.info()查看表结构。（4）用isnull().sum()统计各字段空缺值。（5）用dropna()方法删除全为空的列。（6）用dropna()方法删除“身份证号”为空的行，并用isnull().sum()再次统计空值。（7）将“开始从事某工作年份：2009年”中的“年”去掉，将“体检年份：2009年”中的“年”去掉，并用rename()将列名改为“参加工作时间”。（8）用dropna()方法删除“参加工作时间”、“体检年份”为空的行. （9）用astype()方法将“参加工作时间”、“体检年份”数据类型改为int64. （10）增加一列“工龄”，工龄=体检年份-参加工作时间；新增一列“年龄” （11）用groupby()统计不同性别的白细胞计数均值，并用plot()方法绘制柱状图（12）统计不同年龄段的白细胞计数，并绘制柱状图。年龄划分：小于等于30岁，31~40岁，41~50岁，大于50岁。

```python # (1) 读取testdata.xls文件到变量df中 import pandas as pd df = pd.read_excel('testdata.xls') # (2) 查看每列的数据类型 print(df.dtypes) # (3) 查看表结构 print(df.info()) # (4) 统计各字段空缺值 print(df.isnull().sum()) # (5) 删除全为空的列 df.dropna(axis=1, how='all', inplace=True) # (6) 删除“身份证号”为空的行，并再次统计空值 df.dropna(subset=['身份证号'], inplace=True) print(df.isnull().sum()) # (7) 将“开始从事某工作年份：2009年”中的“年”去掉，将“体检年份：2009年”中的“年”去掉，并用rename()将列名改为“参加工作时间” df['开始从事某工作年份：2009年'] = df['开始从事某工作年份：2009年'].str.replace('年', '').astype('int64') df['体检年份：2009年'] = df['体检年份：2009年'].str.replace('年', '').astype('int64') df.rename(columns={'开始从事某工作年份：2009年': '参加工作时间'}, inplace=True) # (8) 删除“参加工作时间”、“体检年份”为空的行 df.dropna(subset=['参加工作时间', '体检年份：2009年'], inplace=True) # (9) 将“参加工作时间”、“体检年份”数据类型改为int64 df['参加工作时间'] = df['参加工作时间'].astype('int64') df['体检年份：2009年'] = df['体检年份：2009年'].astype('int64') # (10) 增加一列“工龄”，工龄=体检年份-参加工作时间；新增一列“年龄” df['工龄'] = df['体检年份：2009年'] - df['参加工作时间'] df['年龄'] = 2009 - df['出生年份'] # (11) 统计不同性别的白细胞计数均值，并用plot()方法绘制柱状图 df.groupby('性别')['白细胞计数'].mean().plot(kind='bar') # (12) 统计不同年龄段的白细胞计数，并绘制柱状图。年龄划分：小于等于30岁，31~40岁，41~50岁，大于50岁。 bins = [0, 30, 40, 50, df['年龄'].max()] labels = ['<=30', '31~40', '41~50', '>50'] df['年龄段'] = pd.cut(df['年龄'], bins=bins, labels=labels) df.groupby('年龄段')['白细胞计数'].mean().plot(kind='bar') ```

阅读全文

df['年龄段'] = pd.cut(df.年龄,bins = [0,30,40,50,100]) mean1 = df.groupby('年龄段')['白细胞计数'].mean() mean1什么意思

相关推荐

输入出生年份，判断年龄段

浅谈pandas.cut与pandas.qcut的使用方法及区别

pandas.cut具体使用总结

pandas年龄段进行分组

根据年龄段，性别与客舱等级将数据可视化

绘制不同年龄段、性别与客舱等级的堆叠柱状图

将年龄按性别分类和五岁为组距进行分组统计代码

请编写Python代码，根据已有数据对性别、年龄进行时域与频域对比，并绘制图表。要求数据准确、图形清晰。

python 假设属性age包括如下值：13，15，16，16，19，20，20，21，22， 22， 22，25，25，25，30，33，33，35，35， 35，35 ，36，40，45，46，52，70。等频法（等深分箱法）分为3个箱，用箱均值光滑以上数据。

springboot167基于springboot的医院后台管理系统的设计与实现.zip

XGigE IP GigE Vision Streaming Protocol VHDL源码 有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程 流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备

springboot174基于springboot的疾病防控综合系统的设计与实现.zip

SIGIR'22-减少虚假新闻检测中的实体偏差-论文复制_ ENDEF_glj.zip

SpringBoot3+Vue3教程

计算 Freeman 链代码以及边界的第一个差值和形状编号MATLAB代码.rar

dsp28335电机控制板zi料(软件代码) 1.永磁同步电机有传感器三闭环foc控制代码 2.永磁同步电机无传感器双闭环foc控制代码 3.无刷直流电机有传感器方波控制代码 4.异步电机V F变频调

校园二手书交易-JAVA-基于springBoot的校园二手书交易平台的设计与实现（毕业论文+PPT）

大家在看

计算机辅助安全工程第4章安全模拟与仿真ppt课件.ppt

五子棋 C++ 图形版

DSR.rar_MANET DSR_dsr_dsr manet_it_manet

c语言进行数字图像处理

KEMET_聚合物钽电容推介资料

最新推荐

springboot167基于springboot的医院后台管理系统的设计与实现.zip

XGigE IP GigE Vision Streaming Protocol VHDL源码 有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程 流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备

springboot174基于springboot的疾病防控综合系统的设计与实现.zip

SIGIR'22-减少虚假新闻检测中的实体偏差-论文复制_ ENDEF_glj.zip

macOS 10.9至10.13版高通RTL88xx USB驱动下载

PyCharm开发者必备：提升效率的Python环境管理秘籍

matlab中VBA指令集

在Windows Forms和WPF中实现FontAwesome-4.7.0图形

【Postman进阶秘籍】：解锁高级API测试与管理的10大技巧

XGigE IP GigE Vision Streaming Protocol VHDL源码有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备

XGigE IP GigE Vision Streaming Protocol VHDL源码有基于AC701 FPGA板卡的完整的参考工程

fluent重叠网格动网格，振荡翼型加摆动后缘小翼算例文件，udf文件，视频教程流体力学，航空航天，船舶海洋，土木工程，能源动力专业必备