1、参考上课讲授内容，使用pandas库读入一个数据文件data.csv， DataFrame对象展示内容如下所示：这是一家服装店统计的会员数据。最上面的一行是列坐标，最左侧一列是行坐标。列坐标中，第 0 列代表的是序号，第 1 列代表的会员的姓名，第 2 列代表年龄，第 3 列代表体重，第 4~6 列代表男性会员的三围尺寸，第 7~9 列代表女性会员的三围尺寸。 (1) 删除值全为Nan的行，删除序号列。 (2) 对df对象进行列索引标识。 (3) 年龄中的Nan值用年龄的均值替换。 (4) 将体重列中单位为kgs的数据全部变换成单位为lbs的数据 (1kgs=2.2lbs)，再去除lbs后缀。 (5) 将体重列中Nan值用体重的均值替换。 (6) 剔除会员姓名列中的异常字符，再将会员的姓名划分为姓和名两列。 (7) 将女性会员的腰围列中的Nan用女性腰围的均值替换。 (8) 在df对象中增加一个性别列，男性值为“1”，女性值为”0”。 (9) 将df中男性的三围数据列和女性的三围数据列合并。 (10) 在df对象中只保存会员的姓、名、性别、年龄、体重、胸围、腰围、臀围共8列数据，按性别分组，统计输出男性、女性的年龄、体重及三围数据的均值、方差和中位数。\

时间: 2024-02-27 16:52:00 浏览: 162

学习pandas的数据

在数据分析领域，Pandas是一个不可或缺的工具，它为Python提供了高效的数据处理能力。"学习pandas的数据"这个主题涵盖了对Pandas库的深入理解和实践应用。以下是对Pandas的一些核心知识点的详细介绍： 1. **数据结构**: Pandas主要提供两种核心数据结构——Series和DataFrame。Series是一维的数据结构，类似于一列带标签的数组；DataFrame是二维表格型数据结构，包含列标签（columns）和行标签（index），可以理解为表格或者电子表格。 2. **数据加载与读取**: Pandas支持多种数据格式的读取，如CSV、Excel、SQL数据库、JSON、HTML等。例如，使用`pd.read_csv()`函数读取CSV文件，`pd.read_excel()`读取Excel文件。 3. **数据清洗**: 在实际数据分析中，数据清洗是重要的步骤。Pandas提供了处理缺失值（NaN）的方法，如`fillna()`, `dropna()`；去除重复值用`duplicated()`和`drop_duplicates()`。 4. **数据操作**: 包括选择子集（使用索引或列名）、切片、过滤、排序等。例如，通过`.loc[]`和`.iloc[]`进行基于标签和位置的索引，以及使用条件表达式筛选行。 5. **数据合并与连接**: Pandas提供了`concat()`、`merge()`和`join()`函数来组合多个DataFrame。`concat()`按行或列堆叠数据，`merge()`基于一个或多个键进行表间连接，`join()`则主要基于索引进行连接。 6. **数据重塑与分组**: `pivot()`、`pivot_table()`用于数据透视，`melt()`用于“融化”宽格式数据到长格式。`groupby()`是分组操作的关键，可以对数据进行聚合、求和、计数等。 7. **时间序列分析**: Pandas内置了对时间序列数据的良好支持，可以方便地处理日期和时间数据，如`to_datetime()`转换字符串为日期，`resample()`进行时间频率的重采样。 8. **数据统计分析**: 提供基本的统计方法如`mean()`, `median()`, `mode()`, `std()`, `var()`等，还有描述性统计函数如`describe()`，以及更复杂的统计计算如`corr()`计算相关系数。 9. **数据可视化**: Pandas可以直接利用matplotlib或seaborn库进行数据可视化，如使用`.plot()`方法绘制折线图、柱状图、散点图等。 10. **性能优化**: 对于大规模数据，Pandas提供了诸如`set_index()`, `astype()`等方法优化数据结构，以及`chunksize`参数进行数据分块处理，以提高处理效率。通过学习以上知识点，你将能够熟练地使用Pandas处理各种数据任务，从数据预处理到数据分析和可视化的全过程。在实际操作中，不断练习并结合实际问题，将有助于深化对Pandas的理解和应用。

好的，以下是针对您提供的数据文件data.csv的处理代码，使用的是Python中的pandas库： ```python import pandas as pd # 读取数据文件 df = pd.read_csv('data.csv') # (1) 删除值全为Nan的行，删除序号列 df.dropna(how='all', inplace=True) # 删除值全为Nan的行 df.drop(columns=['序号'], inplace=True) # 删除序号列 # (2) 对df对象进行列索引标识 columns = ['姓名', '年龄', '体重', '胸围', '腰围', '臀围'] columns.extend(['{}'.format(i) for i in range(1, 4)]) columns.extend(['{}'.format(i) for i in range(4, 7)]) df.columns = columns # (3) 年龄中的Nan值用年龄的均值替换 df['年龄'].fillna(df['年龄'].mean(), inplace=True) # (4) 将体重列中单位为kgs的数据全部变换成单位为lbs的数据 (1kgs=2.2lbs)，再去除lbs后缀 def kg_to_lbs(x): if pd.isna(x): return x else: return float(x[:-3]) * 2.2 df['体重'] = df['体重'].apply(kg_to_lbs) # (5) 将体重列中Nan值用体重的均值替换 df['体重'].fillna(df['体重'].mean(), inplace=True) # (6) 剔除会员姓名列中的异常字符，再将会员的姓名划分为姓和名两列 def clean_name(name): # 剔除异常字符 name = name.replace('·', '') name = name.replace(' ', '') # 划分为姓和名两列 if len(name) == 2: return name[0], name[1] else: return name[:2], name[2:] df['姓'], df['名'] = zip(*df['姓名'].apply(clean_name)) # (7) 将女性会员的腰围列中的Nan用女性腰围的均值替换 df.loc[df['性别'] == 0, '腰围'].fillna(df.loc[df['性别'] == 0, '腰围'].mean(), inplace=True) # (8) 在df对象中增加一个性别列，男性值为“1”，女性值为”0“ df['性别'] = df['胸围'].apply(lambda x: 1 if pd.notna(x) else 0) # (9) 将df中男性的三围数据列和女性的三围数据列合并 df_male = df[df['性别'] == 1][['胸围', '腰围', '臀围']] df_male.columns = ['男性胸围', '男性腰围', '男性臀围'] df_female = df[df['性别'] == 0][['胸围', '腰围', '臀围']] df_female.columns = ['女性胸围', '女性腰围', '女性臀围'] df = pd.concat([df, df_male, df_female], axis=1) # (10) 在df对象中只保存会员的姓、名、性别、年龄、体重、胸围、腰围、臀围共8列数据，按性别分组，统计输出男性、女性的年龄、体重及三围数据的均值、方差和中位数 df_new = df[['姓', '名', '性别', '年龄', '体重', '胸围', '腰围', '臀围']] grouped = df_new.groupby('性别') for name, group in grouped: print('性别为{}的数据：'.format(name)) print('年龄均值：{}'.format(group['年龄'].mean())) print('年龄方差：{}'.format(group['年龄'].var())) print('年龄中位数：{}'.format(group['年龄'].median())) print('体重均值：{}'.format(group['体重'].mean())) print('体重方差：{}'.format(group['体重'].var())) print('体重中位数：{}'.format(group['体重'].median())) print('胸围均值：{}'.format(group['胸围'].mean())) print('胸围方差：{}'.format(group['胸围'].var())) print('胸围中位数：{}'.format(group['胸围'].median())) print('腰围均值：{}'.format(group['腰围'].mean())) print('腰围方差：{}'.format(group['腰围'].var())) print('腰围中位数：{}'.format(group['腰围'].median())) print('臀围均值：{}'.format(group['臀围'].mean())) print('臀围方差：{}'.format(group['臀围'].var())) print('臀围中位数：{}'.format(group['臀围'].median())) ```

阅读全文

相关推荐

使用pandas库对csv文件进行筛选保存

使用Python Pandas库批量导入CSV文件至DataFrame的技巧

Daily-NET-Basketball-Rankings：从PDF文件提取每日NET排名，转换为pandas DataFrame，在本地另存为.csv文件

DKB-Kontoauszug-Visualizer:使用 Python Pandas 从您的 DKB 银行账户分析 .csv

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

pandas.DataFrame.sample使用实例

python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix实现

XML数据处理：处理多个微博上爬取的XML数据，转换为pandas.dataframe格式。处理从多个微博中爬取的XML数据并将其转换为pandas.dataframe格式。

将pandas.dataframe的数据写入到文件中的方法

"Python 工具库每日推荐 Pandas" 博文中涉及的学习资料-sales-data.csv

pandas 中dataframe对象增加行与 dataframe对象修改

data_wuliu.csv 数据分析用 python pandas

python pandas.DataFrame.loc函数使用详解

Pandas库中DataFrame创建函数详解.md

4.Pandas 数据结构 – DataFrame _ 菜鸟.pdf

Python Pandas批量读取csv文件到dataframe的方法

stock-pandas:ppandas.DataFrame的可用于生产的子类，以支持库存统计数据和指标

Python Pandas数据操作指南：DataFrame与CSV/Excel处理

毕设和企业适用springboot企业健康管理平台类及活动管理平台源码+论文+视频.zip

最新推荐

python 使用pandas的dataframe一维数组和二维数组分别按行写入csv或excel

使用Python(pandas库)处理csv数据

利用pandas向一个csv文件追加写入数据的实现示例

Python将一个CSV文件里的数据追加到另一个CSV文件的方法

python实现在pandas.DataFrame添加一行

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现