2002-2018年上海机动车拍卖数据分析

0 下载量 165 浏览量 更新于2024-09-01 收藏 167KB PDF 举报
"Pandas_task06 综合练习,涉及了对2002年至2018年上海机动车拍照拍卖数据的处理,包括计算成功率、按年份分组统计最低价格指标、重新排列数据框以及进行透视表操作。" 在本次Pandas的大作业中,我们主要涉及到以下几个关键知识点: 1. **数据读取与处理**:使用`pd.read_csv`函数读取CSV数据文件,得到DataFrame对象`df_car`,包含了2002年至2018年上海机动车拍照拍卖的相关数据。 2. **计算成功率**:创建新的列`percent`,通过`apply`函数计算每个拍卖事件的成功率,即发放的车牌数量(`Total number of license issued`)除以申请人数(`Total number of applicants`),然后遍历数据,找出成功率低于5%的记录,打印出对应日期。 3. **按年份分组**:使用`groupby`函数根据'年份'列进行分组,创建名为`groupedyear`的对象。 4. **自定义函数应用**:定义了一个名为`f`的函数,用于计算每个年份组中的最低价格的最大值、平均值和75%分位数,然后通过`apply`将该函数应用到`groupedyear`上,返回一个Series对象,其中包含每个年份组的统计结果。 5. **数据处理与重排**:复制原始数据框`df_car`,通过`apply`函数提取'年份'和'月份',并创建新的列。接着,使用`reindex`调整列的顺序,形成新的数据框`dfym`,便于后续分析。 6. **Melt操作**:使用`melt`方法将`dfym`的特定列进行“融化”,将多列数值变量转换为两列('年份'、'月份'作为ID变量,其他列为`value_vars`,统一命名为'info'),形成一个宽格式到长格式的数据框`result`。 7. **透视表操作**:对`result`进行透视表操作,使用`pivot_table`,以'年份'和'value_vars'列的变量名作为索引,对'info'列进行聚合,生成一个新的表格结构,便于查看不同年份和指标的统计信息。 这些操作展示了Pandas库在数据处理、分组统计、时间序列处理和数据转换等方面的能力,是数据分析工作中常见的步骤。通过这样的练习,可以提升对Pandas的掌握程度,为实际的数据分析任务打下坚实的基础。