pivot_df = df.pivot(index='Region', columns='Brand', values='Sales')什么意思
时间: 2023-07-31 14:11:22 浏览: 139
这行代码是将一个数据框(df)中的三个变量'Region', 'Brand'和'Sales'进行透视,得到一个新的数据框(pivot_df)。其中,'Region'变量作为行索引,'Brand'变量作为列索引,'Sales'变量作为值,最终得到的结果是在不同地区('Region')不同品牌('Brand')的销售额('Sales')数据。换句话说,这个代码将数据从长格式转换为宽格式,方便数据的查看和分析。
相关问题
解释下这段代码 第三方商品 __df1 = __temp_df[__temp_df['show_name'] == '第三方商品'] if not __df1.empty: __df1 = __df1.pivot_table(index=['name', 'show_name'], values=['buy_num'], aggfunc=np.sum).reset_index() else: __df1 = __df1[['name', 'show_name', 'buy_num']] # 非第三方商品 __df2 = __temp_df[__temp_df['show_name'] != '第三方商品'] if not __df2.empty: __df2 = __df2.pivot_table(index=['gt_uuid', 'show_name'] ,values=['buy_num'], aggfunc=np.sum).reset_index() __df2 = pd.merge(left=__df2, right=pd.DataFrame(s_gt_rv, columns=['gt_uuid', 'goods_name']), how='left', on='gt_uuid') __df2 = __df2[['goods_name', 'show_name', 'buy_num']] __df2.rename(columns={'goods_name': 'name'}, inplace=True) else: __df2 = __df2[['name', 'show_name', 'buy_num']] __temp_df = pd.concat([__df1, __df2]) del __df1, __df2 __temp_df.rename(columns={'name': 'goods_name', 'show_name': 'gc_name', 'buy_num': 'num'}, inplace=True) __temp_df.sort_values(by='num', ascending=False, inplace=True) return_data['goods']['goods_list'] = __temp_df.to_dict(orient='records') __temp_df = __temp_df[['gc_name', 'num']] __temp_df = __temp_df.pivot_table(index='gc_name', values='num', aggfunc=np.sum).reset_index() __temp_df.sort_values(by='num', ascending=False, inplace=True) return_data['goods']['gc_list'] = __temp_df.to_dict(orient='records') del __temp_df
这段代码是对一个名为 `__temp_df` 的数据框进行处理,并将处理结果存储在 `return_data` 字典的 `goods` 键下。
首先,根据条件 `__temp_df['show_name'] == '第三方商品'`,筛选出满足条件的行,存储在 `__df1` 中。如果 `__df1` 不为空,则对其进行数据透视操作,按照 `name` 和 `show_name` 分组,计算 `buy_num` 的总和,并重置索引。否则,保留 `__df1` 的 `name`、`show_name` 和 `buy_num` 列。
接着,根据条件 `__temp_df['show_name'] != '第三方商品'`,筛选出满足条件的行,存储在 `__df2` 中。如果 `__df2` 不为空,则对其进行数据透视操作,按照 `gt_uuid` 和 `show_name` 分组,计算 `buy_num` 的总和,并重置索引。然后,将 `__df2` 与一个包含列名为 `['gt_uuid', 'goods_name']` 的 DataFrame 进行左连接,并将结果存储在 `__df2` 中。最后,保留 `__df2` 的 `goods_name`、`show_name` 和 `buy_num` 列,并将列名 `goods_name` 改为 `name`。
接下来,通过合并 `__df1` 和 `__df2` 构成新的数据框 `__temp_df`。之后,删除 `__df1` 和 `__df2` 变量。
然后,对 `__temp_df` 进行列名的重命名,将 `name` 改为 `goods_name`,`show_name` 改为 `gc_name`,`buy_num` 改为 `num`。将 `__temp_df` 按照 `num` 降序排序。
接着,将 `__temp_df` 转换为字典格式,并将结果存储在 `return_data` 字典的 `goods_list` 键下。再次对 `__temp_df` 进行处理,只保留 `gc_name` 和 `num` 两列,并进行数据透视操作,按照 `gc_name` 分组,计算 `num` 的总和,并重置索引。最后,将结果按照 `num` 降序排序。
最后,将处理后的 `__temp_df` 转换为字典格式,并将结果存储在 `return_data` 字典的 `gc_list` 键下。最后,删除 `__temp_df` 变量。
Genre_data_NA = data.pivot_table(index = ['Genre',],values='NA_Sales',aggfunc=np.sum).sort_values('NA_Sales',ascending=False) Genre_data_EU =data.pivot_table(index = ['Genre',],values='EU_Sales',aggfunc=np.sum).sort_values('EU_Sales',ascending=False) Genre_data_JP = data.pivot_table(index = ['Genre',],values='JP_Sales',aggfunc=np.sum).sort_values('JP_Sales',ascending=False) Genre_data_Other =data.pivot_table(index = ['Genre',],values='Other_Sales',aggfunc=np.sum).sort_values('Other_Sales',ascending=False) Genre_data_NA # Genre_data_DF = pd.concat([Genre_data_NA,Genre_data_EU,Genre_data_JP,Genre_data_Other],axis = 1) data=Genre_data_NA Genre_name = data._stat_axis.values.tolist() # explodes=[0.1,0.1,0.1,0.1] plt.figure(figsize=(10,10)) plt.subplot(2,2,1) plt.pie(x=Genre_data_NA,labels=Genre_name,autopct="%0.1f%%",shadow=True) plt.title("北美地区的不同类型游戏销售额") plt.subplot(2,2,2) plt.pie(x=Genre_data_EU,labels=Genre_name,autopct="%0.1f%%",shadow=True) plt.title("欧洲地区的不同类型游戏销售额") plt.subplot(2,2,3) plt.pie(x=Genre_data_JP,labels=Genre_name,autopct="%0.1f%%",shadow=True) plt.title("日本地区的不同类型游戏销售额") plt.subplot(2,2,4) plt.pie(x=Genre_data_Other,labels=Genre_name,autopct="%0.1f%%",shadow=True) plt.title("其它地区的不同类型游戏销售额") plt.show()
这段代码使用了 `pandas` 和 `matplotlib` 来创建一个包含四个子图的图表,用于可视化同地区(北美、欧洲日本和其他地区)的游戏销售额按游戏类型进行的分布情况。
首先,通过 `data.pivot_table()` 创建了四个数据表格 `Genre_data_NA`、`Genre_data_EU`、`Genre_data_JP` 和 `Genre_data_Other`,分别代表北美、欧洲、日本和其他地区的不同游戏类型的销售额。
然后,通过 `data._stat_axis.values.tolist()` 获取游戏类型的名称,并存储在变量 `Genre_name` 中。
接下来,使用 `plt.figure(figsize=(10,10))` 创建一个大小为 10x10 的图表。
然后,使用 `plt.subplot(2,2,1)` 创建第一个子图,并设置其位置为 2x2 的矩阵中的第一个位置。
通过 `plt.pie()` 绘制饼图。通过 `x=Genre_data_NA` 将销售额作为饼图的值,通过 `labels=Genre_name` 将游戏类型作为饼图的标签,通过 `autopct="%0.1f%%"` 设置百分比显示格式,通过 `shadow=True` 添加阴影效果。
使用 `plt.title()` 设置第一个子图的标题为 "北美地区的不同类型游戏销售额"。
接下来,重复上述步骤,在不同的位置创建剩下的三个子图,并设置标题为 "欧洲地区的不同类型游戏销售额"、"日本地区的不同类型游戏销售额"、"其他地区的不同类型游戏销售额"。
最后一行的 `plt.show()` 用于显示图表。
阅读全文