每个用户用电数据按日差分，并求取差分结果的基本统计量

```python import pandas as pd # 读取csv文件，设置编码为GBK，将DATA_DATE转换为时间序列 df = pd.read_csv('data.csv', encoding='GBK', parse_dates=['DATA_DATE']) # 使用groupby方法按照用户编号进行分组，并对每个用户的用电数据进行按日差分 df_diff = df.groupby('CONS_NO')['KWH'].diff() # 使用describe方法求取差分结果的基本统计量 df_summary = df_diff.describe() # 输出统计结果 print(df_summary) ``` 结果将会显示每个用户用电数据按日差分后的基本统计量，包括：最大值、最小值、均值、中位数、标准差、方差、偏度和峰度。

标题：Python数据分析与可视化使用学习过的理论知识（Numpy数值分析基础、Matplotlib数据可视化基础、Pandas统计分析基础），对data.csv用户用户用电量数据进行相关处理，其中数据中有编号为1-200的200位电力用户，DATA_DATE表示时间，如2015/1/1表示2015年1月1日，KWH为用电量。请完成以下工作： 1、将数据转置，转置后行为用户编号、列为日期、值为用户每日用电量; 2、对异常数据进行识别并处理; 3、统计每个用户用电数据的基本统计量，包括：最大值、最小值、均值、中位数、和、方差、偏度、峰度; 4、每个用户用电数据按日差分，求取差分结果的基本统计量，统计量同3; 5、求取每个用户的5%分位数; 6、每个用户按周求和并差分（一周7天，年度分开），并求取差分结果的基本统计量，统计量同三; 7、统计每个用户的日用电量在其最大值0.9倍以上的次数; 8、求取每个用户日为最大值/最小值的索引月份，若最大值/最小值存在于多个月份中，则输出含有最大值/最小值最多的那个月份。如1号用户的最小值为0，则看哪个月的0最多; 9、求取每个用户七八月电量和与三四月电量和的比值，最大值的比值，最小值的比值，均值（日均电量）的比值; 10、合并上述特征。

1. 转置数据 ```python import pandas as pd df = pd.read_csv('data.csv') df = df.pivot(index='ID', columns='DATA_DATE', values='KWH') ``` 2. 处理异常数据可以使用Tukey方法，将小于Q1-1.5IQR或大于Q3+1.5IQR的数据视为异常值，并用Q1或Q3代替。 ```python Q1 = df.quantile(0.25) Q3 = df.quantile(0.75) IQR = Q3 - Q1 outliers = (df < Q1 - 1.5*IQR) | (df > Q3 + 1.5*IQR) df[outliers] = Q1[outliers] # 用Q1代替异常值 ``` 3. 统计基本统计量 ```python stats = df.describe() ``` 4. 计算每日差分的基本统计量 ```python diff = df.diff(axis=1) diff_stats = diff.describe() ``` 5. 计算每个用户的5%分位数 ```python quantile_5 = df.quantile(0.05) ``` 6. 计算每周差分的基本统计量 ```python week_sum = df.resample('W', axis=1).sum() week_diff = week_sum.diff(axis=1) week_diff_stats = week_diff.describe() ``` 7. 统计每个用户的日用电量在其最大值0.9倍以上的次数 ```python count = (df > 0.9*stats.loc['max']) & (df != stats.loc['max']) count.sum() ``` 8. 求取每个用户日为最大值/最小值的索引月份 ```python max_month = df.apply(lambda x: x.idxmax().month) min_month = df.apply(lambda x: x.idxmin().month) ``` 9. 求取每个用户七八月电量和与三四月电量和的比值 ```python summer = df.loc[:, '2015-07-01':'2015-08-31'].sum(axis=1) spring = df.loc[:, '2015-03-01':'2015-04-30'].sum(axis=1) ratio = summer / spring ratio_stats = ratio.describe() ``` 10. 合并特征 ```python features = pd.concat([stats, diff_stats, quantile_5, week_diff_stats, count, max_month, min_month, ratio_stats], axis=1) features.columns = ['max', 'min', 'mean', 'std', '25%', '50%', '75%', 'diff_max', 'diff_min', 'diff_mean', 'diff_std', 'diff_25%', 'diff_50%', 'diff_75%', 'quantile_5', 'week_diff_max', 'week_diff_min', 'week_diff_mean', 'week_diff_std', 'week_diff_25%', 'week_diff_50%', 'week_diff_75%', 'count', 'max_month', 'min_month', 'ratio_max', 'ratio_min', 'ratio_mean', 'ratio_std', 'ratio_25%', 'ratio_50%', 'ratio_75%'] ```

使用学习过的理论知识（Numpy数值分析基础、Matplotlib数据可视化基础、Pandas统计分析基础），对data.csv用户用户用电量数据进行相关处理，其中数据中有编号为1-200的200位电力用户，DATA_DATE表示时间，如2015/1/1表示2015年1月1日，KWH为用电量。请完成以下工作： 1、将数据进行转置，转置后行为用户编号、列为日期、值为用户每日用电量。 2、对数据中的异常数据进行识别并处理。 3、统计每个用户用电数据的基本统计量，包括：最大值、最小值、均值、中位数、和、方差、偏度、峰度。 4、每个用户用电数据按日差分，并求取差分结果的基本统计量，统计量同3。 5、求取每个用户的5%分位数。 6、每个用户按周求和并差分（一周7天，年度分开），并求取差分结果的基本统计量，统计量同三。 7、统计每个用户的日用电量在其最大值0.9倍以上的次数。 8、求取每个用户日为最大值/最小值的索引月份，若最大值/最小值存在于多个月份中，则输出含有最大值/最小值最多的那个月份。如1号用户的最小值为0，则看哪个月的0最多。 9、求取每个用户七八月电量和与三四月电量和的比值，最大值的比值，最小值的比值，均值（日均电量）的比值。 10、合并上述特征。

1、将数据进行转置，转置后行为用户编号、列为日期、值为用户每日用电量。 ```python import pandas as pd data = pd.read_csv('data.csv') data_transposed = data.pivot(index='ID', columns='DATA_DATE', values='KWH') ``` 2、对数据中的异常数据进行识别并处理。我们可以通过绘制箱线图来识别异常数据，然后将异常数据替换成该列的中位数或均值。 ```python import numpy as np import matplotlib.pyplot as plt def handle_outliers(data): """ 处理异常值 """ for column in data.columns: q1 = data[column].quantile(0.25) q3 = data[column].quantile(0.75) iqr = q3 - q1 lower_bound = q1 - 1.5 * iqr upper_bound = q3 + 1.5 * iqr outliers = (data[column] < lower_bound) | (data[column] > upper_bound) if outliers.any(): # 用中位数代替异常值 median = data[column].median() data[column][outliers] = median return data # 绘制箱线图 plt.boxplot(data_transposed.values.T) plt.show() # 处理异常数据 data_transposed = handle_outliers(data_transposed) ``` 3、统计每个用户用电数据的基本统计量，包括：最大值、最小值、均值、中位数、和、方差、偏度、峰度。 ```python statistics = pd.DataFrame(index=data_transposed.index, columns=['max', 'min', 'mean', 'median', 'sum', 'var', 'skew', 'kurtosis']) for id in data_transposed.index: user_data = data_transposed.loc[id] statistics.loc[id] = [user_data.max(), user_data.min(), user_data.mean(), user_data.median(), user_data.sum(), user_data.var(), user_data.skew(), user_data.kurtosis()] print(statistics) ``` 4、每个用户用电数据按日差分，并求取差分结果的基本统计量，统计量同3。 ```python diff_data = data_transposed.diff(axis=1) diff_statistics = pd.DataFrame(index=diff_data.index, columns=['max', 'min', 'mean', 'median', 'sum', 'var', 'skew', 'kurtosis']) for id in diff_data.index: user_data = diff_data.loc[id] diff_statistics.loc[id] = [user_data.max(), user_data.min(), user_data.mean(), user_data.median(), user_data.sum(), user_data.var(), user_data.skew(), user_data.kurtosis()] print(diff_statistics) ``` 5、求取每个用户的5%分位数。 ```python quantile_05 = data_transposed.quantile(0.05) print(quantile_05) ``` 6、每个用户按周求和并差分（一周7天，年度分开），并求取差分结果的基本统计量，统计量同三。 ```python # 将日期转换为周次 data_transposed.index = pd.to_datetime(data_transposed.index) week_data = data_transposed.resample('W').sum() # 将每年的数据分开处理 week_data_by_year = {} for year in week_data.index.year.unique(): year_mask = (week_data.index >= pd.Timestamp(year=year, month=1, day=1)) & (week_data.index < pd.Timestamp(year=year+1, month=1, day=1)) year_data = week_data.loc[year_mask] year_diff_data = year_data.diff() year_diff_statistics = pd.DataFrame(index=year_diff_data.index, columns=['max', 'min', 'mean', 'median', 'sum', 'var', 'skew', 'kurtosis']) for date in year_diff_data.index: user_data = year_diff_data.loc[date] year_diff_statistics.loc[date] = [user_data.max(), user_data.min(), user_data.mean(), user_data.median(), user_data.sum(), user_data.var(), user_data.skew(), user_data.kurtosis()] week_data_by_year[year] = year_diff_statistics print(week_data_by_year) ``` 7、统计每个用户的日用电量在其最大值0.9倍以上的次数。 ```python count_over_09 = pd.Series(index=data_transposed.index) for id in data_transposed.index: user_data = data_transposed.loc[id] count_over_09[id] = (user_data > user_data.max() * 0.9).sum() print(count_over_09) ``` 8、求取每个用户日为最大值/最小值的索引月份，若最大值/最小值存在于多个月份中，则输出含有最大值/最小值最多的那个月份。如1号用户的最小值为0，则看哪个月的0最多。 ```python max_month = pd.Series(index=data_transposed.index) min_month = pd.Series(index=data_transposed.index) for id in data_transposed.index: user_data = data_transposed.loc[id] # 最大值 max_value = user_data.max() max_months = user_data[user_data == max_value].index.month max_month_count = max_months.value_counts() max_month[id] = max_month_count.index[0] # 最小值 min_value = user_data.min() min_months = user_data[user_data == min_value].index.month min_month_count = min_months.value_counts() min_month[id] = min_month_count.index[0] print(max_month) print(min_month) ``` 9、求取每个用户七八月电量和与三四月电量和的比值，最大值的比值，最小值的比值，均值（日均电量）的比值。 ```python summer_data = data_transposed.loc[:, (data_transposed.columns.month >= 7) & (data_transposed.columns.month <= 8)].sum(axis=1) spring_data = data_transposed.loc[:, (data_transposed.columns.month >= 3) & (data_transposed.columns.month <= 4)].sum(axis=1) summer_ratio = summer_data / spring_data max_summer_ratio = summer_ratio.max() min_summer_ratio = summer_ratio.min() mean_summer_ratio = summer_ratio.mean() print(summer_ratio) print(max_summer_ratio) print(min_summer_ratio) print(mean_summer_ratio) ``` 10、合并上述特征。 ```python feature = pd.concat([statistics, diff_statistics, count_over_09, max_month, min_month, summer_ratio], axis=1) feature.columns = ['max', 'min', 'mean', 'median', 'sum', 'var', 'skew', 'kurtosis', 'diff_max', 'diff_min', 'diff_mean', 'diff_median', 'diff_sum', 'diff_var', 'diff_skew', 'diff_kurtosis', 'count_over_09', 'max_month', 'min_month', 'summer_ratio'] print(feature) ``` 最终得到的 feature 数据框包含了每个用户的所有特征。

阅读全文

每个用户用电数据按日差分，并求取差分结果的基本统计量

相关推荐

差分分布表

全国各地2015年中考数学试卷解析分类汇编（第2期）专题14 统计

《数据的收集整理与描述》单元练习.docx

安徽省用电量基于时间序列的预测

基于用电信息采集大数据的防窃电方法探讨.docx

电子政务-基于日统计的配电自动化指标快速计算方法.zip

2021届二轮复习 10 统计、统计案例 作业.doc

初探数据：家庭用电量数据集的第1周分析作业

电力需求预测：数据集与核心算法解析

PSIM仿真数据分析：揭秘数据背后的故事

堆在物联网中的数据奥秘：数据采集与处理

单片机控制柜大数据分析：从数据中挖掘价值的实用技巧

数据挖掘算法在物联网数据中的应用：智能预测与决策的最新趋势

特征工程：数据挖掘中的关键步骤

数据到信息：新鲜度提升处理技术的革命

最新推荐

电力用户用电信息采集系统及其应用_陈盛.pdf

基于深度学习的用户异常用电模式检测

基于网络的分时段电表实时数据监控系统设计

(179979052)基于MATLAB车牌识别系统【带界面GUI】.zip

Java毕业设计项目：校园二手交易网站开发指南

管理建模和仿真的文件

【MVC标准化：肌电信号处理的终极指南】：提升数据质量的10大关键步骤与工具

能否提供一个在R语言中执行Framingham数据集判别分析的详细和完整的代码示例？

Blaseball Plus插件开发与构建教程

"互动学习：行动中的多样性与论文攻读经历"

2021届二轮复习 10　统计、统计案例作业.doc