waterConsump.csv为用户的用水量数据，数据中有编号为1-200的200位用户，DATE表示时间，如2017/1/1表示2017年1月1日，NUM为用量单位。请完成以下工作： 1、将数据进行透视表操作，行为用户编号，列为日期、值为用户每日用水量。 2、对数据中的异常数据进行识别并处理。 3、统计每个用户用水数据的基本统计量，包括：最大值、最小值、均值、中位数、和、方差、偏度、峰度。 4、每个用户用水数据按日差分，并求取差分结果的基本统计量，统计量同3。 5、求取每个用户的20%分位数。

时间: 2024-02-05 11:03:27 浏览: 147

1. 透视表操作： ```python import pandas as pd # 读取数据 data = pd.read_csv('waterConsump.csv') # 透视表操作 pivot_table = pd.pivot_table(data, values='NUM', index='编号', columns='DATE') ``` 2. 异常数据识别并处理：一般来说，异常数据可以通过箱线图来进行识别。首先，计算每个用户每天用水量的均值和标准差，然后根据 3 倍标准差原则，识别出超过 3 倍标准差的数据点为异常值。最后，将异常值替换为均值。 ```python # 异常数据处理 for i in range(1, 201): # 计算均值和标准差 mean = pivot_table.loc[i].mean() std = pivot_table.loc[i].std() # 识别异常数据 outliers = (pivot_table.loc[i] - mean).abs() > 3 * std # 将异常数据替换为均值 pivot_table.loc[i, outliers] = mean ``` 3. 统计每个用户用水数据的基本统计量： ```python # 统计每个用户用水数据的基本统计量 basic_stats = pd.DataFrame({ 'max': pivot_table.max(axis=1), 'min': pivot_table.min(axis=1), 'mean': pivot_table.mean(axis=1), 'median': pivot_table.median(axis=1), 'sum': pivot_table.sum(axis=1), 'var': pivot_table.var(axis=1), 'skew': pivot_table.skew(axis=1), 'kurtosis': pivot_table.kurtosis(axis=1) }) ``` 4. 每个用户用水数据按日差分，并求取差分结果的基本统计量： ```python # 每个用户用水数据按日差分 diff_table = pivot_table.diff(axis=1) # 统计每个用户用水数据的基本统计量 diff_stats = pd.DataFrame({ 'max': diff_table.max(axis=1), 'min': diff_table.min(axis=1), 'mean': diff_table.mean(axis=1), 'median': diff_table.median(axis=1), 'sum': diff_table.sum(axis=1), 'var': diff_table.var(axis=1), 'skew': diff_table.skew(axis=1), 'kurtosis': diff_table.kurtosis(axis=1) }) ``` 5. 求取每个用户的20%分位数： ```python # 求取每个用户的20%分位数 quantile_20 = pivot_table.quantile(0.2, axis=1) ```

阅读全文

相关推荐

线性回归数据集实践：Linear Regression - Sheet1.csv解析

2019年8月22日数据集：date_label.csv深入解析

全面分析风控数据集：train.csv、testA.csv与sample_submit.csv

fruitvegprices-2017-2022.csv水果价格数据集

python数据分析--献金数据contb_1.csv,contb_2.csv,contb_3.csv

iris.csv/鸢尾花卉数据集

arcgis api for js4.x 时间热力图、TimeSlider滑块应用教学数据(.csv格式/utf-8/免费）

机器学习（数据分析）入门的案例数据 Users.csv，Books.csv，Book-Ratings.csv

customer-transactions.csv用户转化数据

电影预告片数据集 数据集共有5个文件: movies.csv、person.csv、users.csv、comments.csv

红葡萄酒数据集winequality-red.csv，白葡萄酒数据集winequality-white.csv，Wine Quality Data Set

博客1附件1：2017-2021-daily.csv

全球人均CO21800-2017.csv

货币供应量(1978.1-2020.12)-宏观数据.csv

高考录取数据_理科_2017.csv

CIC-IDS-2017加拿大入侵检测数据集（.CSV）第二部分

CIC-IDS-2017加拿大入侵检测数据集（.CSV）第一部分

heart.csv、gisette.csv+elevators.csv+glass.csv

abcnews-date-text.csv

Income1.csv 日月光华 tensorflow 培训数据

大家在看

s典型程序例子.docx

data10m39b_10机39节点数据_39节点_节点_

IS-GPS-200N ICD文件

[] - 2023-08-09 算法工程师炼丹Tricks手册(附1090页PDF下载).pdf

马尔科夫车速预测的代码.txt

最新推荐

数据清洗之 csv文件读写

使用Python(pandas库)处理csv数据

Kettle工具将数据查询导出csv文件格式方法

Java避免UTF-8的csv文件打开中文出现乱码的方法

利用pandas向一个csv文件追加写入数据的实现示例

GitHub Classroom 创建的C语言双链表实验项目解析

管理建模和仿真的文件

【三态RS锁存器CD4043的秘密】：从入门到精通的电路设计指南（附实际应用案例）

霍夫曼四元编码matlab

MATLAB在AWS上的自动化部署与运行指南

电影预告片数据集数据集共有5个文件: movies.csv、person.csv、users.csv、comments.csv