python计算Dataframe,去除前三列,查找每行中大于远远每行平均的异常值,并输出异常值
时间: 2024-03-09 13:51:04 浏览: 71
可以使用和上面类似的方法,只需要在找到异常值后,将对应的值输出即可。
以下是实现代码:
```python
import pandas as pd
# 读取数据,假设数据文件名为data.csv
df = pd.read_csv('data.csv')
# 去除前三列
df = df.iloc[:, 3:]
# 计算每行的平均值
mean = df.mean(axis=1)
# 查找异常值
condition = df > mean.values.reshape(-1, 1) * 1.5
abnormal_values = df[condition].stack().tolist()
# 输出异常值
print(f"所有的异常值为:{abnormal_values}")
```
在处理完数据后,会输出所有的异常值,例如:
```
所有的异常值为:[4.0, 2.0, 2.0, 2.0, 2.0, 8.0, 8.0, 8.0, 8.0, 8.0, 12.0, 14.0, 16.0, 18.0, 20.0]
```
上述结果说明所有的异常值为 4.0, 2.0, 8.0, 12.0, 14.0, 16.0, 18.0, 20.0。
相关问题
python计算Dataframe,去除前三列,查找每行中大于远远每行平均的异常值,并输出异常值为Dataframe
可以使用和上面类似的方法,只需要在找到异常值后,将对应的行和列信息存储到一个新的 DataFrame 中即可。
以下是实现代码:
```python
import pandas as pd
# 读取数据,假设数据文件名为data.csv
df = pd.read_csv('data.csv')
# 去除前三列
df = df.iloc[:, 3:]
# 计算每行的平均值
mean = df.mean(axis=1)
# 查找异常值
condition = df > mean.values.reshape(-1, 1) * 1.5
abnormal_df = pd.DataFrame()
for idx, row in condition.iterrows():
abnormal_columns = list(row[row].index)
if len(abnormal_columns) != 0:
abnormal_rows = [idx] * len(abnormal_columns)
abnormal_data = df.loc[idx, abnormal_columns].values
abnormal_row_df = pd.DataFrame({'Row': abnormal_rows, 'Column': abnormal_columns, 'Value': abnormal_data})
abnormal_df = abnormal_df.append(abnormal_row_df)
# 输出异常值
print(abnormal_df)
```
在处理完数据后,会输出所有的异常值及其行列信息,例如:
```
Row Column Value
0 0 3 4.0
1 1 1 2.0
2 1 2 2.0
3 1 3 4.0
4 1 4 2.0
5 1 5 2.0
6 1 6 2.0
7 3 3 12.0
8 3 4 14.0
9 3 5 16.0
10 3 6 18.0
11 3 7 20.0
12 3 8 3.0
13 5 0 5.0
14 5 1 5.0
15 5 2 5.0
16 5 3 5.0
17 5 4 5.0
18 5 5 5.0
19 5 6 5.0
20 5 7 5.0
21 5 8 5.0
22 6 7 8.0
23 7 7 8.0
24 8 0 8.0
25 8 1 8.0
26 8 2 8.0
27 8 3 8.0
28 8 4 8.0
29 8 5 8.0
30 8 6 8.0
31 8 7 8.0
32 8 8 8.0
33 9 7 10.0
```
上述结果说明所有的异常值及其行列信息为:
- 第 1 行第 4 列的值为 4.0;
- 第 2 行第 2 列、第 3 列、第 5 列、第 6 列和第 7 列的值分别为 2.0、2.0、2.0、2.0 和 2.0;
- 第 4 行第 4 列、第 5 列、第 6 列、第 7 列和第 8 列的值分别为 12.0、14.0、16.0、18.0 和 20.0;
- 第 6 行到第 9 行(包括)的所有列的值都为 5.0;
- 第 7 行第 8 列的值为 8.0;
- 第 8 行第 8 列的值为 8.0;
- 第 9 行第 8 列的值为 10.0。
python计算Dataframe,去除前三列,查找每行中大于远远每行平均的异常值,并输出异常值所在的行
可以使用和上面类似的方法,只需要在找到异常值后,将对应行的行号输出即可。
以下是实现代码:
```python
import pandas as pd
# 读取数据,假设数据文件名为data.csv
df = pd.read_csv('data.csv')
# 去除前三列
df = df.iloc[:, 3:]
# 计算每行的平均值
mean = df.mean(axis=1)
# 查找异常值
condition = df > mean.values.reshape(-1, 1) * 1.5
abnormal_rows = condition.any(axis=1).nonzero()[0]
# 输出异常值所在的行
print(f"所有的异常值所在的行为:{abnormal_rows}")
```
在处理完数据后,会输出所有的异常值所在的行,例如:
```
所有的异常值所在的行为:[1 3 5 6 7 8 9 10]
```
上述结果说明所有的异常值所在的行为 1, 3, 5, 6, 7, 8, 9, 10。注意,行号从 0 开始。
阅读全文