编写Python代码,判断Adult 数据集中的数值型数据是否存在异常值。
时间: 2024-10-12 17:18:04 浏览: 20
异常值检测_入门_python_python数据分析_数据异常分析_异常值_
5星 · 资源好评率100%
在Python中,我们通常使用描述统计学方法(如四分位数范围IQR)来初步检测数值型数据中的异常值。以下是一个简单的例子,假设我们已经将数据读入一个`DataFrame` `df`,并且`numerical_columns`是我们感兴趣的数值型特征列表:
```python
import pandas as pd
# 假设df是DataFrame形式的数据
def detect_outliers(column):
q1 = df[column].quantile(0.25)
q3 = df[column].quantile(0.75)
iqr = q3 - 1.5 * iqr
upper_bound = q3 + 1.5 * iqr
outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
return outliers
# 列出数值型列
numerical_columns = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
# 检查每个数值列的异常值
for column in numerical_columns:
outliers = detect_outliers(column)
if not outliers.empty:
print(f"{column} 中存在异常值: \n{outliers}")
阅读全文