1、csv格式文件读取到DataFrame中 2、删除员工号缺失的行 3、删除一行中缺失值>70%行数据 4、删除重复行数据 5、用箱线图分析法画图,并找出sal列可能的异常值 6、填充bonus列,空值设置为该列的平均值,city列空值用‘DG'填充
时间: 2024-12-11 17:37:32 浏览: 16
read_csv_file_merge.zip_missing value_合并csv文件_多数据文件合并_缺失值_缺失数据
1. CSV格式文件读取到DataFrame中通常是在Python环境下,使用pandas库。例如:
```python
import pandas as pd
df = pd.read_csv('file.csv')
```
这里假设"file.csv"是CSV文件名,这会将文件内容读入一个名为`df`的DataFrame。
2. 删除员工号缺失的行,可以使用dropna函数:
```python
df = df.dropna(subset=['员工号']) # 假设'员工号'列名是'员工号'
```
3. 删除一行中缺失值超过70%的数据,可以用isnull().sum()检查每列缺失值数量,然后筛选:
```python
too_many_missing = df.isnull().sum() / len(df) > 0.7
df = df[~too_many_missing.any(axis=1)] # 删掉有全缺失列的行
```
4. 删除重复行,使用drop_duplicates:
```python
df = df.drop_duplicates()
```
5. 使用箱线图(Boxplot)分析`sal`列并查找异常值,先创建箱线图,然后找离群点:
```python
import matplotlib.pyplot as plt
plt.boxplot(df['sal'])
outliers = df[df['sal'] < qntile(1) * iqr + whis(1)] | df[df['sal'] > qntile(3) * iqr - whis(1)]
print('可能的异常值:', outliers)
```
这里`qntile`和`iqr`是四分位数和四分位距,whis用于设定外上限和下限。
6. 填充`bonus`列空值为平均值,`city`列空值用'DG'填充:
```python
df['bonus'].fillna(df['bonus'].mean(), inplace=True)
df['city'].fillna('DG', inplace=True)
```
注意`inplace=True`确保操作直接修改原 DataFrame 而非创建新副本。
阅读全文