.统计每列数据特征的空值占比,将空值占比情况保存为csv文件
时间: 2024-10-19 12:03:01 浏览: 50
NIFI1.21.0-大数据同步处理模板-MysqlToMysql增量同步-单表-处理日期-空值数据.zip
5星 · 资源好评率100%
在Python中,我们可以使用pandas库来统计每列数据的空值占比,并将其结果保存到CSV文件中。以下是一个简单的步骤示例:
首先,假设我们有一个名为`df`的DataFrame:
```python
import pandas as pd
# 假设df是你的DataFrame
if isinstance(df, pd.DataFrame):
# 统计每列的空值占比
na_counts = df.isnull().sum()
na_percentages = na_counts / len(df) * 100 # 转换成百分比
# 创建一个新的DataFrame存储空值占比
na_df = pd.DataFrame({'Column': df.columns, 'Null Percentage': na_percentages})
```
这里,`isnull()`函数用于检查每一项是否为空,`sum()`则计算每列有多少空值。然后我们将空值数量除以总行数乘以100,得到每列的空值占比。
接下来,我们将这个新的DataFrame保存到CSV文件中:
```python
na_df.to_csv('column_na_percentage.csv', index=False) # 将DataFrame保存为名为'column_na_percentage.csv'的文件
```
上述代码将会创建一个名为`column_na_percentage.csv`的CSV文件,其中包含了每列的名称和对应的空值百分比。
阅读全文