利用python查找各个变量的缺失值、重复值,计算各变量的最值、均值
时间: 2024-04-15 16:30:43 浏览: 13
在Python中,你可以使用pandas库来查找变量的缺失值、重复值,并计算各变量的最值和均值。以下是一些示例代码:
1. 查找缺失值:
```python
import pandas as pd
# 假设有一个DataFrame df,包含多个变量var1、var2等
df = pd.DataFrame({'var1': [1, 2, None, 4, 5],
'var2': [None, 4, 6, None, 10]})
# 查找缺失值
missing_values = df.isnull().sum()
print("各个变量的缺失值数量:")
print(missing_values)
```
运行以上代码,你会得到输出结果:
```
各个变量的缺失值数量:
var1 1
var2 2
dtype: int64
```
这表示变量var1有1个缺失值,变量var2有2个缺失值。
2. 查找重复值:
```python
import pandas as pd
# 假设有一个DataFrame df,包含多个变量var1、var2等
df = pd.DataFrame({'var1': [1, 2, 3, 4, 5],
'var2': ['a', 'b', 'c', 'd', 'a']})
# 查找重复值
duplicate_values = df.duplicated()
print("各个变量的重复值:")
print(duplicate_values)
```
运行以上代码,你会得到输出结果:
```
各个变量的重复值:
0 False
1 False
2 False
3 False
4 True
dtype: bool
```
这表示变量var2在索引4处有一个重复值。
3. 计算各变量的最值和均值:
```python
import pandas as pd
# 假设有一个DataFrame df,包含多个变量var1、var2等
df = pd.DataFrame({'var1': [1, 2, 3, 4, 5],
'var2': [2, 4, 6, 8, 10]})
# 计算各变量的最值
min_values = df.min()
max_values = df.max()
# 计算各变量的均值
mean_values = df.mean()
print("各变量的最小值:")
print(min_values)
print("\n各变量的最大值:")
print(max_values)
print("\n各变量的均值:")
print(mean_values)
```
运行以上代码,你会得到输出结果:
```
各变量的最小值:
var1 1
var2 2
dtype: int64
各变量的最大值:
var1 5
var2 10
dtype: int64
各变量的均值:
var1 3.0
var2 6.0
dtype: float64
```
这表示变量var1的最小值为1,最大值为5,均值为3.0;变量var2的最小值为2,最大值为10,均值为6.0。
希望以上代码能满足你的需求!