pandas库mad函数
时间: 2024-07-27 11:00:56 浏览: 314
Pandas库中的`mad`函数全称为“Median Absolute Deviation”,即中位数绝对偏差。它是一个统计量,用于衡量数据分布的离散程度,相比于标准差,mad更稳健,因为它对异常值的敏感度较低。这个函数计算输入序列(通常是一列数据)的每个元素与中位数之间的绝对差异,然后返回这些差异的中位数。
使用`mad`函数的语法通常是这样的:
```python
import pandas as pd
df['column_name'].mad()
```
在这里,`df['column_name']`是你想要计算mad的数据列。它能提供给数据分析者一种非参数的、对于大规模数据集更为稳定的离群点检测方法。
相关问题
pandas的mad
### Pandas `mad` 方法详解
#### 定义与功能
`mad` 是 pandas 库中的一个用于计算平均绝对偏差的方法。该方法基于均值来衡量数据集内各个数值偏离中心的趋势,提供了一种评估离散程度的方式[^3]。
#### 参数列表
- **axis**: {index (0), columns (1)} 默认为 0 表示沿垂直方向操作;设置为 1 则表示水平方向。
- **skipna**: bool 类型,默认 True。如果设为 False,在遇到 NA/null 数据时不跳过这些值而返回 NA。
- **level**: int 或 label,默认 None。仅当 axis 属于 MultiIndex (具有多层索引结构的数据框)时有效,指定在哪一层上执行聚合运算。
#### 返回值
调用此函数后会得到一个新的 Series 或者 DataFrame 实例作为结果,其中包含了原始输入中每一列相对于其算术平均数的平均绝对差异。
#### 示例代码展示
下面通过具体实例演示如何利用 `mad` 函数:
```python
import numpy as np
import pandas as pd
# 创建含有缺失值的数据帧
df = pd.DataFrame([
['Tom', np.nan, 45.1],
[np.nan, np.nan, np.nan],
['Merry', 3.4, 15],
['John', 23, np.nan],
['Joe', 18, 34.5]
], columns=['name', 'age', 'salary'])
print("Original Data Frame:")
print(df)
# 计算 salary 列除掉 NaN 后关于 mean 的 MAD 并显示出来
result_salary_mad = df['salary'].mad()
print("\nMean Absolute Deviation of Salary Column:", result_salary_mad)
```
pandas归一化平均偏差
pandas中的归一化平均偏差(Normalized Mean Deviation)是一种用于衡量数据集中值的离散程度的统计指标。它是平均绝对偏差(Mean Absolute Deviation,MAD)除以数据集的平均值的结果。
在pandas中,可以使用`mad()`函数来计算归一化平均偏差。该函数可以应用于Series或DataFrame对象。
下面是一个示例代码,展示如何使用pandas计算归一化平均偏差:
```python
import pandas as pd
# 创建一个示例数据集
data = {'A': [1, 2, 3, 4, 5],
'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)
# 计算归一化平均偏差
normalized_mad = df.mad() / df.mean()
print(normalized_mad)
```
输出结果将是每列数据的归一化平均偏差值。
阅读全文