#描述性统计分析 import pandas as pd #读取数据文件 credit = pd.read_csv('data/credit_card.csv', encoding='GBK') #删除信用卡顾客编号属性 credit = credit.drop('信用卡顾客编号',axis=1) length = len(credit) # 计算数据量 #定义描述性统计函数,且将结果保留3位小数 def status(x): return pd.Series([x.count(), length - x.count(),len(credit.groupby(by=x)), x.max()- x.min(), x.quantile(.75) - x.quantile(.25), x.mode()[0], format(x.var(), '.3f'), format(x.skew(), '.3f'),format(x.kurt(), '.3f')], index=['非空值数','缺失值数', '类别数', '极差', '四分位差",‘众数','方差 ','偏度','峰度']) #应用描述性统计函数 describe_tb = credit.apply(status)
时间: 2023-06-20 17:05:58 浏览: 112
解决pandas使用read_csv()读取文件遇到的问题
这段代码是用 Python 的 pandas 库对一个信用卡数据集进行描述性统计分析。具体来说,它做了以下几个步骤:
1. 用 `pd.read_csv()` 函数读取数据文件 `credit_card.csv`,并将结果存储在 `credit` 变量中。
2. 用 `credit.drop()` 函数删除数据集中的一列,即信用卡顾客编号属性,因为它对于描述性统计没有意义。
3. 用 `len()` 函数计算数据集的样本量,存储在 `length` 变量中。
4. 定义了一个函数 `status()`,该函数接受一个 pandas 的 Series 对象作为参数,返回一个包含多个描述性统计指标的 Series 对象。这些指标包括非空值数、缺失值数、类别数、极差、四分位差、众数、方差、偏度和峰度。
5. 用 `credit.apply()` 函数将 `status()` 应用到每一列数据上,得到一个包含所有变量的描述性统计结果的 DataFrame 对象 `describe_tb`。
需要注意的是,在 `status()` 函数中,用到了 pandas 的一些函数和方法,例如 `x.count()`、`x.max()`、`x.min()`、`x.quantile()`、`x.mode()`、`x.var()`、`x.skew()` 和 `x.kurt()` 等,这些函数和方法分别计算了数据的非空值数量、最大值、最小值、四分位数、众数、方差、偏度和峰度等指标。此外,`format()` 函数用于将结果保留三位小数。
阅读全文