import pandas as pd # 读取数据文件 credit = pd.read_csv("D:\\py\\credit_card.csv", encoding='GBK') # 删除信用卡顾客编号属性 credit = credit.drop('信用卡顾客编号', axis=1) length = len(credit) # 计算数据量 # 定义描述性统计函数,且将结果保留3位小数 def status(x): return pd.Series([x.count(), length - x.count(), len(credit.groupby(by=x)), x.max() - x.min(), x.quantile(.75) - x.quantile(.25), x.mode()[0], format(x.var(), '.3f'), format(x.skew(), '.3f'), format(x.kurt(), '.3f')], index=['非空值数', '缺失值数', '类别数', '极差', '四分位差', '众数', '方差', '偏度', '峰度']) # 应用描述性统计函数 describe_tb = credit.apply(status)

时间: 2023-12-15 22:06:24 浏览: 375

这段代码是使用 Pandas 库对一个名为 `credit_card.csv` 的数据文件进行描述性统计分析。具体来说，代码中首先使用 `pd.read_csv()` 函数读取数据文件，并使用 `encoding='GBK'` 参数指定编码方式为 GBK。然后，使用 `credit.drop()` 函数删除名为 `信用卡顾客编号` 的属性，该属性可能是唯一标识符，因此对分析没有实际意义。接着，使用 `len()` 函数计算数据量，即数据集中的记录数。最后，定义了一个名为 `status()` 的函数，使用 `apply()` 函数将其应用到数据集的每个属性上，生成一个包含各种描述性统计量的数据表。其中，`status()` 函数的返回值是一个包含多个统计量的 Pandas Series 对象，包括非空值数、缺失值数、类别数、极差、四分位差、众数、方差、偏度和峰度等。

NameError Traceback (most recent call last) C:\Windows\Temp\ipykernel_48588\1509809571.py in <module> ----> 1 beijing=pd.read_csv("北京地区信息.csv",encoding="gbk") 2 tianjin=pd.read_csv("天津地区信息.csv",encoding="gbk") NameError: name 'pd' is not defined

这个错误是因为在代码中使用了 pd，但是 pd 没有被定义。通常情况下，pd 是 pandas 库的别名。你需要在代码中导入 pandas 库，例如： ``` import pandas as pd beijing=pd.read_csv("北京地区信息.csv",encoding="gbk") tianjin=pd.read_csv("天津地区信息.csv",encoding="gbk") ``` 这样，你就可以使用 pd.read_csv() 方法读取 CSV 文件，并将其存储到变量 beijing 和 tianjin 中。

## 获取数据 from sklearn.metrics import r2_score import statsmodels.api as sm import numpy as np import pandas as pd import matplotlib.pyplot as plt data = pd.read_table('C:/Users/lb/Desktop/test/k-means_data.txt',sep='\t',engine="python",encoding = 'gbk') data.columns.values data.head()改为读取csv文件

可以使用`pd.read_csv()`函数读取csv文件。将代码中的`pd.read_table()`替换为`pd.read_csv()`，同时指定`delimiter`参数为逗号（默认值即为逗号），即可读取csv文件。下面是修改后的代码： ```python from sklearn.metrics import r2_score import statsmodels.api as sm import numpy as np import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv('C:/Users/lb/Desktop/test/k-means_data.txt', delimiter=',', encoding='gbk') data.columns.values data.head() ```

阅读全文

NameError Traceback (most recent call last) C:\Windows\Temp\ipykernel_48588\1509809571.py in <module> ----> 1 beijing=pd.read_csv("北京地区信息.csv",encoding="gbk") 2 tianjin=pd.read_csv("天津地区信息.csv",encoding="gbk") NameError: name 'pd' is not defined

相关推荐

快速解决pandas.read_csv()乱码的问题

详解pandas库pd.read_excel操作读取excel文件参数整理与实例

Read data from the Excel spreadsheet.zip_Spreadsheet::Read_excel

csv_file.rar_csv_csv文件_python_python 读写 excel_python处理csv数据

23.pandas_read_csv.ipynb

pandas.read_csv参数全面解析：高效CSV导入与头信息处理

pandas.read_csv参数全面解读与实用示例

pd.read_csv读取汉字

pd.read_csv时csv文件中中的中文字符乱码

pd.read_csv python示例

# 读入data/ch12_Mall_Customers.csv文件数据(编码方式未gbk)，查看数据基本信息 import pandas as pd

pd_split_train_test.rar_pandas_pandas对数据分类_pd.split_split_数据分类

read_csv_file_merge.zip_missing value_合并csv文件_多数据文件合并_缺失值_缺失数据

数学建模拟合与插值.ppt

最新推荐

解决pandas中读取中文名称的csv文件报错的问题

数学建模拟合与插值.ppt

[net毕业设计]ASP.NET教育报表管理系统-权限管理模块（源代码+论文）.zip

MATLAB实现小波阈值去噪：Visushrink硬软算法对比

管理建模和仿真的文件

【交互特征的影响】：分类问题中的深入探讨，如何正确应用交互特征

c语言从链式队列 中获取头部元素并返回其状态的函数怎么写

易语言实现画板图像缩放功能教程

"互动学习：行动中的多样性与论文攻读经历"

【交互特征：优化与调试的艺术】：实战技巧，提升回归模型与分类模型的性能

c语言从链式队列中获取头部元素并返回其状态的函数怎么写