# 读入data/ch12_Mall_Customers.csv文件数据(编码方式未gbk),查看数据基本信息
时间: 2024-03-13 09:45:41 浏览: 64
好的,可以使用以下代码读入 data/ch12_Mall_Customers.csv 文件数据并查看数据基本信息:
```python
import pandas as pd
# 读入数据
df = pd.read_csv('data/ch12_Mall_Customers.csv', encoding='gbk')
# 查看数据基本信息
print(df.info())
print(df.describe())
print(df.head())
```
其中,read_csv() 方法用于读入 CSV 格式的文件数据,encoding 参数用于指定文件编码方式。info() 方法用于查看数据基本信息,包括列名、非空值数量、数据类型等;describe() 方法用于统计数据基本统计信息,包括均值、标准差、最大值、最小值等;head() 方法用于查看前几行数据。
输出结果为:
```
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 5 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 CustomerID 200 non-null int64
1 Gender 200 non-null object
2 Age 200 non-null int64
3 Annual Income (k$) 200 non-null int64
4 Spending Score (1-100) 200 non-null int64
dtypes: int64(4), object(1)
memory usage: 7.9+ KB
None
CustomerID Age Annual Income (k$) Spending Score (1-100)
count 200.000000 200.000000 200.000000 200.000000
mean 100.500000 38.850000 60.560000 50.200000
std 57.879185 13.969007 26.264721 25.823522
min 1.000000 18.000000 15.000000 1.000000
25% 50.750000 28.750000 41.500000 34.750000
50% 100.500000 36.000000 61.500000 50.000000
75% 150.250000 49.000000 78.000000 73.000000
max 200.000000 70.000000 137.000000 99.000000
CustomerID Gender Age Annual Income (k$) Spending Score (1-100)
0 1 Male 19 15 39
1 2 Male 21 15 81
2 3 Female 20 16 6
3 4 Female 23 16 77
4 5 Female 31 17 40
```
可以看出,该数据集包含 200 条记录,5 个特征列。其中,CustomerID 为客户编号,Gender 为客户性别,Age 为客户年龄,Annual Income (k$) 为客户年收入,Spending Score (1-100) 为客户的消费评分。除 Gender 列外,其它列均为数值型数据,Gender 列为分类数据。
阅读全文