数据来源为kaggle平台,这是一份全球大型超市四年的零售数据集,数据详尽。数据集为 “superstore_dataset2011-2015.csv”,共有51290条数据,共24个特征。数据集字段说明如下: Row ID Order ID Order Date Ship Date Ship Mode Customer ID 行号 订单号 订单日期 发货日期 运送方式 客户号 Customer Name Segment City State Country Postal Code 客户姓名 市场细分 城市 州 国家 邮编 Market Region Product ID Category Sub-Category Product Name 市场 地区 产品ID 商品类别 子类别 商品名称 Sales Quantity Discount Profit Shipping Cost Order Priority 销售额 销量 折扣 利润 运费 订单优先级 任务一 数据清洗 1.读取superstore_dataset2011-2015.csv,查看数据记录总条数、总字段数,并输出前5条数据; 2.对列名进行一下重命名,采用下划线命名法,使其符合Python的命名规范; 3.为了方便数据统计,将销量额、折扣、利润改为浮点型,销量改为整数; 4.下单日期改为日期类型; 5.为了便于分析每年和每月的销售情况,增加年份列和月份列; 6.创建销售统计数据集,包含订单号、下单日期、客户ID、地区、销售额、销量、利润、年份、月份信息,并将数据保存到superstore.db数据库中sales表; 7.创建商品统计数据集,包含订单号、商品ID、商品类别、商品子种类、销售额、销量、利润,并将数据保存到superstore.db数据库中products表; 8.创建用户统计数据集,包含订单号、订单日期、用户ID、类别、销售额、销量、利润、年、月,将数据保存到superstore.db数据库中customer表。
时间: 2024-02-01 08:04:10 浏览: 98
Global-Superstore:从Kaggle提取数据集,以分析有关世界各地客户所下订单的信息
好的,您的问题是关于数据清洗的。下面是回答:
1.读取数据集,并查看数据记录总条数、总字段数,并输出前5条数据:
```python
import pandas as pd
# 读取数据集
df = pd.read_csv('superstore_dataset2011-2015.csv', encoding='unicode_escape')
# 查看数据记录总条数、总字段数
print(f"数据记录总条数:{len(df)}")
print(f"总字段数:{len(df.columns)}")
# 输出前5条数据
print(df.head(5))
```
2.对列名进行重命名,采用下划线命名法,使其符合Python的命名规范:
```python
# 对列名进行重命名
df.columns = df.columns.str.lower().str.replace(' ', '_')
# 输出列名
print(df.columns)
```
3.为了方便数据统计,将销量额、折扣、利润改为浮点型,销量改为整数:
```python
# 将销量、销售额、折扣、利润的数据类型转换为正确的类型
df['quantity'] = df['quantity'].astype(int)
df['sales'] = df['sales'].astype(float)
df['discount'] = df['discount'].astype(float)
df['profit'] = df['profit'].astype(float)
```
4.下单日期改为日期类型:
```python
# 将下单日期的数据类型转换为日期类型
df['order_date'] = pd.to_datetime(df['order_date'])
```
5.为了便于分析每年和每月的销售情况,增加年份列和月份列:
```python
# 增加年份列和月份列
df['year'] = df['order_date'].dt.year
df['month'] = df['order_date'].dt.month
```
6.创建销售统计数据集,并将数据保存到superstore.db数据库中sales表:
```python
import sqlite3
# 创建销售统计数据集
sales_df = df[['order_id', 'order_date', 'customer_id', 'region', 'sales', 'quantity', 'profit', 'year', 'month']].copy()
# 连接数据库
conn = sqlite3.connect('superstore.db')
# 将数据保存到数据库中的sales表中
sales_df.to_sql('sales', conn, if_exists='replace', index=False)
# 关闭连接
conn.close()
```
7.创建商品统计数据集,并将数据保存到superstore.db数据库中products表:
```python
# 创建商品统计数据集
products_df = df[['order_id', 'product_id', 'category', 'sub-category', 'sales', 'quantity', 'profit']].copy()
# 连接数据库
conn = sqlite3.connect('superstore.db')
# 将数据保存到数据库中的products表中
products_df.to_sql('products', conn, if_exists='replace', index=False)
# 关闭连接
conn.close()
```
8.创建用户统计数据集,并将数据保存到superstore.db数据库中customer表:
```python
# 创建用户统计数据集
customer_df = df[['order_id', 'order_date', 'customer_id', 'segment', 'sales', 'quantity', 'profit', 'year', 'month']].copy()
# 连接数据库
conn = sqlite3.connect('superstore.db')
# 将数据保存到数据库中的customer表中
customer_df.to_sql('customer', conn, if_exists='replace', index=False)
# 关闭连接
conn.close()
```
阅读全文