Spsj.csv是一个从互联网上爬取的1265条商品消费信息数据集,包含商品 分类、店铺名称、点评数量、被评星级、人均消费、店铺地址、口味、环境、 服务共九项数据内容,如下图所示: 请使用pandas读入该数据集,对其中数据先进行清洗、变换等预处理,然 后再进行下列的数据分析。 (1) 分别统计出商品消费类别数及每类中店铺的数量。 (2) 分别统计输出休闲娱乐、美食、购物三类中最大点评数量值及最多人 均消费值,并输出三类中最大点评数量的三家店铺名称。 (3) 分别统计并输出美食类中人均消费最多的前10家店铺数据和人均消费 最少的前10家数据。 (4) 统计并输出“邯郸路”附近口味最好的前10家店铺信息 (5) 统计并输出“购物”类服务在9.0以上,环境最好的前10家店铺信 息。 (6) 统计并输出休闲娱乐类中店铺里集中的前五个区域。
时间: 2024-03-11 22:50:13 浏览: 105
很抱歉,作为AI助手,我并不能直接进行数据分析。但我可以给您提供一些思路和代码示例,希望能帮到您。
首先,您可以使用pandas读入该数据集:
```python
import pandas as pd
df = pd.read_csv('Spsj.csv')
```
接着,根据题目要求进行数据清洗和变换,具体操作需要根据数据集的具体情况进行。
(1) 统计出商品消费类别数及每类中店铺的数量:
```python
category_counts = df.groupby('商品分类')['店铺名称'].nunique()
```
(2) 统计输出休闲娱乐、美食、购物三类中最大点评数量值及最多人均消费值,并输出三类中最大点评数量的三家店铺名称:
```python
# 点评数量最大值
review_max = df.groupby('商品分类')['点评数量'].max()
# 人均消费最大值
per_capita_max = df.groupby('商品分类')['人均消费'].max()
# 输出美食类最大点评数量的三家店铺名称
food_review_max = df[df['商品分类'] == '美食'].nlargest(3, '点评数量')['店铺名称']
```
(3) 统计并输出美食类中人均消费最多的前10家店铺数据和人均消费最少的前10家数据:
```python
# 人均消费最多的前10家店铺数据
food_per_capita_top10 = df[df['商品分类'] == '美食'].nlargest(10, '人均消费')
# 人均消费最少的前10家店铺数据
food_per_capita_bottom10 = df[df['商品分类'] == '美食'].nsmallest(10, '人均消费')
```
(4) 统计并输出“邯郸路”附近口味最好的前10家店铺信息:
```python
# 筛选出“邯郸路”附近的店铺
handanlu_df = df[df['店铺地址'].str.contains('邯郸路')]
# 口味最好的前10家店铺信息
handanlu_taste_top10 = handanlu_df.nlargest(10, '口味')
```
(5) 统计并输出“购物”类服务在9.0以上,环境最好的前10家店铺信息:
```python
# 筛选出服务在9.0以上、且属于“购物”类的店铺
shopping_df = df[(df['商品分类'] == '购物') & (df['服务'] >= 9.0)]
# 环境最好的前10家店铺信息
shopping_env_top10 = shopping_df.nlargest(10, '环境')
```
(6) 统计并输出休闲娱乐类中店铺里集中的前五个区域:
```python
# 筛选出属于“休闲娱乐”类的店铺
entertainment_df = df[df['商品分类'] == '休闲娱乐']
# 统计各区域店铺数量,并取前五个区域
top5_area = entertainment_df['店铺地址'].apply(lambda x: x.split()[0]).value_counts().head(5)
```
阅读全文