本次实验利用某爬虫软件爬取某房产网站中苏州地区的房产数据，数据文件为house.xlsx，部分数据显示如下。（1）爬取数据时，数据缺失是常见的现象，通过某爬虫软件从网站爬取的数据时，如果没有爬取到的数据会返回“暂无数据”，这会影响后期的空值处理。将这些“暂无数据”转换为空值，并统计各列的空值频数，查看缺失数据情况。¶（2）爬取的数据往往是带有单位的字符串，这也会影响后期的数据分析，所以需要将这些单位去掉，再转换为数值型数据。如将字符串“均价”的40000元/m2转换为数值40000.（3）为了分析不同区的房产数据，从地址中提取出区的数据。为了分析房龄，从建造年代中提取出房龄数据。（4）筛选出区为“工业园”，均价在50000元以下，容积率在1.5以下的房源数据。（5）查询房价最贵小区的前5名。（6）查询停车位最少小区的前5名。（7）统计所有数据的平均房价及二手房房源数。（8）分析均价在4000元以上小区中，房源最多的是哪个区。编写python程序解决以上问题

时间: 2024-02-01 22:17:01 浏览: 91

首先，我们需要导入pandas库和numpy库，读取house.xlsx文件中的数据。代码如下： ```python import pandas as pd import numpy as np df = pd.read_excel('house.xlsx') ``` 接下来，我们需要将“暂无数据”转换为空值，并统计各列的空值频数，查看缺失数据情况。代码如下： ```python df.replace('暂无数据', np.nan, inplace=True) null_counts = df.isnull().sum() print(null_counts) ``` 然后，我们需要将带有单位的字符串转换为数值型数据。代码如下： ```python df['均价'] = df['均价'].str.replace('元/m²', '').astype(float) df['面积'] = df['面积'].str.replace('㎡', '').astype(float) df['单价'] = df['单价'].str.replace('元/平米/月', '').astype(float) ``` 为了分析不同区的房产数据，我们需要从地址中提取出区的数据。代码如下： ```python df['区'] = df['地址'].str.extract('(苏州市.*区)', expand=False) ``` 接下来，我们需要从建造年代中提取出房龄数据。代码如下： ```python df['房龄'] = 2021 - df['建筑年代'] ``` 筛选出区为“工业园”，均价在50000元以下，容积率在1.5以下的房源数据。代码如下： ```python df_filtered = df[(df['区'] == '苏州市工业园区') & (df['均价'] < 50000) & (df['容积率'] < 1.5)] ``` 查询房价最贵小区的前5名。代码如下： ```python top5_expensive = df.sort_values('均价', ascending=False).head(5) ``` 查询停车位最少小区的前5名。代码如下： ```python top5_parking = df.sort_values('停车位', ascending=True).head(5) ``` 统计所有数据的平均房价及二手房房源数。代码如下： ```python avg_price = df['均价'].mean() house_count = len(df) print('平均房价：', avg_price) print('二手房房源数：', house_count) ``` 分析均价在4000元以上小区中，房源最多的是哪个区。代码如下： ```python df_high_price = df[df['均价'] >= 4000] count_by_area = df_high_price['区'].value_counts() print(count_by_area) ```

阅读全文

相关推荐

某招聘网爬取数据分析岗位数据.xlsx

Python爬虫-城市数据分析与市场潜能计算所需文件-283地级市数据.xlsx

Python爬虫-城市数据分析与市场潜能计算所需文件-283地级市的欧氏距离.xlsx

本次实验利用某爬虫软件爬取某房产网站中苏州地区的房产数据，数据文件为house.xlsx，部分数据显示如下。 house.png（1）如何利用Python从地址中提取出区的数据，从建造年代中提取出房龄数据

在Visual Studio Code怎么导入‘某网站航空数据.xlsx'文件中的数据到dataframe对象df中。

python 将合并后的数据追加到名为jnfnv.xlsx的Excel文件的’skk’页中

pandas读取testdata.xlsx文件中A列数据并插入到testdata.xlsx文件N列中

编写程序，将实验数据和直方图写入test_barcart.xlsx文件中python代码

我有一个文件名字为：核对.xlsx 还有一个文件名字为 不存在数据.xlsx，通过python和指定数据进行对比，核对.xlsx文件的不符合要求的数据自动写入不存在数据.xlsx文件中

如何使用Python中的pandas库从.xlsx文件中正确地读取和提取数据？

爬取下厨房网站中快手菜这一类中的标题和食材数据，保存为Excel文件

python 多表工作簿table.xlsx中sheet1中追加二行数据，后并保存table.xlsx

pandas里打开无法恢复的名为15day.xlsx文件，获取里面没有损坏的数据的代码

python 多sheet工作簿table.xlsx中sheet1中追加两行数据，后并保存table.xlsx

对xlsx文件中的某一列进行数据分析并且进行数据可视化操作

python 复制a.xlsx中sheet1表中的所有数据和边框格式到b.xlsx中

pycharm数据分析存储预处理后的数据到data目录，文件名为：data_process_finish.xlsx

某购物中心三年销售数据.xlsx

如何利用Python编写爬虫程序，爬取亚马逊图书数据并保存到Excel文件中？请提供具体步骤和代码示例。

大家在看

基于FPGA的VHDL语言 乘法计算

sdram 资料 原理。

freetts-1.2.2-bin

人工智能技术在数值天气预报中的应用.zip

安装验证-浅谈mysql和mariadb区别

最新推荐

Python爬取数据并实现可视化代码解析

Java将excel中的数据导入到mysql中

Python数据处理课程设计-房屋价格预测

在django项目中导出数据到excel文件并实现下载的功能

利用python对excel中一列的时间数据更改格式操作

免安装JDK 1.8.0_241：即刻配置环境运行

管理建模和仿真的文件

【提升效率与稳定性】：深入掌握单相整流器的控制策略

你看这是ashx映射的cs文件初始代码,你看这里边根本就没有写对action参数进行任何操作但你.ashx?action=submit这样去做他就能返回出数据这是为什么

机器学习预测葡萄酒评分：二值化品尝笔记的应用

我有一个文件名字为：核对.xlsx 还有一个文件名字为不存在数据.xlsx，通过python和指定数据进行对比，核对.xlsx文件的不符合要求的数据自动写入不存在数据.xlsx文件中

基于FPGA的VHDL语言乘法计算

sdram 资料原理。