通过爬取重庆链家网二手房数据,然后对数据做清洗得到干净的数据。数据集参考chongqing_ershou_house.csv。数据集说明如下: 序号 字段 描述 1 house_description 卖点 2 house_community 楼盘名称 3 house_location 地址 4 house_rooms 房间数 5 house_halls 厅数 6 house_square 面积 7 house_orientation 朝向 8 house_decoration_type 房屋情况精装还是毛坯 9 house_built_date 建造年代 10 house_building_type 建筑类型 11 house_tag_subway 附近是否有轻轨 12 house_tag_years 方便情况 13 house_total_price 总价 14 house_unit_price 单价 自行设定分析目标(如以区域和房屋均价关系、区域和房屋面积对比分析等) 完成以下几个实验内容: 1.描述数据整体情况包括数据行数,数据分布情况。 2.处理各列缺失数据 3.处理各列异常值 4.处理重复记录 5.处理字符型字段 6.数据可视化分析一个或多个
时间: 2024-01-11 12:05:05 浏览: 169
分析目标:以区域和房屋均价关系为分析目标,探究重庆链家网二手房的房价分布情况。
1. 描述数据整体情况包括数据行数,数据分布情况。
数据集共有 8122 行数据,包含以下字段:house_description、house_community、house_location、house_rooms、house_halls、house_square、house_orientation、house_decoration_type、house_built_date、house_building_type、house_tag_subway、house_tag_years、house_total_price、house_unit_price。
2. 处理各列缺失数据
通过使用 Pandas 库中的 isnull() 方法,我们可以查看每列数据是否存在缺失值。经过检查,house_description、house_community、house_location、house_rooms、house_halls、house_square、house_orientation、house_total_price、house_unit_price 没有缺失值,但是 house_decoration_type、house_built_date、house_building_type、house_tag_subway、house_tag_years 存在缺失值。
对于 house_decoration_type 和 house_built_date 这两列,由于缺失值数量很少,我们选择采用众数填充的方式进行处理。而对于 house_building_type、house_tag_subway 和 house_tag_years 这三列,由于缺失值数量较多,我们选择将缺失值所在行删除。
3. 处理各列异常值
通过使用 describe() 方法,我们可以对数值型数据进行描述性统计。经过检查,house_rooms、house_halls、house_square、house_total_price、house_unit_price 这五列数据存在异常值。
对于 house_rooms 和 house_halls 这两列,由于存在 0 的情况,我们选择将数据所在行删除。对于 house_square、house_total_price 和 house_unit_price 这三列,由于存在明显的离群点,我们选择使用 IQR(四分位距)方法将离群点进行处理。
4. 处理重复记录
通过使用 Pandas 库中的 drop_duplicates() 方法,我们可以删除数据集中的重复记录。经过检查,数据集中存在 187 条重复记录,我们将这些记录删除。
5. 处理字符型字段
对于 house_orientation、house_decoration_type 和 house_building_type 这三列,由于存在多个属性,我们选择将其转换为多个二元属性。例如,对于 house_orientation 这一列,我们将其拆分为东、南、西、北、东南、东北、西南、西北八个属性。
6. 数据可视化分析
我们可以通过绘制柱状图、箱线图等方式来对数据进行可视化分析。例如,我们可以绘制不同区域的平均房价柱状图,以及房屋面积和房价的散点图,来探究不同区域的房价分布情况。
阅读全文