写r语言程序,北京二手房房价影响因素分析
时间: 2024-03-14 20:47:49 浏览: 83
好的,以下是一个简单的R语言程序,用于分析北京二手房房价的影响因素:
```R
# 加载必要的库
library(readxl) # 读取Excel文件
library(ggplot2) # 数据可视化
library(dplyr) # 数据处理
# 读取数据
df <- read_excel("beijing_house_price.xlsx")
# 数据清理
df <- df %>%
mutate(total_price = total_price / 10000, # 将总价转换为万元
unit_price = unit_price / 1000, # 将单价转换为千元/平方米
age = as.numeric(str_extract(age, "\\d+")), # 提取房龄
district = ifelse(grepl("东城", district), "东城", ifelse(grepl("西城", district), "西城", "其他")), # 将区域分类
floor = ifelse(grepl("低层", floor), "低层", ifelse(grepl("中层", floor), "中层", "高层"))) # 将楼层分类
# 数据可视化
ggplot(data = df, aes(x = unit_price, y = total_price, color = district)) +
geom_point(alpha = 0.5) +
geom_smooth(method = "lm", se = FALSE) +
labs(x = "单价(千元/平方米)", y = "总价(万元)", title = "北京二手房价格分布")
# 线性回归分析
model <- lm(total_price ~ unit_price + area + age + district + floor, data = df)
summary(model)
```
这个程序使用了以下步骤来分析北京二手房房价的影响因素:
1. 首先,程序使用 `read_excel` 函数从Excel文件中读取数据,并使用 `mutate` 函数进行数据清理。这里将总价转换为万元,单价转换为千元/平方米,提取房龄,将区域和楼层进行分类。
2. 接下来,程序使用 `ggplot2` 库进行数据可视化。这里使用散点图和回归线来展示单价和总价之间的关系,并按照区域进行着色。
3. 最后,程序使用 `lm` 函数进行线性回归分析,以确定单价、面积、房龄、区域和楼层等因素对总价的影响。`summary` 函数用于输出回归分析结果。
希望这个程序能够帮到您!
阅读全文