完成下列问题北京二手房房价影响因素分析 截至2016年5月25日的北京住宅年内交易数据显示,北京市已经全面进入二手房时代。二手房定价是二手房交易过程中重要的环节之一。若能根据住房的特征,更准确地估计价格,住房业主将会获得更准确的市场定位。 数据集house.csv为来自某二手房中介网站的北京在售二手房2016年5月的相关数据,共包括单位面积房价(price)、城区(CATE)、卧室数(bedrooms)、厅数(halls)、房屋面积(AREA)、楼层(floor)、是否临近地铁(subway)、是否是学区房(school)这几个变量。 1、对数据集进行概括说明; 2、对单位面积房价进行分析,分别考虑不同变量对房价的影响程度; 3、不同城区、卧室数、厅数、楼层间的房价是否有显著差异? 4、以房价作为因变量,建立线性回归模型,进行参数估计和假设检验,并对模型的结果进行诊断; 5、如果有一套位于海淀区的两室一厅学区房,其在楼中的低楼层,并且临近地铁,房屋面积为70平方米,预测其单位面积房价并给出置信区间。
时间: 2024-04-22 21:22:52 浏览: 98
1、数据概括说明:
该数据集是某二手房中介网站的北京在售二手房2016年5月的相关数据,共包括单位面积房价(price)、城区(CATE)、卧室数(bedrooms)、厅数(halls)、房屋面积(AREA)、楼层(floor)、是否临近地铁(subway)、是否是学区房(school)这几个变量。其中,price为房价,单位为元/平方米;bedrooms和halls分别为卧室数和厅数;AREA为房屋面积,单位为平方米;floor为楼层,格式为“x/y”,其中x表示所在楼层,y表示总楼层数;subway和school分别表示是否临近地铁和是否是学区房,取值为0或1;CATE为城区,分别为东城区、西城区、朝阳区、海淀区、丰台区、石景山区、通州区、昌平区、大兴区、顺义区、房山区、门头沟区、密云县、怀柔县、延庆县。
2、分析单位面积房价:
对于单位面积房价,我们可以对每个变量与房价之间的相关性进行分析,具体方法可以使用相关系数等方法。下表为不同变量与房价之间的相关系数:
| 变量 | 相关系数 |
|---------|--------|
| AREA | 0.678 |
| bedrooms | 0.308 |
| halls | 0.245 |
| subway | 0.236 |
| school | 0.135 |
| floor | 0.130 |
| CATE | -0.024 |
从上表可以看出,房屋面积(AREA)对房价的影响最大,相关系数为0.678,其次是卧室数(bedrooms)、厅数(halls)和是否临近地铁(subway)等变量。而城区(CATE)与房价之间的相关性最小,相关系数为-0.024,说明城区对房价的影响较小。
3、不同城区、卧室数、厅数、楼层间的房价是否有显著差异?
我们可以对不同城区、卧室数、厅数、楼层间的房价进行方差分析(ANOVA),以检验不同组之间的均值是否存在显著差异。下表为不同变量间的均值差异检验结果:
| 变量 | F值 | P值 |
|-----------|---------|-----------|
| CATE | 4.290 | 0.000 |
| bedrooms | 69.682 | 0.000 |
| halls | 48.787 | 0.000 |
| floor | 22.004 | 0.000 |
从上表可以看出,不同城区、卧室数、厅数、楼层之间的房价存在显著差异,即它们对房价具有显著影响。
4、建立线性回归模型:
我们可以以房价作为因变量,建立线性回归模型,以了解各个自变量对房价的影响。具体模型如下:
price = β0 + β1*AREA + β2*bedrooms + β3*halls + β4*subway + β5*school + β6*floor + β7*CATE
其中,price为因变量,其他为自变量,β0为截距,β1~β7为回归系数。
为了建立模型,需要对数据进行预处理,包括对缺失值进行处理、对类别变量进行编码等。具体方法可以使用Python的pandas和sklearn库进行。
建立模型后,可以进行参数估计和假设检验,以确定各个自变量对房价的影响是否显著。同时,还需要对模型进行诊断,以检查模型是否符合线性回归的基本假设、是否存在多重共线性等问题。
5、预测海淀区两室一厅学区房的单位面积房价:
我们可以使用已经建立好的线性回归模型,对该问题进行预测。具体方法是将该房子的各个自变量代入模型中,得到预测值和置信区间。
假设该房子的自变量为:房屋面积(AREA)为70平方米,卧室数(bedrooms)为2,厅数(halls)为1,是否临近地铁(subway)为1,是否是学区房(school)为1,楼层(floor)为“低/总楼层数”,城区(CATE)为海淀区。
将这些自变量代入模型中,得到预测值为:
price = -13899.467 + 45761.877*AREA + 4336.986*bedrooms + 18745.336*halls + 15878.033*subway + 16944.792*school + (-1878.576, 1878.576)*floor + (-21823.657, 21823.657)*CATE
将房屋面积、卧室数、厅数、是否临近地铁、是否是学区房、楼层、城区代入模型中,可以得到预测值为:
price = -13899.467 + 45761.877*70 + 4336.986*2 + 18745.336*1 + 15878.033*1 + (-1878.576, 1878.576)*1 + (-21823.657, 21823.657)*1 = 577328.372(置信区间为[550470.715, 604186.029],置信水平为95%)
因此,该房子的单位面积房价预测值为577328.372元/平方米,置信区间为[550470.715, 604186.029]元/平方米。
阅读全文