应用学到的知识对如下特征信息按照特征工程进行处理(归一化、离散化、类别型等特征处理),便于输入数据科学算法运算,如相似度的计算、相似邻居的计算等。所在街区 房屋价格 住房面积 住房格局 是否学区 是否售出 海淀 7000000 120 三室一厅 是 是 朝阳 6000000 100 二室一厅 否 否 昌平 5000000 120 二室一厅 否 是 大兴 6500000 150 三室一厅 否 ? 其中前五项为特征,最后一项为目标 先生成可输入运算的数据,再用相似度和KNN算法分别计算房源之间的关联度。
时间: 2024-02-10 22:06:30 浏览: 31
好的,根据您提供的特征信息,我们可以进行如下的特征工程处理:
1. 所在街区:可以将其转化为类别型特征,使用one-hot编码,将其转化为海淀、朝阳、昌平、大兴四个特征。
2. 房屋价格:可以进行归一化处理,将其转化为0-1范围内的数值。
3. 住房面积:可以进行归一化处理,将其转化为0-1范围内的数值。
4. 住房格局:可以将其转化为类别型特征,使用one-hot编码,将其转化为三室一厅、二室一厅两个特征。
5. 是否学区:可以将其转化为类别型特征,使用0/1表示是否是学区房。
6. 是否售出:可以将其转化为类别型特征,使用0/1表示是否已经售出。
处理后的数据如下:
| 街区_海淀 | 街区_朝阳 | 街区_昌平 | 街区_大兴 | 房屋价格 | 住房面积 | 格局_三室一厅 | 格局_二室一厅 | 是否学区 | 是否售出 |
| --------- | --------- | --------- | --------- | ------- | ------- | ------------ | ------------ | -------- | -------- |
| 1 | 0 | 0 | 0 | 0.875 | 0.375 | 1 | 0 | 1 | 1 |
| 0 | 1 | 0 | 0 | 0.625 | 0.25 | 0 | 1 | 0 | 0 |
| 0 | 0 | 1 | 0 | 0.375 | 0.375 | 0 | 1 | 0 | 1 |
| 0 | 0 | 0 | 1 | 0.6875 | 0.5 | 1 | 0 | 0 | ? |
接下来可以使用相似度算法(如余弦相似度)和KNN算法计算房源之间的关联度。