利用K-means聚类法分析房屋价格数据

需积分: 0 192 浏览量更新于2024-08-04 收藏 301KB DOCX 举报

在本篇关于划分聚类的程序代码中，主要介绍了如何对房价数据集进行预处理、选择合适的聚类数量以及执行k-means算法的过程。以下是详细的步骤分析： 1. **数据加载与初步探索**：首先，通过`read.csv()`函数加载了一个名为`house_price`的数据集。接着，使用`summary()`函数对数据集进行概览，了解各变量的统计特性。为了更好地处理数值型变量，将第七、第九、第十、第十二、第十三和第十四列的数值型变量转换为因子型，使用`as.factor()`函数完成这一操作。这样做可以将连续数值变量转换为类别，便于后续的聚类分析。 2. **数据清理与特征选择**：数据集被进一步处理，通过`house_price2 <- house_price[,-17]`删除第十七列，然后提取前十四列作为主要特征 (`house_price3`)。这是因为可能某些列对聚类结果影响较小或不适合当前的分析目的。 3. **确定聚类数量**：通过计算不同聚类中心点与样本之间的“距离平方和”（`withinss`），作者使用拐点图（`plot(1:15,a,type="b",xlab="clusters",ylab="距离平方和")`）来评估不同聚类数对模型的影响。拐点图展示了随着聚类数增加，距离平方和的变化趋势。在观察到拐点后，确定了3个聚类为最佳，即在三个簇内数据的分布效果最优。 4. **k-means聚类**：使用k-means算法对处理后的数据进行聚类，`house_price_kmeans <- kmeans(house_price3, 3)`。这将数据集分为3个类别（集群），每个集群的中心（质心）表示该类别的典型特征。 5. **评估聚类效果**：分析聚类结果，通过`table(house_price$priceType, house_price_kmeans$cluster)`检查`priceType`变量（可能是价格类型或房屋类型等）与聚类的关系，以验证聚类的合理性。同时，可视化聚类结果，可能包括散点图或者箱线图，以便直观地展示各簇内的数据分布。 6. **结果展示**：最后，将聚类结果和每个簇的中心点（即质心）打印出来，以供进一步分析或报告使用。这一步通常涉及绘制带有不同颜色标记的点，代表不同的簇，同时显示聚类中心点的位置。这段代码主要展示了在实际数据分析中如何运用k-means聚类方法对房价数据进行预处理、选择聚类数量并生成初步的聚类结果。通过这种方式，我们可以根据数据的内在结构将相似的房屋划分为不同的群体，有助于后续的深入研究和业务决策。

首先加载数据集并且进行一些数据处理，把数值型变量转换成因子型

house_price<-read.csv(file.choose())

#概览数据集，并且进行变量类型转换

summary(house_price)

class(house_price[,7])

house_price[,7]<-as.factor(house_price[,7])

class(house_price[,9])

house_price[,9]<-as.factor(house_price[,9])

class(house_price[,10])

house_price[,10]<-as.factor(house_price[,10])

class(house_price[,12])

house_price[,12]<-as.factor(house_price[,12])

class(house_price[,13])

house_price[,13]<-as.factor(house_price[,13])

class(house_price[,14])

house_price[,14]<-as.factor(house_price[,14])

house_price2<-house_price[,-17]

summary(house_price2)

house_price3<-house_price2[,1:14]

#设置随机种子

set.seed(5032)

#绘制拐点图

a<-(nrow(house_price3)-1)*sum(apply(house_price3,2,var))

for(i in 2:15) a[i]<-sum(kmeans(house_price3,centers=i)$withinss)

plot(1:15,a,type="b",xlab="clusters",ylab="距离平方和")

下载后可阅读完整内容，剩余5页未读，立即下载

英次

粉丝: 22
资源: 306

利用K-means聚类法分析房屋价格数据

FCM模糊聚类C 程序源代码

谱聚类实现Matlab程序

改进的基于划分算法的三维点云聚类matlab实现,分层聚类算法,matlab

stata划分聚类和层次聚类

划分聚类和层次聚类有什么区别‘

k均值算法是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛

近邻传播聚类如何划分聚类，有代码实现吗

matlab实现K均值聚类程序流程

基于划分的聚类算法原理及步骤

matlab 广义线性模型聚类程序

最新资源