用C++实现K-均值聚类算法
时间: 2023-11-03 18:06:04 浏览: 110
以下是用C语言实现K-均值聚类算法的示例代码:
```c
#include <stdio.h>
#include <stdlib.h>
#include <math.h>
#define MAX_ITER 1000 // 最大迭代次数
#define EPSILON 0.0001 // 收敛阈值
// 数据点结构体
typedef struct {
double x; // x坐标
double y; // y坐标
} Point;
// 聚类中心结构体
typedef struct {
double x; // x坐标
double y; // y坐标
int count; // 包含的数据点数量
} Center;
// 计算两点之间的距离
double distance(Point p1, Point p2) {
return sqrt(pow(p1.x - p2.x, 2) + pow(p1.y - p2.y, 2));
}
// 初始化聚类中心
void initCenters(Point *data, int n, Center *centers, int k) {
int i, j;
for (i = 0; i < k; i++) {
centers[i].x = data[i].x;
centers[i].y = data[i].y;
centers[i].count = 0;
}
for (i = k; i < n; i++) {
j = rand() % i;
if (j < k) {
centers[j].count++;
centers[j].x += (data[i].x - centers[j].x) / centers[j].count;
centers[j].y += (data[i].y - centers[j].y) / centers[j].count;
}
}
}
// K-均值聚类算法
void kmeans(Point *data, int n, Center *centers, int k) {
int i, j, iter;
double minDist, dist;
int *cluster = (int *)malloc(n * sizeof(int)); // 记录每个数据点所属的聚类中心编号
for (iter = 0; iter < MAX_ITER; iter++) {
// 将每个数据点分配到最近的聚类中心
for (i = 0; i < n; i++) {
minDist = distance(data[i], centers[0]);
cluster[i] = 0;
for (j = 1; j < k; j++) {
dist = distance(data[i], centers[j]);
if (dist < minDist) {
minDist = dist;
cluster[i] = j;
}
}
}
// 更新聚类中心
for (i = 0; i < k; i++) {
centers[i].x = 0;
centers[i].y = 0;
centers[i].count = 0;
}
for (i = 0; i < n; i++) {
centers[cluster[i]].count++;
centers[cluster[i]].x += data[i].x;
centers[cluster[i]].y += data[i].y;
}
for (i = 0; i < k; i++) {
if (centers[i].count > 0) {
centers[i].x /= centers[i].count;
centers[i].y /= centers[i].count;
}
}
// 判断是否收敛
int converged = 1;
for (i = 0; i < n; i++) {
if (distance(data[i], centers[cluster[i]]) > EPSILON) {
converged = 0;
break;
}
}
if (converged) {
break;
}
}
printf("Converged after %d iterations.\n", iter + 1);
// 输出聚类结果
for (i = 0; i < k; i++) {
printf("Cluster %d:\n", i);
for (j = 0; j < n; j++) {
if (cluster[j] == i) {
printf("(%lf, %lf)\n", data[j].x, data[j].y);
}
}
}
free(cluster);
}
int main() {
int n = 10; // 数据点数量
int k = 3; // 聚类中心数量
Point *data = (Point *)malloc(n * sizeof(Point));
Center *centers = (Center *)malloc(k * sizeof(Center));
int i;
// 生成随机数据点
for (i = 0; i < n; i++) {
data[i].x = (double)rand() / RAND_MAX * 10.0;
data[i].y = (double)rand() / RAND_MAX * 10.0;
}
// 初始化聚类中心
initCenters(data, n, centers, k);
// 运行K-均值聚类算法
kmeans(data, n, centers, k);
free(data);
free(centers);
return 0;
}
```
该代码实现了K-均值聚类算法,并通过随机生成的数据点进行了测试。在运行程序时,可以通过修改n和k的值来改变数据点数量和聚类中心数量。运行结果会输出聚类结果以及迭代次数。
阅读全文