C++实现K均值聚类算法

时间: 2023-07-17 11:07:58 浏览: 48
K均值聚类算法是一种常用的无监督学习算法,用于将数据集划分为K个不同的类别。下面是一个简单的C++实现示例: ```cpp #include <iostream> #include <vector> #include <cmath> // 计算两个向量之间的欧氏距离 double euclideanDistance(const std::vector<double>& v1, const std::vector<double>& v2) { double distance = 0.0; for (int i = 0; i < v1.size(); ++i) { distance += pow(v1[i] - v2[i], 2); } return sqrt(distance); } // 将每个数据点分配给最近的聚类中心 void assignToClusters(const std::vector<std::vector<double>>& data, const std::vector<std::vector<double>>& centroids, std::vector<int>& clusterAssignments) { for (int i = 0; i < data.size(); ++i) { double minDistance = INFINITY; int clusterIndex = -1; for (int j = 0; j < centroids.size(); ++j) { double distance = euclideanDistance(data[i], centroids[j]); if (distance < minDistance) { minDistance = distance; clusterIndex = j; } } clusterAssignments[i] = clusterIndex; } } // 更新聚类中心为每个簇的平均值 void updateCentroids(const std::vector<std::vector<double>>& data, const std::vector<int>& clusterAssignments, std::vector<std::vector<double>>& centroids) { std::vector<int> clusterCounts(centroids.size(), 0); std::vector<std::vector<double>> sums(centroids.size(), std::vector<double>(data[0].size(), 0.0)); for (int i = 0; i < data.size(); ++i) { int clusterIndex = clusterAssignments[i]; for (int j = 0; j < data[i].size(); ++j) { sums[clusterIndex][j] += data[i][j]; } clusterCounts[clusterIndex]++; } for (int i = 0; i < centroids.size(); ++i) { for (int j = 0; j < centroids[i].size(); ++j) { if (clusterCounts[i] > 0) { centroids[i][j] = sums[i][j] / clusterCounts[i]; } } } } // K均值聚类算法 std::vector<int> kMeans(const std::vector<std::vector<double>>& data, int k) { std::vector<int> clusterAssignments(data.size(), 0); std::vector<std::vector<double>> centroids(k, std::vector<double>(data[0].size(), 0.0)); // 初始化聚类中心为随机的数据点 for (int i = 0; i < k; ++i) { centroids[i] = data[rand() % data.size()]; } bool centroidsChanged = true; while (centroidsChanged) { // 将数据点分配给最近的聚类中心 assignToClusters(data, centroids, clusterAssignments); // 更新聚类中心 std::vector<std::vector<double>> oldCentroids = centroids; updateCentroids(data, clusterAssignments, centroids); // 判断聚类中心是否发生变化 centroidsChanged = false; for (int i = 0; i < centroids.size(); ++i) { if (centroids[i] != oldCentroids[i]) { centroidsChanged = true; break; } } } return clusterAssignments; } int main() { // 示例数据集 std::vector<std::vector<double>> data = { {2.0, 3.0}, {2.5, 5.0}, {1.5, 2.5}, {4.0, 2.0}, {3.5, 4.5}, {3.0, 2.5} }; int k = 2; // 聚类数量 std::vector<int> clusterAssignments = kMeans(data, k); // 输出每个数据点所属的聚类 for (int i = 0; i < clusterAssignments.size(); ++i) { std::cout << "Data point " << i + 1 << " belongs to cluster " << clusterAssignments[i] + 1 << std::endl; } return 0; } ``` 上述代码是一个简单的K均值聚类算法的实现,可以根据自己的数据集和需要进行适当的修改。在示例代码中,我们使用了一个二维数据集并将其分为两个聚类。输出中显示了每个数据点所属的聚类。

相关推荐

最新推荐

recommend-type

用C++实现DBSCAN聚类算法

本篇文章是对使用C++实现DBSCAN聚类算法的方法进行了详细的分析介绍,需要的朋友参考下
recommend-type

C++实现分水岭算法(Watershed Algorithm)

主要为大家详细介绍了C++实现分水岭算法Watershed Algorithm,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
recommend-type

使用C++实现全排列算法的方法详解

本篇文章是对使用C++实现全排列算法的方法进行了详细的分析介绍,需要的朋友参考下
recommend-type

c++代码实现tea加密算法的实例详解

主要介绍了c++代码实现tea加密算法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
recommend-type

基于C++实现五子棋AI算法思想

主要为大家详细介绍了基于C++实现五子棋AI算法思想,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

SPDK_NVMF_DISCOVERY_NQN是什么 有什么作用

SPDK_NVMF_DISCOVERY_NQN 是 SPDK (Storage Performance Development Kit) 中用于查询 NVMf (Non-Volatile Memory express over Fabrics) 存储设备名称的协议。NVMf 是一种基于网络的存储协议,可用于连接远程非易失性内存存储器。 SPDK_NVMF_DISCOVERY_NQN 的作用是让存储应用程序能够通过 SPDK 查询 NVMf 存储设备的名称,以便能够访问这些存储设备。通过查询 NVMf 存储设备名称,存储应用程序可以获取必要的信息,例如存储设备的IP地址、端口号、名称等,以便能
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。