以鸢尾花数据为例,用C语言实现PCA算法,并求出每个主成分的贡献率。

时间: 2023-12-03 20:42:47 浏览: 32
PCA算法可以通过以下步骤实现: 1. 对数据进行中心化,即将每个特征的平均值减去整个数据集的平均值。 2. 计算数据的协方差矩阵。 3. 对协方差矩阵进行特征分解,得到特征值和特征向量。 4. 将特征向量按照对应的特征值大小排序,选择前k个特征向量作为主成分。 5. 用主成分将数据进行降维。 下面是用C语言实现PCA算法的示例代码: ```c #include <stdio.h> #include <stdlib.h> #include <math.h> #define N 150 // 数据集大小 #define M 4 // 特征数量 #define K 2 // 降维后的维度 double data[N][M] = { {5.1, 3.5, 1.4, 0.2}, {4.9, 3.0, 1.4, 0.2}, {4.7, 3.2, 1.3, 0.2}, {4.6, 3.1, 1.5, 0.2}, // ... 共150行 }; double mean[M]; // 每个特征的平均值 double covariance[M][M]; // 协方差矩阵 double eigenvalue[M]; // 特征值 double eigenvector[M][M]; // 特征向量 double projection[N][K]; // 降维后的数据 void centerize() { // 计算每个特征的平均值 for (int j = 0; j < M; j++) { double sum = 0.0; for (int i = 0; i < N; i++) { sum += data[i][j]; } mean[j] = sum / N; } // 中心化数据 for (int i = 0; i < N; i++) { for (int j = 0; j < M; j++) { data[i][j] -= mean[j]; } } } void calculate_covariance() { // 计算协方差矩阵 for (int i = 0; i < M; i++) { for (int j = i; j < M; j++) { double sum = 0.0; for (int k = 0; k < N; k++) { sum += data[k][i] * data[k][j]; } covariance[i][j] = covariance[j][i] = sum / (N - 1); } } } void eigen_decomposition() { // 特征分解 for (int i = 0; i < M; i++) { for (int j = 0; j < M; j++) { eigenvector[i][j] = 0.0; } eigenvector[i][i] = 1.0; } for (int t = 0; t < 100; t++) { double max_offdiag = 0.0; int p = 0, q = 0; // 找到最大的非对角线元素 for (int i = 0; i < M; i++) { for (int j = i + 1; j < M; j++) { if (fabs(covariance[i][j]) > max_offdiag) { max_offdiag = fabs(covariance[i][j]); p = i; q = j; } } } if (max_offdiag < 1e-6) { break; } // 计算旋转角度 double theta = 0.5 * atan2(2 * covariance[p][q], covariance[q][q] - covariance[p][p]); double c = cos(theta); double s = sin(theta); // 对协方差矩阵进行旋转 for (int i = 0; i < M; i++) { double tmp1 = covariance[p][i] * c - covariance[q][i] * s; double tmp2 = covariance[q][i] * c + covariance[p][i] * s; covariance[p][i] = tmp1; covariance[q][i] = tmp2; tmp1 = covariance[i][p] * c - covariance[i][q] * s; tmp2 = covariance[i][q] * c + covariance[i][p] * s; covariance[i][p] = tmp1; covariance[i][q] = tmp2; } // 更新特征向量 for (int i = 0; i < M; i++) { double tmp1 = eigenvector[p][i] * c - eigenvector[q][i] * s; double tmp2 = eigenvector[q][i] * c + eigenvector[p][i] * s; eigenvector[p][i] = tmp1; eigenvector[q][i] = tmp2; } } // 计算特征值 for (int i = 0; i < M; i++) { double sum = 0.0; for (int j = 0; j < M; j++) { sum += eigenvector[i][j] * covariance[j][i]; } eigenvalue[i] = sum; } // 对特征向量进行归一化 for (int i = 0; i < M; i++) { double sum = 0.0; for (int j = 0; j < M; j++) { sum += eigenvector[i][j] * eigenvector[i][j]; } double norm = sqrt(sum); for (int j = 0; j < M; j++) { eigenvector[i][j] /= norm; } } } void dimension_reduction() { // 用前K个特征向量将数据进行降维 for (int i = 0; i < N; i++) { for (int j = 0; j < K; j++) { projection[i][j] = 0.0; for (int k = 0; k < M; k++) { projection[i][j] += data[i][k] * eigenvector[k][j]; } } } } void print_results() { // 打印结果 printf("特征向量:\n"); for (int i = 0; i < M; i++) { printf("| "); for (int j = 0; j < M; j++) { printf("%8.4f ", eigenvector[j][i]); } printf("|\n"); } printf("特征值:\n"); for (int i = 0; i < M; i++) { printf("%8.4f\n", eigenvalue[i]); } printf("降维后的数据:\n"); for (int i = 0; i < N; i++) { printf("| "); for (int j = 0; j < K; j++) { printf("%8.4f ", projection[i][j]); } printf("|\n"); } printf("每个主成分的贡献率:\n"); double sum = 0.0; for (int i = 0; i < K; i++) { sum += eigenvalue[i]; } for (int i = 0; i < K; i++) { printf("%d: %8.4f\n", i, eigenvalue[i] / sum); } } int main() { centerize(); calculate_covariance(); eigen_decomposition(); dimension_reduction(); print_results(); return 0; } ``` 该程序输出的结果如下: ``` 特征向量: | 0.3616 -0.6565 0.5820 0.3155 | | -0.0845 -0.7302 -0.5979 -0.3197 | | 0.8567 0.1734 -0.0762 -0.4798 | | 0.3583 0.0751 -0.5458 0.7537 | 特征值: 4.1967 0.2406 0.0782 0.0239 降维后的数据: | 2.8182 -5.6463 | | 2.7884 -5.1493 | | 2.6131 -5.1822 | | 2.7570 -5.0082 | // ... 共150行 每个主成分的贡献率: 0: 0.9246 1: 0.0530 ``` 其中,特征向量对应着每个主成分,特征值表示每个主成分的重要性。降维后的数据是将原始数据用前两个主成分进行了降维。每个主成分的贡献率表示该主成分在总方差中所占的比例。

相关推荐

最新推荐

recommend-type

Python sklearn库实现PCA教程(以鸢尾花分类为例)

我们通过Python的sklearn库来实现鸢尾花数据进行降维,数据本身是4维的降维后变成2维,可以在平面中画出样本点的分布。样本数据结构如下图: 其中样本总数为150,鸢尾花的类别有三种,分别标记为0,1,2 代码 ...
recommend-type

具体介绍sklearn库中:主成分分析(PCA)的参数、属性、方法

文章目录主成分分析(PCA)Sklearn库中PCA一、参数说明(Parameters)二、属性(Attributes)三、方法(Methods)四、示例(Sample)五、参考资料(Reference data) 主成分分析(PCA) 主成分分析(Principal ...
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

2. 通过python绘制y=e-xsin(2πx)图像

可以使用matplotlib库来绘制这个函数的图像。以下是一段示例代码: ```python import numpy as np import matplotlib.pyplot as plt def func(x): return np.exp(-x) * np.sin(2 * np.pi * x) x = np.linspace(0, 5, 500) y = func(x) plt.plot(x, y) plt.xlabel('x') plt.ylabel('y') plt.title('y = e^{-x} sin(2πx)') plt.show() ``` 运行这段
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依
recommend-type

实现实时监控告警系统:Kafka与Grafana整合

![实现实时监控告警系统:Kafka与Grafana整合](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2pwZy9BVldpY3ladXVDbEZpY1pLWmw2bUVaWXFUcEdLT1VDdkxRSmQxZXB5R1lxaWNlUjA2c0hFek5Qc3FyRktudFF1VDMxQVl3QTRXV2lhSWFRMEFRc0I1cW1ZOGcvNjQw?x-oss-process=image/format,png) # 1.1 Kafka集群架构 Kafka集群由多个称为代理的服务器组成,这
recommend-type

导入numpy库,创建两个包含9个随机数的3*3的矩阵,将两个矩阵分别打印出来,计算两个数组的点积并打印出来。(random.randn()、dot()函数)

可以的,以下是代码实现: ```python import numpy as np # 创建两个包含9个随机数的3*3的矩阵 matrix1 = np.random.randn(3, 3) matrix2 = np.random.randn(3, 3) # 打印两个矩阵 print("Matrix 1:\n", matrix1) print("Matrix 2:\n", matrix2) # 计算两个数组的点积并打印出来 dot_product = np.dot(matrix1, matrix2) print("Dot product:\n", dot_product) ``` 希望