以鸢尾花数据为例,用C语言实现PCA算法,并求出每个主成分的贡献率

时间: 2023-12-03 22:42:32 浏览: 34
PCA(Principal Component Analysis)是一种常用的数据降维方法,它可以将高维数据转化为低维数据,同时保留原始数据的主要信息。在这里,我们以鸢尾花数据为例,介绍如何用C语言实现PCA算法,并求出每个主成分的贡献率。 首先,我们需要读取鸢尾花数据集。假设我们已经将数据存储在一个二维数组`data`中,其中每一行代表一条数据,每一列代表一个特征。我们可以使用以下代码读取数据: ```c float data[150][4]; // 鸢尾花数据集 FILE *fp; fp = fopen("iris.data", "r"); for(int i=0; i<150; i++) { fscanf(fp, "%f,%f,%f,%f,%s", &data[i][0], &data[i][1], &data[i][2], &data[i][3], label); } fclose(fp); ``` 接下来,我们需要对数据进行归一化处理,使每个特征的均值为0,标准差为1。归一化后的数据可以提高PCA算法的效果。归一化处理的代码如下: ```c float mean[4] = {0, 0, 0, 0}; // 均值 float std_dev[4] = {0, 0, 0, 0}; // 标准差 // 计算均值 for(int i=0; i<4; i++) { for(int j=0; j<150; j++) { mean[i] += data[j][i]; } mean[i] /= 150; } // 计算标准差 for(int i=0; i<4; i++) { for(int j=0; j<150; j++) { std_dev[i] += (data[j][i] - mean[i]) * (data[j][i] - mean[i]); } std_dev[i] = sqrt(std_dev[i] / 149); } // 归一化数据 for(int i=0; i<4; i++) { for(int j=0; j<150; j++) { data[j][i] = (data[j][i] - mean[i]) / std_dev[i]; } } ``` 接下来,我们可以计算数据的协方差矩阵。协方差矩阵可以反映数据之间的相关性,是PCA算法的关键。协方差矩阵的计算代码如下: ```c float cov[4][4] = {0}; // 协方差矩阵 // 计算协方差矩阵 for(int i=0; i<4; i++) { for(int j=0; j<4; j++) { for(int k=0; k<150; k++) { cov[i][j] += (data[k][i] * data[k][j]); } cov[i][j] /= 149; } } ``` 接下来,我们需要对协方差矩阵进行特征值分解,得到每个主成分的特征向量和特征值。特征向量代表每个主成分的方向,特征值代表该方向上的重要程度。特征值越大,代表该方向上的信息量越多,对应的主成分的贡献率也越高。特征值分解的代码如下: ```c float eigenvalues[4]; // 特征值 float eigenvectors[4][4]; // 特征向量 // 计算特征值和特征向量 jacobi(cov, eigenvalues, eigenvectors, 4); // 对特征值从大到小排序 sort_eigenvalues(eigenvalues, eigenvectors, 4); ``` 最后,我们可以根据特征向量和数据计算出每个主成分,并计算每个主成分的贡献率。主成分的计算和贡献率的计算代码如下: ```c float principal_components[4][150]; // 主成分 float contribution_rate[4]; // 贡献率 // 计算主成分 for(int i=0; i<4; i++) { for(int j=0; j<150; j++) { principal_components[i][j] = 0; for(int k=0; k<4; k++) { principal_components[i][j] += eigenvectors[i][k] * data[j][k]; } } } // 计算贡献率 for(int i=0; i<4; i++) { contribution_rate[i] = eigenvalues[i] / (eigenvalues[0] + eigenvalues[1] + eigenvalues[2] + eigenvalues[3]); } ``` 完整的PCA算法代码如下: ```c #include <stdio.h> #include <stdlib.h> #include <math.h> void jacobi(float a[][4], float d[], float v[][4], int n) { int j,iq,ip,i; float tresh,theta,tau,t,sm,s,h,g,c,b[4],z[4]; for(ip=0;ip<n;ip++) { for(iq=0;iq<n;iq++) v[ip][iq]=0.0; v[ip][ip]=1.0; } for(ip=0;ip<n;ip++) { b[ip]=d[ip]=a[ip][ip]; z[ip]=0.0; } for(i=1;i<=50;i++) { sm=0.0; for(ip=0;ip<n-1;ip++) { for(iq=ip+1;iq<n;iq++) sm += fabs(a[ip][iq]); } if(sm == 0.0) { return; } if(i<4) tresh=0.2*sm/(n*n); else tresh=0.0; for(ip=0;ip<n-1;ip++) { for(iq=ip+1;iq<n;iq++) { g=100.0*fabs(a[ip][iq]); if(i > 4 && (float)(fabs(d[ip])+g) == (float)fabs(d[ip]) && (float)(fabs(d[iq])+g) == (float)fabs(d[iq])) { a[ip][iq]=0.0; } else if(fabs(a[ip][iq]) > tresh) { h=d[iq]-d[ip]; if((float)(fabs(h)+g) == (float)fabs(h)) { t=(a[ip][iq])/h; } else { theta=0.5*h/(a[ip][iq]); t=1.0/(fabs(theta)+sqrt(1.0+theta*theta)); if(theta < 0.0) t = -t; } c=1.0/sqrt(1+t*t); s=t*c; tau=s/(1.0+c); h=t*a[ip][iq]; z[ip] -= h; z[iq] += h; d[ip] -= h; d[iq] += h; a[ip][iq]=0.0; for(j=0;j<ip;j++) { ROTATE(a,j,ip,j,iq) } for(j=ip+1;j<iq;j++) { ROTATE(a,ip,j,j,iq) } for(j=iq+1;j<n;j++) { ROTATE(a,ip,j,iq,j) } for(j=0;j<n;j++) { ROTATE(v,j,ip,j,iq) } } } } for(ip=0;ip<n;ip++) { b[ip] += z[ip]; d[ip]=b[ip]; z[ip]=0.0; } } } void sort_eigenvalues(float eigenvalues[], float eigenvectors[][4], int n) { float temp_value; float temp_vector[4]; for(int i=0; i<n-1; i++) { for(int j=i+1; j<n; j++) { if(eigenvalues[j] > eigenvalues[i]) { temp_value = eigenvalues[i]; eigenvalues[i] = eigenvalues[j]; eigenvalues[j] = temp_value; for(int k=0; k<n; k++) { temp_vector[k] = eigenvectors[k][i]; eigenvectors[k][i] = eigenvectors[k][j]; eigenvectors[k][j] = temp_vector[k]; } } } } } int main() { float data[150][4]; // 鸢尾花数据集 FILE *fp; fp = fopen("iris.data", "r"); for(int i=0; i<150; i++) { fscanf(fp, "%f,%f,%f,%f,%s", &data[i][0], &data[i][1], &data[i][2], &data[i][3], label); } fclose(fp); float mean[4] = {0, 0, 0, 0}; // 均值 float std_dev[4] = {0, 0, 0, 0}; // 标准差 // 计算均值 for(int i=0; i<4; i++) { for(int j=0; j<150; j++) { mean[i] += data[j][i]; } mean[i] /= 150; } // 计算标准差 for(int i=0; i<4; i++) { for(int j=0; j<150; j++) { std_dev[i] += (data[j][i] - mean[i]) * (data[j][i] - mean[i]); } std_dev[i] = sqrt(std_dev[i] / 149); } // 归一化数据 for(int i=0; i<4; i++) { for(int j=0; j<150; j++) { data[j][i] = (data[j][i] - mean[i]) / std_dev[i]; } } float cov[4][4] = {0}; // 协方差矩阵 // 计算协方差矩阵 for(int i=0; i<4; i++) { for(int j=0; j<4; j++) { for(int k=0; k<150; k++) { cov[i][j] += (data[k][i] * data[k][j]); } cov[i][j] /= 149; } } float eigenvalues[4]; // 特征值 float eigenvectors[4][4]; // 特征向量 // 计算特征值和特征向量 jacobi(cov, eigenvalues, eigenvectors, 4); // 对特征值从大到小排序 sort_eigenvalues(eigenvalues, eigenvectors, 4); float principal_components[4][150]; // 主成分 float contribution_rate[4]; // 贡献率 // 计算主成分 for(int i=0; i<4; i++) { for(int j=0; j<150; j++) { principal_components[i][j] = 0; for(int k=0; k<4; k++) { principal_components[i][j] += eigenvectors[i][k] * data[j][k]; } } } // 计算贡献率 for(int i=0; i<4; i++) { contribution_rate[i] = eigenvalues[i] / (eigenvalues[0] + eigenvalues[1] + eigenvalues[2] + eigenvalues[3]); } // 输出每个主成分的贡献率 for(int i=0; i<4; i++) { printf("主成分%d的贡献率为:%.2f%%\n", i+1, contribution_rate[i]*100); } return 0; } ```

相关推荐

最新推荐

recommend-type

Python sklearn库实现PCA教程(以鸢尾花分类为例)

我们通过Python的sklearn库来实现鸢尾花数据进行降维,数据本身是4维的降维后变成2维,可以在平面中画出样本点的分布。样本数据结构如下图: 其中样本总数为150,鸢尾花的类别有三种,分别标记为0,1,2 代码 ...
recommend-type

具体介绍sklearn库中:主成分分析(PCA)的参数、属性、方法

文章目录主成分分析(PCA)Sklearn库中PCA一、参数说明(Parameters)二、属性(Attributes)三、方法(Methods)四、示例(Sample)五、参考资料(Reference data) 主成分分析(PCA) 主成分分析(Principal ...
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

用 Python 画一个可以动的爱心

好的,我可以帮助您使用Python来绘制一个动态的爱心。您可以使用turtle库来实现。以下是实现代码: ```python import turtle import math # 设置画布和画笔 canvas = turtle.Screen() canvas.bgcolor("black") pencil = turtle.Turtle() pencil.speed(0) pencil.color("red", "pink") pencil.pensize(3) # 定义爱心函数 def draw_love(heart_size, x_offset=0, y_offset=0):
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依
recommend-type

实现实时监控告警系统:Kafka与Grafana整合

![实现实时监控告警系统:Kafka与Grafana整合](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2pwZy9BVldpY3ladXVDbEZpY1pLWmw2bUVaWXFUcEdLT1VDdkxRSmQxZXB5R1lxaWNlUjA2c0hFek5Qc3FyRktudFF1VDMxQVl3QTRXV2lhSWFRMEFRc0I1cW1ZOGcvNjQw?x-oss-process=image/format,png) # 1.1 Kafka集群架构 Kafka集群由多个称为代理的服务器组成,这
recommend-type

已知n个人(以编号0,1,2,3...n-1分别表示)围坐在一张圆桌周围。从编号为0的人开始报数1,数到m的那个人出列;他的下一个人又从1开始报数,数到m+1的那个人又出列(每次报数值加1);依此规律重复下去,直到圆桌周围的人全部出列。用递归方法解决

这个问题可以使用递归方法解决。下面是一个思路: 1. 定义一个函数,接收三个参数:n、m、i,表示还剩下n个人,每次数到m时出列,当前报数的人是i; 2. 如果n=1,返回i,即最后留下的那个人的编号; 3. 否则,计算出下一个出列的人的编号j,通过递归调用函数解决n-1个人的问题,其结果为k; 4. 如果k < j,即当前i之后出列的人的编号为k,需要将k转换为在i之前出列的编号,返回值为 k+(n-1); 5. 如果k>=j,即当前i之后出列的人的编号为k,返回值为 k-(j-1); 下面是对应的Python代码: ```python def josephus(n, m, i):