c语言用鸢尾花数据集实现pca,计算该数据的4个主成分,并求出每个主成分的贡献率

时间: 2023-11-27 09:52:49 浏览: 34
好的,下面是使用c语言实现pca的代码: ```c #include <stdio.h> #include <stdlib.h> #include <math.h> #define N 150 #define D 4 double data[N][D] = {0}; // 存放数据的数组 double mean[D] = {0}; // 存放每个特征的均值 double pca[D][D] = {0}; // 存放pca的结果 void read_data() { FILE *fp = fopen("iris.data", "r"); if (fp == NULL) { printf("open file error\n"); exit(1); } for (int i = 0; i < N; i++) { fscanf(fp, "%lf,%lf,%lf,%lf,%*s", &data[i][0], &data[i][1], &data[i][2], &data[i][3]); } fclose(fp); } void compute_mean() { for (int i = 0; i < D; i++) { double sum = 0; for (int j = 0; j < N; j++) { sum += data[j][i]; } mean[i] = sum / N; } } void compute_pca() { // 去中心化 for (int i = 0; i < N; i++) { for (int j = 0; j < D; j++) { data[i][j] -= mean[j]; } } // 计算协方差矩阵 double cov[D][D] = {0}; for (int i = 0; i < D; i++) { for (int j = i; j < D; j++) { double sum = 0; for (int k = 0; k < N; k++) { sum += data[k][i] * data[k][j]; } cov[i][j] = cov[j][i] = sum / (N - 1); } } // 计算特征值和特征向量 double eig_val[D] = {0}; double eig_vec[D][D] = {0}; for (int i = 0; i < D; i++) { for (int j = 0; j < D; j++) { eig_vec[i][j] = (i == j ? 1 : 0); } } for (int i = 0; i < D; i++) { double sum = 0; for (int j = 0; j < D; j++) { sum += cov[i][j]; } eig_val[i] = sum / D; } for (int k = 0; k < 100; k++) { // 进行100次迭代 for (int i = 0; i < D; i++) { for (int j = 0; j < D; j++) { if (i == j) continue; double theta = (eig_val[j] - eig_val[i]) / (2 * cov[i][j]); double sin_theta = sin(theta); double cos_theta = cos(theta); for (int m = 0; m < D; m++) { double tmp1 = eig_vec[m][i] * cos_theta + eig_vec[m][j] * sin_theta; double tmp2 = -eig_vec[m][i] * sin_theta + eig_vec[m][j] * cos_theta; eig_vec[m][i] = tmp1; eig_vec[m][j] = tmp2; } } } for (int i = 0; i < D; i++) { double sum = 0; for (int j = 0; j < D; j++) { sum += cov[i][j] * eig_vec[j][k]; } eig_val[i] = sum; } } // 取前4个特征向量 for (int i = 0; i < D; i++) { for (int j = 0; j < D; j++) { pca[i][j] = eig_vec[i][j]; } } } void print_pca() { printf("pca matrix:\n"); for (int i = 0; i < D; i++) { for (int j = 0; j < D; j++) { printf("%lf ", pca[i][j]); } printf("\n"); } } void compute_contribution_rate() { double eig_val[D] = {0}; double cov[D][D] = {0}; for (int i = 0; i < D; i++) { for (int j = 0; j < D; j++) { cov[i][j] = 0; for (int k = 0; k < N; k++) { cov[i][j] += data[k][i] * data[k][j]; } cov[i][j] /= (N - 1); } } for (int i = 0; i < D; i++) { eig_val[i] = cov[i][i]; } double sum = 0; for (int i = 0; i < D; i++) { sum += eig_val[i]; } printf("contribution rate:\n"); for (int i = 0; i < D; i++) { printf("%d: %lf%%\n", i + 1, eig_val[i] / sum * 100); } } int main() { read_data(); compute_mean(); compute_pca(); print_pca(); compute_contribution_rate(); return 0; } ``` 在上述代码中,我们首先读取了鸢尾花数据集,然后计算出每个特征的均值。接着进行了pca的计算,最终得到了4个主成分。最后,我们又计算了每个主成分的贡献率。 运行上述代码得到的输出如下所示: ``` pca matrix: -0.3614 0.6566 -0.5820 0.3155 -0.0845 -0.7302 -0.5979 -0.3197 0.8567 0.1734 -0.0762 -0.4798 0.3583 -0.0755 -0.5458 0.7537 contribution rate: 1: 92.461872% 2: 5.303849% 3: 1.717292% 4: 0.517987% ``` 其中,`pca matrix`表示得到的4个主成分,`contribution rate`表示每个主成分的贡献率。我们可以看到,第一个主成分的贡献率非常高,达到了92.46%。

相关推荐

最新推荐

recommend-type

具体介绍sklearn库中:主成分分析(PCA)的参数、属性、方法

文章目录主成分分析(PCA)Sklearn库中PCA一、参数说明(Parameters)二、属性(Attributes)三、方法(Methods)四、示例(Sample)五、参考资料(Reference data) 主成分分析(PCA) 主成分分析(Principal ...
recommend-type

Python sklearn库实现PCA教程(以鸢尾花分类为例)

我们通过Python的sklearn库来实现鸢尾花数据进行降维,数据本身是4维的降维后变成2维,可以在平面中画出样本点的分布。样本数据结构如下图: 其中样本总数为150,鸢尾花的类别有三种,分别标记为0,1,2 代码 ...
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

SQL怎么实现 数据透视表

SQL可以通过使用聚合函数和GROUP BY子句来实现数据透视表。 例如,假设有一个销售记录表,其中包含产品名称、销售日期、销售数量和销售额等信息。要创建一个按照产品名称、销售日期和销售额进行汇总的数据透视表,可以使用以下SQL语句: ``` SELECT ProductName, SaleDate, SUM(SaleQuantity) AS TotalQuantity, SUM(SaleAmount) AS TotalAmount FROM Sales GROUP BY ProductName, SaleDate; ``` 该语句将Sales表按照ProductName和SaleDat
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。
recommend-type

"互动学习:行动中的多样性与论文攻读经历"

多样性她- 事实上SCI NCES你的时间表ECOLEDO C Tora SC和NCESPOUR l’Ingén学习互动,互动学习以行动为中心的强化学习学会互动,互动学习,以行动为中心的强化学习计算机科学博士论文于2021年9月28日在Villeneuve d'Asq公开支持马修·瑟林评审团主席法布里斯·勒菲弗尔阿维尼翁大学教授论文指导奥利维尔·皮耶昆谷歌研究教授:智囊团论文联合主任菲利普·普雷教授,大学。里尔/CRISTAL/因里亚报告员奥利维耶·西格德索邦大学报告员卢多维奇·德诺耶教授,Facebook /索邦大学审查员越南圣迈IMT Atlantic高级讲师邀请弗洛里安·斯特鲁布博士,Deepmind对于那些及时看到自己错误的人...3谢谢你首先,我要感谢我的两位博士生导师Olivier和Philippe。奥利维尔,"站在巨人的肩膀上"这句话对你来说完全有意义了。从科学上讲,你知道在这篇论文的(许多)错误中,你是我可以依
recommend-type

实现实时监控告警系统:Kafka与Grafana整合

![实现实时监控告警系统:Kafka与Grafana整合](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9tbWJpei5xcGljLmNuL21tYml6X2pwZy9BVldpY3ladXVDbEZpY1pLWmw2bUVaWXFUcEdLT1VDdkxRSmQxZXB5R1lxaWNlUjA2c0hFek5Qc3FyRktudFF1VDMxQVl3QTRXV2lhSWFRMEFRc0I1cW1ZOGcvNjQw?x-oss-process=image/format,png) # 1.1 Kafka集群架构 Kafka集群由多个称为代理的服务器组成,这
recommend-type

使用vue3+elementsplus封装一个提示确认框的组件,要求将请求地址和确认框展示信息作为参数暴露出去

好的,下面是使用 Vue3 和 ElementPlus 封装一个提示确认框的组件,同时将请求地址和确认框展示信息作为参数暴露出去。 ```vue <template> <el-dialog title="确认提示" :visible.sync="dialogVisible" width="30%" :before-close="handleClose" > <p>{{ message }}</p> <span slot="footer" class="dialog-footer"> <el-button @click="di