Python如何做主成分分析

时间: 2024-07-06 11:01:34 浏览: 137
在Python中,主成分分析(Principal Component Analysis, PCA)是一种常用的数据降维和特征提取方法。PCA通过线性变换将原始数据转换为一组新的正交特征,这些特征按照方差从大到小排序,即第一主成分保留了原数据中最多的方差,后续的主成分依次递减。 使用Python进行PCA,你可以使用`sklearn`库中的`PCA`类。以下是一个简单的步骤指南: 1. 导入所需的库: ```python from sklearn.decomposition import PCA import numpy as np import pandas as pd ``` 2. 加载或准备数据集(假设你有一个名为df的DataFrame): ```python data = df.values # 将DataFrame转换为数值数组 ``` 3. 创建PCA对象并指定参数(可选,如保留特定数量的主成分): ```python pca = PCA(n_components=2) # 保留前两个主成分 ``` 4. 进行主成分分析: ```python principal_components = pca.fit_transform(data) ``` 这里`fit_transform()`方法同时执行了拟合(找到数据的主要方向)和转换(投影到新坐标系)。 5. 结果处理: - `principal_components`是一个二维数组,每一行代表一个样本在主成分空间的坐标。 - `explained_variance_ratio_`属性包含了每个主成分解释原始数据方差的比例。 - 可以用`pca.components_`查看主成分的权重矩阵,每个列对应一个主成分。

相关推荐

用这组数据做主成分分析:农民人均生活消费支出 农民人均收入 食品 17572 24357 6323 14271 17277 5524 13384 18352 4421 12775 16531 5076 14538 18249 5285 13992 17735 5084 11021 13127 4163 13790 16358 5402 13008 16450 4956 13724 16728 4890 12023 15027 4833 14801 18177 5274 13418 16999 5158 12523 16445 4502 11536 15504 4437 12189 14586 4223 11090 13232 4565 13324 17592 4678 12862 14252 5273 9389 12808 5062 10327 13907 4250 15977 22135 5841 12716 15692 5208 12478 16708 4094 11399 14983 4690 12944 16583 4528 12676 16101 4735 9934 11854 3875 12417 14844 4799 11736 14908 4508 12309 15173 4611 11077 13583 4591 13121 16563 4923 12066 15391 4757 11418 14931 4273 10188 14055 4169 11117 13242 3887 10155 12002 4413 12255 16007 4361 11726 12893 5000 8537 11555 4683 9333 12548 4042 18501 26432 6749 14742 18788 5560 14293 19938 4727 13631 18035 5455 14762 19790 5169 15038 19303 5507 12083 14367 4560 14772 17815 5997 14076 17918 5584 14837 18175 5270 13075 16431 4856 15314 19730 5894 14606 18569 5658 13539 17867 4824 12496 16876 4836 13212 15890 4761 12023 14429 4844 13705 19076 5164 12162 15539 4634 9868 13967 4546 11289 15232 4578 20460 29126 7335 16266 20694 6004 15688 21979 5156 15225 20008 5970 16391 21858 5766 16624 21340 5925 13309 15925 4930 16239 19727 6257 15544 19819 6113 16558 20043 5800 14656 18247 5278 16960 21771 6310 16302 20591 6111 15004 19752 5321 13893 18638 5266 14691 17580 5206 13346 15962 5308 15034 21023 5421 13199 17161 4858 10784 15379 4883 12444 16808 4962 14616 20298 5444 11790 14380 4820 11807 15336 4422 10573 13670 4462 11909 15207 4553 11638 14752 4414 8958 10801 3636 11342 13579 4625 10681 13640 4249 11241 13927 4404 10296 12389 4306 12407 15203 4647 11160 14063 4570 10593 13655 4040 9261 12843 3928 10202 12145 3787 9327 10946 4359 11261 14670 4022 10590 11751 4520 7758 10444 4378 8734 11415 3886

import pandas as pd import numpy as np from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt # 读取数据 data = pd.read_csv('D:\\pythonProject\\venv\\BostonHousing2.csv') # 提取前13个指标的数据 X = data.iloc[:, 5:18].values # 数据标准化 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 主成分分析 pca = PCA() X_pca = pca.fit_transform(X_scaled) # 特征值和特征向量 eigenvalues = pca.explained_variance_ eigenvectors = pca.components_.T # 碎石图 # variance_explained我给你放到下一个cell里面了,这里用eigenvalues代替variance_explained plt.plot(range(1, 14), eigenvalues, marker='o') plt.xlabel('Number of Components') plt.ylabel('Cumulative Proportion of Variance Explained') plt.title('Scree Plot') plt.show() # 选择主成分个数 variance_explained = np.cumsum(eigenvalues / np.sum(eigenvalues)) n_components = np.sum(variance_explained <= 0.95) + 1 # 前2个主成分的载荷图 loadings = pd.DataFrame(eigenvectors[:, 0:2], columns=['PC1', 'PC2'], index=data.columns[0:13]) plt.figure(figsize=(10, 6)) plt.scatter(loadings['PC1'], loadings['PC2'], alpha=0.7) for i, feature in enumerate(loadings.index): plt.text(loadings['PC1'][i], loadings['PC2'][i], feature) plt.xlabel('PC1') plt.ylabel('PC2') plt.title('Loading Plot') plt.grid() plt.show() # 主成分得分图 scores = pd.DataFrame(X_pca[:, 0:n_components], columns=['PC{}'.format(i+1) for i in range(n_components)]) plt.figure(figsize=(10, 6)) plt.scatter(scores['PC1'], scores['PC2'], alpha=0.7) for i, label in enumerate(data['medv']): plt.text(scores['PC1'][i], scores['PC2'][i], label) plt.xlabel('PC1') plt.ylabel('PC2') plt.title('Scores Plot') plt.grid() plt.show() # 综合评估和排序 data['PC1_score'] = X_pca[:, 0] sorted_data = data.sort_values(by='PC1_score') # 主成分回归模型 from sklearn.linear_model import LinearRegression Y = data['medv'].values.reshape(-1, 1) X_pca_regression = X_pca[:, 0].reshape(-1, 1) regression_model = LinearRegression() regression_model.fit(X_pca_regression, Y) # 回归方程 intercept = regression_model.intercept_[0] slope = regression_model.coef_[0][0] equation = "medv = {:.2f} + {:.2f} * PC1".format(intercept, slope) print("Regression Equation:", equation) # 最小二乘估计结果 from statsmodels.api import OLS X_const = np.concatenate((np.ones((506, 1)), X_pca_regression), axis=1) ols_model = OLS(Y, X_const).fit() print("OLS Regression Summary:") print(ols_model.summary())

最新推荐

recommend-type

5153-微信小程序个人日程安排微信小程序的实现+ssm(源码+数据库+lun文).zip

本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。
recommend-type

旅行智能推荐系统.zip

本项目旨在开发一个智能旅行推荐系统。该系统利用Yelp数据集,采用混合的内容推荐和协同过滤方法为用户提供个性化的旅行建议。通过整合React前端和fla后sk端技术,系统提供了一个无缝的用户体验,能够分析用户偏好和行为,并根据这些信息进行定制化的推荐。此外,该系统具有适应性,随着用户交互的持续进行,能够不断完善推荐结果。整体而言,这是一个结合了先进推荐算法和现代化Web技术的先进项目,旨在为用户提供更加智能和个性化的旅行建议。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
recommend-type

自己整理的Ansible 自动化运维实战笔记分享给需要的同学.zip

自己整理的Ansible 自动化运维实战笔记分享给需要的同学.zip
recommend-type

基于 Flask 和 Stripe 的图书购买系统.zip

这是一个使用 Flask 和 Stripe 元素构建的电子商务应用程序样本。该项目旨在实现图书购买功能,并通过集成 Stripe 来完成支付流程。项目采用了 Flask 轻量化 Web 框架,利用 Werkzeug 和 WSGI 提供了许多实用功能。该项目通过使用 HTML 渲染和简单的 API 调用实现基本功能。为了完成此项目,需要替换 Stripe 的秘钥和发布密钥。运行服务器后,可以浏览到本地站点,并在其中完成图书购买和支付流程。Stripe API 调用的测试需要添加书籍并完成结账流程。此外,该项目还面临了一些挑战,如集成 Stripe Elements 和实现服务器端 API 调用的数据访问对象模式等。尽管此项目为简化版,但它提供了一个在真实环境中实现电子商务网站的初步框架,为进一步的扩展和改进奠定了基础。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
recommend-type

5208-微信小程序校园约拍微信小程序设计与实现ssm(源码+数据库+lun文).zip

本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。本系统主要针对计算机相关专业的正在做毕业设计的学生和需要项目实战练习的学习者,可作为毕业设计、课程设计、期末大作业。
recommend-type

C++多态实现机制详解:虚函数与早期绑定

C++多态性实现机制是面向对象编程的重要特性,它允许在运行时根据对象的实际类型动态地调用相应的方法。本文主要关注于虚函数的使用,这是实现多态的关键技术之一。虚函数在基类中声明并被标记为virtual,当派生类重写该函数时,基类的指针或引用可以正确地调用派生类的版本。 在例1-1中,尽管定义了fish类,但基类animal中的breathe()方法并未被声明为虚函数。因此,当我们创建一个fish对象fh,并将其地址赋值给animal类型的指针pAn时,编译器在编译阶段就已经确定了函数的调用地址,这就是早期绑定。这意味着pAn指向的是animal类型的对象,所以调用的是animal类的breathe()函数,而不是fish类的版本,输出结果自然为"animalbreathe"。 要实现多态性,需要在基类中将至少一个成员函数声明为虚函数。这样,即使通过基类指针调用,也能根据实际对象的类型动态调用相应的重载版本。在C++中,使用关键字virtual来声明虚函数,如`virtual void breathe();`。如果在派生类中重写了这个函数,例如在fish类中定义`virtual void breathe() { cout << "fishbubble" << endl; }`,那么即使使用animal类型的指针,也能调用到fish类的breathe()方法。 内存模型的角度来看,当一个派生类对象被赋值给基类指针时,基类指针只存储了派生类对象的基类部分的地址。因此,即使进行类型转换,也只是访问基类的公共成员,而不会访问派生类特有的私有或保护成员。这就解释了为什么即使指针指向的是fish对象,调用的还是animal的breathe()函数。 总结来说,C++多态性是通过虚函数和早期/晚期绑定来实现的。理解这两个概念对于编写可扩展和灵活的代码至关重要。在设计程序时,合理使用多态能够提高代码的复用性和可维护性,使得程序结构更加模块化。通过虚函数,可以在不改变接口的情况下,让基类指针动态调用不同类型的子类对象上的同名方法,从而展现C++强大的继承和封装特性。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

Parallelization Techniques for Matlab Autocorrelation Function: Enhancing Efficiency in Big Data Analysis

# 1. Introduction to Matlab Autocorrelation Function The autocorrelation function is a vital analytical tool in time-domain signal processing, capable of measuring the similarity of a signal with itself at varying time lags. In Matlab, the autocorrelation function can be calculated using the `xcorr
recommend-type

matlab处理nc文件,nc文件是1979-2020年的全球降雨数据,获取一个省份区域内的日降雨量,代码怎么写

在MATLAB中处理`.nc`(NetCDF)文件通常需要使用`netcdf`函数库,它是一个用于读写多种科学数据格式的工具。对于全球降雨数据,你可以按照以下步骤编写代码: 1. 安装必要的库(如果还没有安装): ```matlab % 如果你尚未安装 netcdf 包,可以安装如下: if ~exist('netcdf', 'dir') disp('Installing the NetCDF toolbox...') addpath(genpath(fullfile(matlabroot,'toolbox','nco'))); end ``` 2. 加载nc文件并查看其结
recommend-type

Java多线程与异常处理详解

"Java多线程与进程调度是编程领域中的重要概念,尤其是在Java语言中。多线程允许程序同时执行多个任务,提高系统的效率和响应速度。Java通过Thread类和相关的同步原语支持多线程编程,而进程则是程序的一次执行实例,拥有独立的数据区域。线程作为进程内的执行单元,共享同一地址空间,减少了通信成本。多线程在单CPU系统中通过时间片轮转实现逻辑上的并发执行,而在多CPU系统中则能实现真正的并行。 在Java中,异常处理是保证程序健壮性的重要机制。异常是程序运行时发生的错误,通过捕获和处理异常,可以确保程序在遇到问题时能够优雅地恢复或终止,而不是崩溃。Java的异常处理机制使用try-catch-finally语句块来捕获和处理异常,提供了更高级的异常类型以及finally块确保关键代码的执行。 Jdb是Java的调试工具,特别适合调试多线程程序。它允许开发者设置断点,查看变量状态,单步执行代码,从而帮助定位和解决问题。在多线程环境中,理解线程的生命周期和状态(如新建、运行、阻塞、等待、结束)以及如何控制线程的执行顺序和同步是至关重要的。 Java的多线程支持包括Thread类和Runnable接口。通过继承Thread类或者实现Runnable接口,用户可以创建自己的线程。线程间同步是多线程编程中的一大挑战,Java提供了synchronized关键字、wait()、notify()和notifyAll()等方法来解决这个问题,防止数据竞争和死锁的发生。 在实际应用中,多线程常用于网络编程、数据库访问、GUI应用程序(如Swing或JavaFX)的事件处理、服务器端的并发处理等场景。例如,一个Web服务器可能需要同时处理多个客户端请求,这时使用多线程可以显著提升性能。此外,多线程在动画制作、游戏开发、多媒体应用等领域也发挥着重要作用,因为它允许同时处理渲染、计算和用户交互等多个任务。 Java的多线程与进程调度是构建高效、健壮应用的基础,而异常处理则提升了程序的稳定性。通过深入理解和熟练运用这些概念,开发者可以创建出更加灵活和可靠的软件系统。"