用R语言编写分别对原始数据和标准化数据做主成分分析。要求结果给出特征值,特征向量,方差贡献率和累积方差贡献率,并画出碎石图。根据累计方差贡献率和碎石图,适当的选取主成分个数,注意不用R当中的内置函数
时间: 2024-02-09 14:11:35 浏览: 78
好的,我明白了。首先需要准备一个数据集,这里我简单模拟一个数据集。
```r
set.seed(123)
data <- data.frame(x1 = rnorm(100), x2 = rnorm(100), x3 = rnorm(100))
```
接着,我们需要对数据进行标准化处理。
```r
data_std <- apply(data, 2, function(x) (x - mean(x)) / sd(x))
```
然后,我们可以开始进行主成分分析。由于要自己编写函数,这里我采用最简单的计算方式,即直接计算协方差矩阵。
```r
pca <- function(data) {
cov_mat <- cov(data)
eigen_res <- eigen(cov_mat)
eigenvalues <- eigen_res$values
eigenvectors <- eigen_res$vectors
total_var <- sum(eigenvalues)
var_contrib <- eigenvalues / total_var
cum_var_contrib <- cumsum(var_contrib)
return(list(eigenvalues = eigenvalues,
eigenvectors = eigenvectors,
var_contrib = var_contrib,
cum_var_contrib = cum_var_contrib))
}
# 对原始数据进行主成分分析
pca_res <- pca(data)
pca_res$eigenvalues # 特征值
pca_res$eigenvectors # 特征向量
pca_res$var_contrib # 方差贡献率
pca_res$cum_var_contrib # 累积方差贡献率
```
接下来,我们可以画出碎石图。
```r
library(ggplot2)
library(reshape2)
df <- data.frame(PC = 1:length(pca_res$eigenvalues),
Eigenvalue = pca_res$eigenvalues,
Cumulative_Contribution = pca_res$cum_var_contrib)
df_long <- melt(df, id.vars = "PC", variable.name = "Measure", value.name = "Value")
ggplot(df_long, aes(x = PC, y = Value, color = Measure)) +
geom_line() +
geom_point() +
scale_x_continuous(breaks = 1:length(pca_res$eigenvalues)) +
labs(title = "Scree plot",
x = "Principal Component",
y = "Measure Value",
color = "Measure")
```
最后,我们需要根据累积方差贡献率和碎石图选择适当的主成分个数。这里我简单地选择累积方差贡献率大于85%的主成分个数作为最终的主成分个数。
```r
n_pc <- which(pca_res$cum_var_contrib > 0.85)[1]
n_pc
```
这样,我们就完成了用R语言编写主成分分析的任务。
阅读全文