在运行以下R代码时：library(glmnet) library(ggplot2) # 生成5030的随机数据和30个变量 set.seed(1111) n <- 50 p <- 30 X <- matrix(runif(n * p), n, p) y <- rnorm(n) # 生成三组不同系数的线性模型 beta1 <- c(rep(1, 3), rep(0, p - 3)) beta2 <- c(rep(0, 10), rep(1, 3), rep(0, p - 13)) beta3 <- c(rep(0, 20), rep(1, 3), rep(0, p - 23)) y1 <- X %% beta1 + rnorm(n) y2 <- X %% beta2 + rnorm(n) y3 <- X %% beta3 + rnorm(n) # 设置交叉验证折数 k <- 10 # 设置不同的lambda值 lambda_seq <- 10^seq(10, -2, length.out = 100) # 执行交叉验证和岭回归，并记录CV error和Prediction error cv_error <- list() pred_error <- list() for (i in 1:3) { # 交叉验证 cvfit <- cv.glmnet(X, switch(i, y1, y2, y3), alpha = 0, lambda = lambda_seq, nfolds = k) cv_error[[i]] <- cvfit$cvm # 岭回归 fit <- glmnet(X, switch(i, y1, y2, y3), alpha = 0, lambda = lambda_seq) pred_error[[i]] <- apply(X, 2, function(x) { x_mat <- matrix(x, nrow = n, ncol = p, byrow = TRUE) pred <- predict(fit, newx = x_mat) pred <- t(pred) # 转置 mean((x_mat %% fit$beta - switch(i, y1, y2, y3))^2, na.rm = TRUE) # 修改此处 }) } # 绘制图形 par(mfrow = c(3, 2), mar = c(4, 4, 2, 1), oma = c(0, 0, 2, 0)) for (i in 1:3) { # CV error plot cv_plot_data <- cv_error[[i]] plot(log10(lambda_seq), cv_plot_data, type = "l", xlab = expression(log10), ylab = "CV error", main = paste0("Model ", i)) abline(v = log10(cvfit$lambda.min), col = "red") # Prediction error plot pred_plot_data <- pred_error[[i]] plot(log10(lambda_seq), pred_plot_data, type = "l", xlab = expression(log10), ylab = "Prediction error", main = paste0("Model ", i)) abline(v = log10(lambda_seq[which.min(pred_plot_data)]), col = "red") }。发生以下错误：Error in h(simpleError(msg, call)) : 在为'mean'函数选择方法时评估'x'参数出了错: non-conformable arguments 。请对原代码进行修正

时间: 2023-09-22 17:06:40 浏览: 152

PDF

一个简单的R语言数据分析案例.pdf

在R语言中，数据分析可以涵盖广泛的领域，包括描述性统计、探索性数据分析、假设检验、数据可视化、机器学习等。以下是一个简单的R语言数据分析案例，该案例将涵盖数据导入、数据清洗、描述性统计、数据可视化以及一个简单的预测模型。案例：预测房价假设我们有一个关于房价的数据集，其中包含房屋的面积、卧室数量、浴室数量、楼层、房屋类型等信息以及房价。我们的目标是使用这些特征来预测房价。在R语言中，数据分析可以涵盖广泛的领域，包括描述性统计、探索性数据分析、假设检验、数据可视化、机器学习等。以下是一个简单的R语言数据分析案例，该案例将涵盖数据导入、数据清洗、描述性统计、数据可视化以及一个简单的预测模型。案例：预测房价假设我们有一个关于房价的数据集，其中包含房屋的面积、卧室数量、浴室数量、楼层、房屋类型等信息以及房价。我们的目标是使用这些特征来预测房价。在R语言中，数据分析可以涵盖广泛的领域，包括描述性统计、探索性数据分析、假设检验、数据可视化、机器学习等。以下是一个简单的R语言数据分析案例，该案例将涵盖数据导入、数据清洗、描述性统计、数据可视化以及一个简单的预测模型。案例：预测房价假设 ### R语言中的简单房价预测案例分析 #### 一、引言在当今的数据科学领域，R语言因其强大的统计计算能力和丰富的图形展示功能而备受青睐。本文将以“一个简单的R语言数据分析案例”为基础，深入探讨如何利用R语言进行房价预测。案例涵盖了数据导入、数据清洗、描述性统计分析、数据可视化及构建预测模型等多个方面，旨在为读者提供一套完整的数据分析流程参考。 #### 二、案例背景本案例的目标是基于一系列房屋属性（如面积、卧室数量、浴室数量、楼层和房屋类型等），预测房价。通过对数据进行细致处理和分析，可以更好地理解和预测市场趋势，为房地产行业的决策提供支持。 #### 三、数据导入我们需要将数据集导入到R环境中。通常情况下，数据会被存储在CSV文件中。使用`read.csv()`函数可以轻松实现数据导入： ```r # 导入数据 data <- read.csv("house_prices.csv") # 查看数据的前几行 head(data) ``` 通过上述代码，我们可以快速加载数据，并初步了解数据的基本结构和内容。 #### 四、数据清洗数据清洗是任何数据分析项目的重要组成部分。它有助于提高数据的质量，从而确保后续分析的有效性。数据清洗步骤通常包括： - **处理缺失值**：缺失值可能会导致分析结果失真。本案例采用使用均值填充数值型特征的缺失值的方法。 ```r data$area[is.na(data$area)] <- mean(data$area, na.rm = TRUE) ``` - **转换分类变量**：分类变量需要被转换成数值型，以便于进一步分析。例如，可以通过独热编码或标签编码等方式进行转换。 ```r # 假设楼层是一个分类变量，将其转换为数值型 data$floor <- as.numeric(as.factor(data$floor)) ``` - **删除不必要的列**：有时，某些列对于预测目标没有帮助，甚至会引入噪声。因此，可以考虑删除这些列。 #### 五、描述性统计描述性统计分析能够帮助我们了解数据的基本特征，如均值、中位数、标准差等。这些信息对于识别数据分布模式非常重要。 ```r # 计算数值型特征的描述性统计信息 summary(data[sapply(data, is.numeric)]) # 对于分类变量，可以使用表格来查看分布 table(data$house_type) ``` #### 六、数据可视化数据可视化是一种强大的工具，能够帮助我们直观地理解数据。通过绘制图表，可以更容易地发现数据之间的关系和趋势。 ```r # 绘制房价与面积的关系图 plot(data$area, data$price, xlab = "Area (sq ft)", ylab = "Price ($)", main = "Price vs Area") # 使用箱线图查看不同房屋类型的价格分布 boxplot(price ~ house_type, data = data, main = "Price Distribution by House Type", xlab = "House Type", ylab = "Price ($)") ``` #### 七、构建预测模型最后一步是构建预测模型。本案例采用简单的线性回归模型来进行房价预测。 ```r # 分离特征和目标变量 X <- data[, !(names(data) %in% "price")] y <- data$price # 划分训练集和测试集 set.seed(123) # 设置随机种子以便结果可复现 train_idx <- sample(1:nrow(data), 0.7 * nrow(data)) train_data <- data[train_idx, ] test_data <- data[-train_idx, ] # 在训练集上训练线性回归模型 library(stats) model <- lm(price ~ ., data = train_data) # 查看模型摘要 summary(model) # 在测试集上进行预测并评估模型性能 predictions <- predict(model, newdata = test_data) mse <- mean((predictions - test_data$price)^2) print(paste("Mean Squared Error:", mse)) ``` #### 八、结论通过以上步骤，我们完成了从数据导入到构建预测模型的全过程。这个案例不仅展示了R语言在数据分析方面的强大功能，还提供了实践操作的具体指南。在实际应用中，可以根据具体需求调整数据处理方法和建模策略，以获得更好的预测效果。

这段代码中有一个问题，即在计算预测误差时，矩阵相乘的维度不匹配，需要进行修正。以下是修正后的代码： ```r library(glmnet) library(ggplot2) # 生成5030的随机数据和30个变量 set.seed(1111) n <- 50 p <- 30 X <- matrix(runif(n * p), n, p) y <- rnorm(n) # 生成三组不同系数的线性模型 beta1 <- c(rep(1, 3), rep(0, p - 3)) beta2 <- c(rep(0, 10), rep(1, 3), rep(0, p - 13)) beta3 <- c(rep(0, 20), rep(1, 3), rep(0, p - 23)) y1 <- X %*% beta1 + rnorm(n) y2 <- X %*% beta2 + rnorm(n) y3 <- X %*% beta3 + rnorm(n) # 设置交叉验证折数 k <- 10 # 设置不同的lambda值 lambda_seq <- 10^seq(10, -2, length.out = 100) # 执行交叉验证和岭回归，并记录CV error和Prediction error cv_error <- list() pred_error <- list() for (i in 1:3) { # 交叉验证 cvfit <- cv.glmnet(X, switch(i, y1, y2, y3), alpha = 0, lambda = lambda_seq, nfolds = k) cv_error[[i]] <- cvfit$cvm # 岭回归 fit <- glmnet(X, switch(i, y1, y2, y3), alpha = 0, lambda = lambda_seq) pred_error[[i]] <- apply(X, 2, function(x) { x_mat <- matrix(x, nrow = n, ncol = p, byrow = TRUE) pred <- predict(fit, newx = x_mat) pred <- t(pred) mean((x_mat %*% fit$beta - switch(i, y1, y2, y3))^2) }) } # 绘制图形 par(mfrow = c(3, 2), mar = c(4, 4, 2, 1), oma = c(0, 0, 2, 0)) for (i in 1:3) { # CV error plot cv_plot_data <- cv_error[[i]] plot(log10(lambda_seq), cv_plot_data, type = "l", xlab = expression(log10), ylab = "CV error", main = paste0("Model ", i)) abline(v = log10(cvfit$lambda.min), col = "red") # Prediction error plot pred_plot_data <- pred_error[[i]] plot(log10(lambda_seq), pred_plot_data, type = "l", xlab = expression(log10), ylab = "Prediction error", main = paste0("Model ", i)) abline(v = log10(lambda_seq[which.min(pred_plot_data)]), col = "red") } ``` 修正后的代码中主要是将 `%%` 运算符改为 `%*%`，使得矩阵相乘的维度匹配。此外，还对 `mean` 函数的参数进行了修改。

阅读全文

相关推荐

CSDN会员

开通CSDN年卡参与万元壕礼抽奖

海量 VIP免费资源千本正版电子书商城会员专享价千门课程&专栏

全年可省5,000元立即开通