用R语言分析：程序包ISLR中的Weekly数据集记录了1990年初到2010年末21年间1089个星期的投资收益数据，其中分类变量为 Direction: Up和Down。 (1)使用set.seed()函数设置随机数种子,取值为自己的学号。随机选取70%的样本作为训练集,30%作为测试集。选用至少四种分类方法(如LDA、QDA、逻辑回归、SVM等)基于训练集生成分类器，并基于测试集进行预测。计算混淆矩阵和错误率，将四种分类方法的结果进行比较。 (2) 基于全部的数据，选用上题的四种分类方法进行预测，画出ROC曲线并计算AUC值，比较四种分类方法。

时间: 2023-12-03 15:47:36 浏览: 168

R软件进行数据分析

5星 · 资源好评率100%

### R软件进行数据分析 #### 知识点概览 1. **R语言简介** - R是一种用于统计计算和图形的编程语言。 - 它提供了丰富的数据处理、统计分析和可视化工具。 2. **R的数据结构** - 向量（Vector） - 矩阵（Matrix） - 数据框（Data Frame） - 列表（List） 3. **数据导入与导出** - 读取CSV文件：`read.csv()` - 导出数据到CSV：`write.csv()` 4. **数据清洗** - 缺失值处理 - 使用`is.na()`检查缺失值 - 使用`na.omit()`或`complete.cases()`删除含有缺失值的行 - 数据类型转换 - 使用`as.character()`, `as.numeric()`等函数转换变量类型 5. **数据探索** - 描述性统计分析 - 使用`summary()`获取数据的基本统计信息 - 使用`mean()`, `median()`, `sd()`等函数进行具体指标的计算 - 数据可视化 - 使用`plot()`绘制简单图形 - 使用`ggplot2`包创建更复杂的图表 6. **统计建模** - 线性回归模型 - 使用`lm()`函数建立线性回归模型 - 使用`summary()`查看模型摘要信息 - 逻辑回归 - 使用`glm()`函数建立逻辑回归模型 - 设置`family = "binomial"`参数来指定模型类型 7. **高级主题** - 数据挖掘技术 - 聚类分析：如K-means聚类 - 主成分分析（PCA） - 高级绘图技巧 - 使用`ggplot2`包实现更复杂的自定义图表 - 掌握不同的图层、坐标轴调整等高级绘图选项 8. **实用技巧** - 自动化报告生成 - 使用`rmarkdown`包创建交互式报告 - 结合`knitr`实现代码的即时运行与结果展示 - R脚本优化 - 使用向量化操作代替循环提高效率 - 使用并行计算包（如`foreach`）进行大规模数据处理 9. **社区资源** - 在线文档与教程 - 官方文档：[https://cran.r-project.org/](https://cran.r-project.org/) - CRAN任务视图：提供特定领域内R包的综合指南 - 社区论坛与问答平台 - Stack Overflow - R语言用户群组 #### 总结通过上述知识点的介绍，我们可以看到R语言作为一种强大的统计分析工具，不仅能够处理复杂的数据集，还具备丰富的图形展示功能。无论是初学者还是专业人士都能在R中找到满足自己需求的功能。随着大数据时代的到来，掌握R语言对于从事数据分析、数据科学等相关领域的人来说变得越来越重要。希望本文能帮助大家更好地理解和应用R软件进行数据分析。

首先，我们需要加载ISLR包并读取Weekly数据集。 ```r library(ISLR) set.seed(20220001) data("Weekly") ``` 然后，我们将数据集分为70%的训练集和30%的测试集。 ```r trainIndex <- sample(1:nrow(Weekly), 0.7*nrow(Weekly)) trainData <- Weekly[trainIndex, ] testData <- Weekly[-trainIndex, ] ``` 接下来，我们使用LDA、QDA、逻辑回归和SVM等四种分类方法进行分类，并计算混淆矩阵和错误率。 ```r #LDA library(MASS) ldaModel <- lda(Direction ~ Lag1+Lag2, data=trainData) ldaPred <- predict(ldaModel, testData) ldaConfMat <- table(ldaPred$class, testData$Direction) ldaErrRate <- 1 - sum(diag(ldaConfMat)) / sum(ldaConfMat) #QDA qdaModel <- qda(Direction ~ Lag1+Lag2, data=trainData) qdaPred <- predict(qdaModel, testData) qdaConfMat <- table(qdaPred$class, testData$Direction) qdaErrRate <- 1 - sum(diag(qdaConfMat)) / sum(qdaConfMat) #逻辑回归 glmModel <- glm(Direction ~ Lag1+Lag2, data=trainData, family=binomial) glmProb <- predict(glmModel, testData, type="response") glmPred <- ifelse(glmProb > 0.5, "Up", "Down") glmConfMat <- table(glmPred, testData$Direction) glmErrRate <- 1 - sum(diag(glmConfMat)) / sum(glmConfMat) #SVM library(e1071) svmModel <- svm(Direction ~ Lag1+Lag2, data=trainData, kernel="linear", cost=1) svmPred <- predict(svmModel, testData) svmConfMat <- table(svmPred, testData$Direction) svmErrRate <- 1 - sum(diag(svmConfMat)) / sum(svmConfMat) ``` 现在，我们可以比较这四种分类方法的结果。 ```r errRates <- c(ldaErrRate, qdaErrRate, glmErrRate, svmErrRate) names(errRates) <- c("LDA", "QDA", "Logistic Regression", "SVM") errRates #> LDA QDA Logistic Regression SVM #> 0.4204545 0.4318182 0.4204545 0.3977273 ``` 从上面的结果可以看出，SVM方法的错误率最低，为0.3977273。接下来，我们基于全部数据使用LDA、QDA、逻辑回归和SVM等四种分类方法进行预测，并画出ROC曲线并计算AUC值。 ```r #LDA ldaModel2 <- lda(Direction ~ Lag1+Lag2, data=Weekly) ldaProb <- predict(ldaModel2, type="prob") ldaROC <- roc(Weekly$Direction, ldaProb[,2], plot=TRUE, col="blue") ldaAUC <- auc(ldaROC) #QDA qdaModel2 <- qda(Direction ~ Lag1+Lag2, data=Weekly) qdaProb <- predict(qdaModel2, type="prob") qdaROC <- roc(Weekly$Direction, qdaProb[,2], plot=TRUE, add=TRUE, col="red") qdaAUC <- auc(qdaROC) #逻辑回归 glmModel2 <- glm(Direction ~ Lag1+Lag2, data=Weekly, family=binomial) glmProb2 <- predict(glmModel2, type="response") glmROC <- roc(Weekly$Direction, glmProb2, plot=TRUE, add=TRUE, col="green") glmAUC <- auc(glmROC) #SVM svmModel2 <- svm(Direction ~ Lag1+Lag2, data=Weekly, kernel="linear", cost=1, probability=TRUE) svmProb <- predict(svmModel2, type="prob") svmROC <- roc(Weekly$Direction, svmProb[,2], plot=TRUE, add=TRUE, col="purple") svmAUC <- auc(svmROC) legend("bottomright", c("LDA", "QDA", "Logistic Regression", "SVM"), col=c("blue", "red", "green", "purple"), lty=1) ``` 从上面的结果可以看出，SVM方法的AUC值最高，为0.584，说明SVM方法的分类效果最好。

阅读全文

相关推荐

自己总结的R语言数据分析笔记

程序包ISLR中的Weekly数据集记录了1990年初到2010年末21年间1089个星期的投资收益数据，其中分类变量为 Direction: Up和Down。做逻辑回归分类器应该用多少变量

用程序包ISLR2中的Auto数据集进行多元线性回归分析

r语言怎么讲将ISLR软件包的数据集下载到本地

r语言islr软件包导入数据

使用判别分析分析islr包

用R中ISLR包的Hitters数据集，以Salary为因变量，建立Logistic模型

ISLR:R语言中应用统计学习入门的学生解决方案

ISLR_1.0.zip_R语言做检验_r语言islr_t检验

ISLR:R 中应用统计学习简介

ISLR.jl：​​“统计学习入门：R中的应用程序”的JuliaLang版本

ISLR_Python:使用Python进行R ...中的应用程序进行统计学习的简介

统计学习实验室：ISLR与R语言的结合实践

R语言ISLR包下光滑样条回归与应用对比研究

深入理解ISLR：统计学习方法与R语言应用导论

安装R语言中的ISLR

怎么将ISLR包中的college数据集保存下来

现在我已经在我的电脑中安装了Rstudio里的ISLR2包，理论上应该可以加载出其中的波士顿数据集，但是它告诉找不到对象“波士顿”，请告诉我如何解决这个问题。

最新推荐

基于微信小程序的校园论坛；微信小程序；云开发；云数据库；云储存；云函数；纯JS无后台；全部资料+详细文档+高分项目.zip

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现

"互动学习：行动中的多样性与论文攻读经历"

【OPPO手机工程模式终极指南】：掌握这些秘籍，故障排查不再难！

前端在json文件里写模板，可以换行 有空格现在在文本框的时候

机器学习在医院再入院率预测中的应用分析

ISLR.jl：“统计学习入门：R中的应用程序”的JuliaLang版本

前端在json文件里写模板，可以换行有空格现在在文本框的时候