用r代码完成读入压缩包 graduate-admissions.zip 中的数据集 “Admission_Predict. csv”, 判断其中是否具有缺失值, 并展示其中前 3 条记录; • 研究学生 GRE 成绩 GRE.Score 与被录取概率 Chance.of.Admit 中间的 关系, 并用文字描述录取概率在 0.8 以上的同学 GRE 成绩有怎样的 表现; • 在上图中添加拟合曲线, 并根据该曲线描述想要使录取率达到 70% 以 上需要考取怎样的 GRE 分数; • 试比较自我陈述 SOP 与推荐信 LOR 在 4.0 以上的同学 GRE 成绩与被 录取率之间的关系, 试说明所画图说明了哪些问题; • 考察变量 GRE.Score, TOEFL.Score, University.Rating, SOP, LOR, CGPA 与 Chance.of.Admit之间的相关关系, 利用 corrplot 函数画出相关关系矩 阵, 并描述图所代表的信息内容.
时间: 2023-12-03 09:43:36 浏览: 23
```r
# 读入数据
library(readr)
data <- read_csv("Admission_Predict.csv")
# 判断是否有缺失值
any(is.na(data))
# 展示前3条记录
head(data, 3)
# 研究 GRE 成绩与录取概率的关系
library(ggplot2)
ggplot(data, aes(x = GRE.Score, y = Chance.of.Admit)) +
geom_point() +
ggtitle("GRE成绩与录取概率的关系") +
xlab("GRE成绩") +
ylab("录取概率") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
# 描述录取概率在0.8以上的同学GRE成绩表现
filter(data, Chance.of.Admit > 0.8) %>%
summarise(avg_GRE = mean(GRE.Score))
# 添加拟合曲线并描述想要使录取率达到70%以上需要考取怎样的GRE分数
fit <- lm(Chance.of.Admit ~ GRE.Score, data)
ggplot(data, aes(x = GRE.Score, y = Chance.of.Admit)) +
geom_point() +
stat_smooth(method = "lm", col = "red") +
ggtitle("GRE成绩与录取概率的关系") +
xlab("GRE成绩") +
ylab("录取概率") +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
summary(fit)
# 根据拟合曲线,想要录取率达到70%以上,需要考取的GRE分数为(0.7-0.2172)/0.0018 = 268.4
# 比较自我陈述SOP与推荐信LOR在4.0以上的同学GRE成绩与录取率之间的关系
ggplot(data, aes(x = GRE.Score, y = Chance.of.Admit)) +
geom_point(aes(color = factor(SOP > 4 & LOR > 4))) +
ggtitle("SOP与LOR在4.0以上与GRE成绩与录取概率的关系") +
xlab("GRE成绩") +
ylab("录取概率") +
scale_color_manual(values = c("red", "blue"), labels = c("否", "是")) +
theme_bw() +
theme(plot.title = element_text(hjust = 0.5))
# 从图中可以看出,SOP和LOR均在4.0以上的同学GRE成绩相对较高,并且录取率也较高,但是并不能看出SOP和LOR在4.0以上是否是影响录取率的重要因素
# 画出相关关系矩阵
library(corrplot)
corrplot(cor(data[, c("GRE.Score", "TOEFL.Score", "University.Rating", "SOP", "LOR", "CGPA", "Chance.of.Admit")]), method = "circle")
# 图中的颜色越深,代表相关系数越大,正相关为红色,负相关为蓝色,从图中可以看出GRE成绩、TOEFL成绩、CGPA与录取概率有较强的正相关关系,而SOP、LOR与录取概率的相关性较弱。