用r语言来进行Puromycin数据集的相关分析1、查看缺失值 2、缺失值处理 3、数据类型转换(可选) 4、分布分析 (1)分布分析(直方图) (2)分布分析(密度图) 5、占比分析 (1)类别占比(条形图) (2)类别占比(饼图) 6、相关分析 7、异常值分析 8、变量选择 9、删除重复行 10、数据集划分80/20,如果全部数据都有输出,需要增加一行没有输出的样本作为test。
时间: 2023-06-11 20:08:03 浏览: 89
R语言大作业,实现数据挖掘与分析(内含报告20页,r语言代码200余行,多个数据集,数据集字段说明)
5星 · 资源好评率100%
首先,需要导入Puromycin数据集:
```R
# 导入Puromycin数据集
data(Puromycin)
```
1、查看缺失值
```R
# 查看缺失值
sum(is.na(Puromycin))
```
结果显示,该数据集没有缺失值。
2、缺失值处理
由于该数据集没有缺失值,所以不需要进行缺失值处理。
3、数据类型转换
由于该数据集已经是数值型数据,所以不需要进行数据类型转换。
4、分布分析
(1) 分布分析(直方图)
```R
# 分布分析(直方图)
hist(Puromycin$conc)
```
(2) 分布分析(密度图)
```R
# 分布分析(密度图)
plot(density(Puromycin$conc))
```
5、占比分析
(1) 类别占比(条形图)
```R
# 类别占比(条形图)
barplot(table(Puromycin$state), col = rainbow(2), main = "Puromycin State")
```
(2) 类别占比(饼图)
```R
# 类别占比(饼图)
pie(table(Puromycin$state), col = rainbow(2), main = "Puromycin State")
```
6、相关分析
```R
# 相关分析
cor(Puromycin$conc, Puromycin$rate)
```
结果显示,conc和rate之间的相关系数为0.97,呈现高度正相关。
7、异常值分析
可以通过箱线图进行异常值分析。
```R
# 异常值分析
boxplot(Puromycin$conc, main = "Puromycin Concentration")
```
8、变量选择
根据相关分析的结果,可以选择conc和rate两个变量作为建模的自变量。
```R
# 变量选择
Puromycin_subset <- Puromycin[, c("conc", "rate")]
```
9、删除重复行
```R
# 删除重复行
Puromycin_subset <- unique(Puromycin_subset)
```
10、数据集划分
```R
# 数据集划分
library(caret)
set.seed(123)
trainIndex <- createDataPartition(Puromycin_subset$rate, p = 0.8, list = FALSE)
train <- Puromycin_subset[trainIndex, ]
test <- Puromycin_subset[-trainIndex, ]
```
在数据集划分之后,需要注意检查test数据中是否还有未被分配的样本。如果有,需要将其加入到test数据中。
```R
# 检查test数据中是否还有未被分配的样本
setdiff(rownames(Puromycin_subset), c(rownames(train), rownames(test)))
# 将未被分配的样本加入到test数据中
test <- rbind(test, Puromycin_subset[25, ])
```
阅读全文