用r语言代码进行Puromycin数据集的相关分析:1、查看缺失值 2、缺失值处理 3、数据类型转换(可选) 4、分布分析 (1)分布分析(直方图) (2)分布分析(密度图) 5、占比分析 (1)类别占比(条形图) (2)类别占比(饼图) 6、相关分析 7、异常值分析 8、变量选择 9、删除重复行 10、数据集划分80/20,如果全部数据都有输出,需要增加一行没有输出的样本作为test。
时间: 2023-06-13 20:03:11 浏览: 95
R语言大作业,实现数据挖掘与分析(内含报告20页,r语言代码200余行,多个数据集,数据集字段说明)
5星 · 资源好评率100%
以下是用R语言代码进行Puromycin数据集的相关分析的步骤:
1. 查看缺失值
```R
# 读取数据集
puromycin <- read.csv("Puromycin.csv")
# 查看每个变量的缺失值数量
sapply(puromycin, function(x) sum(is.na(x)))
```
2. 缺失值处理
```R
# 删除有缺失值的行
puromycin <- na.omit(puromycin)
```
3. 数据类型转换
在Puromycin数据集中,所有变量的数据类型都已经正确。
4. 分布分析
(1) 分布分析(直方图)
```R
# 绘制Puromycin数据集中的所有变量的直方图
par(mfrow=c(3,2))
for(i in 1:6) {
hist(puromycin[,i], xlab=names(puromycin[i]), main=paste("Histogram of", names(puromycin[i])))
}
```
(2) 分布分析(密度图)
```R
# 绘制Puromycin数据集中的所有变量的密度图
par(mfrow=c(3,2))
for(i in 1:6) {
plot(density(puromycin[,i]), xlab=names(puromycin[i]), main=paste("Density plot of", names(puromycin[i])))
}
```
5. 占比分析
(1) 类别占比(条形图)
```R
# 统计Puromycin数据集中的类别变量的频数,并绘制条形图
barplot(table(puromycin$state), xlab="State", ylab="Frequency", main="Bar plot of State")
```
(2) 类别占比(饼图)
```R
# 统计Puromycin数据集中的类别变量的频数,并绘制饼图
pie(table(puromycin$state), main="Pie chart of State")
```
6. 相关分析
```R
# 计算Puromycin数据集中所有变量之间的相关系数
cor(puromycin)
```
7. 异常值分析
```R
# 绘制Puromycin数据集中每个变量的箱线图
par(mfrow=c(3,2))
for(i in 1:6) {
boxplot(puromycin[,i], xlab=names(puromycin[i]), main=paste("Boxplot of", names(puromycin[i])))
}
```
8. 变量选择
根据相关系数矩阵的结果,可以看出Puromycin数据集中的两个变量conc和rate之间有很强的线性相关性,可以选择其中一个变量进行分析。
9. 删除重复行
```R
# 删除Puromycin数据集中的重复行
puromycin <- puromycin[!duplicated(puromycin),]
```
10. 数据集划分80/20,如果全部数据都有输出,需要增加一行没有输出的样本作为test。
```R
# 将Puromycin数据集划分为训练集和测试集
set.seed(123)
train_index <- sample(nrow(puromycin), 0.8*nrow(puromycin))
train <- puromycin[train_index,]
test <- puromycin[-train_index,]
```
阅读全文