##data loading### data <- read.csv("pesticides.csv",header = T) ###Datasets pre-processing#### nzv <- nearZeroVar(data, saveMetrics= TRUE) dim(data) nzv <- nearZeroVar(data) filteredDescr <- data[,-nzv] dim(filteredDescr) head(filteredDescr) write.csv(filteredDescr,"pesticides-nzv.csv") #???ر?��???? newdata <- read.csv("pesticides-nzv.csv",header = T) newdata=filteredDescr[,-662]#delete group descrCor <- cor(newdata) highCorr <- sum(abs(descrCor[upper.tri(descrCor)]) > .999) summary(descrCor[upper.tri(descrCor)]) highlyCorDescr <- findCorrelation(descrCor, cutoff = .75) newdata <- newdata[,-highlyCorDescr] group <- as.matrix(data$group)#merge frame +group finaldata <- as.data.frame(cbind(newdata,group)) write.csv(finaldata,'pesticides-nzvcorr.csv')
时间: 2024-04-07 12:30:29 浏览: 147
对于csv文件的操作
这段R代码是关于数据的加载和预处理:
- 首先使用`read.csv()`函数加载名为"pesticides.csv"的数据集,并将其存储在名为`data`的数据框中。
- 然后使用`nearZeroVar()`函数找到具有近似零方差的变量,并将结果存储在`nzv`中。
- 使用`data[,-nzv]`筛选出不包含近似零方差变量的数据集,并将结果存储在`filteredDescr`中。
- 输出`filteredDescr`的维度和前几行数据,然后使用`write.csv()`函数将其写入名为"pesticides-nzv.csv"的文件中。
- 使用`read.csv()`函数加载名为"pesticides-nzv.csv"的数据集,并将其存储在`newdata`中。
- 使用`filteredDescr[,-662]`删除"filteredDescr"数据框中的第662列(group列)。
- 计算变量之间的相关性,并将结果存储在`descrCor`中。
- 统计相关系数绝对值大于0.999的变量对数,并将结果存储在`highCorr`中。
- 使用`summary()`函数输出`descrCor[upper.tri(descrCor)]`的摘要统计信息。
- 使用`findCorrelation()`函数找到相关系数大于0.75的变量对,并将结果存储在`highlyCorDescr`中。
- 使用`newdata[,-highlyCorDescr]`删除`newdata`数据框中相关系数高于0.75的变量。
- 将`data$group`转换为矩阵,并与`newdata`合并为一个新的数据框`finaldata`。
- 使用`write.csv()`函数将`finaldata`写入名为"pesticides-nzvcorr.csv"的文件中。
以上是对R代码的简要解释,这段代码的具体逻辑和功能可能还需要根据具体数据集和需求进行进一步理解和调整。
阅读全文