LogModel<-glm(y~.,data=newData,family=binomial(link="logit")) LogFit<-predict(object=LogModel,newdata=Data,type="response") Data$Log.scores<-LogFit library("ROCR") par(mfrow=c(2,2)) pd<-prediction(Data$Log.scores,Data$y) pf1<-performance(pd,measure="rec",x.measure="rpp") pf2<-performance(pd,measure="prec",x.measure="rec") plot(pf1,main="模式甄别的累计回溯精度曲线") plot(pf2,main="模式甄别的决策精度和回溯精度曲线") Data.Sort<-Data[order(x=Data$Log.scores,decreasing=TRUE),] P<-0.30 N<-length(Data[,1]) NoiseP<-head(Data.Sort,trunc(N*P)) colP<-ifelse(1:N %in% rownames(NoiseP),2,1) plot(Data[,1:2],main="SMOTE处理后的模式甄别结果(30%)",xlab="x1",ylab="x2",pch=as.integer(as.vector(Data[,3]))+1,cex=0.8,col=colP) LogModel<-glm(y~.,data=Data,family=binomial(link="logit")) LogFit<-predict(object=LogModel,newdata=Data,type="response") Data$Log.scores<-LogFit Data.Sort<-Data[order(x=Data$Log.scores,decreasing=TRUE),] NoiseP<-head(Data.Sort,trunc(N*P)) colP<-ifelse(1:N %in% rownames(NoiseP),2,1) plot(Data[,1:2],main="平衡化处理前的模式甄别结果(30%)",xlab="x1",ylab="x2",pch=as.integer(as.vector(Data[,3]))+1,cex=0.8,col=colP)
时间: 2023-06-18 18:08:40 浏览: 42
这段代码使用了逻辑回归模型(Logistic Regression)来进行二分类问题的预测。首先使用glm函数来创建逻辑回归模型(LogModel),然后使用predict函数来预测数据集(Data)的输出(LogFit),并将预测值保存在数据集(Data)的Log.scores列中。接下来使用ROCR包来创建累计回溯精度曲线(pf1)和决策精度和回溯精度曲线(pf2)。然后按照预测值从高到低对数据集(Data)进行排序(Data.Sort),并将预测值最高的30%数据点作为噪声点(NoiseP)。使用ifelse函数将噪声点的颜色设置为红色(2),其他点的颜色设置为蓝色(1),并将颜色信息保存在colP中。最后使用plot函数将处理后的数据集(Data)可视化,展示了噪声点过滤前后的模式甄别结果。
相关问题
Data<-read.table(file="模式甄别模拟数据3.txt",header=TRUE,sep=",") par(mfrow=c(2,2)) plot(Data[,1:2],main="样本观测点的分布",xlab="x1",ylab="x2",pch=Data[,3]+1,cex=0.8) library("DMwR2") library("sem") Data[which(Data[,3]==3),3]<-NA Data$y<-factor(Data$y) mySelfT<-function(ModelName,TestD) { Yheat<-predict(object=ModelName,newdata=TestD,type="response") return(data.frame(cl=ifelse(Yheat>=0.1,1,0),pheat=Yheat)) } library("lavaan") library("semPlot") library("semTools") SemiT<-SelfTrain(y~.,data=Data,'glm',learner.pars=list(family=binomial(link="logit")),pred="mySelfT",thrConf=0.02,maxIts=100,percFull=1) SemiP<-predict(object=SemiT,newdata=Data,type="response") Data$SemiP<-SemiP Data.Sort<-Data[order(x=Data$SemiP,decreasing=TRUE),] P<-0.30 N<-length(Data[,1]) NoiseP<-head(Data.Sort,trunc(N*P)) colP<-ifelse(1:N %in% rownames(NoiseP),2,1) a<-as.integer(as.vector(Data[,3])) plot(Data[,1:2],main="自训练模式甄别结果(30%)",xlab="x1",ylab="x2",pch=ifelse(is.na(a),3,a)+1,cex=0.8,col=colP)
这是一段 R 语言代码,主要是对模拟数据进行了一些分析和可视化。具体来说,它读取了一个名为“模式甄别模拟数据3.txt”的数据文件,然后对数据进行了绘图和模型训练。
在绘图方面,它使用了“plot”函数将数据的前两列(即“x1”和“x2”)进行了散点图绘制,其中点的颜色和大小由第三列数据(即“Data[,3]”)决定。
在模型训练方面,它使用了“SelfTrain”函数对数据进行了自训练模式甄别。具体来说,它首先将第三列数据中数值为3的行设置为缺失值(即NA),然后将数据分为训练集和测试集。接着,它使用“glm”函数训练了一个逻辑回归模型,并将其作为参数传递给“SelfTrain”函数。在训练过程中,它使用了“mySelfT”函数作为预测函数,并将其作为参数传递给“SelfTrain”函数。最后,它使用“predict”函数对训练集进行预测,并将结果保存在“SemiP”变量中。
最后,它将数据按照“SemiP”变量的值进行排序,并选择前30%的数据作为噪声数据,并将噪声数据的点颜色设置为红色。最终,它使用“plot”函数将带有噪声数据的散点图进行了绘制。
for(i in 1:2000){ train<- aa[ folds[[i]],] #folds[[i]]作为测试集 test <- aa[-folds[[i]],] #剩下的数据作为训练集 model<- glm(Y~maleage+HQEFR,family = binomial(link=logit), data=train) model_pre<-predict(model,type='response', newdata=test) auc_value<- append(auc_value,as.numeric(auc(as.numeric(test[,1]),model_pre))) }这段代码报错Error in auc(as.numeric(test[, 1]), model_pre) : 'list' object cannot be coerced to type 'double'
这个错误通常是由于预测结果的格式不正确导致的。在你的代码中,`test`是一个数据框(data frame),而`auc`函数要求的是一个数值型向量。
要解决这个问题,你可以将`test[, 1]`的数据类型转换为数值型向量。你可以使用`as.numeric`函数将其转换为数值型向量,并将其作为参数传递给`auc`函数。
以下是修改后的代码:
```R
auc_value <- c() # 创建一个空向量来保存AUC值
for (i in 1:2000) {
train <- aa[folds[[i]],] # folds[[i]]作为测试集
test <- aa[-folds[[i]],] # 剩下的数据作为训练集
model <- glm(Y ~ maleage + HQEFR, family = binomial(link = logit), data = train)
model_pre <- predict(model, type = 'response', newdata = test)
# 将test[, 1]转换为数值型向量
auc_value <- append(auc_value, as.numeric(auc(as.numeric(test[, 1]), model_pre)))
}
```
通过将`test[, 1]`转换为数值型向量,你应该能够解决这个错误并成功计算AUC值。请确保在运行代码之前已经加载了包含`auc`函数的相应库。如果仍然遇到问题,请提供更多的错误信息以便进一步帮助你解决问题。