SAS Logistic回归分析实战:异常值处理与模型优化

需积分: 50 6 下载量 159 浏览量 更新于2024-08-30 1 收藏 325KB DOC 举报
"本实验是关于使用SAS软件进行Logistic回归分析的实践操作,旨在理解和掌握Logistic回归模型在二分类响应变量情况下的应用。实验数据集为lab06-1.txt,其中响应变量Y只有0和1两种状态,自变量包括X1、X2和X3,均为连续型变量。" 在SAS中,Logistic过程被用于构建基于连续自变量的二项逻辑回归模型。实验首先建立了包含X1、X2、X3的Logistic回归模型,得到的回归方程为logit(p) = 10.15 - 0.33*x1 - 0.18*x2 - 5.09*x3。通过似然比检验,模型的统计意义显著,因为似然比的卡方值85.68对应p值远小于0.05。然而,对每个自变量的显著性检验结果显示,X1、X2、X3的显著性并不明显。 接着,实验计算了各自变量的OR(优势比)值及其95%置信区间,这对于理解自变量对响应变量的影响至关重要。此外,通过观察影响力的观察表,可以评估每个观测值对模型的影响。散点图中,皮尔逊残差(Pearson residuals)绝对值大于1的观测值被认为是具有较大影响力的,实验中发现第9和第52号观测值满足此条件。 进一步,通过Cbar(置信区间位移)散点图,同样确定第9和第52号观测值的Cbar值大于1,表明这些观测值可能为异常值。根据这些结果,决定删除这两个异常值并重新进行回归分析。 排除异常值后,新模型的预测正确率提高到98.4%,证明了异常值的影响。然后,采用自变量逐步筛选方法,仅让X1进入模型,得到的新模型预测正确率为95.3%。 在第二个实例中,针对39例病人的治愈情况(Y=治愈,Y=未愈),考虑了病情严重程度X1、年龄X2以及治疗方案X3作为潜在影响因素。通过Logistic回归分析,可以探究这些因素如何影响治愈率。 这个SAS Logistic回归分析实验涵盖了模型构建、参数显著性检验、异常值识别与处理、模型预测性能比较以及自变量筛选等多个重要环节,是理解和应用Logistic回归分析的全面实践。