SAS Logistic回归分析实战:异常值处理与模型优化
需积分: 50 159 浏览量
更新于2024-08-30
1
收藏 325KB DOC 举报
"本实验是关于使用SAS软件进行Logistic回归分析的实践操作,旨在理解和掌握Logistic回归模型在二分类响应变量情况下的应用。实验数据集为lab06-1.txt,其中响应变量Y只有0和1两种状态,自变量包括X1、X2和X3,均为连续型变量。"
在SAS中,Logistic过程被用于构建基于连续自变量的二项逻辑回归模型。实验首先建立了包含X1、X2、X3的Logistic回归模型,得到的回归方程为logit(p) = 10.15 - 0.33*x1 - 0.18*x2 - 5.09*x3。通过似然比检验,模型的统计意义显著,因为似然比的卡方值85.68对应p值远小于0.05。然而,对每个自变量的显著性检验结果显示,X1、X2、X3的显著性并不明显。
接着,实验计算了各自变量的OR(优势比)值及其95%置信区间,这对于理解自变量对响应变量的影响至关重要。此外,通过观察影响力的观察表,可以评估每个观测值对模型的影响。散点图中,皮尔逊残差(Pearson residuals)绝对值大于1的观测值被认为是具有较大影响力的,实验中发现第9和第52号观测值满足此条件。
进一步,通过Cbar(置信区间位移)散点图,同样确定第9和第52号观测值的Cbar值大于1,表明这些观测值可能为异常值。根据这些结果,决定删除这两个异常值并重新进行回归分析。
排除异常值后,新模型的预测正确率提高到98.4%,证明了异常值的影响。然后,采用自变量逐步筛选方法,仅让X1进入模型,得到的新模型预测正确率为95.3%。
在第二个实例中,针对39例病人的治愈情况(Y=治愈,Y=未愈),考虑了病情严重程度X1、年龄X2以及治疗方案X3作为潜在影响因素。通过Logistic回归分析,可以探究这些因素如何影响治愈率。
这个SAS Logistic回归分析实验涵盖了模型构建、参数显著性检验、异常值识别与处理、模型预测性能比较以及自变量筛选等多个重要环节,是理解和应用Logistic回归分析的全面实践。
2021-12-17 上传
2024-10-30 上传
2024-11-01 上传
2021-10-08 上传
2021-11-18 上传
2022-07-13 上传
2022-09-23 上传
黎岚冥
- 粉丝: 3
- 资源: 6
最新资源
- MATLAB实现小波阈值去噪:Visushrink硬软算法对比
- 易语言实现画板图像缩放功能教程
- 大模型推荐系统: 优化算法与模型压缩技术
- Stancy: 静态文件驱动的简单RESTful API与前端框架集成
- 掌握Java全文搜索:深入Apache Lucene开源系统
- 19计应19田超的Python7-1试题整理
- 易语言实现多线程网络时间同步源码解析
- 人工智能大模型学习与实践指南
- 掌握Markdown:从基础到高级技巧解析
- JS-PizzaStore: JS应用程序模拟披萨递送服务
- CAMV开源XML编辑器:编辑、验证、设计及架构工具集
- 医学免疫学情景化自动生成考题系统
- 易语言实现多语言界面编程教程
- MATLAB实现16种回归算法在数据挖掘中的应用
- ***内容构建指南:深入HTML与LaTeX
- Python实现维基百科“历史上的今天”数据抓取教程