大学学业风险预测:基于可解释机器学习的探索

版权申诉
0 下载量 175 浏览量 更新于2024-07-07 收藏 614KB PDF 举报
"这篇论文是关于基于可解释机器学习的大学学术风险预测的研究,由大连理工大学的博士研究生杨淑东撰写。研究旨在通过高维、不平衡分类的小样本学生行为数据,找出预测学业风险的最佳指标。它将大学生的学业风险预测转化为二元分类任务,运用LightGBM模型和Shapley值的可解释机器学习方法进行预测。模拟结果显示,从预测模型的全局视角来看,学术伙伴的质量、课堂座位位置、宿舍学习氛围、高考英语成绩、学术伙伴的数量以及对电子游戏的沉迷程度等特征对学业风险预测具有重要影响。" 本文关注的是大学学生的学业风险预测,这是一个在高等教育领域内至关重要的问题。通过对大量学生行为数据的分析,研究者试图找出可能导致学生辍学的关键因素,从而帮助教育机构提前识别并干预潜在的学术风险。 首先,研究采用了可解释机器学习的方法,特别是Shapley值。这种方法允许研究人员不仅能得到预测结果,还能理解模型为何做出这样的预测,因为其能够揭示各个特征对最终预测的贡献程度。在复杂的机器学习模型中,模型的可解释性是一个关键的议题,它有助于建立用户信任,并能为决策提供依据。 其次,LightGBM模型被选为预测工具。这是一种梯度提升决策树算法,因其高效性和准确性而广泛应用于各种分类任务,包括本研究中的二元分类——判断学生是否存在学业风险。LightGBM通过优化数据结构和算法实现快速训练,同时能处理大规模特征和样本,适合高维度的数据集。 论文中提到的特征包括学术伙伴的质量、课堂座位位置、宿舍学习氛围、高考英语成绩和学术伙伴数量等,这些都被认为是影响学业风险的重要因素。例如,良好的学术伙伴关系可能有助于提高学生的学习动力和成绩;课堂座位位置可能反映了学生参与度和专注力;宿舍学习氛围则可能影响学生的学习时间和质量;高考英语成绩可能是学生基础学术能力的反映;而对电子游戏的沉迷可能分散学生的学习注意力。 通过对这些特征的深入理解和权重分析,教育工作者可以制定更有效的干预策略,如改善学习环境、增强学生间的合作学习、提供个性化的学习支持等,以降低学生的学业风险,提高大学教育的整体质量。 这篇论文为大学学业风险预测提供了新的视角和方法,强调了可解释机器学习在教育数据分析中的应用价值,同时也为教育政策制定者和教育工作者提供了宝贵的参考依据,有助于提高学生保留率和整体教育成果。