研究生学位论文分析:运用层次分析法与朴素贝叶斯模型

版权申诉
0 下载量 113 浏览量 更新于2024-06-16 收藏 3.15MB PDF 举报
"全国大学生数据统计与分析竞赛21年A题研究生组的优秀论文集,涉及研究生学位论文的评价数据分析,使用了层次分析法、朴素贝叶斯模型、NLP技术、可视化方法等工具。论文主要探讨了四个问题,包括论文评分的统计分析、评分一致性的验证、专家评语的情感倾向分析以及多维度评价体系的构建。" 这篇论文集中展示了在数据统计与分析竞赛中的研究生团队如何运用多种方法解决实际问题。首先,对于问题一,团队使用Python进行数据提取与处理,通过收集不同学科门类的评审专家给出的总分,利用collections模块对Tag标签进行计数,借助sorted函数排序,以确定需要淘汰的论文。这体现了在数据处理中Python的高效性和便利性。 其次,针对问题二,研究者对论文的各个分值进行求和与平均,应用Kendall秩相关检验和相关性分析来评估3个总分与平均分之间的关联性。通过折线图、相关系数热力图、箱型图和小提琴图进行数据可视化,便于理解不同学科门类的论文质量分布。结果显示,03、07、09学科门类的论文表现最佳。 对于问题三,研究者进行了文本分析,去除论文评语中的停用词和特殊符号,采用Jieba分词工具进行分词处理。根据总分平均分,将专家观点分为积极、消极和客观三类,利用多项式朴素贝叶斯算法进行情感倾向分类。实验结果显示,该算法在测试集上的AUC值达到0.88,证明了模型的可靠性和分类效果。 最后,对于问题四,研究者应用层次分析法(AHP)构建了一个三层评估框架,目标层为评价排序,方案层为11个学科门类,准则层包含4项评价维度。通过建立判断矩阵,计算权重并进行一致性检验,确定了各评价维度的重要性,创新性与论文价值以及论文规范性被专家视为最重要的评价标准。 这篇论文集展现了在数据统计与分析中如何结合传统统计方法和现代技术,如NLP和机器学习,对研究生学位论文的评价数据进行深入挖掘和分析,为相关领域的研究提供了有益的参考。