第 3 页 共 22 页
3.模型的建立和求解
3.1 问题分析
根据附件 1 提供的 1246 篇硕士学位论文的评审信息,本文将回答题目要求的五
个问题并填写附件 2 。
问题一:基于“末位后 5%淘汰制”,即提取 3 位评阅专家给出的总分最低分进
行学科门类内排名,用末位后 5% 筛选出问题论文。本文使用 EXCEL 进行简单的数据
处理和阈值筛选,并填写附录 2 。
问题二:计算每篇论文的各分项平均分和总分平均分。按照学科门类,分别统计
分析 3 位评阅专家给出的 3 个总分以及 1 个总分平均分之间的一致性和差异性,并
分析对比各学科门类学位论文的水平。本文首先使用 EXCEL 对各个学科门类分别进行
平均值的计算,并填写附录 2 ;其次通过方差分析比较 3 位专家给出的分数的差异
性;然后通过 ICC 组内相关系数和 Kendall 协调系数检验总分之间的一致性关系;最
后
问题三:按照学科门类统计分析论文评阅评语,采用文本分析方法,建立评阅专
家观点评价模型,并论证文本分析结果与其各分项得分间是否存在一致性。本文首先
根据 TF-IDF 算法模型,使用 python jieba 库提取评阅专家观点中的关键词;然后通
过关键词的比例,确定选题与综述、创新性及论文价值、科研能力与基础知识以及论
文规范性的相对比重,利用 AHP 层次分析法计算四个维度的权重,建立评阅专家观点
评价模型;最后通过自然语言处理的情感分析,比较专家评语和打分情况的一致性关
系。
问题四:应用问题 2 和问题 3 得到的结论对附件 1 中的每篇论文进行综合评
价,给出综合得分。本文利用 AHP 层次分析法得出的四个维度权重,使用 EXCEL 计算
四个维度加权后的综合得分,并填写附录 2 。
问题五:以学科门类工学(08)为例,对比问题论文(被淘汰的论文)与优秀论
文(综合得分排名前 10%)的典型特征。
其中,附件 1 中的数据涵盖 11 个学科门类。表中的 Tag 指的是学科门类编
码,表中 bm 指的是论文编号,每个编号对应 1 篇硕士学位论文,每篇论文都有 3
位评阅专家评价信息。表中的 Xk1 指的是第 k 位评审专家对论文选题与综述的评
分;Xk2 指的是第 k 位评审专家对创新性及论文价值的评分;Xk3 指的是第 k 位评审
专家对科研能力与基础知识的评分;Xk4 指的是第 k 位评审专家对论文规范性的评
分;Xk 指的是第 k 位评审专家对论文的总体评价得分; Rk 指的是第 k 位评审专家
对论文的评语,k=1, 2, 3。
3.2 模型建立
3.2.1 差异性和一致性检验模型
3.2.1.1 差异性检验模型
差异性检验是统计学中的常用的一种统计假设检验,用于检测在科学实验中实验
组和对照组之间是否存在差异,以及它们之间的差异是否显著。其中,最为典型的差
异性检验模型有卡方检验、t 检验和方差分析。
卡方检验是通过样本的实际观测值与理论推断值之间的偏离程度,检测差异性
的。如果卡方值越大,二者偏差偏离程度越大,差异性越大;反之,二者偏离程度越
小,差异性越小;若两者完全相等时,卡方值为 0,表明理论值完全符合。t 检验,主