运用NLP与AHP分析硕士论文评价：科学综合评价模型

版权申诉

82 浏览量更新于2024-06-16 收藏 1.07MB PDF 举报

"全国大学生数据统计与分析竞赛21年A题本科生组的优秀论文集，涉及的主题是基于NLP（自然语言处理）和AHP（层次分析法）的论文综合评价模型。该论文旨在建立一个全面的评价体系，用于评估不同学科领域的硕士研究生学位论文，包括选题与综述、创新性及论文价值、科研能力与基础知识、论文规范性四大维度。论文利用了EXCEL、python、SPSS等工具进行数据分析，以解决五个具体问题。" 在这篇论文中，作者首先利用EXCEL进行初步的数据处理，通过阈值筛选和排序功能识别问题论文，并运用average()和var()函数计算平均值和方差，以了解评审信息的分布情况。接着，论文引入了Python的jieba库，应用TF-IDF算法来挖掘专家评语中的关键词及其频率，进一步进行主题分析。此外，snownlp库被用于情感分析，计算出情感因子，以评估论文的情感倾向。接下来，作者借助SPSS软件进行了更深入的数据分析。通过计算ICC组内相关系数和Kendall协调系数，检验了三位评委评分的一致性。这些统计指标有助于理解评审间的共识程度。然后，根据关键词出现的频次，确定了四大评价维度的相对权重，结合AHP层次分析法建立了专家观点的评价模型。层次分析法虽然可能存在主观性，但在这里与专家的主观打分相吻合，提供了相对公正的评价标准。最后，通过加权求得论文的综合得分，论文对工学、理学、艺术学、医学等多个学科门类的论文进行了区分，区分出优秀与淘汰的论文，并通过逻辑分析揭示了两类论文的特征。这种方法为研究生学位论文的质量评价提供了一种新的思路和工具，有助于提升我国研究生教育的整体质量和创新能力。

第 3 页共 22 页

3.模型的建立和求解

3.1 问题分析

根据附件 1 提供的 1246 篇硕士学位论文的评审信息，本文将回答题目要求的五

个问题并填写附件 2 。

问题一：基于“末位后 5%淘汰制”，即提取 3 位评阅专家给出的总分最低分进

行学科门类内排名，用末位后 5% 筛选出问题论文。本文使用 EXCEL 进行简单的数据

处理和阈值筛选，并填写附录 2 。

问题二：计算每篇论文的各分项平均分和总分平均分。按照学科门类，分别统计

分析 3 位评阅专家给出的 3 个总分以及 1 个总分平均分之间的一致性和差异性，并

分析对比各学科门类学位论文的水平。本文首先使用 EXCEL 对各个学科门类分别进行

平均值的计算，并填写附录 2 ；其次通过方差分析比较 3 位专家给出的分数的差异

性；然后通过 ICC 组内相关系数和 Kendall 协调系数检验总分之间的一致性关系；最

后

问题三：按照学科门类统计分析论文评阅评语，采用文本分析方法，建立评阅专

家观点评价模型，并论证文本分析结果与其各分项得分间是否存在一致性。本文首先

根据 TF-IDF 算法模型，使用 python jieba 库提取评阅专家观点中的关键词；然后通

过关键词的比例，确定选题与综述、创新性及论文价值、科研能力与基础知识以及论

文规范性的相对比重，利用 AHP 层次分析法计算四个维度的权重，建立评阅专家观点

评价模型；最后通过自然语言处理的情感分析，比较专家评语和打分情况的一致性关

系。

问题四：应用问题 2 和问题 3 得到的结论对附件 1 中的每篇论文进行综合评

价，给出综合得分。本文利用 AHP 层次分析法得出的四个维度权重，使用 EXCEL 计算

四个维度加权后的综合得分，并填写附录 2 。

问题五：以学科门类工学（08）为例，对比问题论文（被淘汰的论文）与优秀论

文（综合得分排名前 10%）的典型特征。

其中，附件 1 中的数据涵盖 11 个学科门类。表中的 Tag 指的是学科门类编

码，表中 bm 指的是论文编号，每个编号对应 1 篇硕士学位论文，每篇论文都有 3

位评阅专家评价信息。表中的 Xk1 指的是第 k 位评审专家对论文选题与综述的评

分；Xk2 指的是第 k 位评审专家对创新性及论文价值的评分；Xk3 指的是第 k 位评审

专家对科研能力与基础知识的评分；Xk4 指的是第 k 位评审专家对论文规范性的评

分；Xk 指的是第 k 位评审专家对论文的总体评价得分； Rk 指的是第 k 位评审专家

对论文的评语，k=1, 2, 3。

3.2 模型建立

3.2.1 差异性和一致性检验模型

3.2.1.1 差异性检验模型

差异性检验是统计学中的常用的一种统计假设检验，用于检测在科学实验中实验

组和对照组之间是否存在差异，以及它们之间的差异是否显著。其中，最为典型的差

异性检验模型有卡方检验、t 检验和方差分析。

卡方检验是通过样本的实际观测值与理论推断值之间的偏离程度，检测差异性

的。如果卡方值越大，二者偏差偏离程度越大，差异性越大；反之，二者偏离程度越

小，差异性越小；若两者完全相等时，卡方值为 0，表明理论值完全符合。t 检验，主

剩余23页未读，继续阅读

阿拉伯梳子

粉丝: 2794

运用NLP与AHP分析硕士论文评价：科学综合评价模型

数据的统计与分析.pdf

2022年全国大学生数据分析大赛作品展示1.zip

全国大学生数据统计与分析竞赛21年A题本科生组（1）.pdf

全国大学生数据统计与分析竞赛21年A题本科生组（6）.pdf

全国大学生数据统计与分析竞赛21年A题本科生组（7）.pdf

全国大学生数据统计与分析竞赛21年A题本科生组（3）.pdf

全国大学生数据统计与分析竞赛21年A题本科生组（2）.pdf

全国大学生数据统计与分析竞赛21年A题本科生组（5）.pdf

全国大学生数据统计与分析竞赛21年B题本科生组（4）.pdf

全国大学生数据统计与分析竞赛21年B题本科生组（10）.pdf

最新资源