数据竞赛优秀论文:word2vec与xgboost在专家评价模型中的应用

版权申诉
0 下载量 61 浏览量 更新于2024-06-16 收藏 1.37MB PDF 举报
"全国大学生数据统计与分析竞赛21年A题本科生组的优秀论文,主要探讨了基于word2vec和xgboost的专家观点评价模型。论文涉及数据筛选、评分差异性分析、自然语言处理技术的应用以及模型构建与评估。" 在本论文中,参赛团队针对全国大学生数据统计与分析竞赛的A题进行了深入研究,主要分为以下几个方面: 1. **问题论文筛选**: - 使用Python的pandas库对提供的数据进行预处理和分析。 - 根据学科分组,筛选出68篇具有问题的论文。 2. **评分数据分析**: - 计算各项评分的平均值和总分平均值,以了解评分的整体情况。 - 采用统计方法探究评分的一致性和差异性,包括: - 方差分析:度量评分之间的差异程度。 - 皮尔森相关系数:判断评分之间的相关程度。 - Kendall协调系数:评估评分的一致性。 - 基于JS散度的差异性度量:测量评分概率分布之间的距离。 3. **专家观点建模**: - 应用自然语言处理(NLP)技术,对专家评语进行句子切分和停用词去除。 - 利用doc2vec(基于word2vec)对专家评语进行特征提取,将其转换为200维的特征向量。 - 使用xgboost回归模型构建基于这些特征的专家观点评价模型。 - 通过交叉验证评估模型性能,以RMSE(均方根误差)作为评估指标,测试误差处于[2,5]区间,训练误差小于0.1,表明模型表现良好。 4. **综合评分**: - 结合问题三的模型结果,对所有评论进行评分,与原始评分加权平均得到最终的综合得分。 5. **论文特征分析**: - 分析优秀论文与问题论文的特征,基于doc2vec生成的特征向量进行比较。 - 创建一个包含正面、负面和中性评语的语料库,通过比较优秀论文和问题论文的评语与语料库的相似度,发现问题论文的评语更倾向于负面,而优秀论文的评语则更接近中性。 关键词:Kendall系数、JS散度、doc2vec、xgboost回归、生成语料库、文本相似度。 这篇论文展示了如何运用数据分析、统计方法和机器学习技术解决实际问题,特别是利用word2vec和xgboost构建专家观点评价模型,为理解和改进学术评价提供了新的思路。