Python实现泰迪杯数据分析竞赛自动评判系统

需积分: 0 102 浏览量更新于2024-06-18 2 收藏 1.52MB PDF 举报

"这篇分享主要围绕2022年泰迪杯数据分析竞赛中获得国家级一等奖的经验，探讨如何使用Python进行数据分析作品的自动化评判。" 在数据分析竞赛中，参赛者经常需要提交Excel或PDF格式的作品。为了提升批卷效率和公平性，文章介绍了利用Python编程实现竞赛作品的自动评判方法。这一方法对于教师来说可以减轻批卷工作量，对于参赛者而言则能确保评分公正。首先，针对任务一的数据处理，涉及的主要步骤包括： 1. 使用Python的os模块遍历压缩文件，依据文件后缀决定解压策略，将文件解压到以作品编号命名的子文件夹中。 2. 在每个作品文件夹内创建"summary"和"image"子文件夹，便于后续处理和存储结果。 3. 利用os模块的listdir()函数检查作品文件夹中是否存在特定文件，每发现一个加2分。 4. 使用pymupdf库的fitz模块从PDF中提取图片并保存到指定的"image"子文件夹。接着，任务二的处理步骤如下： 1. 通过pandas加载标准答案的Excel文件。 2. 使用os模块遍历所有作品文件夹，寻找task_.xlsx文件，若不存在则赋予零分。 3. 对于找到的文件，使用pandas读取并逐条与标准答案比较，计算错误数。 4. 可能需要应用正则表达式来处理和提取字符串中的变量。 5. 当需要处理PDF中的表格数据时，借助pdfplumber模块提取表格信息，并与标准答案对比计算得分。任务三的处理方法： 1. 依旧使用pandas读取标准答案的Excel，获取答案矩阵的行数。 2. 迭代所有task3.xlsx文件，比较它们的形状（即行数），确保数据维度与标准答案匹配。这些方法展示了如何利用Python的强大的数据处理和分析能力，实现对数据分析竞赛作品的自动化评判。通过这种方式，不仅可以提高批卷效率，还可以减少人为误差，确保比赛的公正性。在实际应用中，参赛者和教师可以借鉴这些技巧，提升工作效率。同时，这也体现了Python在数据科学领域的广泛应用和重要性。

1.3.2判断每份作品中是否包含文件“task2_1.xlsx” “task2_2.xlsx”

“task2_3.pdf” 及 “task3.xlsx”处理过程描述

利用 os模块的 listdir() 函数取得每个作品文件夹下的文件名数组，查看文件名数组中是否包含

指定文件“task2_1.xlsx”、 “task2_2.xlsx” 、“task2_3.pdf” 及 “task3.xlsx”，判断每份作品上交的文件是

否完整，每包含一个文件加2分。

1.3.3判断每份作品中是否包含文件“task2_1.xlsx” “task2_2.xlsx”

“task2_3.pdf” 及 “task3.xlsx”示意图

剩余28页未读，继续阅读

蛋黄酥的ro君

粉丝: 4
资源: 1

Python实现泰迪杯数据分析竞赛自动评判系统

泰迪杯数据挖掘比赛.zip

NLP数据集：泰迪杯智慧政务数据集.zip

第五届泰迪杯数据分析赛赛题

2022泰迪杯数据分析技能赛B题代码 Jupyter Notebook

2022年（第5届）泰迪杯 数据分析技能赛 B题-泰迪杯数据分析技能赛

2022年第五届泰迪杯数据分析技能赛A题解析分享给有需要的同学

2022年（第5届）泰迪杯 数据分析技能赛 B题分享给需要的同学

泰迪杯数据分析大赛优秀作品

第五届泰迪杯数据分析赛赛题数据

泰迪杯数据分析技能赛介绍及技巧

最新资源

2022年（第5届）泰迪杯数据分析技能赛 B题-泰迪杯数据分析技能赛

2022年（第5届）泰迪杯数据分析技能赛 B题分享给需要的同学