数据挖掘算法在学生程序抄袭检测中的应用

0 下载量 12 浏览量 更新于2024-08-23 收藏 237KB PDF 举报
"使用数据挖掘算法检测学生程序中的抄袭行为是一项重要的学术研究,旨在提高编程课程中对学生作业评估的准确性与效率。此方法基于一种数据挖掘算法,通过识别相似代码片段来判断是否存在抄袭现象。" 在当今的教育环境中,尤其是在计算机科学和信息技术相关的课程中,学生之间的编程作业抄袭问题日益严重。研究表明,许多学生会在编程课上提交类似甚至相同的程序,这可能是由于直接复制他人的代码或者仅仅进行了轻微的修改。这种情况导致了对学生程序评估标准的模糊性和不确定性,从而降低了评分的准确性和效率,也削弱了测试结果的可靠性。 针对这一问题,研究者提出了一种基于数据挖掘算法的学生程序抄袭检测方法。首先,他们利用CloSpan算法来挖掘相似的代码片段。CloSpan是一种用于关联规则学习的算法,能够发现数据集中的频繁模式,此处被用来识别可能被抄袭的代码结构。接着,通过计算不同程序之间的相似度,进一步确定是否存在抄袭行为。最后,系统将输出一份抄袭列表,列出可能存在抄袭嫌疑的程序。 实验对比了该方法与广泛使用的抄袭检测工具,如MOSS(Moss:一个专门用于检测程序抄袭的系统)的表现。结果显示,该数据挖掘算法驱动的方法不仅能够在统计信息方面提供更精确的结果,而且在检测精度和效率上都有所提升。这意味着它能更有效地识别出那些经过轻微修改以规避传统检测工具的抄袭行为。 此类研究对于提升学术诚信,维护教育公平具有重要意义。通过采用先进的数据挖掘技术,教师可以更好地监督和评估学生的编程作业,确保每一份作业都能得到公正的评价。同时,这也为未来的抄袭检测工具提供了新的设计思路,促进了教育技术的发展。然而,随着技术的进步,也需要不断更新和改进检测方法,以应对抄袭手段的多样化和复杂化。