N-gram VB源代码抄袭检测:提高准确率与并行计算

需积分: 9 0 下载量 7 浏览量 更新于2024-08-12 收藏 972KB PDF 举报
"这篇论文是2012年发表在《重庆理工大学学报(自然科学)》第26卷第2期的一篇自然科学论文,作者包括吴斐、唐雁和补嘉。文章主要介绍了一种基于N-gram的VB源代码抄袭检测方法,旨在提升检测准确性并采用并行计算技术提高算法效率。通过与MOSS系统的比较,该方法显示出更高的检测准确率和处理大规模数据的能力。" 正文: 随着信息技术的快速发展和电子文本的广泛应用,源代码抄袭问题日益严重。针对这一问题,本文提出了一种创新性的解决方案——基于N-gram的VB源代码抄袭检测方法。N-gram是一种统计语言模型,常用于自然语言处理,这里被应用于源代码的表示,目的是增强VB代码的特征识别,从而提高抄袭检测的精确度。 在传统的源代码抄袭检测中,常常面临代码结构复杂、变化多端的挑战,而N-gram模型可以通过对源代码进行片段划分,捕捉到代码中的连续词汇序列,以此作为检测的基础。N-gram的大小(如1-gram, 2-gram, 3-gram等)可以根据实际情况调整,以适应不同级别的代码相似性检测需求。这种方法的优势在于可以有效地识别出源代码中的重复模式,即使代码经过了少量的修改或重排。 此外,论文还引入了基于Fork-Join框架的并行计算技术。Fork-Join框架是并行编程的一种模型,它允许将大型任务分解为多个子任务,这些子任务可以并行执行,然后合并结果。在源代码抄袭检测中,这种并行计算策略能够显著提高算法的运行效率,特别是在处理大量数据时,能够有效地缩短检测时间。 为了验证所提出的检测方法的有效性,论文进行了与MOSS(Modified OCR System for Source code Similarity Detection)系统的对比实验。MOSS是一个广泛使用的源代码抄袭检测系统,而实验结果显示,基于N-gram的VB源代码抄袭检测方法在检测准确率上优于MOSS,这意味着它能更准确地识别出潜在的抄袭行为。同时,新方法还展示出了处理大规模数据的能力,这是对现有抄袭检测工具的一个重要改进。 这篇论文的贡献在于提出了一种结合N-gram和并行计算的VB源代码抄袭检测方法,提高了检测准确性和处理效率,对于防止和打击VB程序代码抄袭现象具有积极的意义。这种方法不仅对VB编程语言有效,其基本思路和技术也可以扩展到其他编程语言的抄袭检测领域,为软件开发的知识产权保护提供了有力的工具。