语义匹配提升抄袭检测精度

需积分: 5 0 下载量 33 浏览量 更新于2024-08-08 收藏 312KB PDF 举报
"基于语义匹配的抄袭检测方法 (2013年) - 华南理工大学学报(自然科学版),第41卷第7期,2013年7月,作者:邹杜、陈玉青、张玲" 这篇论文探讨了在抄袭检测中的语义匹配方法,旨在改进传统基于相似度的检测技术。传统的抄袭检测主要通过比较文档之间的相似度来判断是否存在抄袭行为,但这种方法可能会漏检那些仅占文档小部分、未加引用的复制文本。针对这一问题,研究者分析了文本语义和指纹排列顺序之间的关系,并提出了一种新的语义匹配策略。 首先,该方法涉及将文本指纹转换为二进制向量,这有助于降低数据维度,同时保持指纹的位置信息。在二进制表示下,文本的语义结构得以保留,使得即使经过微小改动的抄袭文本也能被识别出来。这与传统的Jaccard和Hamming距离法相比,具有更高的召回率和准确度,因为这些方法可能无法捕捉到语义上的相似性。 论文中,研究人员在PAN公共语料集上对新提出的语义匹配方法进行了实验,与Jaccard和Hamming距离法进行了对比。实验结果证实了文中方法在检测抄袭方面的优越性,尤其是在处理小比例未引用复制文本时。 此外,这项研究由国家自然科学基金(项目号61070092)支持,由邹杜(1973年生,高级工程师,专注于计算机应用和信息检索)和陈玉青(1973年生,工程师,专注于计算机应用)共同完成。通讯作者为陈玉青,读者可以通过其提供的电子邮件地址进行联系。 这篇2013年的研究论文提出了一种创新的抄袭检测技术,它利用语义匹配来提高检测的精确性和全面性,对于学术诚信和知识产权保护具有重要的实践意义。