哈希值与标识符冲突率：克隆代码检测误检消除策略

需积分: 10 148 浏览量更新于2024-09-10 收藏 230KB PDF 举报

本文主要探讨了在使用基于token的克隆代码检测方法时，面对语法相似但可能被误判为克隆代码的问题。针对这一挑战，边奕心、王甜甜、苏小红和马培军四位作者提出了一个新颖的解决方案，即结合哈希值和标识符冲突率来消除部分误检。这种方法的关键步骤如下： 1. **哈希值判断**：通过计算语句的哈希值，算法首先分析语句结构的相似性。哈希值是一种将任意长度的数据映射为固定长度数值的函数，它可以快速比较两个语句是否具有相似的结构，从而减少因语法相似但实质上不是克隆的代码而产生的误报。 2. **标识符冲突率计算**：进一步地，算法会统计源代码中标识符的冲突率，即在不同代码段中出现相同标识符的概率。如果冲突率较高，这可能表示两段代码并非完全独立，而是存在某种关联，但这并不意味着它们是克隆代码。 3. **误检方向与情况判定**：通过分析哈希值和标识符冲突率的变化，算法能够确定哪些误检可能是由非实质性相似导致的，并据此确定消除误检的方向。例如，插入结构相同的语句可能导致误检，而标识符冲突率的增加可能是由于代码重用而非复制。 4. **消除策略**：对于确认为误检的克隆代码，方法通过修改克隆代码的相对行号，使其在哈希值和标识符冲突率上与原代码区分开来，从而消除误报。这种调整不会改变代码的实际功能，仅是为了提高检测的精确性。 5. **实证结果**：实验结果显示，该方法有效地解决了由于插入结构相同语句造成的误检问题，同时还能处理语句顺序颠倒导致的误判，显著提升了克隆代码检测以及与之相关的缺陷检测的准确性。这对于后续的克隆代码重构研究具有实际价值，因为准确的检测有助于识别真正需要重构的部分。 6. **关键词**：本文围绕“克隆代码”、“哈希值”、“标识符冲突率”、“误检”和“重构”等核心概念展开，展示了如何通过结合这些技术手段来改进克隆代码检测的性能，减少误报，促进代码质量管理和优化。本文提供了一种实用的方法来改进克隆代码检测的精确性，这对于软件开发过程中的代码质量控制和维护具有重要意义。

http://www.paper.edu.cn

- 1 -

中国科技论文在线

使用哈希值和标识符冲突率的克隆代码

检测的误检消除方法

边奕心，王甜甜，苏小红，马培军

（哈尔滨工业大学计算机科学与技术学院，哈尔滨 150001） 5

摘要：针对采用基于 token 的克隆代码检测方法检测语法相似的克隆代码时存在的部分误检

问题，本文提出一种使用哈希值和标识符冲突率来消除克隆代码检测的部分误检的方法。该

方法首先通过语句的哈希值判断语句结构的相似性，然后计算标识符冲突率，通过冲突率的

变化，来确定误检消除的方向和消除情况。对于存在误检的克隆代码，最终通过修改克隆代

码的相对行号来消除误检。实验结果表明，本文方法可以消除由于插入结构相同的语句而引10

起的克隆代码的误检问题，并在此基础上，有效消除了语句形式一样但由于语句顺序颠倒而

引起的克隆代码误检问题，提高了克隆代码检测及克隆代码相关缺陷检测的准确性，有利于

后续克隆代码重构的研究。

关键词：克隆代码；哈希值；标识符冲突率；误检；重构

中图分类号：TP311 15

The Method to Eliminate False Positives of Clone Code

Detection with Hash Value and Identifier Conflict Ratio

Bian Yixin, Wang Tiantian, Su Xiaohong, Ma Peijun

(Department of Computer Science,Harbin Institute of Technology, Harbin 150001) 20

Abstract: There are some disadvantages when detecting syntax similar clone code with clone code

detection method based on token method. To solve these problems, this paper proposes a method

to eliminate part false detection of clone code detection with statement hash value and identifier

conflict ratio. At first, statement hash value was compared to determine the statement structure

similarity. Then the identifier conflict ratio was computed to decide the direction of false detection 25

elimination and results. Finally, the statement relative line number is modified to eliminate false

detection. The experimental results show that our method can eliminate clone code false detection

caused by inserting the same structure statement and the reverse order statements of same

structure. It improves the accuracy of clone code detection and clone code related defects as well

as can benefit the study of clone code refactoring.

Keywords: clone code; hash value; idenfier conflict ratio; false detection; refactoring

0 引言

克隆代码(Cloned Code)，又被称作重复代码(Duplicated Code)，是指源代码文件中多个

相同或相似的代码片段

[1]

。 35

克隆代码在大多数情况下是有害的，它增加了软件系统代码的长度，使得软件系统愈加

复杂、难以维护，系统运行效率降低，并且给软件引入大量的程序缺陷。多种自动检测大规

模软件系统中克隆代码的工具

[2]

。ZhenminLi 和 Shan Lu 等人在文献[3]中将数据挖掘与克隆

代码检测结合，开发了克隆代码检测工具 CP-Miner。高效的序列模式挖掘算法既明显提高

检测的速度，降低了时间复杂性，还可以容忍经过增、删、改和变量重命名的克隆代码片段，40

并且对“拷贝-粘贴-修改”行为导致的变量重命名不一致的软件缺陷进行了检测。但是，通

基金项目：国家自然科学基金(61073052);高等学校博士学科点专项科研基金项目资助(20092302110040)

作者简介：边奕心，(1979-)，女，博士生，软件工程

通信联系人：苏小红，（1966-），女，博士，教授，博士生导师，主要研究方向：程序分析，软件缺陷检

测，信息融合，图像处理与模式识别. E-mail: sxh@hit.edu.cn

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_39840387

粉丝: 789
资源: 3万+

哈希值与标识符冲突率：克隆代码检测误检消除策略

基于哈希的二维工程CAD图拓扑关系认证技术

MD5-Hash哈希值计算工具

c# 将字符串转换sha-1哈希值。

sha256检测软件

SMT合约中哈希值的具体产生方式

mysql使用AES加密算法或SHA-2哈希算法进行加密。请给出示例代码

给我一个哈希值的例子。

SHA-256哈希算法。SHA-256是一种常用的密码学哈希函数，用于生成数据的固定大小的哈希值。

将哈希值转换为像素值的方法

怎样避免SHA-256算法的哈希冲突问题

最新资源