使用simhash与倒排索引的代码溯源技术

22 浏览量更新于2024-08-29 收藏 618KB PDF 举报

"基于simhash与倒排索引的复用代码快速溯源方法" 是一种针对网络安全领域，尤其是针对复用代码分析的技术。该方法旨在高效地在大量代码中找到相似或重复使用的代码段，从而进行快速溯源。文章由乔延臣、云晓春、庹宇鹏和张永铮等人发表于2016年的《通信学报》。该方法的核心是将代码单元（函数）作为基本分析对象，并结合了simhash算法和倒排索引技术。simhash是一种近似哈希技术，能够比较两个数据集的相似性，即使这两个数据集存在微小差异。在本文中，simhash用于计算函数的哈希值，以便快速查找相似的代码块。首先，通过大量样本构建一个具有三级倒排索引结构的代码库。这个索引结构使得在大量代码中查找特定哈希值的代码块变得高效。当需要溯源某个待检测函数时，首先计算其内部代码块的simhash值，然后利用倒排索引来迅速定位可能相似的代码块。接下来，通过分析代码块之间的跳转关系，可以进一步精确判断这些潜在的相似函数是否真的相同。这种方法考虑了代码执行流程中的控制流，从而提高了同源判定的准确性。最终，如果确认为相似，就可以追溯到源代码所在的原始样本。实验结果显示，该方法在保持高准确率和召回率的同时，能够迅速在代码库中识别出由编译器插入的函数和复用的函数。这在网络安全领域特别重要，因为复用代码可能会隐藏恶意行为，如恶意代码的传播。通过对复用代码的快速溯源，可以有效地检测和防止潜在的网络安全威胁。关键词涉及到的关键技术有网络安全、复用代码、快速溯源、同源判定以及恶意代码，表明该研究关注的是如何在大规模代码库中有效地检测和追踪复用代码，以增强网络安全防护能力。这项工作为复用代码的检测和分析提供了一种高效、精确的方法，对提升软件安全性和防止恶意代码的扩散具有重要意义。

2016 年 11 月 Journal on Communications November 2016

2016225-1

第 37 卷第 11 期通信学报 Vol.37

No.11

基于 simhash 与倒排索引的复用代码快速溯源方法

乔延臣

1,2,3

，云晓春

1,2,3

，庹宇鹏

2,3

，张永铮

2,3

(1. 中国科学院计算技术研究所，北京 100080；

2. 中国科学院研究生院，北京 100039；3. 中国科学院信息工程研究所，北京 100093)

摘要：提出了一种新颖的复用代码精确快速溯源方法。该方法以函数为单位，基于 simhash 与倒排索引技术，

能在海量代码中快速溯源相似函数。首先基于 simhash 利用海量样本构建具有三级倒排索引结构的代码库。对于

待溯源函数，依据函数中代码块的 simhash 值快速发现相似代码块，继而倒排索引潜在相似函数，依据代码块跳

转关系精确判定是否相似，并溯源至所在样本。实验结果表明，该方法在保证高准确率与召回率的前提下，基于

代码库能快速识别样本中的编译器插入函数与复用函数。

关键词：网络安全；复用代码；快速溯源；同源判定；恶意代码

中图分类号：TP393.08 文献标识码：A

Fast reused code tracing method based on simhash and inverted index

QIAO Yan-chen

1,2,3

, YUN Xiao-chun

1,2,3

,TUO Yu-peng

2,3

, ZHANG Yong-zheng

2,3

(1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China;

2. Graduate School, Chinese Academy of Sciences, Beijing 100039, China;

3. Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China)

Abstract: A novel method for fast and accurately tracing reused code was proposed. Based on simhash and inverted in-

dex, the method can fast trace similar functions in massive code. First of all, a code database with three-level inverted in-

dex structures was constructed. For the function to be traced, similar code blocks could be found quickly according to

simhash value of the code block in the function code. Then the potential similar functions could be fast traced using in-

verted index. Finally, really similar functions could be identified by comparing jump relationships of similar code blocks.

Further, malware samples containing similar functions could be traced. The experimental results show that the method

can quickly identify the functions inserted by compilers and the reused functions based on the code database under the

premise of high accuracy and recall rate.

Key words: network security, reused code, retrieval method, homology identification, malware

1 引言

代码复用通常以函数为基本单位，即使被编译

器高度优化仍然保留大量函数整体，所以，本文以

函数为单位进行溯源更加符合复用场景。恶意代码

同源判定的主要依据是恶意代码作者在不同恶意

代码中对个人编写代码的复用，如 Sasser 与

Netsky

[1]

、Flame 与 Gauss 等

[2]

的同源判定均依据它

们共享的特殊函数。但是，为提高开发速度，恶意

代码作者经常复用他人编写的公开或半公开代码，

收稿日期：2016-05-12；修回日期：2016-10-11

通信作者：庹宇鹏，tuoyupeng@iie.ac.cn

基金项目：国家自然科学基金资助项目（No.61303261）；国家高技术研究发展计划（“863”计划）基金资助项目

（No.2013AA014703，No.2012AA012803）；国家 242 信息安全计划基金资助项目（No.2014A094）；中国科学院战略性科技

先导专项基金资助项目（No.XDA06030200）

Foundation Items: The National Natural Science Foundation of China (No. 61303261), The National High Technology Research

and Development Program of China (863 Program) (No. 2013AA014703, No. 2012AA012803), The National 242 Information Secu-

rity Research Program of China (No. 2014A094), The Strategic Priority Research Program of the Chinese Academy of Sciences

(No.XDA06030200)

doi:10.11959/j.issn.1000-436x.2016225

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38662213

粉丝: 3

使用simhash与倒排索引的代码溯源技术

基于MATLAB频分复用系统的研究与仿真设计

代码溯源技术及开源软件的继承性分析1

正交频分复用索引调制仿真教程与代码分享

Java继承与多态详解：代码复用与面向对象基础

函数与代码复用测验：理解其作用与原则

MyBatis Generator插件自定义实现与Mapper代码复用

React可视化设计平台：移动端编辑与组件复用低代码框架

Vue3封装Echarts组件实现自适应与代码复用

Java实现Simhash算法教程与示例

立创EDA封装库命名规范详解：快速定位与复用

最新资源