二进制代码相似度计算：一项综合调查

需积分: 50 58 浏览量更新于2024-07-15 收藏 526KB PDF 举报

"二进制文件相似度计算是软件分析领域的一个重要研究方向，它主要关注如何比较两个或多个二进制代码以确定它们之间的相似性和差异性。这种能力在源代码不可用的情况下，如补丁分析、错误查找、恶意软件检测与分析等领域具有广泛的应用。尽管过去20年间已经提出了许多二进制代码相似性方法，但这个研究领域尚未得到系统性的分析和总结。这篇综述论文首次对二进制代码相似性进行了全面的调查和分类，以帮助理解该领域的现状和未来挑战。首先，文章分析了61种二进制代码相似性方法，并根据它们所能实现的应用进行分类。这些应用包括但不限于软件剽窃检测、代码抄袭检测、软件版本识别和补丁查找。在软件剽窃检测中，通过对比二进制文件的相似性，可以发现是否存在未经许可的代码复制行为。而在代码抄袭中，相似性计算有助于找出代码间的复制粘贴行为。对于版本识别，这种方法能够帮助确定不同版本的软件之间的关系，特别是在开源项目中。补丁查找则依赖于二进制代码的相似性来定位修复特定问题的代码片段。其次，论文探讨了各种方法的独特特性，这些特性决定了它们在处理二进制代码时的效率和准确性。这包括使用的技术，如静态分析、动态分析以及混合分析方法。静态分析不依赖于代码执行，而动态分析则需要代码运行以收集信息。混合方法结合两者，通常能提供更全面的视角。再者，文章详细介绍了这些方法的实现方式，涵盖了数据表示、特征提取、相似性度量等多个环节。数据表示通常涉及将二进制代码转化为适合比较的形式，如控制流图(CFG)或中间表示(IR)。特征提取是识别代码中的关键结构和模式，而相似性度量则是判断这些特征之间的相似程度。此外，论文还回顾了用于评估这些方法的各种基准和评估方法，包括使用公开的代码库、实际的软件补丁以及恶意软件样本。这些基准和方法有助于验证和比较不同技术的有效性。最后，作者讨论了二进制代码相似性研究的范围、起源及其在过去20年的发展趋势。他们指出，尽管已有显著进展，但这个领域仍面临诸多挑战，如处理大规模代码库的效率问题、应对混淆和反分析技术的复杂性，以及提高跨平台和跨架构代码比较的准确性。这篇综述为二进制代码相似性的研究提供了清晰的框架，不仅总结了现有的工作，也指出了未来可能的研究方向和待解决的问题，对于研究人员和实践者来说都是宝贵的知识资源。"

TABLE I. COMPARISON AMONG BINARY CODE SIMILARITY APPROACHES. FOR BOOLEAN COLUMNS X MEANS SUPPORTED AND 7 UNSUPPORTED.

INPUT COMPARISON CAN BE ONE-TO-ONE (OO), ONE-TO-MANY (OM), OR MANY-TO-MANY (MM). INPUT GRANULARITY AND APPROACH

GRANULARITIES CAN BE INSTRUCTION (I), BASIC BLOCK (B), FUNCTION (F), OR PROGRAM (P). APPROACH COMPARISON CAN BE SIMILAR (S),

IDENTICAL (I), OR EQUIVALENT (E). STRUCTURAL SIMILARITY CAN USE CFG (C), ICFG (I), CALLGRAPH (G), AND OTHER CUSTOM GRAPHS (O).

MACHINE LEARNING CAN BE SUPERVISED (S) OR UNSUPERVISED (U). IN NORMALIZATION, 7 MEANS NO NORMALIZATION,  OPERAND REMOVAL,

• OPERAND NORMALIZATION, ◦ MNEMONIC NORMALIZATION, AND ? CODE ELIMINATION.

Approach Characteristics

Approach Year Venue

Input Comparison

Approach Comparison

Input Granularity

Approach Granularities

Syntactical similarity

Semantic similarity

Structural similarity

Feature-based

Machine learning

Locality sensitive hashing

Cross-architecture

Static analysis

Dynamic analysis

Dataﬂow analysis

Normalization

EXEDIFF [25] 1999 WCSSS OO I P I X 7 7 7 7 7 7 X 7 7 •

BMAT [32] 1999 FDO2 OO S,I P F,B X 7 C 7 7 7 7 X 7 7 •◦

F2004 [26] 2004 DIMVA OO S P F 7 7 C,G X 7 7 7 X 7 7 7

DR2005 [27] 2005 SSTIC OO S,I P F,B,I X 7 C,G X 7 7 7 X 7 7 •

KKMRV2005 [19] 2005 RAID MM S P B* 7 X I 7 7 7 7 X 7 7 •

BMM2006 [20] 2006 DIMVA OO S P B* 7 X I 7 7 7 7 X 7 X •

BINHUNT [28] 2008 ICISC OO S,E P F,B 7 X C,G 7 7 7 7 X 7 X 7

SWPQS2006 [56] 2009 ISSTA MM S,I I* I* X 7 7 X 7 X 7 X 7 7 •

SMIT [16] 2009 CCS OM S,I P F X 7 G X 7 7 7 X 7 7 7

IDEA [57] 2010 ESSoS MM S P I* X 7 7 X 7 7 7 X 7 7 •

MBC [58] 2012 RACS MM S P B X 7 7 X 7 7 7 X 7 7 •

IBINHUNT [59] 2012 ICISC OO S,E P B 7 X I 7 7 7 7 X X X 7

BEAGLE [22] 2012 ACSAC MM S P B* 7 X C 7 7 7 7 X X 7 •

BINHASH [60] 2012 ICMLA MM E F B 7 X 7 X U X 7 X 7 X •

BINJUICE [42] 2013 PPREW OO S,E P F,B 7 X 7 7 7 7 7 X 7 X 7

BINSLAYER [61] 2013 PPREW OO S P F,B 7 7 C,G 7 7 7 7 X 7 7 •

RENDEZVOUS [62] 2013 MSR OM S F F X 7 7 7 7 7 7 X 7 7 •

MUTANTX-S [17] 2013 Usenix ATC MM S P I* X 7 7 X U 7 7 X 7 7 •

EXPOS

E [63] 2013 COMPSAC OM S,E P F,I* X X 7 X 7 7 7 X 7 X •

ILINE [23] 2013 USENIX Sec MM S P B,I* X 7 7 X U 7 7 X X 7 •◦?

LKI2013 [64] 2013 RACS OO S P F,I* 7 7 C,G X 7 7 7 X 7 7 •

TRACY [1] 2014 PLDI OM S,E F I* X X 7 7 7 7 7 X 7 X ?

BINCLONE [65] 2014 SERE MM S,I I* I* X 7 7 X 7 7 7 X 7 7 •

RMKNHLLP2014 [66] 2014 DIMVA MM S F* F 7 7 7 X U 7 7 X 7 X 7

CXZ2014 [21] 2014 TDSC OM S P F 7 7 C X 7 7 7 X 7 7 7

BLEX [67] 2014 USENIX Sec OO S F F 7 X 7 X 7 7 7 X X 7 7

COP [33], [68] 2014 ESEC/FSE OO S,E P F,B 7 X C 7 7 7 7 X 7 X 7

TEDEM [2] 2014 ACSAC OM S B* B 7 X C 7 7 7 7 X 7 7 7

SIGMA [69] 2015 DFRWS OO S F F 7 7 O 7 7 7 7 X 7 7 •

MXW2015 [24] 2015 IFIP SEC OO E P B 7 X I 7 7 7 7 X X X •?

MULTI-MH [3] 2015 S&P OM S B* B 7 X C 7 7 X X X 7 X 7

QSM2015 [70] 2015 SANER OO I F I* 7 7 O 7 7 7 7 X 7 X •?

DISCOVRE [4] 2016 NDSS OM S F B 7 7 C X 7 7 X X 7 7 7

MOCKINGBIRD [29] 2016 SANER OM S F F 7 X 7 7 7 7 X 7 X 7 7

ESH [5] 2016 PLDI OM E F I* 7 X 7 7 7 7 7 X 7 X 7

TPM [71] 2016 TrustCom OO S P F 7 7 7 X 7 7 7 X 7 7 7

BINDNN [72] 2016 SecureComm OM S F F 7 7 7 7 S 7 X X 7 7 •

GENIUS [6] 2016 CCS OM S F B 7 7 C X U X X X 7 7 7

BINGO [7] 2016 FSE OM S F B*,I* 7 X 7 7 7 7 X X 7 X ?

KLKI2016 [18] 2016 JSCOMPUT OO S P F 7 7 G X 7 7 7 X X 7 7

KAM1N0 [73] 2016 SIGKDD OM S B* B X 7 C X 7 X 7 X 7 7 •

BINSEQUENCE [8] 2017 ASIACCS OM S F B,I X 7 C 7 7 X 7 X 7 7 •

XMATCH [9] 2017 ASIACCS OM S F I* 7 X 7 7 7 7 X X 7 X 7

CACOMPARE [74] 2017 ICPC OM S F F 7 X 7 7 7 X X X 7 7 7

SPAIN [30] 2017 ICSE OO S,I P F,B X X 7 7 7 7 7 X 7 X •

BINSIGN [75] 2017 IFIP SEC OM S F F 7 7 7 X 7 X 7 X 7 7 •

GITZ [10] 2017 PLDI OM E F I* 7 X 7 7 7 7 X X 7 7 7

BINSHAPE [76] 2017 DIMVA OM S F F 7 7 7 X 7 X 7 X 7 7 •

BINSIM [77] 2017 USENIX Sec OO S T I* 7 X 7 7 7 7 7 7 X X 7

KS2017 [31] 2017 ASE OM S T I* 7 X 7 X 7 7 7 7 X 7 7

IMF-SIM [78] 2017 ASE OO S F F 7 X 7 X S 7 7 7 X X 7

GEMINI [12] 2017 CCS OM S F F 7 7 C X S X X X 7 7 7

FOSSIL [79] 2018 TOPS OM S F F,B* 7 X C X 7 7 7 X 7 7 •

FIRMUP [13] 2018 ASPLOS OM E F I* 7 X 7 7 7 7 X X 7 7 •

BINARM [14] 2018 DIMVA OM S F F 7 7 C X 7 7 7 X 7 7 •

αDIFF [15] 2018 ASE OO S P F 7 7 7 7 S 7 X X 7 7 7

VULSEEKER [11] 2018 ASE OM S F F 7 7 C X S 7 X X 7 X 7

RLZ2019 [80] 2019 BAR OM S B B 7 7 7 7 S 7 X X 7 7 •

INNEREYE [81] 2019 NDSS OM S B* B 7 7 7 7 S X X X 7 7 •

ASM2VEC [82] 2019 S&P OM S F I* 7 7 7 7 S 7 7 X 7 7 7

SAFE [83] 2019 DIMVA OM S F F 7 7 7 7 S 7 X X 7 7 7

剩余21页未读，继续阅读

不愿透露姓名的菜鸟

粉丝: 460
资源: 9

二进制代码相似度计算：一项综合调查

VC++进制转换工具Hex-conversion.zip详解

掌握计算机基础：进制转换全攻略(二进制-十进制-八进制-十六进制)

MaxMind GeoLite2-Country.mmdb数据库更新下载指南

ASCII表(十进制-十六进制-二进制-字符)[归纳].pdf

二进制文件-切割-小工具

VB十进制八进制十六进制二进制相互转换大全.pdf

逻辑图及二进制逻辑元件的图形符号.pdf，这是一份不错的文件

各种进制的转换计算机基础呀.pdf

二进制代码相似度分析及在嵌入式设备固件漏洞搜索中的应用.pdf

asm-2.2.3.jar，asm-commons-2.2.3.jar，asm-util-2.2.3.jar

最新资源