"二进制函数相似性分析与特征提取前沿研究"

需积分: 0 1 下载量 4 浏览量 更新于2024-01-05 收藏 37KB DOCX 举报
特征提取前沿论文最新进展 2018.10.30 方建勇(1) 背景: 当前,Instagram每天有数百万个帖子可供使用,可用于告知公共卫生监督目标和政策。然而,目前依赖于基于图像的数据的研究通常依赖于图像的手工编码,这是耗时且昂贵的。 特征提取的问题: 在本篇论文中,我们考虑了二进制相似性问题,即确定两个二元函数是否相似,只考虑它们的编译形式。这个问题在一些应用场景中是至关重要的,例如版权纠纷、恶意软件分析和漏洞检测等。目前,该领域最先进的解决方案是通过创建将二进制函数映射到向量的嵌入模型来解决这一问题。 嵌入模型的工作原理: 该嵌入模型将二进制函数映射到Rn空间的向量中,并捕捉二进制函数之间的句法和语义相似性,即类似的二进制函数会被映射到向量空间中接近的点。这种策略具有许多优点,其中之一是可以预先计算几个二元函数的嵌入,然后使用简单的几何运算(例如点积)进行比较。 方法提出和测试: 在这篇论文中,我们提出并测试了几种计算注释控制流图(ACFG)的方法,这些方法使用无监督的特征学习方法,以避免人为偏差的产生。我们的方法受到自然语言处理社区中使用的技术的启发,例如我们使用word2vec来编码汇编指令。我们证明我们的方法确实是成功的,并且具有比以前最先进的解决方案更好的性能。此外,我们还对函数嵌入进行了定性分析,发现了一些有趣的案例,其中嵌入根据原始函数的特征成功地捕捉到了函数之间的相似性。 总结: 通过本篇论文的研究,我们找到了一种无监督的特征学习方法来计算注释控制流图中二元函数的嵌入,并证明其在确定二进制函数相似性问题上具有更好的性能。我们的方法受到自然语言处理技术的启发,为二进制函数相似性的研究提供了新的路径。我们的研究还提供了定性分析,揭示了嵌入模型成功捕捉到的函数相似性的一些有趣案例。通过这些进展,我们可以更好地理解和利用图像中的信息,并在公共卫生监督和政策制定方面提供更好的决策依据。