基于BERT的语义感知二进制代码表示
需积分: 5 24 浏览量
更新于2024-07-07
收藏 3.65MB DOCX 举报
2021_Semantic-aware Binary Code Representation with BERT
本文提出了一种基于BERT的语义感知二进制代码表示方法,称为DeepSemantic。该方法通过使用BERT架构,能够自动地生成二进制代码的语义感知表示,从而提高二进制分析的准确性和效率。
DeepSemantic方法的提出背景是,由于二进制代码分析的重要性日益增加,例如bug发现、恶意软件分析和代码克隆检测等。但是,现有的基于机器学习的二进制分析方法仍然存在一些缺陷,例如需要手动制作分析算法的具体内容,或者需要重新创造模型以适应不同类型的二进制分析。
为解决这些问题,DeepSemantic方法引入了平衡良好的指令归一化,以保留丰富的信息,同时将词汇外(OOV)问题降到最低。此外,DeepSemantic方法还利用了BERT架构的精髓,重新利用了一个预先训练好的通用模型,该模型可随时作为一次性处理,然后通过一个微调过程快速应用特定的下游任务。
在实验中,DeepSemantic方法在两个下游任务中都取得了很好的结果,即二进制相似性比较和编译器出处预测。实验结果表明,二进制相似性模型优于两个最先进的二进制相似性工具,DeepBinDiff和SAFE,平均分别为49.84%和15.83%。
在现代计算环境中,二进制分析在实现广泛的流行用例中起着举足轻重的作用,例如代码克隆或软件剽窃检测、分布式软件的漏洞发现、恶意软件检测和分类、程序修复或补丁分析、以及用于数字取证的工具链来源等。因此,DeepSemantic方法的提出将对二进制分析领域产生深远的影响。
在技术层面,DeepSemantic方法的提出也将推动二进制分析技术的发展。例如,基于BERT的语义感知二进制代码表示将能够更好地捕捉二进制代码的语义信息,从而提高二进制分析的准确性和效率。此外,DeepSemantic方法也将推动机器学习技术在二进制分析领域的应用,例如使用预先训练好的通用模型来快速应用特定的下游任务。
DeepSemantic方法的提出将对二进制分析领域产生深远的影响,推动二进制分析技术的发展,并提高二进制分析的准确性和效率。
2021-12-13 上传
2022-02-17 上传
2022-01-06 上传
2023-06-02 上传
2023-06-03 上传
2023-03-21 上传
2023-03-21 上传
2023-05-25 上传
2023-09-05 上传
uubs
- 粉丝: 1
- 资源: 6
最新资源
- MATLAB实现小波阈值去噪:Visushrink硬软算法对比
- 易语言实现画板图像缩放功能教程
- 大模型推荐系统: 优化算法与模型压缩技术
- Stancy: 静态文件驱动的简单RESTful API与前端框架集成
- 掌握Java全文搜索:深入Apache Lucene开源系统
- 19计应19田超的Python7-1试题整理
- 易语言实现多线程网络时间同步源码解析
- 人工智能大模型学习与实践指南
- 掌握Markdown:从基础到高级技巧解析
- JS-PizzaStore: JS应用程序模拟披萨递送服务
- CAMV开源XML编辑器:编辑、验证、设计及架构工具集
- 医学免疫学情景化自动生成考题系统
- 易语言实现多语言界面编程教程
- MATLAB实现16种回归算法在数据挖掘中的应用
- ***内容构建指南:深入HTML与LaTeX
- Python实现维基百科“历史上的今天”数据抓取教程