网络威胁归因自动特征提取:基于Attack2vec的NLP方法

0 下载量 97 浏览量 更新于2024-06-18 1 收藏 1.86MB PDF 举报
本文探讨了网络威胁情报自动化特征提取及归因机制的研究,着重于在网络威胁归因这一复杂问题上寻求创新解决方案。网络威胁归因是指确定网络攻击背后的真实幕后黑手,由于攻击者常常运用混淆和欺骗手段,使得这项工作极具挑战性。传统的数字取证调查依赖于从网络日志中收集证据,但这些信息通常是非结构化的CTI报告,如文本和PDF,缺乏标准化格式,手动提取有价值信息十分困难。 研究的焦点是开发一种自动化机制,通过自然语言处理(NLP)技术对非结构化的CTI报告进行深度分析。作者提出了利用名为"Attack2vec"的新型嵌入模型,这是一种针对网络安全领域进行特殊训练的模型。与通用嵌入模型相比,它在提取战术、技术、工具、恶意软件、目标组织/国家以及应用程序等关键特征方面表现更优。实验结果显示,通过采用"Attack2vec"模型,结合决策树、随机森林、支持向量机等机器学习算法,能够在归因准确率、精确度、召回率和F1-measure等多个指标上达到较高的水平,其中准确率高达96%,精确度为96.4%,召回率为95.58%,F1-measure为95.75%。 该研究不仅提升了网络威胁情报处理的效率,还为网络安全专业人员提供了有力的工具,帮助他们更快地识别和追踪网络威胁行为者。通过本文的方法,可以有效地减少人工介入,降低误判和漏报的风险,对于维护网络安全生态系统具有重要意义。此外,论文强调了开放获取,表明研究成果可以被广泛共享,并且受到Creative Commons BY-NC-ND许可,鼓励学术界进一步探索和应用此类技术。