BDSAL：基于大数据和Louvain算法的攻击者画像构建

需积分: 38 86 浏览量更新于2024-08-13 2 收藏 1.36MB PDF 举报

"该文提出了一种基于大数据流式解析技术和Louvain社群发现算法的攻击者画像构建方法，旨在在网络威胁入侵日志中快速准确地识别攻击事件和攻击者。通过CAPEC标准定义安全事件的范式模型，利用大数据流处理多源异构日志，生成事件特征图，然后应用社群发现算法进行聚类分析，从而发现攻击者。这种方法在实验室攻防数据上得到了验证，证明了其有效性和可行性。" 本文主要探讨了如何在海量、多源和异构的网络威胁数据中构建攻击者的特征画像。首先，作者引入了攻击模式枚举与分类（CAPEC）标准，这是一个广泛认可的安全事件分类框架，用于定义和理解各种攻击行为。通过对CAPEC的引用，文章建立了安全事件的范式模型，这有助于标准化不同来源的日志数据，使其可以进行有效的比较和分析。接着，文章提到了大数据流式解析技术，这是一种处理大规模实时数据流的方法，能够快速处理来自多个源头的异构日志。通过结合大数据流式消息队列，可以高效地将这些日志转化为统一的范式化安全事件，便于后续处理和分析。在数据预处理的基础上，作者提出了使用事件特征图来表示安全事件的关键特性。这些特征可能包括时间戳、IP地址、攻击类型等，它们形成了图的节点和边。然后，通过Louvain社群发现算法对特征图进行聚类。Louvain算法是一种高效的社区检测方法，能识别出图中紧密连接的子集，即社群，这在本场景下代表可能的攻击者群体或活动模式。社群发现的结果有助于识别潜在的攻击者，因为同一社群内的节点（特征）可能共享相似的攻击模式或行为特征。通过这种方式，可以将看似无关的事件关联起来，形成攻击者的完整画像，包括他们的行动模式、偏好和目标。最后，作者通过实验室的攻防实验数据验证了该方法的有效性。这种实验环境提供了真实世界攻击的模拟，使评估结果更具说服力。实验结果表明，提出的BDSAL方法能够有效地从复杂的数据中抽取出攻击者的特征，从而提升攻击事件的识别能力和响应速度。该研究工作提供了一个实用的工具，它利用大数据处理技术和图分析，提高了网络安全监控的能力，对于防范和应对网络攻击具有重要的实践意义。此外，这种方法的灵活性和可扩展性使其适用于不断演变的网络安全挑战。

　　收稿日期：２０１９０９１８；修回日期：２０１９１１０２　　基金项目：２０１８年教育部产学合作协同育人项目（２０１８０２０７６０２５）

　　作者简介：黄志宏（１９８１），男，江苏连云港人，高级工程师，硕士，主要研究方向为网络信息安全；张波（１９７３），男（通信作者），广东揭西人，高

级工程师，博士，主要研究方向为网络信息安全（ｚｂ＠ｓｃａｕ．ｅｄｕ．ｃｎ）．

基于大数据和图社群聚类算法的攻击者画像构建



黄志宏

ａ，ｂ

，张　波

ａ，ｂ

（华南农业大学ａ．现代教育技术中心；ｂ．网络安全应急响应中心，广州５１０６４２）

摘　要：为了在海量、多源、异构的网络威胁入侵日志中快速、准确地甄别真实的攻击事件及发现攻击者，并构

建其特征画像，提出一种基于大数据流式解析技术和Ｌｏｕｖａｉｎ社群发现算法（ｂｉｇｄａｔａｓｔｒｅａｍａｎａｌｙｓｉｓａｎｄＬｏｕｖａｉｎ，

ＢＤＳＡＬ）的构建攻击者画像的方法。根据攻击模式枚举与分类（ｃｏｍｍｏｎａｔｔａｃｋｐａｔｔｅｒｎｅｎｕｍｅｒａｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａ

ｔｉｏｎ

，ＣＡＰＥＣ）标准定义了安全事件的范式模型，并结合大数据流式消息队列实现将多源异构日志快速范化成为范

式化安全事件。通过提取和扩展安全事件的特征生成事件特征图，并按照时空和攻击模式特征，使用社群发现算

法对特征图进行聚类，以发现攻击者。最后，结合实验室真实的攻防数据，验证了该方法的可行性和有效性。

关键词：大数据；网络威胁；特征图聚类；社区发现；攻击者发现；攻击者画像

中图分类号：ＴＰ３０９　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２１）０１０４６０２３２０５

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１９．０９．０６２１

Ａｔｔａｃｋｅｒｐｏｒｔｒａｉｔｃｏｎｓｔｒｕｃｔｉｏｎｂａｓｅｄｏｎｌａｒｇｅｄａｔａａｎｄ

ｇｒａｐｈｃｏｍｍｕｎｉｔｙｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ

ＨｕａｎｇＺｈｉｈｏｎｇ

ａ，ｂ

，ＺｈａｎｇＢｏ

ａ，ｂ

（ａ．ＭｏｄｅｒｎＥｄｕｃａｔｉｏｎ＆ＴｅｃｈｎｏｌｏｇｙＣｅｎｔｅｒ，ｂ．ＮｅｔｗｏｒｋＳｅｃｕｒｉｔｙＥｍｅｒｇｅｎｃｙＲｅｓｐｏｎｓｅＣｅｎｔｅｒ，ＳｏｕｔｈＣｈｉｎａＡｇｒｉｃｕｌｔｕｒａｌＵｎｉｖｅｒｓｉｔｙ，Ｇｕａｎｇｚｈｏｕ

５１０６４２，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｉｎｏｒｄｅｒｔｏｑｕｉｃｋｌｙａｎｄａｃｃｕｒａｔｅｌｙｉｄｅｎｔｉｆｙｒｅａｌａｔｔａｃｋｅｖｅｎｔｓｉｎｍａｓｓｉｖｅ，ｍｕｌｔｉｓｏｕｒｃｅａｎｄｈｅｔｅｒｏｇｅｎｅｏｕｓｎｅｔｗｏｒｋ

ｔｈｒｅａｔｉｎｔｒｕｓｉｏｎｌｏｇｓ

，ａｎｄｄｉｓｃｏｖｅｒａｔｔａｃｋｅｒｓ，ａｎｄｃｏｎｓｔｒｕｃｔｔｈｅｉｒｃｈａｒａｃｔｅｒｉｓｔｉｃｐｏｒｔｒａｉｔｓ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｍｅｔｈｏｄｔｏｃｏｎ

ｓｔｒｕｃｔａｔｔａｃｋｅｒｐｏｒｔｒａｉｔｓｂａｓｅｄｏｎＢＤＳＡＬ．ＩｔｄｅｆｉｎｅｄａｐａｒａｄｉｇｍｍｏｄｅｌｏｆｓｅｃｕｒｉｔｙｅｖｅｎｔｓａｃｃｏｒｄｉｎｇｔｏＣＡＰＥＣ，ａｎｄｒａｐｉｄｌｙ

ｎｏｒｍａｌｉｚｅｄｔｈｅｍｕｌｔｉｓｏｕｒｃｅｈｅｔｅｒｏｇｅｎｅｏｕｓｌｏｇｉｎｔｏａｐａｒａｄｉｇｍｂａｓｅｄｓｅｃｕｒｉｔｙｅｖｅｎｔｃｏｍｂｉｎｅｄｗｉｔｈｔｈｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｌａｒｇｅ

ｄａｔａｆｌｏｗｍｅｓｓａｇｅｑｕｅｕｅ．Ｂｙｅｘｔｒａｃｔｉｎｇａｎｄｅｘｐａｎｄｉｎｇｔｈｅｆｅａｔｕｒｅｓｏｆｓｅｃｕｒｉｔｙｅｖｅｎｔｓ

，ｉｔｇｅｎｅｒａｔｅｄｅｖｅｎｔｆｅａｔｕｒｅｍａｐｓ．Ａｃ

ｃｏｒｄｉｎｇｔｏｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｓｐａｃｅｔｉｍｅａｎｄａｔｔａｃｋｐａｔｔｅｒｎｓ，ｉｔｕｓｅｄｔｈｅｃｏｍｍｕｎｉｔｙｄｉｓｃｏｖｅｒｙａｌｇｏｒｉｔｈｍｔｏｃｌｕｓｔｅｒｔｈｅｆｅａｔｕｒｅ

ｍａｐｓａｎｄｆｉｎｄｔｈｅａｔｔａｃｋｅｒｓ．Ｆｉｎａｌｌｙ，ｉｔｖｅｒｉｆｉｅｓｔｈｅｆｅａｓｉｂｉｌｉｔｙａｎｄｖａｌｉｄｉｔｙｏｆｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｂｙｔｈｅｒｅａｌａｔｔａｃｋａｎｄｄｅ

ｆｅｎｓｅｄａｔａｏｆｔｈｅｌａｂｏｒａｔｏｒｙ．

Ｋｅｙｗｏｒｄｓ：ｂｉｇｄａｔａ；ｎｅｔｗｏｒｋｔｈｒｅａｔｓ；ｆｅａｔｕｒｅｇｒａｐｈｃｌｕｓｔｅｒｉｎｇ；ｃｏｍｍｕｎｉｔｙｄｉｓｃｏｖｅｒｙ；ａｔｔａｃｋｅｒｄｉｓｃｏｖｅｒｙ；ａｔｔａｃｋｅｒｐｏｒｔｒａｉｔ

０　引言

近年来，随着互联网、云计算、大数据等新兴技术的快速发

展与应用，针对网络与信息系统的威胁入侵行为也大幅增加，

越来越多的单位或组织正面临着遭受勒索病毒、网络入侵、数

据窃取、页面窜改等各类攻击的风险，因此，通常会配置

ＩＤＳ、

ＩＰＳ、ＷＡＦ、沙箱等多种安全防护设备来预防威胁入侵事件带来

的损害

［１～４］

。但与此同时，多种安全防护设备产生的海量告警

信息给网络安全管理人员和网络安全运维人员带来了极大的

挑战。在某高校１ＧＢ流量场景下，ＷＡＦ设备每天产生的告警

日志约５万条，ＩＰＳ设备每天产生的告警日志约８万条。不仅

告警日志数据量巨大，告警日志的格式也因为厂商和设备的不

同而差异巨大。Ｇａｒｔｎｅｒ公司在其２０１２年发表的报告中指出，

信息安全问题正在成为一个大数据分析问题

［５，６］

。如何从海

量、多源、异构的安全日志中，发现和生成真正具有危害的安全

事件，并且基于事件特征进一步进行关联和推理，以实现攻击

场景还原、攻击溯源和攻击者画像等目标，正是在现今大数据

威胁态势感知的背景下进行网络安全分析的主要需求之一。

攻击者画像主要是通过收集攻击者所使用工具的软硬件特征，

以及在攻击过程中产生的攻击方法、攻击习惯、攻击意图等信

息集合，并经过关联分析对攻击者特征进行刻画

［７，８］

。构建攻

击者画像已成为网络入侵检测及防御过程中，分析攻击者意

图，并对攻击过程进行有效还原及预测的重要方法。对于现今

所有的网络安全运维人员和管理人员来说也是一个非常值得

深入研究的课题。业界对于攻击者溯源和画像最开始主要是

通过重构数据包的路径来实现对攻击者

ＩＰ和地域的追踪及画

像。但一方面，网络数据包真正的原地址的追踪往往非常困

难；另一方面仅从数据包获取信息，信息量非常少，对于完整描

绘攻击者非常不利。本文则基于多种不同的数据源，从攻击

者、攻击目标和攻击手段等多个维度对网络入侵攻击进行描

绘，通过全面地分析网络入侵特征，有效地还原攻击过程，实现

攻击者画像的完整构建。

随着威胁情报的民用化，Ｑａｍａｒ等人

［９］

开始结合威胁情

报，构建基于图本体的关联模型进行多元化信息关联，实现对

某些类型的攻击进行判断。该方式虽然解决了攻击者画像信

息过于单一的问题，但是非常依赖威胁情报本身的质量和关联

模型的准确性。并且，比起实时流量，威胁情报所包含的内容

量级过少，在很多实际环境中无法通过有限的威胁情报进行攻

击者的追踪。

Ｊｏｅｌ等人

［１０］

通过攻防演练的方式逐步完善攻击

者的行为特征。Ｍａｌｌｉｋａｒｊｕｎａｎ等人

［１１］

从多个维度进行攻击者

行为模型的构建。这些方法往往依赖较多的人工建模，在某些

固定场景和小量数据下表现非常好，但无法有效应对海量数据

和多场景甚至未知场景的情况。

近年来，随着威胁态势感知逐渐成为网络安全防护的共

第３８卷第１期

２０２１年１月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３８Ｎｏ．１

Ｊａｎ．２０２１

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38692707

粉丝: 8
资源: 901

BDSAL：基于大数据和Louvain算法的攻击者画像构建

大数据K-means聚类算法优化在线学习行为路径

CBSCAN：位置大数据的高效密度聚类算法

大数据时代下的聚类算法研究与发展趋势

基于大数据的混合图像聚类算法

基于大数据K-means聚类算法的在线学习行为路径的研究

大数据集快速谱聚类算法

大数据应用基础-聚类算法.pptx

大数据应用基础-聚类算法.rar

面向位置大数据的快速密度聚类算法

大数据应用基础-聚类算法.ppt

最新资源