收稿日期:20190918;修回日期:20191102 基金项目:2018年教育部产学合作协同育人项目(201802076025)
作者简介:黄志宏(1981),男,江苏连云港人,高级工程师,硕士,主要研究方向为网络信息安全;张波(1973),男(通信作者),广东揭西人,高
级工程师,博士,主要研究方向为网络信息安全(zb@scau.edu.cn).
基于大数据和图社群聚类算法的攻击者画像构建
黄志宏
a,b
,张 波
a,b
(华南农业大学 a.现代教育技术中心;b.网络安全应急响应中心,广州 510642)
摘 要:为了在海量、多源、异构的网络威胁入侵日志中快速、准确地甄别真实的攻击事件及发现攻击者,并构
建其特征画像,提出一种基于大数据流式解析技术和 Louvain社群发现算法(bigdatastreamanalysisandLouvain,
BDSAL)的构建攻击者画像的方法。根据攻击模式枚举与分类(commonattackpatternenumerationandclassifica
tion
,CAPEC)标准定义了安全事件的范式模型,并结合大数据流式消息队列实现将多源异构日志快速范化成为范
式化安全事件。通过提取和扩展安全事件的特征生成事件特征图,并按照时空和攻击模式特征,使用社群发现算
法对特征图进行聚类,以发现攻击者。最后,结合实验室真实的攻防数据,验证了该方法的可行性和有效性。
关键词:大数据;网络威胁;特征图聚类;社区发现;攻击者发现;攻击者画像
中图分类号:TP309 文献标志码:A 文章编号:10013695(2021)01046023205
doi:10.19734/j.issn.10013695.2019.09.0621
Attackerportraitconstructionbasedonlargedataand
graphcommunityclusteringalgorithms
HuangZhihong
a,b
,ZhangBo
a,b
(a.ModernEducation&TechnologyCenter,b.NetworkSecurityEmergencyResponseCenter,SouthChinaAgriculturalUniversity,Guangzhou
510642,China)
Abstract:Inordertoquicklyandaccuratelyidentifyrealattackeventsinmassive,multisourceandheterogeneousnetwork
threatintrusionlogs
,anddiscoverattackers,andconstructtheircharacteristicportraits,thispaperproposedamethodtocon
structattackerportraitsbasedonBDSAL.ItdefinedaparadigmmodelofsecurityeventsaccordingtoCAPEC,andrapidly
normalizedthemultisourceheterogeneouslogintoaparadigmbasedsecurityeventcombinedwiththeimplementationoflarge
dataflowmessagequeue.Byextractingandexpandingthefeaturesofsecurityevents
,itgeneratedeventfeaturemaps.Ac
cordingtothecharacteristicsofspacetimeandattackpatterns,itusedthecommunitydiscoveryalgorithmtoclusterthefeature
mapsandfindtheattackers.Finally,itverifiesthefeasibilityandvalidityoftheproposedmethodbytherealattackandde
fensedataofthelaboratory.
Keywords:bigdata;networkthreats;featuregraphclustering;communitydiscovery;attackerdiscovery;attackerportrait
0 引言
近年来,随着互联网、云计算、大数据等新兴技术的快速发
展与应用,针对网络与信息系统的威胁入侵行为也大幅增加,
越来越多的单位或组织正面临着遭受勒索病毒、网络入侵、数
据窃取、页面窜改等各类攻击的风险,因此,通常会配置
IDS、
IPS、WAF、沙箱等多种安全防护设备来预防威胁入侵事件带来
的损害
[1~4]
。但与此同时,多种安全防护设备产生的海量告警
信息给网络安全管理人员和网络安全运维人员带来了极大的
挑战。在某高校 1GB流量场景下,WAF设备每天产生的告警
日志约 5万条,IPS设备每天产生的告警日志约 8万条。不仅
告警日志数据量巨大,告警日志的格式也因为厂商和设备的不
同而差异巨大。Gartner公司在其 2012年发表的报告中指出,
信息安全问题正在成为一个大数据分析问题
[5,6]
。如何从海
量、多源、异构的安全日志中,发现和生成真正具有危害的安全
事件,并且基于事件特征进一步进行关联和推理,以实现攻击
场景还原、攻击溯源和攻击者画像等目标,正是在现今大数据
威胁态势感知的背景下进行网络安全分析的主要需求之一。
攻击者画像主要是通过收集攻击者所使用工具的软硬件特征,
以及在攻击过程中产生的攻击方法、攻击习惯、攻击意图等信
息集合,并经过关联分析对攻击者特征进行刻画
[7,8]
。构建攻
击者画像已成为网络入侵检测及防御过程中,分析攻击者意
图,并对攻击过程进行有效还原及预测的重要方法。对于现今
所有的网络安全运维人员和管理人员来说也是一个非常值得
深入研究的课题。业界对于攻击者溯源和画像最开始主要是
通过重构数据包的路径来实现对攻击者
IP和地域的追踪及画
像。但一方面,网络数据包真正的原地址的追踪往往非常困
难;另一方面仅从数据包获取信息,信息量非常少,对于完整描
绘攻击者非常不利。本文则基于多种不同的数据源,从攻击
者、攻击目标和攻击手段等多个维度对网络入侵攻击进行描
绘,通过全面地分析网络入侵特征,有效地还原攻击过程,实现
攻击者画像的完整构建。
随着威胁情报的民用化,Qamar等人
[9]
开始结合威胁情
报,构建基于图本体的关联模型进行多元化信息关联,实现对
某些类型的攻击进行判断。该方式虽然解决了攻击者画像信
息过于单一的问题,但是非常依赖威胁情报本身的质量和关联
模型的准确性。并且,比起实时流量,威胁情报所包含的内容
量级过少,在很多实际环境中无法通过有限的威胁情报进行攻
击者的追踪。
Joel等人
[10]
通过攻防演练的方式逐步完善攻击
者的行为特征。Mallikarjunan等人
[11]
从多个维度进行攻击者
行为模型的构建。这些方法往往依赖较多的人工建模,在某些
固定场景和小量数据下表现非常好,但无法有效应对海量数据
和多场景甚至未知场景的情况。
近年来,随着威胁态势感知逐渐成为网络安全防护的共
第 38卷第 1期
2021年 1月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.38No.1
Jan.2021