没有合适的资源?快使用搜索试试~ 我知道了~
9830DISCOVER:挖掘在线讨论中的新兴网络威胁0Anna Sapienza �0南加州大学信息科学研究所annas@isi.edu0Sindhu Kiranmai Ernala佐治亚理工学院sernala3@gatech.edu0Alessandro Bessi南加州大学信息科学研究所bessi@isi.edu0Kristina Lerman南加州大学信息科学研究所lerman@isi.edu0Emilio Ferrara南加州大学信息科学研究所ferrarae@isi.edu0摘要0网络技术的广泛应用带来了巨大的经济和社会增长,但也使个人和组织面临来自恶意网络行为者的新威胁。最近的WannaCry和NotPetya勒索软件加密蠕虫攻击感染了全球数十万台计算机系统,危及数据和关键基础设施。因此,在它们传播之前检测和甚至预测网络攻击至关重要。在这里,我们介绍了DISCOVER,一种早期网络威胁预警系统,它通过挖掘社交媒体、安全博客和暗网论坛上的网络行为者的在线讨论,识别信号潜在的网络攻击。我们评估了DISCOVER,并发现它可以以超过80%的精确度识别与新兴网络威胁相关的术语。DISCOVER还生成了不同Web来源上相关在线讨论的时间线,这对于分析新兴网络威胁非常有用。0CCS概念0• 安全与隐私 →恶意软件及其缓解;软件和应用程序安全;入侵检测系统;漏洞管理;0关键词0网络挖掘;网络安全;网络威胁预测0ACM参考格式:Anna Sapienza,Sindhu Kiranmai Ernala,AlessandroBessi,Kristina Lerman和EmilioFerrara。2018年。DISCOVER:挖掘在线讨论中的新兴网络威胁。在WWW'18 Companion:2018年Web会议Com-panion,2018年4月23日至27日,法国里昂。ACM,纽约,纽约,美国,8页。https://doi.org/10.1145/3184558.319152801 引言0世界变得越来越互联,个人和组织通过人们每天使用的网络相互连接,进行社交、获取信息和教育、购买和销售产品。0� A. Sapienza, S.K. Ernala和A. Bessi对本文的贡献相同。0本文根据知识共享署名4.0国际许可发布。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW '18 Companion,2018年4月23日至27日,法国里昂。©2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31915280网络的普及使人们可以进行社交、获取信息和教育、购买和销售产品、管理财务、找工作等等。虽然这个全球网络带来了许多优势,但也使人们暴露在来自网络攻击者的新威胁之下,这些攻击者可以破坏和滥用他们的计算机系统和数据。网络攻击的数量正在增长:2016年,每天发生超过4000次网络攻击。网络攻击的多样性也在增长,每天都会出现新的网络钓鱼攻击、个人数据泄露、恶意软件、木马、僵尸网络等等。网络攻击对社会的影响也在增长。例如,最近,全球范围内的个人和组织都成为了WannaCry勒索软件攻击的受害者,该攻击针对运行MicrosoftWindows操作系统的计算机。勒索软件加密了受害者的文件,并要求支付赎金以获取解密密钥。在类似的勒索软件攻击中,NotPetya在2017年6月感染了全球许多组织。为了减轻网络攻击的风险并减少其损害,我们需要新的方法来预测攻击,或者至少在早期阶段检测到攻击。网络威胁的增长增加了预测即将发生的攻击信号在公开的公共数据源中可见的可能性。网络攻击者利用工具、技术和技巧来利用漏洞。因此,为了进行攻击,恶意行为者通常必须1)识别漏洞,2)获得使用它们所需的专业知识和工具,3)选择目标,4)招募参与者,5)计划和执行攻击。其他参与者,如系统管理员、安全分析师,甚至受害者,可能会讨论漏洞、威胁或协调对抗攻击的防御措施。这些讨论通常在在线论坛上进行,包括博客和社交媒体,从而产生了识别即将发生的攻击或新的网络漏洞的潜在信号。现有的方法主要使用单个Web源作为预测漏洞或攻击的信号。在本文中,我们介绍了DISCOVER,一种利用多个在线数据源作为信号来生成指示新潜在网络威胁的警告的方法。DISCOVER实时监测与网络安全相关的多个在线讨论渠道,包括网络安全专家和“白帽”黑客的博客,以及社交媒体帖子,并检查术语的共现以揭示恶意行为者在暗网论坛和...01 https://www.justice.gov/criminal-ccips/file/872771/download0主题:第三届网络安全、在线骚扰和虚假信息国际研讨会 WWW 2018,2018年4月23日至27日,法国里昂9840市场。DISCOVER通过采用数据挖掘技术处理这些来源的数据,以识别与潜在网络威胁相关的新术语,并将其作为警告返回。此外,该框架使用多个数据来源的信号来创建威胁讨论的时间线。系统发现的威胁可以及时提醒安全专家采取预防措施。这样的早期警告生成系统可以帮助组织和受害者做好准备,限制其对网络攻击的脆弱性。本文的其余部分组织如下:在第2节中,我们描述了算法使用的数据来源以及它们如何进行预处理;在第3节中,我们介绍了DISCOVER框架(这是我们在[25]中提出的模型的扩展),包括数据检索基础设施和警告生成的详细信息。然后,我们通过分析几个案例研究,在第4节中评估该方法并呈现实验结果。我们在第5节中回顾了现有的文献,并分析了从在线数据源检测和预测网络威胁的问题。最后,在第6节中,我们对框架的用途和影响以及该问题空间的未来工作进行了讨论。02 数据处理0我们用于警告生成的两个主要数据来源是社交媒体(Twitter)和网络安全专家的博客。我们还使用从暗网收集的数据来查找DISCOVER生成的警告的提及,以创建警告的时间线。02.1 数据收集0社交媒体。Twitter是一种流行的微博客、社交媒体平台,用户可以发布限制在140个字符以内的短消息(“推文”)。我们编制了一个承认的网络安全专家列表,他们经常在Twitter上发布有关网络安全问题的推文。这个手动策划的列表包括69位国际研究人员和与安全公司相关的安全分析师,以及广受关注的白帽黑客。我们每小时收集这些专家在他们的时间线上发布的推文。我们使用官方的TwitterAPI实时收集数据,并将其存储在AmazonEC2实例中。然后,DISCOVER使用ElasticSearch检索这些数据,Elastic Search是一个基于ApacheLucene的开源搜索引擎,提供了一个分布式、多租户能力的无模式JSON文档的全文搜索。每个数据点都有包括推文作者、他们的个人资料信息、位置和推文的时间戳等字段。0网络安全博客。由网络安全专家和白帽黑客编写和策划的顶级博客是DISCOVER的补充数据来源。这些博客提供了关于最新攻击、软件漏洞、流行勒索软件、恶意软件和其他网络安全主题的丰富技术信息。我们首先手动策划了一份包含290个安全博客的列表。然后,我们爬取这些博客,并从中提取数据到一个统一的关系型数据库模式(使用MongoDB后端)。最后,算法通过Elastic SearchAPI检索相关数据。每个数据条目都有不同的字段。在这里,我们关注博客中的每篇文章的发布日期(DatePublished)、URL和文本(text),提供了文章的实际内容。0暗网论坛。深网是指互联网上未被索引和匿名的网站。深网的一部分无法通过标准浏览器或搜索引擎访问,而只能通过Tor和i2p等匿名化协议访问,被称为暗网。为了从暗网的讨论论坛中爬取数据,我们采用了[19,23]中使用的方法。为了从暗网中提取与网络安全相关的数据,我们首先手动编制了一个包含263个与恶意黑客攻击和/或在线金融欺诈(包括钓鱼、鱼叉攻击、数据泄露、勒索软件等)相关的论坛或市场的列表。每个网站每周爬取三次。手动编制的列表中网站的多样性要求使用定制爬虫,而不是基于协议和网站结构的常见爬取方法。类似于博客,一旦数据从多个网站爬取和解析,它就会被存储在一个统一的关系型数据库模式(MongoDB后端)中,以简化数据清理过程。这也使我们能够从爬取的数据中仅识别出与网络安全相关的信息,因为许多暗网上的论坛和市场据知道还涉及其他非法活动,如毒品市场和盗窃物品的销售。最后,DISCOVER使用Elastic SearchAPI检索数据以生成警告。每个数据点都是一个包含元数据(如发布日期、作者用户名、作者声誉等)的长文本帖子。在这里,我们查询数据库以监控关于DISCOVER生成的特定警告的提及。02.2 数据预处理0这三个数据源在性质上非常不同,每个数据源提供了独特类型的信号。与暗网论坛相比,Twitter和网络安全博客的内容更加干净。由于前者是由安全专家编写的,因此在技术话题上非常丰富,并且充满了技术术语。然而,后者是来自暗网来源的各种主题的信息集合。这些帖子还包括代码片段、有关漏洞/漏洞的教程、个人信息(如电子邮件地址、密码等)的数据转储,以及与非网络主题(如毒品交易)相关的内容。暗网论坛的写作风格通常意图难以解析,单词被连接成新术语,并在单个帖子中使用多种语言[19]。根据探索性分析,我们设计了DISCOVER来接收与Twitter和网络安全博客相关的数据,并监测暗网上新潜在威胁的提及。我们在主要来源Twitter和博客上应用了两步过滤和数据预处理过程。过滤步骤会消除文本中不是用英语编写的术语。过滤后,我们通过删除URL、符号、数字等来预处理数据,并对文本进行分词以获得唯一的术语列表。03 发现框架0在本节中,我们详细介绍了DISCOVER框架的详细描述,如图1所示。它分为两个主要部分:文本挖掘基础设施,用于解析不同来源的讨论,以及警告生成方法论,其中检测到新的潜在网络威胁术语。0主题:第三届网络安全、在线骚扰和错误信息国际研讨会WWW 2018,2018年4月23日至27日,法国里昂98503.1 文本挖掘0数据预处理阶段会生成一个大型词汇列表,其中可能有很多与网络威胁无关的词汇。为了“发现”可能指示网络威胁的新术语,我们使用四个阶段的过滤过程来过滤掉“已知”术语。在每个阶段,我们通过将它们从以下字典中排除来过滤掉术语:0(1)英语词典-基于NLTK英语语料库的236,736个常用英语术语用于构建该词典。例如interview、hello、because等术语被删除,因为它们不代表潜在的网络威胁。(2)停用词词典-3136个停用词,例如to、on、a、for等,构成该词典;(3)领域词汇-领域词汇,如技术术语和上下文特定术语,构成所选数据源的主体。然而,它们在性质上是描述性的,因此不代表网络威胁的潜在警告词。同样,每个数据源都具有时间累积的写作形式和风格。为了排除这种特定领域的词汇,我们根据每个数据源的过去数据构建了该词典。根据实验的选择警告生成期间,我们使用每个来源从2013年1月到2016年8月的数据。在预处理之后,我们对这些数据进行分词以构建领域词汇。(4)威胁词典-25个表示已知类型网络威胁的常规术语,例如ddos、phishing、数据泄露、僵尸网络等,对于数据的大部分而言;我们手动策划了这个词汇列表。这些词汇在过滤过程中被排除(但在后续阶段中使用),因为它们本身不能作为新的网络威胁警告。(5)意大利语词典-129,121个常见的意大利语词汇,例如intervista、attacco、spazio等,构成该词典。我们仅对Twitter数据使用该词典,因为一些网络安全专家会用意大利语发推文。所有博客数据集主要是用英语编写的。其他非英语词典可以在数据集中的专家使用中找到后加入。0使用英语词典、停用词词典,我们过滤掉不太可能与网络威胁相关的常见词汇;而通过技术词典,我们删除了过去由我们监控的各个数据源的用户使用的几个上下文特定词汇。请注意,威胁词典可以扩大以纳入进入网络安全术语的新术语。03.2 警告生成0在生成警告之前的最后一步,我们施加一些约束条件来检查通过过滤过程的单词。鉴于在线聊天的病毒性质,我们不希望仅基于以前未见过的单词生成警告。这些单词可能代表已知单词的拼写错误或特殊名称。因此,我们需要排除具有唯一出现次数的术语:我们排除在给定时间段内的所有帖子中仅出现一次的单词(count > 1)。0图1:DISCOVER框架,从数据预处理到警告生成和监控。0此外,我们希望确保检测到的术语与网络安全主题相关。为了确保这一点,我们要求该术语与我们的威胁词典中的术语同时出现,我们称之为上下文。满足这些要求的任何新术语(count >1且n.contextwords >0)都将成为DISCOVER框架生成的警告。警告生成以每小时的速率从Twitter数据源进行,以每天的速率从网络安全博客进行。每个警告的格式如下。0• DISCOVER生成术语作为警告的时间段(天、小时)•发现的警告术语可能与当前或未来的网络攻击相关•生成术语作为警告的数据源• 给定时间段内警告术语的频率•与发现的术语上下文共同出现的关联威胁词列表04 结果 4.1 方法评估0为了评估我们的框架,我们让DISCOVER在2016年9月1日至2017年1月31日期间生成在线聊天的警告。我们有来自此时间段的基准数据,这些数据是由DISCOVER的早期实现生成的。该基准数据集包括由五位专家生成的来自Twitter的661个警告和由三位专家生成的来自博客数据的103个警告。要求注释者独立评估每个警告,并将其标记为“真实网络威胁”或“虚假标志”(不是网络威胁)。特别地,如果一个词与所选时间段内发生的实际攻击相关,则将其定义为真实网络威胁。为了确定攻击是在警告发生之前、期间还是之后发生,注释者被要求利用谷歌搜索进行“调查”。此外,如果大多数注释者在他们的评估中达成一致意见(即至少有5位Twitter警告的注释者中的3位,以及3位博客警告的注释者中的2位),则将发现的词标记为真实网络威胁。0主题:第三届网络安全、在线骚扰和虚假信息国际研讨会WWW 2018,2018年4月23日至27日,法国里昂Twitter66184%9860图2:DISCOVER从Twitter和博客生成的每日警告数量。0博客的注释者)。两组注释的结合使我们能够评估我们的框架。在表1中,我们分别报告了两个数据源生成的警告的评估结果以及DISCOVER的最终精度,即这些结果的组合。0表1:DISCOVER在不同数据源和组合数据上的精度。0数据源编号 警告精度0博客 103 59%0Twitter + 博客 764 81%0如表1所示,来自Twitter数据的84%的警告是真正的网络威胁,而来自博客数据的59%的警告与真正的网络威胁有关。通过改变不同数据源上的算法约束(计数和上下文),可以提高这种较低的精确度。例如,博客条目通常比Twitter条目更长,而且由于我们正在监控网络安全博客,它们通常包含的上下文词比Twitter数据多。因此,博客数据源生成的大多数警告都包含多个上下文词。通过增加对上下文的约束,例如要求存在2个或更多上下文词,我们可以丢弃一些生成的警告,并提高数据源的精确度。然而,总体精确度达到了81%,正如我们将在下一节中讨论的那样,使用博客数据作为额外的数据源使DISCOVER能够提前检测到一些最具影响力的最近网络攻击。基于这些观察,我们决定将参数(字数和上下文)保持在Twitter和博客上相同,从而在DISCOVER中平衡效率和通用性。04.2情景分析0为了测试该框架在识别与即将发生的网络威胁相关的警告方面的能力,我们在2017年2月至2017年6月收集的数据上运行DISCOVER。在此期间,DISCOVER从Twitter生成了344个警告,从博客生成了1565个警告。图2显示了这两个数据源生成的每日警告数量。表2报告了顶级警告及其类型、DISCOVER生成警告的时间以及首次生成警告的来源。我们在此期间识别了与各种网络攻击相关的警告,包括恶意软件、勒索软件、数据泄露、僵尸网络和其他利用。有十个警告是由这两个数据源生成的:'medoc'、'industroyer'、'nayana'、'notpetya'、'kasperagent'、'wannacry'、'crashoverride'、'dahua'、'wannacrypt'、'macspy'。其中,'industroyer'、'crashoverride'、'dahua'、'macspy'首先由Twitter生成,其余的首次被博客识别为警告。这显示了利用多个数据源进行警告生成的第一个优势。利用多个数据源进行警告生成的第二个优势是,我们能够提供一个网络监控平台,在首次生成有关威胁的新警告后,我们可以在剩余的数据源中监控警告术语。这为数据源之间关于网络威胁讨论的演变提供了一个时间上的景观。在这方面,我们使用从主要数据源Twitter和博客生成的警告。我们利用暗网作为监控警告的次要数据源。在此期间的几个威胁中,我们详细说明了三种类型攻击(勒索软件、利用和数据泄露)的时间景观。04.2.1 勒索软件。Wannacry —2017年4月18日,DISCOVER从博客数据源生成了一个关于新术语'wannacry'的警告。尽管在第一个警告的前一天就提到了这个术语,但该术语未能通过所施加的约束条件,即计数>1和上下文>0。这意味着该术语的提及次数要么等于一,要么存在0会议:第三届网络安全、在线骚扰和虚假信息国际研讨会WWW 2018,2018年4月23日至27日,法国里昂9870图3:与Wannacry攻击相关的警告和提及的时间景观0表2:2017年2月至6月生成的顶级警告0发现的术语 警告生成日期 来源 威胁类型0cloudpets 2017-02-27 推特数据泄露0coachella 2017-03-01 推特数据泄露0stonedrill 2017-03-06 推特恶意软件0petrwrap 2017-03-15 推特勒索软件0incapta 2017-03-24 推特僵尸网络0eternalblue 2017-05-12 推特漏洞利用0wannacry 2017-04-18 博客勒索软件0notpetya 2017-02-01 博客勒索软件0maarten 2017-04-03 博客恶意软件0pwnwiki 2017-06-12 博客恶意软件0lightbulb 2017-06-25 博客物联网, 分布式拒绝服务攻击0ghosthook 2017-06-23 博客漏洞利用0文本与我们使用的威胁词典之间没有重叠。从此时起,除了在博客上提及了几次之外,同样的警告在2017年5月12日再次在Twitter和博客上重新生成。在这一天,Wannacry勒索软件成为了针对运行在MicrosoftWindows操作系统上的计算机的全球性网络攻击。Wannacry加密蠕虫通过加密系统上的数据并要求以比特币加密货币形式支付赎金来攻击Microsoft系统。从5月12日开始,DISCOVER对“wannacry”一词生成了反复出现的警告。同一天,我们还观察到了来自Twitter数据的“eternalblue”一词的警告。后来,Eternal Blue被发现是ShadowBrokers黑客组织于2017年4月14日泄露的一个漏洞,并被用作Wannacry勒索软件攻击的一部分。除了“wannacry”和“Eternalblue”之外,还有对诸如“wannacrpyt”、“wcry”、“wanacry”等词的警告,这些词是原始词的词汇变体。这是一个有趣的证据,表明在线空间中使用词汇变体作为讨论即将发生的网络威胁的手段,以规避使用原始词汇。Wannacry的案例还说明了利用多个数据源进行警告生成任务的重要性。与Twitter数据相比,博客数据源在生成有效警告方面的精确度较低,但提供了捕捉关于网络攻击和漏洞的长篇讨论和新闻的独特传感器,而这些内容在变得流行之前。同样,在5月12日之后,我们观察到“wannacry”在暗网论坛和市场上的提及急剧增加。作为补充来源,暗网数据对警告词是否是一次性事件/新事件进行了自动验证0作为“wannacrpyt”、“wcry”、“wanacry”等的词汇变体,这些词是原始词的词汇变体。这是一个有趣的证据,表明在线空间中使用词汇变体作为讨论即将发生的网络威胁的手段,以规避使用原始词汇。Wannacry的案例还说明了利用多个数据源进行警告生成任务的重要性。与Twitter数据相比,博客数据源在生成有效警告方面的精确度较低,但提供了捕捉关于网络攻击和漏洞的长篇讨论和新闻的独特传感器,而这些内容在变得流行之前。同样,在5月12日之后,我们观察到“wannacry”在暗网论坛和市场上的提及急剧增加。作为补充来源,暗网数据对警告词是否是一次性事件/新事件进行了自动验证0会议:第三届网络安全、在线骚扰和虚假信息国际研讨会WWW 2018,2018年4月23日至27日,法国里昂9880图4:与NotPetya恶意软件攻击相关的警告和提及的时间景观0词汇或在其他数据源上持续提及。0NotPetya -有关Petya恶意软件的新闻于2017年6月27日在乌克兰组织的网站上泛滥开来,包括银行、部委、报纸和电力公司,该网络攻击影响了包括法国、德国、意大利、波兰、俄罗斯、英国、美国和澳大利亚在内的多个国家。与Wannacry类似,Petya使用了先前在较旧版本的MicrosoftWindows操作系统中发现的EternalBlue漏洞利用。该恶意软件加密了系统上的文件,并要求支付300美元的比特币以获得解密计算机的指令。与此同时,该恶意软件还利用了Windows中的服务器消息块协议来感染同一网络上的本地计算机和任何远程计算机。该攻击被普遍称为NotPetya,以区分乌克兰网络攻击中使用的版本,该版本是原始Petya恶意软件的修改版本。DISCOVER在攻击公开之前几乎一个月就为NotPetya生成了警告。第一个警告是在2017年2月1日生成的,随后在2017年3月初生成了几个提及和警告。在监测其他数据源的NotPetya时,我们观察到直到3月中旬(2017年3月15日)才有活动,当时来自Twitter的数据为NotPetya生成了一个警告。这之后,又在2017年3月21日再次从Twitter获得了一个警告。此外,在NotPetya使用活动增加的同一时期,暗网也显示出类似的信号,提及该术语的次数增加。最后,在经过两个多月后,该攻击于2017年6月27日公开,当时两个主要数据源为该术语生成了多个警告。这样一个具有对现有恶意软件(如NotPetya)的讨论的重复出现的时间景观,成为即将发生的网络0威胁。对于安全专家来说,使用这样的监控工具可能非常有益。最后,与“wannacry”类似,“NotPetya”这个警告术语有多个词汇变体,如“petrwrap”和“petyawrap”。04.2.2 恶意软件。Kasperagent —Kasperagent是一种针对美国、以色列、巴勒斯坦领土和埃及用户的MicrosoftWindows恶意软件,自2015年7月以来一直存在。它是由Palo AltoNetworks Unit 42和ClearSky CyberSecurity发现的,并于2017年4月在中东的有针对性攻击中公开,利用了伪装的巴勒斯坦权威文件。威胁行为者使用缩短的URL在钓鱼邮件和假新闻网站中引导目标下载恶意软件。然后,这些恶意软件样本会释放与巴勒斯坦权威有关的各种伪装文件,巴勒斯坦权威是巴勒斯坦自治区域的执政机构,包括约旦河西岸和加沙地带。DISCOVER在2017年6月12日从博客数据源中首次对Kasperagent发出警告,然后在6月14日左右才被广为人知。这表明DISCOVER可以作为一个早期警告生成工具,为分析师和决策者提供可操作的见解。04.2.3 漏洞利用。Ghosthook —2017年6月22日至6月27日的一周内,安全研究人员发现了Ghosthook攻击技术,该技术利用英特尔中央处理器(CPU)的特性来接管64位Windows系统。据报道,“Windows传统上对大多数试图安装rootkit的网络犯罪分子是安全的,但GhostHook攻击可以绕过专门开发的PatchGuard,该系统在内核级别保护其操作系统。”2.虽然hooking rootkits02 https://securityintelligence.com/news/ghosthook-attack-reveals-kernel-level-threat-in-64-bit-windows-systems/0Track: 第三届网络安全、在线骚扰和虚假信息国际研讨会WWW 2018,2018年4月23日至27日,法国里昂9890研究人员指出,rootkit并不总是用于恶意目的,黑客需要在系统上存在恶意软件才能利用rootkit。在此期间,DISCOVER在2017年6月23日早期生成了Ghosthook的警告。该警告是由博客数据源生成的,相关上下文为“利用、rootkit、恶意软件”。该警告仅由博客生成,而不是Twitter。这证明了每个单独的数据源在生成特定类型的警告方面的新颖性,这些警告在其他数据源中可能找不到。对此类rootkit和恶意软件的早期识别对于企业来说可能非常有益,可以减轻和修复威胁。04.2.4 数据泄露。Cloudpets —2017年2月28日,有消息称,从Cloudpets购买联网泰迪熊玩具的超过50万人的个人信息已经被泄露。泄露的信息包括电子邮件地址、密码以及使用Cloudpets毛绒玩具的儿童和成人的超过200万条语音记录和个人资料图片。该公司的玩具可以通过蓝牙连接到应用程序,允许父母为他们的孩子上传或下载音频消息。据在线新闻来源报道,母公司SpiralToys将其Cloudpets品牌的客户数据放在一个没有密码保护的数据库上。“事实上,在1月初,当几个网络犯罪分子积极扫描互联网以删除暴露的MongoDB数据库并勒索数据时,根据研究人员的说法,Cloudpets的数据被覆盖了两次。”3.DISCOVER在2017年2月27日首次对Cloudpets发出警告,Twitter数据源的专家动态中提到了2次。使用上下文信息,DISCOVER将警告与威胁词-账户、泄露相关联。随后,在2017年2月28日至2017年3月1日期间,从Twitter数据流中生成了多个警告。Cloudpets的泄露是DISCOVER框架中仅由单个数据源生成的警告的一个例子。博客来源中没有提到Cloudpets。这证明了每个数据源的独特性;Twitter的报告性质而不是博客上的针对网络威胁的对策的长篇描述。05 相关工作0在本文中,我们利用来自多个在线数据源的信号,如社交媒体(Twitter)上的网络安全专家的活动和博客,构建了一个用于网络威胁的早期警告生成系统。以前的工作已经探索了类似的数据源,并具有相似的动机。黑客组织在暗网论坛上的活动被认为是检测对个人、企业和政府构成风险的威胁的丰富数据来源。以前的研究已经研究了这个在线空间的景观,包括个体参与者和信息传播。他们发现这些论坛上的个人广告工具,如恶意软件样本、源代码,并在在线黑市上出售[1,14,26]。此类网络漏洞的信息通常以教程(包括文本和视频)的形式在黑客社区中传播,直接使读者能够发动犯罪网络攻击。03 https://motherboard.vice.com/en_us/article/pgwean/internet-of-things-teddy-bear-leaked-2-million-parent-and-kids-message-recordings0攻击,如拒绝服务、SQL注入等[5]。除了漏洞的广告外,这些论坛上还出售被盗的个人数据,如信用卡信息[4],账户信息,如在AshleyMadison黑客事件中的信息。研究还从人口统计学和社会学的角度研究了这些论坛上的个体,作为一个黑客社区[10,15]。这样的社区存在在信息技术普及或迅速发展的几个地缘政治地区,包括美国、中国、俄罗斯、中东等[4,18]。近年来,社交媒体(如Twitter)也成为各种预测任务的丰富数据来源,包括股市[7]、选举[29]、流行病学[2,8]、健康和福祉[9]等。具体而言,在网络安全领域,以前的工作主要集中在对Twitter上的操纵和滥用[11]、垃圾邮件的检测和影响[3,30]、社交机器人[13, 27]、恶意活动[6, 12, 22,28]等的研究。然而,在Twitter上,安全专家和白帽黑客组织的活动以及普通用户对软件的抱怨和投诉上,存在着丰富的信息资源。在这个方向上,Sabottke等人最近的工作[24]利用Twitter来识别网络漏洞。在本文中,我们利用Twitter上专家的活动作为生成网络威胁警报的新信号。此外,除了丰富的数据来源外,还探索了用于识别和预测网络威胁的计算方法。Okutan等人利用贝叶斯网络从Twitter、GDELT项目和网络安全博客等非传统信号预测网络攻击[20]。类似地,针对预测零日漏洞发现率的任务,DavidLast提出了关于漏洞发现模型的持续研究[17],包括全球和软件特定类别,例如浏览器、操作系统、视频漏洞。尽管有大量利用非传统数据源进行威胁检测的工作,但它们只被作为单独的信号进行分析。在本文中,我们提供了一个强大的框架,利用多个数据源生成网络威胁警报,从每个数据源中提取独特的知识,并在网络攻击之前提供一种时间上的警报格局。06 结论0在本文中,我们提出了一种名为DISCOVER的早期警告生成算法,其目的是通过挖掘在线讨论来预测网络威胁。我们的框架以与网络安全主题相关的非传统和公共数据源作为输入。在这里,我们重点分析了两个主要数据源:网络安全专家的Twitter账户和与网络安全相关的博客。系统每天监控在线发布的推文和博客文章,并通过挖掘它们的文本来检测与网络威胁相关的不寻常的词语。然后,它为每个发现的词语生成警报,并提供有助于识别网络威胁类型(如勒索软件、恶意软件、钓鱼攻击、数据泄露等)的上下文。最后,它在暗网上寻找对生成的警报的提及。通过前面的步骤结合这最后一步,DISCOVER能够实现网络威胁的预测。04 https://www.theguardian.com/technology/2015/oct/30/stolen-credit-card-details-available-1-pound-each-online0论文追踪: 第三届网络安全、在线骚扰和错误信息国际研讨会WWW 2018,2018年4月23-27日,法国里昂9900为了构建与特定警告相关的在线讨论的时间景观,我们评估了该方法从2016年9月1日到2017年1月31日期间的情况,对于这段时间,我们有从Twitter帖子生成的警告的真实情况。此外,对于同一时间段,我们要求网络安全专家评估DISCOVER在博客数据上的结果。评估结果显示,DISCOVER的警告平均精度分别为81%以上,Twitter警告为84%,博客警告为59%以上。尽管博客与Twitter相结合的精度较低,但我们证明了这个额外的数据源在警告生成过程中起着关键作用。在两个数据源上运行DISCOVER确实能提前检测到两次重大网络攻击:Wannacry和NotPetya。我们可以调整算法的约束条件以更好地适应不同的数据源。然而,通过增加阈值,一些我们发现的真实网络威胁可能会被丢弃。此外,在目前的DISCOVER版本中,我们在具有广泛的检测到的网络威胁的同时,实现了一个通用算法和高精度之间的良好平衡。未来的工作将致力于通过扩展我们在监测在线讨论时依赖的网络安全专家列表来增强DISCOVER。一个可能的方向是使用自然语言处理(NLP)技术以及主题分析来自动检测与网络安全相关的论坛、博客和Twitter作者。此外,这些技术可以帮助从暗网论坛中提取更多细节。我们计划检测警告的上下文信息,如攻击来源(黑客)和目标,并尝试识别攻击发生的时间。其他方向包括扩展DISCOVER以识别与同一网络威胁相关的词汇变化,并生成动态警告。我们可以调整框架以在生成某个词后跟踪一段时间,并在该词在一定时间段内未被提及时使警告的相关性减弱。0致谢0这项工作得到了国家情报总监办公室(ODNI)和情报高级研究计划局(IARPA)通过空军研究实验室(AFRL)合同号FA8750-16-C-0112的支持。尽管有任何版权注释,美国政府有权为政府目的复制和分发重印。免责声明:本文的观点和结论仅代表作者本人,不一定代表ODNI、IARPA、AFRL或美国政府的官方政策或认可。0参考文献0[1] Luca Allodi. 2017. 漏洞交易和利用的经济因素. 在2017年ACMSIGSAC计算机与通信安全会议论文集中。ACM,第1483-1499页。[2] Eiji Aramaki,Sachiko Maskawa, and Mizuki Morita. 2011. Twitter捕捉到流感:使用Twitter检测流感流行病。在会议论文集中的实证方法协会上,第1568-1576页。0[3] Fabricio Benevenuto, Gabriel Magno, Tiago Rodrigues, and Virgilio Almeida.2010. 在Twitter上检测垃圾邮件发送者.在合作、电子邮件、反滥用和垃圾邮件会议(CEAS)中,第6卷,第12页。[4] VictorBenjamin and Hsinchun Chen. 2014. 预测黑客IRC社区参与者轨迹的时间到事件建模.在情报与安全信息学会议(JISIC),2014年IEEE联合. IEEE,25-32。[5] Victor Benjamin,Weifeng Li, Thomas Holt, and Hsinchun Chen. 2015. 在黑客网络中探索威胁和漏洞:论坛、IRC和卡丁车店. 在情报与安全信息学(ISI),2015年IEEE国际会议上.IEEE,85-90。[6] Alessandro Bessi and Emilio Ferrara. 2016.社交机器人扭曲了2016年美国总统选举的在线讨论. (2016).[7] Johan Bollen, Huina Mao,and Xiaojun Zeng. 2011. Twitter情绪预测股市.计算科学杂志,第2卷,第1期,第1-8页。[8] David A Broniatowski, Michael J Paul,and Mark Dredze. 2013. 通过Twitter进行国家和地方流感监测:对2012-2013年流感流行的分析. PloS one,第8卷,第12期,e83672。[9] Munmun DeChoudhury, Michael Gamon, Scott Counts, and Eric Horvitz. 2013.通过社交媒体预测抑郁症. ICWSM,第13卷,第1-10页。[10] Hanno Fallmann, GilbertWondracek, and Christian Platzer. 2010. 秘密探测地下经济市场..在DIMVA,第10卷。Springer,101-110。[11] Emilio Ferrara. 2015.社交媒体上的操纵和滥用. ACM SIGWEB Newsletter,春季(2015),第4页。[12] EmilioFerrara. 2017. 2017年法国总统选举前的虚假信息和社交机器人行动. FirstMonday,第22卷,第8期(2017)。[13] Emilio Ferrara, Onur Varol, Clayton Davis,Filippo Menczer, and Alessandro F
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功