译文_Identifying-Encrypted-Malware-Traffic-with-Contex.docx

流量分析分类

需积分: 43 165 浏览量更新于2023-03-03 评论收藏 176KB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

利用上下文流数据识别加密恶意软件流量



blake anderson 思科 blake.anderson@cisco.com

摘要

识别加密网络流量中包含的威胁是一组独特的挑战。监视此通信量以防威胁和恶意软件非常重要，但这样做的方式必须保持加密的完整

性。由于  匹配不能对加密数据进行操作，因此以前的方法利用了从流中收集的可观测元数据，例如流的包长度和到达间隔时间

在这项工作中，我们通过考虑数据全知方法来扩展当前的最新技术为此，我们开发了有监督的机器学习模型，该模型利用了一组独特而

多样的网络流数据特性。这些数据特性包括  握手元数据、链接到加密流的  上下文流，以及在  分钟的窗口内来自同一源  地

址的  上下文流的  头。

我们首先展示了恶意流量和良性流量在数百万个唯一流上使用 、 和  之间的区别本研究旨在设计最具辨别力的特徵集。

然后，我们证明，将这些上下文信息合并到一个超级监督学习系统中，对于加密恶意流的分类问题，可以显著提高 的错误发现率。

我们在一个独立的真实数据集上进一步验证了我们的假阳性率。

关键词

加密；恶意软件；机器学习；传输层安全；网络监控

一。导言一。导言

随着加密网络流量的不断增加，对大多数事件响应团队来说，确定其可信度的负担变得过于繁重。传统的识别威胁的方法，如深度包

检测和签名，不适用于加密通信解密网络流量的解决方案会削弱用户的隐私，不适用于所有加密，并且

允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用，但不收取任何费用，前提是复制品的制作或分发不是为了盈利或商业利益，并且复制品在第一页附有本通知和完

整说明。必须尊重  以外的其他人拥有的本作品组成部分的版权。允许赊账提取。若要以其他方式复制或重新发布、在服务器上发布或重新分发到列表，则需要事先获得特定

许可和或支付费用。从  请求权限。

奥地利维也纳，2016 年 10 月 28 日，AISec'16

+,-,+.+  '$$!%&$$!%!&

大卫·麦格雷夫

思科 mcgrew@cisco.com

计算密集型此外，这些解决方案对协作端点配置的依赖性使得部署具有挑战性，并限制了其适用性。

在本文中，我们不建议解密网络流量。相反，我们专注于通过被动监控、相关数据特征提取和基于大量沙盒恶意软件样本和大型企业

网络收集的数据的监督机器学习来识别加密通信中的恶意软件通信。我们做出了以下新的贡献：

////"我们提供了利用上下文信息（即  响应和  报头）来识别加密通信中的威胁的第一个结果。

////"对于 的错误发现率，我们展示了对这些数据进行操作的机器学习算法的高度精确性。

(////"最后，我们对我们开发的方法进行了实际验证，证明我们的结果不仅仅是由于过度拟合。

考虑到对加密流量进行威胁检测所面临的独特挑战，以及我们希望开发尽可能健壮的机器学习模型，自然要考虑包含与加密流相关联

的所有可能的数据视图。我们把这种观点称为数据全知方法。从概念上讲，这可以通过扩展流记录来实现，以包含有关流的所有元数据，

例如未加密的 0 握手信息，以及指向“上下文”流的指针。我们将  上下文流定义为与基于目标  地址的  流相关联的  响应，

上下文  流定义为在  分钟的窗口内来自同一源  地址的  流这种方法与现有的多流技术不同，因为它使用关于流和上下文流

的详细信息，而不仅仅是流元数据。例如，图演示了如何将  流与  流链接，以及这种方法提供的附加信息的类型。

我们对 0 握手元数据和两种上下文流类型进行了深入分析，我们发现这两种类型与识别加密通信中的威胁特别相关。与之前的工作

不同，我们详细分析了恶意和良性流量之间的协议特性值。我们公开这些观察的动机是，任何有动机的威胁行为体，考虑到在大多数情

况下已在公开文献中发表的特征类型，都可以观察到良性的流量，并尝试修改其服务器和客户端，以模仿观察到的

图 , 流和  内容流的图示，显示用于链接流的数据元素（红色）、作为上下文引入的数据元素（绿色）和作为元数据收集的 

未加密头信息（未标记）。



行为。另一方面，通过混淆特征值，我们增加了事件响应者编写和部署妥协指标的难度。

我们分析的第一种上下文流是  响应，它提供加密流使用的地址，以及与名称相关联的  拥有一个  地址的域名本身就提供了

很多有意义的信息在 0 流中，有时可以从服务器名称指示扩展或服务器证书的主题收集此信息。但是， 扩展是可选的，在 0 恢复的

情况下将没有服务器证书。在这些情况下，上下文 + 流有可能提供原本不可用的信息。此外，正如我们在本文中概述的，恶意 + 响

应具有区别于良性 + 响应的特征，并且我们可以使用这些信息更准确地对相应的 0 加密流进行分类。

除了可以与  加密流直接相关的  流之外，我们还分析了  上下文流的  头已经有很多基于规则的系统和基于 - 数

据的机器学习分类器1$，((2，我们在这些研究的基础上利用 - 报头信息帮助对加密流进行分类。还有一些有趣的基于规则的推论，

可以通过将 - 数据与未加密的 0 握手元数据关联起来来实现。例如， 提供的 -3 列表和扩展可用于推断正在使用的加密库

和版本，进而可用于推断启动流的用户代理查找流在其 - 字段中播发的用户代理与从相邻加密流的 0 参数推断的用户代理之间的差异

是一个有用的折衷指标。

我们编写了一个自定义的基于 04 的工具1，!2，以根据实时通信量限制我们的数据功能，并处理恶意软件包捕获文件该工具在

 ! 年月至  ! 年 ' 月期间运行于从 -5+12收集的恶意数据包捕获文件上，-5+12是一个商业沙箱环境。该工具还于

 ! 年 ' 月在大型企业网络的 6 上运行了  天。这个过程导致了数以千万计的恶意和良性流我们意识到 +7 流量确实包含少量恶意

软件流量，但在本文中，我们将此流量称为良性流量。我们的分析工具基于 8- 和 9"01(2。

本文证明了数据  方法的实用性和实用性。对于我们的机器学习应用，我们采用自下而上的方法。从我们收集的数据中，我们首

先确定具有区分能力的 0、+ 和 - 的数据特性。然后，我们展示了可以使用这些数据特征来定义机器学习算法，这些数据特征可以

正确地分类它们各自的流类型最后，我们利用 - 和 + 流提供的上下文来帮助对 0 加密的网络流进行分类。当每天处理数以千万计的

流量时，高的总准确度甚至适度的错误发现率都会让分析师不知所措。由于这个原因，我们将结果集中在 的错误发现率的准确性

上，也就是说，一个具有四个有效数字的零 :;。为了进一步保护本文中的假阳性率，并确认由于初始数据集和特征集的过度拟合，我

们的结果不是模拟的，我们还对初始良性数据集后<' 周收集的额外验证数据集进行了实验。

我们将有监督的机器学习视为使用先前观察到的恶意软件通信来检测加密恶意软件通信的最佳方法。机器学习分类器提供了构建检测

器的最直接的方法，它还可以提供概率估计与异常检测不同，监督学习提供了可靠且易于解释的结果 1(!2。重要的是，在分类器训练过

程中，可以使用规则化来选择具有最大区分能力的数据特征1 2，这对于我们的数据全知方法至关重要最后，还有一些分类器能够很好

地防止过度拟合1(2；通过使用这些分类器，我们可以避免这种陷阱。在第 ! 节中，我们通过证明有效算法（其结果易于解释）在这些

数据上具有与效率低下的黑箱模型同等的性能，进一步证明了这些观点。

本文的其余部分安排如下：第  节详细介绍了我们深入的 0 研究，第 ( 节详细介绍了我们深入的 + 研究，第 ' 节详细介绍了我们深

入的 - 研究。第  节回顾了我们的数据集和提取的特征，第 ! 节介绍了我们的分类结果。最后，第 % 节回顾了背景材料和相关工作，

我们在第 & 节中总结。

恶意软件和 恶意软件和 

恶意软件和良性流量对  的使用是相当不明显的。在这一节中，我们从客户机的角度出发，通过检查提供的密码套件、公布的 

扩展和客户机的公开密钥长度来详细说明这些差异。我们还通过检查所选的 -3 和从服务器证书收集的信息来查看服务器 0 实现

的差异。我们在  ! 年月至  ! 年 ' 月期间从 -+12收集了  ' % 个恶意  流，并在  ! 年 ' 月的  天期间使用相同标准收

集了 ((&! 个良性  流。我们的工具用于分析 0 流。它收集了未加密的 0 握手消息中包含的所有信息。

0-00

和 098.- 消息中包含的未加密 0 元数据包含有价值的信息，可用于推断客户机的 0 库。我们还观察到，这些特征在恶意软

件和良性数据集中有很大不同；这意味着恶意软件作者使用一组不同的 0 库和或配置。图  说明了两个客户端  特性的区别：提供

的 -3 和公布的扩展。使用标准指南和行业建议1($2， 密码套件可以分为可接受和过时的类别我们可以看到，恶意软件通常

在 0-00 消息中提供一组三个过时的密码套件，包括 .' （ 0==>-='= &=+ ）。在我们收集的良性通信量中，

.? （ =3"@=A= &=#= ）密码套件的报价最高恶意软件在客户端支持的 0 扩展中似乎也没有什么差异。

.（签名算法）是大多数  流中唯一支持的  扩展。<的 6 流量还公布了以下异常情况，这些情况在恶意软件数据集

中很少出现：

•0x0005（状态请求）

•0x3374（下一个协议协商）

•0xFF01（重新谈判信息）

尽管没有显示，客户机的公钥长度是另一个基于客户机的数据特性，具有显著的差异大多数 +7 流量使用 ! 位椭圆曲线密码作为公

钥，但大多数恶意流量使用 '& 位  公钥。

服务器 -00 和证书消息可用于获取有关服务器的信息。服务器 -00 消息包含选定的密码套件和支持的扩展。鉴于提供的密码套件和

公布的扩展的类型和多样性，正如人们所期望的那样，恶意流量通常选择过时的密码套件 +7 通信量包含服务器支持的各种 0 扩展。

证书消息将服务器的证书链传递给客户端。我们观察到恶意软件和 6 数据链中的证书数量大致相同。但是，如果我们只关注长度

为 的链，<%是恶意软件的自签名，< 是 6 流量的自签名。34B0（）C$ 扩展名中的名称数量在两个数据集中

也有所不同对于 6 流量，列表的长度为 <'的时间。这在一定程度上是因为许多内容分发网络（ ）提供商（例如，9）

只有一个条目由于一些广告服务，   长度列表在 6 流量中也很常见。

图  还显示了证书有效性的分布，四舍五入到最近的一天。与其他数据特征类似，服务器证书的有效期在恶意流量和 +7 流量上有显

著差异。将证书信息与来自

剩余12页未读，继续阅读

null_wfb

粉丝: 423
资源: 8

会员权益专享

译文_Identifying-Encrypted-Malware-Traffic-with-Contex.docx

评论0

会员权益专享

最新资源

译文_Identifying-Encrypted-Malware-Traffic-with-Contex.docx

评论0

embedded-system-design.pdf

开源项目-gobridge-organizing.zip

Identifying Encrypted Malware Traffic with Contextual Flow Data.pdf

bs.report_no 是 varchar

只取bs.report_no 里面的整数 来进行排序也要加cast吗

nrf52832作为从机，连接多主机的情况下，如何能感知出连接的主机的服务和特征呢？请给出具体的实现代码基于nrf52832软件库

how to split a docx file to docx files by title using docx4j

机器学习icr疾病预测

CalTag相机内参标定

低功耗蓝牙广播包，代码解析例子

如何在启动springbatch的时候创建相应的表

Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon

labelencoder.fit_transform

sklearn导入波士顿房价数据集

from sklearn.metrics import classification_report from sklearn.metrics import confusion_matrix

帮我查找有关“疫情期间中国城市居民口罩消耗量”有关的文献

BOT_NAME = 'myspider' SPIDER_MODULES = ['myspider.spiders'] NEWSPIDER_MODULE = 'myspider.spiders' # Crawl responsibly by identifying yourself (and your website) on the user-agent #USER_AGENT = 'myspider (+http://www.yourdomain.com)' # Obey robots.txt rules ROBOTSTXT_OBEY = True解释一下代码

pandas drop_duplicates

会员权益专享

最新资源

只取bs.report_no 里面的整数来进行排序也要加cast吗