恶意软件分发网络拓扑结构的时间洞察和属性分析:2022年研究阵列14(100174)JoseAndreMorales*，YangCai.

76 浏览量更新于2023-12-06 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列14（2022）100174分析恶意软件分发网络Jose Andre Morales*，Yang Cai卡内基梅隆大学，5000福布斯大道，Pittsburgh，PA，15213，美国A R T I C L EI N FO保留字：恶意软件恶意软件分布网络恶意软件检测A B S T R A C T这项研究提供了时间洞察网络拓扑结构，以及过渡属性和恶意软件的恶意软件分布网络的属性。这是通过使用公开可用数据源的新型数据融合创建的基于时间的数据集来实现的。我们开发并使用了一个爬虫程序以及公共API，从Google Safe Browsing和VirusTotal收集恶意顶级域名和相关托管恶意软件的公开数据，时间为2017年1月19日至9月25日，为期八个月。然后，我们结合这些数据源，这揭示了新的见解完全合格的域名拓扑网络结构的属性和时间转换，而不是从个别数据源。我们已经提供了我们的新的数据融合方法GSB和VT静态数据的技术细节。这种数据融合的结果是创建了新的可观察知识，主要是分发网络内基于时间的结构变化和恶意软件属性，这是通过孤立地分析GSB和VT的静态数据无法获得的。揭示恶意软件托管在域上的详细信息的数据揭示了恶意文件分发中涉及的完全限定域名的拓扑结构。我们的见解包括：1）恶意软件分布网络形成遵循幂律的集群，2）网络结构组件，如网桥和集线器（本文中提出和定义的两个概念），并且URL缩短提供者在恶意软件分发动态中起到重要作用，3）恶意软件分发中完全合格域名的持久性是随机的并且通常仅用于托管恶意软件一次，4）大量唯一的，在恶意软件分发网络中的各个节点上托管的下载的恶意文件被发现属于小得多的恶意软件家族这些观察到的见解揭示了周围拓扑结构的持续存在这些拓扑结构正在将恶意数据流传输到完全合格的域名，这些域名在识别日期之前和之后被识别为活跃托管恶意软件。这些见解进一步表明，具有数据流分布恶意软件的大型拓扑结构随着时间的推移而持续存在，并且具有小的子结构变化。我们已经提供了建议，防止持续的恶意数据流的基础上，我们的时间观察桥和枢纽结构。这些大型结构中的各个持久完全限定域名反复充当恶意数据流的源或中间节点。这意味着对数据流的持续监控可以用于警告早期恶意软件分发。1. 介绍恶意软件分发网络（MDN）是一组连接的完全限定域名（DNS），用于在全球范围内传播恶意文件，以感染和破坏系统。在本文中，我们执行一个时间拓扑分析的MDN与恶意软件的属性集中在连接的MDN的子集，我们称之为一个恶意集群（M-集群）。我们使用由二级和顶级域名组成的CDN，如example.com。我们在2017年1月19日至9月25日的两个连续四个月内创建了一个新的数据集。我们查询了谷歌安全的透明度报告存储库浏览（GSB）[1]通过提交多个CDN的信息请求。我们绘制了每日的MDN的拓扑结构与爬行静态GSB透明度报告的新方法。这种爬行方法专注于特定的透明度报告标签，这些标签指示恶意流量到其他CDN的数据流的方向。我们通过向VirusTotal.com（VT）[2]提交GSB数据集中的CDN的信息请求来归因恶意软件，GSB确定在我们的收集期间托管可下载的恶意文件。然后，我们分析了时间拓扑结构的演变和恶意软件托管在三个最大的M集群在八个月的数据收集期间的服务器上。我们* 通讯作者。电子邮件地址：josemora@andrew.cmu.edu（J.A.Morales），ycai@cmu.edu（Y. Cai）。https://doi.org/10.1016/j.array.2022.100174接收日期：2021年7月12日;接收日期：2022年4月21日;接受日期：2022年4月23日2022年5月14日网上发售2590-0056/© 2022作者。爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.sciencedirect.com/journal/arrayJ.A. Morales和Y. 蔡阵列14（2022）1001742分析揭示了作为桥和集线器结构的M-集群的布局，我们提供了定义和检测算法。我们进一步观察到，在收集期间M集群大小的增加符合幂律，这意味着少数非常大的M集群控制了整个MDN中的大多数恶意数据流。对恶意软件归因的分析显示，大量下载的文件是来自数量少得多的恶意软件家族的已知恶意软件变体。我们的M-Cluster分析建立在以前的研究结果[3我们的时间分析揭示了恶意软件分布中涉及的大集群的持续存在。这些大型集群在很长一段时间内保持了它们的拓扑结构，只有一些子结构的变化，这与其他工作形成对比，表明较小的时间段持久性[8]。这意味着恶意行为者可能会持续努力保留此类结构，以便在初始恶意入侵识别时进行长期数据流监控。这一关键的观察结果是由于我们新颖的时间分析方法，并且可能不会与静态分析方法，不包括随着时间的推移而发生的持续结构变化。本文的贡献是：1）识别在恶意软件分布中使用的大型基于网络的结构，其持续时间比当前文献中观察到的更长，2）桥和集线器在恶意软件分布动态中的重要作用，3）遵循幂律的M-集群的大小增加之间的相关性，4）观察URL缩短服务在促进恶意数据流的传输同时模糊流的源方面的持续依赖性。我们还提供了实现两个静态数据源（即GSB和VT）的新型数据融合方法的技术细节。这种数据融合的结果是创造了新的可观察知识。这些观察导致了对MDN的结构、趋势和数据流的独特和新颖的时间见解。在我们对当前工作的回顾中，我们没有找到我们的新颖数据融合的先前示例，并且我们进一步发现，如果没有我们的数据融合实现，我们在这里呈现的时间洞察力将不会被观察到，因为这些洞察力无法从GSB和VT单独提供的静态数据中得到理解。观察到的桥和集线器的结构和时间的见解提供了建议的预防方法，以持续的恶意软件分布在MDN的基础。为了促进研究，我们公开发布了最初从GSB收集的数据集[9]。2. 相关工作在当前的文献中，存在大量与基于Web的恶意软件交付相关的出版物，这些出版物探讨了其机制，结构和使用环境，我们在这里引用与本研究最相关的内容。我们的时间图分析方法受到[10，11]中提出的工作的启发。在这些方法中，分析图包括拓扑性质，诸如度分布的拓扑度量、连通分量、聚类系数、富俱乐部连通性、所有对最短路径、介数中心性、节点稳定性、动态异常和未来行为预测。通过CDN的恶意流量的早期分析描述了通过Web浏览器的传输机制和IFRAME重定向功能，作为恶意统一资源定位符（URL）内容加载过程的一部分使用IFRAME重定向，作者记录了动态加载内容将出现在给定网页中的IP地址他们的研究发现了通过Web内容脚本连接的多个IP地址的使用这个IP地址序列遍历互联网，直到最终到达托管显式代码或恶意软件本身的这项工作的一些共同作者参与了创建GSB已经提出了从恶意软件交付机制的收集数据进行的以图形为中心的分析[14图表以多种方式用于映射恶意流量在多个服务器上的移动。利用图论，这些方法应用基本的图形方程、属性和测量方法，发现网络是在分发恶意软件。一些作品描述了通过受损网站将各种形式的恶意文件下载到受害者机器的过程和检测[23恶意软件下载的过程和检测非常多样化，大多数使用捕获的流量作为研究的源数据。以多种方式分析源数据，重点是检测恶意数据流。其他人使用虚拟环境，使用专门仪器的浏览器收集已知将恶意软件下载到受害者机器上的访问网页的相关元数据。一些使用合成数据，这是研究人员创建的数据，代表实时看到的真实恶意流量。其他相关论文探索了不同的视角，包括风险，检测和恶意活动，见[33大多数这些作品显著成功在分析以前发生的恶意软件相关事件，并提供了风险规则，以防止未来的爆发。这些工作还提供了关于域、IP地址和恶意软件分发中使用的其他网络组件之间关系的见解。我们在本文中提出的研究通过使用公共数据源的独特数据融合实现来增强当前文献，从而创建新的可观察的基于时间的知识，这有助于深入了解主动托管和传输恶意软件的拓扑结构的时间演变。这里介绍的大多数相关工作都使用了静态数据集、合成数据集或在过去的恶意网络事件中实时捕获的数据。我们实时收集的数据集代表了当时发生的恶意事件。我们的日常收集程序允许进行时间分析，这增强了相关工作。相关工作的一个重要增强是我们能够将多个恶意软件文件在多个CDN中的活动分发和托管的时间间隔以及子网结构变化归因于。这提供了对MDN的操作特性和基础设施的深入了解。3. 定义恶意软件分发网络MDN是一个动态图，其顶点（节点）和边（链接）集随时间推移而转移。在这里，我们考虑一个初始状态为G0=（V0，E0）的动态图及其随时间的发展：G0，G1，G2可以描述图的两个状态Gi和Gi+1之间的转换由一组更新Ti+ 1。动态图随时间的演变是一系列跃迁G0→ G1→ G2→ G3→...的结果。分析动态图包括某些状态下的拓扑性质，例如度分布和连通分量的拓扑度量[1]。给定MDN，我们有以下特定的基础设施测量：BHHub节点BHHub节点-具有n个以上出站链路的节点; m，n ≥1;桥接节点（中心节点）Sink Node根节点过渡节点PersistentLink-在一段时间内保持活动状态的链接。图1示出了MDN的基础设施组件的示例。在图1中，每个节点表示恶意数据流，每个链路表示两个节点之间的恶意数据流。在我们的MDN图形可视化中，桥和枢纽结构占主导地位。这一现象说明了恶意流量的发生J.A. Morales和Y. 蔡阵列14（2022）1001743Fig. 1. MDN的结构组件不对称的根节点用作顶层分发起点。假设恶意数据进入根节点源自其他MDN节点之外的某个源。此来源可以是直接的人类交互、GSB未捕获的数据传输方法由于缺乏数据，我们无法确定根节点数据入口源。中继和出站集线器节点充当中间层分发点。桥节点是另一个顶层分发点，通常从根节点接收这种节点类型在分发中起着关键作用，因为删除它们将创建多个无法进行恶意数据入侵的节点的隔离子结构。汇聚节点是恶意数据的底层登陆点。MDN图中的叶节点被标记为汇聚节点。过渡节点促进了恶意数据在MDN上的流动。网桥和集线器节点被视为过渡节点。4. GSB数据收集MDN是建立在一个新的数据集，我们通过实施从GSB和VT收集的静态数据的融合创建的。数据集涵盖了2017年1月19日至9月25日的8个月。结束日期是由于在GSB API服务中删除了与本研究相关的详细信息。GSB服务用于警告用户不要访问可能不安全的URL。提供了由GSB确定的具有与网络钓鱼或恶意软件相关的内容的URL的黑名单。我们收集的数据是GSB认为恶意的URL的特定类别。GSB透明度报告是一个在线资源，提供来自Google内部收集的数据存储库的统计数据。Google向公众提供了一个API集，用于自动从任何提交的URL的存储库中检索数据。GSB API需要URL作为输入，并返回JSON格式的报告，其中包含几个标记数据字段，包括：● ‘website:name● ’● ’● ‘receivesTrafficFrom这些数据标签用于创建MDN日常拓扑结构的图形表示在标签“website：name”中命名的域名解析器的GSB报告在此路由器和AS中的每个条目之间创建了一个出站边。同样的过程也适用于IS。RT集合中列出的CDN是指向此CDN的恶意流量的从RT中列出的每个中继到该中继创建入站边标签RT用于区分过渡节点和根节点。一个非空的集合被标记为’静态数据收集过程是通过用种子查询器查询GSB开始如果在返回的JSON报告中，对于AS、IS或RT列出，这些被添加到GSB的未决查询队列中。彻底重复此过程，直到收到这些标签中没有列出任何CDN的GSB报告，并且处理队列中的所有CDN。对于每个标签的集合中列出的每个CDN，始终检索一份报告。我们没有一个案件中，一个上市的企业没有 GSB报告可用。我们的每日自动数据收集将在美国东部时间午夜过后2分钟开始，向GSB提交相同的种子目录vk.net。我们选择vk.net作为我们的种子搜索器，通过每天查询访问量最大的100个网站，从Alexa.com[42]到GSB，为期4个月，从2016年7月10日到11月19日。我们根据JSON报告按最常出现的CDN对结果进行排序。基于其在GSB报告中的持续出现，选择vk.net我们的日常收集过程需要4到11个小时才能完成，因此在同一日历日期内开始和完成。在对GSB报告“lastVisitDate”数据标签的列出值进行了数周的广泛手动分析后，我们决定采用每日收集流程完成每日采集过程后，储存数据集并标记采集日期。完整的八个月数据集包括来自22，801个独特的CDN池的6，232，304个比特币。表1列出了前20种最常见的BDNF。本表中列出了7个URL缩短服务，共出现195，835次，突出了它们在MDN中的广泛使用[43]。最常见的URL缩短器是bit.ly，它以前曾被用于恶意目的[44]。5. 恶意软件分发集群我们定义一个M-集群是一个互连的子图的MDN包含不少于五个节点。这个节点数是任意选择的。从我们的日常数据收集中产生的MDN图的时间可视化显示，每个图都是多个互连结构的宇宙，如图2所示。我们将每个结构称为一个簇。我们发现，在8个月的数据收集时间段内，集群大小和排名之间的关系符合幂律，如图3所示：N=αXβ哪里α=218 。七四五，β=-0 。 832（ 1）我们通过可视化我们的数据收集中每个月第一天的数据集来证实幂律拟合，如图3和图4所示，拟合优度如表2所示，R2定义为其中y是节点的真实数量，f表示曲线拟合上的节点幂律对齐表明，绝大多数集群包含少量节点（少于20个），只有少数集群（少于5个）包含更多的节点。图二. MDN universe 2017年1月19日。J.A. Morales和Y. 蔡阵列14（2022）1001744图3. Power Law超过8个月的数据收集期。见图4。按月将幂律应用于M群集数据。对于我们的数据集中的任何给定的收集日期，MDN宇宙是一组多个图，每个图代表一个集群的拓扑结构。我们最初假设一天的MDN的图形是一个大的图形，但是我们基于时间的图形可视化显示了许多独立的集群。我们合理地解释了这个集群的宇宙是正确的，因为GSB的报告涵盖了许多可能与广泛的全球恶意行为有关此外，我们的文献综述没有证据表明全球所有恶意活动的恶意软件分布都是通过一个大型分销网络进行的。更合理的情况是，恶意活动的操作者将其自己的CDN网络合并，一些使用域生成算法，用于各种任务，包括分发恶意流量[45三个最大的，分别标记为C1，C2和C3，在2017年1月至4月期间达到峰值，如图5所示。C1在1月下旬达到峰值，C2在3月初至3月中旬，C3在4月初。C1 - C3在其峰尺寸期间的可视化见图1A和1B。六比八针对C1-这些集群中的每一个的演变示于图1A和1B中。分别是10-12。C1的演化在1月下旬和2月初维持了超过120个连接节点。1月31日节点数量大幅下降，2月初恢复增加。我们的研究无法确定突然下降的原因。2月3日至5日的图表中有一个缺口。这一差距是由于我们的数据收集脚本在那些日子里没有运行。针对C1-这些集群中的每一个的演变示于图1A和1B中。分别是10-12。C1的演化在1月下旬和2月初维持了超过120个连接节点。1月31日节点数量大幅下降，2月初恢复增加。我们的研究无法确定突然下降的原因。2月3日至5日的图表中有一个缺口。这一差距是由于我们的数据收集脚本在那些日子里没有运行。桥和毂结构在C1 - C3中清晰可见，C1的进一步图示如图所示。第九章在这个具体的示例中，URL缩短服务bit.ly充当了桥梁。在整个数据集中，URL缩短器在许多方面充当了桥梁或枢纽图五、数据集中簇大小的演变。J.A. Morales和Y. 蔡阵列14（2022）1001745见图6。群集C1 - 2017年1月30日。见图7。 2009年3月C2组见图8。集群C3 - 04/06/2017。J.A. Morales和Y. 蔡阵列14（2022）1001746图第九章 Bridge-bit.ly of C1 - 01/30/2017。以及使用算法1的集线器结构。大量的桥梁和枢纽结构被发现。图在图13 - 15中，我们展示了C1中包含的三个桥和枢纽结构，以及它们在几天内的基础结构演变。在这三个图中，每个箭头类型表示添加到结构中的新节点。图13中的结构保持不变，而图14中的结构保持不变。14和15随着新节点的增加而发展。以下是我们的M-Clusters中识别的URL缩短器：bit.ly，adf.ly，smarturl.it和wp.me。其中一些缩短器导致了其他缩短器，在根节点和叶节点之间创建了多个层。如前所述，广泛使用的可能原因是恶意行为者意识到在我们收集期间目前可用的次优风险分析技术。我们的分析表明，这三个特定的结构是C1的三个最大的亚结构的基础。算法1集线器和网桥检测算法在实践中，强调其持续和广泛的使用，恶意软件分发。C2的进化看起来很普通，在它第一次出现在MDN中时，节点大小一直在增加。随后是3月3日至10日的节点大小稳定期。C2的节点大小从3月10日开始逐渐减小，一直持续到 3月16日生命结束C3的演变发生类似于C2，除了两个实例的节点大小的持久性在逐渐减少到生命结束的时期。所有三个集群都达到了超过100个节点的规模，C1增加到超过200个节点，并且这些大规模持续了C2的最少2天，C1的最多11天。请注意，在我们收集的第一天，C1的节点大小为120。由于我们的数据集从1月19日开始，我们无法确定C1的创建日期以及从创建日期到1月19日的节点大小演变针对最大的簇C1，我们执行桥检测输入：有向网络G1网络的节点集N1网络的边集，E1（Ns，Nd）输出：集线器节点，Hn网桥节点，Bn伪码：1：对于N11→ N1n，第二章：如果OutDegree（N1i）>0 InDegree（N1i）>0则3：如果Degree（N1i）>p则&4：N1i∈ Hn5：如果结束第六章：end if7：结束8：创建新的有向网络G2，节点集N2 9：对于E1（Na，Nd）1→E1（Na，Nd）n，10点整：如果Ns∈Hn Nd∈ Hn，则&（接下页）见图10。 C1的节点演变J.A. Morales和Y. 蔡阵列14（2022）1001747图十一岁 C2在其生命周期中的节点演变。算法1（续）11：Ns∈ N212：Nd∈ N2十三：end if14：结束15：对于N21→ N2n，十六：如果OutDegree（N2i）>0 InDegree（N2i）>0则17：如果Degree（N2i）>q则&18：N2i∈ Bn（下一栏）图12个。 C3在其生命周期中的节点演变。算法1（续）19：如果结束二十：end if21：结束6. 恶意软件和M-集群恶意软件属性通过时间属性添加到数据收集中。J.A. Morales和Y. 蔡阵列14（2022）1001748图13岁永久桥和集线器-2017 年 1月 19日至 30 日。图14个。发展枢纽和桥梁-2017 年 2月 1日至8日。图15个。不断发展的枢纽和桥梁-2017 年2 月 9日至13 日。将已知恶意软件与收集的CDN进行关联。这一属性是我们对GSB和VT收集的静态数据进行数据融合所产生的新的可观察知识的一部分。这种关联是通过利用在线恶意软件分析服务VT通过学术用途的API密钥实现的。创建了一个列表，列举了GSB静态数据收集中包含的所有CDN。出现在M群集C1、C2和C3中的FQDN的过滤已复制到新列表。每个查询都通过自动化脚本输入到VT，VT返回JSON格式的报告。图16显示了该报告的样本片段，突出显示了与本研究相关的部分。本报告提供了VT提交的手术的历史扫描结果的详细信息。这些报告包括四个主要部分：● 检测到的污染物样品● 检测到的URL● 检测下载样本● 未检测到的下载样本恶意软件和M-Cluster之间的关联基于标签“detected_downloaded_samples”。该标签由VT定义为已从提交的IP地址下载的文件列表，其中至少有一个AV检测[49]。我们找不到CDN的“detected_ downloaded_samples“定义，这是我们提交给VT的定义。由于CDN和IP地址的VT报告由相同的标签组成，因此我们假设VT在内部解析CDN或将CDN映射到IP地址并生成相关报告。MDN提供了网络基础设施，便于恶意流量在Internet上移动。可以合理地假设，通过MDN传输的恶意文件将驻留在与恶意木马相关联的服务器的一部分上。GSB报告支持这一推理，该报告表明在分析时是否确定某个恶意软件正在托管恶意软件。在“detected_down-loaded_samples“下列出的每个条目包括从提交的URL下载的文件的SHA 256散列值、文件被下载和扫描的时间的日期戳、将文件检测为恶意的被标记为“阳性“的AV的数量、以及扫描文件的AV软件的总数。使用日期戳，我们过滤了M集群C1、C2和C3生命周期内的条目。该范围为2017年1月19日至4月15日结果共产生132个从CDN子集下载的恶意文件，这些CDN是C1、C2或C3。这些恶意文件是从60个唯一的FQDN下载的。表3列出了恶意文件下载量最高的前5个CDN。在这5个CDN中，有两个，即apploading.mobi和expresent。信息，所有的恶意文件都是在同一个月下载的，此后在M-Cluster生命周期内不会发生下载。其中三个CDN，即j.mp，jmp.sh和migre.me，在几个月内从其服务器上下载了恶意文件。后三个FQDN是URL缩短器，前两个FQDN不是。有19个CDN下载了2个或更多被VT视为恶意的文件，如表4所示。所有从同一个服务器下载的文件在VT报告中都有唯一的SHA256哈希值。在这19个CDN中，有12个在一个月内下载了所有恶意文件，在之前或之后的几个月内没有发生其他事件。其余8个CDN中的恶意文件下载发生在多个月内。一个网址缩短器urlz.fr在一个月内发生了所有恶意文件下载实例其他网址缩短器：j.mp，jmp。sh、migre.me、sh.st、viid.me和wp.me的实例发生在2-4个月内。早在2016年，就有报道称，viid.me正在进行浏览器劫持，作为广告软件活动的一部分[50]。在60个唯一的FQDN中，有41个从其关联服务器下载的文件的单个实例被VT检测为恶意表5中按字母顺序列出了前19个CDN。表5中出现了几个 URL 缩短器，例如 adf.ly ht.ly 、 grabify.link 、www.example.com和fb.me。注意，这些缩短器只有一个恶意文件下载实例。我们在一个M-已下载文件并被VT检测为恶意文件的群集。我们利用GSB和VT恶意软件属性数据的新颖相关性来记录以下内容：首次出现在M-Cluster中的日期，被检测为恶意的下载文件的实例，以及最后一次出现在M-Cluster中。对表4和表5的前10个条目执行该任务。表6列出了在一个月内所有下载的CDN的结果。表7显示了在不同月份进行下载的CDN的结果。FA是此恶意程序首次出现在群集中的日期，MD是文件被VT下载并被检测为恶意的日期，LA是恶意程序最后一次出现在群集中的日期，J.A. Morales和Y. 蔡阵列14（2022）1001749图十六岁 VirusTotal.com针对恶意蠕虫的JSON报告片段。集群，MC是恶意文件下载期间此服务器所属的M集群表6中列出的MDN在一个月内的寿命说明了参与MDN的动态性质。生命周期并没有持续性。一些CSDN在M-集群完全存在时仍然存在，而另一些持续时间较短。这与最近的研究结果相反，该研究表明平均寿命为8天[8]。在表7中，URL缩短器占主导地位，它们的寿命更持久。这些CDN在它们各自的M-Cluster的整个生命周期内持续存在，或者仅仅短几天如前所述，归因工作总共产生了133个被VT检测为恶意的下载文件。在这133个文件中，有111个是基于SHA256哈希值的唯一文件。这表明22个恶意文件被下载了不止一次。这些重复下载使用了七个唯一的哈希值，如表8所示。每个SHA 256散列值由其恶意软件名称描述，该名称由Microsoft、Sophos AV或ESET-NOD32通过VT的免费检测服务按优先顺序提供我们之所以选择这三款产品，是因为在2019年12月扫描恶意软件识别时，没有一款AV软件为所有7个CDN提供恶意两个散列值没有从VT使用的任何AV软件中产生任何恶意检测根据检索到的这些CDN的VT报告，在下载和分析之日，这些哈希值被认为是恶意的。表8中还包括每个实例的日期和CDN，恶意文件下载七个散列中的六个只被下载了两次。相同的一对FQDN是下载相同恶意文件的来源，其中七个SHA256值中有三个这两个CDN是：jpm.sh和jumpshareusercontent.com。如前所述，jpm.sh是一个URL缩短器。有三个哈希值是在同一个月内下载的，其余四个是在几个月内下载的。在同一天，还有来自两个FQDN的几个下载实例根据我们的恶意文件下载统计数据，一天是M集群中恶意文件的平均寿命这些都是唯一的恶意文件，有一个实例的一次下载。如表8中下载日期之间的时间间隔所示，有两个实例的时间跨度在2到7天之间。此表中还有两个下载之间使用寿命最长的文件。以9863结尾的哈希值持续了40天，7e83持续了70天。在表4和表6中，apploading.mobi的恶意文件下载量最高，为24个。这发生在7天的时间内，详见表9。所有下载的恶意文件都是唯一的，基于其SHA256哈希值。根据他们的名字，这些文件是三个恶意软件家族之一的成员为了了解MDN的日常演变，我们在图17中示出了TechBrolo. A的恶意软件的节点变换和外观。此恶意软件在表8中被列为C1、C2和C3中下载次数最多的恶意软件。红色节点是包含此恶意软件的CDN，非红色节点是在红色节点之间发送或接收流量红色节点由图17. TechBrolo.A在随时间变化的星系团中的出现J.A. Morales和Y. 蔡阵列14（2022）10017410我们收集的VT静态数据和来自GSB静态数据的非红色节点。边缘包含出现的日期戳，其指示恶意流量何时在节点之间流动。一些被感染的节点被显示为不直接连接到子图。这些节点是M集群的一部分，但并不直接连接到集群拓扑网络结构的这一部分。进化是动态的，大多数节点出现，并包括一个或两个其他节点的边缘。有一组较小的节点，随着时间的推移，获得的边缘向多个节点发送恶意流量-couch-tuner.city就是一个例子。图17中的子图示出了我们在从我们收集的静态数据揭示的GSB和VT数据之间实现的数据融合主要提供的新知识：已知包含恶意文件的连接节点的时间演变。利用这一新的见解，我们对M-集群中的日常结构变化的时间分析显示，所有三个集群的几个桥和枢纽组件在很长一段时间内都保持了连接性。我们观察到，对于任何被识别为托管恶意软件的特定恶意软件，实现其恶意数据流入口的拓扑结构在恶意软件检测后的几天甚至几周内保留了其感染前的连接。在跟踪流向恶意软件托管CDN的入口数据流时，我们观察到一些第一和第二节点度子结构的变化。然而，在这方面，从第三节及其后，结构多为前-后-后-服务，与结构修改的数量少得多。这种保存大多发生在由URL重定向器组成的桥和集线器结构所产生的结构连接中。我们进一步观察到后续的恶意数据流进入恶意软件托管的CDN穿越保留区域内的电路。这表明需要集中精力长期维持整个基于CDN的恶意软件分发网络。识别和监控保留区域中的数据流的能力可能会导致在早期阶段停止恶意软件的分发。7. 讨论这项研究的关键洞察力是观察多个恶意数据流传输中涉及的基于PDN的拓扑结构的长期存在和保存。这表明需要集中精力来维持这些基础设施，并有助于长期监控通过这些结构的数据流。这种证据性的见解与以前的研究相反，以前的研究表明恶意软件的分布结构只存在很短的时间。我们的工作的见解可能表明恶意软件分发方法的转变，通过不断改变恶意软件托管和直接节点度CDN，同时在距离检测到的叶节点更远的程度上保留CDN，有利于长期维持大型拓扑结构。大多数CDN仅作为唯一恶意文件下载的来源出现一次。在VT报告中，只有少数CDN作为两个或多个唯一恶意文件下载的来源出现。一旦VT报告某个代理托管了在特定日期下载并检测到恶意的文件，该代理就不再显示在VT报告中托管任何恶意文件。根据VT的说法，这意味着恶意行为者很少使用恶意软件，或者可能只使用一次，在其服务器上托管可下载的恶意文件。这有助于MDN运营商不断改变叶子节点周围度的MDN的想法，而保留连接到根节点的子结构中的那些，特别是桥接器和集线器实现。从研究中还获得了以下见解1) MDN由若干个相互连接的MDN的孤立集群组成。与我们最初假设的一个大型网络相反，我们的MDN图显示多个孤立的集群是普遍存在的。如果使用多个集群，则安全防御者的终止尝试之外的集群生存能力会增加2) 在8个月的数据收集期内，建立了聚类大小和等级的幂律分布。这表明大多数集群的大小都非常小，只有少数几个大得多。在我们的数据收集中，20个或更少的节点是常见的，只有不到5个M集群拥有更高的节点数。3) 网桥和集线器结构是恶意流量的关键分发点。我们的可视化清楚地显示了网桥和集线器在集群内将流量从根节点路由到叶节点的关键用法。在充当网桥和集线器的MDN上终止或使用DNS sinkhole [59]可以关闭MDN的大部分4) 对URL缩短服务的依赖很大。恶意行为者似乎定期将缩短器作为桥梁和枢纽。大多数知名的和其他不太知名的短期服务都存在于所有集群中。5) 分布在集群中的恶意软件似乎是由来自少量恶意软件家族的大量独特个体样本组成的。大多数恶意软件都是带有JavaScript的HTML页面。该脚本在访问网页时被访问，并可能执行自动化任务，例如在主机上下载或安装其他恶意软件。其他发现的恶意软件是试图进行社会工程的HTML页面和带有指向存储系统中包含恶意软件的公共可访问目录的链接的CDN。7.1. 促进防止MDN在这项工作中，桥和集线器结构的作用被证明在促进恶意数据流的传输方面发挥着关键作用， MDN。这些结构始终是连接的一部分：顶级域名导致远程服务器托管恶意软件，利用服务器和受损机器。关于MDN中桥接器和集线器构造的结构和数据流趋势，观察到以下情况：● 将恶意数据流传输到桥节点的节点（其中一些是根节点）通常不专属于该桥。这些传输节点经常被观察到同时向多个网桥发送流量，维持一对多的关系。● 单个网桥节点被观察到接收来自单个和多个节点的恶意数据流。● 单个网桥节点通常将恶意数据流同时传输到多个集线器，其中仅传输到单个集线器的情况较少。● 在URL重定向服务（例如bit.ly）用作网桥节点的情况下，没有观察到向该网桥传输恶意数据流的节点。我们从结构和数据流中推断，重定向器掩盖了远程服务器的域名或IP地址，而远程服务器是从网桥发送到其集线器的恶意数据流的来源。● 一些网桥和集线器结构中填充了URL重定向器的多个域名，导致传输恶意数据流的远程服务器的IP地址被覆盖。有了这种见解，以下方法可能有助于阻止这些恶意数据流：● 阻止向检测到的网桥节点提供入口数据的域名。考虑到上面讨论的观察到的一对多关系，来自这些节点的数据流的中断可以将恶意流量流减少到检测到的节点之外的更大的并且可能未被发现的数量的桥接节点。这些服务于恶意流量的节点被恶意行为者认为是MDN的入口点。它们的禁用导致参与者消耗更多的资源来重新建立被阻塞的节点。J.A. Morales和Y. 蔡阵列14（2022）10017411● 阻止网桥节点本身的域名。网桥是恶意流量源和集线器之间的连接器。例如，通过列入黑名单来阻止该节点，停止到连接的下游集线器的所有流量。充当被阻止的网桥节点的恶意流量源的节点可以继续流到其他尚未发现的网桥节点。阻塞网桥节点的影响是将流量移除到下游的集线器子网（已发现和未发现）。● 阻止集线器中的所有节点从网桥节点接收恶意流量。可以阻止检测到的集线器的域名，以避免继续接收来自网桥节点的恶意流量。这一方案需要更多的资源，由安全捍卫者来实现。仍然活动的网桥节点可以继续连接到新创建的和可访问的集线器。在集线器的各个节点被认为有必要阻止接收流量的情况下，该选项是实用的，同时允许集线器的其余● 重定向而不是阻止恶意数据流。将数据流重定向到安全防御者管理的服务器网络允许长期持久地观察MDN结构随时间的演进并归因于MDN结构随时间的演进。在这项工作中，尚不清楚这些节点中是否有任何节点能够检测其数据流是否被阻塞并且未被下游节点接收。如果是这样的话，重定向是一个很好的选择。数据流继续按照恶意行为者的预期进行，同时允许防御者长时间分析和观察● 阻止整个URL重定向服务可能不是一个实际的选择。考虑到它们在MDN中的使用，安全防御者应该考虑：对底层重定向远程服务器进行安全评估，尽管这可能很难实现，并且需要大量资源来实现，只允许使用一个或两个经过批准的服务，或者通过建立满足给定用户群需求的专有安全防御者管理的重定向服务。7.2. 公开发布数据集在这项研究中，我们介绍了一种独特的数据收集方法的新结构，该方法可以深入了解促进恶意流量的后端基础设施。为了鼓励其他研究人员进一步探索数据集，我们以原始形式公开发布了收集的Google安全浏览数据集[9]。7.3. 限制分析和结果仅限于GSB和VT公开提供的数据。这些数据可能只是更大的内部数据集的一部分。我们认为，由于我们的数据中有强有力的证据支持MDN的存在和发生，这种限制不会对我们在本研究中讨论的发现产生负面影响。然而，GSB和VT的内部数据分析和公共传播实践可能会影响我们的时间分析。我们收集的数据主要基于上述机构实体.我们的发现可以更精确地确定恶意事件实际发生的日期，而不是公开报道的日期。8. 结论在这项研究中，我们详细介绍了我们新颖的数据融合方法，该方法创建了一个独特的数据集合，捕获了恶意软件分发网络在八个月内的时间演变和恶意软件属性从GSB和VT收集的静态数据的数据融合导致了在孤立的静态数据收集中无法观察到的新知识的产生新创建的知识集中在MDN的结构和时间动态，以及时间恶意软件属性，包括托管和传输。这种新创造的知识导致了指导这项工作的关键见解。通过利用来自Google Safe Browsing和VirusTotal在线服务的公开数据，我们收集的数据显示了由二级和顶级域名组成的互联、完全合格域名的网络拓扑结构这些演变包括完全合格的域名托管并促进已知恶意软件的分发和托管的记录时间段。我们对数据收集的分析产生了几个有趣的发现，包括：未改变的拓扑结构的长期持续性促进了恶意数据流，URL缩短器的大量使用和持续性，以及由隔离互连的、完全合格的域名集群组成的整体网络宇宙，通过网桥和集线器结构促进了恶意流量，团簇大小之间的幂律分布，以及大量唯一下载的恶意文件属于少数恶意软件家族。观察到的结构和时间桥和枢纽的见解（源于数据融合的新创建的知识）促进建议的方法，以防止长期维持恶意数据流传输的MDN。最初的谷歌安全浏览数据收集已经公开，以鼓励继续研究。我们未来在恶意软件分发网络方面的工作将包括：通过利用更多的公共数据进一步丰富当前数据集，继续分析以确定将我们的数据用作恶意网络事件的指标，继续研究以列举通过我们收集的数据可实现的新颖的可辨别的见解，以及使用公共可用数据创建新的时间MDN数据集。竞合利益作者声明，他们没有已知的可能影响本文所报告工作致谢杨才何塞·安德烈·莫拉莱斯相关表表1MDN数据集中出现最多的CDN发生率umblr.com www.example.combit.ly www.example.comsayhi.tw www.example.comow.ly www.example.com（接下页）J.A. Morales和Y. 蔡阵列

下载后可阅读完整内容，剩余1页未读，立即下载