Web安全与隐私：利用WebAnalytics发现恶意活动和提升黑名单覆盖率

121 浏览量更新于2023-10-15 收藏 904KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法国里昂227背叛通过你仪表板：通过WebAnalytics发现恶意活动奥列克西·斯塔罗夫石溪大学ostarov@cs.stonybrook.edu周雨辰Palo Alto networks公司yzhou@paloaltonetworks.com小张Palo Alto networks公司xizhang@paloaltonetworks.com摘要Najmeh Miramirkhani石溪大学nmiramirkhani@cs.stonybrook.edu尼克·尼基福拉基斯石溪大学nick@cs.stonybrook.edu因为它们易于采用，而且为了更好地了解访问者的人口统计数据及其通过网站的路径，绝大多数现代网站所有者使用第三方分析平台，例如GoogleAnalytics和ClickTale。考虑到第三方分析平台的所有客户端向同一服务器报告，跟踪请求需要包含允许分析服务器在其客户端之间区分的标识符。在本文中，我们分析了18个不同的第三方分析平台所使用的分析标识符，并表明这些标识符能够将看似不相关的网站聚类为常见的第三方分析帐户（即其分析由单个人或团队管理的网站）。我们把注意力集中在恶意网站，也利用第三方网络分析，并表明威胁分析师可以利用网络分析，lytics发现以前未知的恶意网页在威胁不可知的方式，以及集群恶意网站到活动。我们建立了一个系统，用于自动识别，隔离，和查询分析标识符从恶意网页，并使用它来发现一个额外的11K活域使用与恶意网页相关的分析。我们展示了如何使用我们的系统来提高现有黑名单的覆盖率，发现以前未知的网络钓鱼活动，识别恶意二进制文件和Android应用程序，甚至帮助恶意域名的归属与受保护的WHOIS信息。ACM参考格式：Oleksii Starov，Yuchen Zhou，Xiao Zhang，Najmeh Miramirkhani，andNickNikiforakis. 2018.被你的仪表板背叛：通过Web Analytics发现恶意活动。在WWW 2018：2018年网络会议，2018年4月23日至27日，里昂，法国。ACM，New York，NY，USA，10页。https：//doi.org/10.1145/3178876.31860891介绍Web分析是现代网站更好地了解用户以及他们如何与内容交互的必要工具。大多数Web开发人员使用第三方分析平台，例如Google Analytics，Yandex Metrica和ClickTale，两者都是本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW 2018，2018年4月23日©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186089免费/例如，根据BuiltWith [2]最近的统计数据，网络上100万个最受欢迎的网站中有77.8%使用GoogleAnalytics。考虑到第三方分析平台的所有客户端报告给相同的集中式后端，从web浏览器发出的跟踪请求需要包含允许分析服务器在其客户端之间区分的标识符。单个标识符（在本文中称为ID）通常在属于同一帐户或分析仪表板中的同一项目的不同网站之间共享，从而有效地成为将网站分组在一起的方法，即使在看起来不相关的域之间。因此，存在用于反向查找Google Analytics ID的服务（例如， SpyOnWeb [15]和SameID [13]），例如，记者使用它们来揭示网站之间的隐藏连接[18]。在本文中，我们分析了由18个不同的第三方分析平台使用的分析标识符，并表明这些标识符允许将看似不相关的网站聚类为常见的第三方分析帐户（即其分析由单个人或团队管理的网站）。我们使用该观察结果来执行恶意内容所利用的分析的第一次大规模分析，并量化匹配分析ID允许识别新恶意内容、将恶意内容聚类到活动中以及甚至恶意行为者的去匿名化的程度在这种程度上，我们设计并开发了一个可靠的管道，用于解析恶意内容的源，识别和提取与所研究的分析服务相关联的ID，并搜索以威胁不可知的方式共享所提取的ID的新恶意内容，即，能够识别恶意内容，而不需要定制的、针对滥用的检测方法。我们使用我们的系统在两周内每天抓取VirusTotal提供的145，000个恶意URL，并识别与恶意页面相关的总共9，395个唯一分析ID我们的系统平均每天能够发现1，442个恶意分析ID，其中大部分属于Google Analytics。此外，我们从一个为期两年的技术支持诈骗和其他社会工程攻击的语料库中提取了872个分析标识符，使我们能够计算出一些骗局的生命周期超过两年。通过在野外重复使用提取的ID搜索域和URL，我们能够发现11K其他网站，并展示了分析ID的共享如何允许域所有者的去匿名化，甚至主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法国里昂228–http：//www. 谷歌分析。com/__utm.gif？ utmwv =5.7.0&utms =3&utmn=318899286 utmhn = www.fourfilerfis.com utme =8（Nombre %20 landing *Hash）9（flash %20 player %20-%20 grey-fp* dnqO3b3R）utmcs =UTF-8 utmsr=1440 x900 utmvp =1433 x372 utmsc =24位...&与utmac =UA-41451094...图1：调用Google Analytics的诈骗页面示例使用WHOIS隐私解决方案时。接下来，我们将展示我们的分析ID匹配技术如何应用于常规网站之外（恶意移动应用程序，可疑扩展和恶意软件二进制文件），以及我们如何利用它来发现13个针对流行网站的网络钓鱼活动。最后，我们解释了为什么逃避我们的检测方法不会是微不足道的攻击者，只要他们在分析的ND值，我们描述了分析公司如何利用他们的特权地位，以协助发现恶意内容和援助执法确定背后的真正罪犯攻击。2对于几乎所有类型的Web分析，分析服务都要求Web开发人员在整个分析中嵌入一段JavaScript代码他们的网站.该JavaScript代码包括用于跟踪用户访问的逻辑和至少一个标识符（在整篇论文中被称为ID），该标识符由分析平台使用以稍后在其客户端的跟踪请求当访问者在其浏览器中加载相应页面之一时，分析脚本向分析后端发出请求，分析后端收集有关当前访问者的跟踪数据。然后，分析服务汇总数据，并通过方便的Web仪表板提供给网站所有者。在这一点上，重要的是要注意，虽然嵌入在网站中的分析ID需要是每个分析客户端唯一的，但它们不需要是每个域唯一的。也就是说，网站所有者可以管理多个网站作为单个项目的一部分，其中，例如，对example.com、example.net和example.org的所有分析请求被聚集在一起。在这种情况下，嵌入在所有三个网站中的JavaScript代码将使用相同的分析ID。这允许第三方观察者推断出这三个域以某种方式相关（即，由同一个人/团队管理），即使当ID共享域在词汇上不同、托管在不同的服务器上并且利用WHOIS隐私解决方案时。通过我们的实验，我们发现这种类型的聚合在良性和恶意网站所有者中非常常见，因此可以用于将看似不相关的网站聚集在一起成为活动。为了衡量这种ID共享观察在不同分析服务中的推广程度，我们分析了18种流行的通用Web分析服务（根据BuiltWith[2]的报告，根据其受欢迎程度在表1中列出）。可以看出，大多数表1：流行的Web分析比较网络分析价格泄漏ID实施例1dGoogle Analytics免费账户电话：+86-21 -22417551Google Tag Manager免费项目GTM-N7R3KH新遗迹洞察支付账户9a40653a95Yandex Metrica免费项目42880164Quantcast免费账户p-b6_rD1Ba7gEIMStatcounter免费项目7040321/0/9a83071eOptimizely支付项目5328963582CrazyEgg支付账户0023/6581Clicky免费项目101071552Mixpanel免费账户481d51295e... f5547段免费项目6q5KVhqz... 6DONr鼠标ow图表b吃堆分析Free付费免费Pro ject512A计数项目8b8-7... caba850874429571327Kissmetrics支付项目e4756f9bee. c2dc3Clicktale支付账户6ea876d3-3... b4f00计支付项目58caae4f4b. 1c18aW3Counter免费项目63908服务提供了一个免费订阅的选项，这使得它们对网站所有者更具吸引力在注册任何Web分析服务时，Web开发人员都可以设置项目，这可能需要也可能不需要指定目标域。我们要强调的是，即使在分析仪表板中指定了特定的域，trac统计数据也是跨不同来源收集的，因此分析脚本可以根据Web开发人员的判断分布在不同的网站上。在这种情况下，来自每个网站的分析请求包含相同的项目ID，可以使用该项目ID将它们关联起来。此外，即使网站所有者为每个被监测的域创建单独的分析项目，也存在仍然需要单独的账户标识符的服务，诸如Google Analytics。具体来说，每个Google Analytics帐户最多可以创建100个以下格式的标识符UA XX... XX YY，其中UA XX……XX是常量帐户ID。同样，对New Relic Insight的跟踪请求包括一个“全局许可证密钥”，该密钥在由单个帐户管理的所有网站上都是通用的。每个服务的分析ID的确切格式例如，如表1所示，YandexMetrica使用由短数字串组成的高度模糊的格式。为了找到使用相同ID的其他网站，我们需要抓取尽可能多的网站，并在发生时动态定位对Yandex后端服务器的请求，或者静态尝试定位与Yandex相关的JavaScript代码，这可能会通过使用最小化和模糊处理进一步复杂化。相比之下，ClickTale利用较长的字符串（例如，“6ea876 d3- 3...f00”），而StatCounter使用项目ID和附加标识符的组合（例如，“/7040321/0/9a83071e/1/”）。在这两种情况下，生成的ID更有可能是全局唯一的，因此可以使用索引网页源代码的通用搜索引擎（例如PublicWWW [11]和NerdyData [5]）进行搜索。此外，一些分析提供商的特殊格式，例如Google Analytics和Google TagManager，为我们提供了不仅可以搜索特定ID，还可以检索所有主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法国里昂229-标识符同时静态地分析页面格式为GT M XXXXXX的所有ID）。最后，值得指出的是，上述分析服务不一定仅限于网站。浏览器扩展可以通过在其后台页面中包含适当的JavaScript代码来直接利用Web分析[33]，而AndroidAPK可以包含发出分析后端服务器识别的适当HTTP请求的分析SDK。除了适用于两个网站和Android应用程序的Google Analytics和Google Tag Manager之外，我们还分析了以下移动专用分析服务： FireBase ， Appyer ， AppMetrica，Flurry，Umeng和Adjust。 Google Analytics、Fire-Base和Appyer在每个跟踪请求中泄漏一个全局分析帐户ID，而其余的则为每个单独的应用程序注册唯一的应用程序ID。3数据收集和分析在本节中，我们将描述从恶意URL、浏览器扩展和移动应用程序的不同来源中挖掘分析ID的管道。3.1从恶意网站的分析ID对于我们的项目，我们利用两个来源的恶意网址：i）每日名单的恶意网址从VirusTotal和，ii）的网址和HTML代码域名和基于广告的URL缩短器的目标URL，由Miramirkhani等人提供给我们。[28]第10段。有了这两个来源，从恶意网站中提取分析ID看起来很简单。人们将仅需要访问每个URL，识别一个或多个分析提供者的存在，并隔离所使用的分析ID。不幸的是，以下原因使这个看似简单的过程变得复杂：当在恶意URL被首次报告之后的某个时间访问恶意URL时，所得到的页面现在可以由具有其自己的良性分析的域停放公司操作当信任第三方关于给定URL的恶意性的判断时，不清楚页面的哪个部分是恶意的，即，主页面与嵌入在页面中的特定iframe恶意页面可能包括良性内容，反之亦然，两者都可能利用自己的网络分析。为了解决VirusTotal爬网过程中的这些复杂问题，我们部署了一组过滤器，如图2所示。首先，在从VirusTotal抓取URL之后，我们提取有效分析ID对和找到它们的实际域（即主页的域或iframe的域然后，我们根据VirusTotal检查该域是否是恶意的，并丢弃那些报告为良性的，使我们能够删除许多否则会误报的实例。其次，我们从Alexa前100K的网站中筛选出白名单域和已知的良性分析ID。在试点实验中，我们发现，从这两个过滤步骤产生的域仍然包含大量的假阳性。这些误报主要是由于存在于大量页面中的一些常见分析ID，这些页面是恶意URL生命周期的一部分，但本身并不是恶意的。例如，主机提供商在暂停用户帐户时显示的错误页面因此，如果我们不排除这些页面，我们将标记所有被暂停/删除的域为恶意。为了解决这种情况，我们利用PublicWWW和SpyOnWeb（两个HTML代码搜索引擎）来ND其他域的网页，利用相同的分析ID，并忽略给定的ID，如果它是由更多的网页使用比经验发现的阈值（500域根据我们的实验）。我们设定这个阈值的理由是，如果我们发现超过500个不受欢迎的域，所有这些域都共享相同的分析ID，并且其中一些被标记为恶意，我们认为这些域与已知的良性服务相关，而不是由单个专门的攻击者管理相反，因为Miramirkhani et al. [28]为我们提供HTML代码和URL，我们可以开发自己的启发式算法来识别恶意页面，如果这些启发式算法与包含分析ID的页面相匹配，我们可以立即隔离并提取该ID。考虑到他们的项目和数据源的性质，我们通过HTML和JS语料库搜索与技术支持诈骗相关的关键字，免费电话号码，以及表明我们需要下载新软件的消息（例如：丢失的编解码器），或者更新我们现有的编解码器（例如，更新Flash、Chrome或Java）。为了忠实地模仿登陆恶意域名的用户，我们的爬虫基于无头Chrome浏览器。我们的爬虫能够拦截JavaScript警报，模拟点击，并从网络跟踪以及页面的HTML代码和浏览器DOM中提取分析标识符。通过在多台机器上运行我们的爬虫，我们每天能够抓取和分析超过1000万个域。所有网络跟踪和提取的分析ID都存储在数据库中以供进一步分析。本文其余部分描述的统计数据基于以下数据集：VirusTotal（VT）在2017年 8月报告了三组每日恶意URL，并从2017年9月每个集合平均包含145K个唯一URL，属于24.3K个唯一TLD+1个域。例如，仅在9月份，我们就在340，873个唯一域上抓取了超过200万个URL。来自Miramirkhani et al. [28]包括从2015年9月到10月，每天抓取10，000个拼写错误域名的近两年时间，以及从2016年4月开始，从基于广告的顶级URL缩短器中抓取3，000个缩短的URL。最后，我们利用了PaloAltoNetworks的商业URL过滤服务，PaloAlto Networks是一家网络和企业安全公司，它为客户提供URL类别，包括：恶意软件、网络钓鱼、成人、毒品和武器。任何给定的URL被他们的rewall解决方案的客户端访问并且不是他们的列表的一部分，被放置到单独的UNKNOWN_URLs数据库中。我们利用这个数据库来评估我们的威胁不可知的分析ID匹配技术所增加的覆盖率。3.2恶意软件样本的分析ID除了利用分析ID的网页之外，在本文中，我们还考虑了以下涉及可疑/恶意活动的分析ID的其他来源。····主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法国里昂230<资源><字符串name =“ga_trackingId“ translatable =“false“>${ YOUR_TRACKING_ID }/ string>图2：我们用于从已知恶意URL（例如，由第三方扫描器报告）和潜在的恶意URL（例如，排版域）。给定这两个源，系统应用一系列域过滤器和一组基于内容的欺诈检测试探法。图3：超过63K用户安装的恶意浏览器扩展示例。恶意浏览器扩展。在抓取我们的URL列表以提取其分析ID时，我们注意到许多结果页面试图欺骗用户安装不需要的浏览器扩展。图3示出了这样的浏览器扩展的示例，其声称使用户的搜索更加私密。在安装时，这些类型的扩展通常请求允许跨选项卡跟踪用户我们的系统自动下载oered扩展并解包它们，以搜索扩展作者使用的分析ID。跳过超过400万活跃用户的扩展程序（我们实验性地选择了这个阈值，以减少将我们重定向到流行的良性扩展程序的网页的误报），我们能够识别315个扩展程序URL，255个可供下载（我们假设剩余的扩展程序已经被检测为滥用并从Chrome商店中删除）。恶意Android应用程序。在我们的移动分析研究中，我们使用了由Palo Alto Networks提供的796，304个Android APK的数据集。这些APK 是从各种来源（客户提交，VirusTotal ，Google Play商店）收集的，其中477，829个已收到该公司开发的专有检测系统的“强”恶意软件判决。这些796K APK是从2017年2月到9月收集的清单1：AndroidManifest.xml中的Google Analytics由于APK数量庞大，并且存在因故障和规避APK而错过分析ID的可能性，因此我们通过检查未打包的APK来识别分析ID。我们发现，由于大多数分析平台鼓励开发人员将分析ID嵌入其应用程序的元数据中，因此从配置文件（如AndroidManifest.xml）中发现这些ID是一个简单的过程。清单1显示了应用程序开发人员在使用GoogleAnalytics时应如何包含其分析ID的示例。其他恶意软件二进制文件。来自Palo Alto Networks的nal数据集是恶意软件样本的列表，其中包括向Google Analytics发送HTTP请求。通过分析此列表及其请求，我们发现173，236个恶意软件样本包含4，162个Google Analytics ID。以确保我们过滤掉不一定是恶意的分析ID（例如恶意软件作者克隆包括良性分析ID的良性应用程序），我们关注几乎从未在良性二进制样本中看到的2，912个ID，即，在成千上万的良性标记的二进制文件中发现不到十次。4结果分析在本节中，我们将描述针对每个恶意内容源的分析ID结果4.1恶意网页的分析挖掘恶意分析ID。在2017年7月至8月从VirusTotal中抓取了三组每日恶意URL，并在2017年9月底重复了两周的实验后，我们能够提取9，395个与恶意内容相关的分析ID。表2显示了这些ID在流行的Web分析中的分布。首先，我们看到Google Analytics在攻击者和合法Web开发人员中一样受欢迎（85%的标识符属于Google Analytics）。第二，我们观察到主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法国里昂231表2：挖掘恶意分析ID网站分析ID域名潜在韦里德看不见谷歌分析7，945 8，182 27，472 10，901 8，132Yandex 816 912 - 1，364 971谷歌标签管理器278 289 1，598 683 564StatCounter 155 144 - 22 20Clicky 58 68 - 113 83New RelicInsights 55 107 - 803 779Quantcast 46 56 336 113 10117 - 0 0 - 0优化11 12 - 4 2MouseFlow 9 9 - 4 1混合面板5 5 - 272 27220001000分析：新ID总体ID日期第2段 2 - 0 0ClickTale 1 1 - 1 0堆分析1 1 - 0 0总数9，395 9，226 - 14，267 10，921对于许多这些服务，存在比唯一ID更多的域（例如，8，182个域名与 7，945个ID用于Google Analytics），这直接指向跨域的ID重用。图4显示了我们实验中每天恶意分析的检测率平均而言，我们每天能够发现总共1，442个ID，其中553个是以前没有发现的（请注意，gure不是CDF，因为每天，我们以前发现的ID的一小部分，不会在新的抓取中重新出现）。和以前一样，分析的重复使用意味着攻击者正在跨多个恶意页面部署相同的分析代码。与VirusTotal来源相比，Miramirkhani等人提供给我们的数据[28]是通过否认倾向于社会工程攻击，特别是虚假的技术支持类。从这些数据中，我们能够从3，185个域名中提取872个唯一的Google AnalyticsID这些ID中的大多数（89.2%）位于技术支持诈骗上，而其余的则位于其他类型的诈骗页面上，例如虚假调查和虚假插件更新。有趣的是，虽然这些分析ID中的51.8%仅被观察了一天，但还有其他ID属于长期运行的活动（总体而言，平均寿命为46天）。例如，使用一个常见的Google Analytics ID，我们观察到一个假调查活动至少持续了764天（在4个捕获的域上看到UA-11040674），以及一个单独的假Flash Player最新/假技术支持活动至少持续了730天（在44个捕获的域上看到UA-67441257）。这些活动持续了两年多的事实表明，这些攻击者不仅能够避免长时间的检测，而且我们提出的利用分析ID来发现看似不相关的URL的活动的方法目前还没有被利用。发现恶意网络活动。具有与恶意网站相关联的一组分析ID允许我们在野外搜索相同的ID并发现先前未报告的恶意网站。使用两个代码搜索引擎（PublicWWW和SpyOnWeb），我们能够找到其他已知域中超过63%的9，395恶意分析ID从我们的VT抓取发现。表2显示了我们发现的潜在恶意域名的数量，以及其中有多少是用我们自己的爬虫程序验证的，仍然具有匹配的分析ID。我们限制图4：VirusTotal feed每日爬网期间恶意分析ID的发现率。找到的更多域名：验证看不见6000400020000日期图5：在VirusTotal提要的每日抓取过程中，恶意GoogleAnalytics（分析）域名的发现率。将潜在的结果提供给具有明显不同的ID格式（在第2节中描述）的分析提供商，以确保我们真正发现与分析相关的标识符。总体而言，我们发现了14，267个包含恶意分析ID的实时网站，其中76.5%是新的，以前未见过的域名，即不属于我们的VT源URL。如表2所示，对于许多分析提供商，我们能够从我们的VT种子中至少增加一倍的已知活动恶意域的数量（例如，我们发现了另外8，132个Google分析域，这些域重用了来自原始8，182个域的分析ID），并且如果我们包括潜在或以前的恶意网站（例如，Google分析域），则可能至少增加两倍。27K Google分析域（原始8.1K域）。此外，通过向VT查询我们新发现的域名，我们发现绝大多数新网站都成功地避免了检测，即，只有18.9%的新发现的网站被标记为恶意网站。我们认为，这表明了这种技术的力量，因为它可以将看似良性的网站与操作更明确的恶意网站的相同对手相关联。图5显示了每天新发现的重复使用恶意Google AnalyticsID的域名数量我们在2002年10月观察到的峰值与我们在每天来自VT的恶意ID数量中观察到的峰值相同（图4）。使用这种方法，平均每天可以关联364个新的、以前看不见的恶意域，这些域与现有的域名数量#分析ID主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法国里昂232图6：通过UA- 81239183检测到的“未知”网站示例。每次点击导航到一个dierent诈骗网页。表3：与“未知”网站的交集网络分析ID编号域名数量Google Analytics122774Yandex16671Google Tag Manager7108新Reli cInsights 5 26点击4 3优化3 79疯狂蛋2 28MouseFlow1 72混合面板1 25Quantcast 1 1整体162 1785恶意域名（考虑从09/27开始的结果同样，我们能够识别出2，926个其他域名（其中2，821个是新发现的），占872个与诈骗相关的Google Analytics ID的33.6%。其中，836个在撰写本文时仍处于活动状态，其中95%被VirusTo- tal扫描器标记为恶意许多例子，如error01234567890microsoft.xyz（用于技术支持诈骗的组合域名[26]）或search-privacy.online（可能不需要的程序）被发现是通过匹配谷歌分析的威胁。域和活动取证。给定恶意分析ID的列表，识别共享这些ID的其他网站的能力允许许多强大的取证应用，包括：i）估计恶意活动的大小，ii）识别不同攻击背后的常见攻击者，以及iii）对恶意行为者进行去匿名化。在活动规模方面，使用VT来源的URL，我们能够发现平均活动规模为7.6个域，最大活动包括480个域（请注意，这是最大规模的下限，因为我们决定削减超过500个已发现域的分析ID，因为这些可能包括误报）。同样，对于与诈骗相关的数据集，平均活动大小为3.6，最大的活动包括293个域。通过分析一些与诈骗相关的数据，我们能够识别出一个与技术支持诈骗以及网络钓鱼域相关联的New Relic Analytics ID（这表明一个攻击者/团队负责广泛的攻击，或者他们将分析外包给同一实体。在这两种情况下，这种识别的表4：查询良性和恶意样本Google Analytics#良性#恶意软件VirusTotal URL电话：+86-4312651413723,333电话：0512 -692546833605电话：+86-7469474022541电话：+86-21- 26662710052520电话：+86-634046020204从诈骗网页顶部ID电话：+86-56634126198,609电话：+86-4145109416892电话：+86-7272249727237电话：8235540616626电话：0512 -88888888021最后，我们能够通过为共享相同分析ID的其他域发送公共WHOIS记录，对VirusTotal URL后的59个恶意行为者进行去匿名化。这意味着，只要一个使用WHOIS隐私和虚假注册信息的谨慎攻击者将至少一个同名域名链接到同一个分析帐户，这就可以用来将所有匿名注册的域名链接回他。例如，Google AnalyticsIDUA-58907283 最初是在VirusTotal 的 www.example.com 上找到verication-login.com的，后来在Instagram的许多钓鱼页面上发现了它。同样的分析ID出现在www.example.com上ccg.gal，该网站有公开的WHOIS信息，包括注册人的电子邮件地址。其他例子包括对分发可疑软件的可疑在线商店和网页进行去匿名化防止未知的攻击。为了进一步评估我们的威胁不可知、分析ID匹配、识别和关联恶意网站的方法，我们从UN-KNOWN_URLs数据集（分类未知的URL列表，如第3.1节所述）中提取分析ID，并计算与我们的9，395个恶意分析ID的重叠。表3显示了跨服务的重叠ID的数量以及我们可以与已知恶意URL相关联的先前未标记的域的数量图6显示了通过UA-81239183匹配的“未知”网站的示例，UA- 每次点击该网站都会将用户导航到一个不同的诈骗页面。其他例子包括UA-89467400发现在超过63harbiturk.xyzdigiz.xyz。Web和恶意软件之间的交叉点我们知道有超过17.3万个恶意软件样本向Google Analytics（分析）发送请求（第3.2节），因此我们决定量化恶意软件ID和恶意网站ID之间可能的重叠。具体来说，我们计算了从我们的VirusTotal抓取收集的7，945个GoogleAnalytics ID和在诈骗页面上发现的872个ID的交集，这些ID存在于恶意APK和恶意软件二进制文件的HTTPtrac转储中。总的来说，前者有29例匹配，后者有35例匹配。表4列出了最常用的ID。例如，在 23 ， 333 个恶意软件样本的跟踪中发现 UA-43126514。VirusTotal上的最新公开样本被64个AV引擎中的53个检测为这种类型的主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法国里昂233表5：在侵入式安装页面上找到的扩展用户数#扩展例如1-4MM29搜索管理器（searchmgr.com）100K-1MM10K-100K0-10K889129电影搜索（softorama.com）betterMovies搜索（bettersearchtools.com）LastLogin Now（lastlog.in）未知78私人搜索加恶意软件表现出dropper行为（下载额外的恶意软件）并修改注册表项。在以视频播放器的形式递送PUP的许多域上发现相同的分析ID （例如， vidplayer.net 和 magnoplayer.com ）。同样， UA-56634126与恶意软件二进制文件中的8，609个匹配项在分发可疑版本的MacKeeper和其他修复Mac计算机的工具的域中被发现。为了更好地理解良性和恶意ID之间的重叠，我们随机抽取了137个ID为UA-43126514的良性二进制文件中的一些，并将其重新提交给VirusTotal。在那里，我们看到其中大多数现在被至少15个AV引擎检测为恶意软件。这一结果进一步强化了这样的想法，即匹配分析ID可以揭示看似良性的二进制文件的真正恶意性质，然后该二进制文件最终被传统的AV引擎检测为恶意软件。4.2来自浏览器扩展的分析在我们抓取潜在的诈骗页面时，我们收集了333个唯一的扩展ID。在对其中一些扩展进行手动调查期间，我们注意到其中一些扩展是良性的，非常受欢迎的扩展，因此，如第3.2节所述，我们筛选出了超过400万用户安装的所有扩展。我们的过滤列表包含315个扩展，服务于86个唯一TLD+ 1域上托管的11，096个唯一URL 表5显示了许多这样的扩展，以使读者能够直观地了解向用户提供的恶意扩展的类型。在不同的排名中，我们观察到根据不同的AV源（例如，“safe4search”扩展有5，742个用户[ 4 ]，“BlpSearch”扩展有332，610个用户[ 1 ]）。在我们进行分析时，我们只能下载255个扩展程序，而其余的扩展程序不再托管在Chrome商店中。在收集到的可疑扩展中，几乎有一半（43.5%）属于在我们可以成功下载和解压的255个扩展中，我们在120个扩展中发现了Google Analytics ID。总的来说，我们检测到70个独特的Google Analytics帐户，这已经证明了跨扩展共享ID。例如，UA-98374100被用于14个不同的Chrome扩展，安装基础范围从10 K到162 K活跃用户，所有这些都是由一个名为“更好的搜索工具”的开发人员开发的。在其他情况下，我们可以将两个不同的扩展开发人员关联起来，例如searchassist.net上的SearchAssist Tools使用的UA-48154225（4，221个用户）和表6：恶意软件Android APK中的分析分析ID编号点击次数非不良。良性App Metrica12,62213,44532.9%百分之二点四Umeng5,19692,442百分之九点六百分之零点三Google Analytics55137922.7%百分之十点六Firebase350136百分之五十五点九百分之三十二点四Localytics91百分之一百百分之零点零Google Tag Manager30百分之零点零百分之零点零Flurry21百分之零点零百分之一百AppsFlyer11百分之零点零百分之零点零整体18,734100,379百分之九点七百分之零点二来自privacyassistant.net的类似命名的扩展（4，636个用户）。在我们初次抓取后两周后，我们试图重新访问这些扩展程序，我们注意到这两个扩展程序都已从Chrome商店中删除使用上述两个代码搜索引擎（PublicWWW和SpyOnWeb），我们搜索了这70个扩展名来源的分析ID，并找到了264个使用这些ID之一的网站。其中，我们发现UA-101669006用于Medianetnow。com （与特定的可疑扩展的开发者相关联）上以及在遵循www.example.com格式的一组域nextlnkN.com上，其中N可以用不同的整数替换并且将用户重定向到请求安装扩展的页面。我们的VirusTotal提要显示出类似的结果，平均每天发现54个独特的扩展，其中一半也属于“搜索”类别。4.3恶意Android应用程序的分析总体而言，我们从477，829个恶意APK中检索到18，734个独特的分析标识符，超过273，232个样本。例如，Google分析 ID UA-77544562 存在于 8 个恶意软件 APK 上，标记为Android.Trojan.Dropper。表6显示了流行移动分析中恶意软件相关ID的分布。与网络分析相比，Google Analytics并不是恶意行为者最受欢迎的选择，排在App Metrica和Umeng之后。另外，我们测试了我们的威胁不可知的分析匹配方案所实现的检测可能性为此，我们从2017年9月下旬收集了330，117个较新APK的测试样本通过匹配在之前的恶意样本上发现的分析ID，100，379个唯一的APK被标记为恶意软件。Palo AltoNetworks的系统将其中9，775个分类为非恶意，其中9，332个标记为灰色，289个标记为未知，只有154个获得了更强的“良性”判决。这意味着我们的系统可以补充现有的静态/动态分析恶意软件分类器，并有助于减少潜在的假阴性（灰色和未知样本），新引入的假阳性率低（良性样本）。表6显示了所有移动分析的分类结果。除此之外，我们发现Umeng分析ID有助于检测恶意Android应用程序的最大部分。一个有趣的案例是Google Analytics IDUA-2126908，它在许多恶意软件APK中被发现，也在12个与破解的移动应用程序（如iphonecake ）分发相关的网站上被发现。 com 或directapk.net）。主题：Web上的安全和隐私WWW 2018，2018年4月23日至27日，法国里昂234欧欧欧欧图7：包括来自Airbnb的原始良性分析ID的钓鱼网站的示例算法1用于检测钓鱼网站的伪代码target_URLsPT（...）target_IDs 未知目录中网站的AID（target_URLs）found_IDsAID（网站）forfound_I

下载后可阅读完整内容，剩余1页未读，立即下载