加密货币地址搜集与分析：区块链骗局检测技术研究

48 浏览量更新于2023-12-05 收藏 3.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

区块链：研究与应用3（2022）100084研究文章The “Bitcoin Generator”Emad Badawia，*，Guy-Vincent Mendana，Iosif-Viorel Onutba渥太华大学工程学院，渥太华，ON K1N 6N5，加拿大bIBM Centre for Advanced Studies，Ottawa，ON K1R 7Y6，CanadaA R T I C L E I N F O关键词：加密货币诈骗分析网络攻击欺诈检测比特币区块链分析数据挖掘A B S T R A C T“比特币发生器骗局”（BGS）是一种网络攻击，骗子承诺为受害者提供免费的在本文中，我们提出了一个数据驱动的系统来检测，跟踪和分析BGS。它的工作原理如下：我们首先制定与BGS相关的搜索查询，并使用搜索引擎查找潜在的骗局实例。然后，我们使用爬虫程序来访问这些页面，并使用分类器来区分实际的诈骗实例和良性页面。最后，我们自动监控BGS实例，以提取骗局中使用的加密货币地址我们的系统的一个独特功能是，它主动搜索和检测诈骗网页。因此，我们可以找到尚未收到任何交易的地址。我们的数据收集项目历时16个月，从2019年11月至2021年2月。我们发现了8,000多个与骗局直接相关的加密货币地址，托管在1,000多个域名上。总体而言，这些地址已收到约870万美元，平均每笔交易49.24美元。在我们捕获的活动地址中，超过70%的活动地址在收到任何交易之前就被检测到了，也就是说，在任何人成为受害者之前。我们还对我们捕获的数据集进行了一些后处理分析，以聚合可以合理确信地与同一攻击者或组织相关联的攻击。我们的系统是APWG eCrime EX change数据库的第一个学术源之一自2020年11月以来，它一直积极1. 介绍近年来，使用加密货币作为投资平台越来越受欢迎[1]。在撰写本文时，有17，343种不同的加密货币，市值约为1.89万亿美元[2]。最受欢迎的加密货币是比特币和以太坊，其市值分别约为7830亿美元和3590亿美元[2]。比特币[3]是一种去中心化的加密货币，于2009年开始流行它是一种点对点电子货币，不需要可信机构（如中央银行或管理员）的参与，即可在用户之间进行交换[3比特币有两个关键特征：伪匿名性和透明性[4它是透明的，因为交易是在一个名为区块链的分散式分类账中公开的。比特币的伪匿名性来自于用户使用假名（地址）的事实。这些地址是从用户的公钥，它们与个人没有直接关系用户可以生成的地址数量没有限制因此，用户可以为每笔交易生成唯一的地址。这反过来又创建了一个额外的层，防止地址被链接到特定的所有者，这最终增加了隐私[3]。网络犯罪分子在他们的攻击中利用了比特币的伪匿名性。根据CipherTrace Spring-2020报告，与2018年相比，2019年盗窃，黑客和诈骗的价值翻了一番以上，是2017年的230倍以上仅在2019年，就有超过45.2亿美元的加密货币交易所和用户被盗然而，尽管2020年的加密犯罪价值是有史以来第二高的，但与2019年相比，加密犯罪价值大幅下降了57%，从45亿美元下降到21亿美元。如图1所示，2020年，加密货币交易所、黑客和盗窃造成的损失达到5.16亿美元，而大部分损失（16.42亿美元）是由于欺诈和挪用。* 通讯作者。电子邮件地址：ebada090@uottawa.ca（E. Badawi），gjourdan@uottawa.ca（G.-诉1999vioonut@ca.ibm.com，诉Onut）。1https：//ciphertrace. com/2020-ye ar-end-cryptocurrencyc-crime-and-anti-money-laundering-report/，https：//ciphertr a ce. 2021年5月1日，公司将在2021年5月1日的一次会议上提交一份报告。https://doi.org/10.1016/j.bcra.2022.100084接收日期：2021年8月12日;接收日期：2022年2月8日;接受日期：2022年4月6日2096-7209/©2022作者。出版社：Elsevier B.V.代表浙江大学出版社。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表区块链：研究与应用杂志主页：www.journals.elsevier.com/blockchain-research-and-applicationsE. Badawi等人区块链：研究与应用3（2022）1000842Fig. 1. 2021年加密货币反洗钱报告（转载自CipherTrace报告1）。资金例如，总部位于新加坡的数字资产交易所KuCoin是2020年黑客和盗窃攻击的目标之一。2022年9月，该交易所宣布未经授权将比特币和以太坊代币转移到一个未知的钱包，影响了约1.5亿美元的用户资金。另一方面，Lendf.me是一个由中国DeFi新贵dForce运营的去中心化贷款协议，是2020年黑客和盗窃攻击的目标之一2022年4月19日，价值2500万美元的加密货币从Lendf.me被盗。另一方面，“EOS生态系统”钱包通过向投资者承诺优惠回报，与DeFi相关的黑客和欺诈行为每季度都在增长仅在2021年首4个月，与DeFi相关的黑客和欺诈行为的价值已超过2020年的历史最高水平1。使用加密货币的网络犯罪攻击有多种形式。这些攻击的一个流行的例子是“高收益投资程序”（高收益投资程序）[ 4，5，7，8 ]。在高收益投资中，骗子向投资者承诺高利率，例如，每天超过1%也许最著名的高收益投资诈骗者是查尔斯·庞齐;在20世纪20年代初，庞齐声称经营一种套利，投资者被承诺在45天内获得50%的利润，或者在90天内获得100%的利润由于庞氏骗局，HYIP有时被称为庞氏骗局[4]。勒索软件[9勒索软件是一种恶意软件，可以锁定和加密受害者的文件，直到支付赎金[9]。最近，网络犯罪分子占领并关闭了里维埃拉海滩市的计算机系统，迫使官员同意支付当时价值60万美元的65个比特币。由此造成的停电迫使当地警察和消防部门记录了数百个911电话[14]。洗钱是指掩盖犯罪活动产生的非法利润来源的过程。其目的是通过复杂的银行转账或商业交易来隐藏原始犯罪活动与相应资金之间的联系[12]。比特币诈骗检测的当前技术水平通常依赖于从区块链上的交易历史中提取特征来训练分类模型[4分类模型根据以下特征进行训练，例如接收/发送的事务与所有事务的比率、地址生命周期、事务频率或地址事务的输出端为了获得这些地址，作者通过搜索比特币讨论论坛（如Bitcointalk.org）手动收集地址[ 7 ]，或者他们使用相同论坛的半自动网络抓取，然后手动检查和地址收集[4然而，随着时间的推移，区块链上记录的交易数量正在增加。这使得提取可用于欺诈检测的有意义的模式变得困难和耗时[7]。在本文中，我们研究了随着加密货币的兴起而我们称这种攻击为比特币生成器骗局（BGS）[15]。通常，BGS开始时，受害者使用搜索引擎，流媒体网站，社交媒体，博客等搜索轻松获利例如，图中的第一步。2显示了搜索“免费比特币在线生成器”的结果。搜索结果可能直接包含BGS实例（图1）。 2步骤2）。在其他情况下，搜索结果链接到具有BGS实例链接的页面。我们将BGS实例称为“生成器”。这些生成器是精心设计的网页，试图向受害者传达攻击者先进技术能力的印象，以及骗局的大型满意用户群。一些生成器会显示一个虚假的聊天框和一个弹出窗口，显示声称的当前用户数量以及他们应该获得的挖矿加密货币数量在BGS中，攻击者声称他们拥有一台高速挖矿机，或者可以破解区块链分类账，并且可以为受害者提供免费的加密货币。一旦一个BGS实例，如图2的步骤2所示。2，被访问时，受害者被要求提供他们想要挖掘的硬币数量以及所开采的硬币将被存入的加密货币地址。一旦信息被提供，骗子假装执行一些“黑客”（图。 2，步骤3）。之后，会显示一条消息，声称黑客攻击成功，然后要求受害者支付采矿费来收集资金（图10）。2步骤4）。在许多情况下，费用的价值是固定的。在其他情况下，攻击者承诺受害者将收到他们提供的金额的几倍。在攻击的其他变体中，骗子不是要求挖矿费用，而是要求受害者完成一个或多个任务，或者下载并安装挖矿可执行文件来完成挖矿过程。在前一种情况下，在显示成功消息之后，受害者被邀请到在核查过程中2在编写本报告时，有超过6.5亿笔交易：ain.com/charts/n-transactions-total。https://www.blockchE. Badawi等人区块链：研究与应用3（2022）1000843图二. 比特币发电机骗局攻击的一个例子。向用户显示屏幕，要求他们完成一个或多个“报价”。这些所谓的优惠包括但不限于填写“市场调查”表格、点击无休止的“调查”、让受害者订阅可疑服务、收集个人信息、在他们的机器上安装可疑的可在后一种情况下，可执行的挖掘文件被Virus total3报告为有害。一些研究人员（例如，参考文献[16]）通过金字塔结构来描述庞氏骗局，其中对现有投资者的支付使用新投资者的资金根据这一定义，BGS不属于庞氏骗局，因为大多数BGS不要求投资者招募新投资者，正如第4.2节所讨论的，我们通常根本找不到任何支付的证据。然而，一些研究人员（例如，参考文献[8，17]）通过其高回报率来表征庞氏骗局，BGS当然属于这一类，其广告回报率在24小时内达到100%甚至更多。在本文中，我们扩展和更新我们以前的工作，参考。[15 ]第10段。我们使用BGS语料库中出现的单词和短语合并了新的搜索查询我们使用新发现的BGS实例更新了结果。总的来说，我们已经发现了1,000多个诈骗域名和3,000多个比特币地址，至少有一笔交易与之相关。这些地址已收到约870万美元，平均每笔交易49美元此外，我们还报告了BGS攻击的另外两种变体第一个需要在受害者的机器上安装可执行的挖矿文件。我们收集了12个被病毒报告为有害的文件第二次攻击要求受害者完成一个或多个恶意任务。此外，我们还研究了在BGS和其他类型的骗局中重复使用的加密货币最后，我们使用各种功能将BGS地址聚类到由相同骗子控制的活动中。我们的主要贡献如下：我们提供深入了解BGS，一种针对加密货币用户的新型骗局。虽然目前的研究涵盖了针对加密货币的不同类型的攻击，但没有一个研究过BGS攻击。最密切相关的研究是那些研究高收益投方案。许多BGS实例承诺高回报率，这是用于表征高收益投方案的定义之一[8，17]。然而，我们的分析表明，BGS实例不会偿还受害者，因此根据这些定义，它们不是高收益攻击。在这项研究中，我们收集了数百个BGS实例和数千个BGS地址，并对这种骗局进行了深入的分析和见解。尽管已经提出了许多反诈骗研究，但只有少数人公布了他们的数据集。当数据集发布时，通常只提供诈骗URL，并且这些URL通常在发布时不再可用这使得后续的研究很难将他们的方法与以前的工作进行比较。在本文中，我们编译并发布了一个大型BGS数据集4，其中包括使用我们的实时爬虫和公共资源（如Internet Archive5）收集的1，000多个BGSURL。除了URL之外，3https://www.virustotal.com/gui/。4https://ssrg.eecs.uottawa.ca/bgsextended/。5https://web.archive.org/。●●E. Badawi等人区块链：研究与应用3（2022）1000844图三. Bitcoin generator scam detection and analysis model.诈骗攻击，我们还提供诈骗网页的文档对象模型（DOM），允许其他人将他们的方法与我们的方法进行比较。此外，我们公布了这些攻击中使用的8,000多个比特币地址。据我们所知，这是学术研究发布的所有比特币骗局数据库中最大的，如果不是最大的话最后，我们提供了140多个与其他加密货币相关的诈骗地址，如以太坊，比特币现金和莱特币。我们开发了一个新的研究方向来检测基于Web的比特币诈骗攻击。关于比特币诈骗检测的学术工作的最新技术水平通常是基于一些涉及诈骗的地址的手动收集。起点可以是在讨论攻击的论坛上手动搜索，例如，Bitcointalk.org [7]，或者可以通过半自动抓取同一论坛，然后手动收集地址[4- 6 ]。此外，一些研究人员使用“乘法器”技术，如多输入启发式聚类算法[ 18 ]，以收集由相同骗子控制的大量地址[ 7 ]。一旦诈骗地址被收集，他们的交易历史就被用来提取区别特征，并将良性地址与诈骗地址分开[4- 7，19 ]。然后，这些特征用于训练分类器[4，7]。在这项研究中，我们的分析不仅仅基于以前报道的活动。相反，我们寻找新的，以前未报道的情况。此外，我们不会在检测阶段使用现有交易，这使我们能够找到尚未进行任何付款的地址。使用我们的方法，我们已经检测到超过70%的当前活动的诈骗地址之前，他们收到任何交易，这是不可能使用传统的检测方法。依靠区块链交易来检测骗局本身就意味着，在受害者已经陷入骗局之后，检测发生得太晚了我们的方法为在任何人受害之前关闭攻击打开了大门我们扩展了分析，以提供对诈骗实例的更多见解，并推断出该活动是如何由同一个骗子操作的我们使用各种与域名和地址相关的功能和标识符来连接不同的诈骗攻击，并将它们链接到同一个骗子。我们的结果显示，两个诈骗集群已经收到了大约500万美元，这是诈骗地址收到的总资金的一半以上。本文件其余部分的结构如下。在第2节中，我们将详细介绍我们的方法。在第3节中，我们报告了在爬行期间获得的一些基本数字。在第4节中，我们进行了各种分析，并讨论了结果。在第5节中，我们介绍了BGS攻击的其他变体在第6节中，我们介绍了我们的多级聚类技术。文献综述见第8节。在第9节中，我们讨论了我们模型的一些主要局限性最后，我们将在第10节结束。2. 方法在本节中，我们将描述一种数据驱动的方法来检测、跟踪和分析BGS。图 3描述了我们的完整系统，其中包括六个模块：1. 初始数据集创建。最初，我们的系统依赖于手动搜索诈骗页面来获得一个代表性的数据集，并在此基础上训练我们的模型。这也有助于获得对骗局的初步广泛了解，并提供自动化与骗局相关的有效搜索查询所需的资源。2. 搜索查询生成器。该模块生成可能在诈骗页面中使用的关键字。3. 网络爬虫。这个模块使用搜索引擎来搜索诈骗网页使用以前的查询作为种子。4. 分类模型。此模块根据其文本将抓取的页面分类为“诈骗“或“干净“页面。5. Cryptocurrencies地址爬虫. 该模块与诈骗页面交互，并提供检测诈骗地址所需的请求信息我们还将诈骗地址提交给反网络钓鱼工作组（APWG）数据仓库。6. 聚类和分析。我们系统的最终模块用于分析数据，以识别相似性和集群相关的诈骗实例。2.1. 数据集构建我们首先收集一组初始的BGS实例来训练我们的分类模型，并提取搜索查询，以使用我们的网络爬虫搜索更多的我们使用各种技术来收集这个初始数据集：1. 搜索引擎：在许多情况下，找到一个可靠的标记数据源来运行实验是具有挑战性的。在这种情况下，可以使用不同的搜索引擎手动收集和标记初始训练数据集。我们在Google上手动搜索BGS 我们使用了几个与骗局相关的搜索查询，例如“在线比特币生成器”，“免费比特币生成器”和“在线比特币黑客工具”。我们的搜索确定了一组初始的52个BGS实例。我们还获得了30个新的搜索查询使用谷歌的自动“相关搜索”的建议，同时做这个初始收集。这为我们提供了初始查询集，用于启动自动Web抓取。2. 第三方和黑名单：许多第三方公司和黑名单收集研究人员可以在分析中使用的诈骗数据集。例如，Yin和Vatrapu [20]使用了Chawww.example.com提供的数据集inalysis.com，Razali和Shariff [21]在他们的分析中使用了Nocoin黑名单6。在我们的工作中，我们使用了网站Bitcoin.fr[22]，6https://github.com/hoshsadiq/adblock-nocoin-list。●●E. Badawi等人区块链：研究与应用3（2022）1000845þ包含比特币和加密货币诈骗域名的列表该列表是几个骗局列表的集合，包括adcfrance.fr，比特币之家，CryptoFR，badBitcoin.orgscamBitcoin.com，以及网站用户的证词。在抓取时，该列表包含6，230个域。3. 我们还使用CuteStat.com，这是一个收集与网站、域名、主机、IP地址、使用报告等相关信息的网站本网站提供的服务之一是一个多达100个域的列表我们使用此服务收集了610个新域名，这些域名的内容与第一步中收集的搜索查询相关4. 最后，我们使用了互联网档案馆[23]：这是一个数字图书馆，提供了大量免费的数字化材料，包括软件应用程序/游戏，互联网网站，电影/视频和数百万册书籍。我们使用互联网档案收集了数千个快照，这些快照是我们从CuteStat收集的数据.com和Bitcoin.fr。5. 识别BGS实例：由于互联网档案馆包含数千个快照，我们无法手动检查所有快照，因此我们过滤了快照，只考虑HTML中包含比特币地址的快照。这将可能的BGS域的数量减少到只有307个，我们可以手动处理这个数字。我们逐一检查了这些域快照，并验证了其中252个域确实是BGS域。其他55个域名是不同类型的骗局，如HYIP和虚假慈善网站。按照这些步骤，我们收集了304个页面作为我们的初始BGS实例集。然后，我们手动检查了400个随机选择的页面，这些页面是我们在运营的第一周收集的，但没有重新标记。在这400个页面中，374个是良性页面，26个是新的BGS实例。因此，我们的最终数据集由330个BGS页面（30426）组成，并从我们拥有的374个页面中随机选择330个良性页面2.2. 搜索查询生成器找到一个好的搜索查询，导致诈骗网页的可能性很高，是一项重要的任务。Srinivasan等人[24]使用特定于上下文的语料库来生成这样的查询，Kharraz等人。[25]使用Google趋势服务，Badawi等人。[26，27]使用了这两种技术。在我们之前的工作中，我们使用了两种技术来生成539个研究查询：搜索引擎：我们开始收集谷歌的自动搜索建议，我们手动搜索BGS。然后，我们使用这些建议来创建第一组查询并执行初始Web抓取。“Keywords”Meta标签：如第2.1节所述，我们能够从我们最初的网络抓取、黑名单域列表[ 22 ]、网站www.example.com和InternetArchive中收集并手动验证330个cutestat.com 我们从这些实例中提取了“Keywords”元标记的内容，以增强我们原始的查询。“Keywords“元标签表示与网页相关的关键字的逗号分隔列表，并且用于向搜索引擎通知其内容7。在本文中，我们通过利用特定于诈骗上下文的语料库进一步增强了我们的搜索查询我们检查了几个BGS页面，发现诈骗者在BGS页面的内容中使用特定的词语，例如目标货币的名称以及宣传生成器能够破解区块链并向受害者提供承诺的加密货币的词语例如，“比特币”这个词7https://www.w3schools.com/tags/att_meta_name.asp。见图4。Word云基于收集的技术BGS（比特币生成器骗局）页面的文本内容。“btc”,我们利用这一事实来生成更多与诈骗相关的查询。我们从语料库中提取了一组单词我们找到了834个频率大于或等于10的单词我们选择了与BGS有直接联系的频率最高的157个然后，我们使用马尔可夫假设[28]生成查询，以估计n元语法概率。我们为n在3到7的范围内生成了n-gram（我们的实验表明，8-gram及以上并没有改善我们的结果），它给了我们527个n元语法，然后我们手动从中选择了207个搜索查询。总的来说，我们生成了157个新的查询，包括在我们的搜索查询集中。图图4以词云的形式显示了BGS页面中使用最频繁的词，其中每个词的大小与它在BGS页面语料库中出现的次数相关。我们的最终查询列表包含696个搜索查询8。2.3. 网络爬虫该模块的主要目的是使用先前识别的搜索查询作为种子，使用搜索引擎（如Google.com，Bing.com和search.yahoo.com）执行对诈骗页面的日常搜索。对于每个查询，爬虫访问每个搜索引擎返回的第一和第二页（即最多20个搜索结果）。该爬虫基于Python Selenium9和ChromeDriver10。然后，我们使用Python beau-tifulsoup 11和CSS选择器来提取和抓取搜索过程中收集的URL。对于抓取过程，我们使用一个轻量级的脚本化无头浏览器，使用Python构建，通过集成ChromeDriver，Se-lenium和Beautifulsoup。爬虫自动收集有关抓取的URL的数据，包括URL重定向、HTML内容和资源（脚本、CSS文件等）。2.4. 分类模块在抓取过程中，搜索引擎返回的或者我们系统抓取的URL，大多数都是良性页面，8完整的清单可在https://ssrg.eecs.uottawa.ca/bgsextended/上查阅。9https://selenium-python.readthedocs.io。10http://chromedriver.chromium.org/。11https://pypi.org/project/beautifulsoup4/。●●E. Badawi等人区块链：研究与应用3（2022）1000846¼ þ ¼þ与链接到一个或多个诈骗实例的诈骗或非诈骗页面无关由于我们正在构建一个自动化系统，因此我们需要一个分类器来自动区分骗局实例和真正的URL。为了从抓取的页面集合中识别BGS实例，我们使用了基于文本的分类模型。我们在我们的训练集上测试了Scikit-learn Python库中的五种不同分类器：支持向量分类器（SVC），朴素贝叶斯（NB），k最近邻（KNN），随机森林（RF）和多层感知器（MLP）。为了评估我们的分类器，我们对我们在2.1节中准备的标记数据集使用了10倍交叉验证。我们使用五个分类器根据最终用户看到的文本对抓取的页面进行分类。更准确地说，我们使用显示给用户的词的词频-逆文档频率（TF-IDF）来提取训练特征。我们的分类模型达到了良好的准确性，真阳性率（TPR）高于98. 7%，假阳性率（FPR）低于1%。我们将结果显示在表1中。可以看出，SVC和MLP获得了98.92的最高F1分数，其次是KNN，为97.9。另一类-sifiers也表现相当不错，RF具有最低的F1分数。在我们的分析中，True Negative（TN）是被归类为良性的良性页面，True Positive（TP）是被归类为骗局的骗局页面假阴性（FN）是被错误地归类为良性的骗局实例，而假阳性（FP）是被错误地归类为骗局的良性页面。通常，F1分数的推导如下：F1/ 2×精密度×召回率=精密度×召回率其中，精确度TP/（TP FP）和召回率TP/（TP FN）。F1越高越好。我们在图中显示了每个分类器的10倍交叉验证运行的受试者操作特征（ROC）曲线。五、图 5显示SVC和MLP在所有其他分类模型中达到最佳ROC均值，曲线下面积（AUC）等于99%。其他分类器的表现也相当不错，RF的AUC值最低。图 6说明五个分类器的表现。可以看出，SVC和MLP通常表现更好。基于这些结果，我们在整个实验中使用SVC分类器。我们在新发现的页面上使用了一周的分类器。然后，我们随机选择100个分类为BGS实例的页面和100个分类为良性的页面进行手动验证。我们的模型正确分类了这200页中的197页。一个BGS实例被误分类为良性，其产生的真阴性率为99%，两个良性页面被误分类为BGS，其产生的真阳性率为98%（见表2）。如前所述，我们抓取的大多数页面都是良性的，导致BGS和良性页面之间的类不平衡我们确实在平衡的数据集上训练了我们的分类器，但是这种不平衡使得良性页面很可能被错误地分类为BGS（也就是说，我们的误报将成为一个问题）。为了避免这种情况，在实践中，我们手动检查并标记每个新检测到的BGS实例，然后将其提交到诈骗数据库。一旦被标记，页面使用的新地址将自动报告，无需额外的手动检查。在我们未来的工作中，我们计划实现一种更有效的方法来自动过滤误报页面，以完全自动、无监督的方式运行我们的爬虫。2.5. 与BGS实例该模块旨在收集诈骗者用于从受害者那里收集资金为此，我们与BGS实例进行交互，提供预期的输入，并遵循特定的指令，以达到提供诈骗地址的最终阶段（图4）。2）。通常，假黑客攻击过程需要5-10分钟。在此期间，攻击者通常会显示黑客攻击过程的详细“日志”，这应该是实时发生的这个日志显示服务器的IP地址可能被黑客入侵，表1五个分类器的10倍交叉验证结果。分类器页面类型分类清洁分类BGSF1SVC清洁327398.92Gen4326MLP清洁327398.92Gen4326RF清洁329195.9Gen25305NB清洁327396.58Gen19311KNN清洁3191197.9Gen3327注：SVC：支持向量分类器，MLP：多层感知器，RF：随机森林，NB：朴素贝叶斯，KNN：k-最近邻，BGS：比特币生成器骗局。伪造的代理服务器名称，交易应该被添加到其中的分类帐的块，等等。12（见，例如，图。 2步骤3）。然而，在某些情况下，我们会立即在BGS的HTML中找到诈骗地址。对于这些页面，我们收集诈骗地址，而无需与BGS实例进行进一步交互。此外，除了urlscan.io“实时”抓取，我们还抓取Internet Archive [ 23 ]和www.example.com，以收集过去每个诈骗实例使用的地址。urlscan.io是一个扫描和分析网站的在线服务当URL被提交到urlscan.io，网站将自动访问并收集有关所浏览URL的数据，包括所接触的域和IP、HTML内容、着陆页的屏幕截图、资源（JavaScript、CSS等）。从这些域请求此外，urlscan.io提供了入侵的指标;它跟踪400个流行的品牌域名，并试图对扫描的URL是否可疑或恶意做出裁决，如果它针对400个品牌中的任何一个。最后，一些诈骗网站提供了一个视频教程的骗局在行动中，我们然后跟进，并提取地址的骗子在教程中使用。向反钓鱼工作组（APWG）数据仓库提供BGS证书：我们在第3.1节中的分析表明，我们的系统可以在区块链上记录之前检测到许多诈骗地址（即，在受害者将任何资金转移给骗子之前）。这些数据现在自动实时发送到APWG13 eCrime eXchange（eCX）14数据仓库。 APWG是一个国际联盟，旨在统一全球应对网络犯罪，例如政府，行业，非政府组织社区和执法部门的网络钓鱼和在线欺诈。ECX代表一个包含网络威胁数据模块的数据仓库，其中包括数千个网络钓鱼和恶意域名。它还包含用于不同类型网络犯罪活动的7万多个加密货币地址。我们希望，在早期阶段将这些广告列入黑名单将减少受害者的数量。3. 欺诈收集和测量我们的实验是在我们大学的服务器上运行的，也是在加拿大计算机15提供的专用服务器上运行的。本文报告的结果来自2019年11月至2021年2月收集的数据。在本节中，我们将介绍一些直接从我们的爬虫和分类器中获得的基本数字。总的来说，我们的模型能够收集BGS中涉及的8，714个比特币地址在这些地址中，有3,008个至少有一笔交易。然而，一个特定的BGS实例负责大多数无事务地址;域bitmake.io具有5，001个地址的硬编码列表[12]我们的公共数据储存库中提供了一个完整的日志示例。13https://apwg.org/。14https://apwg.org/ec x。15https://www.computecanada.ca/research-portal/。E. Badawi等人区块链：研究与应用3（2022）1000847图五、每个分类器的所有折叠的ROC（受试者操作特征）曲线。SVC：支持向量分类器，MLP：多层感知器，RF：随机森林，NB：朴素贝叶斯，KNN：k-最近邻。E. Badawi等人区块链：研究与应用3（2022）1000848图第六章五个分类器预测BGS（比特币生成器骗局）实例的性能比较。SVC：支持向量分类器，MLP：多层感知器，RF：随机森林，NB：朴素贝叶斯，KNN：k近邻，AUC：曲线下面积表2在训练阶段没有观察到的100个随机选择的页面上的分类器准确性手动标记地面实况Actually Clean Actually BGS页面清洁级99 1BGS 2 98注：BGS：比特币发电机骗局.并且当进行支付时随机选择这些地址中的一个在撰写本文时，在特定的BGS实例中，5，001个地址中只有39个有交易，因此仅该站点就是我们数据库中5，706个无交易地址中的4，962个地址的来源（占86.96%）。如果没有这个网站，大约80%的地址都有交易。这些地址已在1，010个独特的诈骗域名上发现16。大约一半的BGS域（其中463个）包含一个单一的支付地址。在另一个极端，这些域中有70个（7%）与至少10个地址相关联。我们发现144个地址属于比特币以外的加密货币 59个是以太坊地址，26个是莱特币（LTC）地址，17个是比特币现金（BCH）地址，42个地址属于其他货币，如Dash和Zcoin。由于绝大多数地址都是比特币地址，我们将在剩下的分析中关注这种货币。最后，我们的分析还表明，Alexa前1K域17，18中没有一个包含实际的BGS实例。因此，我们只报告托管在域上的URL的结果在Alexa Top 1K之外图图7和图8显示了每天检测到的BGS URL和地址的数量。在这里，我们不包括在Internet Archive中找到的URL和地址，以便仅计算新发现的和当前活动的BGS实例。平均而言，我们的模型检测到大约2.2个新的BGS实例，一般来说，我们在比较诈骗网址时只考虑二级域名，除了托管服务，我们考虑三级域名。因此，generatorbitcoin.epizy.com和miningbtc.epizy.com被视为两个独立的攻击，即使它们在同一个二级域名上，因为它们都使用托管服务epizy.com。17https://www.alexa.com/。18然而，我们在分析中包括了托管域名和公共博客。见图7。每周检测到的BGS（比特币生成器骗局）URL数量。4.4从2019年11月到2021年2月，每天都有新的比特币地址。这些数字在整个期间相对稳定因此，我们可以推断，我们的系统每年将识别800多个新的BGS实例和1,500多个比特币广告。3.1. 爬虫效率在本节中，我们将讨论我们的爬虫程序在接收任何交易之前检测诈骗地址的能力。我们通过两种方式收集诈骗地址：首先，我们每天重新访问我们之前发现的所有BGS实例。因此，如果一个实例发布了新的地址，我们的系统将在24小时内获取它们。我们还查看了其他来源，如互联网档案馆[23]，urlscan.io发布的数据，以及骗子发布的教程视频通过这种方式，我们收集了一些19请注意，一个新的BGS实例并不一定意味着一个新的地址，因为有一些地址在实例之间共享。E. Badawi等人区块链：研究与应用3（2022）1000849见图8。每周检测到的比特币地址数量。图第九章 BGS（比特币生成器骗局）地址的日常传入交易。在我们发现实例之前，过去使用过的地址因此，我们的数据库是当前活动地址和数月或数年前活动地址的混合体总的来说，我们发现了3,008个比特币地址，至少有一次交易。在这些地址中，有2，040个（占总数的67.8%）被在线爬虫检测到，并且不存在于其他来源中910个地址（占总数的30.2%）是从其他来源提取的，但我们的实时爬虫从未找到过最后，剩下的58个地址（占总数的1.92%）被我们的实时爬虫和其他来源找到。在我们的实时爬虫发现的2,098个地址中，有1,501个是在他们有任何交易之前发现的。交易最终到达（请记住，我们在这里只查看最终收到交易的地址），但只有在地址被我们标记之后。这是我们模型的独特优势之一，即，在收到任何资金之前检测可疑地址我们在收到交易之前发现的广告的百分比随着时间的推移而增加。当前值是在收到任何事务之前发现的最终活动地址的71.54%，而之前为55%。在我们以前的工作中。4. 分析在本节中，我们使用我们的比特币地址数据库来估计有多少钱通过BGS被盗我们还研究了比特币实际上被转移回初始地址的几个案例。我们讨论了一些骗子使用的技术，这些技术使我们这样的系统效率降低。我们提出了BGS域和地址的基本统计数据最后，我们将讨论BGS域中地址的重用以及其他类型的攻击。4.1. 比特币地址支付分析我们首先通过分析涉及我们发现的比特币地址的交易来衡量BGS的规模总的来说，我们收集了3,008个至少有一笔交易的地址。这些地址已收到来自286，840个唯一地址的177，952笔交易。平均而言，这些地址每笔交易收到0.018537个比特币，总共积累了3，298.43个比特币。然后，我们使用从bitcoincharts.com获得的交易当天的平均汇率将交易价值转换为美元。这些地址总共收到8，762，177美元。这些交易发生在2013年11月至2021年2月之间，当时分析结束（同时，在撰写本文时，攻击仍在进行中）。交易总数及其相应的总价值在美元，与比特币的汇率相比，在图中呈现. 分别为9和10。如图所示，BGS的成功与比特币的市场价值之间存在明显的相关性，这当然并不奇怪。此外，BGS仍在稳步前进，每天继续欺骗受害者。我们还可以注意到图中的两个峰。 9没有显示出与比特币价格的明显相关性。我们检查了这些峰值，发现它们是由三个接收大量交易的地址引起的在2017年初的第一个高峰期，我们有两个地址接收了74%的交易，平均每笔交易17.3美元。在2020年5月的第二个高峰期，我们有一个地址收到了82%的交易，平均每笔交易11.3美元。这些地址在四个不同的日子里造成了三个高峰，但我们不知道为什么他们突然收到了大量的交易。骗子往往转移资金远离接收地址，只要他们收到，可以看到在图。十一岁最后，在我们的分析中，如果我们试图估计我们的数字的准确性，我们注意到我们报告了地址和实例的数量而不使用诸如多输入启发式算法的聚类技术[18]）。然而，由于我们肯定没有检测到所有的诈骗地址，地址和实例的实际数量被低估了。至于收到的美元的总价值，我们无法区分支付给见图10。每日存入资金到BGS（比特币生成器骗局）地址。E. Badawi等人区块链：研究与应用3（2022）10008410表3对骗局的详细分析解决了回报问题（Transac指交易）。收到一些付款的总诈骗没有收到的邮件骗局正常什么#地址286,84049970285,821#inTransac177,9522881,984175,680#outTransac71,7363653,72167,650比特币数量3,298.4317.28163.493,117.66#比特币输出3,279.562619.82197.723,062#美元8,762,17715,826108,1978,638,1663#outUSD9,438,52116,925185,3109,236,280见图11。BGS（比特币生成器骗局）地址中的传入和传出存款之间的比较。诈骗者和支付给诈骗地址的其他原因;因此，我们的分析结果可能会被高估，特别是在早期交易方面。4.2. 回收期分析在某些类型的攻击中，例如庞氏骗局，诈骗者向一些受害者提供一些回报作为计划的一部分此外，诈骗者可能在诈骗地址进行交易，然后创建具有多个值的反向交易，或者他们可

下载后可阅读完整内容，剩余1页未读，立即下载