没有合适的资源?快使用搜索试试~ 我知道了~
第三届网络安全、在线骚扰和错误信息WWW 2018,2018年4月23日至27日,法国里昂991BABELTOWER:语言如何影响被盗网络邮件帐户中的犯罪活动Emeric Bernard-JonesUniversity CollegeLondon(ucl.ac.uk大学学院)Jeremiah Onaolapo伦敦大学学院j.onaolapo@cs.ucl.ac.ukGianlucaStringhiniUniversityCollege Londong.ucl.ac.uk摘要我们开始了解不同语言对网络犯罪分子浏览网络邮件帐户和定位其中敏感信息的能力的影响为此,我们用英语、罗马尼亚语和希腊语设置了30个Gmail蜜罐账户。我们通过订阅选定的在线时事通讯,用这些语言的电子邮件填充帐户。我们还在其中15个账户中隐藏了关于虚假银行账户的电子邮件,以模仿真实世界中有时会在账户中存储敏感信息的网络邮件用户。然后,我们通过SurfaceWeb和Dark Web上的粘贴网站将cre-泄露给蜂蜜账户,并收集了十五天的数据。 我们对数据的统计分析表明,网络犯罪分子更有可能在希腊账户中发现敏感信息(银行账户信息),而不是在其他账户中,这与希腊语应该构成对希腊账户的非希腊访客的理解障碍的预期相反。我们还提取了网络犯罪分子访问的电子邮件中的重要单词(作为他们可能在蜂蜜帐户中搜索的关键字的近似值),并发现金融术语是最重要的单词之一。总之,我们发现语言在网络犯罪分子访问隐藏在受损网络邮件帐户中的敏感信息的能力中起着重要作用。关键词网络邮件;蜜罐;信息窃取;语言ACM参考格式:EmericBernard-Jones,JeremiahOnaolapo,andGianlucaStringhini.2018 年 。 BABELTOWER : How Language Affects CriminalActivity in Stolen WebmailAccount. 在WWW '18伴侣:2018年网络会议伴侣,2018年4月23日至27日,法国里昂。ACM,New York,NY,USA,9页。https://doi.org/10.1145/3184558.31915291介绍在线账户提供了许多有用的功能,但也使用户面临某些风险。例如,我们发送电子邮件,编辑文档,并通过在线帐户与同事互动。因此,这些帐户不仅提供这些功能,而且还经常成为敏感信息(如密码和财务信息)的存储库。Webmail帐户对此特别敏感,因为它们大多通过本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191529设计这使得它们对那些试图从这些账户的内容中发财的恶棍很有吸引力。数据泄露和未经授权的帐户访问现在很常见,通常会给受害者和在线服务提供商带来高昂的财务和声誉成本[1]。网络犯罪分子经常通过对受害者进行社会工程或网络钓鱼攻击来破坏在线帐户[10]。网络犯罪分子获取凭证和危害在线帐户的其他方式包括数据库泄露、1信息窃取恶意软件[24]和网络攻击。2在获得在线账户的凭证后,网络犯罪分子通常通过评估受损账户的内容和搜索敏感信息来评估此类账户的价值[6]。根据账户的感知价值,不法分子然后在地下黑市上出售账户凭证[25]或私下使用它们。在某些情况下,网络犯罪分子对这些账户的所有者进行进一步的攻击,例如通过对他们进行勒索攻击,如Ashley Madison在线约会网站丑闻中所见3在其他情况下,被入侵的帐户被用来攻击其他在线用户,例如通过向帐户所有者的联系人发送垃圾邮件[25]。关于网络犯罪分子使用受损在线帐户的现有文献很少。这主要是因为在不控制大型在线服务的情况下,很难收集受感染帐户的数据。Bursztein等人研究了通过网络钓鱼攻击受损的Gmail帐户,以了解非法访问帐户的网络犯罪分子的操作模式[6]。类似地,[20]研究了歹徒访问通过多个渠道泄露的Gmail帐户的作案手法Lazarov等人调查了不法分子在泄露的在线电子表格上的活动[13]。在线账户通常允许用户以各种方式定制他们的账户,例如通过语言本地化。于是,一个问题浮现在脑海中--当网络犯罪分子遇到不熟悉的地区或语言的帐户时,他们会有什么样的行为?这将如何影响他们的活动?据我们所知,关于这一主题的现有研究有限 为了弥补这一研究空白,我们研究了帐户语言的差异对连接到受损Gmail帐户的歹徒活动的影响。因此,我们采用了[20]中提出的公开可用的基础设施4和方法。我们创建并检测了30个Gmail帐户,并在其中三个帐户中填充了电子邮件1http://krebsonsecurity.com/2014/05/the-target-breach-by-the-numbers/2http://crypto.stanford.edu/ssl-mitm3https://blog.kaspersky.co.uk/cheating-website-hacked/4https://bitbucket.org/gianluca_students/gmail-honeypot第三届网络安全、在线骚扰和错误信息WWW 2018,2018年4月23日至27日,法国里昂992语言,即英语,希腊语和罗马尼亚语。我们在其中15个账户中植入了虚假的银行信息,其中包含已知对网络犯罪分子有吸引力的关键字然后,我们按照[20]中的方法,通过Surface和DarkWeb上的粘贴站点将凭据泄露给帐户,并记录帐户中的活动。我们发现,网络犯罪分子更有可能发现隐藏在希腊账户中的虚假银行账户详细信息,而不是其他账户。这与我们的期望相反,希腊语应该构成非希腊游客对希腊帐户的理解的障碍 以前的工作表明,网络犯罪分子通常通过搜索其中的有价值信息来评估被盗帐户的价值[6,20]。因此,我们假设网络犯罪分子可能使用在线语言翻译工具将金融术语翻译成希腊语,然后在希腊账户中搜索此类关键词。这也可以解释他们访问账户所花费的时间:希腊账户的访问时间比其他账户长,而英语账户的访问时间最短。使用自然语言处理(NLP)技术,我们从网络犯罪分子访问的电子邮件中提取了重要的单词(作为他们在蜂蜜帐户中搜索的关键词的近似值),并发现金融术语在最常用的单词中。这很有趣,因为我们在蜂蜜账户中播种的一些敏感词也出现在这些重要词中。这表明网络犯罪分子特别关注这些敏感电子邮件。总之,我们发现语言确实会影响网络犯罪分子在网络邮件帐户中定位敏感信息的能力。我们的统计测试表明,语言和网络邮件帐户中的犯罪活动之间存在显着的关系。我们还证实了以前的调查结果,即网络犯罪分子在受损的网络邮件中搜索财务和其他敏感信息账户[6,20]。捐款. 我们提供了详细的统计分析,表明语言差异会影响网络犯罪分子在受损的网络邮件帐户中定位敏感信息的能力。据我们所知,这是第一个探讨语言和犯罪能力之间关系的研究2背景在本节中,我们将讨论网络犯罪的类别、网络邮件账户以及语言与犯罪能力之间的关系。我们也提出了我们的研究问题和假设。2.1网络犯罪类别从广义上讲,网络犯罪是一个术语,用于描述在执行犯罪行为中使用或涉及技术的各种情况[8]。它体现了各种犯罪活动(例如身份盗窃和欺诈),其中许多是发达国家发展最快的犯罪类型。 我们讨论了三种不同类型的网络犯罪,即网络辅助犯罪,网络依赖犯罪和网络支持犯罪[28]。网络犯罪这些都是地面犯罪,如入室盗窃或盗窃,它们将数字技术的使用融入到犯罪行为[15]。一个例子是当一个偷自行车的人使用地图应用程序来规划一条经过他们已经打算偷的区域的路线。 在网络协助犯罪中,“网络”因素在犯罪本身的实施中起着第三种作用,也就是说,如果网络因素被消除,犯罪可能会继续不受影响。 这类网络犯罪不在本文的讨论范围之内。网络犯罪 这些犯罪可以在不使用互联网连接的情况下执行,但使用技术作为力量倍增器在“网络空间”内实施地面犯罪[ 18 ]。这些犯罪往往利用互联网的全球影响力,但不一定代表全新的犯罪类型。一个例子是银行欺诈,它在互联网出现之前就存在,但由于互联网的发展而大大便利了。网络犯罪这些代表了“网络犯罪原型”如果不使用互联网连接或计算机网络,这些犯罪就无法实施,例如分布式服务拒绝服务(DDoS)攻击[7]。尽管存在关于这些犯罪类型的微小差异和测量的争论[11],但本文的目的不是提供对犯罪类型或分类的详细见解。相反,我们专注于网络依赖和网络启用的犯罪,因为我们研究犯罪分子连接到网络邮件帐户的行为。2.2Gmail账户Gmail帐户与许多其他网络邮件帐户一样,允许用户相互发送和接收文本/多媒体消息然而,除了发送和接收电子邮件外,Gmail用户还可以在他们的帐户中嵌入脚本,以自动执行其他活动,例如,提醒他们需要注意的重要电子邮件。我们利用这个功能来检测我们在实验中使用的Gmail帐户,通过配置脚本向我们发送有关帐户更改的通知。通过帐户身份验证后,Gmail用户可以访问其他webmail用户在收件箱文件夹中发送给他们的电子邮件。在编写电子邮件以准备发送给其他webmail用户时,这些电子邮件草稿会显示在“草稿”文件夹中。同样,用户可以访问他们以前在“已发送”文件夹中发送给其他人的电子邮件。他们可以标记电子邮件,以供日后参考。Gmail还提供了一个文本搜索工具。最后,用户可以更改Gmail界面的显示语言,页面将以所选语言显示2.3语言与犯罪研究表明,犯罪活动是按照熟悉的行为模式进行的,空间上,通过犯罪类型,或通过行为者的网络[4]。这表明,成功的犯罪分子在很大程度上依赖于对他们所犯罪行的过程和犯罪区域的详细了解[22]。因此,我们可以有把握地假设,理解和解释社会线索的能力,他们的环境,以及他们的受害者的行为对他们的犯罪能力有连锁反应[5]。当试图在线研究罪犯的行为模式时,连接到网络邮件帐户并在其中导航第三届网络安全、在线骚扰和错误信息WWW 2018,2018年4月23日至27日,法国里昂993可以被认为是“常规活动”,因为这些是合法用户的频繁动作。因此,网络邮件帐户的组成、界面、布局或语言的变化可以被认为是在帐户中执行犯罪的障碍-很像物理障碍(例如,栅栏)可以阻止陆地犯罪。这构成了我们工作的主题基础为陆地犯罪类型开发的犯罪理论的某些其他方面已经显示出适应网络犯罪类型的能力[29]。 尽管犯罪模式理论中的地点或地理节点的概念可能需要用网络等价物来取代,但某些趋势和常规在线活动已成功地归因于特定的在线犯罪分子[23]。在讨论网络犯罪时,有一个常见的“真理”:网络犯罪在某种程度上不受可能阻碍传统犯罪类型的时间,空间和文化的限制。然而,在以前的工作中的大多数争论是通过逻辑推理和断言。特别是,在探索了犯罪科学和语言领域的先前工作后,我们发现很少有研究探索语言与犯罪之间的关系。 本文旨在缩小这一研究差距,并提供见解,是否执行的犯罪行为确实受到语言差异和理解,或没有。 为此,我们定义我们的研究问题和假设如下。研究问题。语言差异会影响网络犯罪活动吗?假设0(H0)。 语言差异不会对网络犯罪分子在受损网络邮件帐户中定位敏感项目的能力产生重大影响。假设1(H1). 语言差异将产生重大影响图1:Gmail为用户提供了更改用户界面显示语言的选项。除了用特定语言的时事通讯填充蜂蜜帐户外,我们还更改了每个帐户的显示语言以匹配其内容。图2:我们隐藏在英国蜂蜜账户中的虚假银行详细信息的示例账户 为了实现这一点,我们创建了虚假银行账户详细信息和网上银行页面的截图(见图2和图3),并将包含这些截图的电子邮件发送给蜂蜜账户影响网络犯罪分子在一个被入侵的网络邮箱账户3方法3.1创建蜂蜜帐户我们在Gmail上创建了三种语言的30个蜂蜜帐户即英语(10个帐户),罗马尼亚语(10个帐户)和希腊语(10个帐户)。 我们选择这些语言是出于语言学的原因;英语是因为它是一种“国际”语言,罗马尼亚语是因为它是东欧唯一的拉丁语,希腊语是因为它具有独特的字母表。 为了最大限度地减少数据集中的潜在偏差,我们配置了蜂蜜账户的假人物角色,每个语言组包括5名男性和5名女性,出生日期从1960年到2000年不等。为了充实这些账户,我们为他们订阅了50多份特定语言的时事通讯和邮件列表,这些通讯和邮件列表遵循某些主题。这些主题包括时尚,法律和园艺,并根据我们为账户选择的虚假人物角色的性别和出生日期进行选择。我们还更改了每个帐户的显示语言,以匹配其内容的语言 图1显示了Gmail语言配置选项,允许这一点.敏感邮件。 在30个蜂蜜账户中,有15个隐藏了虚假的网银信息。这个想法是为了模仿webmail用户的行为,将敏感信息存储在自己对于被指定为包含敏感信息的每个蜂蜜账户hG,我们将先前描述的屏幕截图从hG发送到其自身。 我们在播种账户时使用了特定于地区的银行信息,例如,英国账户的假Natwest和Santander信息,罗马尼亚账户的假ING信息,以及希腊账户的假Alpha Bank配置文件。我们这样做是为了确保银行在蜂蜜账户的指定国家/地区可以立即识别。我们还在敏感电子邮件中包含了国民保险号码、排序代码和帐户号码等关键字。 此类关键词已被证明对网络犯罪分子具有吸引力[6,20]。最后,我们将剩余的15个帐户保留为非种子帐户,以便在包含敏感信息的帐户和不包含敏感信息的帐户之间进行比较。3.2监控蜂蜜账户为了监控蜂蜜账户中的非法活动,我们使用了[20]中的公共基础设施。它包括嵌入在蜂蜜帐户中的脚本、一个sinkhole邮件服务器、一个从蜂蜜帐户接收活动通知的通知存储、一个从通知存储检索电子邮件消息的邮件客户端以及其他监视脚本(参见图4)。该基础设施为我们提供了有关蜂蜜帐户活动的信息,特别是当电子邮件被打开,发送或星号时。 它还为我们提供有关访问者创建的电子邮件草稿的信息。此外,我们还收到第三届网络安全、在线骚扰和错误信息WWW 2018,2018年4月23日至27日,法国里昂994图3:隐藏在英蜜账户中的虚假网银资料活动扫描器心跳功能访客日志(访问)发送的电子邮件其他电子邮通知存储POP客户端SMTP服务器活动检数据转储网络犯罪图4:蜜罐系统的概述“heartbeat” messagesdailyfromeachhoneyaccounttonotify us 如果某个帐户已被Google暂停,或者完全被网络犯罪分子劫持,即更改了帐户的密码,我们将不再接收该帐户的“心跳”消息。最后,系统为我们提供了访问蜂蜜账户的信息;我们收到了IP地址、位置信息、访问时间和其他有关访问者与蜂蜜账户交互的详细信息。为了最大限度地降低滥用的风险,我们将蜂蜜帐户的默认发送地址配置为指向邮件服务器,该邮件服务器是前面描述的监视器基础设施的一部分。因此,从蜂蜜帐户发送的所有电子邮件都将被发送到我们的邮件服务器,而不是外部世界,因为我们的邮件服务器是一个sinkhole服务器(它不会将电子邮件转发到预期的目的地)。3.3泄露蜂蜜账户在检测蜂蜜账户之后,我们通过Surface Web和Dark Web上的粘 贴 站 点 泄 露 了 他 们 的 凭 据 , 即 Pastebin , Insertor 和Stronghold(所有凭据在这些网点中均匀泄露)。Insertor和Stronghold是暗网粘贴网站,只能通过特殊软件访问,例如TOR浏览器。Pastebin可以通过任何常见的Web浏览器访问,例如Firefox,Chrome或Safari。在每次泄漏中,我们都包含了一组蜂蜜帐户凭据和说明,表明凭据是从被黑客攻击的帐户中获得的每组包含10到15个凭据。然后我们记录了不法分子对蜂蜜账户的访问。3.4对有效性的值得一提的是,我们在本研究中使用的监控基础设施只能检测电子邮件是否被打开,而不一定能检测是否被阅读。为了这项研究的目的,我们假设打开的电子邮件也被打开它们的人阅读此外,我们目前缺乏一种方法来确定网络犯罪分子在蜂蜜账户中搜索的确切单词。相反,我们通过评估网络犯罪分子打开的电子邮件中的重要单词来近似这些搜索词。我们认为这是对本研究内部效度的主要威胁为了最大限度地减少这种威胁的影响,我们在帐户中植入了包含敏感内容(虚假财务信息)的电子邮件,并隐藏了电子邮件,这样网络犯罪分子就需要付出一些努力才能找到它们。然后,我们将分析重点放在这些敏感电子邮件上。在未来的工作中,我们希望找到一种更准确的方法来确定蜂蜜账户中的搜索词另一个对内部有效性的威胁是,许多蜂蜜账户至少被网络犯罪分子劫持过一次,即此类账户的密码被更改。回想一下,当这种情况发生时,我们无法从蜂蜜帐户收集访问和活动信息。然而,我们能够恢复一些帐户并继续实验。最后,我们只通过粘贴网站泄露了帐户凭据,因此我们的结果可能不一定反映帐户通过其他渠道泄露时发生的情况。3.5伦理由于我们研究的敏感性,我们确保以符合伦理的方式进行实验。由于实验需要向网络犯罪分子发布帐户凭据,因此存在滥用的风险 我们通过配置蜂蜜帐户将所有外发电子邮件发送到我们控制下的邮件服务器来最大限度地降低这种风险,该服务器不会将电子邮件发送到预期目的地。因此,我们能够防止帐户被用于垃圾邮件。此外,我们还在蜂蜜账户中植入了银行账户和网上银行信息等财务信息。为了避免伤害任何人,我们确保账户中加载的所有财务细节都是假的(我们随机生成最后,由于我们的实验涉及欺骗网络犯罪分子第三届网络安全、在线骚扰和错误信息WWW 2018,2018年4月23日至27日,法国里昂995--------在与虚假账户打交道时,我们获得了我们机构的道德批准。4数据分析Gmail帐户会记录每次唯一访问,并使用唯一标识符(也称为Cookie)以及访问时间、IP地址和位置等其他信息来标记访问。我们通过前面描述的蜜罐基础设施从蜂蜜账户中提取了这些信息。我们还评估了与这些访问相对应的操作(例如,电子邮件打开、发送、主演或草稿创建)。换句话说,每个数据单元封装了一个访问操作(例如COOKIE-OPEN)。在15天的时间里,我们记录了来自19个国家的29个蜂蜜账户的650个数据单元。其中210个数据单元来自在帐户中执行许多不寻常操作的歹徒,例如,读取他们连接到的帐户中的所有电子邮件-换句话说,这些数据单元是离群值。还要注意,我们分析的某些方面需要将已访问的电子邮件与未访问的电子邮件进行因此,我们排除了这210个离群值,因为它们对我们的分析没有用处。在这一节中,我们提出的统计测试和文本分析的数据的结果。 我们建立了语言和网络犯罪能力之间的关系,并显示了一些网络犯罪分子感兴趣的关键词。4.1统计检验回想一下,我们开始了解帐户的语言与犯罪分子在该帐户上的活动/能力之间的关系。因此,为了确定这种关系是否存在,我们进行了卡方(χ 2)检验[21],以评估离散语言变量(希腊语,罗马尼亚语和英语)之间的任何可能关联,以及网络犯罪分子访问帐户中敏感项目的能力。Pearson χ 2检验(见表1)表明,语言与网络犯罪分子在电子邮件帐户中定位敏感项目的能力之间确实存在显著关联(χ2(2)= 15。3097,p <0. 001)的情况下。由于通货膨胀的风险,我们还生成了Cramer's V统计量[ 9 ],以揭示有关关联强度的 这证实了语言与网络犯罪能力之间存在微弱但显著的关联(V = 0)。1865)。然而,必须注意的是,X2表相对不能提供关于变量之间的相互作用或所实现的模型的拟合的更多实质性信息。因此,我们进行了逻辑回归,以进一步探讨是否存在实质性的关系之间的三个语言变量和犯罪活动(见表2)。 我们发现,语言变量的组合,显着影响网络犯罪分子找到敏感项目的能力(χ2(3)= 19。77,p <0. 001),该模型准确预测了81.59%的犯罪行为。请注意,由于共线性,我们从分析中删除了罗马尼亚数据点,此后在后续分析中将其称为缺点(见表2、3和4)。进一步的分析表明,一个显着的正相关关系之间的能力,找到一个敏感的项目和希腊语集(z = 2。52,p <0. 01)的比值比为2.316176,这意味着以希腊语建立的账户的可能性是其两倍多比其他语言集更容易访问敏感项。英语作为变量不显著(z = 0.63,p = 0。530),优势比为0. 8123249。这意味着一个用英语构建的帐户实际上减少了一个恶棍访问其中敏感项目 我们获得了罗马尼亚帐户集的相似结果,该帐户集具有显著性(z =6。30,p <0. 01),优势比为0. 1888889。这表明,用罗马尼亚语写的电子邮件与犯罪分子在其中找到敏感项目的能力我们进一步将访问持续时间作为变量引入logistic回归(见表3)。 这是因为我们观察到不同语言账户的平均访问率的平均值不同:希腊账户的平均访问时间最高,而英语账户的平均访问时间最低。这可能指示进一步的活动,例如文本翻译,以促进通过蜂蜜账户的导航离散语言变量中包含访问时间的Logistic回归具有显著性,准确预测了82.05%的犯罪活动,并在模型中占较小的方差水平(z = 2. 17,p <0. 01)。访问时间变量也对希腊语和英语变量代表的显著性水平有轻微的积极影响,英语优势比为0.8618208(z = 0. 45,p = 0。656)和2.345972(z = 2. 53,p<0. 01)。然而,罗马尼亚变量遭受了相应的降低(优势比0.1589789),同时仍然保持显著性(z= 6. 56,p<0. 01)。为了再次确认我们的发现,我们以访问持续时间为中心在再次运行模型之前,我们需要检查访问持续时间值,以确保逻辑模型不是将访问持续时间值集中在值为0的截距处,而是集中在模型其余部分的整数值处(参见表4)。均值中心化对模型的拟合没有影响,除了略微改善罗马尼亚语言变量的显著性(z = 6. 40,p<0. 01),导致最终优势比为0. 1084737。由于这些结果清楚地表明,语言和网络犯罪能力之间存在显着的关系,我们拒绝我们的零假设H0。在下一节中,我们将介绍我们对网络犯罪分子在蜂蜜帐户中搜索的敏感项目的调查结果。4.2挖掘网络邮件我们想了解网络罪犯在连接到被入侵的网络邮件帐户时感兴趣的主题和单词。先前的研究表明,网络罪犯在破坏在线帐户后的第一步之一是通过仔细阅读其内容来评估其价值[6]。这意味着他们运行搜索查询来隔离感兴趣的电子邮件然而,我们无法访问蜂蜜账户中的搜索词,因为目前没有API可以从蜂蜜账户中检索这些信息。为了克服这一限制,我们通过分析打开的电子邮件并从中提取重要的词来近似搜索词,相对于蜂蜜帐户中的所有电子邮件为了实现这一点,我们依赖于词频对于每种语言集(英语,希腊语,罗马尼亚语),将dR定义为该语言的蜂蜜帐户中打开的电子邮件的语料库。第三届网络安全、在线骚扰和错误信息WWW 2018,2018年4月23日至27日,法国里昂996------表1:卡方(χ2)分析显示了预期和实际犯罪接触敏感物品之间的差异不敏感敏感总语言频率预计频率频率预计频率频率预计频率英语189177.92940.1218218希腊8093.83521.2115115罗马尼亚9087.31719.7107107总3593598181440440表2:评估语言与定位敏感项目的犯罪能力之间的关系的逻辑回归敏感比值比STD. 呃。zP> |z|95%置信区间Lang-Eng0.81232490.2690604 -0.630.5300.42441681.554773Lang-Gre2.3161760.7716938 2.520.0121.2055134.450116缺点0.18888890.049952-6.300.0000.11248760.3171816表3:包括访问持续时间的逻辑回归敏感比值比STD. 呃。zP> |z|95%置信区间Lang-Eng0.86182080.2878145 -0.450.6560.4478668 1.658384Lang-Gre2.3459720.7901058 2.530.0111.2123964.539428接入1.0083370.0038651 2.170.0301.000791.015941缺点0.15897890.0445502 -6.560.0000.0917930.27534表4:平均集中访问持续时间的逻辑回归敏感比值比STD. 呃。zP> |z|95%置信区间Lang-Eng0.86182080.2878145-0.450.6560.44786681.658384Lang-Gre2.3459720.79010582.530.0111.2123964.539428C-Access1.0083370.00386512.170.0301.000791.015941缺点0.18047340.0482639-6.400.0000.1068506 0.3048244类似地,将dA定义为这些帐户的收件箱中所有电子邮件的语料库注意,dR是dA的子集。 在预处理过程中,我们从语料库中删除了所有少于五个字符的单词,并删除了信令和头部信息。在对文本语料库[dR,dA]进行TF-IDF分析后,我们获得了tfidfR和tfidfA作为单 词 及 其 概 率 的 结 果 向 量 。 我 们 进 一 步 计 算 向 量tfidfRtfidfA。这个想法是,相对于整个语料库,具有较高tfidfR tfidfA值的单词在恶棍打开的电子邮件集合中具有较高的重要性。因此,这样的话揭示了歹徒可能在寻找的主题。表5、6和7分别显示了对英国、希腊和罗马尼亚蜂蜜账户的TF-IDF分析结果。他们表明,那些访问希腊语和罗马尼亚语帐户的人试图搜索帐户语言范围之外的单词。例如,“posted”一词似乎是希腊语和罗马尼亚语 在罗马尼亚账户中搜索的术语不包括任何金融或银行指标,而TF-IDF对希腊账户的近似搜索包括τράπεζας(银行)和κωδικός(代码)等词。这两个词都是我们事先用来播种账户的敏感术语。关于财务条款例如“银行”和“投资”出现在TF-IDF英语账户中的前几位单词中(见表5)。 这些发现表明,网络犯罪分子确实在蜂蜜账户中搜索了金融术语。该结果通过以下观察而进一步加强:在整个电子邮件文本dA中被发现是重要的术语在打开的电子邮件dR的语料库中是不重要的(如由低tfidfRtfidfA值所示,其中一些是负的)。这是一个强有力的迹象,表明被打开的电子邮件不是由网络犯罪分子随机选择的;它们是在对这些术语进行搜索后故意打开的。 这证实了[6,20]中的结果。5讨论调查结果摘要 与我们的预期相反,我们的发现表明,网络犯罪分子更有可能在希腊帐户中找到敏感信息,而不是其他语言的帐户。 这是相当有趣的,因为只有两个访问来自希腊或希腊语国家。我们认识到,对帐户的某些访问可能是通过代理服务器进行的。然而,很明显,访问这些账户的人不仅仅是说希腊语的人。这些发现第三届网络安全、在线骚扰和错误信息WWW 2018,2018年4月23日至27日,法国里昂997表5:英语变体的TF-IDF结果搜索词特菲德夫河TFIDFAtfidfR−tfidfA常用词特菲德夫河TFIDFAtfidfR−tfidfA书面0.4371 0.043220.3938退订0.1090.1833-0.0743问题0.4470.06780.3796单击0.09530.1671-0.0718回答0.2283 0.03770.1907请0.09310.1597-0.0666委员会0.2224 0.03860.1838关于0.07610.1279-0.0518联盟0.2273 0.05650.1708服务0.03940.1248-0.0854欧洲0.25080.0880.1628Twitter0.02570.1193-0.0936源0.2267 0.06630.1604特朗普0.03990.1085-0.0685银行0.1599 0.03940.1205伦敦0.21580.1017-0.1141伦敦0.2158 0.10170.1141接触0.04650.10010.0536投资0.0548 0.01220.0425健康0.07170.0983-0.026表6:希腊语变体的TF-IDF结果搜索词特菲德夫河TFIDFAtfidfR−tfidfA常用词特菲德夫河TFIDFAtfidfR−tfidfA张贴0.12330.00020.1230阿尔法0.08300.4820-0.3990βιβλίο,0.11820.00030.1179αγόρασέ0.13580.08090.0549我们的团队0.09060.00070.0899ekdromi.gr0.12580.06240.0634第一章0.08300.00790.0751酒店0.07040.06080.0096联系我们0.08300.00010.0829通讯0.04530.0560-0.0107六个月0.08300.00060.0825εικόνα0.06290.04830.0146我的天0.08050.00140.0791έκδοση0.05280.04700.0058认购0.07800.00130.0767διαθ ι σιμ π ι0.04780.04540.0024国0.07550.00010.0754柱0.04530.03920.0061联合0.07550.00010.0753观0.04280.03220.0106表7:罗马尼亚语变体的TF-IDF结果搜索词特菲德夫河TFIDFAtfidfR−tfidfA常用词特菲德夫河TFIDFAtfidfR−tfidfA张贴0.23070.00110.2296单击0.15670.2693-0.1127魅力0.14810.00380.1443穆特0.12530.2238-0.0984维度0.14240.00240.1401ETM te0.05410.1470-0.0928格雷塔特0.14240.00450.1379adresa0.07410.1436-0.0696努马尔0.13390.00930.1245罗马尼亚0.04270.1161-0.0734库丘塔0.12530.00170.1237在线0.06270.1118-0.0491利夫雷萨0.12530.00190.1234视频0.09680.1085-0.0117阿尔金特0.13100.01030.1207丁特尔0.08260.1037-0.0211材料0.12530.00680.1185德扎博纳雷0.03700.0992-0.0622普罗杜苏尔0.12530.00890.1164尤列0.08260.0991-0.0165这与语言理解和理解理论中所支持的观点相反,这些理论认为,如果个人不理解与他们交互的对象的语言,那么他们的理解将受到严重阻碍因此,我们假设网络犯罪分子可能使用在线语言翻译工具将金融术语翻译成希腊语,然后在希腊账户中搜索此类关键词。 这也可以解释他们访问账户所花费的时间:希腊账户的访问时间比其他账户长,而英语账户的访问时间最短。歹徒平均花更多的时间浏览希腊和罗马尼亚的账户。这表明了许多可能性。作为如前所述,网络犯罪分子可能会在帐户上花费更多时间来使用在线翻译服务,以改善他们对电子邮件内容的有限理解。或者,这可能是因为个人更容易评估语言为英语的网络邮件帐户的内容,因此如果该帐户看起来价值有限,则忽略该帐户。最后,在电子邮件帐户的内容中搜索关键字的能力可能是犯罪分子遍历受损的网络邮件帐户的能力的关键因素,正如我们的TF-IDF评估中所看到的那样,该评估突出显示了“银行”和“代码”等单词。 这显示网上电邮服务供应商有可能阻碍犯罪分子在互联网上找到敏感资料。第三届网络安全、在线骚扰和错误信息WWW 2018,2018年4月23日至27日,法国里昂998通过混淆或删除银行和金融关键字来破坏帐户。局限性。首先,我们只能通过粘贴网站泄露蜂蜜账户。因此,我们的结果可能无法反映通过其他渠道泄露的帐户的情况其次,我们的方法依赖于TF-IDF来近似蜂蜜账户中的搜索词。因此,我们只能洞察那些被歹徒打开的搜索我们无法评估未返回结果的检索和返回结果但不法分子未打开的检索今后的工作。 在未来,我们打算探索在其他情况下使用被篡改的在线帐户,例如,有针对性的攻击。 我们还打算研究语言差异对其他平台上的网络犯罪活动的影响,例如在线社交网络、云存储帐户和在线银行帐户。6相关工作Bursztein等人[6]研究了恶意Gmail帐户的使用情况,特别关注鱼叉式网络钓鱼作为网络犯罪分子获取帐户凭据的一种方式他们部署了Gmail蜜罐并从中收集数据[20]使用了类似的蜜罐方法来调查被入侵的Gmail帐户的使用情况,但探索了更多的渠道,即粘贴网站、地下论坛和恶意软件。其他研究人员也使用蜜罐系统来研究被入侵的在线帐户的使用情况。Liu等人[16]在P2P共享空间中放置蜂蜜凭证(在蜂蜜文件中)以研究非法访问。Nikiforakis等人 [19]还研究了使用honeyfiles的文件托管系统中的隐私问题。Stringhini等人[26]部署了蜜罐配置文件来研究社交垃圾邮件。探索滥用在线账户的其他研究包括[2,3,14,27]。他们专注于滥用在线帐户,而我们则专注于语言差异对网络犯罪分子试图滥用网络邮件帐户和窃取敏感信息的能力的影响。7结论在本文中,我们研究了语言差异对网络犯罪分子访问受损网络邮件帐户活动的影响。我们创建、部署和泄露了30个蜂蜜账户,涵盖三种语言,即英语、希腊语和罗马尼亚语。我们收集并分析了15天内蜂蜜账户的访问和活动数据。 我们的测试显示,语言与网络犯罪分子访问敏感项目(我们在账户中植入的项目)的能力之间存在显着关系。我们还发现,网络犯罪分子在账户中搜索敏感的财务信息我们的研究结果将有助于研究界更深入地了解语言与网络犯罪活动之间的关系,并可能提供深入了解如何开发有效的技术来检测在线帐户中的非法活动。致谢我们感谢匿名评论者的评论。这项工作得到了EPSRC基金EP/N008448/1和Google Faculty Award的支持 Jeremiah Onaolapo得到了尼日利亚石油技术发展基金(PTDF)的支持。引用[1] Ross Anderson 、 Chris Barton 、 Rainer Böhme 、 Richard Clayton 、Michel JG Van Eeten、 Michael Levi 、 Tyler Moore和 Stefan Savage 。2013年。衡量网络犯罪的成本信息安全和隐私的经济学。斯普林格265[2] Fabricio Benevenuto , Gabriel Magno , Tiago Rodrigues , and VirgilioAlmeida.2010. 检测Twitter上的垃圾邮件发送者电子邮件和反垃圾邮件会议(CEAS)。[3] Yazan Boshmaf 、 Ildar Muslukhov 、 Konstantin Beznosov 和 Matei Ripeanu 。2011年。社交机器人网络:当机器人为了名誉和金钱而社交时年度计算机安全应用会议(ACSAC)[4] 帕特丽夏·布兰廷汉姆和保罗·布兰廷汉姆一九九五年犯罪现场 EuropeanJournal onCriminal Policy and Research 3,3(1995),5-26.[5] Patricia L Brantingham和Paul J Brantingham。一九九三年节点,路径和边缘:对犯罪和物理环境的复杂性的考虑。Journalof Environmental Psychology13,1(1993),3-28.[6] ElieBursztein、Borbala Benko、Daniel Margolis、Tadek Pietraszek、AndyArcher、Allan Aquino、Andreas Pitsillidis和Stefan Savage。2014年 手工欺诈和勒索:野外手
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- OptiX传输试题与SDH基础知识
- C++Builder函数详解与应用
- Linux shell (bash) 文件与字符串比较运算符详解
- Adam Gawne-Cain解读英文版WKT格式与常见投影标准
- dos命令详解:基础操作与网络测试必备
- Windows 蓝屏代码解析与处理指南
- PSoC CY8C24533在电动自行车控制器设计中的应用
- PHP整合FCKeditor网页编辑器教程
- Java Swing计算器源码示例:初学者入门教程
- Eclipse平台上的可视化开发:使用VEP与SWT
- 软件工程CASE工具实践指南
- AIX LVM详解:网络存储架构与管理
- 递归算法解析:文件系统、XML与树图
- 使用Struts2与MySQL构建Web登录验证教程
- PHP5 CLI模式:用PHP编写Shell脚本教程
- MyBatis与Spring完美整合:1.0.0-RC3详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功