知识产权保护和文件使用指南

109 浏览量更新于2023-11-04 收藏 14.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0警告0这个文件是经过答辩委员会批准并提供给整个大学社区的长期工作成果。它受到作者的知识产权保护。这意味着在使用本文件时需要进行引用和引用。另外，任何侵权、剽窃、非法复制都将受到法律追究。联系方式：ddoc-theses-contact@univ-lorraine.fr0LIENS0知识产权法典。第L 122.4条知识产权法典。第L 335.2-L 335.10条http://www.cfcopies.com/V2/leg/leg_droi.phphttp://www.culture.gouv.fr/culture/infos-pratiques/droits/protection.htm0IAEM Lorraine博士学院0用于网络钓鱼检测的DNS和语义分析0TH ` ESE0于2015年6月22日公开答辩0以获得0洛林大学博士学位0（计算机科学荣誉）0由0Samuel MARCHAL0评审委员会成员0评审人：Prof. Dr. Eric FILIOL ESEIA Prof. Dr. Eric TOTEL Sup´elecRennes0考官：Prof. Dr. Ulrich SORGER 卢森堡大学 Prof. Dr. Thomas ENGEL 卢森堡大学 Prof. Dr. OlivierFESTOR TELECOM Nancy - 洛林大学 Prof. Dr. Claude GODART 洛林大学0受邀人：Dr. Habil. Radu STATE 安全、可靠性和信任跨学科中心 Dr. Vijay GURBANI 贝尔实验室0洛林计算机研究实验室及其应用实验室 - UMR 75030使用thesul类进行排版。i0致谢0首先，我要感谢本文的审稿人和接受评估的评审委员会成员。感谢他们花时间阅读我的论文，对我的工作表现出的兴趣，以及他们给出的建设性评论和意见。这些帮助我改进了这篇手稿，找到了可以改进这项工作和可以探索的新研究方向。我要真诚地感谢我的两位共同导师Thomas Engel和OlivierFestor，在我攻读博士学位的四年期间，他们欢迎我加入他们在SnT和LORIA的团队。他们在我进行研究活动时给予了我非常好的支持和明智的建议。我感谢他们的倾听、帮助和给予我的建设性反馈。他们的指导是我完成博士学位的关键因素。我还要感谢Radu State和Jérôme François。我在TELECOMNancy时遇到了RaduSate，他成为了我的教授。在他的指导下，我开始进行研究活动。他通过与我分享他的工作和热情，让我对研究产生了兴趣和动力。我感谢他给我与他合作的机会，感谢他在过去四年中给予我的支持和帮助。我感谢JérômeFrançois在我开始博士学位时提供给我的指导和帮助。从一开始，他就让我走上了正确的道路，之后我们在许多研究活动中合作。能与他们两个一起工作是一种享受，他们对我在这篇论文中呈现的结果产生了很大的帮助。我要感谢SecanLab团队（SnT）和MADYNES团队（LORIA）的所有成员。在这些团队中工作是进行研究、交流思想和产出高质量工作的良好环境。在攻读博士学位期间，能在这两个团队中工作对我来说是一种荣幸，我很高兴能在那里度过时间。我特别感谢我的办公室同事们为我提供的良好工作环境。我还要感谢我在LORIA和SnT接触过的人们，这些年来我与许多不同的人进行了交流，我很高兴其中一些人成为了好朋友。我要感谢我的博士学位的工业合作伙伴CETREL，特别是SamGabbaï和Jean-YvesDecker。与他们一起工作并进行解决具体问题的研究活动是一种愉快的经历。Sam和Jean-Yves一直给予我很大的帮助，我感谢他们在我们的合作中给予我的宝贵时间和他们的可用性。最后，我要特别感谢我的家人，首先是我的父母，他们在我整个学习过程中一直支持我。我也要感谢我的朋友们，与他们一起度过愉快的时光帮助我放松并更有效地工作。0感谢你们所有人。iiiii0致我父母，我的家人。ivv0目录0总体介绍 101 上下文 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 钓鱼的问题和挑战 . . . . . . . . . . . . . . . . . . . . . . . . . . . 403 贡献组织 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50第一部分现状和背景 70第1章钓鱼和防护技术 901.1 钓鱼：一种在线骗局 . . . . . . . . . . . . . . . . . . . . . . . . . . . 1001.1.1 定义和历史 . . . . . . . . . . . . . . . . . . . . . . . . . . . 1001.1.2 钓鱼向量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1201.1.3 经济影响和演变 . . . . . . . . . . . . . . . . . . . . . . . . . 1401.1.4 对抗钓鱼的挑战 . . . . . . . . . . . . . . . . . . . . . . . . . . 1501.2 钓鱼预防技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1601.2.1 强身份验证方案 . . . . . . . . . . . . . . . . . . . . . . . . . . 1701.2.2 安全工具栏 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1801.2.3 黑名单 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1901.3 钓鱼检测技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2001.3.1 钓鱼邮件检测 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2101.3.2 网页内容分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2201.3.3 URL分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230第2章域名系统监测 2902.1 域名系统 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3002.1.1 组织和实施 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3002.1.2 DNS使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3302.1.3 DNS滥用和安全问题 . . . . . . . . . . . . . . . . . . . . . . . 3502.2 DNS监测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3902.2.1 DNS监测策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39vi0目录02.2.2 性能评估和异常检测 . . . . . . . . . . . . . . . . . . . . . 4102.2.3 恶意活动检测 . . . . . . . . . . . . . . . . . . . . . . . . . . . 430第二部分钓鱼域名和URL检测 470第3章用于识别恶意域名的大规模被动DNS监测 4903.1 被动DNS监测架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5003.1.1 DNS数据收集 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5003.1.2 分布式存储和处理系统 . . . . . . . . . . . . . . . . . . . . . . . 5303.2 DNS空间中的数据挖掘 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5403.2.1 DNS特征提取 . . . . . . . . . . . . . . . . . . . . . . . . . 5403.2.2 域名聚类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5603.3 实验评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5803.3.1 数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5803.3.2 特征分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5903.3.3 K-means聚类评估 . . . . . . . . . . . . . . . . . . . . . . 610第4章基于词关联的钓鱼域名识别 6704.1 钓鱼URL混淆 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6804.1.1 混淆技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6904.1.2 混淆词的语义 . . . . . . . . . . . . . . . . . . . . . . . . . . 7004.2 域名的语义分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7104.2.1 词提取 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7204.2.2 词关联计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7304.2.3 相似度度量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7404.3 域名集合比较 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7604.3.1 数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7604.3.2 相似度度量评估 . . . . . . . . . . . . . . . . . . . . . . . . 7704.3.3 域名集合大小和组成 . . . . . . . . . . . . . . . . . . . . 800第5章基于语义的钓鱼URL评级 850第5章 URL内部关联性分析 . . . . . . . . . . . . . . . . . . . . . . . . . 8605.1.1 URL词提取 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8705.1.2 词关联评估工具的缺陷 . . . . . . . . . . . . . . . . . . . . . . . 8705.1.3 搜索引擎查询数据 . . . . . . . . . . . . . . . . . . . . . . . . 89vii05.1.4 特征计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9005.2 实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9205.2.1 分布式词关联推断 . . . . . . . . . . . . . . . . . . . . . . . . . 9205.2.2 用于特征计算的布隆过滤器 . . . . . . . . . . . . . . . . . . . . . 9305.3 钓鱼URL检测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9505.3.1 数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9505.3.2 特征分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9605.3.3 URL分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9805.3.4 URL评级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1010第三部分基于语义的钓鱼域名预测 1030第6章语义DNS探测 10506.1 智能DNS探测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10606.1.1 主机名组成方案 . . . . . . . . . . . . . . . . . . . . . . . . . . . 10606.1.2 系统概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10806.1.3 智能DNS暴力破解 . . . . . . . . . . . . . . . . . . . . . . . . . 10806.2 子域的语义发现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11006.2.1 相似名称 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11006.2.2 增量发现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11206.2.3 分割器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11206.3 DNS探测评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11306.3.1 方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11306.3.2 探索参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11406.3.3 性能评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1160第7章钓鱼域名的主动发现 12307.1 建模钓鱼者的语言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12407.1.1 域名特征 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12507.1.2 域名生成模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12607.2 域名特征评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12907.2.1 数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12907.2.2 特征分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13007.3 钓鱼域名生成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13307.3.1 生成域名的类型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13407.3.2 生成效率和稳定性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13607.3.3 可预测性和策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138viii0目录0总结 14301 贡献摘要 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14302 研究视角 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1450图表列表 1490表格列表 1510参考文献 15310总体介绍01 上下文0说服力的力量已经被使用了数千年，用于说服人们按照领导者的指示去做事情。这种祖先的艺术被政治家、推销员或律师等人使用，以传播思想、销售产品或说服陪审团。尽管这些例子是合法的实践，但人们可能会发现掌握这种技术的人与易受骗的受害者之间的权力比例不公平。说服力的力量也被用于进行其他被视为非法的活动，如诈骗。在诈骗中，骗子利用自己的技巧滥用人们的轻信，以谋取自己的利益。这可能包括无担保借款、无偿提供服务或产品、为虚假销售提前付款等。几个世纪以来，这些做法一直被不道德的人用来轻松赚钱。最初，这些诡计是通过与受害者的直接互动进行的，通过令人信服的演讲。然而，时代变了，进行诈骗的方式以及目标也发生了变化。如今，除了直接交谈之外，还可以通过电话、电子邮件、即时通讯等电子通信手段进行沟通。此外，直接获取金钱不一定是现代诈骗的首要目标，获取他人有价值的非物质财产，如可出售或用于盗窃金钱的数据，变得更加普遍。钓鱼是针对电话和计算机用户等电子通信用户的现代诈骗的一个例子。电子骗子，也称为钓鱼者，追求的目标与此相同，即利用电子通信手段说服受害者执行某些操作。钓鱼者利用自己的说服力量来定制令人信服的社会工程化电子邮件或网站，以操纵受害者。他们使用精心选择的词语和句子，在受害者中建立信任氛围，以推动他们执行某些操作。钓鱼的目标主要是窃取受害者的机密电子数据，这些数据已经变得有价值。互联网使得过去需要更亲密接触的服务变得容易使用。一些常规服务，如新闻提供商、教育服务或科学图书馆，现在可以在互联网上获得。个性化服务，如支付服务、银行管理服务或零售服务，也提供。这些个性化服务很敏感，因为通常涉及资金管理和用户的机密信息。因此，访问这些服务对于窃取信息和/或存储的资金来说是有价值的。例如，获取受害者的足够个人信息可以用于通过身份盗窃来冒充他。盗窃身份可以用于在其他诈骗中冒充一个人，以隐藏和保护真正骗子的身份，或者用于访问个人电子服务以代表他行事。这实际上是钓鱼者追求的主要目标：窃取所需的信息以访问敏感服务。20总体介绍0图1：每年记录的网络钓鱼攻击和网络钓鱼域名数量（来源：APWG）0网络钓鱼出现在近20年前，其最早的受害者是ISP用户，网络钓鱼者试图通过伪造的电子邮件窃取账户访问信息，声称这些邮件是由管理员发送的。网络钓鱼攻击通常针对与某个品牌相关的敏感服务的用户。网络钓鱼者通过声称自己是某个品牌的代表，诱骗品牌客户提供与其使用该服务相关的信息。这些信息主要包括用于某个网站的凭据或信用卡号码。网络钓鱼使用多种向量，其中最常用的是伪造的电子邮件和网站，声称与合法服务的电子邮件和网站相似并与之相关。尽管存在这种多样性，但许多向量的一个共同点是使用链接将受害者引导到网络钓鱼内容。在网络钓鱼攻击中，使用混淆的URL和域名是普遍的，而恶意域名作为攻击的支持也越来越多，如图1所示，显示了识别URL和域名以打击网络钓鱼的相关性。该图显示了2008年至2014年期间每年注册的网络钓鱼攻击和网络钓鱼域名数量的变化。我们可以看到，全球注册的网络钓鱼攻击数量在该时期内在100,000至250,000之间波动。然而，我们可以看到，作为网络钓鱼攻击支持的域名数量从2008年的大约50,000增加到2014年的近170,000。多年来，网络钓鱼活动在攻击和目标品牌数量方面大幅增加[apw04，AR14]。这种网络钓鱼攻击的增加导致了不断增加的财务损失，2013年达到了59亿美元[rsa14]。这种增加自网络钓鱼出现以来就一直在进行中，并且根据当前趋势，这种增长将继续下去。我们确定了四个主要原因来解释这种增加和网络钓鱼作为持续威胁的形成：0•第一个原因是网络钓鱼攻击面的增加。多年来，潜在受害者的互联网用户数量增加到目前约30亿人，而2001年仅为5亿人[int15]。互联网连接设备的数量也是如此，预计将达到数百亿，并且到2020年将翻一番[cis]。这增加了物理网络钓鱼向量的数量，不再仅限于台式机或手机，还包括笔记本电脑、智能手机或平板电脑。最后，越来越多的可以成为网络钓鱼攻击目标的服务在互联网上可用，正如在线网站的增加所显示的，几乎达到了10亿[net15]。因此，许多新的潜在受害者、物理向量和目标变得可用，为实施新类型的网络钓鱼攻击提供了空间。the Internet, as highlighted by the raise of online websites, reaching almost one billion[net15]. Hence, many new potential victims, physical vectors and targets become availableletting space for new kind of phishing attacks to be perpetrated.301. 背景0•第二个原因是用于实施网络钓鱼的各种钓鱼攻击的多样性。常见的电话、短信、电子邮件或网站都是用于进行网络钓鱼的通信技术的例子。保护自己免受这种多样性攻击的威胁是困难的，现有的网络钓鱼预防和检测技术只能应对其中的一部分。例如，存在用于检测网络钓鱼电子邮件[FST07]或网络钓鱼网站[MKK08，CDM10，CSDM14]的检测技术，但它们的应用范围仅限于少数攻击，而实际上存在数十种攻击方式。因此，全面的保护需要使用多种独立的技术，就像我们今天使用的电子邮件过滤、网络浏览器警告和网站认证技术一样，它们共同用于保护免受网络钓鱼的威胁。然而，一些网络钓鱼攻击仍然能够绕过这些累积的保护措施，导致网络钓鱼的影响仍在不断增加。0•第三个原因是钓鱼者和攻击数量的增加。前者的原因是钓鱼是一项易于实施的任务，需要较低的技术技能。构建钓鱼攻击的主要工作是使用社交工程技巧[HCNK +14]，这可以轻松地由技术不合格的骗子完成，因为有现成的钓鱼工具包[CKV08]和廉价的基础设施可用于部署攻击。攻击数量的增加是由于每次攻击的收益减少，迫使钓鱼者发起更多的攻击活动以保持恒定的收入[HF08]。钓鱼可以被称为网络犯罪中的扒窃行为，因为许多人为了低收入而从事这种活动。因此，针对特定钓鱼者的有针对性对策无法解决这种网络犯罪问题，因为仍会有其他许多钓鱼者继续活动。0•第四个也是主要原因是用户对电子通信风险以及其多个网站账户上存储的信息价值缺乏意识。大多数人不理解并且不关心凭证盗窃、信用卡号盗窃或身份盗窃的影响[pon14]。这种缺乏关注并不激励他们保护自己的数据免受盗窃。对大多数用户来说，安全是次要目的，他们有限的技术知识不允许他们提高电子通信的安全级别[WT99]。现代电子通信手段的新用户易受钓鱼者的诱骗，他们很容易被钓鱼者吸引。这种广泛的无知是钓鱼攻击有效性的主要原因。0网络钓鱼是一种不断增长的活动，已成为重大关注的问题。许多因素解释了其扩展以及其每年造成的财务损失达数十亿美元。钓鱼攻击的多样性、潜在受害者和物理载体的增加、实施这种现代诈骗的便利性以及受害者的广泛无知使其成为一种令人头疼的网络犯罪活动。除了其财务影响外，钓鱼还引发了关于使用电子通信手段进行沟通的担忧。人们认为个人信息被窃取和滥用是他们生活中很可能发生的事件[pon14]。将钓鱼视为一种不可避免的灾难而不是可以预防的问题，导致了电子通信用户之间的信任瓦解。这种信任流失的直接风险是电子邮件等电子手段的使用减少[HF08]。这使得打击钓鱼对于保持这一有用技术的广泛使用至关重要。40总体介绍02 钓鱼中的问题和挑战0多年来，针对网络钓鱼的解决方案从加强认证方法到识别钓鱼网站的技术层出不穷。然而，不断增加的网络钓鱼攻击数量和造成的经济损失表明，仍有改进的空间，以开发能够扭转这一增长趋势的技术。打击网络钓鱼是一项具有挑战性的任务，要开发出高效的保护方法，必须考虑多个因素：0•量身定制高效的钓鱼保护技术的主要挑战在于钓鱼不能像其他安全问题一样处理。例如，恶意软件感染或网络入侵依赖于攻击者利用程序或网络协议实施的技术安全漏洞。然而，钓鱼攻击针对的是任何系统中最脆弱的部分：用户。钓鱼主要依赖于社交工程技巧的使用，技术上的复杂性较低[HCNK +14]。因此，对钓鱼攻击所利用的漏洞进行技术分析并采取技术对策对于解决问题并不有效。实际上，钓鱼利用了当前电子通信的一个缺陷：用户之间缺乏认证。虽然存在多种强大的身份认证技术，但这些技术并非强制性的，大多数用户也不理解。大多数人无法验证他们与之通信的实体的身份。钓鱼保护技术必须帮助人们以简单的方式评估他们正在与之通信的实体的合法性，以避免骗子冒充合法实体。0•第二个挑战在于识别钓鱼的困难。由于钓鱼者通过发送电子邮件或创建模仿原始实体的网站来模仿合法实体的行为，区分钓鱼和合法通信是困难的。许多特征在合法通信和钓鱼之间是共同的，只有少数特征是不同的。识别这些区分特征是构建可靠的钓鱼保护技术的主要挑战。这种可靠性对于防止非法通信而允许合法通信至关重要。用户对保护技术的采用和使用取决于这些特征，因为用户通常没有动力使用保护技术[DT05]，并且在这些技术不可靠时会忽略它们[ECH08]。0•第三个挑战是开发能够应对多种钓鱼向量的技术。钓鱼检测技术通常专注于某些类别的钓鱼攻击，如伪造网站识别或钓鱼邮件检测。其他技术甚至更加有限，只针对某些特定的钓鱼攻击，如浏览器窗口欺骗[YS02，DT05]或标签欺骗[DRNDJ13]。开发过于特定的钓鱼保护技术无法提供对大范围钓鱼攻击的良好保护。为了应对这一点，需要累积特定案例的钓鱼保护技术，以提供广泛的保护覆盖范围。为了运行，这些累积技术需要较长的计算时间，从而在识别钓鱼时引入延迟。如果保护技术旨在实时使用，长时间的延迟可能会影响其可用性。0•最后一个挑战在于钓鱼攻击的一个特点，即它们的寿命很短。钓鱼攻击的平均持续时间不到一天，通常只有几个小时[apw14]。尽管寿命很短，但这些攻击造成的财务损失很高。为了限制这种损失，保护技术必须快速识别钓鱼。这个要求带来了一些问题。503. 贡献组织0关于在此背景下使用离线钓鱼检测方法的使用情况。高效的钓鱼保护技术必须更加注重对钓鱼进行即时识别，以限制攻击的影响。然而，这种方法必须在当前使用电子通信手段的背景下使用，例如即时消息交流或网络浏览。因此，所提出的方法不能影响用户体验，也不能引入大的延迟，以防止它们的使用。03 贡献组织0鉴于高效的钓鱼保护方法在速度、覆盖范围、可靠性和易用性方面所需的特点，我们在本文中提出了新的技术，可以满足这些要求。我们利用钓鱼攻击是一种现代诈骗的事实。钓鱼者利用他们的说服力来说服受害者为他们的利益行事。他们在沟通中使用精心选择的词语来建立信任氛围并欺骗受害者。基于这个事实，我们建议分析钓鱼者使用的词语的含义和语义，以便检测他们产生的信息。为了涵盖大量的钓鱼攻击，我们分析URL和域名的语义。这些资源定位器在大范围的钓鱼攻击中被用来误导用户访问恶意内容。识别钓鱼URL可以应对多种钓鱼向量，这就是为什么它目前被用作钓鱼保护方法的反应式URL黑名单[goob，mic]。然而，为了应对黑名单使用的众包验证过程的缓慢，我们更倾向于实时分析URL并利用其中嵌入的词语的语义。观察到恶意域名在进行钓鱼攻击中的增加使用，如图1所示，我们还将语义分析集中在域名上，并探索通过分析钓鱼域名的组成和语义来预测用于钓鱼的域名的可能性。本文围绕钓鱼URL和域名检测以及钓鱼域名预测这两个主要研究方向展开。0第一部分：现状和背景。本部分提供了必要的背景，以便根据网络钓鱼和域名分析的工作背景来定位本文提供的贡献。第1章定义了网络钓鱼攻击的概念，并介绍了一些最常用的网络钓鱼手段。我们概述了网络钓鱼的恶意影响，并列出了开发高效的网络钓鱼保护方法的要求。介绍了现有的应对网络钓鱼的技术，并确定了它们的弱点以及它们满足所制定要求的能力。第2章介绍了域名系统的组织和功能。介绍了不同的DNS监控技术的概述，并讨论了使用DNS监控来识别网络钓鱼的相关性。0第二部分：网络钓鱼域名和URL检测。本部分介绍了本文在开发识别网络钓鱼攻击中使用的域名和URL技术方面的首次贡献。第3章介绍了一种基于被动捕获的DNS数据的域名聚类技术。该方法能够根据其活动将域名分组，并区分网络钓鱼和合法域名。这在第4章中进一步用作域名分组的预处理。第4章介绍了一种使用语义分析推断一组域名的合法性或恶意性的技术。介绍了量化两组词之间语义相似性的度量标准，并用于比较从合法和网络钓鱼域名中提取的词。这些度量标准允许区分。60总体介绍0从合法的域名集合中进行网络钓鱼。第5章介绍了一种基于URL内部关联性分析的URL网络钓鱼检测技术。使用搜索引擎查询数据来量化URL的注册域名与其余部分之间的关联性。结果表明，合法的URL比网络钓鱼URL具有更多的内部关联性。所提出的技术依靠机器学习算法，能够以95%的准确率和不到一秒的处理时间识别网络钓鱼URL，这得益于分布式处理架构。0第三部分：基于语义的网络钓鱼域名预测。本部分探讨了预测网络钓鱼者将使用的域名的可能性。第6章探讨了域名的可预测性。我们提出了一种依赖于发现语义相关词的技术，以便发现域名的不同子域。基于一组已知的子域，该技术能够发现新的子域，并且在性能上优于现有的最先进技术，从而证明了使用语义相关词预测域名的有效性。第7章中使用类似的技术生成了一个预测性的网络钓鱼黑名单。引入了一种基于马尔可夫链模型的域名生成器，使用语义扩展。通过从一组现有的网络钓鱼域名中学习，生成器能够在这些域名被使用之前很长时间就生成将用于网络钓鱼活动的域名。这项工作表明，网络钓鱼域名遵循特定的组成方案，并使用限定词汇的词，因此这些域名是可预测的。0本论文得出结论，对域名和URL进行词汇和语义分析对构建网络钓鱼保护方法是相关的。这种分析与其他数据源（如DNS信息）结合使用，对识别和预防网络钓鱼显示出良好的结果。它满足网络钓鱼保护的三个基本要求，即速度、覆盖范围和可靠性。70第一部分0现状和背景90第1章0网络钓鱼和保护技术0目录01.1 网络钓鱼：一种在线欺诈 . . . . . . . . . . . . . . . . . . . 1001.1.1 定义和历史 . . . . . . . . . . . . . . . . . . . . . . . . . . . 1001.1.2 钓鱼攻击手段 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1201.1.3 经济影响和发展 . . . . . . . . . . . . . . . . . . . . . 1401.1.4 对抗网络钓鱼的挑战 . . . . . . . . . . . . . . . . . . . . . . 1501.2 钓鱼预防技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . 1601.2.1 强身份验证方案 . . . . . . . . . . . . . . . . . . . . . 1701.2.2 安全工具栏 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1801.2.3 黑名单 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1901.3 钓鱼检测技术 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2001.3.1 钓鱼电子邮件检测 . . . . . . . . . . . . . . . . . . . . . . . 2101.3.2 网页内容分析 . . . . . . . . . . . . . . . . . . . . . . . . 2201.3.3 URL分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230引言0过去几十年中，电子服务（如电子银行和电子商务）的使用越来越广泛，出现了与这些服务相关的新威胁。这些服务处理的有价值信息吸引了寻求窃取这些数据并将其用于牟利目的的不法分子。网络钓鱼就是这种网络犯罪活动的一个例子。这个术语的首次出现可以追溯到1996年，指的是对美国在线（AOL）发起的攻击，骗子冒充AOL员工向客户发送消息，要求他们提供机密信息。虽然这是记录下来的第一次网络钓鱼攻击，但普通人直到十年后才普遍知道网络钓鱼。现在，二十年过去了，网络钓鱼已经成为最有利可图的网络犯罪活动之一，每年造成数十亿美元的损失[gar07，str10，rsa14]

下载后可阅读完整内容，剩余1页未读，立即下载