没有合适的资源?快使用搜索试试~ 我知道了~
首页论文研究-基于网络的Web漏洞扫描系统的分析与设计 .pdf
论文研究-基于网络的Web漏洞扫描系统的分析与设计 .pdf
需积分: 0 248 浏览量
更新于2023-05-24
评论
收藏 396KB PDF 举报
基于网络的Web漏洞扫描系统的分析与设计,付堂欢,白中英,伴随着计算机技术和网络技术的迅猛发展,互联网在给人们提供便利和创造财富的同时,其上的各种web应用漏洞百出,严重危害企业和用
资源详情
资源评论
资源推荐

http://www.paper.edu.cn
- 1 -
中国科技论文在线
基于网络的 Web 漏洞扫描系统的分析与
设计
付堂欢
1
,白中英
2**
作者简介:付堂欢,(1986-),男,硕士,研究方向:信息安全。
通信联系人:白中英,(1941-),男,教授,主要研究方向:计算机体系结构。E-mail: bzy66@sina.com
(1. 北京邮电大学信息安全中心,北京 100876; 5
2. 北京邮电大学计算机科学与技术学院,北京 100876)
摘要:伴随着计算机技术和网络技术的迅猛发展,互联网在给人们提供便利和创造财富的同
时,其上的各种 web 应用漏洞百出,严重危害企业和用户的信息安全。目前大多数的 Web
漏洞扫描器采用的爬虫程序采用在普通爬虫基础上稍作修改的广度优先遍历算法,效率较
低。本文通过对专注于抓取网页中表单的表单爬虫的算法分析,提出了一款基于表单爬虫的10
WEB 漏洞扫描系统的设计方案,并对其后台各核心模块及数据库作出概要设计,最后对基
于表单爬虫的 Web 漏洞扫描相对于基于普通爬虫的 Web 漏洞扫描的效率提升进行了验证。
关键词:数据安全与计算机安全;Web 漏洞;表单爬虫
中图分类号:TP311.1
15
Research And Design Of Web Vulnerability Scanning
System Based On Form Crawler
FU Tanghuan
1
, BAI Zhongying
2
(1. Information Security Center, Beijing University of Posts and Telecommunications,
Beijing 100876; 20
2. Beijing University of Posts and Telecommunications School of computer science and
technology, Beijing 100876)
Abstract: Along with the rapid development of computer and network technology, the Internet has
provided people with convenience and wealth creation ,but at the same time, there are many of
web application flaws on the Internet also, these flaws have caused serious harm to businesses and 25
users of information security. Web vulnerability scanner used the crawler, which just makes slight
modifications base on the common crawler with breadth-first traversal algorithm, is always less
efficient. this paper focused on the analysis of the algorithm which form crawler used to crawl the
web page, proposed a design of Web Vulnerability scanning system based on form crawler,and
make a summary design of its core modules and database. Finally,the efficiency of Web 30
vulnerability scanning system based on form crawler was validated in the paper.
Keywords:
Data security and computer security; Web vulnerability; form crawler
0 引言
web 应用指的是采用 B/S 架构,采用 http 或 https 协议对外提供服务的应用程序,客户35
端通过浏览器访问 web 服务器,通过通用资源标志符(URI)定位访问服务器上的资源,黑
客能根据请求的 URL、查询字符串、cookie、表单及隐含参数等发动攻击
[1]
。安全漏洞是指
使得计算机系统处于非安全状态的一切因素,包括软件、硬件、协议等在实现上的弱点,以
及系统在安全策略上的不足
[2]
。漏洞是静态的、被动的、可触发的
[3]
。根据 OWASP
[4]
的统
计,SQL 注入漏洞和 XSS 跨站脚本漏洞居十大漏洞前两位。由于 Web 漏洞只存在于网页中40
的动态交互点(表单),传统的 Web 漏洞扫描器中的爬虫一般采用广度或者深度优先策略
爬取目标站点,而由于表单分布稀疏,使得普通爬虫爬取大量无用的页面,浪费系统资源,
网络爬虫是 Web 漏洞扫描的基础功能模块,其功能为获取目标站点的目录结构、对各个页

http://www.paper.edu.cn
- 2 -
中国科技论文在线
面的 HTML 源码进行解析,将其中的 URL 链接和表单等信息通过 HTML 解析器提取出来,
存入数据库,以生成对目标站点的攻击测试请求,因此,若使用普通爬虫将使得整个扫描过45
程耗费的时间长,效率低下。本文首先分析针对提取表单而设计的表单爬虫的搜索算法:搜
集站内新站点的自适应窗口策略以及搜集表单的导航链接策略,由于其充分考虑了表单在
Web 站点中的分布规律,使得表单爬虫相对于普通爬虫在 Web 漏洞扫描的应用中更加有效,
基于此,本文提出了一款基于表单爬虫的 WEB 漏洞扫描系统的设计方案。
1 Web 漏洞检测技术 50
根据著名 IT 信息研究与咨询公司 Gartner 的统计和分析,目前市面上 75%以上的网络攻
击都在应用层,而且这一数字有增长的趋势。网页已取代网络成为黑客攻击的最主要渠道
[5]
。
传统的防护措施已经越来越无法满足当前的 Web 安全现状,如防火墙、IDS 等并不能防御
Web 应用层的攻击,且很长一段时间内对于 Web 安全的认识存在误区,认为 Web 安全指的
是 Web 服务器的安全
[6]
。随着 Web 漏洞攻击日益升级,越来越多的组织和机构加大了 Web55
漏洞检测技术的研发投入。
Web 应用安全检测技术指的是安全检测技术在 Web 漏洞检测上的应用,通过对 Web 漏
洞的形成和攻击原理的研究,针对每类漏洞,提取其特征码,形成 Web 安全漏洞特征库,
再利用自动化检测技术,在此基础上研发漏洞检测工具
[7]
。先设置扫描目标后,然后启动扫
描器,扫描器自动运行,一旦发现含有漏洞的页面后,将漏洞详细信息自动记录在报表中,60
对网站的安全给出评估报告
[8]
。
Web 漏洞检测技术大致经历了三个阶段,即人工检测、基于管理员的主机检测及基于攻
击者的网络检测。在 web 应用的早期,对 web 应用的漏洞检测一般是通过开发者人工检测的
方式进行的,人工检测很大程度上受制于检测者的技术水平,且效率低下,基于管理员的主
机检测系统虽然实现了漏洞检测的自动化,提高了效率,但由于随着 Web 应用分布式的发展65
趋势,这种检测技术必须将系统安装在目标主机上,于是也被历史淘汰。在 1995 年,第一
个基于网络的扫描器 SATAN 问世,标志着基于网络的扫描时代的到来。
1.1 基于网络的 Web 漏洞检测
当前的大多数基于网络的 Web 扫描器,其工作原理如下:首先通过网络爬虫从目标站
点的根页面开始,分析其 HTML 源码,获取其中的 URL 及动态交互点等相关信息,再通过70
探索新发现的 URL 获取整个目标站点的目录结构及动态交互点,扫描器再根据获取到的动
态交互点,以漏洞特征库为参照,构造攻击测试请求(http 或 https),再通过客户端,发送
给目标站点,扫描器再根据目标站点的回应信息体,将其与漏洞特征库中的特征码进行匹配,
从而判断目标站点是否存在特定的漏洞。基于网络的 Web 漏洞扫描器一般以插件的形式将
漏洞特征库添加到系统中,使得系统拥有可扩展性。 75
1.2 网络爬虫在 Web 漏洞检测中的作用
维基百科中对网络爬虫的定义
[9]
:自动浏览互联网的程序,又叫自动索引器、网络机器
人等。网络爬虫程序是从一个起始 url 开始,通过不断分析网页的内容,运用其算法找到新
的 url,再根据新的 url 找到更多的网页,不断地循环,抓取网页,直到满足一定的系统设置
条件的程序,搜索引擎的网络爬虫应满足可伸缩性、分布式、友好爬行和可定制等要求
[10]
。80
当前的爬虫程序根据其实现技术,可分为通用爬虫和主题爬虫,通用爬虫爬取根 URL 衍生

http://www.paper.edu.cn
- 3 -
中国科技论文在线
的所有网页,主要被门户网站等大型 Web 服务提供商采用
[11]
。主题爬虫则选择性的爬取和
预设主题相关的网页
[12]
。一般来说,主题爬虫比通用爬虫更能满足用户对某一特定领域的
信息需求
[13]
。
网络爬虫在基于网络的 Web 漏洞扫描器中,是重要的基础功能模块,其获取目录结构及85
分析 HTML 源码的效率,将直接影响系统的准确性和执行效率
[14]
,而传统的扫描器中的爬虫
程序,只是简单的在通用爬虫的基础上采用稍作改进的广度优先遍历算法,对 HTML 的解析
则采用确定的有限自动机,而由于这样的爬虫程序并未考虑 Web 站点中目录结构的特点和动
态交互点的分布规律,使得爬虫程序抓取了大量无用的页面,对 HTML 的解析也并不准确,
从而降低了整个扫描器的性能
[15]
。本文采用针对 Web 漏洞检测特定需求设计的表单爬虫,90
来构建整个 Web 漏洞扫描系统,以提高其性能。
2 表单爬虫
表单爬虫程序的功能可分为三个,一个是站内新站点搜集,使用自适应窗口策略;另一
个是表单搜集,采用导航链接策略;以及 HTML 解析器,采用正则表达式。表单爬虫的工
作流程为:首先从目标站点的根 URL 开始,使用自适应窗口策略搜索新站点,将其保存。95
再以保存的新站点为单位,使用导航链接策略搜索每个站点中的有效 URL,将其保存。最
后依次取出保存的 URL,利用 HTML 解析器提取出表单信息。
2.1 基于自适应窗口策略的新站点搜集
在搜索新站点的过程中发下如下规律:即往往沿着包含较多新站点的页面往下搜索,可
以搜索到更多的新站点,因此,根据此规律设计自适应的窗口搜索策略,以使得爬虫程序在100
兼顾页面覆盖率的同时,提高其搜索效率,自适应窗口策略的大致思路是给爬虫程序设置门
阀值,若某些页面中包含新站点的数量小于此门阀值,则停止对其搜索,以节省搜索时间,
若大于或等于此门阀值,则沿着这些页面继续搜索。如下图:
图 1 自适应窗口策略 105
剩余12页未读,继续阅读
安全验证
文档复制为VIP权益,开通VIP直接复制

评论0