网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件 Robots.txt,
这个文件一般放在网站服务器的根目录下,网站管理员可以通过 robots.txt 来
定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能
访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索
到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt 语法
很简单,例如如果对目录没有任何限制,可以用以下两行来描述:
User-agent: *
Disallow:
当然,Robots.txt 只是一个协议,如果网络蜘蛛的设计者不遵循这个协
议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛
都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某
些网页的抓取。
网络蜘蛛在下载网页的时候,会去识别网页的 HTML 代码,在其代码的
部分,会有 META 标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被
抓取,还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如: 表示
本网页不需要被抓取,但是网页内的链接需要被跟踪。
关于 Robots.txt 的语法和 META Tag 语法,前面的一篇“禁止搜索引擎
收录的方法”一文中做了详细的介绍。
现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页,因为
这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更
全面被抓取到,网站管理员可以建立一个网站地图,即 Site Map。许多网络蜘
蛛会把 sitemap.htm 文件作为一个网站网页爬取的入口,网站管理员可以把
网站内部所有网页的链接放在这个文件里面,那么网络蜘蛛可以很方便的把整
个网站抓取下来,避免遗漏某些网页,也会减小对网站服务器的负担。
(Google 专门为网站管理员提供了 XML 的 Sitemap)
三、网络蜘蛛对内容提取
搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓
取下来网页包括各种格式,包括 html、图片、doc、pdf、多媒体、动态网页
及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。
准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一
方面对于网络蜘蛛正确跟踪其它链接有一定影响。
对于 doc、pdf 等文档,这种由专业厂商提供的软件生成的文档,厂商都
会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻
松的提取文档中的文本信息和文件其它相关的信息。
HTML 等文档不一样,HTML 有一套自己的语法,通过不同的命令标识符
来表示不同的字体、颜色、位置等版式,如:、、等,提取文本信息时需要把
这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,
评论1