可;
,内部类型使用成本低;
,百万级别数据可以采用 处理;
2.4 小结
适合大数据的抓取、载入和分发,相比与其他语言更加简单、高效;而我们
本文所要求的对中文把文本和英文文本进行数据预处理,用 语言是再适合不过了。
再加上可扩展的 框架,可以使得我们的整个系统非常稳定,在后期维护以及功能
的扩充方面也有很大的优势。但是 可能也是具有一定的局限性的,在进行大数据
处理的过程中,执行效率不高, 线程有 ,多线程的时候只能在一个核上跑,浪
费了多核服务器,因为,设计大数据处理时,可以用 作为整个流程的框架,核心
*' 密集操作可以采用 * 语言等编程语言。
第三章 爬虫
3.1 概述
网络蜘蛛(&!$),是一个很形象的名字。把互联网比喻成一个蜘蛛网,那
么 $ 就是网上四处爬的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的,从网
站某一个页面(通常是首页)开始,读取网页的,找到在网页中的其它链接地址,然后通
过这些链接地址再来寻找下一个网页,这样一直循环下去,知道把这个网站上所有的网页
都抓取完毕为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互
联网上所有的网页都抓取下来。
而对于搜索引擎来说,想要抓取互联网上所有的网页是几乎不可能的事情,从公布的
数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中
的原因之一就是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其他网页的链
接中找到;另一个原因是存储技术和处理技术的不足,如果按照每个页面的平均大小为
#(包含图片), 亿网页的容量是 1 字节,即使能够存储,下载也存在
问题(按照一台机器每秒下载 # 来计算,需要 台机器不停的下载一年时间,才能
把所有的网页下载完毕)。同时,由于数据量太大,在提供搜索引擎的时候也会存在效率
方面的问题。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要信息的网页,而在抓取的
时候评价重要性主要是依据的某个网页的链接深度。