基于Cascading的web爬虫工具Bixo

需积分: 0 2 下载量 3 浏览量 更新于2024-09-18 收藏 185KB DOCX 举报
"Bixo挖掘工具hadoop第三层" Bixo是一个webcrawler(挖掘)工具,主要用于从网络(搜索)中提取数据,特别是从有兴趣的子集的网站中提取数据。Bixo的出现是因为两个不同的公司需要同样的事情——一个网络挖掘工具,它可以很容易地融入现有的Cascading-based流程。 Bixo的主要特点是采用层叠式管理内部工作流程以及结合外部数据源与汇(输出)。它支持http和https协议,至少在最初阶段,并且可以在多个层面(单位、整合、模拟网络爬行)上工作。 Bixo的动机是因为没有好的解决方案可利用,需要一个工具包可以 easy to integrate, easy to extend, easy to understand。Bixo使用API(application programming interface)vs CLI(command line interface),并且具有Pluggable I/O插件化I/O。 Bixo的主要应用场景包括: 1.桑塔纳——帮助确保质量的用户体验。 2.音乐EMI/艺术家的流行音乐中提取数据来源如收条。 3.ShareThis-取解析及产生一个可查找的索引和我分享url,一个更大的组认为网页。 4.BixoBixolabs——的一个关键组成部分的新EC2-based弹性网络挖掘平台。 Bixo的目标是实现激励,business-friendly OSS项目执照,专注于垂直爬行,调控其它项目,在我EC2/云快速有效地履行环境,开源社区成长。 Bixo的当前状态是已经在EC2爬,2赞助,自2009年3月,开发商麻省理工学院许可证。 Bixo的技术架构主要包括: 1.网络爬行(web crawling) 2.数据提取(data extraction) 3.数据处理(data processing) 4.数据存储(data storage) Bixo的优点包括: 1.易于整合(easy to integrate) 2.易于扩展(easy to extend) 3.易于理解(easy to understand) 4.高效的数据处理(high-performance data processing) Bixo的应用场景非常广泛,包括: 1.数据挖掘(data mining) 2.商业智能(business intelligence) 3.日志分析(log analysis) 4.数据分析(data analysis) Bixo是一个功能强大且灵活的网络挖掘工具,能够满足各种数据挖掘和处理需求。