基于Cascading的web爬虫工具Bixo
需积分: 0 3 浏览量
更新于2024-09-18
收藏 185KB DOCX 举报
"Bixo挖掘工具hadoop第三层"
Bixo是一个webcrawler(挖掘)工具,主要用于从网络(搜索)中提取数据,特别是从有兴趣的子集的网站中提取数据。Bixo的出现是因为两个不同的公司需要同样的事情——一个网络挖掘工具,它可以很容易地融入现有的Cascading-based流程。
Bixo的主要特点是采用层叠式管理内部工作流程以及结合外部数据源与汇(输出)。它支持http和https协议,至少在最初阶段,并且可以在多个层面(单位、整合、模拟网络爬行)上工作。
Bixo的动机是因为没有好的解决方案可利用,需要一个工具包可以 easy to integrate, easy to extend, easy to understand。Bixo使用API(application programming interface)vs CLI(command line interface),并且具有Pluggable I/O插件化I/O。
Bixo的主要应用场景包括:
1.桑塔纳——帮助确保质量的用户体验。
2.音乐EMI/艺术家的流行音乐中提取数据来源如收条。
3.ShareThis-取解析及产生一个可查找的索引和我分享url,一个更大的组认为网页。
4.BixoBixolabs——的一个关键组成部分的新EC2-based弹性网络挖掘平台。
Bixo的目标是实现激励,business-friendly OSS项目执照,专注于垂直爬行,调控其它项目,在我EC2/云快速有效地履行环境,开源社区成长。
Bixo的当前状态是已经在EC2爬,2赞助,自2009年3月,开发商麻省理工学院许可证。
Bixo的技术架构主要包括:
1.网络爬行(web crawling)
2.数据提取(data extraction)
3.数据处理(data processing)
4.数据存储(data storage)
Bixo的优点包括:
1.易于整合(easy to integrate)
2.易于扩展(easy to extend)
3.易于理解(easy to understand)
4.高效的数据处理(high-performance data processing)
Bixo的应用场景非常广泛,包括:
1.数据挖掘(data mining)
2.商业智能(business intelligence)
3.日志分析(log analysis)
4.数据分析(data analysis)
Bixo是一个功能强大且灵活的网络挖掘工具,能够满足各种数据挖掘和处理需求。
2021-02-25 上传
2019-07-27 上传
2024-11-26 上传
2024-11-26 上传
2024-11-26 上传
2024-11-26 上传
fyjabb
- 粉丝: 0
- 资源: 2
最新资源
- JHU荣誉单变量微积分课程教案介绍
- Naruto爱好者必备CLI测试应用
- Android应用显示Ignaz-Taschner-Gymnasium取消课程概览
- ASP学生信息档案管理系统毕业设计及完整源码
- Java商城源码解析:酒店管理系统快速开发指南
- 构建可解析文本框:.NET 3.5中实现文本解析与验证
- Java语言打造任天堂红白机模拟器—nes4j解析
- 基于Hadoop和Hive的网络流量分析工具介绍
- Unity实现帝国象棋:从游戏到复刻
- WordPress文档嵌入插件:无需浏览器插件即可上传和显示文档
- Android开源项目精选:优秀项目篇
- 黑色设计商务酷站模板 - 网站构建新选择
- Rollup插件去除JS文件横幅:横扫许可证头
- AngularDart中Hammock服务的使用与REST API集成
- 开源AVR编程器:高效、低成本的微控制器编程解决方案
- Anya Keller 图片组合的开发部署记录