大数据从业人员必读
一、Hadoop 相关工具
1. Hadoop
的 项目已几乎与大数据划上了等号。它不断壮大起来,已成为一个完整
的生态系统,众多开源工具面向高度扩展的分布式计算。
支持的操作系统:、 和 。
相关链接:
2. Ambari
作为 生态系统的一部分,这个 项目提供了基于 的直观界面,可用于
配置、管理和监控 集群。有些开发人员想把 的功能整合到自己的应用程序当中,
也为他们提供了充分利用 (代表性状态传输协议)的 !"。
支持的操作系统:、 和 。
相关链接:
3. Avro
这个 项目提供了数据序列化系统,拥有丰富的数据结构和紧凑格式。模式用 #$
来定义,它很容易与动态语言整合起来。
支持的操作系统:与操作系统无关。
相关链接:%
4. Cascading
& 是一款基于 的应用程序开发平台。提供商业支持和培训服务。
支持的操作系统:与操作系统无关。
相关链接:'
5. Chukwa
&( 基于 ,可以收集来自大型分布式系统的数据,用于监控。它还含有用于
分析和显示数据的工具。
支持的操作系统: 和 。
相关链接:(
6. Flume
)* 可以从其他应用程序收集日志数据,然后将这些数据送入到 。官方网站声
称:“它功能强大、具有容错性,还拥有可以调整优化的可靠性机制和许多故障切换及恢复机
制。”
支持的操作系统: 和 。
相关链接:(+*,)-.
7. HBase
/ 是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,可以对大数
据进行随机性的实时读取写入访问。它有点类似谷歌的 /*,不过基于 和
分布式文件系统(0))而建。
支持的操作系统:与操作系统无关。
相关链接:
8. Hadoop 分布式文件系统(HDFS)
0) 是面向 的文件系统,不过它也可以用作一种独立的分布式文件系统。它基
于 #%,具有容错性、高度扩展性和高度配置性。
支持的操作系统:、 和 。