2.简述HBASE的体系架构和数据模型。 3.简述hive的体系架构和三种部署方式。 4.Flume的组成部分有那几部分?给出flume的逻辑结构。 5.Mahout包含哪几种类型的算法?
时间: 2023-06-02 17:04:23 浏览: 147
2. HBase采用分布式的方式存储海量数据,它的体系架构分成五层:Client、Data Access、Region Server、Hbase表和HDFS。它的数据模型采用基于行的模型,每个表由多个行组成,每行又由多个列(Column)组成。HBase的表设计支持版本管理,每一行的修改都会被保留为一个版本。
3. Hive是建立在Hadoop之上的数据仓库系统,它的体系架构分为三层:用户接口、查询处理器和Hadoop存储层。用户可以通过类SQL的语言进行各种查询操作。Hive可以部署在本地模式、伪分布式模式和完全分布式模式。
4. Flume是一个分布式的、可靠的、高可用性的海量日志采集、聚合和传输的系统。它的组成部分包括:Source、Channel和Sink。Source收集数据、Channel缓存数据、Sink将数据发送到数据存储器或下一个Flume节点。Flume的逻辑结构为Agent、Event和Flow。
5. Mahout包含以下几种类型的算法:推荐算法、聚类算法、分类算法、关联规则挖掘算法和特征约简算法。其中推荐算法包括UserCF、ItemCF、SVD等,聚类算法包括K-Means、FuzzyK-Means等,分类算法包括朴素贝叶斯、决策树等,关联规则挖掘算法包括Apriori等,特征约简算法包括主成分分析(PCA)等。
阅读全文