Beihu-Bigdata项目：大数据全栈技术解析

需积分: 9 83 浏览量更新于2024-11-14 收藏 14.87MB ZIP 举报

资源摘要信息:"Beihu-Bigdata是一个关于大数据领域的项目，主要内容涵盖了从数据采集、处理、存储到数据仓库、分布式协调、序列化、数据转移以及集群部署、管理、监控、调度和可视化分析的广泛知识点。以下是各个部分知识点的详细说明：数据采集： - Flume：一个分布式、可靠且可用的系统，用于有效地收集、聚合和移动大量日志数据。 - Kafka：一个分布式流媒体平台，旨在处理高吞吐量的数据流，并以容错的方式持久化到磁盘。 - Scribe：一个由Facebook开发的数据收集系统，用于聚合来自大量服务器的日志数据。 - Chukwa：基于Hadoop的数据收集系统，用于监控大型分布式系统。数据处理： - Hadoop：一个开源框架，允许使用简单的编程模型在跨计算机集群存储的大量数据集上运行应用程序。 - Spark：一个开源大数据处理框架，提供了一个快速、通用的计算引擎。 - Storm：一个实时计算系统，用于处理高流速的数据流。 - Flink：一个开源流处理框架，用于处理和分析大规模数据流。 - Pig：一个高级脚本语言，用于执行数据流操作。 - Tez：一个基于Hadoop的通用数据处理引擎，用于构建复杂的数据处理应用程序。 - Impala：一个开源的数据查询引擎，可在Hadoop文件系统上直接运行SQL查询。 - Presto：一个高性能的分布式SQL查询引擎，适用于实时分析大数据。 - Kylin：一个开源的分布式分析引擎，支持SQL查询，并能够处理PB级数据。 - Drill：一个低延迟的SQL查询引擎，用于大数据探索。 - Phoenix：一个开源的分布式关系数据库，为HBase提供了SQL查询能力。 - Beam：一个开源的、用于统一大规模并行数据处理（批处理和流处理）的模型和分布式运行时库。 - Apex：一个完整的实时大数据解决方案，包括处理模型和执行引擎。数据存储： - HBase：一个开源的非关系型分布式数据库，运行在Hadoop文件系统之上。 - HDFS：Hadoop分布式文件系统，提供高吞吐量的数据访问，适用于大规模数据集的应用程序。 - Cassandra：一个高性能、分布式、最终一致性的NoSQL数据库系统。 - Kudu：一个开源的存储系统，支持快速的数据分析查询。 - Alluxio：一个内存为中心的分布式存储系统，将数据存储在内存中以加速数据分析和机器学习工作负载。数据仓库： - Hive：一个建立在Hadoop之上的数据仓库基础设施，可以进行数据摘要、查询和分析。 - HAWQ：一个高性能的分析型数据仓库，建立在Hadoop之上。分布式协调： - Zookeeper：一个开源的分布式协调服务，用于维护配置信息、命名、提供分布式同步和提供组服务。序列化： - Avro：一个数据序列化系统，提供丰富的数据结构类型、快速的二进制数据交换格式等。 - Protobuf：Google开发的一种数据序列化协议，具有快速、小巧、易于跨语言使用的特点。 - Parquet：一个面向分析型数据的列式存储格式。 - Apache ORC：优化行列存储的格式，旨在提高大数据处理的效率。数据转移： - Sqoop：一个用于在Hadoop和关系数据库管理系统之间高效传输批量数据的工具。 - SSIS：SQL Server Integration Services，用于构建数据集成解决方案。集群部署&管理&监控&调度&可视化分析： - Ambari：一个基于Web的工具，用于配置、管理和监控Hadoop集群。 - Yarn：Hadoop的资源管理平台，负责集群资源管理和任务调度。 - Mesos：一个集群管理器，用于伸缩应用程序和服务。 - Quartz：一个开源的任务调度库，可集成到几乎任何Java应用程序中。此项目不仅涉及理论知识，还提供了实践的途径，通过作者的Github账号中提供的Demo，可以加深对BigData相关工具和框架的理解和应用。" 【注意】：本资源摘要是基于给定文件的标题、描述、标签以及压缩包子文件的文件名称列表，为避免内容重复，未包含标题、描述、标签和文件列表的原文。

收起资源包目录

beihu-bigdata:大数据（142个子文件）

image-20190422153706588.png 807KB

配置挖掘.md 7KB

Mongo_to_Es.md 217B

05ED9F87-3992-4766-87DF-DFFB0B618E9E.png 328KB

image-20190503174645592.png 206KB

D2657C77-D0EB-4CFB-A0B2-4A4BA8F6D642.png 225KB

Neo4J.md 24KB

HBase-Rowkey-设计.md 1KB

Hive+ES.md 5KB

流式实时计算引擎.md 5KB

架构设计.md 3KB

2AB2F0E8-827F-49B8-8E45-CD2E7A68F416.jpg 16KB

存储模式.md 504B

Lucene.md 7KB

3D849ABB-2951-4577-81FD-77B8D102E43D.png 225KB

HBase优化.md 2KB

image-20190331183257543.png 207KB

0F9605B0-5C12-4ECC-8F98-D92D24D6BACA.png 281KB

Kafka运维与调优.md 18KB

image-20190525144551453.png 354KB

HDP安装.html 49KB

Spark_Stream02.md 498B

385D2158-4440-4E25-89C1-4E7DD52D36EB.jpg 17KB

spark_01.md 6KB

Hadoop大数据.md 34KB

推荐系统设计.md 4KB

image-20190611193250747.png 319KB

flink实战（1）.md 4KB

image-20190606005535462.png 226KB

0561FA27-9671-4AB3-B7EA-1F9F061CDBA9.jpg 20KB

Kafka的分区算法.md 9KB

sqoop info.md 5KB

CEF30277-BB3A-49E0-B5CF-6A179A37FC19.jpg 114KB

数据分析篇.md 6KB

Solr基础语法.md 4KB

ES_CRUD.md 7KB

.gitignore 394B

image-20190402181457807.png 264KB

Hive_01.md 23KB

flink实战（2）.md 2KB

IKAnalyzer.md 107B

HDP-Search安装.html 11KB

38968272-5D7B-47FF-82A7-C2552742BBA8.jpg 47KB

Apache Nifi Info.md 119B

Cloudera6.0.0安装.html 72KB

交互式计算引擎.md 5KB

Spark-Hive-New.md 4KB

ED723A40-6057-4B78-AE15-B0881D05EBB2.png 220KB

95B7BFE7-79BC-4DA9-B19D-D18C4156BAC9.png 435KB

image-20190606005328504.png 237KB

A604A035-5DDE-4748-A08C-AD86BA3491ED.jpg 29KB

6F2549C3-4036-4B2D-8ED7-607CA41A1A03.jpg 69KB

image-20201021190650449.png 937KB

HBase01.md 21KB

doc.md 239B

D21BF47F-406C-4A23-ABBA-35ABFF22027A.jpg 10KB

HDFS深入理解.md 9KB

.DS_Store 6KB

flume02.md 2KB

image-20190422184503191.png 352KB

image-20200818180124497.png 230KB

ES_Config.md 5KB

image-20190515142113174.png 200KB

Yarn深入理解.md 8KB

flink_info.md 235B

企业级解决方案.md 471B

HDP部署明细.numbers 152KB

README.md 6KB

image-20190329211841419.png 203KB

Solr.md 5KB

9C68FEDE-D953-445C-B358-D06FBC10D3D1.png 215KB

image-20190524013340993.png 744KB

HBase使用场景.md 2KB

F1E3C6D3-2FAB-4CC4-9CF4-B7DDB455F236.png 358KB

数据存储选型讨论.md 959B

image-20190409154317920.png 504KB

HDFS_Shell_Help.md 8KB

Serialization Info.md 4KB

Spark_Stream01.md 916B

Problems.md 7KB

HELP.md 11KB

29990C57-A80D-431B-9317-FEEED7409048.png 258KB

image-20190331053842060.png 260KB

image-20190530161227604.png 216KB

B1E06C89-FF01-4660-B0E5-43FD88414CF2.png 198KB

ES.md 19KB

Phoenix01.md 7KB

HBase-Spark.md 326B

85BC2E7A-55B0-4DAC-A974-CC0090A48284.jpg 12KB

image-20190403112627840.png 191KB

flume-kafka.md 612B

info_go_phoenix_hbase.md 996B

image-20190418204037498.png 546KB

Hive函数.md 863B

指标.md 1KB

flume01.md 19KB

Hive权限.md 3KB

Hive+Solr.md 7KB

image-20190409200641442.png 239KB

image-20200902090523439.png 869KB

共 142 条

王奥雷

粉丝: 653
资源: 4711

Beihu-Bigdata项目：大数据全栈技术解析

lrucacheleetcode-beihu-leetcode:力扣算法

地级市GDP及产业结构数据-最新.zip

2006-2023年上市公司资产误定价Misp数据集（4.9万样本，含原始数据、代码及结果，最新）.zip

Altera和Xilinx FPGA的从串配置模式比较

Spring Boot 教程源码项目：含多种功能示例.zip

R语言高级建模课程全集-最新整理.zip

Python绘制三维心形图案的技术方法

2024年下半年软考中级网络工程GRE与IPSEC的联动配置思路文档

四大政策效应评价方法全集-最新.zip

2024年下半年软考中级网络工程GRE与IPSEC的联动配置

最新资源