传智大数据3期全集:从Hadoop到Spark实战

需积分: 10 9 下载量 9 浏览量 更新于2024-09-09 收藏 100B TXT 举报
"大数据之传智大数据3期不加密" 本课程是传智教育推出的大数据培训课程第三期的不加密版本,涵盖了大数据领域的核心技术和实践项目,旨在帮助学员掌握全面的大数据技能,从而在就业市场中具备竞争优势。该课程价值高达2万元,时长39天,相当于两个月的深度学习,完成课程后,学员有望获得15k以上的薪资水平。 课程分为三个主要部分: 1. 离线处理部分: 这部分主要涉及大数据离线处理技术,包括Hadoop、Hive、Flume、Azkaban和HBase等。Hadoop是分布式存储和计算的基础框架,提供高可靠性和可扩展性;Hive是基于Hadoop的数据仓库工具,用于查询和管理大规模数据;Flume则是一个用于收集、聚合和移动大量日志数据的系统;Azkaban是工作流调度器,用于管理和执行大数据工作流程;HBase是基于Hadoop的分布式数据库,适用于非结构化数据的存储。 2. 实时处理部分: 实时处理部分涵盖Storm、Kafka和Redis。Storm是一个开源的实时计算系统,可以实时处理数据流;Kafka是一个高吞吐量的分布式消息系统,常用于构建实时数据管道和流应用;Redis是高性能的键值数据库,适用于数据缓存和实时数据处理。 3. 内存计算部分: 这部分专注于Scala编程、Spark原理、Spark源码解析及机器学习。Scala是一种多范式编程语言,广泛用于Spark开发;Spark是快速、通用且可扩展的大数据处理框架,提供内存计算以提高处理速度;Spark源码解析有助于深入理解其内部工作机制;机器学习是数据科学的重要组成部分,通过Spark MLlib库,学员可以学习如何构建预测模型。 课程前五天的内容包括Linux基础、Shell编程基础以及Java中的多线程和JVM基础知识,这些是学习大数据的必备前提,如果学员缺乏这些基础,需要自行补习。 通过这个课程,学员不仅可以掌握大数据处理的各个环节,还能通过项目实战提升实际操作能力,为进入大数据行业做好充分准备。课程资料的链接已经提供,学员可以通过链接获取视频教程进行学习。