大数据入门：从Hadoop到流处理技术解析

需积分: 10 153 浏览量更新于2024-07-09 收藏 953KB PDF 举报

"初识Hadoop，了解大数据概念与相关技术，包括大数据的定义、特点以及在实际中的应用。此外，还涵盖了大数据处理的各个环节，如数据获取、存储、清洗和处理，并简述了Hadoop集群环境的准备。" 在本课程中，我们将深入探讨大数据及其相关技术。大数据，顾名思义，是指数据量极其庞大，传统工具无法有效处理的数据集合。这些数据具有5V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）、Veracity（真实性）。大数据不再依赖随机抽样分析，而是利用所有可用数据进行深度分析，以增强决策力、洞察力和业务流程优化。大数据技术是当今许多热门领域，如人工智能和物联网的基础。学习大数据能够拓宽职业发展方向，对面试准备有所帮助，同时也能提升个人在求职市场的竞争力，增加薪资谈判的筹码。在大数据处理的各个环节中，数据获取是一个关键步骤，可以通过爬虫（如Python或Java）获取网络数据，或者通过日志系统（如log4j和Flume）收集内部数据。历史数据通常存储在关系型数据库（如MySQL和Oracle）中，或者使用ETL（数据提取、转换、加载）工具进行处理。海量数据的存储通常依赖于分布式文件系统，如Hadoop的HDFS，或是Amazon的S3，甚至是Sun公司的NFS。HDFS作为Hive、Hbase和Spark等组件的基础，提供了高容量、可扩展的数据存储解决方案。数据清洗是数据处理的重要环节，可以在不同阶段使用多种工具进行，如编写代码、使用Flume、Hive或Flink进行清洗。离线数据处理主要由MapReduce（Hadoop的一部分）、Hive和SparkSQL等工具负责，而流式数据处理则有Flink、Storm和SparkStreaming等实时计算框架来应对，它们各自在速度、吞吐量和延迟上有所不同。在实践环节，搭建Hadoop集群是学习Hadoop的基础。通常需要克隆多个虚拟机，例如在本例中创建hadoop01、hadoop02和hadoop03，设置不同的内存配置，然后进行网络配置，确保集群节点之间的通信。通过这个课程，你将获得对大数据生态系统的基本理解，以及如何在实际环境中操作和管理大数据处理流程。这将是你迈进大数据世界的第一步。

4.2.4查看IP

4.3mobaxTerm的使用

登录成功后，弹出对话框点yes 保存密码。

补充：mobaxTerm远程连接慢的问题

在使用shell连接虚拟机时连接等待时间太长，ssh的服务端在连接时会自动检测dns环境是否一致导致的，修改为不

检测即可。

4.4关闭防火墙

检查防火墙状态

service network restart  #重启网络

systemctl restart network.service  #重启网络centos7

ip addr         #查看IP地址 ip add

1、打开sshd服务的配置文件

vim /etc/ssh/sshd_config

把UseDNS yes改为UseDNS no（如果没有，自行编写在文件末尾加入）

2、重启sshd服务

systemctl restart sshd.service 或者 /etc/init.d/sshd restart

systemctl stop firewalld.service    #关闭防火墙服务

systemctl disable firewalld.service   #禁止防火墙开启启动

systemctl restart iptables.service   #重启防火墙使配置生效

systemctl enable iptables.service    #设置防火墙开机启动

[root@hadoop01 ~]# firewall-cmd --state #检查防火墙状态

not running #返回值，未运行

剩余19页未读，继续阅读

幻影刺客204

粉丝: 0
资源: 1

大数据入门：从Hadoop到流处理技术解析

Windows系统运行MapReduce必备文件 - wintuils_hadoop.dll

缺失Hadoop资源包解决方案：hadoop.dll下载与使用说明

Hadoop 3.2.1版本winutils.exe和hadoop.dll文件使用指南

《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf

Hadoop安装手册_Hadoop2.0.pdf

day03_Hadoop.zip

2.9.2_wintuils_hadoop.dll.zip

hadoop2.7配置文件_winutils.exe_hadoop.dll.rar

class hadoop_Kong2.Job2Bean cannot be cast to class org.apache.hadoop.io.Text (hadoop_Kong2.Job2Bean and org.apache.hadoop.io.Text are in unnamed module of loader 'app')这行代码什么意思

最新资源