Hadoop集群优化与实战：负载均衡与业务划分策略

需积分: 13 83 浏览量更新于2024-09-12 收藏 80KB DOC 举报

"Hadoop集群优化、业务数据划分、信用卡数据分析" 在Hadoop集群的优化方面，确保集群的高效运行和负载均衡至关重要。`start-balancer.sh` 命令是用于平衡Hadoop集群中DataNode的数据分布，通过调整`-threshold`参数（默认值为10）来设定数据平衡的目标，其值范围为0-100。当每个DataNode的存储使用率与集群总存储使用率的差值小于这个阈值时，认为集群是平衡的。设置较小的阈值可以使得集群更加均衡。此外，利用Ambari进行集群的部署和管理，Ganglia监控各类性能指标，Nagios则用于配置报警系统，确保在IO、网络、内存、CPU、磁盘空间以及关键服务如NameNode、DataNode、JobTracker和TaskTracker出现问题时能及时通知。在规划Hadoop集群规模时，需要根据业务需求、数据量和节点数量来划分不同的业务。如果总数据量达到PB级别，通常会按照业务类别存储数据，将不同业务的数据放置在不同的HDFS路径下。在这个示例中，使用的是Hadoop 2.2.0、HBase 0.96和Hive 0.12，并选择了华为RH2288系列服务器，每台配置为2核、2.4GHz处理器、256GB内存和124TB硬盘，总计160个节点，配置了HA的两个NameNode，处理PB级别的数据。详细项目经验涉及信用卡数据分析，数据量约为300GB，经过清洗后剩下250多GB。四年的数据包含了多个表，涵盖了所有业务，这些数据在60台机器上运行完成所有Job大约需要1到1.5小时。数据每月存储到Hadoop中，通过Hive按月分区。主要数据包括交易日志（持卡人信息、终端信息、消费金额、商家信息、交易类型和状态等）、人员信息（姓名、身份证号、年龄等）和商家信息（名称、地址和经营类型）。数据分析流程如下： 1. 使用FTP将数据文件传输到Hadoop服务器，然后通过shell命令上传至HDFS。 2. 使用MapReduce进行数据清洗，处理包括时间格式标准化、空字段处理、去除重复和冗余数据、特殊字符处理及编码格式转换。 3. 清洗后的数据导入Hive表，进行深度分析。 4. 分析指标包括市场细分、客户获取、交叉销售和客户流失等。例如，通过分析信用卡交易数量最多的区域，可以洞察人群活跃度；结合消费频度可推断区域在特定时段的热度；通过商户类型统计刷卡消费数据，进一步分析不同经营类型的消费行为，帮助决策者了解餐饮类、零售类等行业的消费趋势，以支持业务决策和市场营销策略。

1、Hadoop 集群的优化

集群优化

Hadoop 集群的运维，负载均衡？

bin/start-balancer.sh-threshold5

-threshold 默认设置：10，参数取值范围：0-100，参数含义：判断集群是否平衡的目标参

数，每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值，理论上，

该参数设置的越小，整个集群就越平衡

用 ambari 进行集群的部署扩容管理，用 ganglia 监控集群各种指标，比如说 IO，网络，内

存，cpu，磁盘空间，namenode，datanode 的内存，jobtracker 和 tasktracker 的运行状态，通

过 nagios 进行报警，邮件或者短信方式

Hadoop 集群的大小，数据量，节点数，按什么划分不同业务？

总大小上 PB，按照业务来存放，不同的业务数据就放在不同的 hdfs 路径下

使用社区版，hadoop2.2.0，hbase0.96，hive0.12

采用华为的 RH2288 系列，2C、docore、256 内存、12 4T 硬盘

160 个节点，ha 两个 namenode，数据量上 Pb，按照

通过 shell 调用 hive sql 来跑批

详细项目经验：

1、信用卡数据分析

数据量：300g，清洗之后剩下 250 多 g

5t，4 年数据，很多表，所有业务，60 台机器所有 job 跑完 1~1.5 小时

数据每一个月存到 hadoop 中去，建 hive 表按月分区，

交易日志数据（持有卡人卡号，终端号，消费金额，消费商家，交易类型，交易状态，消

费时间，持卡人名称）

人员信息（人员姓名，身份证号，年龄，姓名，职业类型，居住地址，家庭信息）

商家信息（商家名称，商家地址，商家经营类型）

首先通过 ftp 把数据文件传到 hadoop 服务器，然后通过 shell 命令上传到 hdfs，然后通过

mapreduce 进行数据清洗（包括时间格式化，空字段处理，过滤掉重复数据和冗余数据，

还有特殊字符的处理，编码格式的转换），清洗之后导入 hive 表进行数据分析，分析指标：

市场细分、客户获取、交叉销售和客户流失：

A、信用卡交易数量最多的区域，使用的人群最多是，

根据消费频度可以反推到某一个区域本身在某些时间段的热度信息，前面谈到可以根据商

户定位到商家的经营范围，究竟是餐饮类的还是卖衣服类的。那么根据不同的经营类型可

以分别统计刷卡消费数据，然后我们就可以分析，对于餐饮类的消费金额增加的时候服装

下载后可阅读完整内容，剩余5页未读，立即下载

cs1049281836

粉丝: 0
资源: 11

Hadoop集群优化与实战：负载均衡与业务划分策略

中秋节前端面试HTML代码题库分享

JS经典代码题解析与实践

魔众题库系统v7.6.0发布：新增功能与系统优化

2018年汽车修理高级技师新增复习题练习题.doc

2018年汽车修理高级技师新增复习题(模拟题).pdf

js代码-代码联系题

爆破技能与安全技术培训新增题库(判断题).pdf

js代码-面试题

04-Java异常面试题（8题）-新增.pdf

02-Java注解面试题（2题）-新增.pdf

最新资源