大数据平台实战：从数据导入到MapReduce清洗

需积分: 5 60 浏览量更新于2024-07-08 收藏 230KB DOCX 举报

"本实验主要涉及大数据平台的运行与应用实战，涵盖了从生产环境的数据导入到大数据平台，再到数据清洗和分析的过程。实验内容包括MapReduce数据清洗、Hive基本语法的使用、Sqoop数据传输以及大数据业务处理的全流程。实验要求熟悉Linux操作系统命令、Hadoop操作，以及对Sqoop运行原理的理解。实验环境主要包括MySQL数据库和大数据平台组件，如HDFS、MapReduce和Hive。实验中，首先使用Sqoop将MySQL中的数据导入到HDFS，然后通过MapReduce进行数据清洗，剔除不合规数据，并使用Hadoop命令验证数据导入的正确性。" 在大数据平台运行与应用实战中，首先强调了熟悉MapReduce数据清洗的一般流程。MapReduce是一种分布式计算模型，常用于大规模数据集的处理。在这个实验中，MapReduce被用来清洗从MySQL导入到Hadoop集群的业务数据。数据清洗通常是大数据处理的重要步骤，它包括识别并处理脏数据，如缺失值、异常值或格式错误的数据。接下来，实验提到了Hive的基本语法。Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。在大数据处理中，Hive可以用于数据分析，提供高效的数据查询和汇总能力，适合对大量数据进行批处理作业。实验还涉及了Sqoop数据传输的基本语法。Sqoop是一款连接关系型数据库和Hadoop的工具，它允许用户将数据导入到Hadoop的HDFS中，或者从Hadoop导出到RDBMS。在实验中， Sqoop被用来将生产环境的MySQL数据导入到Hadoop的HDFS，以便后续的数据清洗和处理。实验过程中，第一步是将生产环境的MySQL数据导入到大数据平台。这通常涉及到对SQL数据库的查询，选择需要的数据，然后使用Sqoop的特定参数将其导出到HDFS。导入完成后，使用Hadoop命令检查数据是否成功导入并计算行数，以验证导入过程的正确性。第二步是业务处理层的数据清洗分析。这个阶段使用MapReduce编写Java程序来处理HDFS中的数据，剔除不合规数据。数据清洗可能包括处理缺失值、异常值，以及去除字段中的特殊符号等。通过MapReduce，这些任务可以在分布式环境中并行执行，大大提高了处理效率。实验最后，展示了数据清洗前后在HDFS中的数据样式，表明了数据清洗任务的执行效果。在MapReduce程序中，每个任务如剔除不合规数据，都会根据预设的业务逻辑进行，确保数据的质量和分析的准确性。这个实验提供了大数据平台实际操作的全面体验，涵盖了数据的获取、导入、清洗和分析等多个关键环节，对于理解和掌握大数据处理流程具有重要意义。

第 17 章大数据平台运维与应用实战

//以下为剔除不合规的工资数据

if(datas[5].contains("-")||datas[6].contains("-")) { context.getCo

unter(ReportDelete.Delete_number).increment(1); return;

}

//将工作技术的【】剔除

datas[7] = datas[7].replaceAll("【|】", "");

//给数据添加|分隔符

String result =

"";

for(String i : datas) {

if(i.equals(datas[datas.length-1]))

{ result = result+i.trim();

}else {

result = result+i.trim()+"|";

}

//输出数据

context.write(key, new Text(result));

for(Text t : values) {

context.write(NullWritable.get(), t);

}

// TODO Auto-generated method stub Conf

iguration conf = new Configuration(); J

ob job = Job.getInstance(conf);

剔除不合规“工资”数据，并在控制台输出删除记录的条数。薪资字段如果出现-，则表

示薪资存在负值，需要剔除,并使计数器+1；将工作技术的“【】”剔除。

（3）编辑 Recruit MR/src/com/org/task1/CleanReducer.java 文件，根据 MapReduce

规则，返回的 Key-values 的 value 值为一个 Iterator 的对象，编写 MapReduce 的 Reduce 程

序在 reduce 方法中添加如下代码，对 reduce 任务不做任何操作，直接输出结果。

（4）编辑 Recruit MR/src/com/org/task1/CleanJob.java 文件，编写 MapReduce 启动

程序将下面的所有代码片添加到 main 方法中。初始化 Hadoop 集群的 java 配置对象，设置

Job 类，Job 类是 java 调用 MapReduce 的 java 对象，其中 setJarByClass 方法的参数值需要

给到 main 方法所在的类。

datas[4] = man; data

s[5] = cost_max; dat

as[6] = cost_min; da

tas[7] = skill; data

s[8] = time; datas

[9] = sex; datas[10]

= introduce; datas[1

1] = need;

//遍历判空，for 循环遍历数据，通过 return 完成数据数据的剔除操作

for(String i : datas) {

if(i==null||i.equals(""))

{ return;

}

剩余26页未读，继续阅读

asd2435024254

粉丝: 2
资源: 16

大数据平台实战：从数据导入到MapReduce清洗

第16章 大数据平台及组件安装部署.docx

2020大数据培训心得体会3篇.docx

第14章 大数据平台监控界面和报表.docx

第一章大数据平台概述 (3).docx

智慧交通大脑暨交通大数据平台建设及应用方案.docx

大数据平台建设应用为先.docx

大数据平台开发与案例分析.docx

大数据平台构建与开发考核.docx

8万字智慧交通大脑暨交通大数据平台建设及应用方案.docx

油气资源开发的大数据智能平台及应用分析.docx

最新资源

第16章大数据平台及组件安装部署.docx

第14章大数据平台监控界面和报表.docx