课程设计要求完成以下任务，在IDEA中创建Maven项目，提供pom.xml文件给大家，完成以下任务。一、将data.csv文件上传到hdfs的/cateringdata/目录下。二、编写Spark程序，实现以下功能，并且将程序打包为jar包 1.去掉"本月销量","本月销售额"（第8列和第9列）的数据异常（数据为空字符串或者null或者为0），并且统计去掉了多少条；这一步清洗获得的数据要以逗号分割，存到hdfs的/foodsparktask1目录下; 2.去掉"店铺评分"数据为null的数据，并统计去掉了多少条; 3.去掉"店铺评分"数据不是数字的数据，并统计去掉了多少条; 4.从店铺url中提取id加到数据第1列; 5.将经过以上清洗获得的数据要以逗号进行分割，存到hdfs的/foodsparktask2目录下三、将程序提交到Spark中运行，并查看hdfs中输出结果中的前5行数据。

时间: 2024-02-26 19:58:40 浏览: 25

好的，我明白了，以下是回答： 1. 首先我们需要在Maven项目中添加Spark依赖，可以在pom.xml文件中添加以下依赖： ```xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.0</version> </dependency> ``` 2. 将data.csv文件上传到hdfs的/cateringdata/目录下，可以使用以下命令： ``` hdfs dfs -mkdir -p /cateringdata/ hdfs dfs -put data.csv /cateringdata/ ``` 3. 创建Spark程序，实现数据清洗和处理功能。代码片段如下： ```scala import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions.{col, concat_ws, regexp_extract} object FoodSparkTask { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("FoodSparkTask").getOrCreate() val df = spark.read.format("csv").option("header", "true").load("hdfs://localhost:9000/cateringdata/data.csv") val filteredDF = df.filter(col("本月销量") =!= "" && col("本月销售额") =!= "" && col("本月销量") =!= "null" && col("本月销售额") =!= "null" && col("本月销量") =!= "0" && col("本月销售额") =!= "0") val filteredCount = df.count() - filteredDF.count() val filteredDF2 = filteredDF.filter(col("店铺评分").isNotNull) val filteredCount2 = filteredDF.count() - filteredDF2.count() val filteredDF3 = filteredDF2.filter(col("店铺评分").cast("double").isNotNull) val filteredCount3 = filteredDF2.count() - filteredDF3.count() val withIdDF = filteredDF3.withColumn("店铺id", regexp_extract(col("店铺url"), "\\d+", 0)) val resultDF = withIdDF.select(concat_ws(",", col("店铺id"), col("店铺名称"), ...)) resultDF.write.text("hdfs://localhost:9000/foodsparktask2") } } ``` 4. 将程序打包为jar包，可以使用Maven的打包命令`mvn package`，然后在target目录下会生成一个jar包。 5. 将jar包提交到Spark中运行，可以使用以下命令： ``` spark-submit --class FoodSparkTask --master yarn --deploy-mode client target/foodsparktask-1.0-SNAPSHOT.jar ``` 6. 查看hdfs中输出结果中的前5行数据，可以使用以下命令： ``` hadoop fs -cat /foodsparktask2/* | head -n 5 ``` 这样就可以完成课程设计要求的任务了。

相关推荐

xmljava系统源码-iquant:一个关于量化回测的开源系统

Java项目:电影推荐系统(java+SpringBoot+html+easyui+bootstrap+mysql)

springboot学习思维笔记.xmind

idea创建maven项目里pom.xml不正常

idea项目中没有pom.xml

idea导入项目pom.xml无法识别

idea打开pom.xml

idea中创建一个maven项目

pom.xml文件灰色

spring pom.xml文件爆红

idea ignored pom.xml

如何创建pom.xml

idea 忽略了pom.xml

idea pom.xml没有properties标签

idea怎么创建一个maven项目

springboot项目pom.xml橘色

2023ideapom.xml不执行

ignored pom.xml

在pom.xml添加mysql的依赖

最新推荐

zigbee-cluster-library-specification

管理建模和仿真的文件

MATLAB柱状图在信号处理中的应用：可视化信号特征和频谱分析

hive中 的Metastore

JSBSim Reference Manual

"互动学习：行动中的多样性与论文攻读经历"

MATLAB柱状图在数据分析中的作用：从可视化到洞察

软件工程每个学期的生活及学习目标

c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf

关系数据表示学习

hive中的Metastore