spark = SparkSession.builder. \ master("local[*]"). \ appName("SparkSQL_Example"). \ config("spark.sql.shuffle.partitions", 2). \ config("spark.sql.warehouse.dir", "hdfs://node1:8020/user/hive/warehouse"). \ config("hive.metastore.uris", "thrift://node1:9083"). \ enableHiveSupport(). \ getOrCreate() df = spark.read.format("json"). \ load("../data/mini.json"). \ dropna(thresh=1, subset=["storeProvince"]). \ filter("storeProvince != 'null'"). \ filter("receivable<10000"). \ select("receivable", "storeProvince", "dateTS", "storeID", "payType") # TODO 需求一：各省销售额统计 province_sale_df = df.groupBy("storeProvince"). \ sum("receivable"). \ withColumn("sum(receivable)", f.round("sum(receivable)", 2)). \ orderBy("sum(receivable)", ascending=False). \ show() print(type(province_sale_df)) province_sale_df.write.mode("overwrite").\ format("jdbc").\ option("url", "jdbc:mysql://node1:3306/bigdata?useSSL=false&useUnicode=true&characterEncoding=utf8").\ option("dbtable", "province_sale").\ option("user", "root").\ option("password", "123456").\ option("encoding", "utf-8").\ save()

时间: 2023-07-03 17:19:54 浏览: 169

ANT_发布项目中_build.xml_文件的详细配置

4星 · 用户满意度95%

在IT行业的软件开发领域，构建工具扮演着至关重要的角色，其中Apache Ant因其灵活性和强大的功能，在Java项目构建中被广泛采用。本文将深入探讨在Ant发布项目中的`build.xml`文件配置，帮助开发者理解并掌握如何通过这个核心配置文件来自动化项目的编译、测试、打包和部署流程。 ### 一、`build.xml`文件结构解析 `build.xml`是Ant的核心配置文件，用于定义项目的构建规则。在给定的示例中，可以看到它包含了多个关键元素，如属性（property）、路径（path）、目标（target）等。 #### 1. 属性定义通过`<property>`标签定义了一系列项目路径和名称，如应用程序名、源代码目录、库目录、类文件目录、部署目录等。这些属性是构建过程中频繁引用的基础信息，确保了配置的可维护性和易读性。 ```xml <property name="appName" value="kowloonip"/> <property name="src.dir" value="src"/> <property name="lib.dir" value="lib"/>  ``` #### 2. 路径配置 `<path>`标签用于构建类路径，这里通过`<pathelement>`和`<fileset>`元素组合使用，指定了编译时所需的类路径，包括本地类文件和库目录下的所有JAR包。 ```xml <path id="compile.classpath"> <pathelement location="${classes.dir}"/> <fileset dir="${lib.dir}" includes="**/*.jar"> </fileset> </path> ``` #### 3. 目标设置 `<target>`标签定义了构建过程中的各个阶段，每个目标代表一个具体的构建任务，如清理（clean）、准备（prepare）、编译（compile）、部署（deploy）、创建二进制包（dist）和生成API文档（javadoc）。 ```xml <target name="clean" description="delete all folder">  </target> <target name="prepare">  </target>  ``` ### 二、构建流程详解 #### 1. 清理（Clean） `clean`目标用于删除之前的构建结果，包括类文件目录、分发目录和Web应用部署目录，为新的构建做准备。 ```xml <target name="clean" description="delete all folder"> <delete dir="${classes.dir}"/> <delete dir="${dist.dir}"/> <delete dir="${webapps.dir}"/> </target> ``` #### 2. 准备（Prepare） `prepare`目标创建必要的目录结构，如类文件目录和分发目录。 ```xml <target name="prepare"> <mkdir dir="${classes.dir}"/> <mkdir dir="${dist.dir}"/> </target> ``` #### 3. 编译（Compile） `compile`目标依赖于`prepare`目标，负责将源代码编译成类文件，并复制XML和属性文件到类文件目录下。 ```xml <target name="compile" depends="prepare">  <javac srcdir="${src.dir}" destdir="${classes.dir}"> <classpath refid="compile.classpath"/> </javac>  <copy todir="${classes.dir}"> <fileset dir="${src.dir}"> <include name="**/*.xml"/> <include name="**/*.properties"/> </fileset> </copy> </target> ``` #### 4. 部署（Deploy） `deploy`目标负责将编译后的类文件、资源文件和库文件部署到Web服务器的指定目录。 ```xml <target name="deploy" depends="compile" description="deploy j2ee application to server">   </target> ``` #### 5. 创建二进制包（Dist） `dist`目标是在完成清理和部署后，创建最终的二进制分发包，即WAR文件。 ```xml <target name="dist" depends="clean,deploy" description="create binary description">   </target> ``` #### 6. 生成API文档（Javadoc） `javadoc`目标用于生成项目的API文档，便于团队成员或第三方开发者理解和使用。 ```xml <target name="javadoc" depends="compile" description="create javadoc API documentation">   </target> ``` ### 结语通过上述对`build.xml`文件的详细配置解析，我们可以看出Ant的强大之处在于其高度的定制化能力和自动化流程。正确配置`build.xml`文件能够极大地提高软件开发效率，减少重复工作，确保构建过程的一致性和可靠性。希望本文能帮助广大开发者更好地理解和利用Ant进行项目构建。

在这段代码中，您正在使用SparkSession创建一个Spark应用程序，并将其连接到本地[*]主机。然后，您正在加载一个JSON文件，并在其中进行一些数据清理和筛选，然后将其分组，并按销售额对各省进行排序。接下来，您正在使用JDBC将此数据写入MySQL数据库表中。但是，您在DataFrame上调用了`show()`方法，该方法返回的是一个DataFrame并非写入的内容，因此在尝试将其写入MySQL数据库之前，您需要将其保存到一个变量中。例如，您可以将`province_sale_df`变量中的结果保存到一个新的DataFrame中，然后将其写入MySQL数据库： ``` province_sale_result_df = df.groupBy("storeProvince") \ .sum("receivable") \ .withColumn("sum(receivable)", f.round("sum(receivable)", 2)) \ .orderBy("sum(receivable)", ascending=False) province_sale_result_df.show() province_sale_result_df.write.mode("overwrite") \ .format("jdbc") \ .option("url", "jdbc:mysql://node1:3306/bigdata?useSSL=false&useUnicode=true&characterEncoding=utf8") \ .option("dbtable", "province_sale") \ .option("user", "root") \ .option("password", "123456") \ .option("encoding", "utf-8") \ .save() ``` 这样就可以将结果保存到MySQL数据库中了。

阅读全文

相关推荐

掌握Spring Boot：从application.yml提取配置属性（方法1）

消除window.close()弹窗提示的JavaScript方法

Apache-Spark：使用Apache Spark SQL操纵三个数据集

Spark_ML:使用Apache Spark进行机器学习的第一种方法

Java操作Spark入门程序

Spark与Hadoop生态系统的集成

构建基于Apache Spark的分布式数据处理平台

Java大数据处理精要：Hadoop与Spark快速入门

初识Hive on Spark：开启大数据处理新时代

大数据金融处理专家：Python在Hadoop和Spark的应用

实时数据输出与集成：Spark Streaming与常用数据库的连接

帮我写一个spark sql 写入到oracle的案例

使用sparksql执行sql语句从吗mysql查找数据用java实现

编写独立应用程序，读取HDFS系统文件“/user/hadoop/test.txt”，然后统计出文件的行数，通过spark-submit将该程序提交到Spark中运行。

jdbc 连接 spark

spark hive 例子代码

spark如何连接hive

spark连接集群hive代码

spark结合es的代码

最新推荐

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅

"互动学习：行动中的多样性与论文攻读经历"

【单片机编程实战】：掌握流水灯与音乐盒同步控制的高级技巧

java 号码后四位用‘xxxx’脱敏

Arachne:实现UDP RIPv2协议的Java路由库

关系数据表示学习