PySpark实战：UDF与Action应用详解

需积分: 0 105 浏览量更新于2024-06-26 收藏 2.04MB PDF 举报

PySpark_Day07：UDF and Action深入解析 PySpark是Apache Spark提供的一种Python接口，它极大地简化了在大数据处理场景中的编程，使得开发人员能够利用Python的强大功能来处理和分析大规模数据。作为Spark生态系统的一部分，PySpark具有众多优点，包括易于学习、直观的API设计、良好的可读性和维护性，以及支持丰富的数据可视化。本资源聚焦于PySpark的核心模块，特别是SparkSQL，它专注于结构化数据的处理与分析。SparkSQL引入了schema概念，即对DataFrame中的字段名称和类型进行约束，这有助于确保数据的一致性和准确性。用户可以创建SparkSession对象，它是会话的基础，类似于Pandas DataFrame，提供了一种更直观的方式来处理数据。在PySpark中，SQL操作可以分为两步：首先，通过`spark.read.format().option().load()`加载数据，支持从各种外部数据源导入；其次，使用`dataframe.write.mode().format().option().save()`保存数据，灵活且方便。这些操作允许用户通过编写Python代码实现，从而充分利用Python语言的优势。课程内容进一步讲解了如何在PySpark中结合SQL或Data-Driven Language (DSL)进行数据分析。用户可以先创建临时视图，然后编写标准SQL查询，或者直接调用DataFrame API提供的函数，这些函数类似于RDD的函数和SQL函数，提供了丰富的数据分析功能。此外，课程还探讨了如何利用PySpark处理RDD（弹性分布式数据集），这是SparkCore的基础组件，它是一种分布式列表，具有不可变性、分区和并行计算的特点。SparkContext作为程序的入口，允许用户将本地数据并行化，如将Python列表转换为RDD，并执行诸如map、filter等转换操作，以及读取文本文件数据。 PySpark_Day07的内容涵盖了从基础的SparkCore概念到高级的DataFrame处理和SQL操作，为开发者提供了一套完整的工具链，以便在Python环境下高效地进行大规模数据处理和分析。无论是数据加载、操作还是结果的保存，都体现了PySpark在大数据领域中的实用性和灵活性。

from pyspark.sql import SparkSession

from pyspark.sql.types import StringType

from pyspark.sql.functions import col

if __name__ == '__main__':

 """

  SparkSQL中采用register方式定义UDF函数，分别在SQL和DSL中使用 

 """

 # 设置系统环境变量

 os.environ['JAVA_HOME'] = 'D:/BigdataUser/Java/jdk1.8.0_241'

 os.environ['HADOOP_HOME'] = 'D:/BigdataUser/hadoop-3.3.0'

 os.environ['PYSPARK_PYTHON'] = 'C:/programfiles/Anaconda3/python.exe'

 os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/programfiles/Anaconda3/python.exe'

 # 1. 获取会话实例-session

 spark = SparkSession.builder \

   .appName("Python SparkSQL Example") \

   .master("local[2]") \

   .getOrCreate()

 # 2. 加载数据源-source

 people_df = spark.read.json("../datas/resources/people.json")

 # people_df.printSchema()

 # people_df.show()

 # TODO: 自定义UDF函数

 udf_to_upper = spark.udf.register(

   'to_upper',

   lambda name: str(name).upper(),

   StringType()

 )

 # TODO: 在SQL中使用

 people_df.createOrReplaceTempView("tmp_view_people")

 spark\

   .sql("""

     SELECT name, to_upper(name) AS upper_name FROM tmp_view_people

   """)\

   .show()

 print("========================================================")

 # DSL中使用UDF函数

 people_df\

   .select(

     F.col('name'), udf_upper(F.col('name')).alias('new_name')

   )\

   .show()

 # 5. 关闭会话对象-close

 spark.stop()

剩余35页未读，继续阅读

weixin_45955420

粉丝: 0
资源: 7

PySpark实战：UDF与Action应用详解

Spark及pyspark的操作应用.pdf

Go in Action.pdf

udf1_udf_Fluentudf简谐运动_FLUENT弯曲_fluent_运动udf_源码.rar.rar

PB做的时间显示.rar_pb_pb时间_site:www.pudn.com

ANSYS_Fluent_UDF_Manual.pdf

arc_source22_UDF运动_udf刚体_刚体运动UDF_一个调试udf的宏_动网格udf_源码.zip

Dolphin Scheduler连接sqlserver报错[INFO] 2023-07-24 07:56:48.521 +0000 - can't find udf function resource [ERROR] 2023-07-24 07:57:20.155 +0000 - execute sql error: java.lang.RuntimeException: JDBC connect failed [ERROR] 2023-07-24 07:57:20.155 +0000 - sql ta

Linking libudf.dll because of makefile user_nt.udf udf_names.obj JandGr01.obj ????????? libudf.lib ????? libudf.exp

Fluent UDF【7】：解释型UDF.pdf

fluent-UDF_udf_常用UDF_fluent_fluentudf.zip

最新资源