首页pyspark的基本语法

pyspark的基本语法

时间: 2023-09-07 10:17:25 浏览: 122

Pyspark 是 Apache Spark 的 Python API。以下是 Pyspark 的基本语法： 1. 导入 PySpark 模块： ```python from pyspark import SparkContext from pyspark.sql import SparkSession ``` 2. 创建 SparkContext： ```python sc = SparkContext("local", "MyApp") ``` 3. 创建 SparkSession： ```python spark = SparkSession.builder.appName("MyApp").getOrCreate() ``` 4. 读取数据： ```python rdd = sc.textFile("file.txt") df = spark.read.csv("file.csv", header=True) ``` 5. 转换数据： ```python rdd = rdd.filter(lambda x: "error" in x) df = df.select("name", "age").filter(df.age > 18) ``` 6. 聚合数据： ```python rdd_count = rdd.count() df_avg = df.groupBy("name").agg({"age": "avg"}) ``` 7. 存储数据： ```python rdd.saveAsTextFile("output.txt") df.write.csv("output.csv") ``` 以上是 Pyspark 的基本语法，可以帮助你开始使用 Pyspark 进行大数据分析和处理。

阅读全文