pyspark的基本语法
时间: 2023-09-07 10:17:25 浏览: 122
Pyspark 是 Apache Spark 的 Python API。以下是 Pyspark 的基本语法:
1. 导入 PySpark 模块:
```python
from pyspark import SparkContext
from pyspark.sql import SparkSession
```
2. 创建 SparkContext:
```python
sc = SparkContext("local", "MyApp")
```
3. 创建 SparkSession:
```python
spark = SparkSession.builder.appName("MyApp").getOrCreate()
```
4. 读取数据:
```python
rdd = sc.textFile("file.txt")
df = spark.read.csv("file.csv", header=True)
```
5. 转换数据:
```python
rdd = rdd.filter(lambda x: "error" in x)
df = df.select("name", "age").filter(df.age > 18)
```
6. 聚合数据:
```python
rdd_count = rdd.count()
df_avg = df.groupBy("name").agg({"age": "avg"})
```
7. 存储数据:
```python
rdd.saveAsTextFile("output.txt")
df.write.csv("output.csv")
```
以上是 Pyspark 的基本语法,可以帮助你开始使用 Pyspark 进行大数据分析和处理。
阅读全文