帮我写一段spark
时间: 2024-12-11 12:01:06 浏览: 14
Apache Spark是一个用于大规模数据处理的开源框架,它支持实时流处理、批处理以及交互式查询。下面是一段简单的Spark Shell(命令行界面)的例子,展示了如何创建一个SparkSession:
```python
import pyspark
from pyspark.sql import SparkSession
# 创建SparkSession
spark = SparkSession.builder \
.appName("My Spark App") \
.master("local[*]") # 使用本地所有可用核心运行任务,集群模式用" yarn", "k8s", 等
.getOrCreate()
# 显示当前Spark版本
print("Spark Version:", spark.version)
# 创建一个DataFrame(类似于SQL表)
data = [("Alice", 100), ("Bob", 200)]
columns = ["name", "age"]
df = spark.createDataFrame(data, columns)
```
在这个例子中,我们首先导入了`pyspark`和`SparkSession`模块,然后通过`SparkSession.builder`创建了一个会话。设置`appName`是为了方便跟踪应用,`master`设置决定了工作在何种模式下运行。最后,我们创建了一个DataFrame来存储数据,并打印出Spark的版本信息。
阅读全文