PySpark RDD 转为JSON字符串
时间: 2023-12-28 08:05:46 浏览: 220
Python对象转JSON字符串的方法
可以使用 PySpark 的 map() 函数将 RDD 转换为字典,然后使用 json.dumps() 函数将字典转换为 JSON 字符串。
例如,假设有一个 PySpark RDD,其中包含以下数据:
```python
rdd = sc.parallelize([(1, 'John', 25), (2, 'Emily', 30), (3, 'Adam', 40)])
```
可以使用以下代码将 RDD 转换为 JSON 字符串:
```python
import json
json_rdd = rdd.map(lambda x: {'id': x[0], 'name': x[1], 'age': x[2]})
json_string = json.dumps(json_rdd.collect())
```
这将返回以下 JSON 字符串:
```json
"[{\"id\": 1, \"name\": \"John\", \"age\": 25}, {\"id\": 2, \"name\": \"Emily\", \"age\": 30}, {\"id\": 3, \"name\": \"Adam\", \"age\": 40}]"
```
阅读全文