spark.sql("SELECT * FROM t_poi_union_data WHERE month = '202410' and day = '13'") df.filter(df['content'].like('%岗头%')) 写成 pysparkSQl
时间: 2024-10-16 14:17:43 浏览: 26
在PySpark中,你可以使用`SparkSession` API 来编写SQL查询。将给定的SQL片段转换成pyspark SQL,可以这样写:
```python
from pyspark.sql import SparkSession
# 假设spark是一个已经初始化好的SparkSession实例
spark = SparkSession.builder.getOrCreate()
# 定义SQL查询(字符串)
sql_query = """
SELECT *
FROM t_poi_union_data
WHERE month = '202410'
AND day = '13'
"""
# 使用SparkSession的read_sql_query()函数执行SQL并获取DataFrame
df_original = spark.read_sql_query(sql_query)
# 对df进行进一步过滤,只保留内容包含'岗头'的记录
filter_condition = "content like '%岗头%'"
filtered_df = df_original.filter(filter_condition)
# 现在filtered_df包含了原始数据中month='202410'且day='13'并且内容包含'岗头'的记录
```
阅读全文