pyspark的join函数如果on的条件相同则会产生两个相同字段的列
时间: 2023-07-16 09:12:52 浏览: 102
thinkphp多表查询两表有重复相同字段的完美解决方法
,如何避免这种情况?
你好!感谢您的问题。在PySpark中,如果on的条件相同,则可以使用select函数来选择需要的字段,以避免生成两个相同的列。例如,
```
joined_df = df1.join(df2, on=['id'], how='inner').select(df1['id'], df1['name'], df2['age'])
```
此时,结果数据框中只包含一个'id'列,以及'df1'和'df2'中各自需要的字段'nam'和'age'。希望能帮到您!
阅读全文