大数据集群上有一张分布式的hive表，表名tmpcard，该表有两个字段，cardno，newcardno，tmpcard表中有多条数据，一条数据中的cardno和newcardno表示cardno变化为了newcardno，且该条数据的newcardno字段对应的值可以关联到该表另一条数据的cardno字段，以此类推变化次数未知，但已知变化的结尾数据的newcardno字段为空。通过以上关联关系帮我用pyspark写一段递归遍历查找tmpcard表中，cardno的变化路径，将最初的cardno和最后的cardno分别输出为两个字段并把最初的cardno到最后的cardno的变化路径输出作为一个road字段，不能用WITH RECURSIVE 实现，需要输出表内所有cardno的变化路径，先把把所有的数据加载到driver端内存再去做递归查询

时间: 2023-05-24 10:01:45 浏览: 86

好的，我可以回答这个问题。下面是用pyspark实现递归遍历查找tmpcard表中cardno变化路径，并将最初的cardno和最后的cardno分别输出为两个字段，将整个变化路径输出为一个road字段的代码。 ```python from pyspark.sql.functions import spark_partition_id, monotonically_increasing_id # 加载tmpcard表数据到driver端内存 df = spark.table('tmpcard').persist() # 添加一个唯一ID列，用于辅助递归查找 df = df.withColumn('id', monotonically_increasing_id()) # 找到所有没有被卡号变化的记录作为起始点，即cardno和newcardno相等的记录 start_points = df.filter(df['cardno'] == df['newcardno']) # 定义递归函数 def find_path(df, path): # 找到当前路径的最后一个记录 last = path[-1] # 找到下一个变化的记录 next = df.filter(df['cardno'] == last['newcardno']).collect() if len(next) == 0: # 如果找不到下一个变化的记录，说明已经到达变化路径的结尾 result = [(p['cardno'], last['newcardno'], [p['cardno'] for p in path] + [last['newcardno']])] else: # 否则，在每一个下一个变化的记录上继续递归查找 result = [] for n in next: result += find_path(df, path + [n]) return result # 对于每一个起始点，调用递归函数查找变化路径，并将结果合并 result = [] for s in start_points.collect(): result += find_path(df, [s]) # 将结果转换为DataFrame result_df = spark.createDataFrame(result, ['start', 'end', 'road']) # 显示结果 result_df.show() ``` 希望这能够帮助到您，如果还有其他问题，欢迎继续提问。

相关推荐

大数据工具之HIVE外键及多表关联的介绍.zip

Hive内部表和外部表

Hive DDL 之 表

一张表中有一个字段存放一段sql，我想通过hive sql语句来执行这段sql

在hive数据库中，创建一张带有struct数据类型的表，并且往里面插入3条数据

hive，表a中有user和type两个字段，找到在type=1但不在type=2的user

hive判断一张表里重复的数据有多少条的sql语句

hive查询过程中两张表有相同的字段，但是一张表中是16进制，一张表中是10进制，我该如何进行join

有一张a表 时间字段是day 我选在要去38前的数据 怎么写hivesql

hive查看表有哪些字段放在表里

hive集群不支持同时更新同一张表不同字段

hive 创建表 字段名有特殊字符

hive 分区增加了字段是否对原表有影响

hive表中 存储大数据

怎么查询hive表中有没有帐数据

怎么查询hive表中有没有脏数据

hive从一张表中查询数据在插入另一个表中字段不一样能插人数据吗

hive怎么查数据库中有哪些表

hive指定分区插入有两个分区字段

最新推荐

大数据综合实验环境搭建（3个集群、Zookeeper、Hive、HBase）

在数据库中有读者的借阅卡信息表、 书刊借阅信息表borrow等，具体表结

网易杭研大数据实践：Apache Hive稳定性测试

HBase多表关联查找资料

Mysql元数据如何生成Hive建表语句注释脚本详解

zigbee-cluster-library-specification

管理建模和仿真的文件

实现实时数据湖架构：Kafka与Hive集成

云原生架构与soa架构区别？

JSBSim Reference Manual

Hive DDL 之表

有一张a表时间字段是day 我选在要去38前的数据怎么写hivesql

hive 创建表字段名有特殊字符

hive表中存储大数据

在数据库中有读者的借阅卡信息表、书刊借阅信息表borrow等，具体表结