关于Map Join的描述正确的是( ) 2分 2张大表进行Join时,可以选择使用Map Join来提高执行速度 通过ngmr.mapjoin.autoconvert,hive.mapjoin.smalltable.filesize参数设置,优化器会自动将满足条件的Join转换为MapJoin ngmr.mapjoin.autoconvert默认关闭,需手动开启 MapJoin的网络开销小,减少了shuffle消耗
时间: 2024-04-10 07:31:05 浏览: 167
数据工程师培训题库(四).doc.docx
关于 Map Join 的描述,正确的是:
- 2张大表进行 Join 时,可以选择使用 Map Join 来提高执行速度:Map Join 是一种优化技术,适用于两个大表进行 Join 操作,可以将小表加载到内存中,并在 Map 阶段进行 Join,从而提高执行效率。
- 通过 ngmr.mapjoin.autoconvert,hive.mapjoin.smalltable.filesize 参数设置,优化器会自动将满足条件的 Join 转换为 Map Join:可以通过配置参数 ngmr.mapjoin.autoconvert 和 hive.mapjoin.smalltable.filesize 来自动开启优化器对满足条件的 Join 进行自动转换为 Map Join。
- ngmr.mapjoin.autoconvert 默认关闭,需手动开启:ngmr.mapjoin.autoconvert 参数默认是关闭的,需要手动开启才能启用自动转换为 Map Join 的功能。
- Map Join 的网络开销小,减少了 shuffle 消耗:由于 Map Join 是在 Map 阶段进行 Join 操作,不需要进行数据的传输和 shuffle,因此可以减少网络开销和 shuffle 的消耗。
所以,以上四个描述都是正确的。
阅读全文