Hive reducer
时间: 2023-10-28 19:58:15 浏览: 157
hive实现原理.pdf
Hive中的Reducer是用来对Map任务的输出进行汇总和处理的。根据引用中提到的Hive自己确定Reducer个数的方法,Hive会根据两个参数来确定Reducer个数,即hive.exec.reducers.bytes.per.reducer和hive.exec.reducers.max。其中,hive.exec.reducers.bytes.per.reducer参数表示每个Reducer任务处理的数据量,默认为1GB。而hive.exec.reducers.max参数表示每个任务最大的Reducer数,默认为999。根据这两个参数,Hive会计算出Reducer的个数。具体计算公式为N=min(参数2,总输入数据量/参数1)。如果Reducer的输入数据总大小不超过1GB,那么只会有一个Reducer任务。如果数据量较大,可以通过调整这两个参数的值来调整Reducer个数。引用中提到的调整reduce个数方法一是调整hive.exec.reducers.bytes.per.reducer参数的值,可以通过执行命令"set hive.exec.reducers.bytes.per.reducer=500000000;"来设置每个Reducer处理的数据量。引用中提到的调整reduce个数方法二是设置mapred.reduce.tasks参数的值,可以通过执行命令"set mapred.reduce.tasks = 15;"来设置Reducer的个数。<span class="em">1</span><span class="em">2</span><span class="em">3</span><span class="em">4</span>
阅读全文