-
指定partitioner类(二次排序)
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
-
指定自定义方法切分行来形成key/value对
-jobconf stream.reduce.output.field.separator=SEP # 指定分隔符,默认是tab符
-jobconf stream.num.reduce.output.fields=NUM # 指定在第n(n>=1)个分隔符分隔,而不是默认的第1个
-
指定map输出数据分桶的列数(基于key值的前缀)
map.output.key.field.separator=. # 指定切分map输出的分隔符为.
num.key.fields.for.partition=2 # 指定使用key的前2个块部分来切分map输出