如何让多个reduce使用同一个map的结果

答案:2 悬赏:30 手机版

解决时间 2021-01-25 18:10

提问者网友：龅牙恐龙妹
2021-01-25 14:40

最佳答案

五星知识达人网友：想偏头吻你
2021-01-25 16:05

在Map阶段处理数据时，由于内存的限制，会把数据先写到文件中，最终会根据数据的多少生成多个文件，每个文件中会按照Reduce的个数分区，每个分区的数据都按照key值顺序排放，Map结束后将多个文件合并为同一个文件，合并时会将多个文件相同分区的数据合并在一起并且多个分区的数据重新排序按照key顺序排放。在Reduce阶段则从多个Map中获取属于该Reduce的分区数据，然后会根据数据的多少写到文件和内存中，每个Map的数据为一个文件或一段内存，最后对内存和文件的数据进行合并计算输出最后的结果，合并的方式与Map合并方式一致。因此在Map和Reduce阶段都存在把多个文件或多段内存中的数据合并计算输出一个文件。

全部回答

1楼网友：何以畏孤独
2021-01-25 16:13

map的数量 map的数量通常是由hadoop集群的dfs块大小确定的，也就是输入文件的总块数，正常的map数量的并行规模大致是每一个node是10~100个，对于cpu消耗较小的作业可以设置map数量为300个左右，但是由于hadoop的每一个任务在初始化时需要一定的时间，因此比较合理的情况是每个map执行的时间至少超过1分钟。具体的数据分片是这样的，inputformat在默认情况下会根据hadoop集群的dfs块大小进行分片，每一个分片会由一个map任务来进行处理，当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端进行自定义设置。还有一个重要参数就是mapred.map.tasks，这个参数设置的map数量仅仅是一个提示，只有当inputformat 决定了map任务的个数比mapred.map.tasks值小时才起作用。同样，map任务的个数也能通过使用jobconf 的conf.setnummaptasks(int num)方法来手动地设置。这个方法能够用来增加map任务的个数，但是不能设定任务的个数小于hadoop系统通过分割输入数据得到的值。当然为了提高集群的并发效率，可以设置一个默认的map数量，当用户的map数量较小或者比本身自动分割的值还小时可以使用一个相对交大的默认值，从而提高整体hadoop集群的效率。 2 reduece的数量 ...map的数量 map的数量通常是由hadoop集群的dfs块大小确定的，也就是输入文件的总块数，正常的map数量的并行规模大致是每一个node是10~100个，对于cpu消耗较小的作业可以设置map数量为300个左右，但是由于hadoop的每一个任务在初始化时需要一定的时间，因此比较合理的情况是每个map执行的时间至少超过1分钟。具体的数据分片是这样的，inputformat在默认情况下会根据hadoop集群的dfs块大小进行分片，每一个分片会由一个map任务来进行处理，当然用户还是可以通过参数mapred.min.split.size参数在作业提交客户端进行自定义设置。还有一个重要参数就是mapred.map.tasks，这个参数设置的map数量仅仅是一个提示，只有当inputformat 决定了map任务的个数比mapred.map.tasks值小时才起作用。同样，map任务的个数也能通过使用jobconf 的conf.setnummaptasks(int num)方法来手动地设置。这个方法能够用来增加map任务的个数，但是不能设定任务的个数小于hadoop系统通过分割输入数据得到的值。当然为了提高集群的并发效率，可以设置一个默认的map数量，当用户的map数量较小或者比本身自动分割的值还小时可以使用一个相对交大的默认值，从而提高整体hadoop集群的效率。 2 reduece的数量 reduce在运行时往往需要从相关map端复制数据到reduce节点来处理，因此相比于map任务。reduce节点资源是相对比较缺少的，同时相对运行较慢，正确的reduce任务的个数应该是0.95或者1.75 *（节点数 ×mapred.tasktracker.tasks.maximum参数值）。如果任务数是节点个数的0.95倍，那么所有的reduce任务能够在 map任务的输出传输结束后同时开始运行。如果任务数是节点个数的1.75倍，那么高速的节点会在完成他们第一批reduce任务计算之后开始计算第二批 reduce任务，这样的情况更有利于负载均衡。同时需要注意增加reduce的数量虽然会增加系统的资源开销，但是可以改善负载匀衡，降低任务失败带来的负面影响。同样，reduce任务也能够与 map任务一样，通过设定jobconf 的conf.setnumreducetasks(int num)方法来增加任务个数。 3 reduce数量为0 有些作业不需要进行归约进行处理，那么就可以设置reduce的数量为0来进行处理，这种情况下用户的作业运行速度相对较高，map的输出会直接写入到 setoutputpath(path)设置的输出目录，而不是作为中间结果写到本地。同时hadoop框架在写入文件系统前并不对之进行排序。

我要举报

如以上回答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息，可以点下面链接进行举报！

点此我要举报以上问答信息