在线MapReduce：提升效率与实时性

需积分: 0 43 浏览量更新于2024-08-01 收藏 316KB DOC 举报

"MapReduce在线翻译" MapReduce是一种广泛采用的架构，专用于数据密集型分布式计算的批处理作业。它的核心理念是简化容错处理，确保每个MapReduce任务和工作的输出在被进一步处理前都先写入硬盘。这篇翻译论文探讨了一种增强的MapReduce体系，引入了数据在操作之间的管道传输，从而扩展了MapReduce的编程模型，使其不仅限于批处理，还能缩短完成时间，提升系统的整体利用率。文章中提出了一种改进的Hadoop MapReduce架构，称为Hadoop Online Prototype（HOP），它支持在线聚集，允许用户在计算过程中获取“早期返回”的结果。HOP还具备处理连续查询的能力，这意味着MapReduce程序可以应用于实时事件监控和流处理等场景。尽管进行了这些改进，HOP仍然保持了Hadoop的容错特性，能够运行未经修改的用户自定义MapReduce程序。 MapReduce模型最初是为大规模批处理计算设计的，程序员专注于数据记录集的转换，而MapReduce框架则负责分布式执行、网络通信、协调和容错等复杂任务。传统的Google MapReduce和Hadoop系统通过批量存储中间结果来实现容错，但这限制了处理速度。新提出的管道机制克服了这一限制，允许下游操作在上游完成前就开始处理数据，增加了并行性，提高了效率，减少了响应时间。此外，通过管道传输，mappers产生的数据能立即被reducers处理，这使得在执行过程中可以生成并更新结果的近似值，这种特性被称为“在线计算”。在论文的第3.5节中，作者展示了HOP与标准Hadoop相比，如何显著减少作业完成时间。这种方法也降低了系统对稳定存储的需求，因为数据不必全部写入磁盘，而是可以直接在内存中流动。 HOP的创新在于将MapReduce从纯粹的批处理模式转变为更接近实时处理的模式，增强了其在大数据分析和实时应用中的实用性。通过优化数据传输和处理流程，HOP提升了MapReduce的性能，为数据密集型应用提供了更快、更灵活的解决方案。

2.4 Reduce 任务执行

一次  任务的执行分为三个阶段。

 ,- 阶段获取  任务的输入数据。每个  任务分配一个由  产生

的键范围的分区，所以  任务必须获取每个  任务输出的分区内容。

!  阶段将拥有相同键的记录分组。

  阶段将用户定义  函数应用到每个键和相应值的列表。

在 ,- 阶段， 任务通过每次向可配置数量的 **（默认 ）发送 **

请求来获取每个  任务的数据。)* 将主机  输出的每个 ** 位置传递

到执行  任务的 **。在传统的批量  中， 任务直到  执行完

毕并将其最终输出结果写到硬盘后才能获取  任务的输出。

在接收到所有  输出的分区后， 任务进入  阶段。每个分区的  输出已

按照键的大小排序。 任务将这些运行合并在一起来产生一单一按键排序的运行。然

后任务进入  阶段，它调用用户定义的按不同键排序的  函数，传递给相关值的

列。 函数的输出被写入 &'( 上一临时位置。在  函数被应用到  任务分

区的每个键后，任务的 &'( 输出文件自动地从其临时位置重命名到最终位置。

在该设计中， 和  任务的输出在其被消耗前被写入硬盘。对于  任务，

由于其输出被写入 &'(，这特别昂贵。默认的，这需要一同步写操作，其必须在不同节点

上存储每个输出块的三分拷贝（确保容错）。

剩余16页未读，继续阅读

lcschuncsa

粉丝: 24
资源: 3

在线MapReduce：提升效率与实时性

最新资源