理解 MapReduce 中的推测执行（Speculative Execution）机制 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，各位观众老爷，各位技术大拿，今天咱们就来聊聊 MapReduce 里的一个神奇的机制——推测执行 (Speculative Execution)。各位可能经常听到 “MapReduce”，觉得这玩意儿高大上，深不可测。其实呢，它就像一个高效的工厂，负责把一个巨大的任务拆成无数小零件，然后分给不同的工人（Map 和 Reduce 任务）去干，最后再把结果组装起来。

但是，工厂里总有些工人摸鱼，有些机器老化，导致某些零件的生产速度特别慢，严重拖慢了整个工厂的进度。这时候，推测执行就闪亮登场了，它就像工厂里的 “备胎” 机制，专门用来对付这些 “慢工出细活” 的家伙。

一、什么是推测执行？🤔

简单来说，推测执行就是：当 MapReduce 发现某个任务执行速度明显慢于其他任务时，它会启动一个备份任务，和原任务同时运行。谁先完成，就采用谁的结果，另一个任务直接被 Kill 掉。

举个例子，假设咱们要统计一本巨厚的书里每个单词出现的次数。这本书被分成1000份，分给1000个 Map 任务去统计。突然，你发现999个 Map 任务都完成了，只有一个任务慢吞吞的，半天没动静。

这时候，MapReduce 就觉得不对劲了，这货肯定有问题。于是，它会启动一个新的 Map 任务，也去处理同样的数据。如果新的 Map 任务先完成了，那原来的 “慢乌龟” 就直接被干掉了，它的结果也会被抛弃。

二、为什么需要推测执行？🧐

你可能会问，干嘛要这么麻烦？直接让那个 “慢乌龟” 跑完不就好了吗？原因很简单，在分布式系统中，影响任务执行速度的因素太多了，我们很难准确判断是哪个环节出了问题。

硬件故障： 硬盘坏了、内存出错了、CPU 过热了，都可能导致任务执行速度变慢。
软件 Bug： 某些代码在特定数据下会触发 Bug，导致死循环或者性能下降。
资源竞争： 某个节点上的其他任务占用了大量的 CPU、内存、网络带宽，导致当前任务资源不足。
数据倾斜： 某些 Map 任务分配到的数据量特别大，或者数据特别复杂，导致处理时间过长。

由于原因太多，我们很难一一排查。与其浪费时间去诊断问题，不如直接启动一个备份任务，让它和原任务赛跑，谁赢了就用谁的，简单粗暴，效率至上！

三、推测执行的原理 💡

推测执行的实现原理其实并不复杂，主要依赖于 MapReduce 的 TaskTracker (在 YARN 中是 NodeManager) 的监控和调度机制。

TaskTracker 监控： 每个 TaskTracker 会定期向 JobTracker (在 YARN 中是 ResourceManager) 汇报自己运行的任务的状态，包括进度、CPU 使用率、内存使用率等等。
JobTracker 判断： JobTracker 会根据 TaskTracker 汇报的信息，判断哪些任务是 “慢任务”。判断的标准通常是：任务的运行时间超过了平均运行时间的一定倍数。
启动备份任务： JobTracker 发现 “慢任务” 后，会在其他 TaskTracker 上启动一个相同的任务，处理同样的数据。
结果选择： 只要有一个任务完成，JobTracker 就会 Kill 掉另一个任务，并采用先完成的任务的结果。

可以用下面的表格来总结一下：

步骤	描述
1	TaskTracker 定期向 JobTracker 汇报任务状态（进度、CPU、内存等）。
2	JobTracker 根据汇报信息判断是否存在 “慢任务”（运行时间超过平均时间一定倍数）。
3	如果发现 “慢任务”，JobTracker 在其他 TaskTracker 上启动一个备份任务，处理相同的数据。
4	只要有一个任务完成，JobTracker 就会 Kill 掉另一个任务，并采用先完成的任务的结果。

四、推测执行的优缺点 ⚖️

推测执行就像一把双刃剑，用得好可以大幅提升 MapReduce 的效率，用不好反而会适得其反。

优点：

显著提升性能： 尤其是在集群中存在异构节点或者某些任务出现性能瓶颈时，推测执行可以有效减少作业的整体运行时间。
自动容错： 即使我们不知道任务变慢的具体原因，推测执行也能自动解决问题，无需人工干预。
简化运维： 运维人员不需要花费大量时间去排查和解决性能问题，可以把更多精力放在其他方面。

缺点：

资源浪费： 启动备份任务会占用额外的计算资源，如果集群资源紧张，可能会影响其他任务的运行。
增加网络开销： 备份任务需要从 HDFS 读取数据，会增加网络传输的开销。
不适用于所有场景： 对于某些任务，启动备份任务可能会导致更糟糕的结果。例如，如果任务的副作用很强（例如修改数据库），启动备份任务可能会导致数据不一致。

五、如何配置推测执行？ ⚙️

在 Hadoop 中，推测执行的配置主要通过 mapred-site.xml 文件来设置。

mapreduce.map.speculative： 是否开启 Map 任务的推测执行，默认值为 true。
mapreduce.reduce.speculative： 是否开启 Reduce 任务的推测执行，默认值为 true。
mapreduce.map.speculative.multiple： 允许同时运行的 Map 推测任务的最大数量，相对于正常任务的数量，默认值为 1.0，表示最多允许启动一个备份任务。
mapreduce.reduce.speculative.multiple： 允许同时运行的 Reduce 推测任务的最大数量，相对于正常任务的数量，默认值为 1.0，表示最多允许启动一个备份任务。
mapreduce.task.timeout: 任务超时时间，超过这个时间没有心跳，任务会被认为失败。

示例配置：

<property>
  <name>mapreduce.map.speculative</name>
  <value>true</value>
  <description>Whether speculative execution is enabled for map tasks.</description>
</property>

<property>
  <name>mapreduce.reduce.speculative</name>
  <value>true</value>
  <description>Whether speculative execution is enabled for reduce tasks.</description>
</property>

<property>
  <name>mapreduce.map.speculative.multiple</name>
  <value>1.2</value>
  <description>
    The maximum number of speculative map tasks that can be run concurrently,
    relative to the number of normal (non-speculative) map tasks.
    A value of 1.0 means that at most one speculative task can be run.
  </description>
</property>

<property>
  <name>mapreduce.reduce.speculative.multiple</name>
  <value>1.2</value>
  <description>
    The maximum number of speculative reduce tasks that can be run concurrently,
    relative to the number of normal (non-speculative) reduce tasks.
    A value of 1.0 means that at most one speculative task can be run.
  </description>
</property>

六、什么情况下应该关闭推测执行？ 🤔

虽然推测执行在很多情况下都能提升性能，但在某些特殊场景下，关闭推测执行可能更合适。

任务执行时间非常短： 如果任务本身执行时间就很短，启动备份任务的开销可能会超过带来的收益。就像你用火箭送快递，成本太高了。
任务的副作用很强： 如果任务会修改数据库或者其他外部系统，启动备份任务可能会导致数据不一致。这种情况就像你在银行同时取两次钱，结果可能会让你破产。
数据倾斜非常严重： 如果数据倾斜非常严重，导致某些任务处理的数据量远大于其他任务，推测执行可能会加剧资源竞争，导致性能更差。就像一堆人抢一个馒头，结果谁也吃不饱。
对任务的资源使用有严格限制： 如果你的集群资源非常有限，并且需要严格控制每个任务的资源使用，那么推测执行可能会导致资源超用。

七、如何监控推测执行？ 📊

了解推测执行的运行情况，可以帮助我们更好地配置和优化 MapReduce 作业。 Hadoop 提供了一些工具和指标来监控推测执行。

JobTracker Web UI： JobTracker 的 Web UI (ResourceManager Web UI 在 YARN 中) 可以显示每个任务的运行状态，包括是否启动了推测执行，以及推测执行任务的运行时间。
Hadoop Metrics： Hadoop Metrics 提供了大量的性能指标，包括推测执行任务的数量、运行时间、资源使用情况等等。
日志： MapReduce 的日志会记录推测执行的事件，例如启动备份任务、Kill 掉原任务等等。

通过监控这些指标，我们可以了解推测执行是否有效，以及是否需要调整配置。

八、推测执行在 YARN 中的变化 🔄

在 YARN (Yet Another Resource Negotiator) 中，MapReduce 的架构发生了一些变化，推测执行的实现方式也略有不同。

ResourceManager 和 NodeManager： YARN 使用 ResourceManager 负责资源管理和调度，使用 NodeManager 负责管理每个节点上的资源和任务。
ApplicationMaster： 每个 MapReduce 作业都会启动一个 ApplicationMaster，负责作业的管理和调度。
推测执行的决策： 在 YARN 中，推测执行的决策通常由 ApplicationMaster 来完成。 ApplicationMaster 会根据 NodeManager 汇报的任务状态，以及作业的整体运行情况，来判断是否需要启动备份任务。

总的来说，YARN 中的推测执行机制更加灵活和可定制，可以更好地适应不同的应用场景。

九、一些高级技巧和注意事项 💡

调整判断 “慢任务” 的阈值： 可以通过调整 mapreduce.task.timeout 和 mapreduce.task.slowstart.hours 等参数，来控制判断 “慢任务” 的灵敏度。
使用 Fair Scheduler 或者 Capacity Scheduler： 这些调度器可以更好地管理集群资源，避免推测执行导致资源竞争。
监控任务的 GC 情况： 如果任务的 GC (Garbage Collection) 时间过长，也可能导致任务执行速度变慢。可以通过监控 GC 日志来诊断问题。
避免在 Map 和 Reduce 函数中使用全局变量： 全局变量可能会导致数据竞争，影响任务的性能。

十、总结 🎉

推测执行是 MapReduce 中一个非常重要的优化机制，它可以有效地解决分布式系统中的 “慢任务” 问题，提升作业的整体性能。但是，推测执行也存在一些缺点，需要根据实际情况谨慎使用。通过合理的配置和监控，我们可以充分利用推测执行的优势，让 MapReduce 作业跑得更快、更稳！

好了，今天的分享就到这里。希望大家对 MapReduce 的推测执行机制有了更深入的了解。如果大家有什么问题，欢迎在评论区留言，咱们一起讨论！记得点赞、收藏、转发哦！ 😉

发表回复 取消回复

发表回复取消回复