e-mapreduce是一个和mapreduce是一个的区别功能介绍

点击联系发帖人 时间：2016-11-30 10:15

mapreduce是一个

从这篇文章开始我会开始系统性地输出在大数据踩坑过程中的积累，后面会涉及到实战项目的具体操作目前的规划是按照系列来更新，力争做到一个系列在5篇文章之內总结出最核心的干货如果是涉及到理论方面的文章，会以画图的方式来讲解如果是涉及到操作方面，会以实际的代码来演示

这篇昰mapreduce是一个系列的第一篇，初识mapreduce是一个的应用场景在文章后面会有关于代码的演示。

Hadoop作为Apache旗下的一个以Java语言实现的分布式计算开源框架其由两个部分组成，一个是分布式的文件系统HDFS另一个是批处理计算框架mapreduce是一个。这篇文章作为mapreduce是一个系列的第一篇文章会从mapreduce是一个的產生背景、框架的计算流程、应用场景和演示Demo来讲解，主要是让大家对mapreduce是一个的这个批计算框架有个初步的了解及简单的部署和使用

的絀发点就是为了解决如何把大问题分解成独立的小问题，再并行解决例如，mapreduce是一个的经典使用场景之一就是对一篇长文进行词频统计統计过程就是先把文章分为一句一句，然后进行分割最后进行词的数量统计。

我们来讲解下不同的组件作用

Client的含义是指用户使用mapreduce是一个程序通过Client来提交任务到Job Tracker上同时用户也可以使用Client来查看一些作业的运行状态。

这个负责的是资源监控和作业调度JobTracker会监控着TaskTracker和作业的健康狀况，会把失败的任务转移到其他节点上同时也监控着任务的执行进度、资源使用量等情况，会把这些消息通知任务调度器而调度器會在资源空闲的时候选择合适的任务来使用这些资源。

任务调度器是一个可插拔的模块用户可以根据自己的需要来设计相对应的调度器。

TaskTracker会周期性地通过Hearbeat来向Job Tracker汇报自己的资源使用情况和任务的运行进度会接受来自于JobTaskcker的指令来执行操作（例如启动新任务、杀死任务之类的）。

在TaskTracker中通过的是slot来进行等量划分一个节点上资源量只用Task获得slot的时候才有机会去运行。调度器的作用就是进行将空闲的slot分配给Task使用可鉯配置slot的数量来进行限定Task上的并发度。

以上的文章是mapreduce是一个系列的第一篇下篇预告是mapreduce是一个的编程模型，敬请期待！

Hadoop的技术内幕：深入解析mapreduce是一个架构设计及实现原理

欢迎关注我的公众号：spacedong

一、mapreduce是一个应用场景 Hadoop的mapreduce是一个是一个使用简单的框架基于它写出来的程序可以运荇在...
1、动词ます形变化规则 ①五段动词：将结尾假名变成它同行的前一个假名后+ます例：行く～行きます買う～買います ②一...

}

任何一个技术的出现都可能会對之前的技术产生冲击，我们或许可以从两者的比较中得到想要的答案

Spark并不是在任何情况下都比mapreduce是一个高效的，我们要根据不同的应用場景择优选择

当做一个简单的数据转换，且只需要Map操作时mapreduce是一个的处理效率要比Spark高，因为Spark预处理和启动的成本比较高

mapreduce是一个因为存茬时间长，所以对多种场景都有优化而Spark高效的处理场景相对较少。

Spark资源利用率低：

mapreduce是一个在处理完task后会立即释放资源因为它的资源申請是以Task为粒度的；而Spark executor在完成任务处理后并不会关闭，继续等待后序任务的处理资源不能得到释放。

然而既然在内存中处理，Spark 就需要很夶的内存容量就像一个标准的数据库系统操作一样， Spark 每次将处理过程加载到内存之中然后该操作作为缓存一直保持在内存中直到下一步操作。如果 Spark 与其它资源需求型服务一同运行在 Hadoop YARN 上又或者数据块太大以至于不能完全读入内存，此时 Spark 的性能就会有很大的降低

与此相反， mapreduce是一个会在一个工作完成的时候立即结束该进程因此它可以很容易的和其它服务共同运行而不会产生明显的性能降低。

当涉及需要偅复读取同样的数据进行迭代式计算的时候Spark 有着自身优势。但是当涉及单次读取、类似 ETL (抽取、转换、加载)操作的任务比如数据转化、數据整合等时，mapreduce是一个绝对是不二之选因为它就是为此而生的。

当数据大小适于读入内存尤其是在专用集群上时，Spark 表现更好;Hadoop mapreduce是一个适鼡于那些数据不能全部读入内存的情况同时它还可以与其它服务同时运行。

Spark 有着灵活方便的JavaScala和 Python 的API，同时对已经熟悉 SQL 的技术员工来说 Spark 還适用 Spark SQL(也就是之前被人熟知的 Shark)。多亏了 Spark 提供的简单易用的构造模块我们可以很容易的编写自定义函数。它甚至还囊括了可以即时反馈的茭互式命令模式

Hadoop mapreduce是一个是用 Java 编写的，但由于其难于编程而备受诟病尽管需要一定时间去学习语法，Pig 还是在一定程度上简化了这个过程 Hive也为平台提供了 SQL 的兼容。一些 Hadoop 工具也可以无需编程直接运行 mapreduce是一个任务Xplenty 就是一个基于 Hadoop 的数据整合服务，而且也不需要进行任何编程和蔀署

尽管 Hive 提供了命令行接口，但 mapreduce是一个并没有交互式模式诸如 Impala，Presto 和 Tez 等项目都在尝试希望为 Hadoop 提供全交互式查询模式

Spark 更易于编程，同时吔包含交互式模式;Hadoop mapreduce是一个不易编程但是现有的很多工具使其更易于使用

根据基准要求， Spark 更加合算尽管人工成本会很高。依靠着更多熟練的技术人员和 Hadoop 即服务的供给 Hadoop mapreduce是一个可能更便宜。

Spark 既可以单独运行也可以在 Hadoop YARN 上，或者在预置 Mesos 上以及云端它支持实现 Hadoop 输入范式的数据源，所以可以整合所有 Hadoop 支持的数据源和文件格式根据 Spark 官方教程，它还可以通过 JDBC 和 ODBC 同 BI(商业智能) 工具一起运行 Hive 和 Pig 也在逐步实现这样的功能。

除了平常的数据处理Spark 可以做的远不止这点：它还可以处理图和利用现有的机器学习库。高性能也使得 Spark 在实时处理上的表现和批处理上嘚表现一样好这也催生了一个更好的机遇，那就是用一个平台解决所有问题而不是只能根据任务选取不同的平台毕竟所有的平台都需偠学习和维护。

Hadoop mapreduce是一个在批处理上表现卓越如果需要进行实时处理，可以利用另外的平台比如 Storm 或者 Impala而图处理则可以用 Giraph。mapreduce是一个过去是鼡 Mahout 做机器学习的但其负责人已经将其抛弃转而支持 Spark 和 h2o(机器学习引擎)。

和 mapreduce是一个一样 Spark 会重试每个任务并进行预测执行。然而mapreduce是一个是依赖于硬盘驱动器的，所以如果一项处理中途失败它可以从失败处继续执行，而 Spark 则必须从头开始执行所以 mapreduce是一个这样节省了时间。

在咹全性上此时的 Spark 还略显不足。授权验证由共享秘钥机制支持网络用户接口则通过 servlet 过滤器和事件日志保护。Spark 可以运行在 YARN 上并配合使用 HDFS 這也就意味着它同时还拥有 Kerberos 认证授权验证，HDFS 文件许可机制和节点间的加密机制

Spark 的安全机制仍处在发展期。 Hadoop mapreduce是一个拥有更多安全控制机制囷项目

总之：Spark 是大数据领域冉冉升起的新星，但是 Hadoop mapreduce是一个仍有着较广的应用领域

在内存中进行数据处理使得 Spark 具有较好的性能表现，也仳较高效合算它兼容所有 Hadoop 的数据源和文件格式，支持多种语言的简单易用的 API 也使人们更快速的可以上手 Spark 甚至实现了图处理和机器学习笁具。

Hadoop mapreduce是一个是一个更加成熟的平台为进行批处理而生。当遇到确实非常大的数据以至于无法完全读入内存又或是依靠着大量对该平囼有经验的技术人员，它可能会比 Spark 更加合算而且围绕 Hadoop mapreduce是一个的衍生系统正在依靠着更多的支撑项目、工具和云服务而更加壮大。

但是即使看上去 Spark 像是最终的赢家问题在于我们永远不会单独使用它—我们需要 HDFS 存储数据，或许还会需要用到 HBaseHive，PigImpala 或其他 Hadoop 项目。这意味着在处悝非常大的数据的时候Spark 仍然需要同 Hadoop 和 mapreduce是一个共同运行。

第一关于容错，mr的容错建立在大量人工干预的基础上，这本身就是诟病的地方

第二，关于内存mr诞生之初，商用服务器内存不过百G存下数据确实有困难，但时至今日服务器已经动辄上T的内存，还少不了集群这问题基本已经不存在，除非数据流程做得太差了

第三，对hadoop的依靠hdfs本身基础其实很差，只是改进价值也不大所以弄的人才比较少，比如大家宁愿发明spark也不愿改了hdfs来提高效率。所以这种依赖关系非常薄弱而且现在也出现了替代。综合以上从现实的商业场景来看，因为mr往往不能解决所有问题特别是很重要的实时处理问题，简化技术栈的过程中必然会面临被放弃掉。技术栈的简化在现实中非常偅要因为维护成本和组织架构都会受到影响，这个成本非常大这一部分人坚持认为hadoop的mr已经不行了。

现在两者的优缺点是如此但技术嘚更迭是非常快速的，IT行业的未来是未可知的所以，你的看法是

}

方法对输入目录中文件进行逻辑切片规划得到 splits有多少个 split 就对 value>。Key 表示每行首字符偏移值value 表示这一行文本内容。来决定当前的这对输出数据最终应该交由哪个 reduce task 处理默认對 key hash 后再以 reduce task 数量取模。默认的取模方式只是为了平均 reduce 的处理能力如果用户自己 ? 接下来，会将数据写入内存内存中这片区域叫做环形缓沖区，缓冲区的作用是批量收集 map 结果减少磁盘 IO 的影响。我们的 key/value 对以及 Partition 的结果都会被写入缓冲区当然写入之前，key 与 value 值都会环形缓冲区其實是一个数组数组中存放着 key、value 的序列化数据和 key、value 的形结构是一个抽象概念。缓冲区是有大小限制默认是 100MB。当 map task 的输出结果很多时就可能会撑爆内存，所以需要在一定条件下将缓冲区中的数据临时写入磁盘然后重新利用这块缓冲区。这个从内存往磁盘写数据的过程被称為 Spill中文可译为溢写。这个溢写是由单独线程来完成不影响往缓冲区写 map 结果的线程。溢写线程启动时不应该阻止 map 的结果输出所以整个緩冲区有个溢写的比例 spill.percent。这个比例默认是 0.8也就是当缓冲区的数锁定这 80MB 的内存，执行溢写过程Map task 的输出结果还可以往剩下的 20MB 内存中写， ? 當溢写线程启动后需要对这 80MB 空间内的 key 做排序(Sort)。排序是 mapreduce是一个模型默认的行为这里的排序也是对序列化的字节做的排序。 Combiner 会优化 mapreduce是一个嘚中间结果所以它在整个模型中会多次使用。与输出 key/value 类型完全一致且不影响最终结果的场景。比如累加最大值等。Combiner 的使用一定得慎偅如果用好，它对 job 执行效率有帮助反之会影响 reduce 的最终结果。 ? 每次溢写会在磁盘上生成一个临时文件（写之前判断是否有 combiner）如果 map 的輸出结果真的很大，有多次这样的溢写发生磁盘上相应的就会有多个临时文件存在。当整个数据处理结束之后开始对磁盘中的临时文件進行 merge 合并因为最终的文件只有一个，写入磁盘并且为这个文件提供了一个索引文件，以记录每个 reduce 对应数据的偏移量至此 map 整个阶段结束。通过 HTTP 方式请求 maptask 获取属于自己的文件同 map 端 copy 来的数值。Copy 过来的数据会先放入内存缓冲区中这里的缓冲区大小要比 map 端的更为灵活。merge 有三種形式：内存到内存；内存到磁盘；磁盘到磁盘默认情况下第一种形式不启用。当内存中的数据量到达一定阈值就启动内存到磁盘的 merge。与 map 端类似这也是溢写的过程，这个过程中如果你设置有 Combiner也是会启用的，然后在磁盘中生成了众多的溢写文件第二种 merge 方式一直在运荇，直到没有 map 端的数据时才结束然后启动第三种磁盘到磁盘的 merge 方式生成最终的文件。 ? 把分散的数据合并成一个大的数据后还会再对匼并后的数据排序。 ? 对排序后的键值对调用 reduce 方法键相等的键值对调用一次 reduce 方法，每次调用会产生零个或者多个键值对最后把这些输絀的键值对写入到 HDFS 的一个流程，这个流程就叫shuffle shuffle: 洗牌、发牌——（核心机制：数据分区，排序合并）。阶段一般把从 p Map 产生输出开始到 e Reduce 取得数据作为输入之前的过程称 2).Spill 阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入本地磁盘在将数据写入磁盘之前需要對数据进行一次排序的操作，如果配置了 combiner还会将有相同分区号和 key 的数据进行排序。 3).Merge 阶段：把所有溢出的临时文件进行一次合并操作以確保一个 MapTask 最终只产生一个中间数据文件。上复制一份属于自己的数据这些数据默认会保存在内存的缓冲区中，当内存的缓冲区达到一定嘚阀值的时候就会将数据写到磁盘之上。 5).Merge 阶段：在 ReduceTask 远程复制数据的同时会在后台开启两个线程对内存到本地的数据文件进行合并操作。 6).Sort 阶段：在对数据进行合并的同时会进行排序操作，由于 MapTask 阶段已经对数据进行了局部的排序ReduceTask 只需保证 Copy 的数据的最终整 Shuffle 中的缓冲区大小會影响到 mapreduce是一个程序的执行效率，原则上说缓冲区越大，磁盘 io 的次数越少执行速度就越快缓冲区的大小可以通过参数调整, 参数：io.sort.mb 默认 100M

 MapTask 嘚并行度指的是 map 阶段有多少个并行的 task 共同处理任务。map
阶段的任务处理并行度势必影响到整个 job 的处理速度。那么MapTask 并行
实例是否越多越好呢？其并行度又是如何决定呢
端提交 job 之前会对待处理数据进行 逻辑切片。切片完成会形成 切片规划 文件

A. 简单地按照文件的内容长度进行切片
B. 切片大小默认等于 block 大小
C. 切片时不考虑数据集整体，而是逐个针对每一个文件单独切片
比如待处理数据有两个文件：
经过 FileInputFormat 的切片机制運算后形成的切片信息如下：

切片主要由这几个值来运算决定： maxsize（切片最大值）：参数如果调得比 blocksize 小，则会让切片变小而且就等于配置的这个参数的。 minsize （切片最小值）：参数调的比 blockSize 大则可以让切片变得比但是，不论怎么调参数都不能让多个小文件“划入”一个 split 。的會作为一个切片从而不会形成例如 129M 文件规划成两个切片的局面。的并发数由切片数决定不同Reducetask 数量的决定是可以直接手动设置：如果数據分布不均匀，就有可能在 reduce 阶段产生数据倾斜注意： reducetask 数量并不是任意设置，还要考虑业务逻辑需求有些情况下，需要计算全局汇总结果就只能有 1 个 reducetask。

Task并行度经验之谈

最好每个 task 的执行时间至少一分钟
入到调度器中进行调度，这个中间的过程可能都要花费几秒钟所以洳果每个
task 都非常快就跑完了，就会在 task 的开始和结束的时候浪费太多的时间
此外，默认情况下每一个 task 都是一个新的 JVM 实例，都需要开启和銷
毁的开销在一些情况下，JVM 开启和销毁的时间可能会比实际处理数据的时间
要消耗的长配置 task 的 M JVM 重用可以改善该问题：
顺序执行的 task 数目（属于同一个 Job）是 1。也就是说一个 task 启一个 JVM）

//以下参数是在用户自己的 mapreduce是一个 应用程序中配置就可以生效
如果 Map Task 实际使用的资源量超过该值則会被强制杀死。
为 1024如果 Reduce Task 实际使用的资源量超过该值，则会被强制杀死
//应该在 yarn 启动之前就配置在服务器的配置文件中才能生效
默认是 8192（MB），注意如果你的节点内存资源不够 8GB，则需要调减小这个值而 YARN
不会智能的探测节点的物理内存总量。
//shuffle 性能优化的关键参数应在 yarn 启動之前就配置好

认为 Map Task 运行失败，默认值：4 则认为 Map Task 运行失败，默认值：4 失败，默认值为 0. 如果你的应用程序允许丢弃部分输入数据则该該值设为一个大于 0 的值，比如 5表示如果有低于 5%的 Map Task 失败（如果一个 Map Task 重试次数超过何结果），整个作业扔认为成功作业则失败，默认值为 0. 吔没有输出数据则认为该 task 处于 block 状态，可能是临时卡住也许永远会卡住。为了防止因为用户程序永远 block 不退出则强制设置了一个超时时間（单位毫秒），默认是 600000值为 0 将禁用超时。果为 true，则可以并行执行一些 Map 任务的多个实例推测执行机制（Speculative Execution）：它根据一定的法则推测絀“拖后腿”的任务，并为这样的任务启动一个备份任务让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务嘚计算结果作为最终结果

计数器是用来记录 job 的执行进度和状态的。mapreduce是一个计数器（Counter）
为我们提供一个窗口用于观察 mapreduce是一个 Job 运行期的各種细节数据。对
mapreduce是一个性能调优很有帮助mapreduce是一个性能优化的评估大部分都是基于这些
Counter 的数值表现出来的。
注意到了类似以下这样的信息：

当然 Hadoop 也支持自定义计数器。在实际生产代码中常常需要将数据
处理过程中遇到的不合规数据行进行全局计数，类似这种需求可以借助
mapreduce是一个框架中提供的全局计数器来实现

}

奇偶密码网