以MapReduce編程五步走為基礎，說MapReduce工作原理

在之前的Hadoop是什么中已經說過MapReduce采用了分而治之的思想，MapReduce主要分為兩部分，一部分是Map——分，一部分是Reduce——合

成都創新互聯專注為客戶提供全方位的互聯網綜合服務，包含不限于網站設計制作、成都網站制作、集美網絡推廣、小程序開發、集美網絡營銷、集美企業策劃、集美品牌公關、搜索引擎seo、人物專訪、企業宣傳片、企業代運營等，從售前售中售后，我們都將竭誠為您服務，您的肯定，是我們最大的嘉獎；成都創新互聯為所有大學生創業者提供集美建站搭建服務，24小時服務熱線：028-86922220，官方網址：www.yijiale78.com

MapReduce全過程的數據都是以鍵值對的形式存在的
如果你想了解大數據的學習路線，想學習大數據知識以及需要免費的學習資料可以加群：784789432.歡迎你的加入。每天下午三點開直播分享基礎知識，晚上20:00都會開直播給大家分享大數據項目實戰。

首先，我們假設我們有一個文件，文件中存了以下內容

hive spark hive hbase
hadoop hive spark
sqoop flume scala

這里涉及到一個偏移量（一個字符或空格為1位）
第一行的偏移量為0，內容為“hive spark hive hbase”
第二行的偏移量為21，內容為“hadoop hive spark”
第三行的偏移量為39，內容為“sqoop flume scala”

Map
輸入
MapReduce處理的數據是從HDFS中讀出來的
以偏移量為key，內容value，則存在：
（0，“hive spark hive hbase”）
（21，“hadoop hive spark”）
（39，“sqoop flume scala”）
輸出
將輸入的value中的詞以空格為分割逐個取出來做key，1做value存起來
（hive，1）
（spark，1）
（hive，1）
（hbase，1）
（hadoop，1）
注意：有多少行，Map就要循環做幾次
shuffle（之后會詳細說，這里簡單解釋）
輸入
map的輸出
輸出
相同的key的value進行合并
這里合并不是進行累加或別的運算，而是合并到一個集合中
（hive，[1,1,1]）
（spark,[1,1]）
（hbase，[1]）
（hadoop，[1]）
。。。。。。
reduce
輸入
shuffle的輸出
輸出
根據業務將value進行合并
例如當前的業務就會將value進行累加
MapReduce處理數據五步走
整個MapReduce程序，所有數據以（key，value）形式流動

第一步：input
正常情況下不需要寫代碼
僅僅在MapReduce程序運行的時候指定一個路徑即可

第二步：map（核心）
map（key，value，output，context）
key：每行數據的偏移量——基本沒用
value：每行數據的內容——真正需要處理的內容

第三步：shuffle
不需要寫代碼

第四步：reduce（核心）
reduce（key，value，output，context）
key：業務需求中的key
value：要聚合的值

第五步：output
正常情況下不需要寫代碼
僅僅在MapReduce程序運行的時候指定一個路徑即可

工作原理
這里寫圖片描述

當前題目：以MapReduce編程五步走為基礎，說MapReduce工作原理
標題來源：http://www.yijiale78.com/article0/pchgoo.html

成都網站建設公司_創新互聯，為您提供網站改版、移動網站建設、App開發、網站排名、微信小程序、標簽優化

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

99偷拍视频精品区一区二,口述久久久久久久久久久久,国产精品夫妇激情啪发布,成人永久免费网站在线观看,国产精品高清免费在线,青青草在线观看视频观看,久久久久久国产一区,天天婷婷久久18禁,日韩动漫av在线播放直播

以MapReduce編程五步走為基礎，說MapReduce工作原理