決定mapreduce性能的工作流程-tft每日頭條

決定mapreduce性能的工作流程

生活更新时间:2026-07-30 16:04:33

MapReduce是分布式計算的鼻祖，雖然我們已經不需要再寫MR了，但是了解MR的底層邏輯，對解決各種分布式遇到的問題、調優，有極大的幫助。廢話不多說，OK，let's GO！

大數據工程師版

決定mapreduce性能的工作流程（架構師帶你細細的捋一遍MapReduce全流程）1

MapReduce流程分為4個步驟：

input：從hdfs中讀取文件，數據讀取組件是TextInputFormat和LineRecordReader。
mapper：根據input步驟讀取過來的數據，進行數據映射。之後進行混洗，混洗主要進行分區、排序和合并。
reduce：混洗好的數據交給Reduce步驟進行計算。
output：Reduce計算好的數據經過TextOutputFormat和LineRecordQriter組件，輸出到對應OutPutPath中。

大數據高級工程師版

決定mapreduce性能的工作流程（架構師帶你細細的捋一遍MapReduce全流程）2

MapReduce流程分為7個步驟：

數據讀取：從hdfs中讀取文件，數據讀取組件是TextInputFormat和LineRecordReader。
數據分片：調用Job.steInputFormaiClass()定義的InputFormat，将數據切分成小的Split。
Mapper：每一個Split生成一個MapTask，對每個分片中的數據進行排序，并進行部分合并，刷寫到磁盤中。
Shuffle：将每個MapTask中處理好的數據，重新排序後，進行分區，copy到Reduce的緩存中。其中可以配置數據壓縮、reduce節點數等參數。
Reduce:将緩存中的數據進行進一步的排序和merge，形成一份文件，交給Reduce函數進行順序計算。
計算好的數據經過TextOutputFormat和LineRecordQriter組件，進行輸出。
最後根據OutPutPath輸出每個文件到對應的HDFS中。

架構師版

決定mapreduce性能的工作流程（架構師帶你細細的捋一遍MapReduce全流程）3

MapReduce一共有7個角色參與，分為4個大階段，7個小階段。分别是：

1、任務啟動階段

1.1、由Client端發起請求；

1.2、YarnRunner接受請求并申請資源；

1.3、ResourceManager檢索資源情況，分配資源路徑給YarnRunner；

1.4、YarnRunner進行分片，申請啟動MRAppMaster

1.5、ResourceManager根據分片和job等信息，選擇數據所在節點啟動MapTask（程序找數據），喚醒MRAppMaster

1.6、MRAppMaster啟動，持續監控和管理任務

1.7、MapTask啟動，開始幹活

2、Map階段

2.1數據讀取，每個task讀取自己節點上的數據。

2.2數據處理

2.2.1每個task對自己讀取到的數據進行split，分成更小的數據塊

2.2.2對每個split的數據進行map，提取key、value、con

2.2.3對數據進行分區，有條件建議自定義分區，可以解決數據傾斜的問題，對之後的reduce也有極大的優化

2.2.4數據進入環形緩沖區，以起始點為赤道，到達溢出比後，刷新赤道

2.2.5溢出的數據刷入sort進行排序

2.2.6排序好的數據放入spill，進行merge後有序寫入hdfs

2.3shuffle階段：廣義shuffle階段從map之後就開始，到調用reduce函數結束。這裡隻是将hdfs的數據刷入reduce的緩存區域。

3、reduce階段：

3.1Reduce啟動

3.1.1MRAppMaster監控到redeuce任務即将結束，開始申請啟動ReduceTask；RM接受申請，根據分區結果，啟動若幹ReduceTask

3.1.2ReduceTask啟動，把每個map結果中的不同分區的數據，shuffle數據到對應Reducetask所在節點的緩存

3.2數據處理

3.2.1在緩存中對每個sort進行merge（内存、緩存都有）

3.2.2将merge後的結果，重新進行spill，排序後，落到hdfs

3.2.3将所有小文件merge成一個大文件

3.4、Reduce階段

3.4.1調用Reduce函數，對排序好的file進行彙總

3.4.2将最終結果寫入到hdfs中

4任務結束階段

4.1MRAppMaster監控到每個Reduce節點的執行情況

4.2向上彙報，并申請注銷自己

4.3RM注銷MRAppMaster，并向上彙報

4.4YarnRunner返回任務執行完成信息

4.5客戶端接受信息，任務結束

作者：彭文華大數據架構師分享數據分析、大數據技術、數倉建設相關的技術、方法論、案例、解決方案。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活透明氧化鐵系列顔料
鉻綠，又叫搪瓷鉻綠，其主要成分是三氧化二鉻（Cr2O3）。像其他耐高溫無機顔料一樣，它可以用作搪瓷、陶瓷、橡膠、玻璃等着色，也可用于耐高溫塗料或高溫漆的制造。鉻綠一般呈現出橄榄綠色，色澤接近植物的葉綠素，可用于僞裝漆，它能使紅外攝影時難以分... 2023-01-25
生活千玺生日祝福模闆最新
愛豆新聞訊今日與大家分享千玺牌的生日快樂~首先大家先來看看下面兩組動圖吧！當千玺給别人送生日祝福的時候，說完祝福語就會舉起兩隻手，左右晃幾下，當做煙火。但不得不說，這樣的千玺實在是太可愛了，自帶煙花效果的小哥哥還是很令人心動呢~小編也想要千... 2023-03-27
生活白蘿蔔選購技巧
青白蘿蔔區别大，切記别買錯，菜農教你4招，個個不糠心，水還飽。俗話說“冬吃蘿蔔夏吃姜，不用醫生開藥方”。我們大多數人都理解成冬天吃蘿蔔夏天吃姜，其實這句諺語采用了古代人常用的一種修辭手法——互文，冬夏泛指一年四季，正确理解應該為四季常吃蘿蔔... 2022-12-25
生活酉陽桃花源遊覽路線圖高清
作者：美食旅遊君桃花源在哪裡？我覺得桃花源在世人的心底。不去桃花源，不知道桃花源的故事。“世界上有兩個桃花源，一個在您心中，一個在重慶酉陽。”一千六百多年前，晉代大詩人陶淵明寫下了《桃花源記》，留下了一個令世人追逐的“世外桃源”。酉陽桃... 2022-11-23
生活網紅蛋糕的做法
網紅蛋糕的做法?雞蛋3個、玉米油30克、牛奶40克、淡奶油24克、低筋面粉40克、草莓适量、糖粉A40克、糖粉B24克，我來為大家科普一下關于網紅蛋糕的做法?以下内容希望對你有幫助!網紅蛋糕的做法雞蛋3個、玉米油30克、牛奶40克、淡奶油2... 2022-06-11
生活小學生教育平台免費課程
小學生教育平台免費課程?4月13日，北京市崇文小學語文教師闫琳為随班就讀生進行線上授課輔導當日，北京市中小學線上學科教學啟動，為确保随班就讀生跟上正常教學進度，該校通過視頻連線方式進行一對一輔導答疑與心理疏導，拓寬“空中課堂”，不落下一名學... 2023-03-31
生活哈士奇智商硬傷
一說到哈士奇這種狗，就算是對寵物沒什麼的感覺的朋友，也會忍不住好奇，畢竟這種狗太出名了，出了名的撒手沒，出了名的不認主，出了名的聰明，當然，還有出了名的二。總之，如果你是第一次飼養哈士奇，你會發現，原來還有這樣的狗。男子最近300塊從朋友那... 2023-01-03
生活山東省鄒平市的曆史變革
大衆網·海報新聞記者叢萍濱州報道濱州鄒平市，隻是一個普普通通北方小縣。而在上世紀80年代以來，成為美國學者了解中國的窗口，先後有10餘個國家和地區的500餘為外國專家學者來到鄒平市進行學術研究,美國前總統吉米·卡特及夫人也曾到過，鄒平被很多... 2023-02-19
生活一千萬漲粉計劃文案
雖然“深夜發媸”已經在時尚号裡打響了旗号，但創始人徐妍覺得，這個名字挺吃虧的。中文系出身的徐妍，喜歡研究文字，當初給公号取名時選了個看起來很特别的古文字：媸，讀作chi，一聲，與名字裡的妍相對。後來她發現，經常有人打錯這個名字，某種程度上影... 2022-11-09
生活抖音吸粉文案接地氣
抖音吸粉文案接地氣?一遇挫折就灰心喪氣的人，永遠是個失敗者而一向努力奮鬥，堅韌不拔的人會走向成功，現在小編就來說說關于抖音吸粉文案接地氣?下面内容希望能幫助到你，我們來一起看看吧!抖音吸粉文案接地氣一遇挫折就灰心喪氣的人，永遠是個失敗者。而... 2022-08-01
生活牆壁翻新覆蓋性最強的乳膠漆
說到裝修牆面的材料，大部分人了解選擇的無非是乳膠漆、牆紙瓷磚這幾類，然而最近有一新型環保材料火了，據說可以保溫隔熱，防火防水，實用性非常強。這種材料全名：竹木纖維集成牆面，主要以鋸末、木屑、竹屑等低植生物質纖維為主原料，整個制作過程不使用任... 2023-03-16
生活金立下半年發布的手機
截至目前，蘋果、三星、華為、OV、金立、小米等主流手機品牌均發布了自己全面屏産品。而金立這次，也是要把全面屏當做主要賣點來推進，把旗下全部産品全部用上了這個特性。這八款産品包括M安全系列、S四攝系列、F時尚系列以及金剛續航系列全線産品。M系... 2022-12-28
生活俄羅斯驅逐艦穿過對馬海峽
據烏克蘭第四大城市敖德薩本地媒體《話語報》報道，當地時間2月28日，土耳其已經決定根據《蒙特勒公約》的相關規定，關閉博斯普魯斯海峽和達達尼爾海峽，此舉可謂是打了俄羅斯一個措手不及。據悉，上周烏克蘭向土耳其發出了關閉上述兩大海峽的請求，以便阻... 2022-12-26
生活三九是一年中最冷的時候嗎
冬至作為二十四節氣之首，在勞動人民心中占有很重要的地位，古時候沒有天氣預報，人們就依靠節氣和自然現象來預測天氣，以此指導生産生活。到了現代，随着科技的進步，即使有了天氣預報，人們也還是很相信幾千年留下來的經驗傳統。依靠冬至而生的諺語有很多，... 2023-01-23
生活 word多出的空白頁怎麼都删不掉
用word寫東西的時候，總是莫名其妙會出現一些空白頁，有些空白頁用backpace和delete删不掉，就會很煩。今天，小芝麻就分享三種情況下空白頁都怎麼删除掉。示例回車打多了一種就是我們最經常用的方法，就是直接删掉。另一種，就是點擊“替換... 2022-11-28
生活過午不食的十五個好處
過午不食的十五個好處?不變胖因為你晚上吃東西，就全部變成垃圾，變成脂肪留在身體裡面了，現在小編就來說說關于過午不食的十五個好處?下面内容希望能幫助到你，我們來一起看看吧!過午不食的十五個好處不變胖。因為你晚上吃東西，就全部變成垃圾，變成脂肪... 2022-06-07
生活砵仔糕怎麼做的
缽仔糕，是廣東省的地方特色傳統糕點之一。其主料是粘米粉或澄粉、木薯澱粉，以爽滑可口、口味豐富著稱。缽仔糕可以分成兩大類：老式缽仔糕和水晶缽仔糕。老式缽仔糕在以前比較多，現在多見的都是水晶缽仔糕，最近嘴饞很想吃砵仔糕卻不想買外面滿滿都是添加劑... 2023-01-03
生活 mysql中的日期函數用法
前面，兩篇分别介紹了，MySQL的字符串函數和數值函數，接下來，一起學習下日期函數，走起[奸笑]上圖1.NOW()獲取當前時間SQL語句：SELECTNOW()astemporary_time2.YEAR()獲取當前年份SQL語句：SELE... 2022-11-26
生活全國都在緻敬英烈的人
9月30日是烈士紀念日。江西有名有姓的烈士約占全國總數的六分之一。當年，無數革命先輩浴血奮戰，用生命守護人民；今天，這片紅土地上也有許多群衆守護英烈的故事：57年前，程樟柱在部隊意外負傷，幾乎失明。之後，程樟柱婉拒部隊的療養待遇，回到家鄉江... 2023-01-13
生活明後天杭州有冷空氣嗎
今天是二十四節氣之處暑“離離暑雲散，袅袅涼風起”八月尾聲，三伏将盡處暑雖近秋季但暑熱消散需要一個過程尤其南方地區是“處暑天還暑，仍有秋老虎”江南地區一般都要到秋分至寒露時節才會陸續開啟夏秋更叠的進程今天上午市氣象台再次發布高溫紅色預警信号不... 2023-03-16
生活美國一家四口去迪士尼旅遊
極目新聞記者宋清影在環球影城的發源地美國打卡一次要花費多少錢？據《紐約郵報》9月6日報道，英國一個四口之家近日到美國佛羅裡達州奧蘭多環球影城一日遊，吐槽總共花費了1113.4美元（約為7886元）。這段視頻在TikTok上瘋傳，網友紛紛表示... 2022-12-06
生活物流運輸比價模闆
編輯導語：做一款結算産品，要考慮到支付的各種場景，因此計費模塊的設計尤為重要。在物流行業中亦是如此，想要做好一款物流計費模闆則需要了解一下相關的系統設計。作者了相關設計思路，希望對你有所幫助。都說供應鍊産品的核心目标是為了降本提效，而既然降... 2022-12-17
生活煎地瓜如何做
煎地瓜如何做?紅薯數量不定、油自定方法：将紅薯洗淨、去皮，今天小編就來聊一聊關于煎地瓜如何做?接下來我們就一起去研究一下吧!煎地瓜如何做紅薯數量不定、油自定。方法：将紅薯洗淨、去皮。将洗淨紅薯切成3毫米左右的薄片（越薄，煎出來越香）。電餅铛... 2022-07-07
生活污水處理廠的工藝流程示意圖
更多關注公号：環保水處理（hbscl01）典型的城市污水處理工藝流程主要包括機械處理、生化處理（水線）、污泥處理等工段。由機械處理和生化處理構成的系統屬于二級處理系統，其BOD5和SS去除率可達到90%～98%。處理效果介于一級和二級處理之... 2023-01-16
生活如何養好富貴竹?
如何養好富貴竹?水質要求水養時要注意保持水質清潔，如果用的是自來水，需提前1天晾曬，讓自來水裡的氯氣散發完全，方可使用，我來為大家講解一下關于如何養好富貴竹?跟着小編一起來看一看吧!如何養好富貴竹水質要求水養時要注意保持水質清潔，如果用的是... 2022-07-08
生活關于低保的問題去哪裡了解比較好
低保政策廣義上來說是保障家庭成員上一年人均純收入低于當地農村最低生活保障标準的農村困難家庭。是一項利民的好政策，也幫助了無數困難家庭走出絕境。目前我國低保人數共7487.4萬人，其中城市低保2307.8萬人，農村低保5179.6萬人。也就是... 2023-01-12
生活産後修複的十大方法
産後松弛是很多人在生活中都會出現的一個問題，而這個問題會導緻不少女性在面對性生活的時候處于一種尴尬的狀況，所以大家為了減低傷害最好可以在生活中多加了解和學習有關于産後松弛的知識，然後結合個人的實際情況恢複。那麼到底産後松弛怎麼恢複呢?1、運... 2023-01-21
生活 excel絕對引用與相對引用區别
相對引用：EXCEL默認在複制公式時，公式中引用的單元格會自動改變。例：在C2單元格中求金額，等于A2*B2。下拉填充時行号會随着行的變化而自動改變。絕對引用：複制公式時公式中引用位置保持不變。例：在B4單元格中求金額，等于A4*$B$1。... 2022-12-14
生活怎麼用手動刮胡刀正确刮胡子
摘要：這個刮胡刀相信每個男人都有一個，平時刮胡子，讓我們非常的舒爽，但是我們的刮胡刀一旦變鈍了，刮胡子就太難受了。今天要跟大家分享一個小技巧，我們快速讓我們刮胡刀變鋒利，隻須一張紙就搞定，一起跟着大魔王來看看吧朋友們大家好，歡迎觀看【比克大... 2023-01-19
生活清明節是在清明那天嗎
清明節是在清明那天嗎?清明節氣是根據上一個節氣春分開始的時間算起，往後順延十五天決定的，每年春分結束後的第十五天就是清明節氣，而清明節不是這麼看的，清明節是根據嚴密制度設定，從根本上有所區别，今天小編就來聊一聊關于清明節是在清明那天嗎?接下... 2022-06-12

tft每日頭條

> 生活

> 決定mapreduce性能的工作流程

決定mapreduce性能的工作流程

相关生活资讯推荐

热门生活资讯推荐

网友关注