小米組件自定義大小-tft每日頭條

小米組件自定義大小

圖文更新时间:2025-08-13 21:42:05

小米組件自定義大小（EMRRemoteShuffle）1

作者 | 一錘、明濟、紫槿來源 | 阿裡技術公衆号

阿裡雲EMR自2020年推出Remote Shuffle Service(RSS)以來，幫助了諸多客戶解決Spark作業的性能、穩定性問題，并使得存算分離架構得以實施，與此同時RSS也在跟合作方小米的共建下不斷演進。本文将介紹RSS的最新架構，在小米的實踐，以及開源。

一問題回顧

Shuffle是大數據計算中最為重要的算子。首先，覆蓋率高，超過50%的作業都包含至少一個Shuffle[2]。其次，資源消耗大，阿裡内部平台Shuffle的CPU占比超過20%，LinkedIn内部Shuffle Read導緻的資源浪費高達15%[1]，單Shuffle數據量超100T[2]。第三，不穩定，硬件資源的穩定性CPU>内存>磁盤≈網絡，而Shuffle的資源消耗是倒序。OutOfMemory和Fetch Failure可能是Spark作業最常見的兩種錯誤，前者可以通過調參解決，而後者需要系統性重構Shuffle。

傳統Shuffle如下圖所示，Mapper把Shuffle數據按PartitionId排序寫盤後交給External Shuffle Service(ESS)管理，Reducer從每個Mapper Output中讀取屬于自己的Block。

小米組件自定義大小（EMRRemoteShuffle）2

傳統Shuffle存在以下問題。

本地盤依賴限制了存算分離。存算分離是近年來興起的新型架構，它解耦了計算和存儲，可以更靈活地做機型設計：計算節點強CPU弱磁盤，存儲節點強磁盤強網絡弱CPU。計算節點無狀态，可根據負載彈性伸縮。存儲端，随着對象存儲(OSS, S3) 數據湖格式(Delta, Iceberg, Hudi) 本地/近地緩存等方案的成熟，可當作容量無限的存儲服務。用戶通過計算彈性存儲按量付費獲得成本節約。然而，Shuffle對本地盤的依賴限制了存算分離。
寫放大。當Mapper Output數據量超過内存時觸發外排，從而引入額外磁盤IO。
大量随機讀。Mapper Output屬于某個Reducer的數據量很小，如Output 128M，Reducer并發2000，則每個Reducer隻讀64K，從而導緻大量小粒度随機讀。對于HDD，随機讀性能極差；對于SSD，會快速消耗SSD壽命。
高網絡連接數，導緻線程池消耗過多CPU，帶來性能和穩定性問題。
Shuffle數據單副本，大規模集群場景壞盤/壞節點很普遍，Shuffle數據丢失引發的Stage重算帶來性能和穩定性問題。

二 RSS發展曆程

針對Shuffle的問題，工業界嘗試了各種方法，近兩年逐漸收斂到Push Shuffle的方案。

1 Sailfish

Sailfish3最早提出Push Shuffle Partition數據聚合的方法，對大作業有20%-5倍的性能提升。Sailfish魔改了分布式文件系統KFS[4]，不支持多副本。

2 Dataflow

Goolge BigQuery和Cloud Dataflow5實現了Shuffle跟計算的解耦，采用多層存儲(内存磁盤)，除此之外沒有披露更多技術細節。

3 Riffle

Facebook Riffle2采用了在Mapper端Merge的方法，物理節點上部署的Riffle服務負責把此節點上的Shuffle數據按照PartitionId做Merge，從而一定程度把小粒度的随機讀合并成較大粒度。

4 Cosco

Facebook Cosco[6]7采用了Sailfish的方法并做了重設計，保留了Push Shuffle Parititon數據聚合的核心方法，但使用了獨立服務。服務端采用Master-Worker架構，使用内存兩副本，用DFS做持久化。Cosco基本上定義了RSS的标準架構，但受到DFS的拖累，性能上并沒有顯著提升。

5 Zeus

Uber Zeus[8]9同樣采用了去中心化的服務架構，但沒有類似etcd的角色維護Worker狀态，因此難以做狀态管理。Zeus通過Client雙推的方式做多副本，采用本地存儲。

6 RPMP

Intel RPMP10依靠RDMA和PMEM的新硬件來加速Shuffle，并沒有做數據聚合。

7 Magnet

LinkedIn Magnet1融合了本地Shuffle Push Shuffle，其設計哲學是"盡力而為"，Mapper的Output寫完本地後，Push線程會把數據推給遠端的ESS做聚合，且不保證所有數據都會聚合。受益于本地Shuffle，Magnet在容錯和AE的支持上的表現更好(直接FallbACK到傳統Shuffle)。Magnet的局限包括依賴本地盤，不支持存算分離；數據合并依賴ESS，對NodeManager造成額外壓力；Shuffle Write同時寫本地和遠端，性能達不到最優。Magnet方案已經被Apache Spark接納，成為默認的開源方案。

8 FireStorm

FireStorm11混合了Cosco和Zeus的設計，服務端采用Master-Worker架構，通過Client多寫實現多副本。FireStorm使用了本地盤對象存儲的多層存儲，采用較大的PushBlock(默認3M)。FireStorm在存儲端保留了PushBlock的元信息，并記錄在索引文件中。FireStorm的Client緩存數據的内存由Spark MemoryManager進行管理，并通過細顆粒度的内存分配(默認3K)來盡量避免内存浪費。

從上述描述可知，當前的方案基本收斂到Push Shuffle，但在一些關鍵設計上的選擇各家不盡相同，主要體現在:

集成到Spark内部還是獨立服務。
RSS服務側架構，選項包括：Master-Worker，含輕量級狀态管理的去中心化，完全去中心化。
Shuffle數據的存儲，選項包括：内存，本地盤，DFS，對象存儲。
多副本的實現，選項包括：Client多推，服務端做Replication。

阿裡雲RSS12由2020年推出，核心設計參考了Sailfish和Cosco，并且在架構和實現層面做了改良，下文将詳細介紹。

三阿裡雲RSS核心架構

針對上一節的關鍵設計，阿裡雲RSS的選擇如下：

獨立服務。考慮到将RSS集成到Spark内部無法滿足存算分離架構，阿裡雲RSS将作為獨立服務提供Shuffle服務。
Master-Worker架構。通過Master節點做服務狀态管理非常必要，基于etcd的狀态狀态管理能力受限。
多種存儲方式。目前支持本地盤/DFS等存儲方式，主打本地盤，将來會往分層存儲方向發展。
服務端做Replication。Client多推會額外消耗計算節點的網絡和計算資源，在獨立部署或者服務化的場景下對計算集群不友好。

下圖展示了阿裡雲RSS的關鍵架構，包含Client(RSS Client, Meta Service)，Master(Resource Manager)和Worker三個角色。Shuffle的過程如下:

Mapper在首次PushData時請求Master分配Worker資源，Worker記錄自己所需要服務的Partition列表。
Mapper把Shuffle數據緩存到内存，超過阈值時觸發Push。
隸屬同個Partition的數據被Push到同一個Worker做合并，主Worker内存接收到數據後立即向從Worker發起Replication，數據達成内存兩副本後即向Client發送ACK，Flusher後台線程負責刷盤。
Mapper Stage運行結束，MetaService向Worker發起CommitFiles命令，把殘留在内存的數據全部刷盤并返回文件列表。
Reducer從對應的文件列表中讀取Shuffle數據。

點擊鍊接查看原文阿裡雲EMR Remote Shuffle Service在小米的實踐，關注公衆号【阿裡技術】獲取更多福利！

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

圖文女性痛經有哪些調理方法
女性痛經有哪些調理方法?痛經的食療原則有哪些？這是大家比較關注的，隻有把握了痛經的食療原則，才能夠幫助大家積極的調理身體，恢複健康，接下來我們就對痛經的食療原則做詳細的分析，我來為大家講解一下關于女性痛經有哪些調理方法?跟着小編一起來看一看... 2022-10-22
圖文千足金和萬足金的區别在哪
千足金和萬足金的區别在哪?黃金千足金、足金、萬足金的區别大嗎？看完後再買就有譜了黃金作為硬通貨，深受人們的喜愛，現在去珠寶店購買金的時候，千足金、足金、18K金，甚至萬足金，讓人眼花缭亂，那麼這些金有什麼區别呢？小編帶你來揭開黃金的神秘面紗... 2022-10-02
圖文鼻咽癌早期五大症狀如何檢查
案例：一男子從去年開始一直流鼻血，總覺得自己得了鼻咽癌。所以為了打消這個疑慮，他每周都要去醫院進行鼻内鏡檢查，但結果都很正常。盡管如此，該男子還是不放心，總覺得自己得癌了！專家表示，雖然流鼻血是鼻咽癌的明顯早期症狀，但也不能因此而過于恐慌。... 2022-11-04
圖文西遊記中的未解之謎
西遊記中的未解之謎?西遊記未解之謎：西遊記，中國古代四大名著之一，也是大家家喻戶曉的中國古代一部浪漫主義長篇神魔小說，《西遊記》在思想境界和藝術境界上都達到了前所未有的高度，可謂集大成者而且又有多少人想過，其實西遊記裡面有許多我們所不知道的... 2022-10-19
圖文等了一會兒的等
相信很多國内網友對于VPN都不會陌生，通過使用VPN服務，你可以訪問一些原本無法訪問或者訪問速度緩慢的網站，另外VPN還有一項功能就是讓你僞裝成其他地區的訪問者，對于國内Steam玩家而言，VPN的意義還在于可以沖破Valve的一些鎖區和限... 2022-11-09
圖文怎麼報名農藝師等級證
随着行業規範化正規化成熟化，在從事農藝師方面，并不是說沒證書就一定技術差,但證書是一個人素質和能力的外在體現。有了農藝師證書更加提升個人競争力。是就業加薪，崗位提升，進入大公司或相關高級職位的敲門磚。看臉的社會，人靠衣裝，由全國工商聯人才交... 2022-10-30
圖文佛山市公交車最新線路圖
為全力做好新型冠狀病毒疫情預防控制工作，有效阻止疫情傳播擴散，部分廣佛公共交通線路由2020年2月3日起實施臨時調整，敬請市民留意，提前做好出行安排。具體如下：禅城區部分公交線路由2020年2月3日起實施臨時調整一、G10線路：總站由“保利... 2023-03-15
圖文簡述奧林匹斯十二主神的名稱
農神德墨忒耳(Demeter)得墨忒耳是希臘奧林匹斯十二主神之一，羅馬名字刻瑞斯(Ceres)。她是宙斯的姐姐，掌管農業的女神，給予大地生機，教授人類耕種，她也是正義女神。她與宙斯生下珀耳塞福涅(Persephone，有說是春之女神)，珀耳... 2023-01-10
圖文震蕩電路的計算
RC振蕩電路的幾種接法采用RC振蕩的方法非常多，如文氏橋振蕩等。這裡介紹幾種筆者常用的方法：1.最簡單的振蕩器這種振蕩器特點是：T≈（1.4～2.3）R*C，電源波動将使頻率不穩定，适合小于100KHz的低頻振蕩情況。2.加補償電阻的振蕩T... 2022-11-18
圖文工銀亞洲賬戶彙款多長時間到内地
目前，國内工商銀行使用手機銀行，購彙并将港币轉到香港賬戶，國内免手續費，香港工銀亞洲每筆收取60港币手續費。2.用手機下載“中國工商銀行”APP3.下載完成，登陸手機銀行後，保證銀行卡裡餘額充足，先購彙4.選擇港币或者美元都可以，本文以購彙... 2022-11-20
圖文喝牛奶要注意些什麼
喝牛奶要注意些什麼?牛奶含有豐富的鈣、維生素D等，是人們日常生活中喜愛的飲食之一牛奶的營養價值已為越來越多人所認識，但是您知道嗎，喝牛奶也有許多需要注意的地方，今天小編就來說說關于喝牛奶要注意些什麼?下面更多詳細答案一起來看看吧!喝牛奶要注... 2022-11-19
圖文上好佳是國企嗎
近日，有網友在社交媒體上發布上好佳蘇州公司關閉相關視頻。視頻中人群圍着一張桌子,視頻配文稱蘇州上好佳公司關閉。紅星資本局緻電咨詢蘇州上好佳食品有限公司（以下簡稱“蘇州上好佳”）蘇州公司、工廠倒閉傳言是否屬實，蘇州上好佳暫未直接回應。此外，網... 2022-10-21
圖文焦作雲台山一日遊
前幾天我去河南焦作雲台山遊玩，在查詢了很多旅遊攻略後，再結合自己遊玩的親身體會，總結了一下去雲台山遊玩的最佳行程。如果你也是自由行，可以參照這個方案來玩，相信你一定會玩的很開心！雲台山雲台山的詳細介紹我就不多說了，河南大名鼎鼎的5A級景區。... 2022-11-19
圖文稻盛和夫十大經典語錄
日本“經營之父”稻盛和夫2022年8月24日在京都私宅中走完了自己輝煌的一生，終年90歲。提起稻盛和夫我相信大家并不陌生，即使在日本“經營四聖”（松下幸之助--松下公司；本田宗一郎--本田公司；盛田昭夫--索尼公司；稻盛和夫--京瓷公司）中... 2022-12-22
圖文常德和嶽陽的區别
長沙是湖南第一城，這個沒有異議。哪誰是湖南第二城呢？從經濟角度來講，常德和嶽陽最具競争力。現在我們一起來對比一下常德和嶽陽兩市的經濟發展條件，看看誰的經濟更有潛力（當然我們主要談談經濟因素，不涉及其它，不作無謂争論）。嶽陽對比常德，你更看好... 2022-11-19
圖文男子意外繼承400億遺産
不是富二代，不是企業家，沒有讀過大學，一輩子也沒有上過幾天班的李春平，卻以平均每年7萬元的速度，向需要救助的人捐款，因此被譽為“百年慈善第一人”。那麼，他的錢是怎麼來的？他的命運又如何呢？（李春平）李春平是老革命的兒子，不過由于父親官職不高... 2023-01-09
圖文長時間的陪伴比不過好看的皮囊
常言道，人在江湖，身不由己。其實，大多數事情怨不得别人，無論是迫于壓力，還是有意為之，都是自己決定的結果。太在意别人的看法，會忘記自己是誰。當我們發現，現實磨平了意志，環境改變了心态，已經回不到過去。學會做個真誠的人，一要好意思，二要厚臉皮... 2022-12-24
圖文宋祖德再曝林生斌猛料
宋祖德再曝林生斌猛料?導語：4年前的林生斌，靠着拿朱小貞跟孩子的撫養費，有了發家的機會，短短幾年的時間就成為大公司的老闆，甚至還帶着員工當網紅開直播賣貨，下面我們就來說一說關于宋祖德再曝林生斌猛料?我們一起去了解并探讨一下這個問題吧!宋祖德... 2022-09-30
圖文速發幹海參做法
By豆粉9月用料鹽漬海參礦泉水做法步驟1、鹽漬海參充分解凍。2、清洗幹淨的準備煮制的海參。3、用清洗幹淨無油的鍋添加礦泉水，放入海參後大火燒開，轉小火五十分鐘。4、煮好的海參在熱鍋裡靜置二十分鐘後變涼，倒出簡單清洗。5、清理海參，買的鹽漬海... 2022-12-24
圖文南昌公辦大學排名
國家級名單公布！南昌大學、江西師範大學、南昌航空大學等10個高校申報的項目入選3月3日，江西省教育廳發布《關于國家級科技創新平台培育項目立項結果的公示》，拟确定南昌航空大學申報的《持久性污染物控制與資源循環利用重點實驗室》、江西師範大學申報... 2023-01-10
圖文戰狼2女主角盧靖姗片段
戰狼2女主角盧靖姗片段?最近影院最引人注目的電影就是管虎導演的《八佰》了，在當下低迷的電影環境中，《八佰》就像一顆驚雷，下面我們就來聊聊關于戰狼2女主角盧靖姗片段?接下來我們就一起去了解一下吧!戰狼2女主角盧靖姗片段最近影院最引人注目的電影... 2022-10-14
圖文宣傳海報設計技巧和思路
當今社會，各種行業的宣傳工作都少不了海報的宣傳，隻有做好宣傳産品才能收到歡迎，一個好的公司宣傳海報設計，要考慮的事項以及因素很多，隻有深入分析這些事項和因素，才能更好的做到産品宣傳。想要讓招貼出來的宣傳海報有人看，首先你應該要考慮的就是要去... 2022-10-26
圖文皮膚缺水暗黃如何改善
皮膚出現缺水和暗黃，這種情況有可能是由于平時的生活中患者長時間的熬夜，從而導緻這種現象的發生，如何改善？一塊出色的祛黃保濕護膚品臻品自然必不可少。小編今天給各位經常熬夜晚睡的帥哥美女們盤點出祛黃補水護膚品排行榜，上榜的十強品牌依次為：悅蕾、... 2022-11-16
圖文快手浪子吳迪直播回放
作者：李大狗在快手，很多主播都有自己家口号。這些口号看起來差不多，都是東北順口溜style，但其實仔細推敲，背後都代表着不同“家族”的不同風格。今天球長就來掰扯掰扯，快手主播們的家族口号~仙家：最有傳統快手“豪門”仙洋家粉絲的口号是：滿腔熱... 2022-12-08
圖文好物分享拔黑頭
草莓這種水果人人都愛，但是跟鼻子聯系起來，就不那麼可愛了，人人都想敬而遠之。但是很可惜，基本上沒有人能逃過黑頭的魔爪，哪怕是電視屏幕上皮膚仿佛無瑕疵的明星們，在高清鏡頭下臉上的黑頭也無所遁形。所以，如何去黑頭，怎麼預防黑頭也變成了經久不衰的... 2022-12-01
圖文南郭先生故事
李大嘴大嘴讀史東郭先生其實并不是一個名字，隻是一個稱呼。古時候，一些規模比較大的城市，往往有内城和外城，内城被稱為城，外城就被成為郭，内城屬于市中心繁華區域的Up-town，外城屬于接近郊區的Down-town。所謂東郭先生，就是居住在東外... 2023-01-13
圖文宸汐緣張震倪妮如何确定彼此心意
宸汐緣張震倪妮如何确定彼此心意?而且，還應運而生了一大批真香粉的“土特産女孩銀河護劇隊”，這樣的粉絲群體，應運而生，可畏是空前絕後并且，場面恢弘到讓你不敢想像今天，小編就從《宸汐緣》的劇粉視角，來和大家分享，什麼才叫“好劇，好演員”能夠催生... 2022-10-08
圖文樓道燈總是壞怎麼辦
B05版聯系方式xwhbshq長春市民孫先生反映：白山胡同26号居民樓樓道燈一個月都不亮了，樓裡住的都是老年人，上下樓太不方便了。孫先生說，他家住長春市青雲街白山胡同26号樓，這是一棟老居民樓，已經有30多年的曆史，一直都沒有物業管理。上個... 2022-11-13
圖文東莞市消防最新消息
東莞市消防最新消息?東莞市持續開展“打通生命通道”消防安全專項行動10月20日，東莞消防再次曝光55家存在火災隐患的單位，我來為大家講解一下關于東莞市消防最新消息?跟着小編一起來看一看吧!東莞市消防最新消息東莞市持續開展“打通生命通道”消防... 2022-10-30
圖文野生蘑菇哪些不可以吃
野生蘑菇哪些不可以吃?俗話說，吃4條腿兒的，不如吃2條腿兒的吃2條腿兒的，不如吃1條腿兒的這1條腿兒的，說的就是菌菇但究竟是菌還是菇，隻是在不同地域上叫法或許有所區别，菌類和菇類算是同胞，基本不分你我，我來為大家講解一下關于野生蘑菇哪些不可... 2022-09-30

tft每日頭條

> 圖文

> 小米組件自定義大小

小米組件自定義大小

相关圖文资讯推荐

热门圖文资讯推荐

网友关注