這篇文章主要介紹“hash shuffle發展階段有哪些”,在日常操作中,相信很多人在hash shuffle發展階段有哪些問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”hash shuffle發展階段有哪些”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
創新互聯公司服務項目包括盧氏網站建設、盧氏網站制作、盧氏網頁制作以及盧氏網絡營銷策劃等。多年來,我們專注于互聯網行業,利用自身積累的技術優勢、行業經驗、深度合作伙伴關系等,向廣大中小型企業、政府機構等提供互聯網行業的解決方案,盧氏網站推廣取得了明顯的社會效益與經濟效益。目前,我們服務的客戶以成都為中心已經輻射到盧氏省份的部分城市,未來相信會繼續擴大服務區域并繼續獲得客戶的支持與信任!
spark實現了多種shuffle方法,通過 spark.shuffle.manager來確定。暫時總共有三種:hash shuffle、sort shuffle和tungsten-sort shuffle,從1.2.0開始默認為sort shuffle。
spark在1.2前默認為hash shuffle(spark.shuffle.manager = hash),但hash shuffle也經歷了兩個發展階段。
##第一階段

上圖有 4 個 ShuffleMapTask 要在同一個 worker node 上運行,CPU core 數為 2,可以同時運行兩個 task。每個 task 的執行結果(該 stage 的 finalRDD 中某個 partition 包含的 records)被逐一寫到本地磁盤上。每個 task 包含 R 個緩沖區,R = reducer 個數(也就是下一個 stage 中 task 的個數),緩沖區被稱為 bucket,其大小為spark.shuffle.file.buffer.kb ,默認是 32KB(Spark 1.1 版本以前是 100KB)。
##第二階段 這樣的實現很簡單,但有幾個問題:
1 產生的 FileSegment 過多。每個 ShuffleMapTask 產生 R(reducer 個數)個 FileSegment,M 個 ShuffleMapTask 就會產生 M * R 個文件。一般 Spark job 的 M 和 R 都很大,因此磁盤上會存在大量的數據文件。
2 緩沖區占用內存空間大。每個 ShuffleMapTask 需要開 R 個 bucket,M 個 ShuffleMapTask 就會產生 M * R 個 bucket。雖然一個 ShuffleMapTask 結束后,對應的緩沖區可以被回收,但一個 worker node 上同時存在的 bucket 個數可以達到 cores R 個(一般 worker 同時可以運行 cores 個 ShuffleMapTask),占用的內存空間也就達到了cores * R * 32 KB。對于 8 核 1000 個 reducer 來說,占用內存就是 256MB。
spark.shuffle.consolidateFiles默認為false,如果為true,shuffleMapTask輸出文件可以被合并。如圖

可以明顯看出,在一個 core 上連續執行的 ShuffleMapTasks 可以共用一個輸出文件 ShuffleFile。先執行完的 ShuffleMapTask 形成 ShuffleBlock i,后執行的 ShuffleMapTask 可以將輸出數據直接追加到 ShuffleBlock i 后面,形成 ShuffleBlock i',每個 ShuffleBlock 被稱為 FileSegment。下一個 stage 的 reducer 只需要 fetch 整個 ShuffleFile 就行了。這樣,每個 worker 持有的文件數降為 cores * R。但是緩存空間占用大還沒有解決。
到此,關于“hash shuffle發展階段有哪些”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注創新互聯網站,小編會繼續努力為大家帶來更多實用的文章!
當前名稱:hashshuffle發展階段有哪些
瀏覽地址:http://www.yijiale78.com/article18/jjpegp.html
成都網站建設公司_創新互聯,為您提供網站制作、全網營銷推廣、靜態網站、商城網站、做網站、營銷型網站建設
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯