hadoopmapreduce工作流程-tft每日頭條

hadoopmapreduce工作流程

科技更新时间:2025-05-20 08:53:57

大數據和大數據框架

大數據解決的是單機無法處理的數據。無論是存儲數據還是計算數據都變得困難無比，大數據框架的出現就是為了解決這個問題，讓使用者可以像使用本地主機一樣使用多個計算機的處理器，像使用一個本地磁盤一樣使用一個大規模的存儲集群。

離線計算和實時計算

離線計算多用于模型的訓練和數據預處理，最經典的就是|Hadoop和MapReduce；

實時計算框架是要求立即返回計算結果的，快速響應請求，如Strom、Spark Streaming等框架，多用于簡單的累積計數和基于訓練好的模型進行分類等操作。

Hadoop 核心框架

hadoopmapreduce工作流程（Hadoop核心框架和MapReduce原理）1

（1）Hadoop Common

Hadoop的核心功能，對其他的Hadoop模塊做支撐，包含了大量的對底層文件、網絡的訪問，對數據類型的支持，以及對象的序列化、反序列化的操作支持等。

（2）Hadoop Distributed File System（HDFS）

Hadoop 分布式文件系統，用來存儲大量的數據。

（3）Hadoop YARN

一個任務調度和資源管理的框架。

（4）Hadoop MapReduce

基于YARN的并行大數據處理組件。

hadoopmapreduce工作流程（Hadoop核心框架和MapReduce原理）2

一般把Hadoop Common、HDFS、YARN、MapReduce這四部分統稱為Hadoop 框架，而在Hadoop 生态環境中，還有進行SQL 化管理HDFS的Hive 組件，支持OLTP業務的NoSQL 分布式數據庫HBase組件，進行圖形界面管理的Ambari組件等。

MapReduce原理

MapReduce是解決并行任務的一種模型，将一個可拆解的任務分散到多個計算節點進行計算，最後合并計算結果。

MapReduce背後的思想很簡單，就是把一些數據通過map來歸類，通過reducer來把同一類的數據進行處理。

hadoopmapreduce工作流程（Hadoop核心框架和MapReduce原理）3

Map階段：首先是讀數據，數據來源可能是文本文件，表格，MySQL數據庫。這些數據通常是成千上萬的文件（叫做shards），這些shards被當做一個邏輯輸入源。然後Map階段調用用戶實現的函數，叫做Mapper，獨立且并行的處理每個shard。對于每個shard，Mapper返回多個鍵值對，這是Map階段的輸出。

Shuffle階段：把鍵值對進行歸類，也就是把所有相同的鍵的鍵值對歸為一類。這個步驟的輸出是不同的鍵和該鍵的對應的值的數據流。

Reduce階段: 輸入當然是shuffle的輸出。然後Reduce階段調用用戶實現的函數，叫做Reducer，對每個不同的鍵和該鍵的對應的值的數據流進行獨立、并行的處理。每個reducer遍曆鍵對應的值，然後對值進行“置換”。這些置換通常指的的是值的聚合或者什麼也不處理，然後把鍵值對寫入數據庫、表格或者文件中。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技移動積分兌話費發短信方式
2023-07-20
科技電池充電原理
1、蓄電池從外電路接收電能，轉化為電池的化學能的工作。蓄電池在其能量經放電消耗後，通過充電恢複，又能... 2023-07-20
科技 oppoa8什麼時候上市的
2023-07-20
科技 15公斤液化氣實際重量多少合乎規格
1、15公斤液化氣鋼瓶标準重量為17.2公斤，民用的液化石油氣鋼瓶計量原來執行标準是：充裝量為(14... 2023-07-20
科技滾筒洗衣機中途添衣怎麼打開門
2023-07-20
科技微博裡repost是什麼意思啊
2023-07-20
科技正确處理幼兒急疹
第一、寶寶急疹初期的症狀是發熱，發熱不超過39度，可以不吃退燒藥，用溫水擦拭身體，做物理降溫即可。一旦超過39度，就要吃退燒藥了。第二、寶寶在急疹初期，會表現為食欲不振，精神不好，在飲食方面給寶寶多些易消化的爛粥，同時多吃水果和蔬菜，補充充足的水分。第三、寶寶出疹子後，疹子會遍布全身，不需要擦藥，做好皮膚清潔就好，同時不要讓寶寶去撓這些疹子，疹子破了是會留疤的。第四、寶寶出疹子後給寶寶穿純棉寬松的 2023-07-20
科技得物的閑置優品是什麼
2023-07-20
科技蘋果手機電池怎麼設置百分比
1、首先在蘋果手機上面打開系統【設置】應用進入到裡面。2、接着在系統設置頁面中找到【電池】打開。3、... 2023-07-20
科技 ps怎麼重置所有設置
2023-07-20
科技格力空調遙控器怎麼調制熱
2023-07-20
科技電腦反應慢的原因
1、桌面上放太多圖标：桌面上有太多圖标也會降低系統啟動速度。很多用戶都喜歡将各種軟件或者遊戲的快捷方... 2023-07-20
科技花呗暢花包是可以使用的額度麼
2023-07-20
科技 zigbee技術特點
2023-07-20
科技酶反應器的應用
2023-07-20
科技天然氣報警器怎麼用
2023-07-20
科技如何剪切音頻
剪切音頻文件可以通過格式工廠這個電腦端的軟件進行實現，具體的操作步驟如下：1、首先在格式工廠的主界面... 2023-07-20
科技電腦系統版本在哪裡看
2023-07-20
科技怎麼解決自己家網絡卡
1、最常見的情況是路由器的問題，如果路由器的指示燈顯示沒有問題的話，那麼我們可以重啟一下路由器試試，... 2023-07-20
科技電腦顯示rebootandselec...
2023-07-20
科技企業微信能看到個人朋友圈嗎
2023-07-20
科技如何檢測二手手機
2023-07-20
科技 2060能開光追嗎
2023-07-20
科技固态硬盤與機械硬盤的區别
1、本質不同：機械硬盤本質是電磁存儲，固态則是半導體存儲。2、防震抗摔性不同：機械硬盤很怕摔，固态抗... 2023-07-20
科技筆記本電腦投屏操作方法
1、首先我們需要将電腦連接上路由器，然後點擊“開始”，進入“設置”，在設置的搜索欄搜索“控制面闆”。... 2023-07-20
科技烤箱第一次空烤關門還是開門
2023-07-20
科技高鐵原理
1、第一點：牽引：高速列車采用電動車組編組，每節動車頂部裝有受電弓，受電弓從接觸網受流獲得電能，如C... 2023-07-20
科技什麼是4k電視機
1、4K電視就是采用4K分辨率的電視機，4K分辨率即3840×2160的像素分辨率，它是2K投影機和... 2023-07-20
科技 vcc和vdd的區别
2023-07-20
科技哈弗h7怎麼連接藍牙
2023-07-20

tft每日頭條

> 科技

> hadoopmapreduce工作流程

hadoopmapreduce工作流程

相关科技资讯推荐

热门科技资讯推荐

网友关注