大數據Hadoop
Hadoop可以做大數據量存儲,它是分布式,可以存儲離線的數據,不需要實時性的數據,就像雲盤,網盤那樣,你用的時候,可以直接讀取就行。
你也可以将曆史數據存儲在Hadoop上,通過整體來分析數據,比抽樣的數據要全,更可靠。
還可以處理大型文件,比如PB級别的,因為它的HDFS是分布式存儲數據的,它會将數據按塊來進行存儲,一般是128M,現在3.0是256M。
Hadoop可以做日志處理: 通過MapReduce編程可以抽取想要的内容,也可以結合Flume來收集想要的數據,并通過Hive将數據保存到表,實際上數據底層還是存儲在Hadoop上,進行日志分析。
Hadoop支持并行計算,因為它是分布式的,數據是存儲在不同的機器上,如果你的需求滿足分布式計算,那你就可以用MR來就行海量計算。我曾經用MR做過算法,那是2年前啦。
Hadoop還可以将數據從oracle、mysql、DB2、mongdb等的數據進行ETL處理後,存儲在HDFS上進行保存。它有三個副本,非常可靠。
Hadoop還可以通過使用HBase做數據分析,因為HBase是基于Hadoop的數據庫, 可以實現實時性,高效和随機讀寫。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!