随着大數據行業的發展,大數據生态圈中相關的技術也在一直叠代進步,作者有幸親身經曆了國内大數據行業從零到一的發展曆程,通過本文希望能夠幫助大家快速構建大數據生态圈完整知識體系。
目前大數據生态圈中的核心技術總結下來如圖1所示,分為以下9類,下面分别介紹。
圖1
1
數據采集技術框架
數據采集也被稱為數據同步。
随着互聯網、移動互聯網、物聯網等技術的興起,産生了海量數據。這些數據散落在各個地方,我們需要将這些數據融合到一起,然後從這些海量數據中計算出一些有價值的内容。此時第一步需要做的是把數據采集過來。數據采集是大數據的基礎,沒有數據采集,何談大數據!
數據采集技術框架包括以幾種。
表1
表2
表3
Flume、Logstash和FileBeat的技術選型如圖2所示。
圖2
Sqoop和Datax之間的技術選型如圖3所示。
圖3
Cannal和Maxwell之間的技術選型如圖4所示。
圖4
2
數據存儲技術框架
數據的快速增長推動了技術的發展,湧現出了一批優秀的、支持分布式的存儲系統。數據存儲技術框架包括HDFS、HBase、Kudu、Kafka等。
3
分布式資源管理框架
在傳統的IT領域中,企業的服務器資源(内存、CPU等)是有限的,也是固定的。但是,服務器的應用場景卻是靈活多變的。例如,今天臨時上線了一個系統,需要占用幾台服務器;過了幾天,需要把這個系統下線,把這幾台服務器清理出來。
在大數據時代到來之前,服務器資源的變更對應的是系統的上線和下線,這些變動是有限的。
随着大數據時代的到來,臨時任務的需求量大增,這些任務往往需要大量的服務器資源。
如果此時還依賴運維人員人工對接服務器資源的變更,顯然是不現實的。
因此,分布式資源管理系統應運而生,常見的包括YARN、Kubernetes和Mesos,它們的典型應用領域如圖5所示。
圖5
4
數據計算技術框架
數據計算分為離線數據計算和實時數據計算。(1)離線數據計算
大數據中的離線數據計算引擎經過十幾年的發展,到目前為止主要發生了3次大的變更。
(2)實時數據計算
業内最典型的實時數據計算場景是天貓“雙十一”的數據大屏。
數據大屏中展現的成交總金額、訂單總量等數據指标,都是實時計算出來的。
用戶購買商品後,商品的金額就會被實時增加到數據大屏中的成交總金額中。
用于實時數據計算的工具主要有以下3種。
Spark Streaming和Storm、Flink之間的區别見表4。
表4
Storm、Spark、Flink 之間的技術選型如圖6所示。
圖6
目前企業中離線計算主要使用Spark,實時計算主要使用Flink。
5
數據分析技術框架
數據分析技術框架包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它們的典型應用場景如圖7所示。
圖7
Hive、Impala和Kylin屬于典型的離線OLAP數據分析引擎,主要應用在離線數據分析領域,它們之間的區别見表5。
表5
Clickhouse、Druid和Drois屬于典型的實時OLAP數據分析引擎,主要應用在實時數據分析領域,它們之間的區别見表6。
表6
6
任務調度技術框架
任務調度技術框架包括Azkaban、Ooize、DolphinScheduler等。它們适用于普通定時執行的例行化任務,以及包含複雜依賴關系的多級任務進行調度,支持分布式,保證調度系統的性能和穩定性,它們之間的區别見表7。表7
它們之前的技術選型如圖8所示。
圖8
7
大數據底層基礎技術框架
大數據底層基礎技術框架主要是指Zookeeper。Zookeepe主要提供常用的基礎功能(例如:命名空間、配置服務等),大數據生态圈中的Hadoop(HA)、HBase、Kafka等技術組件的運行都會用到Zookeeper。8
數據檢索技術框架
随着企業中數據的逐步積累,針對海量數據的統計分析需求會變得越來越多樣化:不僅要進行分析,還要實現多條件快速複雜查詢。例如,電商網站中的商品搜索功能,以及各種搜索引擎中的信息檢索功能,這些功能都屬于多條件快速複雜查詢的範疇。在選擇全文檢索引擎工具時,可以從易用性、擴展性、穩定性、集群運維難度、項目集成程度、社區活躍度這幾個方面進行對比。Lucene、Solr和Elasticsearch的對比見表8。
表8
9
大數據集群安裝管理框架
企業如果想從傳統的數據處理轉型到大數據處理,首先要做就是搭建一個穩定可靠的大數據平台。一個完整的大數據平台需要包含數據采集、數據存儲、數據計算、數據分析、集群監控等功能,這就意味着其中需要包含Flume、Kafka、Haodop、Hive、HBase、Spark、Flink等組件,這些組件需要部署到上百台甚至上千台機器中。
如果依靠運維人員單獨安裝每一個組件,則工作量比較大,而且需要考慮版本之間的匹配問題及各種沖突問題,并且後期集群維護工作也會給運維人員造成很大的壓力。
于是,國外一些廠商就對大數據中的組件進行了封裝,提供了一體化的大數據平台,利用它可以快速安裝大數據組件。目前業内最常見的是包括CDH、HDP、CDP等。
三者的關系如圖9所示。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!