tft每日頭條

 > 科技

 > 大數據技術與應用專業排名

大數據技術與應用專業排名

科技 更新时间:2024-11-19 08:31:39

大數據技術與應用專業排名?從數據的使用生命周期來看,可以分為下面幾個階段:數據采集,數加工處理,數據存儲,數據分析因為不同的存儲,采集、加工、分析的方法和工具不盡相同,所以我們先說說數據存儲,今天小編就來說說關于大數據技術與應用專業排名?下面更多詳細答案一起來看看吧!

大數據技術與應用專業排名(大數據都用哪些技術)1

大數據技術與應用專業排名

哪些技術

從數據的使用生命周期來看,可以分為下面幾個階段:數據采集,數加工處理,數據存儲,數據分析。因為不同的存儲,采集、加工、分析的方法和工具不盡相同,所以我們先說說數據存儲。

數據存儲

說到大數據技術,很多人片面的認為是Hadoop生态圈,切确的我們可以分為如下幾個方向:

  1. MPP架構的數據庫集群。大規模并行處理MPP框架的引擎有clickhouse,doris,druid,greenplum,TiDB,impala,presto,其中impala和presto是隻負責計算,不負責存儲的引擎,可想而知,這兩個極其依賴CPU和内存的,每種引擎有各自的優勢和缺點,後續文章詳解。
  2. MPP架構的搜索引擎。常用的就是ELASTICSEARCH,它适合單個主題數據的搜索,不适合做多主題數據join。
  3. Hadoop生态圈。Hadoop集群20個節點以上,存儲和計算能力才能發揮一定的優勢,如果隻是三、四個節點,測試開發用還可以,線上就歇一歇吧。
  4. 雲文件存儲産品。例如AWS的S3,阿裡雲的OSS,一般這些雲服務商MPP架構計算産品可以讀取這類數據,進行分析計算,例如阿裡雲的MaxCompute可以讀取OSS的數據。
數據采集
  1. 數據庫采集。采集到Hadoop,流行的是Sqoop工具,也可以訂閱binlog把數據定時上傳到HDFS。如果同步到MPP數據庫,市面上還沒找到合适的工具,可以自行開發,訂閱binlog數據,同步到MPP數據庫中。
  2. 文件日志采集。采用的工具有Flume、logstash。
  3. 消息數據采集。例如kafka消息中間件,常用的工具有Flume,一般我們用Akka stream alpakka工具包。
數據加工

結構化的數據錄入了hdfs後,一般的使用hivesql、spark、flink,對數據進行清理,補全,加工,然後對數據分層,也可能會使用到類似ozzie這樣的調度系統。

如果使用MPP引擎存儲,數據加工這一步,一般在錄入數據之前做掉,流式數據處理是比較好的選擇,spark streaming、kafka streaming、akka stream等。

數據分析
  1. 報表分析,例如基于hive數據倉庫T 1離線計算,第二天展示報表場景。
  2. 挖掘分析,這類分析相對更高級,以及數據加工出來的指标、語義、特征,使用數據挖掘算法,進行分類、聚合或者預測分析,一般是是居于Hadoop生态圈。
  3. OLAP分析,常見的分兩種,其一,MOLAP,适合業務固定的場景,數據定期更新,用戶定義出計算邏輯後,每天空閑時進行全量預計算,最後展現計算結果或者根據計算結果進行相應的處理,常見的技術有hive sql、kylin;其二,ROLAP,适合低并發/高并發的Adhoc查詢場景,數據準實時更新,可能會有大量的主題數據join,常見的技術有impala kudu、doris。
  4. 實時分析,基于流式數據的分析spark streaming,flink,akka streaming等等;基于支持準實時數據更新的MPP架構引擎,例如doris、impala kudu。
“小數據”分析系統用什麼技術

如果企業數據不足以用大數據,那用什麼技術呢。一般提供解決方案的公司,都會給你推薦一套高大上的大數據解決方案,其實自己掂量掂量一下,它們并一不定适合你,殺蚊子用坦克,太浪費了。

任何解決方案實施的第一步都是數據采集和對接,對于小數據量,通常期望數據是實時的,目标地址存儲一般是關系型數據庫,例如mysql,數據來源無非是如下幾種:

  • 接口抽取
  • 消息訂閱
  • 數據庫抽取
  • 文件抽取

抽取到數據後,下一步就是加工,例如轉化、填充、過濾等等,最後就是落庫了,bangbangbang!這就是ETL。

那麼有沒有一種技術,能方便地把這三個事都做了,并且還能保證準實時?有,我推薦一種經過大量項目考驗後的成功解決方案,基于akka stream的解決方案。詳細地設計我們以後再說,有迫切需求的可以私聊我。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved