tft每日頭條

 > 科技

 > 為什麼要用大數據技術

為什麼要用大數據技術

科技 更新时间:2025-03-12 17:16:21

大數據發展到今天,通常來說有兩層含義,海量的數據集合以及對海量數據集合進行處理的大數據技術。海量的數據集合,這個非常好理解,就是不斷累積起來的數據資源,而大數據技術又是指什麼呢?何為大數據技術,今天我們來對大數據技術發展曆程做個簡單的介紹。

從定義來說,大數據技術是指從各種各樣類型的巨量數據中,快速獲得有價值信息的技術。在行業當中的大數據研發者們,就是緻力于将大數據技術應用到相關領域,從巨量數據從中獲取有價值的信息。

為什麼要用大數據技術(何為大數據技術)1

我們對大數據技術的認知,通常包括采集數據的工具、平台和數據分析系統等。

最早的第一代大數據技術框架,是Doug Cutting參考谷歌在2003年發表的Google File System論文,建立了Hadoop開源項目,并于2006年貢獻給Apache基金會,用來構建大規模搜索引擎和解決大規模的數據存儲和離線計算的難題。

首先誕生的是分布式文件系統HDFS和分布式計算框架MapReduce。随後在2007年,Facebook開發了Hive,可以使用類SQL語言查詢存放在HDFS上的數據,PowerSet公司開發了分布式NoSQL數據庫HBase。

從2006到2009年這個階段,以MapReduce計算框架為代表,大數據技術在大型互聯網企業被廣泛應用于大規模結構化數據的批處理,具體的應用場景是做日志分析和用戶行為分析等。這個階段我們稱之為大數據的1.0時代。

為什麼要用大數據技術(何為大數據技術)2

大數據進入2.0時代的标志,是Spark核心計算引擎的出現。

由于MapReduce在要求短時間響應的交互式分析場景下表現不好,以Spark和Flink為代表的新計算引擎出現并廣泛使用。這個階段有三個重要變化:

一是大數據業務更多轉為結構化數據處理等價值密度更高的計算,所有的大數據公司開始在Hadoop之上打造SQL引擎或分布數據庫。2012年開始到随後兩年中出現20多個基于Hadoop的SQL引擎,包括Impala、Spark SQL等,以及星環的Inceptor,以解決結構化數據問題;

二是實時數據處理方面,大量的實時數據需要及時處理,到2015年,Flink、Beam、Spark Streaming等開源技術湧現,而商業化的流計算引擎如星環Slipstream的發展也如火如荼,相比開源的流引擎能夠提供更多的産品能力,包括數據不丢不重、安全、SQL引擎等能力;

此外,非結構化的處理技術随着數據科學技術的發展而興起,非結構化文檔數據處理、圖分析技術也逐漸興起。

随着企業的數據量越來越大,數據業務的多樣性和複雜性增加,在數據存儲、計算和數據業務打通方面的挑戰也越來越大。

關于何為大數據技術,大數據技術發展曆程,以上就為大家做了一個簡單的介紹了。大數據技術的發展,是随着大數據的發展在不斷更新叠代的,作為技術開發者,保持學習,跟上最新技術趨勢,是基本的素養。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved