DT時代,人人言必稱大數據,所有的新系統幾乎都是基于大數據,有人認為用了MongoDB就是大數據,也有人用了Hadoop就是大數據,或者認為數據量大就是大數據。更有甚者,筆者看到一篇新聞報道,說某企業成功實施大數據項目,結果隻是SQL-Server集群……天呐,這可是上世紀的技術了!
說了這麼多到底什麼是大數據呢,其實大數據并沒有教科書式的明确定義,但是卻有比較公認的特性描述,符合這些特性的就可以稱作大數據,即大數據的4個V。
第一個V——高容量。這個最好理解,數據量一定要大,才好意思稱自己為大數據嘛。大到什麼程度呢?依目前行情來看,至少也要到TB級,很多案例都是PB甚至更高。但如果是GB級,非說自己是大數據也不是不可以,就是有點無顔見江東父老啊……
第二個V——多樣化。這個很關鍵了!是區别于以往海量數據挖掘的最主要特征。它有兩層含義,一是數據來源多樣化,系統數據、設備日志、傳感器、文件系統等等來源。二是數據結構多樣化,這是核心特征!要包含結構化數據、非結構數據(包括所謂半結構化數據)。總結起來就是,多源異構。這就是為什麼有人認為使用NoSQL數據庫(如MongoDB)就是大數據了,因為滿足了多樣化的特征,但其實還不夠。
第三個V——高速。即時效性,基本上至少也要達到億級數據一秒查詢,做的比較好的可以達到千億級數據一秒查詢。這個特征幾乎決定了傳統技術架構無法滿足要求,因此Hadoop架構的出現催化了大數據的發展,也是有人認為Hadoop就是大數據的原因。
第四個V——價值。這個很好理解,數據一定要有價值、而後才能産生價值。就好比存商品的叫才能倉庫,存垃圾的叫垃圾填滿坑一樣。沒價值的數據就像一個垃圾填滿坑,這也是為什麼數據治理在大數據實施中非常重要的原因之一。
最後,也是最重要的,以上4個V是邏輯與的關系,即需同時、注意是同時滿足上述四個特征,就可以放心的說自己是大數據了!
本文發自公衆号燊刻不深刻(shenkebushenke),歡迎關注。轉載請标明版權信息,謝謝!
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!