問大家一個問題:什麼是大數據?
這問題看似簡單,實際不簡單,也許一千個人會有一千個答案。是的,每個人對大數據都有自己的理解,就像問大家“什麼是愛情”一樣。
腫麼破?
對待這樣的難題,筆者一貫的作風是——舉例說明!
1.大數據是什麼?怎麼理解大數據?
筆者把數據比作地球上的水,單個數據就是一滴水,大數據就象地球上的海洋,它足夠大,水滴足夠多,多到用人工數不清楚,但總的來說,可以通過一定的方式估計海洋中水滴的總量。這麼說,你明白大數據了嗎?都說我們置身數據的海洋,當你在普吉坐船出海、在芽莊海灘遊玩,你可是真的置身海洋,并與之親密接觸。
2.都說大數據有4V的特征,是什麼意思?
大數據的4V,就是“容量大Volume”“多樣性Variety”“價值高Value”“速度快Velocity”,同樣以海洋為例:
A.海洋中水的量非常大;
B.海水是多樣的,太平洋的海水和大西洋的海水是有區别的,不同地方海水裡面蘊含的物質、生活的物種都有不同;
C.海洋為全人類帶來的好處太多了,人們利用海洋,開發海洋中無窮的價值;
D.速度快,有兩個層面的意思,一是海水流動快,二是随着技術的提升,我們對海水的利用也加快了速度(看看快艇、遊輪的發展)。
PS:第4個V的比喻有點牽強,但不影響發揮哈,他們說臉皮要厚……
3.對大數據的處理,以海洋石油開采為例:
通過技術手段,在茫茫大海中找到原油含量較高的地點,這是數據挖掘;
原油開采出來進行初加工,這是數據清洗;
然後在煉油廠進行提煉,這是數據分析;
煉出的有汽油、柴油、煤油、機油……最終呈現在我們眼前的,汽車保養時用的銀美孚、紅殼等,此為數據可視化。
4.Iaas,Paas,Saas?
大海在那裡,租給你一艘船,自己組織人手開船去找東西,是為Iaas---基礎設施即服務;
不但租給你船,還給你配齊船長、大副、水手,你隻需要說往哪開就行,這是Paas---平台即服務;
船租給你,船長、船員配置好,出海尋寶的路線都給你設計好,這是Saas---軟件即服務。
5.這幾年說大數據,必定說Hadoop,從2014年開始,又多了個Spark,是什麼意思呢?
假如你的家族世代打魚為生,以前你們都是聚集在東海的一個小島,每天一起駕駛僅有的一艘船出海打魚,整個家族能打到多少魚呢?現在你們做了改變,家族的人分散到世界海洋各地,各自開着自己的小船去打魚,你會發現每天你們整個家族一共打到的魚數量、種類都要多很多,Hadoop就是這樣,它是分布式系統基礎架構,解決海量數據的存儲及計算。
至于Spark嘛,就是你們家族弄了艘航空母艦,上面很多艦載飛機,還有若幹附屬艦艇和打魚裝備,每天艦艇、飛機出發攜打魚裝備去打魚,傍晚滿載而歸,打魚速度更快了,這就是Spark,一種與Hadoop類似的開源計算集群環境,啟用了内存分布數據集,直接從内存讀數據,你說快不快?
6.大數據用來做什麼?
大數據有很多應用場景,比如精準營銷,就是打魚的人通過多年海上經驗,知道哪片海域的海鮮多又能賣好價錢;比如輿情分析,就像海嘯預警,通過對海量信息的分析、比對,找出可能産生海嘯災害的區域,好比輿情分析過濾出負面信息……當然,最大的用處還是“預測”,比如通過分析多年的洋流運動,能夠分析出你今天在好望角某處抛出的漂流瓶下個月會出現在哪裡。什麼?你說漂流瓶沒有價值?那如果你丢的不是漂流瓶,而是滿滿一箱鈔票呢?
7.大數據企業都提供哪些服務?
第一類,雲平台服務商,像亞馬遜、阿裡雲這些,就好比世界上一個個國家,管理各自的海域,你想去其中哪一片搞開發,交管理費給國家,在指定的區域去做;
第二類,數據交易中介,他們自身提供一些數據,更主要的是搭建一個交易平台,撮合數據提供者與數據使用者實現數據交換,促成數據價值的實現,這有點像全球海産品交易市場,或者專門圍繞海洋、海産品提供服務的“海裡巴巴”;
第三類,大數據解決方案提供商,就是在海洋各地設置鑽井平台的,提供原油開采、傳輸、提煉、銷售的一系列服務,目前國内這樣的企業很多,還有些以前做系統集成的,也開始改稱大數據服務商了。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!