tft每日頭條

 > 科技

 > 大數據的特殊标志

大數據的特殊标志

科技 更新时间:2024-09-11 11:20:30

提到大數據的特征,大家都會聯想到大數據的4V特征,即Volume(大容量),Variety(多樣式),Velocity(高速性),Value(價值性)。

大數據的特殊标志(大數據十字特征)1

圖 1‑2大數據的4V特征

結合我國大數據的研究,《大數據領導幹部讀本》這本書曾概括了大數據的十字特征, “大雜多全快,久活密稀聯”,來區别大數據與傳統數據的特征。

大數據的特殊标志(大數據十字特征)2

圖 1‑3大數據的十字特征

大—數據量大

指的是數據規模大,即所說的海量數據。

2012年,Facebook宣布每天有25億條内容,3億上傳照片數,500 TB新産生的數據量;2017年,微信每天9億登陸,380億條消息,61億語音次數,2億視頻通話,10 億圖片。

據國際數據公司(IDC)估計,全球數據總量預計2020年達到44ZB,中國數據量将達到8060EB,占全球數據總量的18%。

雜—結構複雜

指的是數據的存儲類型多種多樣,數據結構複雜。

數據的形式也是多樣化的,可以是連續的數值,也可以是文字、符号(數字數據),或者聲音、圖像等等。

傳統的小數據,為了便于存儲和快速處理,一般都是結構化的數據。而大數據,不僅包含了結構化的數據,更多的是非結構化和半結構化的數據,比如互聯網上的文本、圖片、音視頻等等,都是大數據。

全—維度全面

指的是業務數據的多維性,即數據樣本的維度較多,能夠全面呈現數據對象。

比如要了解一個用戶行為,不僅要收集其基本數據(比如性别、年齡、住址、聯系方式),也還要收集其搜索浏覽數據(比如百度搜索關鍵詞、浏覽網頁地址),甚至交易數據(淘寶購物數據、京東購物數據)等等多個維度的數據,這樣才能夠全面體現用戶的行為。

不過,全是一個相對的概念,絕對的全是沒有的。

多—來源多

指的是數據的來源多,不僅來源于銷售,也來源于生産;不僅來源于企業内部,也包含很多外部數據。實際上,單個企業一般隻會是基于某種業務目的來收集相應的數據。比如,銷售數據隻會保存在交易數據庫中,而用戶的浏覽數據則會來源于網站日志,這樣數據的來源就比較多樣化了。

快—處理速度快

這裡的快有兩層意思:一是指數據産生的速度快,二是要求數據處理速度也要快。

按照新的摩爾定律,每兩年産生的數據量相當于以前全部數據量的總和,這麼快的增長速度,也就要求數據的處理效率要高,否則,其數據的意義就不大了。

比如,在交通路口拍攝的照片需要及時傳回到大數據系統中,進行及時處理,從照片中提取出經過某個路口的車牌号、時間點等信息,這樣才以便于公安或交警部門快速地捕獲指定的違章車輛,快速進行攔截。如果處理的速度不夠快,或者數據分析後的結果就意義已經不大了。

久—時間跨度長

指的是大數據的時間範圍要足夠長。時間越長,就越能發現事物的長期規律。

就比如全球的經濟危機,其爆發的周期約為10年,差不多每隔十年左右才會發生一次。如果收集的數據時間跨度太短,是不太可能從數據中發現這樣的周期性規律的。

活—實時處線

指的是數據的實時性,要求數據是實時在線的,能夠随時查看和計算的。

就比如交通行業要求的大數據,要能夠實時在線處理,以呈現實時路況,才能有效地利用大數據及時發現擁堵,并指導車輛分流,規避擁堵。

密—數據密度

指的是收集數據的時間間隔,或者地域間隔要足夠地短,這樣才能準确地用來描述業務的情況。

比如,公交車上的GPS數據,其兩次上報的時間間隔要足夠地短,其位置間隔也要足夠地短,這樣才能用于精确定位,這樣的數據才有實用價值。

稀—價值低

指的大數據的價值密度低,即有價值數據的比例比較小。

特别是一些監控視頻數據,其中真正有價值的數據也許隻有1~2秒。但是,為了得到這幾秒的有價值的信息,我們卻必須保存大量的視頻數據。正如有人自我揶揄說,為了提煉一點點金子,我們得保存整個沙灘。

聯—關聯性

指的是數據之間的相關性。萬物皆有聯,萬事萬物都是有某種聯系的,體現在數據上就是數據與數據間的相關性,可以探索業務各種因素之間的相互影響關系。

正如舍恩伯格所說,大數據關注相關關系更勝于因果關系。

這十個字,分别從數據的特征、數據的采集、數據的處理以及數據分析等不同的角度來描述大數據,是比較全面的。

大數據的特殊标志(大數據十字特征)3

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved