tft每日頭條

 > 科技

 > 大數據到底是什麼

大數據到底是什麼

科技 更新时间:2024-12-27 16:12:03

  大數據到底是什麼(大數據究竟大在哪)(1)

  公衆号:大數據學苑

  今日分享熱詞:大數據(Big Data)

  為什麼要首先分享這一個詞呢?一是因為它熱,熱到大家都把他當做談資,二是因為大數據正是數據挖掘及分析的對象,也利于理解以後分享的内容。

  一起來了解下大數據的前世今生:

  一、 大數據的定義:

  大數據這一個詞的出現,在上世紀80年代就有美國人曾提出來,直到

  2008 年 9 月,《科學》雜志發表文章“Big Data: Science in the Petabyte Era”,“大數據”這個詞才開始廣泛傳播。

  小編從網上找了以下幾個關于大數據的定義:

  1:Wikipedia:

  Big data is a term for data sets that are so large or complex that traditional data processing application software is inadequate to deal with them.

  也就是說無法利用傳統的數據處理軟件來處理的大且複雜的數據集

  2:IBM:

  Big Data is being generated at all times. Every digital process and social media exchange produces it. Systems, sensors and mobile devices transmit it. Much of this data is coming to us in an unstructured form, making it difficult to put into structured tables with rows and columns.

  主要強調了大數據是時時刻刻在産生,産生的途徑比如我們常見的社交媒體、穿戴設備、傳感器等,同時也強調了其非結構化特征,很難存儲于結構化的數據庫中。

  3:全球知名咨詢公司麥肯錫是這樣定義的:

  大數據是指無法在一定時間内用傳統數據庫軟件工具對其内容進行采集、存儲、管理和分析的數據集合。

  以上幾個定義是有交集的,也就是大數據的普遍定義了:量大複雜、無法用傳統的手段來處理。

  下面再說一下大數據的特征,會更利于理解

  二、 大數據的特征:

  關于大數據的特征也是有很多說法,好的是是前後繼承發展的

  1:The concept gained momentum in the early 2000s when industry analyst Doug Laney articulated the now-mainstream definition of big data as the three Vs:

  這個3V特征是最先主流的一種說法:

  Volume(數據體量大). Organizations collect data from a Variety of sources, including business transactions, social media and information from sensor or machine-to-machine data. In the past, storing it would've been a problem – but new technologies (such as Hadoop) have eased the burden.

  數據來源渠道多,商業交易終端、社交媒體、傳感器,舉幾個咱們熟悉的例子,比如超市的收銀、pose機、RFID手持終端,社交媒體比如QQ、微信、微博等、還有一些運動傳感器、手環等等,這些設備都是海量數據的來源。在以往是沒有這些數據的,而現在有了,但是以前的數據處理器處理軟件已經跟不上這些需要,必須要有新的設備,比如文中提到的Hadoop【Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,适合那些有着超大數據集(large data set)的應用程序。】

  Velocity(處理速度快). Data streams in at an unprecedented speed and must be dealt with in a timely manner. RFID tags, sensors and smart metering are driving the need to deal with torrents of data in near-real time.

  處理速度快主要強調了數據的時效性,這主要是講的流式數據的時效性,也就是上一秒數據産生,下一秒就要把這些數據的影響分析出來。

  Variety(數據種類多). Data comes in all types of formats – from structured, numeric data in traditional databases to unstructured text documents, email, video, audio, stock ticker data and financial transactions.

  種類多主要是強調數據的分類:結構化、非結構化、還有一種分類是半結構化

  對于這個結構化非結構化的區别,曾在研究生期間課堂上請教過老師,具體是這樣:結構化數據(即行數據,存儲在數據庫裡,可以用二維表結構來邏輯表達實現的數據(二維表結構可以理解為Excel表那樣,通過坐标就可确定一個值))、非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等

  2:在後來的發展過程中,大數據的特征又有所發展

  Value(低價值性)可以這樣理解:某交通路口的交通燈,基本上全年全天候監控,這産生的數據量是非常大的,而對官方來說真正有用的可能就是出現事故、闖紅燈事的那些時間,所以其價值密度是很低的。

  Veracity(真實性)主要包括數據的可信性、真僞性、來源和信譽、有效性等。

  1、2這5V特征基本概括了大數據的所有特征,當然不否認後來還會有學者提出。

  以上的5維特征可能主要流行于學術界,我讀paper是接觸到的是這些說法,直到今天科學上網登Wikipedia時,不才才發現還有另一種特征的提法:

  3:Factory work and Cyber-physical systems may have a 6C system:

  Connection (sensor and networks)關聯性

  Cloud (computing and data on demand)雲計算特征

  Cyber (model and memory)網絡特征

  Content/context (meaning and correlation)文本特征

  Community (sharing and collaboration)社交性

  Customization (personalization and value)獨特性

  這種特征法可能更适合于工業界、物理網絡空間

  希望以上的分享會有助于大家對大數據這一概念有所了解

  Reference引用:

  [1]htt

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved