tft每日頭條

 > 科技

 > 大數據有哪些基礎知識

大數據有哪些基礎知識

科技 更新时间:2024-12-16 16:00:07

大家好,我是一個字節。

大數據有哪些基礎知識(大數據如何發揮作用)1

靈魂第一問:我是誰?

我是表示數據量的基本單位。

大家平時看到的MB、GB、TB就是很多個我湊在一起,這些都是可以表示數據存儲量的計量單位。

1024個我組成1個KB,1024個KB組成1個MB,1024個MB組成1個GB,1024個GB組成1個TB……

靈魂第二問:我從哪裡來?

别動!你現在手指劃過屏幕就在産生數據。

你剛剛點擊關注小咖的公号(沒關注的現在就動動你手指,點擊标題下面的藍字關注我們)、你看完文章點“在看”,你在留言區給我留言,你看完文章後轉發朋友圈,所有的這些都在産生數據。

你的每一個上網行為會産生數據;你現在用的手機在工廠裡生産制造時,自動化生産線會産生數據;之後你在京東商城買手機,會産生交易數據,手機送到你手上的過程還會産生物流數據……

很多人說,我們将成為和石油一樣重要的資源。數據中蘊藏着未來的重要商機、推動社會進步以及科學發現的動力。可現實情況似乎并不樂觀,有個叫IDC的知名分析機構說了,過去兩年創建的那些我的同族們,其中隻有不到 2% 的經過了分析。

我想,可能是因為我們和石油一樣,同樣需要被勘探與挖掘,而這個過程都不簡單。在我們數據一族,這種“挖掘與勘探”的過程被稱為數據分析與洞察,這讓我們産生價值。

大數據有哪些基礎知識(大數據如何發揮作用)2

很多很多個我們湊在一起,人們習慣把我們叫作“大數據”。如果隻是單獨的一個我,或者很少的幾個我們,是無法産生價值的。所以,讓我們發揮價值的第一步是要搜集數據,第二步是分析數據,第三步是根據數據分析結果做出決策。這些都需要依托于計算機系統的計算能力與存儲能力。

而我們數據一族又有很多種,有些被人們叫做結構化數據,簡單來說就是數據庫,比如企業ERP、财務系統、醫療HIS數據庫、政府行政審批、其他核心數據庫産生的數據;有些被人們叫做非結構化數據,他們“僞裝成”視頻、音頻、圖片、圖像、文檔、文本等形式。非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。

有位牛津大學教授名叫維克托·邁爾-舍恩伯格,人們将他奉為“大數據之父”,他在《大數據時代》的書中寫道:“隻有5%的數字數據是結構化的且能适用于傳統數據庫。”企業要想采用智能分析、圖像識别等一系列先進算法來使大數據結構化,是需要付出高額花費的。

靈魂第三問:要到哪裡去?

聽說,現在我的同族太多太多了,而且,還總在源源不斷地冒出來,我們出現的這種方式被人們叫做“數據洪流”。

據IDC在2018年11月公布的數據來看,全球超過一半的數據創建于過去兩年。預計從2018到2023年,全球數據空間的複合增長率(CAGR)将達25.8%。海量數據的産出已經成為日常。随着數字化進程的加速,各種來源的數據都在以 GB、TB 甚至 PB 級的規模出現。

人們發現,比數據量更值得關注的是數據價值,後者來自數據分析及其中所蘊含的洞察。數據中可能蘊藏着未來的重要商機、推動社會進步以及科學發現的動力。

于是,企業數據的存儲與處理能力也在不斷受到挑戰。Gartner副總裁兼傑出分析師Donald Feinberg就曾經表示:“數據量正在快速增多,實時将數據轉化成價值的緊迫性也在同樣快速增加。新的服務器工作負載不僅需要更快的CPU性能,而且還需要大容量内存及更快的存儲。”

大數據有哪些基礎知識(大數據如何發揮作用)3

雲計算來了以後,我就經常出現在數據中心裡。服務器比我早些年經常待的PC機空間大了不少,不過CPU依舊是“寸土寸金”,同樣,越接近CPU,數據的存取速度越快。雖然CPU片上的高速緩存時延為納秒級,不過主流服務器上的CPU緩存基本上也隻能接近100MB。以往,這一重任落在DRAM内存上(動态随機存取存儲器 Dynamic Random Access Memory)。但通常,DRAM内存容量也比較小,要換裝大容量的又成本太高。而且一斷電,内存上我的族群們就會全部走丢,所以,之後系統和應用在重新啟動時,還需要花費相當多的時間去重新把他們找回來,加載到内存中。

人們為了我們數據家族可真是操碎了心。整個行業都在采用基礎設施創新、多種工具與手段、以及最佳實踐等方法來推動數據分析和挖掘,也取得了很多的成果。随着數據量和種類的增多,用戶期待以越來越快的速度獲取數據洞察。

真正有效利用所有數據,促進數據流動,提升數據的可處理性,一直是人們所關心的,如今,需要尋找機會突破數據吞吐量的瓶頸,我們的更多價值才能夠被發現。

為了讓我的族群可以多一層緩沖,更流暢地流動、被處理和被分析,減少我們加速“換檔”時的“頓挫感” ,英特爾推出了傲騰數據中心級持久内存,這是位于DRAM内存層和存儲層之間的一種新型内存。

我發現,在Gartner發布的2019年十大數據與分析技術趨勢裡,“持久内存服務器”就位列其中。

大數據有哪些基礎知識(大數據如何發揮作用)4

英特爾傲騰數據中心級持久内存的三種應用模式

英特爾傲騰數據中心級持久内存既可以是内存,也可以是存儲,它可以通過兩種特殊的運行模式—— App Direct模式和内存模式來實現獨特的能力。利用 App Direct模式,經過專門調試的應用程序可從産品固有的持久性中充分獲取價值并獲得更大的容量;在内存模式下,可将該産品用作易失性存儲,從而在無需重寫軟件的情況下有效利用最高達512GB的内存模塊。如果用戶既對内存模式有需求,又有工作負載需要運行在 App Direct 模式下,那麼,英特爾傲騰TM 數據中心級持久内存就可激活第三種工作模式——雙重模式。

現在,已經有很多在雲基礎設施及數據分析任務中被内存資源不足所困擾的企業,采用了英特爾傲騰數據中心級持久内存來緩解壓力。

百度Feed 流服務的核心模塊Feed-Cube 逐步從純 DRAM 内存的配置模式遷移至純英特爾傲騰數據中心級持久内存的配置,其系統構建成本也随之不斷降低,百度卓有成效地降低了總擁有成本。

微軟Windows Server 2019/Hyper-V多租戶虛拟化的聯機事務處理 (On-Line Transaction Processing,OLTP)雲基準測試中,使用DRAM内存和英特爾傲騰數據中心級持久内存組合的平台,與僅使用DRAM内存的平台相比,内存容量提升達33%,每節點虛拟機數量提升達到36%,使每台虛拟機的硬件成本降低30%。

SAP的大型數據計算平台HANA分别在3TB DRAM内存平台和3TB DRAM内存 6TB英特爾傲騰數據中心級持久内存平台上進行了性能測試。結果表明,後者可以讓系統重啟速度從20分鐘縮短到90秒,大幅減少的停機時間可以使每TB數據庫容量的成本節約 39%。

大數據有哪些基礎知識(大數據如何發揮作用)5

英特爾傲騰數據中心級持久内存填補了内存/存儲金字塔中的重要缺口

英特爾傲騰數據中心級持久内存提供的新内存層,為高性能工作負載提供經濟高效的大容量内存。第二代英特爾至強可擴展處理器所支持的傲騰數據中心級持久内存能夠以更快的速度為每個平台提供更大的總内存容量,以更快的速度進行對持久數據的字節可尋址訪問。

英特爾傲騰數據中心級持久内存,與英特爾第二代至強可擴展處理器相輔相承,将雲和數據庫中的關鍵數據工作負載轉為内存分析和分發網絡,讓數據從負擔變“富礦”。

正如兩河流域的洪流哺乳了人類古老文明一樣,英特爾傲騰數據中心級持久内存成為DRAM内存層和存儲層之間的一種新型内存。作為一個字節,我和我的族人們在這裡彙聚,這裡蘊藏着無數的機遇與挑戰。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved