說起大數據,估計大家都覺得隻聽過概念,但是具體是什麼東西,怎麼定義,沒有一個标準的東西.
因為在我們的印象中好像很多公司都叫大數據公司,業務形态則有幾百種,感覺不是很好理解,所以我建議還是從字面上來理解大數據,首先介紹大數據的4個特征:
1.大量
大數據的特征首先就體現為“大”.從先Map3時代,一個小小的MB級别的Map3就可以滿足很多人的需求,然而随着時間的推移,存儲單位從過去的GB到TB,乃至現在的PB、EB級别。隻有數據體量達到了PB級别以上,才能被稱為大數據。
1PB等于1024TB,1TB等于1024G,那麼1PB等于1024*1024個G的數據。随着信息技術的高速發展,數據開始爆發性增長。社交網絡(微博、推特、臉書)、移動網絡、各種智能工具,服務工具等,都成為數據的來源。
淘寶網近4億的會員每天産生的商品交易數據約20TB;臉書約10億的用戶每天産生的日志數據超過300TB。迫切需要智能的算法、強大的數據處理平台和新的數據處理技術,來統計、分析、預測和實時處理如此大規模的數據。
2.高速
就是通過算法對數據的邏輯處理速度非常快,1秒定律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有着本質的不同。
大數據的産生非常迅速,主要通過互聯網傳輸。生活中每個人都離不開互聯網,也就是說每天個人每天都在向大數據提供大量的資料。并且這些數據是需要及時處理的,因為花費大量資本去存儲作用較小的曆史數據是非常不劃算的,對于一個平台而言,也許保存的數據隻有過去幾天或者一個月之内,再遠的數據就要及時清理,不然代價太大。
基于這種情況,大數據對處理速度有非常嚴格的要求,服務器中大量的資源都用于處理和計算數據,很多平台都需要做到實時分析。數據無時無刻不在産生,誰的速度更快,誰就有優勢。
3.多樣
如果隻有單一的數據,那麼這些數據就沒有了價值,比如隻有單一的個人數據,或者單一的用戶提交數據,這些數據還不能稱為大數據。
廣泛的數據來源,決定了大數據形式的多樣性。比如當前的上網用戶中,年齡,學曆,愛好,性格等等每個人的特征都不一樣,這個也就是大數據的多樣性.
當然了如果擴展到全國,那麼數據的多樣性會更強,每個地區,每個時間段,都會存在各種各樣的數據多樣性。任何形式的數據都可以産生作用,目前應用最廣泛的就是推薦系統,如淘寶,網易雲音樂、今日頭條等,這些平台都會通過對用戶的日志數據進行分析,從而進一步推薦用戶喜歡的東西。
日志數據是結構化明顯的數據,還有一些數據結構化不明顯,例如圖片、音頻、視頻等,這些數據因果關系弱,就需要人工對其進行标注。
4.價值
這也是大數據的核心特征。據羿戓産品設計所了解,現實世界所産生的數據中,有價值的數據所占比例很小。
相比于傳統的小數據,大數據最大的價值在于通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,并通過機器學習方法、人工智能方法或數據挖掘方法深度分析,發現新規律和新知識。
你如果有1PB以上的全國所有20-35年輕人的上網數據的時候,那麼它自然就有了商業價值,比如通過分析這些數據,我們就知道這些人的愛好,進而指導産品的發展方向等等。
如果有了全國幾百萬病人的數據,根據這些數據進行分析就能預測疾病的發生,這些都是大數據的價值。大數據運用之廣泛,如運用于農業、金融、醫療等各個領域,從而最終達到改善社會治理、提高生産效率、推進科學研究的效果。
大數據已經成為過去幾年中大部分行業的遊戲規則,行業領袖,學者和其他知名的利益相關者都同意這一點,随着大數據繼續滲透到我們的日常生活中,圍繞大數據的炒作正在轉向實際使用中的真正價值。
當今的大型企業,内部分工日趨細化,采購、服務、市場、銷售、開發、支持、物流、财務、人力等各個環節,無不每時每刻産生着大量的數據。數據的格式也越來越多樣化,包括IT系統裡存儲的結構化、非結構化數據,各樣電子文檔數據等。與此同時,企業管理者對數據的困惑也與日俱增,這些數據從哪裡來?我們能相信這些數據嗎?數據之間有什麼樣的關系?誰能理解這些數據?
零散化存放是數據問題根源
造成上述情況最根本的原因是:數據零散化存放。大型企業在不同發展階段,會根據業務需求建設很多内部IT支撐系統,比如ERP(企業資源計劃)系統、CRM(客戶服務管理)系統、财務管理系統等,這些系統的分散建設,數據割裂,造成了數據零散化存放的現狀。
基于數據作分析,首先需要數據的聚合,但由于生産系統和數據的離散化,造成了數據标準、數據模型不統一,因而企業最需要做的就是對數據整合和标準化。
大數據治理帶來全面解決之道
大數據治理是諸多數據問題的全面解決之道。根據DAMA(國際數據管理協會)的定義,數據治理(DG,Data Governance)是指對數據資産的管理活動行使權力和控制的活動集合(規劃、監控和執行)。作為DAMA數據管理職能框架(圖1)的10項職能之一,起着指導其他數據管理職能如何執行的作用,它通過制定正确的政策、操作規程,确保以正确的方式對數據和信息進行管理。
大數據治理,即基于大數據的數據治理。大數據,一般指符合4V特征的數據,包括社交數據、機器數據等,大數據對傳統數據治理工作帶來很多的擴展,在政策/流程上,大數據治理應覆蓋大數據的獲取、處理、存儲、安全等環節,需要為大數據設置數據管理專員制度;
需考慮大數據與主數據管理能力的集成,需要對大數據做定義,統一主數據标準;在數據生命周期管理各階段,如數據存儲、保留、歸檔、處置時,要考慮大數據保存時間與存儲空間的平衡,大數據量大,因此應識别對業務有關鍵影響的數據元素,檢查和保證數據質量。此外,在隐私方面,應考慮社交數據的隐私保護需求,制定相應政策,還要将大數據治理與企業内外部風險管控需求建立聯系。
大數據治理的商業價值
企業隻有建立了完整的大數據治理體系,保證數據的質量,才能夠真正有效地挖掘企業内部的數據價值,對外提高競争力。
首先,高質量數據是企業業務創新、管理決策的基礎。随着互聯網企業對其他各行業的沖擊,加劇了市場的競争,許多企業面臨收入增速放緩、利潤空間逐步縮小的局面,過去單純的外延式增長已經難以為繼。
因此,必須向外延與内涵相結合的增長方式轉變,未來效益的提升很大程度上要依靠企業的内部挖潛實現,這從客觀上對企業的創新能力提出了更高的要求,而提升企業内部數據管理的精細化水平,是企業開展業務創新和管理決策的重要基礎,能夠為企業創造巨大效益。
其次,标準化的數據是優化商業模式、指導生産經營的前提。許多企業的 IT 系統經曆了數據量高速膨脹的時期,這些海量的、分散在不同角落的數據導緻了數據資源利用的複雜性和管理的高難度,形成了一個個系統豎井。
系統之間的關系、标準化數據從哪裡獲取都無從知曉,通過數據治理工作,可以對分散在各系統中的數據提供一套統一的數據命名、數據定義、數據類型、賦值規則等的定義基準,通過數據标準化可以防止數據的混亂使用,确保數據的正确性及質量,并可以優化商業模式,指導企業生産經營工作。
最後,多角度、全方位的數據是企業開展市場營銷、争奪客戶資源的關鍵。數據已成為企業最核心的隐形财富,誰掌握了準确的數據誰就能獲得先機,在當前競争日益激烈的市場上,企業如何在不同的細分市場構建客戶畫像、開展精準營銷,如何選擇競争策略、進行經營管理決策,都必須基于360度全方位、準确的客戶數據加以分析判斷才能得出。
明确數據治理責任,建立數據治理組織
數據出了問題,到底是誰的責任?因為數據主要是IT系統産生的,所以一直以來,解決數據問題都被認為是IT部門的職責。
而IT部門也飽受其苦,數據定義和業務規則,業務部門最清楚;
數據錄入,業務人員負責;數據使用,業務人員是用戶;
數據考核,業務部門有權力……但實際上,要切實解決數據問題,開展數據治理工作,就必須先清楚一點:
數據治理,是業務部門和IT部門共同的職責。
圖2是典型的中國式數據治理組織架構,數據治理/管理領導小組設在信息化領導小組之下,可以單設,也可以是信息化領導小組的一個職責,而虛框中的數據治理部門可能是實體部門,也可能是由牽頭業務部門和IT部門聯合組成的虛拟團隊。
值得一提的是,越來越多的企業開始重視數據治理工作,一些企業高管團隊中也産生了一個全新的職位——首席數據官(CDO),是組織内大數據戰略的制定者和推動者,負責組織内數據資産的開發和利用,通過數據推動組織業務的創新和發展,通常直接彙報給CEO或CIO。
管理出成效,制度是保障
大數據治理需要管理和制度的有力支撐,可結合企業的現狀,制定相應的管理辦法、管理流程、認責體系、人員角色和崗位職責等,頒布相關的數據治理的企業規章制度等。
舉個例子,在筆者負責過的一個數據治理項目中,為了加強數據保密管理,根據重要程度、公開範圍、數據使用頻次和數據安全要求,針對數據制定了四個重要級别:極敏感級、敏感級、較敏感級、低敏感級,并根據不同級别實施相應的管理舉措,級别越高,數據管理的要求越高。
數據規範:沒有規矩,不成方圓
數據規範是指對企業核心數據進行有關存在性、完整性、質量及歸檔的測量标準,為評估企業數據質量,并且為手動錄入、設計數據加載程序、更新信息以及開發應用軟件提供的約束性規則,數據規範一般包括數據标準、數據模型、業務規則、元數據、主數據和參考數據。
制定數據标準的目的是為了使業務人員、技術人員在提到同一個指标、名詞、術語的時候有一緻的含義。數據模型對企業運營過程中涉及的業務概念和邏輯規則進行統一定義。
業務規則是一種權威性原則或指導方針,用來描述業務交互,并建立行動和數據行為結果及完整性的規則。元數據能夠幫助增強數據理解,可以架起企業内業務與 IT 部門之間的橋梁。主數據用來描述參與組織業務的人員、地點和事物。參考數據是系統、應用軟件、數據庫、流程、報告中及交易記錄中用來參考的數值集合或分類表。
數據治理活動,理論結合實踐
數據治理活動是指為實現數據資産價值的獲取、控制、保護、交付以及提升,對數據規範所做的計劃、執行和監督工作,一般包括以下活動。
數據架構管理,用于定義企業數據需求,設計實現數據需求的主要藍圖,通常包括數據标準管理、數據模型管理、數據集成架構等;數據質量管理,指通過計劃、實施和控制活動,運用質量管理技術度量、評估、改進和保證數據的恰當使用;
元數據管理,指通過計劃、實施和控制活動,以實現輕松訪問高質量和整合的元數據;數據安全管理,指通過計劃、制定并執行數據安全政策和措施,為數據和信息提供适當的認證、授權、訪問和審計;參考數據和主數據管理,指通過計劃、實施和控制活動,達到保證參考數據與主數據的一緻性。
數據治理軟件:工欲善其事,必先利其器
目前業界流行的數據治理軟件,一般也稱為數據資産管理産品、數據治理産品,主要包括的功能組件有元數據管理工具、數據标準管理工具、數據模型管理工具、數據質量管理工具、主數據管理工具、數據安全管理工具等。
利用數據治理軟件主要解決企業不同來源數據集成過程中遇到的問題,需要數據治理軟件能夠為企業提供統一的元數據集成、數據标準管理、數據模型設計、數據質量稽核、數據資産目錄、數據分析服務等能力。
基于大數據的人工智能時代的到來,為各行業帶來基于數據資産進行業務創新、管理創新的契機,伴随着企業數字化轉型過程,越來越多的數據被收集,大數據治理将為企業提供更全面更準确的數據,屆時人類的大部分行為将可以被計算和預測,這種對社會成員的行為邏輯、社會事件的發展态勢提前作出判斷、預測和模拟,将使社會治理模式得到極大變革,從而極可能推動社會治理也由傳統的人類精英經驗治理向基于大數據的智能化治理轉型。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!