進入21世紀以來,随着數據庫、計算機網絡和人工智能等技術的廣泛應用,它已成為當今信息管理技術彼此間相互關聯。
一、從數據庫到數據倉庫
數據庫與數據倉庫隻有一字之差,似乎是一樣的概念,但實際則不然。
計算機系統中存在着兩類不同的數據處理工作:一類是操作型處理,也稱為聯機事務處理(Online Transaction,OLTP),它是針對具體業務在數據庫聯機的日常操作,通常對少數記錄進行查詢和修改,用戶較為關心操作的響應時間、數據的安全、完整性和并發支持的用戶數等問題,傳統的數據庫系統作為數據管理的主要手段,主要用于操作性處理;.
另一類是分析型處理,也稱為聯機分析處理。
一般針對某些主題的曆史數據進行分析,支持管理決策,它通常是對海量的曆史數據查詢和分析,如金融風險預測預警系統、證券股市違規分析系統等。這些系統要訪問的數據量非常大,查詢和分析的操作十分複雜。
(1) 面向主題
數據倉庫中的數據是按照各種主題來組織的。
(2) 集成性
數據倉庫中的數據是從原有分散的源數據庫中提取出來的,其每一個主題所對應的源數據在原有的數據庫冗餘和不一緻,且與不同的邏輯相關。
(3) 數據的非易失性
數據的非易失性主要是針對應用面言的,數據倉庫的用戶對數據的操作大多是數據查詢或比較複雜的挖掘,一旦數據進入數據倉庫以後,一般情況下都被較長時間的保留。
(4) 數據的時變性
一般地,數據倉庫具有三個常用的重要概念,既粒度、分割和維。
(1)粒度
粒度問題是設計數據倉庫的一個重要的方面。粒度是指數據單位中保存數據的細化或綜合程序的級别,細化程序越高,粒度級就越小,相反地,細化程度越低,粒度級就越大。
(2)分割
分割是将數據分散到各自的物理單元中,以便能分别處理,以提高數據處理的效率。數據分割後的單元稱為切片。
(3)維
維是人們觀察數據在特定角度,是考慮問題時的一類屬性。
(二)數據挖掘技術
數據挖 (Data Mining)是從大量的、不完全的、有噪聲的、模糊的、随機的實際應用數據中發現并提取隐藏在其中的、人們事先不知道的、但又是潛在有用的信息和知識的一種技術。它又被稱為數據庫中的知識發現(Knowledge Discovery in DataBase,KDD),其與數據庫、數理統計、機器學習、模式識别、模糊數學等諸多技術相關。
(1) 概念描述
通過數據挖掘技術,可以歸納總結出數據的某種特征。
(2)關聯分析
在數據挖掘技術中,基于關聯規則的挖掘是應用較廣的一種方法。數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。
(3)分類和預測
分類就是找出一個類别的概念描述,它代表了這類數據的整體信息,即該類的内涵描述,并用這種描述來構造模型,
(4)聚類
聚類是把數據按照相似性歸納成若幹類别,同一類中的數據彼此相似,不同類中的數據相異。
(5)孤立點檢測
孤立點是指數據中與整體表現行為不一緻的數據集合。
(6)趨勢和演變分析
通過數據挖 技術,可以描述行為随着時間變化的對象所遵照循的規律或趨勢。
以上都是抽象的,目前都普遍被應用網貸、刷短視頻、刷收益提取用戶喜好、個性化及地理位置,支付通道。
未來個人隐私運動軌迹,及個人喜好,人物畫像,信用情況,太多數據彙聚到一些知名企業公司的數據庫,進行大量分析及人物模型分析。
未來個人隐私不複存在,需要法律進行更嚴格幹預或規範。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!