tft每日頭條

 > 科技

 > 如何正确利用數據挖掘

如何正确利用數據挖掘

科技 更新时间:2024-12-05 11:03:54

進入21世紀以來,随着數據庫、計算機網絡和人工智能等技術的廣泛應用,它已成為當今信息管理技術彼此間相互關聯。

一、從數據庫到數據倉庫

數據庫與數據倉庫隻有一字之差,似乎是一樣的概念,但實際則不然。

計算機系統中存在着兩類不同的數據處理工作:一類是操作型處理,也稱為聯機事務處理(Online Transaction,OLTP),它是針對具體業務在數據庫聯機的日常操作,通常對少數記錄進行查詢和修改,用戶較為關心操作的響應時間、數據的安全、完整性和并發支持的用戶數等問題,傳統的數據庫系統作為數據管理的主要手段,主要用于操作性處理;.

如何正确利用數據挖掘(數據挖掘:數據倉庫)1

另一類是分析型處理,也稱為聯機分析處理。

一般針對某些主題的曆史數據進行分析,支持管理決策,它通常是對海量的曆史數據查詢和分析,如金融風險預測預警系統、證券股市違規分析系統等。這些系統要訪問的數據量非常大,查詢和分析的操作十分複雜。

(1) 面向主題

數據倉庫中的數據是按照各種主題來組織的。

(2) 集成性

數據倉庫中的數據是從原有分散的源數據庫中提取出來的,其每一個主題所對應的源數據在原有的數據庫冗餘和不一緻,且與不同的邏輯相關。

(3) 數據的非易失性

數據的非易失性主要是針對應用面言的,數據倉庫的用戶對數據的操作大多是數據查詢或比較複雜的挖掘,一旦數據進入數據倉庫以後,一般情況下都被較長時間的保留。

(4) 數據的時變性

一般地,數據倉庫具有三個常用的重要概念,既粒度、分割和維。

(1)粒度

粒度問題是設計數據倉庫的一個重要的方面。粒度是指數據單位中保存數據的細化或綜合程序的級别,細化程序越高,粒度級就越小,相反地,細化程度越低,粒度級就越大。

(2)分割

分割是将數據分散到各自的物理單元中,以便能分别處理,以提高數據處理的效率。數據分割後的單元稱為切片。

(3)維

維是人們觀察數據在特定角度,是考慮問題時的一類屬性。

如何正确利用數據挖掘(數據挖掘:數據倉庫)2

(二)數據挖掘技術

數據挖 (Data Mining)是從大量的、不完全的、有噪聲的、模糊的、随機的實際應用數據中發現并提取隐藏在其中的、人們事先不知道的、但又是潛在有用的信息和知識的一種技術。它又被稱為數據庫中的知識發現(Knowledge Discovery in DataBase,KDD),其與數據庫、數理統計、機器學習、模式識别、模糊數學等諸多技術相關。

(1) 概念描述

通過數據挖掘技術,可以歸納總結出數據的某種特征。

(2)關聯分析

在數據挖掘技術中,基于關聯規則的挖掘是應用較廣的一種方法。數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。

(3)分類和預測

分類就是找出一個類别的概念描述,它代表了這類數據的整體信息,即該類的内涵描述,并用這種描述來構造模型,

(4)聚類

聚類是把數據按照相似性歸納成若幹類别,同一類中的數據彼此相似,不同類中的數據相異。

(5)孤立點檢測

孤立點是指數據中與整體表現行為不一緻的數據集合。

(6)趨勢和演變分析

通過數據挖 技術,可以描述行為随着時間變化的對象所遵照循的規律或趨勢。

如何正确利用數據挖掘(數據挖掘:數據倉庫)3

以上都是抽象的,目前都普遍被應用網貸、刷短視頻、刷收益提取用戶喜好、個性化及地理位置,支付通道。

未來個人隐私運動軌迹,及個人喜好,人物畫像,信用情況,太多數據彙聚到一些知名企業公司的數據庫,進行大量分析及人物模型分析。

未來個人隐私不複存在,需要法律進行更嚴格幹預或規範。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved