tft每日頭條

 > 科技

 > 分類數據分析

分類數據分析

科技 更新时间:2024-10-17 15:44:06

分類數據分析?數據分類概述數據天然具備不同的屬性和特征,也必然存在不同的管理主體,出于不同的管理目的、基于不同的數據屬性或特征對數據采用不同的分類方法,今天小編就來聊一聊關于分類數據分析?接下來我們就一起去研究一下吧!

分類數據分析(數據分類的維度大全)1

分類數據分析

數據分類概述

數據天然具備不同的屬性和特征,也必然存在不同的管理主體,出于不同的管理目的、基于不同的數據屬性或特征對數據采用不同的分類方法。

不同維度下數據的分類如下:

1. 按數據的結構特征

l 結構化數據

結構化的數據是指可以使用關系型數據庫表示和存儲,表現為二維形式的數據。

其一般特點是:數據以行為單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。

l 非結構化數據

非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表或自描述語言來表現的數據。

它本質上是異構和可變的,可同時具有多種格式,包括:文檔、文本、圖片、音頻、視頻等。

l 半結構化數據

指非關系模型的,具有基本固定結構模式的數據。它一般是自描述的,數據的結構和内容混合在一起,沒有明顯的區分。例如html、日志文件、XML、JSON、E-mail等。

半結構化數據是結構化數據的一種形式,它并不符合關系型數據庫或其他數據表的形式關聯起來的數據模型結構,但包含相關标記,用來分隔語義元素以及對記錄和字段進行分層。因此,它也被稱為自描述的結構。

2. 按數據的應用層次

l 第一層:元數據

元數據是關于數據的結構化數據,用于定義和描述其他數據,便于理解、查找、獲取、使用和管理數據。根據其屬性的不同,元數據可分為業務元數據、技術元數據、管理元數據。

l 第二層:參考數據

參考數據,是數據可能的取值範圍及其解釋,是對其他數據進行分類和規範的數據。

l 第三層:主數據

主數據也稱為基準數據,是用來描述企業内部核心業務對象的、具有高業務價值的、在企業内被多個業務部門和系統之間共享的、且相對靜态的數據,被譽為企業的“黃金數據”。

l 第四層:事務數據

事務數據,也稱為活動數據,指的是記錄企業經營和管理過程中産生的事務型數據,比如銷售訂單,采購訂單,報銷流程工單等。

l 第五層:分析數據

分析數據,指的是由各類事務數據組成的數據,比如各種報表,BI分析,審計數據等,是由很多事務型數據,進行組合搭建的。

l 第六層:規則數據

規則數據是結構化描述業務規則變量的數據(如會員等級評級規則、數據質量校驗規則等),是實現業務規則的核心數據。規則數據不可實例化,規則數據的變更對業務活動的影響是大範圍的。

需要說明的是:規則數據,與參考數據、主數據、事務數據、分析數據等并不是嚴格的層次關系,而是跨越參考數據、主數據、事務數據、分析數據等四層,參考數據、主數據、事務數據、分析數據中,都會涉及到對規則數據的調用。

3. 按數據的生産方式

l 原始數據

原始數據是指來自上遊系統的,沒有做過任何加工的數據。

雖然會從原始數據中産生大量衍生數據,但還是會保留一份未作任何修改的原始數據,一旦衍生數據發生問題,可以随時從原始數據重新計算。

l 衍生數據

衍生數據是指通過對原始數據進行加工處理後産生的數據。衍生數據包括各種數據集市、彙總層、寬表、數據分析和挖掘結果等等。從衍生目的上,可以簡單分為兩種情況,一種是為提高數據交付效率,數據集市、彙總層、寬表都屬于這種情況。另一種是為解決業務問題,數據分析和挖掘結果就屬于這種。

4. 按描述事物的角度

l 狀态類數據

描述客觀世界的實體,也即一個個對象,比如人、桌子、賬戶等等。對于這些對象,各有各的特征,不同種類的對象擁有不同的特征,比如人的特征包括姓名、性别和年齡,桌子的特征包括顔色和材質;對于同一種對象的不同個體,其特征值不同,比如張三男20歲,李四女24歲。有些特征穩定不變,而另一些則會不斷發生變化,比如性别一般不變,但賬戶金額、人的位置則随時可能變化。

因此,可以使用一組特征數據來描述每個對象,這些數據可以随時間發生變化(數據的變化一方面依賴于對象的變化,另一方面依賴于變化反映到數據上的時間差),每個時點的數據反映這個時點對象所處的狀态,因此稱之為狀态類數據。

l 事件類數據

描述客觀世界中對象之間的關系,它們是怎麼互動的,怎麼發生反應的。我們把這一次次互動或反應記錄下來,這類數據稱之為事件類數據。比如客戶到商店買了件衣服,這裡出現三個對象,分别是客戶、商店、衣服,三個對象之間發生了一次交易關系。

l 混合類數據

混合類數據理論上也屬于事件類數據範疇,兩者的差别在于,混合類數據所描述的事件發生過程持續較長,記錄數據時該事件還沒有結束,還将發生變化。比如訂單,從訂單生成到結案整個過程需要持續一段時間,首次記錄訂單數據是在訂單生産的時候,訂單狀态、訂單金額後續還可能多次變化。

5. 按數據的存儲方式

數據按其存儲方式,可以分為關系型數據、鍵值數據、列式數據、圖數據、文檔數據等。

l 關系型數據

采用關系數據模型的數據庫系統,關系數據模型實際上是表示各類實體及其之間聯系的由行和列構成的二維表結構。一個關系數據庫由多個二維表組成。表中的每一行為一個元組,每一列為一個屬性,對關系型數據庫進行操作通常采用結構化查詢語言。

l 鍵值數據

是一種非關系數據庫,它使用簡單的鍵值方法來存儲數據。鍵值數據庫将數據存儲為鍵值對集合,其中鍵作為唯一标識符。鍵和值都可以是從簡單對象到複雜複合對象的任何内容。鍵值數據庫是高度可分區的,并且允許以其他類型的數據庫無法實現的規模進行水平擴展。

l 列式數據

是一種非關系數據庫,以列相關存儲架構進行數據存儲的數據庫,主要适合于批量數據處理和即時查詢。相對應的是行式數據庫,數據以行相關的存儲體系架構進行空間分配,主要适合于小批量的數據處理,常用于聯機事務型數據處理。

l 圖數據

是一種非關系型數據庫,它應用圖形理論存儲實體之間的關系信息。比如,社會網絡中人與人之間的關系。

l 文檔數據

是NoSQL中非常重要的一個分支,它主要用來存儲、索引并管理面向文檔的數據或者類似的半結構化數據。

6. 按數據的産生頻率

l 批量數據

這種方式下,數據每隔一段時間提供一次,把該時段内所有變化的數據都提供過來。批量方式時效較低,大部分傳統系統都采用T 1方式,業務用戶最快隻能分析到前一天的數據,看前一天的報表。

l 實時數據

每當數據發生變化或産生新數據,就會立刻提供過來。這種方式時效快,能有效滿足時效要求高的業務,比如場景營銷。但該方式對技術要求更高,必須保證系統足夠穩定,一旦出現數據錯誤,容易造成較嚴重的業務影響。

7. 按數據的使用頻率

l 熱數據

熱數據是需要被計算節點頻繁訪問的在線類數據。

比如可以是半年以内的數據,用戶經常會查詢它們。熱數據适合放在數據庫中存儲,比如MySql、MongoDB和Hbase等。

l 冷數據

冷數據是指離線類不經常訪問的數據。主要用于災難恢複的備份或者因為要遵守法律規定必須保留一段時間,比如企業備份數據、業務與操作日志數據、話單與統計數據等。

冷數據通常會存儲在性能較低、價格較便宜的文件系統裡,适用于離線分析,比如機器學習中的模型訓練或者大數據分析。

l 溫數據

溫數據是非即時的狀态和行為數據,也可以簡單理解為把熱數據和冷數據混在一起就成了溫數據。如果整體數據量不大,也可以不區分溫數據和熱數據。

8. 按數據的連續屬性

l 連續型數據

連續數據類型代表着數據的取值是連續不間斷的,可以用某種尺度進行連續的測量取值,在可能值的有限或無限範圍内都可以無限取值。

從統計學上講,範圍是指最高和最低觀察值之間的差異。連續數據可以分解為分數和小數,即可以根據測量精度将其有意義地細分為更小的部分。

例如人的身高,商品的價格,水果的重量等。

l 離散型數據

離散數據是指依賴計數的定量數據類型,僅包括那些隻能以整數或整數計算并且是獨立的值,這意味着數據不能分解為小數或小數。

例如,學校的學生人數,停車場的汽車數量,實驗室的計算機數量,動物園的動物數量等。

9. 按數據的測量尺度(統計數據的分類)

l 定類數據

名義級數據,表示個體在屬性上的特征或類别上的不同變量,僅僅是一種标志,沒有序次關系。

例如,性别“男”編碼為1,“女”編碼為2。

定類數據是數據的最低級。

l 定序數據

用數字表示個體在某個有序狀态中所處的位置,不能做四則運算。

具有内在固有大小或高低順序,能夠對事物進行分類,比較事物之間的大小差異,但不能做四則運算。

例如,“受教育程度”,文盲半文盲=1,小學=2,初中=3,高中=4,大學=5,碩士研究生=6,博士及其以上=7。

定序數據是數據的中間級。

l 定距數據

由定距尺度計量形成的,具有間距特征的變量,表現為數值,有單位,是對事物進行精确描述的數據。

定距尺度不僅能比較各類事物的優劣,還能計算出事物之間差異的大小,所以其數據表現為“數值”。

定距數據可以進行加減運算,但不能做乘除運算,其原因為定距尺度中沒有絕對零點(定距尺度中的“0”是作為比較的标準,不表示沒有)。

例如,每一度的溫差都是相同的,為1度;再比如,百分制考試成績,分值之間的間隔一般為10分,即60~70分為一檔,70~80分為一檔,80~90分為一檔。

l 定比數據

是有序的數據排列,存在一個絕對的零點,所描述的都是具有零值基準的變量,包括重量、高度和長度等。如商品的銷售額。

定比數據既有測量單位,也有絕對零點(可以取值為0),可以做乘除運算。

定比數據是數據的最高級。

不同測度級别的數據,應用範圍不同。等級高的數據,可以兼有等級低的數據的功能,而等級低的數據,不能兼有等級高的數據的功能。

一般來說,數據的等級越高,應用範圍越廣泛,等級越低,應用範圍越受限。

10.按數據的共享屬性

公共數據按照共享屬性分為無條件共享類、有條件共享類和不予共享類三種類型。

l 無條件共享類

可以提供給所有公共管理和服務機構共享使用的公共數據屬于無條件共享類。

l 有條件共享類

可以按照一定條件提供給有關公共管理和服務機構共享使用的公共數據屬于有條件共享類。

l 不予共享類

不宜提供給其他公共管理和服務機構共享使用的公共數據屬于不予共享類。

11.按數據的開放屬性

公共數據按數據的開放屬性,可以分為禁止開放類、受限開放類、無條件開放類等。

l 禁止開放類

開放後涉及國家安全、公共安全、經濟安全和社會穩定的;涉及商業秘密、個人隐私的;因數據獲取協議或者知識産權保護等禁止開放的;法律、法規規定不得開放的。

l 受限開放類

涉及商業機密、個人隐私,其指向的特定公民、法人或者其它組織同意開放,且法律、法規未禁止的;開放将嚴重擠占公共基礎設施資源,影響公共數據處理效率的;開放安全風險難以評估的;依法經脫敏、脫密等處理的禁止開放類公共數據,符合受限開放的,應列為受限開放類公共數據。

l 無條件開放類

除禁止開放類與受限開放類公共數據以外的其他公共數據;已脫敏、脫密等處理的禁止開放類與受限開放類公共數據,符合無條件開放的,可列為無條件開放類公共數據。

12.按字段的類型

l 文本類(string、char、text等)

文本類數據常用于描述性字段,如姓名、地址、交易摘要等。這類數據不是量化值,不能直接用于四則運算。在使用時,可先對該字段進行标準化處理(比如地址标準化)再進行字符匹配,也可直接模糊匹配。

l 數值類(int、float、number等)

數值類數據用于描述量化屬性,或用于編碼。如交易金額、額度、商品數量、積分數、客戶評分等都屬于量化屬性,可直接用于四則運算,是日常計算指标的核心字段。郵編、身份證号碼、卡号之類的則屬于編碼,是對多個枚舉值進行有規則編碼,可進行四則運算,但無實質業務含義,不少編碼都作為維度存在。

l 時間類(data、timestamp等)

時間類數據僅用于描述事件發生的時間,時間是一個非常重要的數據分析維度。

13.按數據的粒度

l 明細數據

通常從業務系統獲取的原始數據,是粒度比較小的,包括大量業務細節。比如,客戶表中包含每個客戶的性别、年齡、姓名等數據,交易表中包含每筆交易的時間、地點、金額等數據。這種數據我們稱之為明細數據。明細數據雖然包括了最為豐富的業務細節,但在分析和挖掘時,往往需要進行大量的計算,效率比較低。

l 彙總數據

為了提高數據分析效率,需要對數據進行預加工,通常按時間維度、地區維度、産品維度等常用維度進行彙總。分析數據時,優先使用彙總數據,如果彙總數據滿足不了需求則使用明細數據,以此提高數據使用效率。

14.按數據的歸屬主體

l 政府數據

政府數據是指政府所擁有和管理的數據,以及政府因開展工作而産生或因管理服務需求而采集的外部大數據,為政府自有和面向政府的大數據。狹義上的政府數據主要包括公安、交通、醫療、衛生、就業、社保、地理、文化、教育、科技、環境、金融、統計及氣象等數據。

l 企業數據

企業數據是指所有與企業經營相關的信息和資料,包括企業概況、産品信息、經營數據及研究成果等,也包括企業的商業機密。

l 個人數據

個人數據是指以電子或其他方式記錄的能夠單獨或與其他信息結合識别自然人個人身份的各種信息,包括但不限于自然人的姓名、出生日期、身份證件号碼、個人生物識别信息、住址及電話号碼等。

15.按公民個人維度

按照數據是否可識别自然人或與自然人關聯,将數據分為個人信息、非個人信息。

16.按公共管理維度

為便于國家機關管理數據、促進數據共享開放,将數據分為公共數據、社會數據。

17.按信息傳播維度

按照數據是否具有公共傳播屬性,将數據分為公共傳播信息、非公共傳播信息。

18.按行業領域維度

按照數據處理涉及的行業領域,将數據分為工業數據、電信數據、金融數據、交通數據、自然資源數據、衛生健康數據、教育數據、科技數據等,其他行業領域可參考GB/T 4754—2017《國民經濟行業分類》。

19.按組織經營維度

分為用戶數據、業務數據、經營管理數據、系統運行和安全數據。

l 用戶數據

組織在開展業務服務過程中從個人用戶或組織用戶收集的數據,以及在業務服務過程中産生的歸屬于用戶的數據。如個人用戶信息(即個人信息)、組織用戶信息(如組織基本信息、組織賬号信息、組織信用信息等)。

l 業務數據

組織在業務生産過程中收集和産生的非用戶類數據。如産品數據、合同協議等。

l 經營管理數據

組織在機構經營管理過程中收集和産生的數據。如經營戰略、财務數據、并購及融資信息等。

l 系統運行和安全數據

網絡和信息系統運維及網絡安全數據。如網絡和信息系統的配置數據、網絡安全監測數據、備份數據、日志數據、安全漏洞信息等。

20.按組織數據的來源

按組織數據的來源,分為内部數據和外部數據。

内部數據自己單位内部産生的數據。

外部數據指從本單位外部得到的數據。

21.按數據的業務主題

企業或組織通常都有自己的業務分類,基于數據所反映的業務主題,可以将數據按業務闆塊、數據域、數據主題等層次進行分類。

比如電商企業,按業務域分類,可以分為零售闆塊、物流闆塊、金融闆塊等。

按數據域劃分,通常會包括營銷域、銷售域、會員域、供應鍊域、産品域、财務域、人事域等。

總之,數據分類在數據資産管理中的價值很大,但一定要以業務價值為導向,要麼提升管理效率,要麼能提升客戶體驗,不要為了分類而分類。(全文完)

相關推薦:

數據、信息、知識、智慧的基本概念及DIKM模型介紹、

數據治理、數據管理、數據資産管理等相關概念辨析

萬字長文,全面闡述數據治理體系

基于數據應用層次的數據分類模型

感恩遇見,如果覺得有用,記得點擊右上方的“關注”喲,定期為您分享實用的幹貨~

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved