業務闆塊 業務闆塊定義了數據倉庫的多種命名空間,是一種系統級的概念對象。當數據的業務含義存在較大差異時,你可以創建不同的業務闆塊讓各成員獨立管理不同的業務,後續數據倉庫的建設将受到業務闆塊的約束。Pulsar中,項目可以歸屬至業務闆塊以實現規範建模功能,在同一個業務闆塊中可能包含多個不同的項目,所以業務闆塊與項目的關系為1:N。
主題域 主題域主要用于存放同一業務闆塊内不同概念的指标。例如,你可以劃分出商品域、交易域、會員域等,用于存放不同意義的指标。
業務過程 業務過程即業務活動中所有的事件,一般為不可拆分的事件。創建業務過程,是為了從頂層視角,規範業務中的事務内容的類型及唯一性。
維度 維度即進行統計的對象。通常情況下,維度是實際存在、不因事件發生就存在的實體。Pulsar中遵循的是Ralph Kimball的維度建模理論,創建維度,即從頂層規範業務中實體(或稱主數據)的存在性及唯一性。維度及維度組合,也是派生指标的統計粒度。
指标 指标分為原子指标和派生指标,後者是以前者為基準,組裝統計粒度、統計周期及業務限定生成。
原子指标是對指标統計口徑、具體算法的一個抽象。根據計算邏輯複雜性,Pulsar将原子指标分為兩種:
原生的原子指标:例如支付金額。
衍生原子指标:基于原子指标組合構建。例如,客單價為支付金額除以買家數。
派生指标是業務中常用的統計指标。為保證統計指标标準、規範、無二義性地生成,OneData方法論将派生指标抽象為四部分:派生指标=原子指标 業務限定 統計周期 統計粒度。
業務限定 統計的業務範圍,篩選出符合業務規則的記錄(類似于SQL中where後的條件,不包括時間區間),原子指标是計算邏輯的标準化定義,業務限定則是條件限制的标準化定義。
統計周期 統計的時間範圍,也可以稱為時間周期。例如最近1天、最近30天等(類似于SQL中where後的時間條件)。
統計粒度 統計分析的對象或視角,定義數據需要彙總的程度,可以理解為聚合運算時的分組條件(類似于SQL中group by的對象)。粒度是維度的一個組合,指明你的統計範圍。例如,某個指标是某個賣家在某個省份的成交額,則粒度就是賣家、省份這兩個維度的組合。如果你需要統計全表的數據,則粒度為全表。在指定粒度時,你需要充分考慮到業務和維度的關系。統計粒度也被稱為粒度,是維度或維度組合,一般用于派生指标構建,是彙總表的唯一性識别方式。
各基本概念之間的關系如下圖所示:
以銷售主題為例,說明在數據處理過程中的數倉各層:
本文作者:CIO之家的朋友 來源:CIO之家的朋友們
CIO之家 www.ciozj.com imciow
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!