tft每日頭條

 > 科技

 > 數據倉庫是咋樣搭建的

數據倉庫是咋樣搭建的

科技 更新时间:2025-01-09 11:37:09

希望 了解數倉的整體建設中的細節及模闆。那有啥說的,上幹貨!

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)1

數倉全景圖鎮樓

00

建設過程

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)2

數倉建模的過程分為業務建模、領域建模、邏輯建模和物理建模,但是這 些步驟比較抽象。為了便于落地,我根據自己的經驗,總結出上面的七個步驟:梳理業務流程、垂直切分、指标體系梳理、實體關系調研、維度梳理、數倉分層以及物理模型建立。每個步驟不說理論,直接放工具、模闆和案例。

01

業務流程

1

找到公司核心業務流程,找到誰,在什麼環節,做什麼關鍵動作,得到什麼結果。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)3

2

梳理每個業務節點的客戶及關注重點,找到數據在哪。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)4

02

分域/主題

3

決定數倉的建設方式,快速交活,就用自下而上的建設。要全面支撐,就頂層規劃,分步實施,交活稍微慢點。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)5

4

同時按照業務領域劃分主題域。主題域的劃分方法有:按業務流劃分(推薦)、按需求分、按職責分、按産品功能分等。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)6

03

指标體系

5

指标的意義在于統一語言,統一口徑。所以指标的定義必須有嚴格的标準。否則如無根之水。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)7

指标可分為原子指标、派生指标和衍生指标,其含義及命名規則舉例如下:

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)8

6

依照指标體系建設标準,開始梳理指标體系。整個體系同樣要以業務為核心進行梳理。同時梳理每個業務過程所需的維度。維度就是你觀察這個業務的角度,指标就是衡量這個業務結果 好壞的量化結果。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)9

請注意,此時不能被現有數據局限。如果分析出這個業務過程應該有這個指标,但是沒有數據,請标注出來,提出收集數據的需求。

04

實體關系

7

每個業務動作都會有數據産生。我們将能夠獲取到的數據,提取實體,繪制ER圖,便于之後的維度建模。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)10

8

同樣以業務過程為起點向下梳理,此時的核心是業務表。把每張表中涉及的維度、指标都整理出來。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)11

05

維度整理

9

維度标準化是将各個業務系統中相同的維度進行統一的過程。其字段名稱、代碼、名字都可能不一樣,我們需要完全掌握,并标準化。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)12

維度的标準盡可能參照國家标準、行業标準。例如地區可以參照國家行政區域代碼。

另外,有些維度存在層級,如區域的省、市、縣。絕大多數業務系統中的級聯就是多層級維度。

06

數倉分層

10

數據倉庫一般分為4層,名字可能會不一樣,但是其目的和建設方法基本一緻:

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)13

每一層采用的建模方法都不一樣,其核心是逐層解耦。越到底層,越接近業務發生的記錄,越到上層,越接近業務目标。

11

依托數倉分層的設計理論,根據實際業務場景,我們就可以梳理出整體的數據流向圖。這張圖會很清晰的告訴所有人,數據從那來,到哪裡去,最終提供什麼樣的服務。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)14

07

模型建立

12

此時才真正進入純代碼階段。數倉、etl工具選型;ETL流程開發;cube的建立;任務調度,設定更新方式、更新頻率;每日查看日志、監控etl執行情況等等。

數據倉庫是咋樣搭建的(如何搭建一個數據倉庫)15

前面梳理清楚了,ETL會變的非常清晰

私貨

1、數倉建設必須從業務中來,到業務中去;

2、數倉分層的目的是業務解耦;

3、無論哪種建模方式,其核心是業務實體;

4、按領域建設能快速交活,後遺症将會在2年之後爆發,且難以解決;

5、數倉建設應該把75%的時間投入到設計階段,如果不是,那你就慘了;

6、數倉本身也可以叠代。

7、傳統數倉并沒有一種叫做“寬表模型”的模型,大數據時代新誕生的名詞,因為很多大數據組件join代價極高。實際上是範式退化。

作者:彭文華 大數據架構師 分享數據分析、大數據技術、數倉建設相關的技術、方法論、案例、解決方案。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved