大數據裡面有個專有名詞: 數據血緣, 可能很多人很好奇, 不知道這個詞什麼意思。
數據血緣指的是大數據體系裡面,數據經過數據采集 - 入湖 - 入庫分析 - 數據清洗轉換 - BI展示 等等處理過程中形成的脈絡。
簡單來說其實就是源數據是同一個,但是衍生了很多數據血脈,用人類生物繼承學的觀點來說,這一整條數據鍊路也就形成了某個業務的數據血緣。
數據血緣的特征1. 歸屬性。一般來說,特定的數據歸屬特定的組織或者個人,數據具有歸屬性。
2. 多源性。同一個數據可以有多個來源(多個父親)。一個數據可以是多個數據經過加工生成的,而且這種加工過程可以是多個。
3. 可追溯性。數據的血緣關系體現了數據的生命周期,體現了數據從産生到消亡的整個過程,具備可追溯性。
4. 層次性。數據的血緣關系是有層次的。對數據進行分類、歸納、總結等描述信息又會形成新的數據,不同程度地描述信息形成了數據的層次。
數據血緣實例一個簡單的數據流轉圖:
可以看出數據的來源可以是多個,數據處理的過程可以自定義擴展,但是同一個數據是可以依據數據血緣圖進行溯源的。
數據血緣圖
上圖實際所體現的表:
數據流轉表
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!