tft每日頭條

 > 科技

 > etl介紹與etl工具比較

etl介紹與etl工具比較

科技 更新时间:2024-12-03 22:32:39

需求綜合

需求綜合的含義是:收集并且理解所有已知的将會影響ETL系統的需求、現實和約束等。需求的列表可能會很長,但在開始ETL系統開發前,都已經收集到了表中。

需求一:業務需求

用戶的信息需求。用戶用于制定明智的商業抉擇所需要的信息内容。因為商業需求直接驅動對數據源的選擇以及選擇的數據源在ETL系統中轉換的結果。

在項目支持業務需求定義期間,必須維護一個揭示關鍵性能指标的列表,以及業務用戶需要研究某個關鍵指标為什麼發生變化時,所需要的下鑽和跨鑽目标。

需求二:合規性

etl介紹與etl工具比較(ETL系統相關技術和注意事項)1

合規性

列出所有數據以及最終報表主題需要遵守的法律限制。列出這些數據輸入和數據轉換的步驟,需要維護“監管鍊”,現實并且證明最終報表是來自發布的數據源的原始數據。

對于合規性,我工作還沒有這方面嚴格的要求。

需求三:數據質量

etl介紹與etl工具比較(ETL系統相關技術和注意事項)2

數據質量

需要将那些已經知道的不中意的數據元素記錄下來,是否與源系統達成共識以便在獲取數據之前進行更正。

列舉數據分析期間發現的那些需要在ETL過程中持續監控和标記的數據元素。

需求四:安全性

etl介紹與etl工具比較(ETL系統相關技術和注意事項)3

安全性

1,對于大多數DW/BI小組來說,安全通暢處于時候考慮的位置且被視為負擔而不受歡迎。

2,應該将合規性列表擴展,使其包含熟知的安全和隐私需求。

3,數據應該被限制發送給那些需要知道的那些人。

4,物理備份也需要做安全性的檢查。

5,在需求綜合期間,DW/BI小組應該尋求高管層的明确指示,指明DW/BI 系統的那些方面應該運用額外的安全措施。如果沒有明确指示,也沒有安全管理員參與的時候,使用最小擴散範圍。

需求五:數據集成

etl介紹與etl工具比較(ETL系統相關技術和注意事項)4

數據集成

1,對于數據集成來說,我們的最終目标是做出 企業的全景視圖

2,全面的數據集成很難實現,除非企業具有全面的、集中式的主數據管理系統(Master Data Management ,MDM)系統,即使有的話,也仍然可能會有一些重要的數據并沒有進入到主 MDM 中。

3,一緻性維度意味着跨不同的數據庫系統建立公共維度屬性。一緻性意味着對公共業務度量達成一緻,公共業務度量包括跨不同數據庫的關鍵性能指标KPI,隻有這樣,才能使用這些數據通過計算差異和比率開展數學比較工作。

4,應當充分利用業務過程的總線矩陣建立一緻性維度的優先列表,對每個總線矩陣的行進行标注,知明參與到集成過程中的業務是否有明确的執行需求。

需求六:數據延遲

etl介紹與etl工具比較(ETL系統相關技術和注意事項)5

數據延遲

1,标注每個需求,明确業務團體是否了解與他們特定選擇相關的數據質量的權衡。

2,數據延遲需求對 ETL 架構具有較大的影響。高效的處理算法、并行化以及強大的硬件系統可以加快傳統的面向批處理的數據流,但是在有些情況下,如果數據延遲需求非常緊迫,ETL 系統的架構必須從批處理方式轉換為微批處理方式或者面向流處理的方式。

需求七:歸檔與世系

etl介紹與etl工具比較(ETL系統相關技術和注意事項)6

歸檔與世系

1,每個數據倉庫也都需要有以往數據的各種副本,要麼與新數據比較以便建立發生變化的記錄,要麼重新處理。

2,建議在每個ETL流水線的主要活動發生後暫存數據(将其寫入磁盤):在數據被獲取、清洗和一緻化、發布後 暫存數據。

3,那麼什麼時候将暫存轉入歸檔,我喜歡将所有暫存數據歸檔。除非有專門的定義明确認為特定的數據集合将來不在需要。

4,每個暫存/歸檔數據集合都應該包含描述來源和建立數據的處理步驟的元數據。按照某些合規性需求的需求,對該世系的跟蹤是明确需要的,應該成為每個歸檔環境的一部分内容。

5,應當記錄數據源和歸檔的中間數據步驟以及保留政策、安全和隐私方面的約束。

需求八:BI發布接口

1,數據的内容和結構能夠是BI引用簡單而快速。以模糊的方式将數據推到BI應用是不負責任的表現,将會增加應用的複雜性,減緩查詢或報表的構建,不必要地增加了商業用戶使用數據的複雜性。

2,列出BI工具需要的所有OLAP多維數據庫和特定的數據庫結構,列出所有您已經打算建立用于支持BI性能的已知的索引和聚類。

需求九:可用的技能

1,查清所在部門的操作系統,ETL工具,腳本語言,編程語言,SQL,DBMS以及OLAP技能,這樣可以理解如何暴露出所缺乏的技能。

2,列出需要支持當前系統以及未來可能有的系統的那些技能。

需求十:傳統的許可證書

1,目前我們大多使用的是開源軟件。還沒有遇到許可證書的問題。

2,列出現有操作系統 的許可證書,無論他們是獨家使用授權還是僅僅被建議使用的情況。

3,當打算更換目前的正在使用的許可證書時候,需要做出充分的準備。


數據倉庫-讀書筆記一

數據倉庫-DW/BI架構對比-讀書筆記二

數據倉庫-事實表/維度表技術-讀書筆記三

數據倉庫-維度處理-讀書筆記(四)

數據倉庫-高級事實表技術-讀書筆記五

數據倉庫-高級維度表技術-讀書筆記六

數據倉庫-零售業務舉例維度模型設計4步驟-讀書筆記(七)

數據倉庫-零售業務舉例維度表設計細節-讀書筆記(八)

數據倉庫-零售業務舉例如何提高倉庫擴展能力-讀書筆記(九)

數據平台建設整體思路闡述和總結

數據倉庫-零售業務中庫存如何設計-讀書筆記(十)

數據倉庫中如何使用緩慢變化維技術


數據僧 (公衆号,頭條号,簡書号)參考資料

數據倉庫工具箱

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部
勢組詞

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved