企業數據集成是将不同來源的數據整合在一個數據庫中的過程,即異構數據之間的同步。将不同種類,不同版本的數據庫、文件、Mail等之間進行同步。由于不同的數據源定義屬性時命名規則不同,存入的數據格式、取值方式、單位都會有不同。因此即便兩個值代表的業務意義相同,也不代表存在數據庫中的值就是相同的。因此需要數據入庫前進行集成,去冗餘,保證數據質量。數據集成可以認為是ETL(BI上的定義為:抽取——轉換——清洗——過濾——加載);但更強調自動化過程管理。
在實現機制上,應包括常見的集成模式:Split/Merge/Route/PS等;另外還應該具備建模(元數據管理)和治理(Governace)功能。
數據集成有什麼意義呢?
數據集成意義主要是實現數據中心,例如企業級SID;或者遺留系統在數據層面的集成。在建立全局SID的基礎上,可以構建很多有意義的東西:例 如Portal/CMS,報表,數據搜索,挖掘等等,這些可以概括地稱為BI,即商業智能。
因此,數據集成有兩個層面的意義:
1)操作層面
2)分析層面
數據集成的實現步驟:
1.界定數據交互的項别與内容,如:PDM系統和ERP系統之間的BOM數據;
2.指定數據交互周期,一天一次,還是一周一次;
3.選擇交互方式,通過數據庫,還是中間件技術來交互;
4.由ODS數據交互調度程序實現數據上載或是由外圍系統自行實現數據下載,從而實現數據的集成。
大數據
數據集成會出現什麼問題:
1.數據重複
檢查數據重複一般需要通過主要關鍵詞,最好對主要關鍵詞進行優化,過濾掉重複數據。在數據結構上盡量調研每個字段的含義,拆分或整合。重複數據入庫,不僅會給日後的數據關聯造成極大的影響,也會影響數據分析與挖掘的效果,應盡量避免。
2.數據沖突
數據沖突就是兩個數據源中同樣的數據,但是取值記錄的不一樣。造成這種情況除了有人工誤入,還有可能是因為貨币計量的方法不同,彙率不同,稅收水平不同、評分體系不同等等原因。
對待數據沖突問題,就需要對實際的業務知識有一定的理解。同時,對數據進行調研,盡量明确造成沖突的原因。如果數據的沖突實在無法避免,就要考慮沖突數據是否要保留、是否要進行取舍,如何取舍等。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!