tft每日頭條

 > 科技

 > 數據集成是幹嘛的

數據集成是幹嘛的

科技 更新时间:2025-01-08 14:33:42

企業數據集成是将不同來源的數據整合在一個數據庫中的過程,即異構數據之間的同步。将不同種類,不同版本的數據庫、文件、Mail等之間進行同步。由于不同的數據源定義屬性時命名規則不同,存入的數據格式、取值方式、單位都會有不同。因此即便兩個值代表的業務意義相同,也不代表存在數據庫中的值就是相同的。因此需要數據入庫前進行集成,去冗餘,保證數據質量。數據集成可以認為是ETL(BI上的定義為:抽取——轉換——清洗——過濾——加載);但更強調自動化過程管理。

在實現機制上,應包括常見的集成模式:Split/Merge/Route/PS等;另外還應該具備建模(元數據管理)和治理(Governace)功能。

數據集成有什麼意義呢?

數據集成意義主要是實現數據中心,例如企業級SID;或者遺留系統在數據層面的集成。在建立全局SID的基礎上,可以構建很多有意義的東西:例 如Portal/CMS,報表,數據搜索,挖掘等等,這些可以概括地稱為BI,即商業智能。

因此,數據集成有兩個層面的意義

1)操作層面

2)分析層面

數據集成的實現步驟:

1.界定數據交互的項别與内容,如:PDM系統和ERP系統之間的BOM數據;

2.指定數據交互周期,一天一次,還是一周一次;

3.選擇交互方式,通過數據庫,還是中間件技術來交互;

4.由ODS數據交互調度程序實現數據上載或是由外圍系統自行實現數據下載,從而實現數據的集成。

數據集成是幹嘛的(企業數據集成是什麼呢)1

大數據

數據集成會出現什麼問題:

1.數據重複

檢查數據重複一般需要通過主要關鍵詞,最好對主要關鍵詞進行優化,過濾掉重複數據。在數據結構上盡量調研每個字段的含義,拆分或整合。重複數據入庫,不僅會給日後的數據關聯造成極大的影響,也會影響數據分析與挖掘的效果,應盡量避免。

2.數據沖突

數據沖突就是兩個數據源中同樣的數據,但是取值記錄的不一樣。造成這種情況除了有人工誤入,還有可能是因為貨币計量的方法不同,彙率不同,稅收水平不同、評分體系不同等等原因。

對待數據沖突問題,就需要對實際的業務知識有一定的理解。同時,對數據進行調研,盡量明确造成沖突的原因。如果數據的沖突實在無法避免,就要考慮沖突數據是否要保留、是否要進行取舍,如何取舍等。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved